Fugu-MT 論文翻訳(概要): Implicit Intelligence -- Evaluating Agents on What Users Don't Say

論文の概要: Implicit Intelligence -- Evaluating Agents on What Users Don't Say

arxiv url: http://arxiv.org/abs/2602.20424v1
Date: Mon, 23 Feb 2026 23:46:55 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-25 17:34:53.557631
Title: Implicit Intelligence -- Evaluating Agents on What Users Don't Say
Title（参考訳）: インシシティ・インテリジェンス - ユーザーが言わなかったことに対するエージェントの評価
Authors: Ved Sirdeshmukh, Marc Wetter,
Abstract要約: Implicit Intelligence(インプリシットインテリジェンス)は、AIエージェントがプロンプトフォローを超えて真のゴールフルフィルダーになるかどうかをテストするフレームワークである。我々のシナリオは、ユーザ要求における明らかな単純さ、正しいソリューションにおける隠れた複雑さ、環境探索による制約の発見性である。
参考スコア（独自算出の注目度）: 0.3580891736370874
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Real-world requests to AI agents are fundamentally underspecified. Natural human communication relies on shared context and unstated constraints that speakers expect listeners to infer. Current agentic benchmarks test explicit instruction-following but fail to evaluate whether agents can reason about implicit requirements spanning accessibility needs, privacy boundaries, catastrophic risks, and contextual constraints. We present Implicit Intelligence, an evaluation framework testing whether AI agents can move beyond prompt-following to become genuine goal-fulfillers, paired with Agent-as-a-World (AaW), a harness where interactive worlds are defined in human-readable YAML files and simulated by language models. Our scenarios feature apparent simplicity in user requests, hidden complexity in correct solutions, and discoverability of constraints through environmental exploration. Evaluating 16 frontier and open-weight models across 205 scenarios, we find that even the best-performing model achieves only 48.3% scenario pass rate, revealing substantial room for improvement in bridging the gap between literal instruction-following and human-like contextual reasoning.
Abstract（参考訳）: AIエージェントに対する現実世界の要求は、基本的には不明確である。自然なヒューマンコミュニケーションは、話者がリスナーが推測することを期待する、共有コンテキストと未定の制約に依存します。現在のエージェントベンチマークは、明示的な命令フォローをテストするが、アクセシビリティ要求、プライバシー境界、破滅的なリスク、コンテキスト制約にまたがる暗黙の要求について、エージェントが推論できるかどうかを評価することができない。 Indicit Intelligenceは、AIエージェントが即時追跡を超えて真のゴール充足者になるかどうかをテストするための評価フレームワークであり、Aエージェント・アズ・ア・ワールド(AaW)と組み合わせて、対話的世界が人間の読みやすいYAMLファイルで定義され、言語モデルによってシミュレートされるハーネスである。我々のシナリオは、ユーザ要求における明らかな単純さ、正しいソリューションにおける隠れた複雑さ、環境探索による制約の発見性である。 205シナリオにわたる16のフロンティアモデルとオープンウェイトモデルを評価すると、最高のパフォーマンスモデルでさえ48.3%のシナリオパス率しか達成できず、リテラル命令追従と人間のような文脈推論のギャップを埋める余地が明らかになる。

関連論文リスト

Benchmarking at the Edge of Comprehension [38.43582342860192]
ベンチマークが実現不可能になった場合、AIの進歩を計測する能力が重要になります。完全人間の理解が不可能な場合でも,モデルを比較するために設計された対戦型フレームワークであるCrytique-Resilient Benchmarkingを提案する。標準的なベンチマークとは異なり、人間は有界検証として機能し、ローカライズされたクレームにフォーカスする。
論文参考訳（メタデータ） (2026-02-15T20:51:29Z)
Reasoning While Asking: Transforming Reasoning Large Language Models from Passive Solvers to Proactive Inquirers [41.58256327940237]
Proactive Interactive Reasoningは、大規模言語モデルからProactive Inquirerに変換する。 PIRは、ユーザと直接対話することで、前提レベルと意図レベルの不確実性を目標とします。数学的推論、コード生成、文書編集の実験は、PIRが強いベースラインを一貫して上回ることを示した。
論文参考訳（メタデータ） (2026-01-29T18:56:12Z)
Are Your Agents Upward Deceivers? [73.1073084327614]
大規模言語モデル(LLM)ベースのエージェントは、ユーザのためにタスクを実行する自律的な従属者として、ますます使われています。これは、人間の組織の個人がどのように上官に嘘をついて良いイメージを作り出したり、罰を免れるかのような、詐欺にも関与するかどうかという問題を提起する。本研究では,環境制約に直面するエージェントが障害を隠蔽し,報告なしに要求されない動作を行う現象であるエージェント上行錯誤を観察・定義する。
論文参考訳（メタデータ） (2025-12-04T14:47:05Z)
Impatient Users Confuse AI Agents: High-fidelity Simulations of Human Traits for Testing Agents [58.00130492861884]
TraitBasisは、AIエージェントを体系的にストレステストするための軽量でモデルに依存しない方法である。 TraitBasisは、ステアブルなユーザ特性に対応するアクティベーション空間で方向を学習する。 We observed on average a 2%-30% performance degradation on $tau$-Trait across frontier model。
論文参考訳（メタデータ） (2025-10-06T05:03:57Z)
JudgeAgent: Knowledge-wise and Dynamic LLM Evaluation with Agent-as-Interviewer [19.09571232466437]
大規模言語モデル(LLM)のための動的評価パラダイムであるエージェント・アズ・インタービューアを提案する。現在のベンチマークや動的相互作用のパラダイムとは異なり、エージェント・アズ・インタービューアはエージェントを使用して動的マルチターン質問生成においてより広く深い知識を得るために知識ツールを呼び出します。我々は、知識駆動型合成をエージェントのツールとして活用し、戦略指導として難易度スコアリングを利用する知識ワイドな動的評価フレームワークであるJiceAgentを開発する。
論文参考訳（メタデータ） (2025-09-02T08:52:16Z)
CoCoNUTS: Concentrating on Content while Neglecting Uninformative Textual Styles for AI-Generated Peer Review Detection [60.52240468810558]
我々は、AI生成ピアレビューの詳細なデータセットの上に構築されたコンテンツ指向ベンチマークであるCoCoNUTSを紹介する。また、マルチタスク学習フレームワークを介してAIレビュー検出を行うCoCoDetを開発し、レビューコンテンツにおけるAIのより正確で堅牢な検出を実現する。
論文参考訳（メタデータ） (2025-08-28T06:03:11Z)
Evaluating Language Model Reasoning about Confidential Information [95.64687778185703]
言語モデルが文脈的堅牢性を示すか、文脈依存型安全仕様に準拠する能力を示すかを検討する。我々は,ユーザ要求がいつ承認されたか,言語モデルが正しく判断できるかどうかを測定するベンチマーク(PasswordEval)を開発した。現在のオープンソースとクローズドソースのモデルでは、一見単純な作業に苦労しています。
論文参考訳（メタデータ） (2025-08-27T15:39:46Z)
Open-Universe Assistance Games [6.21910767424247]
GOODは、人間との対話中に自然言語形式で目標を抽出する、データ効率のよいオンライン手法である。 GOODはLLMに、異なる複雑な意図を持つユーザをシミュレートするよう促し、その応答を使用して、候補目標に対する確率的推論を実行する。我々は、テキストベースの食料品ショッピングドメインと、テキスト操作型家庭用ロボット環境におけるGOODの評価を行った。
論文参考訳（メタデータ） (2025-08-20T23:07:10Z)
OmniEAR: Benchmarking Agent Reasoning in Embodied Tasks [52.87238755666243]
OmniEARは,言語モデルが身体的相互作用やツールの使用,マルチエージェントの協調にどう影響するかを評価するためのフレームワークである。我々は、家庭と工業領域にまたがる1500のシナリオにおける連続的な物理的特性と複雑な空間的関係をモデル化する。我々の体系的な評価は、モデルが制約から推論しなければならない場合、厳しい性能劣化を示す。
論文参考訳（メタデータ） (2025-08-07T17:54:15Z)
Teaching Language Models To Gather Information Proactively [53.85419549904644]
大規模言語モデル(LLM)は、ますます協力的なパートナーとして機能することが期待されている。本研究では,アクティブな情報収集という新たなタスクパラダイムを導入する。キー情報をマスキングする、部分的に特定された現実世界のタスクを生成するスケーラブルなフレームワークを設計する。このセットアップの中核となるイノベーションは、真に新しい暗黙のユーザー情報を引き出す質問に報酬を与える、強化された微調整戦略です。
論文参考訳（メタデータ） (2025-07-28T23:50:09Z)
Collaborative Instance Object Navigation: Leveraging Uncertainty-Awareness to Minimize Human-Agent Dialogues [54.81155589931697]
協調インスタンスオブジェクトナビゲーション(CoIN)は、エージェントがターゲットインスタンスに関する不確実性を積極的に解決する新しいタスク設定である。未認識者に対するエージェント・ユーザインタラクション(AIUTA)の新たな学習自由化手法を提案する。まず、オブジェクト検出時に、セルフクエチオナーモデルがエージェント内で自己対話を開始し、完全かつ正確な観察記述を得る。インタラクショントリガーモジュールは、人間に質問するか、継続するか、ナビゲーションを停止するかを決定する。
論文参考訳（メタデータ） (2024-12-02T08:16:38Z)
Reflexion: Language Agents with Verbal Reinforcement Learning [44.85337947858337]
リフレクション(Reflexion)は、ウェイトを更新するのではなく、言語フィードバックによって言語エージェントを強化する新しいフレームワークである。様々なタイプ(スカラー値または自由形式言語)とフィードバック信号のソース(外部または内部シミュレート)を組み込むのに十分な柔軟性がある。例えば、ReflexionはHumanEvalのコーディングベンチマークで91%のパス@1精度を達成した。
論文参考訳（メタデータ） (2023-03-20T18:08:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。