論文の概要: Can Large Language Models Adapt to Other Agents In-Context?
- arxiv url: http://arxiv.org/abs/2412.19726v1
- Date: Fri, 27 Dec 2024 16:30:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 17:26:49.920268
- Title: Can Large Language Models Adapt to Other Agents In-Context?
- Title(参考訳): 大規模言語モデルは他のエージェントに適応できるか?
- Authors: Matthew Riemer, Zahra Ashktorab, Djallel Bouneffouf, Payel Das, Miao Liu, Justin D. Weisz, Murray Campbell,
- Abstract要約: 近年の研究では、大きな言語モデルのマインド能力の理論は非常に印象的であり、人間レベルの性能を近似していることが示唆されている。
過去の研究では, エージェントのパフォーマンスを直接測定することはなく, 自然界の光沢のある発見につながっている可能性が示唆された。
最高のパフォーマンスのオープンソースLLMは、どのように引き起こされるかによって、心のリテラル理論に強い能力を示すかもしれませんが、機能的な心の理論に苦慮しているようです。
- 参考スコア(独自算出の注目度): 41.832853832803046
- License:
- Abstract: As the research community aims to build better AI assistants that are more dynamic and personalized to the diversity of humans that they interact with, there is increased interest in evaluating the theory of mind capabilities of large language models (LLMs). Indeed, several recent studies suggest that LLM theory of mind capabilities are quite impressive, approximating human-level performance. Our paper aims to rebuke this narrative and argues instead that past studies were not directly measuring agent performance, potentially leading to findings that are illusory in nature as a result. We draw a strong distinction between what we call literal theory of mind i.e. measuring the agent's ability to predict the behavior of others and functional theory of mind i.e. adapting to agents in-context based on a rational response to predictions of their behavior. We find that top performing open source LLMs may display strong capabilities in literal theory of mind, depending on how they are prompted, but seem to struggle with functional theory of mind -- even when partner policies are exceedingly simple. Our work serves to highlight the double sided nature of inductive bias in LLMs when adapting to new situations. While this bias can lead to strong performance over limited horizons, it often hinders convergence to optimal long-term behavior.
- Abstract(参考訳): 研究コミュニティは、対話する人間の多様性によりダイナミックでパーソナライズされたより良いAIアシスタントを構築することを目的としているため、大きな言語モデル(LLM)のマインド能力の理論を評価することへの関心が高まっている。
事実、近年のいくつかの研究は、LLMの精神能力の理論は非常に印象的であり、人間レベルのパフォーマンスを近似していることを示唆している。
本稿は,この物語を覆すことを目的としており,過去の研究はエージェントのパフォーマンスを直接測定するものではなく,結果として自然に照らされた発見につながる可能性がある,と論じている。
我々は、心のリテラル理論(リテラル理論)、すなわち、他者の行動を予測するエージェントの能力と、その行動の予測に対する合理的な応答に基づいて、コンテキスト内のエージェントに適応する心の機能理論とを強く区別する。
最高のパフォーマンスのオープンソースLLMは、どのように引き起こされるかによって、心のリテラル理論に強い能力を示すかもしれませんが、機能的な心の理論に苦慮しているようです。
我々の研究は、新しい状況に適応する際の LLM における帰納バイアスの両側面の性質を強調するのに役立ちます。
このバイアスは、限られた水平線上での強い性能をもたらすが、しばしば最適な長期的な行動への収束を妨げる。
関連論文リスト
- Hypothesis-Driven Theory-of-Mind Reasoning for Large Language Models [76.6028674686018]
エージェントの精神状態を追跡するための推論時間推論アルゴリズムである思考トレースを導入する。
提案アルゴリズムは,ベイズ理論をモデルとした。
本研究は,様々なベンチマークにおける思考トレーシングを評価し,大幅な性能向上を実証した。
論文 参考訳(メタデータ) (2025-02-17T15:08:50Z) - Thoughts Are All Over the Place: On the Underthinking of o1-Like LLMs [86.79757571440082]
OpenAIのo1のような大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な能力を示している。
我々は、o1-like LLMがしばしば異なる理性的思考を切り替える、という現象を特定する。
本稿では,思考間の早期移行を回避できる思考切替ペナルティTIPを用いた復号戦略を提案する。
論文 参考訳(メタデータ) (2025-01-30T18:58:18Z) - Do Large Language Models Truly Grasp Mathematics? An Empirical Exploration From Cognitive Psychology [13.964263002704582]
提案手法は,Chains of Thoughtプロンプトを用いても,修正されたCRT問題を解く際の誤り率が高いことを示す。
具体的には、従来の質問と比べて平均精度が最大50%低下した。
この発見は、LLMが人間に匹敵する真の数学的推論能力を持っているという信念に挑戦する。
論文 参考訳(メタデータ) (2024-10-19T05:01:56Z) - PHAnToM: Persona-based Prompting Has An Effect on Theory-of-Mind Reasoning in Large Language Models [25.657579792829743]
我々は,ロールプレイングの促進が理論・オブ・ミンド(ToM)推論能力にどのように影響するかを実証的に評価した。
本稿では、推論タスクの複雑さの固有のばらつきを超えて、社会的に動機づけられた相違が原因で、パフォーマンスの違いが発生するメカニズムを提案する。
論文 参考訳(メタデータ) (2024-03-04T17:34:34Z) - Think Twice: Perspective-Taking Improves Large Language Models'
Theory-of-Mind Capabilities [63.90227161974381]
SimToMは、シミュレーション理論の視点取りの概念にインスパイアされた、新しいプロンプトフレームワークである。
我々のアプローチは、追加のトレーニングや最小限のプロンプトチューニングを必要とせず、既存の手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-11-16T22:49:27Z) - HI-TOM: A Benchmark for Evaluating Higher-Order Theory of Mind Reasoning
in Large Language Models [31.831042765744204]
心の理論(りょうがく、英: Theory of Mind、ToM)とは、自己と他者の精神状態について考える能力である。
本稿では,高次マインド理論のベンチマークであるHI-TOMを紹介する。
各種Large Language Models (LLM) を用いた実験により,高次ToMタスクの性能低下が示唆された。
論文 参考訳(メタデータ) (2023-10-25T16:41:15Z) - FANToM: A Benchmark for Stress-testing Machine Theory of Mind in
Interactions [94.61530480991627]
現在、マインド評価の理論は、本質的に相互作用性に欠ける受動的物語を用いたテストモデルに焦点を当てている。
本稿では,情報非対称な会話文脈におけるToMのストレステストを目的とした新しいベンチマークであるFANToMを紹介する。
論文 参考訳(メタデータ) (2023-10-24T00:24:11Z) - Minding Language Models' (Lack of) Theory of Mind: A Plug-and-Play
Multi-Character Belief Tracker [72.09076317574238]
ToMは,読解における文字の信念状態を調べるためのプラグアンドプレイ方式である。
ToMは、教師付きベースラインと比較して、配電性能が堅牢でありながら、ゼロオーダー設定でのオフ・ザ・シェルフニューラルネットワーク理論の考え方を強化する。
論文 参考訳(メタデータ) (2023-06-01T17:24:35Z) - Large Language Models Fail on Trivial Alterations to Theory-of-Mind
Tasks [3.3178024597495903]
理論・オブ・ミンドのタスクは成功と失敗の両方を示している。
ToMの原則を維持する小さなバリエーションは、結果を彼らの頭に向ける。
一般論として,直観心理学におけるモデル評価のゼロ仮説は懐疑的であるべきだと論じる。
論文 参考訳(メタデータ) (2023-02-16T16:18:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。