論文の概要: Can Large Language Models Adapt to Other Agents In-Context?
- arxiv url: http://arxiv.org/abs/2412.19726v1
- Date: Fri, 27 Dec 2024 16:30:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 21:44:05.329326
- Title: Can Large Language Models Adapt to Other Agents In-Context?
- Title(参考訳): 大規模言語モデルは他のエージェントに適応できるか?
- Authors: Matthew Riemer, Zahra Ashktorab, Djallel Bouneffouf, Payel Das, Miao Liu, Justin D. Weisz, Murray Campbell,
- Abstract要約: 近年の研究では、大きな言語モデルのマインド能力の理論は非常に印象的であり、人間レベルの性能を近似していることが示唆されている。
過去の研究では, エージェントのパフォーマンスを直接測定することはなく, 自然界の光沢のある発見につながっている可能性が示唆された。
最高のパフォーマンスのオープンソースLLMは、どのように引き起こされるかによって、心のリテラル理論に強い能力を示すかもしれませんが、機能的な心の理論に苦慮しているようです。
- 参考スコア(独自算出の注目度): 41.832853832803046
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As the research community aims to build better AI assistants that are more dynamic and personalized to the diversity of humans that they interact with, there is increased interest in evaluating the theory of mind capabilities of large language models (LLMs). Indeed, several recent studies suggest that LLM theory of mind capabilities are quite impressive, approximating human-level performance. Our paper aims to rebuke this narrative and argues instead that past studies were not directly measuring agent performance, potentially leading to findings that are illusory in nature as a result. We draw a strong distinction between what we call literal theory of mind i.e. measuring the agent's ability to predict the behavior of others and functional theory of mind i.e. adapting to agents in-context based on a rational response to predictions of their behavior. We find that top performing open source LLMs may display strong capabilities in literal theory of mind, depending on how they are prompted, but seem to struggle with functional theory of mind -- even when partner policies are exceedingly simple. Our work serves to highlight the double sided nature of inductive bias in LLMs when adapting to new situations. While this bias can lead to strong performance over limited horizons, it often hinders convergence to optimal long-term behavior.
- Abstract(参考訳): 研究コミュニティは、対話する人間の多様性によりダイナミックでパーソナライズされたより良いAIアシスタントを構築することを目的としているため、大きな言語モデル(LLM)のマインド能力の理論を評価することへの関心が高まっている。
事実、近年のいくつかの研究は、LLMの精神能力の理論は非常に印象的であり、人間レベルのパフォーマンスを近似していることを示唆している。
本稿は,この物語を覆すことを目的としており,過去の研究はエージェントのパフォーマンスを直接測定するものではなく,結果として自然に照らされた発見につながる可能性がある,と論じている。
我々は、心のリテラル理論(リテラル理論)、すなわち、他者の行動を予測するエージェントの能力と、その行動の予測に対する合理的な応答に基づいて、コンテキスト内のエージェントに適応する心の機能理論とを強く区別する。
最高のパフォーマンスのオープンソースLLMは、どのように引き起こされるかによって、心のリテラル理論に強い能力を示すかもしれませんが、機能的な心の理論に苦慮しているようです。
我々の研究は、新しい状況に適応する際の LLM における帰納バイアスの両側面の性質を強調するのに役立ちます。
このバイアスは、限られた水平線上での強い性能をもたらすが、しばしば最適な長期的な行動への収束を妨げる。
関連論文リスト
- Hypothesis-Driven Theory-of-Mind Reasoning for Large Language Models [76.6028674686018]
エージェントの精神状態を追跡するための推論時間推論アルゴリズムである思考トレースを導入する。
提案アルゴリズムは,ベイズ理論をモデルとした。
本研究は,様々なベンチマークにおける思考トレーシングを評価し,大幅な性能向上を実証した。
論文 参考訳(メタデータ) (2025-02-17T15:08:50Z) - Thoughts Are All Over the Place: On the Underthinking of o1-Like LLMs [86.79757571440082]
OpenAIのo1のような大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な能力を示している。
我々は、o1-like LLMがしばしば異なる理性的思考を切り替える、という現象を特定する。
本稿では,思考間の早期移行を回避できる思考切替ペナルティTIPを用いた復号戦略を提案する。
論文 参考訳(メタデータ) (2025-01-30T18:58:18Z) - Do Large Language Models Truly Grasp Mathematics? An Empirical Exploration From Cognitive Psychology [13.964263002704582]
提案手法は,Chains of Thoughtプロンプトを用いても,修正されたCRT問題を解く際の誤り率が高いことを示す。
具体的には、従来の質問と比べて平均精度が最大50%低下した。
この発見は、LLMが人間に匹敵する真の数学的推論能力を持っているという信念に挑戦する。
論文 参考訳(メタデータ) (2024-10-19T05:01:56Z) - PHAnToM: Persona-based Prompting Has An Effect on Theory-of-Mind Reasoning in Large Language Models [25.657579792829743]
我々は,ロールプレイングの促進が理論・オブ・ミンド(ToM)推論能力にどのように影響するかを実証的に評価した。
本稿では、推論タスクの複雑さの固有のばらつきを超えて、社会的に動機づけられた相違が原因で、パフォーマンスの違いが発生するメカニズムを提案する。
論文 参考訳(メタデータ) (2024-03-04T17:34:34Z) - Theory of Mind abilities of Large Language Models in Human-Robot
Interaction : An Illusion? [18.770522926093786]
大規模言語モデルは、様々な自然言語や生成タスクにおいて例外的な生成能力を示している。
高い利害関係とおそらく不可逆的な結果を持つToM能力の特殊応用について検討する。
本研究では,ロボットがLarge Language Model(LLM)を用いてロボットの動作を人間の観察者と同様の方法で評価する,知覚的行動認識の課題に焦点を当てる。
論文 参考訳(メタデータ) (2024-01-10T18:09:36Z) - Think Twice: Perspective-Taking Improves Large Language Models'
Theory-of-Mind Capabilities [63.90227161974381]
SimToMは、シミュレーション理論の視点取りの概念にインスパイアされた、新しいプロンプトフレームワークである。
我々のアプローチは、追加のトレーニングや最小限のプロンプトチューニングを必要とせず、既存の手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-11-16T22:49:27Z) - ALYMPICS: LLM Agents Meet Game Theory -- Exploring Strategic
Decision-Making with AI Agents [77.34720446306419]
Alympicsは、ゲーム理論の研究にLarge Language Model (LLM)エージェントを利用する、体系的なシミュレーションフレームワークである。
Alympicsは、複雑なゲーム理論の問題を研究するための汎用的なプラットフォームを作成する。
論文 参考訳(メタデータ) (2023-11-06T16:03:46Z) - HI-TOM: A Benchmark for Evaluating Higher-Order Theory of Mind Reasoning
in Large Language Models [31.831042765744204]
心の理論(りょうがく、英: Theory of Mind、ToM)とは、自己と他者の精神状態について考える能力である。
本稿では,高次マインド理論のベンチマークであるHI-TOMを紹介する。
各種Large Language Models (LLM) を用いた実験により,高次ToMタスクの性能低下が示唆された。
論文 参考訳(メタデータ) (2023-10-25T16:41:15Z) - FANToM: A Benchmark for Stress-testing Machine Theory of Mind in
Interactions [94.61530480991627]
現在、マインド評価の理論は、本質的に相互作用性に欠ける受動的物語を用いたテストモデルに焦点を当てている。
本稿では,情報非対称な会話文脈におけるToMのストレステストを目的とした新しいベンチマークであるFANToMを紹介する。
論文 参考訳(メタデータ) (2023-10-24T00:24:11Z) - Probing the Multi-turn Planning Capabilities of LLMs via 20 Question
Games [14.063311955315077]
大規模言語モデル(LLM)は、明らかに求められている質問に答えるのに効果的である。
不明瞭なクエリに直面した場合、予測不能に動作し、誤った出力を生成することができる。
このことは、曖昧さを効果的に解決するために明確化を問うことができる知的エージェントの開発の必要性を浮き彫りにする。
論文 参考訳(メタデータ) (2023-10-02T16:55:37Z) - Minding Language Models' (Lack of) Theory of Mind: A Plug-and-Play
Multi-Character Belief Tracker [72.09076317574238]
ToMは,読解における文字の信念状態を調べるためのプラグアンドプレイ方式である。
ToMは、教師付きベースラインと比較して、配電性能が堅牢でありながら、ゼロオーダー設定でのオフ・ザ・シェルフニューラルネットワーク理論の考え方を強化する。
論文 参考訳(メタデータ) (2023-06-01T17:24:35Z) - Machine Psychology [54.287802134327485]
我々は、心理学にインスパイアされた行動実験において、研究のための実りある方向が、大きな言語モデルに係わっていると論じる。
本稿では,本手法が表に示す理論的視点,実験パラダイム,計算解析技術について述べる。
これは、パフォーマンスベンチマークを超えた、生成人工知能(AI)のための「機械心理学」の道を開くものだ。
論文 参考訳(メタデータ) (2023-03-24T13:24:41Z) - Large Language Models Fail on Trivial Alterations to Theory-of-Mind
Tasks [3.3178024597495903]
理論・オブ・ミンドのタスクは成功と失敗の両方を示している。
ToMの原則を維持する小さなバリエーションは、結果を彼らの頭に向ける。
一般論として,直観心理学におけるモデル評価のゼロ仮説は懐疑的であるべきだと論じる。
論文 参考訳(メタデータ) (2023-02-16T16:18:03Z) - Learning Theory of Mind via Dynamic Traits Attribution [59.9781556714202]
本稿では,過去のトラジェクトリからアクターの潜在特性ベクトルを生成するニューラルToMアーキテクチャを提案する。
この特性ベクトルは、予測ニューラルネットワークの高速重み付けスキームを介して予測機構を乗法的に変調する。
実験により,高速重量はエージェントの特性をモデル化し,マインドリーディング能力を向上させるために優れた誘導バイアスを与えることが示された。
論文 参考訳(メタデータ) (2022-04-17T11:21:18Z) - Contrastive Active Inference [12.361539023886161]
本稿では,エージェントの生成モデル学習における計算負担を低減し,今後の行動計画を行うための,アクティブ推論のための対照的な目的を提案する。
提案手法は,画像に基づくタスクにおいて,確率に基づく能動推論よりも特に優れているが,計算処理が安価で,訓練も容易である。
論文 参考訳(メタデータ) (2021-10-19T16:20:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。