論文の概要: A Cognitive Evaluation of Instruction Generation Agents tl;dr They Need
Better Theory-of-Mind Capabilities
- arxiv url: http://arxiv.org/abs/2301.05149v1
- Date: Wed, 21 Dec 2022 04:43:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-15 23:17:27.057404
- Title: A Cognitive Evaluation of Instruction Generation Agents tl;dr They Need
Better Theory-of-Mind Capabilities
- Title(参考訳): 指導生成剤 tl;dr の認知的評価
- Authors: Lingjun Zhao and Khanh Nguyen and Hal Daum\'e III
- Abstract要約: ニューラルネットワークに基づく命令生成エージェントは、同様の認知能力を有することを示す。
我々は,聴取者のより優れた理論モデルでエージェントを増強し,大幅な性能向上を実現する。
- 参考スコア(独自算出の注目度): 5.975913042883176
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We mathematically characterize the cognitive capabilities that enable humans
to effectively guide others through natural language. We show that
neural-network-based instruction generation agents possess similar cognitive
capabilities, and design an evaluation scheme for probing those capabilities.
Our results indicate that these agents, while capable of effectively narrowing
the search space, poorly predict the listener's interpretations of their
instructions and thus often fail to select the best instructions even from a
small candidate set. We augment the agents with better theory-of-mind models of
the listener and obtain significant performance boost in guiding real humans.
Yet, there remains a considerable gap between our best agent and human guides.
We discuss the challenges in closing this gap, emphasizing the need to
construct better models of human behavior when interacting with AI-based
agents.
- Abstract(参考訳): 我々は、人間が自然言語を通して効果的に他人を導くことができる認知能力を数学的に特徴付ける。
ニューラルネットワークに基づく命令生成エージェントは、同様の認知能力を有しており、それらの能力を調べるための評価スキームを設計する。
その結果,これらのエージェントは,探索空間を効果的に狭めることができるが,聞き手の指示に対する解釈が不十分であり,小規模な候補集合からでも最善の指示を選択できない場合が多かった。
我々は、聞き手のより優れた理論モデルでエージェントを増強し、実際の人間を導く上で大きなパフォーマンス向上を得る。
しかし、私たちの最高のエージェントと人間のガイドの間には、かなりのギャップがあります。
我々はこのギャップを埋めることの課題について議論し、AIベースのエージェントと対話する際に、より良い人間の行動モデルを構築する必要性を強調した。
関連論文リスト
- The Role of Higher-Order Cognitive Models in Active Learning [8.847360368647752]
我々は、人間のフィードバックのためのアクティブな学習のための新しいパラダイムを提唱する。
エージェントのレベルが上がると、アクティブな学習システムと教師との合理的コミュニケーションの質的に異なる形態がもたらされるかについて議論する。
論文 参考訳(メタデータ) (2024-01-09T07:39:36Z) - Real-time Addressee Estimation: Deployment of a Deep-Learning Model on
the iCub Robot [52.277579221741746]
住所推定は、社会ロボットが人間とスムーズに対話するために必要なスキルである。
人間の知覚スキルにインスパイアされたディープラーニングモデルは、iCubロボットに設計、訓練、デプロイされる。
本研究では,人間-ロボットのリアルタイムインタラクションにおいて,そのような実装の手順とモデルの性能について述べる。
論文 参考訳(メタデータ) (2023-11-09T13:01:21Z) - Can Foundation Models Watch, Talk and Guide You Step by Step to Make a
Cake? [62.59699229202307]
AIの進歩にもかかわらず、インタラクティブなタスクガイダンスシステムの開発は依然として大きな課題である。
我々は、人間のユーザと人間のインストラクターとの自然なインタラクションに基づいて、新しいマルチモーダルベンチマークデータセット、ウォッチ、トーク、ガイド(WTaG)を作成しました。
いくつかの基礎モデルを活用して、これらのモデルが認識可能なタスクガイダンスに迅速に適応できるかを調査した。
論文 参考訳(メタデータ) (2023-11-01T15:13:49Z) - Are Emergent Abilities in Large Language Models just In-Context
Learning? [49.953278344511695]
我々は、600万から1750億のパラメータを含む18の大規模言語モデルの厳密なテストを行う。
創発的能力は、主に文脈内学習に比定できるという説得力のある証拠を提供する。
推論能力の出現の証拠は見つからないので、観察能力を駆動するメカニズムについて貴重な洞察を与えることができる。
論文 参考訳(メタデータ) (2023-09-04T20:54:11Z) - Turning large language models into cognitive models [0.0]
大規模言語モデルが認知モデルに変換可能であることを示す。
これらのモデルは人間の行動の正確な表現を提供し、2つの意思決定領域において従来の認知モデルよりも優れている。
これらの結果は、大規模で事前学習されたモデルが一般的な認知モデルに適応できることを示唆している。
論文 参考訳(メタデータ) (2023-06-06T18:00:01Z) - Improving Factuality and Reasoning in Language Models through Multiagent
Debate [95.10641301155232]
複数の言語モデルインスタンスが共通の最終回答に到達するために、複数のラウンドで個別の応答と推論プロセスを提案し、議論する言語応答を改善するための補完的なアプローチを提案する。
以上の結果から,本手法は様々なタスクにおける数学的・戦略的推論を著しく向上させることが示唆された。
我々のアプローチは、既存のブラックボックスモデルに直接適用され、調査するすべてのタスクに対して、同じ手順とプロンプトを使用することができる。
論文 参考訳(メタデータ) (2023-05-23T17:55:11Z) - Artificial Neuropsychology: Are Large Language Models Developing
Executive Functions? [0.0]
ハノイ・タワーズ・オブ・ハノイ法によるGPTの計画機能と作業記憶の評価を行った。
予備的な結果は、LLMがハノイの塔でほぼ最適解を生成することを示している。
これらの能力は、タスクが分かっていないときに、よく訓練された人間よりも非常に制限され、悪い。
論文 参考訳(メタデータ) (2023-05-06T20:53:22Z) - Measuring Progress on Scalable Oversight for Large Language Models [19.705153174673576]
我々は、人間専門家が成功するが、人間や現在の汎用AIシステムが失敗するタスクを選択することに焦点を当てた実験的な設計を提案する。
チャットを通じて信頼できない大言語モデルダイアログアシスタントと対話する人間の参加者は、モデル単独と自明なパフォーマンスの両方を大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2022-11-04T17:03:49Z) - Plex: Towards Reliability using Pretrained Large Model Extensions [69.13326436826227]
我々は,視覚と言語モダリティのための事前訓練された大規模モデル拡張であるViT-PlexとT5-Plexを開発した。
Plexは信頼性タスク間の最先端性を大幅に改善し、従来のプロトコルを単純化する。
最大1Bパラメータまでのモデルサイズに対するスケーリング効果と,最大4B例までのデータセットサイズを事前トレーニングした。
論文 参考訳(メタデータ) (2022-07-15T11:39:37Z) - Analyzing the Limits of Self-Supervision in Handling Bias in Language [52.26068057260399]
我々は、言語モデルが、認識、識別、抽出、言い換えの4つのタスクのセマンティクスをいかにうまく捉えているかを評価する。
分析の結果,言語モデルでは,ジェンダーや政治的アフィリエイトなど,様々なバイアス次元にまたがって,これらのタスクを広範囲にわたって実行することが可能であることが示唆された。
論文 参考訳(メタデータ) (2021-12-16T05:36:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。