論文の概要: Define, Evaluate, and Improve Task-Oriented Cognitive Capabilities for
Instruction Generation Models
- arxiv url: http://arxiv.org/abs/2301.05149v2
- Date: Sun, 28 May 2023 14:34:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 02:15:11.098380
- Title: Define, Evaluate, and Improve Task-Oriented Cognitive Capabilities for
Instruction Generation Models
- Title(参考訳): 命令生成モデルのためのタスク指向認知能力の定義、評価、改善
- Authors: Lingjun Zhao and Khanh Nguyen and Hal Daum\'e III
- Abstract要約: 最近の研究は、人間のために設計された心理学的テストを通して言語モデルの認知能力を研究する。
我々は、言語モデルがタスクを実行するために利用する人間のような認知能力であるタスク指向認知能力を定式化する。
- 参考スコア(独自算出の注目度): 5.975913042883176
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent work studies the cognitive capabilities of language models through
psychological tests designed for humans. While these studies are helpful for
understanding the general capabilities of these models, there is no guarantee
that a model possessing sufficient capabilities to pass those tests would
actually use those capabilities in performing real-life tasks. In this work, we
formulate task-oriented cognitive capabilities, which are human-like cognitive
capabilities that language models leverage to perform tasks. These capabilities
are (i) the ability to quickly generate good candidate utterances (the search
capability) (ii) the ability to predict how a listener interprets those
utterances and choose the most appropriate one (the pragmatic capability). We
design an evaluation scheme for comparing these capabilities of a language
model with those of a human. Applying this scheme to examine various models in
a navigation instruction generation problem, we find that their pragmatic
capability is severely lacking. This insight leads us to augment them with
better models of the listener and obtain a significant boost of 11% in success
rate in guiding real humans. Our work advocates for having a principled
procedure for aligning language models with humans that involves (i)
formulating task-oriented capabilities, (ii) devising a method to quantify
their deficiency, and (iii) iteratively improving them.
- Abstract(参考訳): 最近の研究は、人間の心理テストを通して言語モデルの認知能力を研究する。
これらの研究は、これらのモデルの一般的な能力を理解するのに役立つが、テストに合格するのに十分な能力を持つモデルが実際に実際のタスクを実行するのにこれらの能力を使用するという保証はない。
本研究は,言語モデルがタスクの実行に活用するヒューマンライクな認知能力であるタスク指向認知能力を定式化する。
これらの能力
(i)優れた候補発声(検索能力)を迅速に生成する能力
(二)聴取者がそれらの発話をどのように解釈し、最も適切なもの(実用的能力)を選択するかを予測する能力。
言語モデルのこれらの機能と人間の機能を比較するための評価スキームを設計する。
ナビゲーション命令生成問題において,様々なモデルを調べるためにこの手法を適用すると,その実用性が極めて不足していることが分かる。
この洞察は、リスナのよりよいモデルでそれらを増強し、実際の人間を誘導する成功率の11%を大きく向上させます。
我々の研究は、言語モデルと人間を結びつけるための原則化された手続きを持つことを提唱している。
(i)タスク指向能力の定式化
二 その不足を定量化する方法を考案すること、及び
(iii)反復的に改善する。
関連論文リスト
- Can Language Models Learn to Skip Steps? [59.84848399905409]
我々は推論においてステップをスキップする能力について研究する。
効率を高めたり認知負荷を減らすためのステップをスキップする人間とは異なり、モデルはそのようなモチベーションを持っていない。
私たちの研究は、人間のようなステップスキッピング能力に関する最初の調査である。
論文 参考訳(メタデータ) (2024-11-04T07:10:24Z) - Predicting and Understanding Human Action Decisions: Insights from Large Language Models and Cognitive Instance-Based Learning [0.0]
大きな言語モデル(LLM)は、様々なタスクにまたがってその能力を実証している。
本稿では,LLMの推論と生成能力を利用して,2つの逐次意思決定タスクにおける人間の行動を予測する。
我々は,LLMの性能を,人間の経験的意思決定を模倣した認知的インスタンスベース学習モデルと比較した。
論文 参考訳(メタデータ) (2024-07-12T14:13:06Z) - Auxiliary task demands mask the capabilities of smaller language models [2.938889003635811]
タスク要求が大きい評価手法は、要求の少ない評価よりも性能が低いことを示す。
この結果から,LM性能はインテリジェンスの直接的な表示として解釈するべきではないことが示唆された。
論文 参考訳(メタデータ) (2024-04-03T02:56:52Z) - Real-time Addressee Estimation: Deployment of a Deep-Learning Model on
the iCub Robot [52.277579221741746]
住所推定は、社会ロボットが人間とスムーズに対話するために必要なスキルである。
人間の知覚スキルにインスパイアされたディープラーニングモデルは、iCubロボットに設計、訓練、デプロイされる。
本研究では,人間-ロボットのリアルタイムインタラクションにおいて,そのような実装の手順とモデルの性能について述べる。
論文 参考訳(メタデータ) (2023-11-09T13:01:21Z) - Can Foundation Models Watch, Talk and Guide You Step by Step to Make a
Cake? [62.59699229202307]
AIの進歩にもかかわらず、インタラクティブなタスクガイダンスシステムの開発は依然として大きな課題である。
我々は、人間のユーザと人間のインストラクターとの自然なインタラクションに基づいて、新しいマルチモーダルベンチマークデータセット、ウォッチ、トーク、ガイド(WTaG)を作成しました。
いくつかの基礎モデルを活用して、これらのモデルが認識可能なタスクガイダンスに迅速に適応できるかを調査した。
論文 参考訳(メタデータ) (2023-11-01T15:13:49Z) - Are Emergent Abilities in Large Language Models just In-Context Learning? [46.561464069450444]
創発的能力を説明する新しい理論を提示する。
以上の結果から,創発能力は真に創発的ではなく,文脈内学習,モデル記憶,言語知識の組み合わせによるものであることが示唆された。
論文 参考訳(メタデータ) (2023-09-04T20:54:11Z) - Turning large language models into cognitive models [0.0]
大規模言語モデルが認知モデルに変換可能であることを示す。
これらのモデルは人間の行動の正確な表現を提供し、2つの意思決定領域において従来の認知モデルよりも優れている。
これらの結果は、大規模で事前学習されたモデルが一般的な認知モデルに適応できることを示唆している。
論文 参考訳(メタデータ) (2023-06-06T18:00:01Z) - Improving Factuality and Reasoning in Language Models through Multiagent
Debate [95.10641301155232]
複数の言語モデルインスタンスが共通の最終回答に到達するために、複数のラウンドで個別の応答と推論プロセスを提案し、議論する言語応答を改善するための補完的なアプローチを提案する。
以上の結果から,本手法は様々なタスクにおける数学的・戦略的推論を著しく向上させることが示唆された。
我々のアプローチは、既存のブラックボックスモデルに直接適用され、調査するすべてのタスクに対して、同じ手順とプロンプトを使用することができる。
論文 参考訳(メタデータ) (2023-05-23T17:55:11Z) - Plex: Towards Reliability using Pretrained Large Model Extensions [69.13326436826227]
我々は,視覚と言語モダリティのための事前訓練された大規模モデル拡張であるViT-PlexとT5-Plexを開発した。
Plexは信頼性タスク間の最先端性を大幅に改善し、従来のプロトコルを単純化する。
最大1Bパラメータまでのモデルサイズに対するスケーリング効果と,最大4B例までのデータセットサイズを事前トレーニングした。
論文 参考訳(メタデータ) (2022-07-15T11:39:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。