論文の概要: Taking Action Towards Graceful Interaction: The Effects of Performing
Actions on Modelling Policies for Instruction Clarification Requests
- arxiv url: http://arxiv.org/abs/2401.17039v1
- Date: Tue, 30 Jan 2024 14:18:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-31 14:57:55.628913
- Title: Taking Action Towards Graceful Interaction: The Effects of Performing
Actions on Modelling Policies for Instruction Clarification Requests
- Title(参考訳): グレースフルインタラクションに向けた行動の取組み:指示明確化要求のモデル化における行動の効果
- Authors: Brielen Madureira, David Schlangen
- Abstract要約: Transformerベースのモデルは、インストラクションCRを問うときの適切なポリシを学ばない。
本稿では,メタコミュニケーション行動の学習におけるデータ駆動パラダイムの欠点について論じる。
- 参考スコア(独自算出の注目度): 23.405917899107767
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Clarification requests are a mechanism to help solve communication problems,
e.g. due to ambiguity or underspecification, in instruction-following
interactions. Despite their importance, even skilful models struggle with
producing or interpreting such repair acts. In this work, we test three
hypotheses concerning the effects of action taking as an auxiliary task in
modelling iCR policies. Contrary to initial expectations, we conclude that its
contribution to learning an iCR policy is limited, but some information can
still be extracted from prediction uncertainty. We present further evidence
that even well-motivated, Transformer-based models fail to learn good policies
for when to ask Instruction CRs (iCRs), while the task of determining what to
ask about can be more successfully modelled. Considering the implications of
these findings, we further discuss the shortcomings of the data-driven paradigm
for learning meta-communication acts.
- Abstract(参考訳): 明確化要求(Clarification request)は、指示追従相互作用におけるあいまいさや不明瞭さによるコミュニケーション問題の解決を支援するメカニズムである。
その重要性にもかかわらず、細やかなモデルでさえ、このような修理行為の生成や解釈に苦労している。
本研究は,iCR政策のモデル化における補助課題として,アクションテイクの効果に関する3つの仮説を検証した。
当初の期待に反して, icr政策の学習への貢献は限定的であるが, 予測の不確実性から抽出できる情報もあると結論づけた。
我々はさらに,動機づけのよいトランスフォーマーモデルでさえ,いつ命令crs(icrs)を問うかという適切な方針を学習できないこと,そして何を問うかを決定する作業がよりうまくモデル化できることを示す。
これらの結果から,メタコミュニケーション行為の学習におけるデータ駆動パラダイムの欠点について考察する。
関連論文リスト
- Interactive Agents to Overcome Ambiguity in Software Engineering [61.40183840499932]
AIエージェントは、あいまいで不明確なユーザー指示に基づいて、タスクを自動化するためにますますデプロイされている。
不安定な仮定をし、明確な質問をしないことは、最適以下の結果につながる可能性がある。
対話型コード生成設定において,LLMエージェントが不明瞭な命令を処理する能力について,プロプライエタリモデルとオープンウェイトモデルを評価して検討する。
論文 参考訳(メタデータ) (2025-02-18T17:12:26Z) - Retrieved In-Context Principles from Previous Mistakes [55.109234526031884]
In-context Learning (ICL) は、入力出力の正しい例を用いて、下流のタスクにLarge Language Models (LLM) を適用するのに役立っている。
近年の進歩は、ミスから派生した原則により、モデルパフォーマンスの改善を試みている。
本稿では,新しい教師学習フレームワークであるRetrieved In-Context Principles (RICP)を提案する。
論文 参考訳(メタデータ) (2024-07-08T07:32:26Z) - It Couldn't Help But Overhear: On the Limits of Modelling Meta-Communicative Grounding Acts with Supervised Learning [19.812562421377706]
オーバーハーナーは、下手な行為を行う特権を剥奪され、意図した意味についてしか推測できない。
人間のメタコミュニケーション行為をデータ駆動学習モデルで適切にモデル化することは不可能であることを示す証拠が存在する。
最も重要なことは、このトピックをコミュニティのテーブルに持ち帰り、モデルが単に"参加"するようにデザインされた結果について、議論を奨励したいということです。
論文 参考訳(メタデータ) (2024-05-02T09:55:19Z) - Evaluating Interventional Reasoning Capabilities of Large Language Models [58.52919374786108]
大規模言語モデル(LLM)は意思決定タスクを自動化するために使用される。
本稿では,LPMが介入に応じてデータ生成プロセスの知識を正確に更新できるかどうかを評価する。
さまざまな因果グラフ(例えば、コンバウンディング、仲介)と変数タイプにまたがるベンチマークを作成します。
これらのベンチマークにより、LLMが事実を記憶したり、他のショートカットを見つけたりすることで、変化を正確に予測する能力を切り離すことができます。
論文 参考訳(メタデータ) (2024-04-08T14:15:56Z) - Ask more, know better: Reinforce-Learned Prompt Questions for Decision
Making with Large Language Models [18.409654309062027]
大規模言語モデル(LLM)は、アクションベースのポリシーと思考の連鎖(CoT)推論を組み合わせる。
人間の介入は、低レベルのコントローラがCoT推論を適切に処理することを保証する基盤機能を開発するためにも必要である。
複雑なタスク解決のための包括的学習フレームワークを提案し,人間の事前知識をアクションポリシーの学習に取り入れた。
論文 参考訳(メタデータ) (2023-10-27T13:19:19Z) - Interpretable Imitation Learning with Dynamic Causal Relations [65.18456572421702]
得られた知識を有向非巡回因果グラフの形で公開することを提案する。
また、この因果発見プロセスを状態依存的に設計し、潜在因果グラフのダイナミクスをモデル化する。
提案するフレームワークは,動的因果探索モジュール,因果符号化モジュール,予測モジュールの3つの部分から構成され,エンドツーエンドで訓練される。
論文 参考訳(メタデータ) (2023-09-30T20:59:42Z) - Post Hoc Explanations of Language Models Can Improve Language Models [43.2109029463221]
AMPLIFY(Post Hoc Explanations)を用いたインコンテキスト学習の活用によるモデル性能向上のための新しいフレームワークを提案する。
我々は,各入力特徴がモデル予測に与える影響を抽出し,帰属スコア(説明)を出力するポストホック説明手法を活用する。
AMPLIFYは,幅広いタスクに対して約10~25%の精度向上を実現している。
論文 参考訳(メタデータ) (2023-05-19T04:46:04Z) - Learning to Generate All Feasible Actions [4.333208181196761]
アクションマッピングは、学習プロセスを2つのステップに分割する新しいアプローチである。
本稿では、実現可能性モデルの自己教師型クエリにより、実現可能なすべてのアクションを生成することを学ぶことで、実現可能性部分に焦点を当てる。
エージェントが接続不能な実行可能なアクションセット間でアクションを生成する能力を示す。
論文 参考訳(メタデータ) (2023-01-26T23:15:51Z) - Inverse Online Learning: Understanding Non-Stationary and Reactionary
Policies [79.60322329952453]
エージェントが意思決定を行う方法の解釈可能な表現を開発する方法を示す。
一連の軌跡に基づく意思決定プロセスを理解することにより,このオンライン学習問題に対して,政策推論問題を逆問題とみなした。
本稿では、エージェントがそれらを更新するプロセスと並行して、その影響を遡及的に推定する実用的なアルゴリズムを提案する。
UNOSの臓器提供受諾決定の分析に応用することで、我々のアプローチは意思決定プロセスを管理する要因や時間とともにどのように変化するかに、貴重な洞察をもたらすことができることを実証する。
論文 参考訳(メタデータ) (2022-03-14T17:40:42Z) - Behavior Priors for Efficient Reinforcement Learning [97.81587970962232]
本稿では,情報とアーキテクチャの制約を,確率論的モデリング文献のアイデアと組み合わせて行動の事前学習を行う方法について考察する。
このような潜伏変数の定式化が階層的強化学習(HRL)と相互情報と好奇心に基づく目的との関係について論じる。
シミュレーションされた連続制御領域に適用することで,フレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2020-10-27T13:17:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。