論文の概要: Active Task Disambiguation with LLMs
- arxiv url: http://arxiv.org/abs/2502.04485v1
- Date: Thu, 06 Feb 2025 20:20:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-10 14:58:55.336000
- Title: Active Task Disambiguation with LLMs
- Title(参考訳): LLMによるアクティブタスクの曖昧化
- Authors: Katarzyna Kobalczyk, Nicolas Astorga, Tennison Liu, Mihaela van der Schaar,
- Abstract要約: 本稿では,タスクあいまいさの形式的定義を導入し,ベイズ実験設計のレンズによるタスクあいまいさの問題について考察する。
提案手法により,LLMエージェントは情報ゲインを最大化する目的の質問を生成することができる。
経験的な結果から、この形式の質問選択は、質問空間内でのみ推論に依存するアプローチに比べて、より効果的なタスクの曖昧さをもたらすことが示されている。
- 参考スコア(独自算出の注目度): 48.54945212561785
- License:
- Abstract: Despite the impressive performance of large language models (LLMs) across various benchmarks, their ability to address ambiguously specified problems--frequent in real-world interactions--remains underexplored. To address this gap, we introduce a formal definition of task ambiguity and frame the problem of task disambiguation through the lens of Bayesian Experimental Design. By posing clarifying questions, LLM agents can acquire additional task specifications, progressively narrowing the space of viable solutions and reducing the risk of generating unsatisfactory outputs. Yet, generating effective clarifying questions requires LLM agents to engage in a form of meta-cognitive reasoning, an ability LLMs may presently lack. Our proposed approach of active task disambiguation enables LLM agents to generate targeted questions maximizing the information gain. Effectively, this approach shifts the load from implicit to explicit reasoning about the space of viable solutions. Empirical results demonstrate that this form of question selection leads to more effective task disambiguation in comparison to approaches relying on reasoning solely within the space of questions.
- Abstract(参考訳): 様々なベンチマークで大きな言語モデル(LLM)のパフォーマンスは印象的なものだったが、現実のインタラクションで頻繁に発生する曖昧に特定された問題に対処する能力は、未解決のまま残されている。
このギャップに対処するために,タスクのあいまいさの形式的定義を導入し,ベイズ実験設計のレンズを通してタスクのあいまいさの問題を補足する。
質問を明確にすることで、LLMエージェントは追加のタスク仕様を取得し、実行可能なソリューションの空間を徐々に狭め、不満足なアウトプットを発生させるリスクを低減することができる。
しかし、効果的な明確な質問を生成するには、LLMエージェントがメタ認知推論の形で関与する必要がある。
提案手法により,LLMエージェントは情報ゲインを最大化する目的の質問を生成することができる。
このアプローチは、実効性のある解の空間に関する暗黙的な推論から明示的な推論へと、負荷をシフトさせる。
経験的な結果から、この形式の質問選択は、質問空間内でのみ推論に依存するアプローチに比べて、より効果的なタスクの曖昧さをもたらすことが示されている。
関連論文リスト
- Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。
しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。
人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:49:25Z) - An Empirical Exploration of ChatGPT's Ability to Support Problem Formulation Tasks for Mission Engineering and a Documentation of its Performance Variability [0.0]
本稿では,大規模言語モデル(LLM)の品質と整合性について考察する。
我々は、関連する参照問題、NASAの宇宙ミッション設計課題を特定し、ChatGPT-3.5のステークホルダ識別タスクの実行能力を文書化する。
LLMは人間の利害関係者の識別には有効であるが, 外部システムや環境要因の認識には不十分であることがわかった。
論文 参考訳(メタデータ) (2025-02-05T17:58:23Z) - A Survey on Uncertainty Quantification of Large Language Models: Taxonomy, Open Research Challenges, and Future Directions [9.045698110081686]
大規模言語モデル (LLMs) は、信頼性を高く表現した、妥当で、事実的に正しくない応答を生成する。
従来の研究では、LLMが生み出す幻覚やその他の非現実的な反応は、関連するプロンプトに対するLLMの不確実性を調べることによって検出できることが示されている。
本調査は, LLMの健全な特徴と強度, 弱点を識別し, 既存の不確実性定量化手法を幅広く検討することを目的としている。
論文 参考訳(メタデータ) (2024-12-07T06:56:01Z) - BloomWise: Enhancing Problem-Solving capabilities of Large Language Models using Bloom's-Taxonomy-Inspired Prompts [59.83547898874152]
我々は,Bloomの分類にインスパイアされた新しいプロンプト技術であるBloomWiseを導入し,Large Language Models(LLMs)の性能を向上させる。
より洗練された認知スキルを身につける必要性に関する決定は、LLMによる自己評価に基づいている。
4つの一般的な算数推論データセットの広範な実験において,提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2024-10-05T09:27:52Z) - DOTS: Learning to Reason Dynamically in LLMs via Optimal Reasoning Trajectories Search [37.16633337724158]
DOTS は LLM が最適推論軌道探索によって動的に推論できるアプローチである。
提案手法は静的推論手法とバニラ命令チューニング手法より一貫して優れている。
論文 参考訳(メタデータ) (2024-10-04T18:58:09Z) - Defining Boundaries: A Spectrum of Task Feasibility for Large Language Models [6.008311204104302]
大規模言語モデル(LLM)は、様々なタスクにおいて顕著なパフォーマンスを示しているが、多くの場合、その知識や能力を超えるクエリを処理できない。
本稿では,LLMが能力を超えるために必要なスキルのために,実用不可能なタスクを認識し,拒否する必要性に対処する。
論文 参考訳(メタデータ) (2024-08-11T22:58:23Z) - Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。
LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。
本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文 参考訳(メタデータ) (2024-06-20T13:08:09Z) - Clarify When Necessary: Resolving Ambiguity Through Interaction with LMs [58.620269228776294]
そこで本稿では,ユーザに対して,あいまいさを解消するためのタスク非依存のフレームワークを提案する。
我々は3つのNLPアプリケーション(質問応答、機械翻訳、自然言語推論)にまたがるシステムを評価する。
インテントシムは堅牢であり、幅広いNLPタスクやLMの改善を実証している。
論文 参考訳(メタデータ) (2023-11-16T00:18:50Z) - When does In-context Learning Fall Short and Why? A Study on
Specification-Heavy Tasks [54.71034943526973]
In-context Learning (ICL)は、大規模言語モデル(LLM)のデフォルトメソッドとなっている。
ICLは、複雑で広範囲なタスク仕様を持つタスクである、仕様の重いタスクを処理できないことが分かりました。
我々は、コンテキストを具体的に理解できないこと、タスクスキーマが人間と理解できないこと、長文理解が不十分であること、の3つの主な理由を識別する。
論文 参考訳(メタデータ) (2023-11-15T14:26:30Z) - Active Prompting with Chain-of-Thought for Large Language Models [26.5029080638055]
本稿では,大規模言語モデルを異なるタスクに適応させる新しい手法であるActive-Promptを提案する。
不確実性に基づくアクティブラーニングの関連問題からアイデアを借用することにより、不確実性を特徴づける指標をいくつか導入する。
実験により,提案手法の優位性を実証し,8つの複雑な推論タスクの最先端化を図った。
論文 参考訳(メタデータ) (2023-02-23T18:58:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。