論文の概要: TO-GATE: Clarifying Questions and Summarizing Responses with Trajectory Optimization for Eliciting Human Preference
- arxiv url: http://arxiv.org/abs/2506.02827v1
- Date: Tue, 03 Jun 2025 12:58:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.68059
- Title: TO-GATE: Clarifying Questions and Summarizing Responses with Trajectory Optimization for Eliciting Human Preference
- Title(参考訳): TO-GATE:人間の嗜好を緩和するための軌道最適化による質問の明確化と回答の要約
- Authors: Yulin Dou, Jiangming Liu,
- Abstract要約: 大規模言語モデル(LLM)は、マルチターン対話を通じて人間の好みを効果的に引き出すことができる。
自己学習推論に基づく既存のアプローチは、最適な対話軌跡を特定するのに苦労している。
トラジェクトリ最適化による質問生成を支援する新しいフレームワークであるTO-GATEを提案する。
- 参考スコア(独自算出の注目度): 3.8396210019383306
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) can effectively elicit human preferences through multi-turn dialogue. Complex tasks can be accomplished through iterative clarifying questions and final responses generated by an LLM acting as a questioner (STaR-GATE; Andukuri et al., 2024}). However, existing approaches based on self-taught reasoning struggle to identify optimal dialogue trajectories and avoid irrelevant questions to the tasks. To address this limitation, we propose TO-GATE, a novel framework that enhances question generation through trajectory optimization, which consists of two key components: a clarification resolver that generates optimal questioning trajectories, and a summarizer that ensures task-aligned final responses. The trajectory optimization enables the model to produce effective elicitation questions and summary responses tailored to specific tasks. Experimental results demonstrate that TO-GATE significantly outperforms baseline methods, achieving a 9.32% improvement on standard preference elicitation tasks.
- Abstract(参考訳): 大規模言語モデル(LLM)は、マルチターン対話を通じて人間の好みを効果的に引き出すことができる。
複雑なタスクは、質問者(STaR-GATE; Andukuri et al , 2024})としてLLMが生成する質問と最終応答を反復的に明らかにすることで達成できる。
しかし、自己学習推論に基づく既存のアプローチは、最適な対話軌跡を特定し、タスクに無関係な質問を避けるのに苦労している。
この制限に対処するために,最適な問合せトラジェクトリを生成する明確化レゾルバと,タスクに整合した最終応答を保証する要約器の2つの主要コンポーネントからなる,トラジェクトリ最適化による質問生成を向上する新しいフレームワークTO-GATEを提案する。
軌道最適化により、モデルは特定のタスクに合わせた効果的な引用質問や要約応答を生成することができる。
実験結果から、TO-GATEは基準基準法を大幅に上回り、標準優先格付けタスクにおいて9.32%の改善が達成された。
関連論文リスト
- FactGuard: Leveraging Multi-Agent Systems to Generate Answerable and Unanswerable Questions for Enhanced Long-Context LLM Extraction [25.00896070082754]
抽出読解システムは、与えられたテキスト内の質問に対する正しい答えを見つけるように設計されている。
永続的な課題は、これらのモデルが、答えられないクエリを確実に認識しながら、質問に答える上で高い精度を維持することである。
マルチエージェント協調フレームワークを基盤とした革新的なデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2025-04-08T01:45:16Z) - Divide-and-Conquer: Tree-structured Strategy with Answer Distribution Estimator for Goal-Oriented Visual Dialogue [30.126882554391837]
Answer Distribution Estimator(TSADE)を用いた樹木構造戦略
本稿では,現在の候補オブジェクトの半数を各ラウンドで除外することで,質問生成をガイドする木構造戦略(TSADE)を提案する。
提案手法は,従来のエルゴディックな質問生成手法と比較して,繰り返し質問やラウンドの少ないタスク指向の精度をエージェントが達成できることを実験的に実証する。
論文 参考訳(メタデータ) (2025-02-09T08:16:09Z) - A Systematic Examination of Preference Learning through the Lens of Instruction-Following [83.71180850955679]
新たな合成データ生成パイプラインを用いて48,000の命令追従プロンプトを生成する。
合成プロンプトでは、リジェクションサンプリング(RS)とモンテカルロ木探索(MCTS)の2つの選好データセットキュレーション手法を用いる。
実験により、MCTSが生成した選好ペアにおける共有プレフィックスは、限界はあるが一貫した改善をもたらすことが明らかになった。
高コントラストの選好ペアは一般的に低コントラストのペアよりも優れているが、両者を組み合わせることで最高のパフォーマンスが得られることが多い。
論文 参考訳(メタデータ) (2024-12-18T15:38:39Z) - In-context Demonstration Matters: On Prompt Optimization for Pseudo-Supervision Refinement [71.60563181678323]
大規模言語モデル(LLM)は様々なタスクで大きな成功を収めており、生成品質をさらに向上させるためには微調整が必要である場合もある。
これらの課題に対処する直接的な解決策は、教師なしの下流タスクから高信頼のデータを生成することである。
本稿では,プロンプトと全体的な擬似スーパービジョンを両立させる新しい手法,擬似教師付きデモアライメント・アライメント・アライメント・プロンプト・最適化(PAPO)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-04T03:39:28Z) - Rescue: Ranking LLM Responses with Partial Ordering to Improve Response Generation [28.89786334298637]
ランキングメトリクスを用いたLCMの最適化手法を開発した。
従来の完全順序付けではなく、部分順序付けを提唱する。
ベンチマークデータセットを用いて,システムの改善された応答生成能力を検証した。
論文 参考訳(メタデータ) (2023-11-15T17:27:14Z) - Query-Dependent Prompt Evaluation and Optimization with Offline Inverse
RL [62.824464372594576]
ゼロショットプロンプト最適化により,Large Language Models (LLM) の算術的推論能力を向上させることを目的とする。
このような最適化では、以前見過ごされたクエリ依存の目的を特定します。
本稿では、オフライン逆強化学習を利用して、実演データから洞察を引き出すPrompt-OIRLを紹介する。
論文 参考訳(メタデータ) (2023-09-13T01:12:52Z) - Learning an Effective Context-Response Matching Model with
Self-Supervised Tasks for Retrieval-based Dialogues [88.73739515457116]
我々は,次のセッション予測,発話復元,不整合検出,一貫性判定を含む4つの自己教師型タスクを導入する。
我々はPLMに基づく応答選択モデルとこれらの補助タスクをマルチタスク方式で共同で訓練する。
実験結果から,提案した補助的自己教師型タスクは,多ターン応答選択において大きな改善をもたらすことが示された。
論文 参考訳(メタデータ) (2020-09-14T08:44:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。