論文の概要: CollabLLM: From Passive Responders to Active Collaborators
- arxiv url: http://arxiv.org/abs/2502.00640v1
- Date: Sun, 02 Feb 2025 03:05:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 14:59:59.011497
- Title: CollabLLM: From Passive Responders to Active Collaborators
- Title(参考訳): CollabLLM: レスポンダからアクティブコラボレータへ
- Authors: Shirley Wu, Michel Galley, Baolin Peng, Hao Cheng, Gavin Li, Yao Dou, Weixin Cai, James Zou, Jure Leskovec, Jianfeng Gao,
- Abstract要約: 大規模な言語モデルは、通常、次のターン報酬で訓練され、長期的な相互作用のために最適化する能力を制限する。
マルチターン・ヒューマン・LLMコラボレーションを強化する新奇で汎用的なトレーニングフレームワークであるCollabLLMを紹介する。
また、201人の審査員による大規模なユーザスタディを実施し、CollabLLMはユーザの満足度を17.6%向上し、ユーザ使用時間を10.4%削減します。
- 参考スコア(独自算出の注目度): 109.39122516993362
- License:
- Abstract: Large Language Models are typically trained with next-turn rewards, limiting their ability to optimize for long-term interaction. As a result, they often respond passively to ambiguous or open-ended user requests, failing to help users reach their ultimate intents and leading to inefficient conversations. To address these limitations, we introduce CollabLLM, a novel and general training framework that enhances multiturn human-LLM collaboration. Its key innovation is a collaborative simulation that estimates the long-term contribution of responses using Multiturn-aware Rewards. By reinforcement fine-tuning these rewards, CollabLLM goes beyond responding to user requests, and actively uncovers user intent and offers insightful suggestions-a key step towards more human-centered AI. We also devise a multiturn interaction benchmark with three challenging tasks such as document creation. CollabLLM significantly outperforms our baselines with averages of 18.5% higher task performance and 46.3% improved interactivity by LLM judges. Finally, we conduct a large user study with 201 judges, where CollabLLM increases user satisfaction by 17.6% and reduces user spent time by 10.4%.
- Abstract(参考訳): 大規模な言語モデルは、通常、次のターン報酬で訓練され、長期的な相互作用のために最適化する能力を制限する。
その結果、不明瞭でオープンなユーザリクエストに受動的に応答し、ユーザが究極の意図に到達するのを助けず、非効率な会話につながります。
これらの制約に対処するため,マルチターン人間とLLMの協調性を高める新奇で汎用的なトレーニングフレームワークであるCollabLLMを紹介した。
その重要な革新は、Multiturn-aware Rewardsを使って応答の長期的な寄与を見積もる協調シミュレーションである。
CollabLLMは、これらの報酬を微調整することで、ユーザーからの要望に答えるだけでなく、ユーザーの意図を積極的に明らかにし、洞察に富んだ提案を提供する。
また,文書作成などの3つの課題を伴うマルチターンインタラクションベンチマークも考案した。
CollabLLMは、平均18.5%のタスクパフォーマンスと46.3%の改善により、我々のベースラインを著しく上回る。
最後に、201人の審査員による大規模なユーザスタディを行い、CollabLLMはユーザの満足度を17.6%向上し、ユーザ使用時間を10.4%削減する。
関連論文リスト
- Simulating User Agents for Embodied Conversational-AI [9.402740034754455]
我々は,エンボディエージェントとのインタラクション中にユーザ動作をシミュレート可能な,LLMベースのユーザエージェントを構築した。
シミュレーション対話をTEAChデータセットと比較することにより,ユーザエージェントの人間的行動生成能力を評価する。
論文 参考訳(メタデータ) (2024-10-31T00:56:08Z) - Aligning LLMs with Individual Preferences via Interaction [51.72200436159636]
調整可能な大きな言語モデル(LLM)をトレーニングします。
木構造における3K以上の多ターン会話を含む多ターン嗜好データセットを開発した。
評価のために、慎重に選択された100のサンプルと、会話中にカスタマイズされたアライメント性能を測定するために適切に設計されたメトリクスからなるALOEベンチマークを確立する。
論文 参考訳(メタデータ) (2024-10-04T17:48:29Z) - MA-RLHF: Reinforcement Learning from Human Feedback with Macro Actions [46.608747360764035]
人間からのフィードバックからの強化学習(RLHF)は、大規模言語モデル(LLM)と人間の嗜好の整合性を示す。
トークンのシーケンスや高レベルの言語構造を含むマクロアクションを学習プロセスに組み込んだ,シンプルで効果的なRLHFフレームワークであるMA-RLHFを提案する。
論文 参考訳(メタデータ) (2024-10-03T17:55:13Z) - FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models [50.331708897857574]
本稿では,高度に訓練された高密度FFNを余分なサブネットワークに分解する新しいアプローチであるFacterLLMを紹介する。
FactorLLMは、最大85%のモデル性能を確保しながら、推論速度を30%以上増加させながら、ソースモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-15T16:45:16Z) - Persona-DB: Efficient Large Language Model Personalization for Response Prediction with Collaborative Data Refinement [79.2400720115588]
本稿では,タスクコンテキスト間の一般化を改善するための階層的な構築プロセスからなる,シンプルで効果的なフレームワークであるPersona-DBを紹介する。
応答予測の評価において,Persona-DB は精度を著しく低減した検索サイズで維持する上で,より優れたコンテキスト効率を示す。
我々の実験は、ユーザーが極めて少ないデータを持つ場合、コールドスタートシナリオで10%以上の顕著な改善が示されていることも示している。
論文 参考訳(メタデータ) (2024-02-16T20:20:43Z) - MINT: Evaluating LLMs in Multi-turn Interaction with Tools and Language
Feedback [78.60644407028022]
我々は,大規模言語モデルのマルチターンインタラクションによる課題解決能力を評価するベンチマークであるMINTを紹介する。
LLMは一般的に、ツールと言語フィードバックの恩恵を受けます。
LLMの評価、教師あり指導ファインタニング(SIFT)、人間からのフィードバックからの強化学習(RLHF)は、一般的にマルチターン能力を損なう。
論文 参考訳(メタデータ) (2023-09-19T15:25:42Z) - MUG: Interactive Multimodal Grounding on User Interfaces [12.035123646959669]
本稿では,ユーザとエージェントがインタフェース画面上で協調作業を行うマルチモーダルグラウンドのための対話型タスクMUGを提案する。
ユーザがコマンドを与え、エージェントがコマンドに応答する。MUGはエージェントの応答を見る際に、エージェントがそのアクションを洗練または修正するための追加コマンドを与えるように、複数のラウンドのインタラクションを可能にする。
論文 参考訳(メタデータ) (2022-09-29T21:08:18Z) - Sequential Search with Off-Policy Reinforcement Learning [48.88165680363482]
本稿では,RNN学習フレームワークとアテンションモデルからなる,スケーラブルなハイブリッド学習モデルを提案する。
新たな最適化のステップとして、1つのRNNパスに複数の短いユーザシーケンスをトレーニングバッチ内に収める。
また、マルチセッションパーソナライズされた検索ランキングにおける非政治強化学習の利用についても検討する。
論文 参考訳(メタデータ) (2022-02-01T06:52:40Z) - Maximizing Cumulative User Engagement in Sequential Recommendation: An
Online Optimization Perspective [26.18096797120916]
ユーザエンゲージメントの向上とユーザブラウジングの促進という、潜在的に矛盾する2つの目標をトレードオフするためには、しばしば必要となる。
より長いユーザブラウジング期間と高いユーザエンゲージメントを明示的にトレードオフする,フレキシブルで実用的なフレームワークを提案する。
このアプローチは大規模なEコマースプラットフォームにデプロイされ、累積クリックの7%以上の改善が達成されている。
論文 参考訳(メタデータ) (2020-06-02T09:02:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。