論文の概要: ComplLLM: Fine-tuning LLMs to Discover Complementary Signals for Decision-making
- arxiv url: http://arxiv.org/abs/2602.19458v1
- Date: Mon, 23 Feb 2026 03:01:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.655966
- Title: ComplLLM: Fine-tuning LLMs to Discover Complementary Signals for Decision-making
- Title(参考訳): ComplLLM: 決定のための補完信号を発見するための微調整LDM
- Authors: Ziyang Guo, Yifan Wu, Jason Hartline, Kenneth Holstein, Jessica Hullman,
- Abstract要約: 多エージェント決定パイプラインは、相補性を保持する場合、つまり、異なるエージェントがテーブルにユニークな情報をもたらして最終的な決定を知らせる場合、単一のエージェントよりも優れる。
我々は,既存のエージェント決定を補完する信号を出力する報奨として補完情報を用いて,意思決定支援LLMを微調整するポストトレーニングフレームワークであるComplLLMを提案する。
- 参考スコア(独自算出の注目度): 27.796956868783337
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-agent decision pipelines can outperform single agent workflows when complementarity holds, i.e., different agents bring unique information to the table to inform a final decision. We propose ComplLLM, a post-training framework based on decision theory that fine-tunes a decision-assistant LLM using complementary information as reward to output signals that complement existing agent decisions. We validate ComplLLM on synthetic and real-world tasks involving domain experts, demonstrating how the approach recovers known complementary information and produces plausible explanations of complementary signals to support downstream decision-makers.
- Abstract(参考訳): 多エージェント決定パイプラインは、相補性を保持する場合、すなわち、最終的な決定を伝えるために、異なるエージェントがテーブルにユニークな情報をもたらす場合、単一のエージェントワークフローより優れている。
我々は,既存のエージェント決定を補完する出力信号に対する報酬として補足情報を用いた意思決定支援LLMを微調整する,意思決定理論に基づく後学習フレームワークComplLLMを提案する。
我々は、ドメインの専門家による合成および実世界のタスクについてComplLLMを検証し、提案手法が既知の相補的情報をいかに回復するかを示し、下流の意思決定者を支援するための相補的信号のもっともらしい説明を生成する。
関連論文リスト
- LLMs for Explainable Business Decision-Making: A Reinforcement Learning Fine-Tuning Approach [9.942833203981069]
大規模言語モデル(LLM)は、自然言語の説明を生成する機会を提供する。
観客に適切な説明を与える強化学習に基づく微調整フレームワークであるLEXMAを紹介する。
LEXMAは他のLLMベースラインに比べて予測性能が大幅に向上した。
論文 参考訳(メタデータ) (2025-12-10T04:16:31Z) - AIM-Bench: Evaluating Decision-making Biases of Agentic LLM as Inventory Manager [9.21215885702746]
AIM-Benchは、不確実なサプライチェーン管理シナリオにおいて、大規模言語モデル(LLM)の意思決定行動を評価するために設計された新しいベンチマークである。
以上の結果から, LLMは人体とよく似た, 決定バイアスの度合いが異なることが明らかとなった。
論文 参考訳(メタデータ) (2025-08-15T11:38:19Z) - UProp: Investigating the Uncertainty Propagation of LLMs in Multi-Step Agentic Decision-Making [47.64013151246807]
大規模言語モデル(LLM)は、シーケンシャルな意思決定を含む安全クリティカルなアプリケーションに統合される。
既存のLLM Uncertainty Quantification (UQ) 法は、主にシングルターン質問応答形式のために設計されている。
LLMシーケンシャルな決定の不確かさを2つの部分に分解する原理的情報理論フレームワークを導入する。
論文 参考訳(メタデータ) (2025-06-20T18:34:04Z) - Embodied Agent Interface: Benchmarking LLMs for Embodied Decision Making [85.24399869971236]
我々は,大規模言語モデル(LLM)を具体的意思決定のために評価することを目指している。
既存の評価は最終的な成功率にのみ依存する傾向がある。
本稿では,様々なタスクの形式化を支援する汎用インタフェース (Embodied Agent Interface) を提案する。
論文 参考訳(メタデータ) (2024-10-09T17:59:00Z) - Adaptive Reinforcement Learning Planning: Harnessing Large Language Models for Complex Information Extraction [14.982446379660633]
大規模言語モデル(LLM)に関する既存の研究は、多段階計画により情報抽出タスクを解くことができることを示している。
複雑な抽出タスクを分解して段階的に抽出することで,LLMの性能を効果的に向上させることができる。
本稿では,LLMに基づく情報抽出のための2段階多段階手法を提案し,多段階計画を実行するためにRLフレームワークを採用する。
論文 参考訳(メタデータ) (2024-06-17T12:11:01Z) - Explainable Data-Driven Optimization: From Context to Decision and Back
Again [76.84947521482631]
データ駆動最適化では、コンテキスト情報と機械学習アルゴリズムを使用して、不確実なパラメータによる決定問題の解決策を見つける。
本稿では,データ駆動型問題に対する解法を説明するために,対実的説明手法を提案する。
在庫管理やルーティングといった運用管理における重要な問題を説明することで,我々のアプローチを実証する。
論文 参考訳(メタデータ) (2023-01-24T15:25:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。