論文の概要: BEDA: Belief Estimation as Probabilistic Constraints for Performing Strategic Dialogue Acts
- arxiv url: http://arxiv.org/abs/2512.24885v1
- Date: Wed, 31 Dec 2025 14:26:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.677522
- Title: BEDA: Belief Estimation as Probabilistic Constraints for Performing Strategic Dialogue Acts
- Title(参考訳): BEDA:戦略的対話法を実行するための確率的制約としての信念推定
- Authors: Hengli Li, Zhaoxin Yu, Qi Shen, Chenxi Li, Mengmeng Wang, Tinglang Wu, Yipeng Kang, Yuxuan Wang, Song-Chun Zhu, Zixia Jia, Zilong Zheng,
- Abstract要約: 我々は2つの中核的行為を形式化し、エージェントが生成する可能性のある確率的制約によってそれらを運用する。
我々は,このアイデアを,世界集合と信念推定のための信念推定器と,推論された信念と整合した発話を選択・実現する条件生成器とからなる枠組みであるBEDAでインスタンス化する。
- 参考スコア(独自算出の注目度): 69.7477004390211
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Strategic dialogue requires agents to execute distinct dialogue acts, for which belief estimation is essential. While prior work often estimates beliefs accurately, it lacks a principled mechanism to use those beliefs during generation. We bridge this gap by first formalizing two core acts Adversarial and Alignment, and by operationalizing them via probabilistic constraints on what an agent may generate. We instantiate this idea in BEDA, a framework that consists of the world set, the belief estimator for belief estimation, and the conditional generator that selects acts and realizes utterances consistent with the inferred beliefs. Across three settings, Conditional Keeper Burglar (CKBG, adversarial), Mutual Friends (MF, cooperative), and CaSiNo (negotiation), BEDA consistently outperforms strong baselines: on CKBG it improves success rate by at least 5.0 points across backbones and by 20.6 points with GPT-4.1-nano; on Mutual Friends it achieves an average improvement of 9.3 points; and on CaSiNo it achieves the optimal deal relative to all baselines. These results indicate that casting belief estimation as constraints provides a simple, general mechanism for reliable strategic dialogue.
- Abstract(参考訳): ストラテジック・ダイアログは、信念推定が不可欠である、異なる対話行為を実行するためにエージェントを必要とする。
先行研究はしばしば信念を正確に見積もるが、世代間でそれらの信念を使用するための原則的なメカニズムが欠如している。
このギャップを埋めるには、まず2つのコアを形式化し、エージェントが生成する可能性のある確率的制約によってそれらを運用する。
我々は,このアイデアを,世界集合と信念推定のための信念推定器と,推論された信念と整合した発話を選択・実現する条件生成器とからなる枠組みであるBEDAでインスタンス化する。
Conditional Keeper Burglar (CKBG, adversarial), Mutual Friends (MF,operative), CaSiNo (negotiation) の3つの設定で、BEDA は強いベースラインを一貫して上回り、CKBG では少なくとも5.0 ポイント、GPT-4.1-nano では20.6 ポイント、Mutual Friends では9.3 ポイント、CaSiNo ではすべてのベースラインに対して最適な契約を達成している。
これらの結果は, 信頼度推定を制約として行うことで, 信頼性の高い戦略的対話のためのシンプルで一般的なメカニズムが提供されることを示唆している。
関連論文リスト
- The Silent Scholar Problem: A Probabilistic Framework for Breaking Epistemic Asymmetry in LLM Agents [0.6117371161379209]
本稿では,エージェントに双方向知識交換のための非構造的動機を与える形式的確率的枠組みを提案する。
これらの蓄積された信念状態が、人間フィードバックからの強化学習(RLHF)と監視ファインチューニング(SFT)のための高品質データフィルタの検証可能な報酬信号としてどのように機能するかを示す。
シミュレーションの結果、この不確実性駆動型戦略が異種環境におけるランダムベースラインを著しく上回ることを示した。
論文 参考訳(メタデータ) (2025-12-24T02:02:25Z) - Towards Optimal Performance and Action Consistency Guarantees in Dec-POMDPs with Inconsistent Beliefs and Limited Communication [9.269394037577177]
不確実性の下でのマルチエージェント意思決定は、効果的で安全な自律運転に不可欠である。
既存のほとんどのアプローチは、すべてのエージェントが計画時に同じ信念を持っていると仮定し、これらの信念が同じデータで条件付けられていることを示唆している。
我々は,信念の不整合を明示的に考慮した,最適な共同行動選択のための新たな分散フレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-23T21:25:53Z) - Belief-Calibrated Multi-Agent Consensus Seeking for Complex NLP Tasks [45.14284473132228]
コンセンサス安定性を最大化する最適協力者を選択するための理論的枠組みを提供する。
この定理に基づいて,安定したコンセンサスを促進するためのBCCS(Belief-Calibrated Consensus Seeking)フレームワークを提案する。
MATHおよびMMLUベンチマークデータセットの実験結果から、提案したBCCSフレームワークが既存の最高の結果を上回っていることが示された。
論文 参考訳(メタデータ) (2025-10-07T17:53:34Z) - TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them [58.04324690859212]
自動評価器(LLM-as-a-judge)としての大規模言語モデル(LLM)は、現在の評価フレームワークにおいて重大な矛盾を明らかにしている。
スコア比較不整合とペアワイズ・トランジティビティ不整合という2つの基本的不整合を同定する。
我々は2つの重要なイノベーションを通じてこれらの制限に対処する確率的フレームワークであるTrustJudgeを提案する。
論文 参考訳(メタデータ) (2025-09-25T13:04:29Z) - Criticality and Safety Margins for Reinforcement Learning [53.10194953873209]
我々は,定量化基盤真理とユーザにとっての明確な意義の両面から,批判的枠組みを定めようとしている。
エージェントがn連続的ランダム動作に対するポリシーから逸脱した場合の報酬の減少として真臨界を導入する。
我々はまた、真の臨界と統計的に単調な関係を持つ低オーバーヘッド計量であるプロキシ臨界の概念も導入する。
論文 参考訳(メタデータ) (2024-09-26T21:00:45Z) - CoCo: Controllable Counterfactuals for Evaluating Dialogue State
Trackers [92.5628632009802]
本稿では,このギャップを橋渡しし,新たなシナリオにおける対話状態追跡(DST)モデルを評価するための制御可能な対策(CoCo)を提案する。
CoCoは、2つのステップで新しい会話シナリオを生成する: (i) スロットをドロップして追加し、スロット値を置き換えて、 (ii) (i) で条件付きで対話フローと整合する対実会話生成。
人間による評価では、COCO生成された会話は95%以上の精度でユーザー目標を完璧に反映し、元の会話と同じくらい人間らしくなっている。
論文 参考訳(メタデータ) (2020-10-24T09:39:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。