論文の概要: Faithful Summarisation under Disagreement via Belief-Level Aggregation
- arxiv url: http://arxiv.org/abs/2601.04889v1
- Date: Thu, 08 Jan 2026 12:40:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:53.203111
- Title: Faithful Summarisation under Disagreement via Belief-Level Aggregation
- Title(参考訳): 信念・レベル・アグリゲーションによる不一致下における忠実な要約
- Authors: Favour Yahdii Aghaebe, Tanefa Apekey, Elizabeth Williams, Nafise Sadat Moosavi,
- Abstract要約: 言語生成から信念レベルアグリゲーションを分離する不一致認識合成パイプラインを導入する。
以上の結果から,大規模モデルは世代ごとの集約処理において,信念レベルアグリゲーションに十分一致するが,アーキテクチャや能力の面では安定ではないことが示唆された。
対照的に、信念レベルのアグリゲーションと単純なプロンプトの利得が組み合わさって、モデル間の相反する性能を一貫して強く認識する。
- 参考スコア(独自算出の注目度): 10.334277776439423
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Opinion and multi-document summarisation often involve genuinely conflicting viewpoints, yet many existing approaches, particularly LLM-based systems, implicitly smooth disagreement and over-represent majority opinions. This limits the faithfulness of generated summaries in opinion-heavy settings. We introduce a disagreement-aware synthesis pipeline that separates belief-level aggregation from language generation. Documents are first represented as structured belief sets and aggregated using distance-based belief merging operators that explicitly model conflict. Large language models are then used only to realise the aggregated beliefs as natural language summaries. We evaluate the approach across multiple model families and scales, comparing it to methods that perform explicit aggregation during generation. Our results show that while sufficiently large models can match belief-level aggregation when aggregation is handled at generation time, this behaviour is not stable across architectures or capacities. In contrast, belief-level aggregation combined with simple prompting yields consistently strong disagreement-aware performance across models, while maintaining fluent and grounded summaries.
- Abstract(参考訳): 意見と多文書の要約は、真に矛盾する視点を伴うことが多いが、多くの既存アプローチ、特にLLMベースのシステム、暗黙的にスムーズな意見の不一致と過剰に表現された多数意見。
これは、意見の多い設定で生成された要約の忠実さを制限する。
言語生成から信念レベルアグリゲーションを分離する不一致認識合成パイプラインを導入する。
文書はまず構造化された信念集合として表現され、紛争を明示的にモデル化する距離ベースの信念統合演算子を用いて集約される。
大規模言語モデルは、集約された信念を自然言語の要約として実現するためにのみ使用される。
複数のモデルファミリとスケールのアプローチを評価し、生成時に明示的なアグリゲーションを実行する手法と比較する。
以上の結果から,大規模モデルは世代ごとの集約処理において,信念レベルアグリゲーションに十分一致するが,アーキテクチャや能力の面では安定ではないことが示唆された。
対照的に、信念レベルのアグリゲーションと単純なプロンプトの利得が組み合わさると、モデル間での相反するパフォーマンスが一貫して強くなり、流動的で接地的なサマリーは維持される。
関連論文リスト
- On the Out-of-Distribution Generalization of Reasoning in Multimodal LLMs for Simple Visual Planning Tasks [56.98385132295952]
簡単な計画課題において,チェーン・オブ・ソート・アプローチがいかに一般化するかを評価する。
複数のテキスト形式を組み合わせた推論トレースが、最高の(かつ非自明な)OOD一般化をもたらすことが分かりました。
純粋にテキストベースのモデルは、画像ベースの入力を利用するモデルよりも一貫して優れています。
論文 参考訳(メタデータ) (2026-02-17T09:51:40Z) - Multimodal Fact-Level Attribution for Verifiable Reasoning [80.60864342985748]
マルチモーダル大言語モデル(MLLM)は、多段階推論と長文生成を含む実世界のタスクにますます利用されている。
既存のマルチモーダルグラウンドベンチマークと評価手法は、複雑なマルチモーダル推論における属性評価に失敗する。
我々は、直接観察以上の推論を必要とする設定において、ファクトレベルのマルチモーダル属性を評価するためのベンチマークであるMuRGAtを紹介する。
論文 参考訳(メタデータ) (2026-02-12T03:10:02Z) - Learning to Trust the Crowd: A Multi-Model Consensus Reasoning Engine for Large Language Models [0.0]
大規模言語モデル(LLM)は平均年齢のパフォーマンスは高いが、インスタンスレベルでは信頼性が低い。
本稿では,LLM出力の集合を教師付きメタラーナへの入力として扱うマルチモデル・コンセンサス・推論エンジンを提案する。
このシステムは、自然言語の応答をセマンティックな埋め込み、ペアの類似性とクラスタリング統計、語彙的および構造的手がかり、推論品質スコア、信頼度推定、モデル固有の事前情報を用いて構造化された特徴にマッピングする。
論文 参考訳(メタデータ) (2026-01-12T06:27:06Z) - Test-Time Scaling Strategies for Generative Retrieval in Multimodal Conversational Recommendations [70.94563079082751]
電子商取引は、複雑なマルチターンユーザーインタラクションを管理する上で、伝統的な製品検索システムの限界を明らかにしている。
本稿では,対話型マルチモーダル製品検索にテスト時間スケーリングを導入する新しいフレームワークを提案する。
提案手法は生成型レトリバー上に構築され,さらに検索精度の向上と,対話を通してユーザ意図の進化と結果の整合性を向上するテストタイムリグレード機構が組み込まれている。
論文 参考訳(メタデータ) (2025-08-25T15:38:56Z) - CORG: Generating Answers from Complex, Interrelated Contexts [57.213304718157985]
現実世界のコーパスでは、知識は文書間で頻繁に再帰するが、曖昧な命名、時代遅れの情報、エラーのためにしばしば矛盾を含む。
以前の研究では、言語モデルはこれらの複雑さに苦しむことが示されており、典型的には孤立した単一要因に焦点を当てている。
複数のコンテキストを個別に処理されたグループに整理するフレームワークであるContext Organizer (CORG)を紹介する。
論文 参考訳(メタデータ) (2025-04-25T02:40:48Z) - Discourse-Driven Evaluation: Unveiling Factual Inconsistency in Long Document Summarization [7.218054628599005]
本研究では,事実整合性エラーを考察し,それらと談話分析の行を結びつける。
長文を談話にインスパイアされたチャンクに分解するフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-10T06:30:15Z) - Context-Aware Hierarchical Merging for Long Document Summarization [56.96619074316232]
本論文では,階層的なマージをソース文書からコンテキストと統合する手法を提案する。
法的および物語的領域を表すデータセットの実験結果は、文脈的拡張がゼロショットと階層的な融合ベースラインを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2025-02-03T01:14:31Z) - SHINE: Saliency-aware HIerarchical NEgative Ranking for Compositional Temporal Grounding [52.98133831401225]
時間的グラウンドディング(英: Temporal grounding、ビデオモーメント検索(英語版))は、所定のクエリ文に対応するビデオセグメントを特定することを目的としている。
本稿では, GPT-3.5-Turbo を用いた負のクエリ構築のための大規模言語モデル駆動手法を提案する。
本稿では,ビデオと階層的負のクエリ間の多粒度意味的関係を学習するモデルを提案する。
論文 参考訳(メタデータ) (2024-07-06T16:08:17Z) - Nutribullets Hybrid: Multi-document Health Summarization [36.95954983680022]
本稿では,入力文書の類似性と矛盾を強調する比較要約を生成する手法を提案する。
私たちのフレームワークは、より忠実で関連性があり、集約に敏感な要約につながります。
論文 参考訳(メタデータ) (2021-04-08T01:44:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。