論文の概要: Input Order Shapes LLM Semantic Alignment in Multi-Document Summarization
- arxiv url: http://arxiv.org/abs/2512.02665v1
- Date: Tue, 02 Dec 2025 11:36:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.846477
- Title: Input Order Shapes LLM Semantic Alignment in Multi-Document Summarization
- Title(参考訳): 多文書要約における入力順序形LLMセマンティックアライメント
- Authors: Jing Ma,
- Abstract要約: 大規模言語モデル(LLM)は現在、GoogleのAI概要などの設定で使用されている。
我々は、40個のプロ中性コン記事三重項を作成し、各三重項を6つの入力順序にパーミュレートし、Gemini 2.5 Flashに中立的な概要を生成するよう促す。
ROUGE-L (lexical overlap)、BERTScore(semantic similarity)、SummaC(SummaC)を用いて、ソース記事に対する各要約を評価する。
- 参考スコア(独自算出の注目度): 9.343188274671851
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are now used in settings such as Google's AI Overviews, where it summarizes multiple long documents. However, it remains unclear whether they weight all inputs equally. Focusing on abortion-related news, we construct 40 pro-neutral-con article triplets, permute each triplet into six input orders, and prompt Gemini 2.5 Flash to generate a neutral overview. We evaluate each summary against its source articles using ROUGE-L (lexical overlap), BERTScore (semantic similarity), and SummaC (factual consistency). One-way ANOVA reveals a significant primacy effect for BERTScore across all stances, indicating that summaries are more semantically aligned with the first-seen article. Pairwise comparisons further show that Position 1 differs significantly from Positions 2 and 3, while the latter two do not differ from each other, confirming a selective preference for the first document. The findings present risks for applications that rely on LLM-generated overviews and for agentic AI systems, where the steps involving LLMs can disproportionately influence downstream actions.
- Abstract(参考訳): 大規模言語モデル(LLM)は、GoogleのAI概要など、複数の長いドキュメントを要約する設定で使用されている。
しかし、全ての入力が等しく重み付けされているかどうかは不明である。
中絶関連ニュースに着目して、40個の中性コン記事三重項を作成し、各三重項を6つの入力順序にパーミュレートし、Gemini 2.5 Flashに中立的な概要を生成する。
ROUGE-L (lexical overlap)、BERTScore (semantic similarity)、SummaC (factual consistency) を用いて、各要約をソース記事と比較した。
片道ANOVAはBERTScoreに対する重要な優位性を示しており、要約が第一の記事と意味的に一致していることを示している。
ペアワイズ比較では、位置1が位置2と3と大きく異なるのに対して、後者の2つは互いに異なるわけではなく、第1の文書の選好を確認する。
この発見は、LLMの生成した概要とエージェントAIシステムに依存するアプリケーションに対するリスクを示し、LLMが関与するステップは下流のアクションに不均等に影響を及ぼす可能性がある。
関連論文リスト
- Comparison of Text-Based and Image-Based Retrieval in Multimodal Retrieval Augmented Generation Large Language Model Systems [0.0]
本稿では,マルチモーダルRAGシステムにおける2つの検索手法の比較分析を行う。
直接マルチモーダル埋め込み検索は、LLM-summary-based approachよりも大幅に優れている。
論文 参考訳(メタデータ) (2025-11-20T18:56:49Z) - Enhancing Faithfulness in Abstractive Summarization via Span-Level Fine-Tuning [3.9689644302388145]
我々は、スパンレベルのラベルを持つ忠実で不誠実な要約の両方を含む新しいデータセットを導入する。
我々は,LLMを微調整する3つの手法を評価し,その結果の要約の忠実さを向上させる。
論文 参考訳(メタデータ) (2025-10-10T23:19:18Z) - Context-Aware Hierarchical Merging for Long Document Summarization [56.96619074316232]
本論文では,階層的なマージをソース文書からコンテキストと統合する手法を提案する。
法的および物語的領域を表すデータセットの実験結果は、文脈的拡張がゼロショットと階層的な融合ベースラインを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2025-02-03T01:14:31Z) - Implicit Multimodal Alignment: On the Generalization of Frozen LLMs to Multimodal Inputs [63.29737699997859]
大規模言語モデル(LLM)は、マルチモーダルな微調整をせずに、マルチモーダルなタスクにおいて印象的なパフォーマンスを示した。
本研究では,画像,ビデオ,音声,テキストの入力に凍結LDMを公開し,内部表現を解析する。
論文 参考訳(メタデータ) (2024-05-26T21:31:59Z) - SEED-Bench-2: Benchmarking Multimodal Large Language Models [67.28089415198338]
MLLM(Multimodal large language model)は、最近、テキストだけでなく、インターリーブされたマルチモーダル入力の画像を生成できることを実証した。
SEED-Bench-2は、正確な人間のアノテーションを持つ24Kの多重選択質問で構成されており、27次元にまたがっている。
我々は,23個の著名なオープンソースMLLMの性能を評価し,貴重な観察結果を要約した。
論文 参考訳(メタデータ) (2023-11-28T05:53:55Z) - Element-aware Summarization with Large Language Models: Expert-aligned
Evaluation and Chain-of-Thought Method [35.181659789684545]
自動要約は、ソースドキュメントのキーアイデアを含む簡潔な要約を生成する。
CNN/DailyMailやBBC XSumからの引用は、主に幻覚と情報冗長性の点で騒々しい。
本稿では,LCMを段階的に生成するためにSumCoT(Slide Chain-of-Thought)手法を提案する。
実験結果から, ROUGE-L では, 最先端の微調整 PLM とゼロショット LLM を+4.33/+4.77 で上回った。
論文 参考訳(メタデータ) (2023-05-22T18:54:35Z) - Evaluating the Factual Consistency of Large Language Models Through News
Summarization [97.04685401448499]
本稿では,要約タスクに着目したFIB(Factual Inconsistency Benchmark)と呼ばれる新しいベンチマークを提案する。
現実的に一貫した要約では、手作業で事実的に一貫したものとして検証する、人書きの参照要約を使用します。
現実的に矛盾しない要約に対して、我々は、事実的に矛盾しているとして手動で注釈付けした一連の要約モデルから要約を生成する。
論文 参考訳(メタデータ) (2022-11-15T18:50:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。