論文の概要: Argument Collapse: LLMs Flatten Long-Form Public Debate
- arxiv url: http://arxiv.org/abs/2606.01736v2
- Date: Wed, 03 Jun 2026 21:13:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 19:21:32.999511
- Title: Argument Collapse: LLMs Flatten Long-Form Public Debate
- Title(参考訳): LLMs Flatten Long-Form Public Debate(英語)
- Authors: Yekyung Kim, Yapei Chang, Chau Minh Pham, Mohit Iyyer,
- Abstract要約: 我々は、議論の崩壊、異なる LLM によって生成されたエッセイの傾向を、より小さな主要な議論、サブ引数、および段落レベルの構造に収束させる傾向について研究する。
ニューヨーク・タイムズ(NYT)の討論会では1,039件、ボストン・レビュー(BR)のフォーラムでは448件、LLMのエッセイでは23,384件を比較した。
- 参考スコア(独自算出の注目度): 26.216276638412566
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As LLMs are increasingly used to draft public-facing arguments, they may flatten public debate by repeatedly introducing the same polished, plausible arguments. We study argument collapse, the tendency of essays generated by different LLMs to converge to a smaller set of main arguments, sub-arguments, and paragraph-level structures. We compare 1,039 human responses from 195 New York Times (NYT) debates, 448 human responses from 61 longer-form Boston Review (BR) forums, and 23,384 LLM-generated essays. In the NYT corpus, 65.3% of human main arguments are unique within a debate, compared to 3.4% of LLM main arguments. Asking LLMs to generate diverse answers adds variation, but a typical model recovers only about half of the distinct human main arguments, with much of the added variation falling outside the observed human argument space. Collapse also appears in sub-arguments, where among essays with the same main argument, 41.0% of human sub-arguments are unique versus 9.1% from LLM responses. Qualitatively, LLMs often reuse generalized and hedged sub-arguments, while humans prefer more concrete and topic-specific ones. Structure-wise, LLM-generated essays tend to follow a more fixed arc, often opening with a direct claim and moving quickly toward proposals. The same patterns hold in longer BR essays, suggesting that argument collapse extends beyond short-form responses.
- Abstract(参考訳): LLMは、公的な議論の草案作成にますます使われているため、同じ洗練され、実証可能な議論を繰り返し導入することで、公開討論をフラットにする可能性がある。
我々は、議論の崩壊、異なる LLM によって生成されたエッセイの傾向を、より小さな主要な議論、サブ引数、および段落レベルの構造に収束させる傾向について研究する。
ニューヨーク・タイムズ(NYT)の討論会では1,039件、ボストン・レビュー(BR)のフォーラムでは448件、LLMのエッセイでは23,384件を比較した。
NYTのコーパスでは、65.3%の人間の主論は議論の中でユニークであり、LLMの主論の3.4%とは対照的である。
LLMに多様な答えを生成するよう求めると、バリエーションが増すが、典型的なモデルでは、異なる人間の主引数の約半分しか回復せず、追加されるばらつきの多くは観察された人間の引数空間の外に落ちている。
同じ主論のエッセイの中で、人間の41.0%はLSM反応の9.1%に対してユニークである。
質的には、LLMは一般化された、あるいはヘッジされたサブ引数を再利用することが多いが、人間はより具体的でトピック固有のものを好む。
構造的にも LLM の生成したエッセイはより固定された弧を辿りがちで、しばしば直接の主張で始まり、すぐに提案に向かって動く。
同じパターンが長いBRエッセイで見られ、議論の崩壊は短文の反応を超えて広がることを示唆している。
関連論文リスト
- Blind to the Human Touch: Overlap Bias in LLM-Based Summary Evaluation [89.52571224447111]
大規模言語モデル(LLM)の判断は、要約のようなタスクのために、伝統的なアルゴリズムベースのメトリクスと併用されることが多い。
要約領域における人書き応答と重なる関数としてLLM判定バイアス分析を提案する。
論文 参考訳(メタデータ) (2026-02-07T19:39:28Z) - SAD: A Large-Scale Strategic Argumentative Dialogue Dataset [60.33125467375306]
実際には、議論はしばしばマルチターン対話として実現される。
大規模なtextbfStrategic textbfArgumentative textbfDialogue データセットは,392,822例からなる。
論文 参考訳(メタデータ) (2026-01-12T11:11:37Z) - MArgE: Meshing Argumentative Evidence from Multiple Large Language Models for Justifiable Claim Verification [12.449402503089164]
本稿では,各大規模言語モデルの証拠に形式的構造を提供する新しいフレームワークであるMArgEを紹介する。
実験により,MArgEは単一LLMよりも有意に優れることが示された。
論文 参考訳(メタデータ) (2025-08-04T16:40:02Z) - Arbiters of Ambivalence: Challenges of Using LLMs in No-Consensus Tasks [52.098988739649705]
本研究では, LLMのバイアスと限界について, 応答生成器, 判定器, 討論器の3つの役割について検討した。
我々は、様々な先行的曖昧なシナリオを含む例をキュレートすることで、合意なしのベンチマークを開発する。
以上の結果から, LLMは, オープンエンドの回答を生成する際に, 曖昧な評価を行うことができる一方で, 審査員や討論者として採用する場合は, 合意なしのトピックにスタンスを取る傾向が示唆された。
論文 参考訳(メタデータ) (2025-05-28T01:31:54Z) - Reasoning Capabilities and Invariability of Large Language Models [49.23570751696334]
我々は,大規模言語モデルの推論能力に関する総合的な分析を行うことを目標としている。
我々は、浅い論理的推論を要求する一連の単純な推論質問を含む新しいベンチマークデータセットを導入する。
ゼロショットと少数ショットを含む実証分析では、70億以上のパラメータを持つLDMがゼロショット設定でより優れた性能を発揮する一方で、改善の余地がまだ大きいことが示されている。
論文 参考訳(メタデータ) (2025-05-01T18:12:30Z) - Tailored Truths: Optimizing LLM Persuasion with Personalization and Fabricated Statistics [0.0]
大規模言語モデル(LLM)はますます説得力を高めつつある。
LLMは、個人データを活用することで、人間との会話における議論をパーソナライズすることができる。
これは偽情報キャンペーンの規模と効果に深刻な影響を与える可能性がある。
論文 参考訳(メタデータ) (2025-01-28T20:06:09Z) - Counterfactual Debating with Preset Stances for Hallucination Elimination of LLMs [45.38821594541265]
大規模言語モデル(LLM)は様々な自然言語処理タスクに優れるが、幻覚に苦しむ。
本稿では, LLM 固有のバイアスをオーバーライドして解答検査を行うために, CFMAD フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-17T13:21:23Z) - Can LLMs Speak For Diverse People? Tuning LLMs via Debate to Generate Controllable Controversial Statements [30.970994382186944]
我々は,ユーザがプロンプトで定義した引数をサポートする文を生成する際のLCMの制御性を向上させる。
我々は,LLMを微調整する新しい議論・チューニングパイプラインを開発し,議論を通じて得られた文を生成する。
論文 参考訳(メタデータ) (2024-02-16T12:00:34Z) - Examining Inter-Consistency of Large Language Models Collaboration: An
In-depth Analysis via Debate [41.949869545423375]
大きな言語モデル(LLM)は、様々なアプリケーションで印象的な機能を示しているが、それでも様々な矛盾問題に直面している。
LLMが効果的に協力して共有目標のコンセンサスを達成するためには,コモンセンス推論に焦点をあてる。
我々の研究は,LLM間の一貫性の理解に寄与し,今後のコラボレーション手法開発の基礎を築いた。
論文 参考訳(メタデータ) (2023-05-19T11:15:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。