論文の概要: ClaimFlow: Tracing the Evolution of Scientific Claims in NLP
- arxiv url: http://arxiv.org/abs/2603.16073v1
- Date: Tue, 17 Mar 2026 02:43:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.076753
- Title: ClaimFlow: Tracing the Evolution of Scientific Claims in NLP
- Title(参考訳): ClaimFlow:NLPにおける科学的主張の進化の追跡
- Authors: Aniket Pramanick, Yufang Hou, Saif M. Mohammad, Iryna Gurevych,
- Abstract要約: NLP文献のクレーム中心のビューである$texttClaimFlow$を紹介します。
新しいタスク $-$$textitClaim Relation Classification$$-$を定義する。
我々の分析によると、63.5$%の請求は決して再利用されない。
- 参考スコア(独自算出の注目度): 67.23189226608389
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Scientific papers do more than report results $-$ they advance $\textit{claims}$ that later work supports, extends, or sometimes refutes. Yet existing methods for citation and claim analysis capture only fragments of this dialogue. In this work, we make these interactions explicit at the level of individual scientific claims. We introduce $\texttt{ClaimFlow}$, a claim-centric view of the NLP literature, built from $304$ ACL Anthology papers (1979$-$2025) that are manually annotated with $1{,}084$ claims and $832$ cross-paper claim relations, indicating whether a citing paper $\textit{supports}$, $\textit{extends}$, $\textit{qualifies}$, $\textit{refutes}$, or references a claim as $\textit{background}$. Using $\texttt{ClaimFlow}$, we define a new task $-$ $\textit{Claim Relation Classification}$ $-$ which requires models to infer the scientific stance toward a cited claim from the text and citation context. Evaluating strong neural models and large language models on this task, we report baseline performance of $0.78$ macro-F1, highlighting that claim-relation classification is feasible but challenging. We further apply our model to $\sim$$13k$ NLP papers to analyze how claims evolve across decades of NLP research. Our analysis reveals that $63.5$% claims are never reused; only $11.1$% are ever challenged; meanwhile, widely propagated claims are more often $\textit{reshaped}$ through qualification and extension than directly confirmed or refuted. Overall, $\texttt{ClaimFlow}$ offers a lens for examining how ideas shift and mature within NLP, and a foundation for assessing whether models can interpret scientific argumentation.
- Abstract(参考訳): 科学論文は、レポート結果以上のことをする。$-$ they advance $\textit{claims}$ 後続の作業がサポートし、拡張し、時には反証する。
しかし、既存の引用とクレーム分析の方法は、この対話の断片のみをキャプチャする。
本研究では、これらの相互作用を個々の科学的主張のレベルで明示する。
我々は、$\textit{ClaimFlow}$、$\textit{extends}$、$\textit{qualify}$、$\textit{refutes}$、$\textit{background}$を引用するか、または$\textit{background}$としてアノテートするかを示す${,}084$と832$のクロスペーパーのクレーム関係を手作業でアノテートした304$ ACLアンソロジー論文(1979$-2025)から構築されたNLP文学のクレーム中心ビューである$\texttt{ClaimFlow}$を紹介した。
$\textt{ClaimFlow}$を使用して、新しいタスク $-$\textit{Claim Relation Classification}$-$を定義する。
このタスクにおける強力なニューラルモデルと大規模言語モデルの評価を行い、0.78$ macro-F1のベースライン性能を報告した。
さらに、我々のモデルを$\sim$13k$のNLP論文に適用して、数十年にわたるNLP研究におけるクレームの進化を分析する。
私たちの分析では、63.5$%のクレームは再利用されることはなく、111.1$%しか挑戦されないが、広く普及しているクレームは、直接確認または反証するよりも、資格と拡張を通じて$\textit{reshaped}$であることが多い。
全体として、$\texttt{ClaimFlow}$は、アイデアがNLP内でどのように変化し成熟するかを調べるためのレンズと、モデルが科学的議論を解釈できるかどうかを評価するための基盤を提供する。
関連論文リスト
- GENIUS: Generative Fluid Intelligence Evaluation Suite [45.98061608718251]
我々は、$textbfGENIUS$ $textbfGEN$ fluid $textbfI$ntelligence Eval$textbfU$ation $textbfS$uiteを紹介します。
例えば、$textitInducing Implicit Patterns$(例えば、パーソナライズされた視覚的嗜好を推測する)、$textitExecuting Ad-hoc Constraints$(例えば、抽象メタファを視覚化する)、そして。
論文 参考訳(メタデータ) (2026-02-11T18:55:54Z) - ConvexBench: Can LLMs Recognize Convex Functions? [70.53167848190624]
凸解析は数学の現代的な分野であり、多くの応用がある。
大規模言語モデル(LLM)が研究レベルの数学と科学を自動化し始めるにつれ、LLMが凸性を理解し、推論する能力を示すことが重要である。
我々は,LLMが深い機能的構成下での象徴的対象の凸性を識別できるかどうかを,スケーラブルで機械的に検証できるベンチマークであるcbを紹介する。
論文 参考訳(メタデータ) (2026-02-01T07:41:17Z) - HypER: Literature-grounded Hypothesis Generation and Distillation with Provenance [28.51792655478926]
大規模言語モデルは、科学的領域にわたる研究の構想において有望な性能を示した。
我々は、文学誘導推論とエビデンスベースの仮説生成のために訓練された小さな言語モデルである、$textbfE$xplanation と $textbfR$easoning を用いた $textttHypER$ $textbfHyp$othesis Generation を提示する。
論文 参考訳(メタデータ) (2025-06-15T18:41:23Z) - Language Models May Verbatim Complete Text They Were Not Explicitly Trained On [97.3414396208613]
我々は、$n$-gram ベースのメンバシップ定義を効果的にゲームできることを示す。
会員定義に対して$n$の1つの実行可能な選択を見つけることは困難であることを示す。
以上の結果から,n$-gramの会員シップが不十分であることが示唆された。
論文 参考訳(メタデータ) (2025-03-21T19:57:04Z) - HLM-Cite: Hybrid Language Model Workflow for Text-based Scientific Citation Prediction [14.731720495144112]
本稿では,表面的な言及を超越した批判的参照を識別する,コア引用という新しい概念を紹介する。
我々は、引用予測のための$textbfH$ybrid $textbfL$anguage $textbfM$odelワークフローである$textbfHLM-Citeを提案する。
我々はHLM-Citeを19分野にわたって評価し,SOTA法と比較して17.6%の性能向上を示した。
論文 参考訳(メタデータ) (2024-10-10T10:46:06Z) - Inertial Confinement Fusion Forecasting via Large Language Models [48.76222320245404]
本研究では,従来の貯水池計算パラダイムとLarge Language Models(LLM)の新たな統合である$textbfLPI-LLM$を紹介する。
我々は、$textitLLM-anchored Reservoir$, augmented with a $textitFusion-specific Prompt$を提案する。
また、最初の$textttLPI$ベンチマークである$textbfLPI4AI$も提示します。
論文 参考訳(メタデータ) (2024-07-15T05:46:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。