論文の概要: Atomic Reasoning for Scientific Table Claim Verification
- arxiv url: http://arxiv.org/abs/2506.06972v1
- Date: Sun, 08 Jun 2025 02:46:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.593517
- Title: Atomic Reasoning for Scientific Table Claim Verification
- Title(参考訳): 科学表のクレーム検証のための原子推論
- Authors: Yuji Zhang, Qingyun Wang, Cheng Qian, Jiateng Liu, Chenkai Sun, Denghui Zhang, Tarek Abdelzaher, Chengxiang Zhai, Preslav Nakov, Heng Ji,
- Abstract要約: 非専門家は、その高い情報密度と認識される信頼性のために、科学的表に基づく主張を誤解させるおそれがある。
既存のテーブルクレーム検証モデル、例えば最先端の大規模言語モデル(LLM)は、しばしば精密なきめ細かい推論に苦しむ。
認知負荷理論に触発されて、表に基づく主張を解釈するモデルの能力を高めるには、認知負荷を減らす必要がある。
- 参考スコア(独自算出の注目度): 83.14588611859826
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scientific texts often convey authority due to their technical language and complex data. However, this complexity can sometimes lead to the spread of misinformation. Non-experts are particularly susceptible to misleading claims based on scientific tables due to their high information density and perceived credibility. Existing table claim verification models, including state-of-the-art large language models (LLMs), often struggle with precise fine-grained reasoning, resulting in errors and a lack of precision in verifying scientific claims. Inspired by Cognitive Load Theory, we propose that enhancing a model's ability to interpret table-based claims involves reducing cognitive load by developing modular, reusable reasoning components (i.e., atomic skills). We introduce a skill-chaining schema that dynamically composes these skills to facilitate more accurate and generalizable reasoning with a reduced cognitive load. To evaluate this, we create SciAtomicBench, a cross-domain benchmark with fine-grained reasoning annotations. With only 350 fine-tuning examples, our model trained by atomic reasoning outperforms GPT-4o's chain-of-thought method, achieving state-of-the-art results with far less training data.
- Abstract(参考訳): 科学的テキストは、しばしば技術言語と複雑なデータのために権威を伝える。
しかし、この複雑さは時に誤報の拡散につながることがある。
非専門家は、特に、その高い情報密度と認識される信頼性のために、科学的表に基づく主張を誤解させる可能性がある。
既存のテーブルクレーム検証モデル、例えば最先端の大規模言語モデル(LLM)は、しばしば精密なきめ細かい推論に苦しむため、科学的クレームの検証には誤りと精度の欠如が生じる。
認知負荷理論(Cognitive Load Theory)に触発されて、モデルが表に基づく主張を解釈する能力を高めるには、モジュラーで再利用可能な推論コンポーネント(アトミックスキル)を開発することによって認知負荷を減らすことが必要である。
我々はこれらのスキルを動的に構成するスキルチェーンスキーマを導入し、認知負荷を減らすことでより正確で一般化可能な推論を容易にする。
これを評価するために、細かな推論アノテーションを持つクロスドメインベンチマークであるSciAtomicBenchを作成します。
GPT-4oのチェーン・オブ・プリート法よりも原子推論によるトレーニングが優れており、トレーニングデータが少なくて最先端の結果が得られます。
関連論文リスト
- FactReasoner: A Probabilistic Approach to Long-Form Factuality Assessment for Large Language Models [59.171510592986735]
本稿では,確率論的推論に依拠した新たな事実性評価器FactReasonerを提案する。
ラベル付きおよびラベルなしのベンチマークデータセットの実験は、FactReasonerが最先端のプロンプトベースのアプローチよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2025-02-25T19:01:48Z) - Causality can systematically address the monsters under the bench(marks) [64.36592889550431]
ベンチマークはさまざまなバイアス、アーティファクト、リークに悩まされている。
モデルは、調査の不十分な障害モードのため、信頼できない振る舞いをする可能性がある。
因果関係はこれらの課題を体系的に解決するための 理想的な枠組みを提供します
論文 参考訳(メタデータ) (2025-02-07T17:01:37Z) - Advancing Counterfactual Inference through Nonlinear Quantile Regression [77.28323341329461]
ニューラルネットワークで実装された効率的かつ効果的な対実的推論のためのフレームワークを提案する。
提案手法は、推定された反事実結果から見つからないデータまでを一般化する能力を高める。
複数のデータセットで実施した実証実験の結果は、我々の理論的な主張に対する説得力のある支持を提供する。
論文 参考訳(メタデータ) (2023-06-09T08:30:51Z) - SCITAB: A Challenging Benchmark for Compositional Reasoning and Claim
Verification on Scientific Tables [68.76415918462418]
本報告では,1.2Kの専門的な科学的クレームからなる,挑戦的な評価データセットであるSCITABについて述べる。
広範な評価を通じて、SCITABは最先端のモデルに重大な課題をもたらすことを示した。
SCITABは,表の接地,主張のあいまいさ,構成的推論など,いくつかの独特な課題を明らかにした。
論文 参考訳(メタデータ) (2023-05-22T16:13:50Z) - Comparing and extending the use of defeasible argumentation with
quantitative data in real-world contexts [5.482532589225552]
非単調な形式主義(英: non-monotonic formalism)は、新しい証拠に照らして、前提から以前の結論や主張を撤回できる形式である。
本研究は, 難解な議論の活用を通じて知識の体系に寄与し, 類似したアプローチとの比較を行った。
論文 参考訳(メタデータ) (2022-06-28T12:28:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。