論文の概要: DNA Bench: When Silence is Smarter -- Benchmarking Over-Reasoning in Reasoning LLMs
- arxiv url: http://arxiv.org/abs/2503.15793v1
- Date: Thu, 20 Mar 2025 02:19:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-21 15:30:52.226099
- Title: DNA Bench: When Silence is Smarter -- Benchmarking Over-Reasoning in Reasoning LLMs
- Title(参考訳): DNAベンチ:サイレンスがより賢ければ -- LLMのオーバー推論のベンチマーク
- Authors: Masoud Hashemi, Oluwanifemi Bamgbose, Sathwik Tejaswi Madhusudhan, Jishnu Sethumadhavan Nair, Aman Tiwari, Vikas Yadav,
- Abstract要約: Don't Answer Bench (DNA Bench)は、大規模言語モデル(LLM)を評価するための新しいベンチマークである。
DNAベンチは150個の逆向きに設計されたプロンプトから構成されており、人間が理解し、反応しやすくなっている。
我々の実験により、RTMは必要以上に最大70倍のトークンを生成し、より単純な非推論モデルがより高精度で効率的に処理するタスクに失敗することが判明した。
- 参考スコア(独自算出の注目度): 3.850766603072179
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Test-time scaling has significantly improved large language model performance, enabling deeper reasoning to solve complex problems. However, this increased reasoning capability also leads to excessive token generation and unnecessary problem-solving attempts. We introduce Don\'t Answer Bench (DNA Bench), a new benchmark designed to evaluate LLMs ability to robustly understand the tricky reasoning triggers and avoiding unnecessary generation. DNA Bench consists of 150 adversarially designed prompts that are easy for humans to understand and respond to, but surprisingly not for many of the recent prominent LLMs. DNA Bench tests models abilities across different capabilities, such as instruction adherence, hallucination avoidance, redundancy filtering, and unanswerable question recognition. We evaluate reasoning LLMs (RLMs), including DeepSeek-R1, OpenAI O3-mini, Claude-3.7-sonnet and compare them against a powerful non-reasoning model, e.g., GPT-4o. Our experiments reveal that RLMs generate up to 70x more tokens than necessary, often failing at tasks that simpler non-reasoning models handle efficiently with higher accuracy. Our findings underscore the need for more effective training and inference strategies in RLMs.
- Abstract(参考訳): テストタイムのスケーリングは大きな言語モデルのパフォーマンスを大幅に改善し、複雑な問題を解決するための深い推論を可能にした。
しかし、この推論能力の増大は、過剰なトークン生成と不要な問題解決の試みにつながる。
Don\'t Answer Bench (DNA Bench) はLSMがトリッキーな推論トリガをしっかり理解し、不要な生成を回避できる能力を評価するために設計された新しいベンチマークである。
DNAベンチは150個の逆向きに設計されたプロンプトからなり、人間が理解し、反応しやすくなります。
DNA Benchは、命令順守、幻覚回避、冗長フィルタリング、解決不可能な質問認識など、さまざまな能力の能力をモデル化する。
我々は,DeepSeek-R1,OpenAI O3-mini,Claude-3.7-sonnetを含む推論LDM(RLM)を評価し,これらを強力な非推論モデルであるGPT-4oと比較した。
我々の実験により、RTMは必要以上に最大70倍のトークンを生成し、より単純な非推論モデルがより高精度で効率的に処理するタスクに失敗することが判明した。
以上の結果から,RTMにおけるより効果的なトレーニングと推論戦略の必要性が浮き彫りになった。
関連論文リスト
- SEAL: Steerable Reasoning Calibration of Large Language Models for Free [58.190800043449336]
大規模言語モデル(LLM)は、拡張チェーン・オブ・ソート(CoT)推論機構を通じて複雑な推論タスクに魅力的な機能を示した。
最近の研究では、CoT推論トレースにかなりの冗長性が示されており、これはモデル性能に悪影響を及ぼす。
我々は,CoTプロセスをシームレスに校正し,高い効率性を示しながら精度を向上する,トレーニング不要なアプローチであるSEALを紹介した。
論文 参考訳(メタデータ) (2025-04-07T02:42:07Z) - R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning [87.30285670315334]
textbfR1-Searcherは、大規模言語モデルの検索能力を高めるために設計された、2段階の結果に基づく新しいRLアプローチである。
本フレームワークは, コールドスタート時に, プロセス報酬や蒸留を必要とせず, RLのみに依存している。
提案手法は, クローズドソースGPT-4o-miniと比較して, 従来の強力なRAG法よりも有意に優れていた。
論文 参考訳(メタデータ) (2025-03-07T17:14:44Z) - R1-Zero's "Aha Moment" in Visual Reasoning on a 2B Non-SFT Model [70.77691645678804]
非SFT 2Bモデルのみを用いたマルチモーダル推論における創発的特性の再現に成功した最初の例を示す。
本モデルはCVBenchで59.47%の精度を達成し, ベースモデルを約30%, SFT設定を2%以上上回った。
さらに,RLとインストラクションモデルを用いてR1のような推論を行おうとする試みの失敗と知見を共有した。
論文 参考訳(メタデータ) (2025-03-07T04:21:47Z) - LR$^2$Bench: Evaluating Long-chain Reflective Reasoning Capabilities of Large Language Models via Constraint Satisfaction Problems [7.379503137362718]
我々はLong-chain Reflective Reasoning capabilities of Large Language Models (LLMs)を評価するために設計された新しいベンチマークLR$2$Benchを紹介する。
実験結果から,DeepSeek-R1やOpenAI o1-previewのような先進的な推論モデルでさえ,LR$2$Benchのタスクと競合することが明らかとなった。
論文 参考訳(メタデータ) (2025-02-25T04:51:17Z) - CounterBench: A Benchmark for Counterfactuals Reasoning in Large Language Models [5.409370027524351]
本研究では, 大規模言語モデル(LLM)の性能評価を行った。
我々は,新しいベンチマークデータセットであるCounterBenchを紹介した。
論文 参考訳(メタデータ) (2025-02-16T06:19:37Z) - On the Emergence of Thinking in LLMs I: Searching for the Right Intuition [34.32871896067864]
自己学習による強化学習(RLSP)というポストトレーニングフレームワークを提案する。
RLSPは、推論プロセスの人間または合成的なデモンストレーションによる微調整、多種多様な効率的な推論行動を促進するための探索報酬信号の使用、報酬ハッキングを予防しながら正当性を確保するための結果検証器によるRLトレーニングの3段階を含む。
数学領域における実証的研究は、RLSPが推論を改善することを示している。
論文 参考訳(メタデータ) (2025-02-10T18:52:04Z) - Language Models are Hidden Reasoners: Unlocking Latent Reasoning Capabilities via Self-Rewarding [74.31981011985681]
大きな言語モデル(LLM)は印象的な機能を示しているが、それでも複数のステップを必要とする複雑な推論タスクに苦戦している。
LaTRO(LaTent Reasoning Optimization)は、潜在分布からのサンプリングとして推論を定式化するためのフレームワークである。
複数のモデルアーキテクチャを用いて、GSM8KおよびARC-Challengeデータセットの実験を通してLaTROを検証する。
論文 参考訳(メタデータ) (2024-11-06T22:02:30Z) - WILT: A Multi-Turn, Memorization-Robust Inductive Logic Benchmark for LLMs [0.8883751685905831]
メモリ化に抵抗するように設計された,シンプルなマルチターン推論ベンチマークである Wason Inductive Logic Test (WILT) を紹介する。
以上の結果から,LSMはこの課題に苦しむことが明らかとなった。
これらの変動にもかかわらず、最高の性能モデルは28%の精度しか達成せず、複雑なマルチターン推論タスクにおけるLLM性能の重大なギャップを浮き彫りにしている。
論文 参考訳(メタデータ) (2024-10-14T18:29:13Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - SelfCheck: Using LLMs to Zero-Shot Check Their Own Step-by-Step
Reasoning [55.76083560152823]
SelfCheckは、ステップバイステップの推論でエラーを認識する汎用的なゼロショット検証スキーマである。
我々は,3つのデータセット(GSM8K,MathQA,MATH)上でSelfCheckをテストし,エラーの認識に成功し,最終的な回答精度が向上することを確認した。
論文 参考訳(メタデータ) (2023-08-01T10:31:36Z) - Rethinking with Retrieval: Faithful Large Language Model Inference [91.66406351103484]
我々は検索(RR)で再考する新しいポストプロセッシング手法を提案する。
RRは、チェーン・オブ・シークレット・プロンプトから得られた推論ステップに基づいて、関連する外部知識を検索する。
複雑な3つの推論課題に対する GPT-3 を用いた広範囲な実験により RR の有効性を評価する。
論文 参考訳(メタデータ) (2022-12-31T22:35:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。