論文の概要: CLAWS:Creativity detection for LLM-generated solutions using Attention Window of Sections
- arxiv url: http://arxiv.org/abs/2510.17921v1
- Date: Mon, 20 Oct 2025 06:59:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:12.350821
- Title: CLAWS:Creativity detection for LLM-generated solutions using Attention Window of Sections
- Title(参考訳): CLAWS:Creativity Detection for LLM- generated Solution using Attention Windows of Sections
- Authors: Keuntae Kim, Eunhye Jeong, Sehyeon Lee, Seohee Yoon, Yong Suk Choi,
- Abstract要約: 本研究では,数学的な解を,人間の評価を伴わない典型的・創造的・幻覚的カテゴリーに定義・分類する手法であるCLAWSを提案する。
181個の数学コンテストから収集した4545個の数学問題に対してCLAWSを検証した。
- 参考スコア(独自算出の注目度): 2.1041384320978267
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in enhancing the reasoning ability of large language models (LLMs) have been remarkably successful. LLMs trained with reinforcement learning (RL) for reasoning demonstrate strong performance in challenging tasks such as mathematics and coding, even with relatively small model sizes. However, despite these improvements in task accuracy, the assessment of creativity in LLM generations has been largely overlooked in reasoning tasks, in contrast to writing tasks. The lack of research on creativity assessment in reasoning primarily stems from two challenges: (1) the difficulty of defining the range of creativity, and (2) the necessity of human evaluation in the assessment process. To address these challenges, we propose CLAWS, a method that defines and classifies mathematical solutions into typical, creative, and hallucinated categories without human evaluation, by leveraging attention weights across prompt sections and output. CLAWS outperforms five existing white-box detection methods (Perplexity, Logit Entropy, Window Entropy, Hidden Score, and Attention Score) on five 7-8B math RL models (DeepSeek, Qwen, Mathstral, OpenMath2, and Oreal). We validate CLAWS on 4545 math problems collected from 181 math contests (AJHSME, AMC, AIME).
- Abstract(参考訳): 近年,大規模言語モデル(LLM)の推論能力の向上が目覚ましい成果を上げている。
強化学習(RL)を用いて学習したLLMは,比較的小さなモデルサイズであっても,数学やコーディングといった課題において高い性能を示す。
しかし、これらのタスク精度の改善にもかかわらず、LCM世代における創造性の評価は、タスクを書くのとは対照的に、推論タスクにおいてほとんど見過ごされてきた。
推論における創造性評価に関する研究の欠如は,(1)創造性の範囲を定義することの難しさ,(2)評価過程における人的評価の必要性の2つの課題に起因している。
これらの課題に対処するために,我々は,数理解を人間の評価を伴わない,典型的な,創造的で,幻覚的なカテゴリに定義・分類する手法であるCLAWSを提案する。
CLAWSは7-8Bの数学RLモデル(DeepSeek、Qwen、Mathstral、OpenMath2、Oreal)で、既存の5つのホワイトボックス検出方法(Perplexity、Logit Entropy、Window Entropy、Hidden Score、Attention Score)を上回っている。
我々は181の算数コンテスト(AJHSME, AMC, AIME)から収集した4545の算数問題に対してCLAWSを検証した。
関連論文リスト
- AR$^2$: Adversarial Reinforcement Learning for Abstract Reasoning in Large Language Models [12.484537674896908]
本稿では,大規模言語モデル (LLM) の抽象化能力を高めるために設計された新しいフレームワークである AR$2$ (Adversarial Reinforcement Learning for Abstract Reasoning) を提案する。
AR$2$は、基本ロジックを変更することなく、カーネル問題を物語に富んだ、挑戦的な記述に変換するために教師モデルを採用している。
学生符号化モデルは、基礎となる計算カーネルを抽出することにより、これらの複雑な物語問題を解決するために訓練される。
論文 参考訳(メタデータ) (2025-08-27T17:26:44Z) - DeepMath-Creative: A Benchmark for Evaluating Mathematical Creativity of Large Language Models [22.050241159312307]
DeepMathチームはオープンな数学的LLMの開発を目的としたオープンソースイニシアチブを立ち上げた。
本稿は、このイニシアチブの初期の貢献を示す。
論文 参考訳(メタデータ) (2025-05-13T16:58:05Z) - LLM The Genius Paradox: A Linguistic and Math Expert's Struggle with Simple Word-based Counting Problems [28.72485319617863]
LLMは、人間が扱いやすいようないくつかの基本的なタスク、例えば単語トラウベリーの文字数rを数えるのに苦労する。
我々は,高度な数学的およびコーディング推論能力の伝達可能性について,特殊なLCMから単純なカウントタスクまでの測定を行う。
微調整や文脈内学習といった戦略と比較すると、係り受け推論はLLMのタスクをより知覚するのに役立つ最も堅牢で効率的な方法であることがわかる。
論文 参考訳(メタデータ) (2024-10-18T04:17:16Z) - ErrorRadar: Benchmarking Complex Mathematical Reasoning of Multimodal Large Language Models Via Error Detection [60.297079601066784]
エラー検出におけるMLLMの能力を評価するために設計された最初のベンチマークであるErrorRadarを紹介する。
ErrorRadarはエラーステップ識別とエラー分類という2つのサブタスクを評価している。
2500の高品質なマルチモーダルK-12数学問題で構成され、実世界の学生相互作用から収集される。
GPT-4oの優れた性能は、まだ人間の評価に約10%遅れているため、大きな課題が残っている。
論文 参考訳(メタデータ) (2024-10-06T14:59:09Z) - BloomWise: Enhancing Problem-Solving capabilities of Large Language Models using Bloom's-Taxonomy-Inspired Prompts [59.83547898874152]
BloomWiseは認知にインスパイアされた大規模言語モデル(LLM)のプロンプト技術である
解法をより説明しやすいものにしながら、数学的問題解決におけるLLMの性能を高めるように設計されている。
論文 参考訳(メタデータ) (2024-10-05T09:27:52Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。
推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。
Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文 参考訳(メタデータ) (2024-05-25T15:07:33Z) - Adversarial Math Word Problem Generation [6.92510069380188]
大規模言語モデル(LLM)の公平な評価を保証するための新しいパラダイムを提案する。
評価を目的とした質問の構造と難易度を保持する逆例を生成するが,LLMでは解けない。
我々は様々なオープン・クローズド・ソース LLM の実験を行い、定量的かつ質的に、我々の手法が数学の問題解決能力を著しく低下させることを示した。
論文 参考訳(メタデータ) (2024-02-27T22:07:52Z) - Evaluating LLMs' Mathematical and Coding Competency through Ontology-guided Interventions [47.83142414018448]
算術的推論とコード生成という,2つの一般的な推論タスクに注目します。
i) 数学やコーディング問題に対する摂動の一般的なオントロジー, (ii) 摂動を応用するための半自動手法, (iii) 2つのデータセットを紹介する。
混乱した質問に対して、すべてのモデルで大幅なパフォーマンス低下を示します。
論文 参考訳(メタデータ) (2024-01-17T18:13:07Z) - MacGyver: Are Large Language Models Creative Problem Solvers? [87.70522322728581]
本稿では, 現代LLMの創造的問題解決能力について, 制約付き環境下で検討する。
我々は1,600以上の実世界の問題からなる自動生成データセットであるMACGYVERを作成する。
我々はLLMと人間の両方にコレクションを提示し、それらの問題解決能力を比較して比較する。
論文 参考訳(メタデータ) (2023-11-16T08:52:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。