Fugu-MT 論文翻訳(概要): Semi-structured LLM Reasoners Can Be Rigorously Audited

論文の概要: Semi-structured LLM Reasoners Can Be Rigorously Audited

arxiv url: http://arxiv.org/abs/2505.24217v1
Date: Fri, 30 May 2025 05:06:10 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-02 19:47:52.777879
Title: Semi-structured LLM Reasoners Can Be Rigorously Audited
Title（参考訳）: 半構造型LLM共振器は厳格に聴取できる
Authors: Jixuan Leng, Cassandra A. Cohen, Zhixian Zhang, Chenyan Xiong, William W. Cohen,
Abstract要約: 半構造的推論モデル(Semi-Structured Reasoning Models, SSRMs)を導入する。 SSRMはPythonの構文で推論トレースを生成する。 10のベンチマークで評価することで、SSRMは高い性能と汎用性を示す。
参考スコア（独自算出の注目度）: 42.697436540002364
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: As Large Language Models (LLMs) become increasingly capable at reasoning, the problem of "faithfulness" persists: LLM "reasoning traces" can contain errors and omissions that are difficult to detect, and may obscure biases in model outputs. To address these limitations, we introduce Semi-Structured Reasoning Models (SSRMs), which internalize a semi-structured Chain-of-Thought (CoT) reasoning format within the model. Our SSRMs generate reasoning traces in a Pythonic syntax. While SSRM traces are not executable, they adopt a restricted, task-specific vocabulary to name distinct reasoning steps, and to mark each step's inputs and outputs. Through extensive evaluation on ten benchmarks, SSRMs demonstrate strong performance and generality: they outperform comparably sized baselines by nearly ten percentage points on in-domain tasks while remaining competitive with specialized models on out-of-domain medical benchmarks. Furthermore, we show that semi-structured reasoning is more amenable to analysis: in particular, they can be automatically audited to identify reasoning flaws. We explore both hand-crafted structured audits, which detect task-specific problematic reasoning patterns, and learned typicality audits, which apply probabilistic models over reasoning patterns, and show that both audits can be used to effectively flag probable reasoning errors.
Abstract（参考訳）: 大規模言語モデル (LLMs) は推論能力が増すにつれて、「偽り」の問題が持続する: LLM の "推論トレース (reasoning traces)" には、検出が難しいエラーや省略が含まれ、モデル出力のバイアスが曖昧になる可能性がある。これらの制約に対処するため,半構造化推論モデル (SSRMs) を導入し, モデル内の半構造化Chain-of-Thought (CoT) 推論形式を内部化する。 SSRMはPythonの構文で推論トレースを生成する。 SSRMトレースは実行可能ではないが、異なる推論ステップを指定し、各ステップの入力と出力をマークするために、制限されたタスク固有の語彙を採用する。 SSRMは10のベンチマークに対する広範な評価を通じて、強力なパフォーマンスと汎用性を示し、ドメイン外の医療ベンチマークで専門モデルと競合しながら、ドメイン内のタスクにおいて、比較可能な大きさのベースラインを10パーセント近く上回っている。さらに, 半構造化推論の方が解析に適していることを示す。本研究では,タスク固有の問題推論パターンを検出する手作りの構造化監査と,推論パターンよりも確率論的モデルを適用する学習された定性監査の両方について検討し,予測可能な推論エラーを効果的にフラグ付けるために両監査を使用できることを示す。

関連論文リスト

On Evaluating Performance of LLM Inference Serving Systems [11.712948114304925]
ベースラインフェアネス、評価設定、メトリックデザインの3つの重要な側面で繰り返し発生するアンチパターンを特定します。これらのアンチパターンは、その二重相の性質のため、Large Language Model (LLM)推論に固有の問題である。分析から得られた包括的なチェックリストを提供し、これらのアンチパターンを認識して回避するためのフレームワークを構築します。
論文参考訳（メタデータ） (2025-07-11T20:58:21Z)
The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity [16.266145641151375]
大規模な推論モデルは、回答を提供する前に詳細な思考プロセスを生成する。我々は, LRM がある種の複雑さを超えて完全に精度の低下に直面していることを示す。また、より深く推論の痕跡を調べ、探索された解のパターンを研究する。
論文参考訳（メタデータ） (2025-06-07T22:42:29Z)
Socratic-PRMBench: Benchmarking Process Reward Models with Systematic Reasoning Patterns [79.42805969325036]
プロセス・リワード・モデル(PRM)は複雑な推論と問題解決に不可欠である。 PRMは、推論プロセス中に様々な推論パターンの下でエラーを特定する必要がある。既存のベンチマークは主に、段階的に正しいPRMを評価することに焦点を当てている。 Socratic-PRMBenchは、6つの推論パターンでPRMを体系的に評価する新しいベンチマークである。
論文参考訳（メタデータ） (2025-05-29T14:26:53Z)
Reasoning Meets Personalization: Unleashing the Potential of Large Reasoning Model for Personalized Generation [21.89080753903469]
パーソナライズタスクのための大規模推論モデル(LRM)の最初の体系的評価について述べる。本分析では, 分散思考, 応答形式の不整合, 検索情報の有効利用の3つの重要な限界を同定した。階層的推論思考テンプレートを組み込んだ新しいフレームワークであるReinforced Reasoning for Personalization (model)を提案する。
論文参考訳（メタデータ） (2025-05-23T07:30:13Z)
Mapping the Minds of LLMs: A Graph-Based Analysis of Reasoning LLM [11.181783720439563]
大規模言語モデル(LLM)は、拡張されたChain-of-Thought(CoT)生成を通じて洗練された推論能力を示す。 RLMは、数発のプロンプトによる性能劣化など、直感的で不安定な動作を示すことが多い。 RLMの推論過程をより良くモデル化するための統一的なグラフベース分析フレームワークを提案する。
論文参考訳（メタデータ） (2025-05-20T03:54:57Z)
MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文参考訳（メタデータ） (2024-06-20T03:50:23Z)
Can LLMs Reason with Rules? Logic Scaffolding for Stress-Testing and Improving LLMs [87.34281749422756]
大規模言語モデル(LLM)は、様々な推論タスクにおいて、印象的な人間的なパフォーマンスを実現している。しかし、その根底にある推論規則の熟達性は、人間の能力に欠ける。本稿では,推論ルールベースであるULogicを構築するための,推論ルール生成フレームワークを提案する。
論文参考訳（メタデータ） (2024-02-18T03:38:51Z)
CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。 LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文参考訳（メタデータ） (2023-11-29T08:29:54Z)
Self-Contradictory Reasoning Evaluation and Detection [31.452161594896978]
本稿では,自己矛盾推論(Self-Contra)について考察する。 LLMは文脈情報理解や常識を含むタスクの推論において矛盾することが多い。 GPT-4は52.2%のF1スコアで自己コントラを検出できる。
論文参考訳（メタデータ） (2023-11-16T06:22:17Z)
A Closer Look at the Self-Verification Abilities of Large Language Models in Logical Reasoning [73.77088902676306]
論理的推論の文脈において,大規模言語モデル(LLM)の自己検証能力について詳しく検討する。本研究の主目的は,既存のLCMが誤った推論手順を正確に識別するのに苦労し,自己検証法の有効性を保証できないことにある。
論文参考訳（メタデータ） (2023-11-14T07:13:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。