論文の概要: The Path Not Taken: Duality in Reasoning about Program Execution
- arxiv url: http://arxiv.org/abs/2604.20917v1
- Date: Wed, 22 Apr 2026 03:20:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.092842
- Title: The Path Not Taken: Duality in Reasoning about Program Execution
- Title(参考訳): 実行すべきでない道 - プログラム実行についての推論における二重性
- Authors: Eshgin Hasanov, Md Mahadi Hassan Sibat, Santu Karmaker, Aashish Yadavally,
- Abstract要約: プログラム実行を理解するには,2つの相補的推論タスクを通じて,その本質的にの双対性を評価する必要があると論じる。
この双対性を、445のペアインスタンスからなるベンチマークであるDexBenchでインスタンス化し、13の大規模言語モデルを評価する。
- 参考スコア(独自算出の注目度): 6.381430350711558
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have shown remarkable capabilities across diverse coding tasks. However, their adoption requires a true understanding of program execution rather than relying on surface-level patterns. Existing benchmarks primarily focus on predicting program properties tied to specific inputs (e.g., code coverage, program outputs). As a result, they provide a narrow view of dynamic code reasoning and are prone to data contamination. We argue that understanding program execution requires evaluating its inherent duality through two complementary reasoning tasks: (i) predicting a program's observed behavior for a given input, and (ii) inferring how the input must be mutated toward a specific behavioral objective. Both tasks jointly probe a model's causal understanding of execution flow. We instantiate this duality in DexBench, a benchmark comprising 445 paired instances, and evaluate 13 LLMs. Our results demonstrate that dual-path reasoning provides a robust and discriminative proxy for dynamic code understanding.
- Abstract(参考訳): 大規模言語モデル(LLM)は、多様なコーディングタスクにまたがる顕著な能力を示している。
しかし、それらの採用は、表面レベルのパターンに頼るのではなく、プログラムの実行を真に理解する必要がある。
既存のベンチマークは主に、特定の入力(例えば、コードカバレッジ、プログラム出力)に関連するプログラムプロパティの予測に重点を置いています。
その結果、動的コード推論の視野が狭くなり、データの汚染が生じる。
プログラム実行を理解するには,2つの相補的推論タスクを通じて,その本質的にの双対性を評価する必要がある,と我々は主張する。
一 所定の入力に対するプログラムの観察行動を予測すること、及び
(ii)特定の行動目的に対してどのように入力を変更すべきかを推測すること。
どちらのタスクも、実行フローに対するモデルの因果的理解を共同で調査する。
この双対性を、445のペアインスタンスからなるベンチマークであるDexBenchでインスタンス化し、13のLLMを評価する。
我々の結果は、デュアルパス推論が動的コード理解のための堅牢で差別的なプロキシを提供することを示した。
関連論文リスト
- DuET: Dual Execution for Test Output Prediction with Generated Code and Pseudocode [56.14374797825548]
よりエラー耐性の高い擬似コードに基づいて予測を行うLLMベースの擬似コード実行を提案する。
両手法を機能的多数決で組み合わせた二重実行フレームワークであるDuETを提案する。
LiveCodeBenchでは、DuETは最先端のパフォーマンスを実現し、Pass@1を13.6ppで改善した。
論文 参考訳(メタデータ) (2026-04-13T14:18:58Z) - BRIDGE: Building Representations In Domain Guided Program Verification [67.36686119518441]
BRIDGEは、検証をコード、仕様、証明の3つの相互接続ドメインに分解する。
提案手法は, 標準誤差フィードバック法よりも精度と効率を著しく向上することを示す。
論文 参考訳(メタデータ) (2025-11-26T06:39:19Z) - Adaptive Test-Time Reasoning via Reward-Guided Dual-Phase Search [62.1546099504045]
本稿では、推論を計画と実行に分離する二相テストタイムスケーリングフレームワークを提案する。
具体的には、推論軌跡を分解し、各フェーズの報酬モデルを構築し、探索者が個別に計画と実行を探索、実行できるようにする。
数学的推論とコード生成ベンチマークの両方の実験により、我々の手法は計算の冗長性を低減しつつ、常に精度を向上することを示した。
論文 参考訳(メタデータ) (2025-09-29T19:27:23Z) - EquiBench: Benchmarking Large Language Models' Reasoning about Program Semantics via Equivalence Checking [58.15568681219339]
大規模言語モデル(LLM)を評価するための新しいベンチマークであるEquiBenchを紹介する。
このタスクは、プログラムのセマンティクスについて推論するモデルの能力を直接テストする。
19の最先端LCMを評価し、最も難しいカテゴリでは、最高の精度は63.8%と76.2%であり、50%のランダムベースラインよりわずかに高い。
論文 参考訳(メタデータ) (2025-02-18T02:54:25Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - CodeMind: Evaluating Large Language Models for Code Reasoning [6.819757372634151]
大規模言語モデル(LLM)は、プログラミングタスクの自動化に広く使われている。
本稿では,LLMのコード推論能力を評価するためのフレームワークであるCodeMindを紹介する。
論文 参考訳(メタデータ) (2024-02-15T02:24:46Z) - Enforcing Consistency in Weakly Supervised Semantic Parsing [68.2211621631765]
本稿では,関連する入力に対する出力プログラム間の整合性を利用して,スプリアスプログラムの影響を低減することを提案する。
より一貫性のあるフォーマリズムは、一貫性に基づくトレーニングを必要とせずに、モデルパフォーマンスを改善することにつながります。
論文 参考訳(メタデータ) (2021-07-13T03:48:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。