論文の概要: Robustness and Reasoning Fidelity of Large Language Models in Long-Context Code Question Answering
- arxiv url: http://arxiv.org/abs/2602.17183v1
- Date: Thu, 19 Feb 2026 09:05:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:28.816601
- Title: Robustness and Reasoning Fidelity of Large Language Models in Long-Context Code Question Answering
- Title(参考訳): 長期コード質問応答における大規模言語モデルのロバスト性と推論忠実度
- Authors: Kishan Maharaj, Nandakishore Menon, Ashita Saxena, Srikanth Tamilselvam,
- Abstract要約: 大きな言語モデル(LLM)は、長いコードコンテキストに対する推論を必要とするソフトウェアエンジニアリングタスクをますます支援します。
本研究では, 応答形式, インタラプタ, コンテキストスケールに対する感度をテストするための制御されたアブリゲーションを用いて, 長文コード質問応答の体系的研究を行う。
- 参考スコア(独自算出の注目度): 4.283670627137314
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) increasingly assist software engineering tasks that require reasoning over long code contexts, yet their robustness under varying input conditions remains unclear. We conduct a systematic study of long-context code question answering using controlled ablations that test sensitivity to answer format, distractors, and context scale. Extending LongCodeBench Python dataset with new COBOL and Java question-answer sets, we evaluate state-of-the-art models under three settings: (i) shuffled multiple-choice options, (ii) open-ended questions and (iii) needle-in-a-haystack contexts containing relevant and adversarially irrelevant information. Results show substantial performance drops in both shuffled multiple-choice options and open-ended questions, and brittle behavior in the presence of irrelevant cues. Our findings highlight limitations of current long-context evaluations and provide a broader benchmark for assessing code reasoning in both legacy and modern systems.
- Abstract(参考訳): 大きな言語モデル(LLM)は、長いコードコンテキストの推論を必要とするソフトウェア工学のタスクをますます支援しますが、入力条件の異なる場合の堅牢性はまだ不明です。
本研究では, 応答形式, インタラプタ, コンテキストスケールに対する感度をテストするための制御されたアブリゲーションを用いて, 長文コード質問応答の体系的研究を行う。
LongCodeBench Pythonデータセットを新しいCOBOLとJava質問応答セットで拡張し、3つの設定で最先端モデルを評価する。
(i)複数選択オプションをシャッフルする。
(二)公開質問等
三 関係性及び敵意に無関係な情報を含むヘイスタックの文脈
その結果、シャッフルされた複数選択オプションとオープンエンド質問の両方でかなりの性能低下を示し、無関係な手がかりが存在する場合の脆い挙動を示した。
本研究は,従来の長文評価の限界を浮き彫りにして,レガシーシステムとモダンシステムの両方でコード推論を評価するための,より広範なベンチマークを提供するものである。
関連論文リスト
- A Controllable Examination for Long-Context Language Models [62.845852724511964]
本研究では,長文言語モデルを評価するベンチマークである$textbfLongBioBenchを紹介する。
その結果,ほとんどのモデルでは,検索結果に対する意味的理解や基礎的推論が不足していることが判明した。
我々のさらなる分析は、文脈的非コヒーレンスなど、既存の合成ベンチマークで採用されているいくつかの設計選択を示している。
論文 参考訳(メタデータ) (2025-06-03T14:23:06Z) - KG-QAGen: A Knowledge-Graph-Based Framework for Systematic Question Generation and Long-Context LLM Evaluation [3.618621510356872]
KG-QAGenは、複数の複雑性レベルでQAペアを抽出するフレームワークである。
20,139のQAペアのデータセットを構築し、その一部をオープンソース化する。
我々は、13のプロプライエタリかつオープンソースのLCMを評価し、最高の性能のモデルでさえ、セットベース比較に苦戦していることを観察する。
論文 参考訳(メタデータ) (2025-05-18T16:46:39Z) - A Controlled Study on Long Context Extension and Generalization in LLMs [85.4758128256142]
広義のテキスト理解とテキスト内学習は、完全な文書コンテキストを利用する言語モデルを必要とする。
長期コンテキストモデルを直接訓練する際の実装上の課題のため、長期コンテキストを扱うためにモデルを拡張する多くの方法が提案されている。
我々は,一貫したベースモデルと拡張データを利用して,標準化された評価による拡張メソッドの制御プロトコルを実装した。
論文 参考訳(メタデータ) (2024-09-18T17:53:17Z) - NeedleBench: Evaluating LLM Retrieval and Reasoning Across Varying Information Densities [51.07379913779232]
NeedleBenchは、長いコンテキストタスクにおける検索と推論のパフォーマンスを評価するためのフレームワークである。
モデルの機能を厳格にテストするために、キーデータポイントをさまざまな深さに埋め込む。
実験の結果,Deep-R1やOpenAIのo3のような推論モデルは,情報密度シナリオにおける連続的な検索と推論に苦労していることがわかった。
論文 参考訳(メタデータ) (2024-07-16T17:59:06Z) - Lost in the Middle: How Language Models Use Long Contexts [88.78803442320246]
本研究では,言語モデルの性能を2つのタスクで解析する。
関連する情報の位置を変えると,性能が著しく低下することがわかった。
我々の分析は、言語モデルが入力コンテキストをどのように使用するかをよりよく理解し、将来の長文言語モデルのための新しい評価プロトコルを提供する。
論文 参考訳(メタデータ) (2023-07-06T17:54:11Z) - Learning from Lexical Perturbations for Consistent Visual Question
Answering [78.21912474223926]
既存のVisual Question Answering (VQA)モデルは、しばしば脆弱で入力のバリエーションに敏感である。
本稿では,モジュール型ネットワークに基づく新たなアプローチを提案し,言語摂動による2つの疑問を提起する。
VQA Perturbed Pairings (VQA P2) も提案する。
論文 参考訳(メタデータ) (2020-11-26T17:38:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。