Fugu-MT 論文翻訳(概要): ContextGuard: Structured Self-Auditing for Context Learning in Language Models

論文の概要: ContextGuard: Structured Self-Auditing for Context Learning in Language Models

arxiv url: http://arxiv.org/abs/2605.26827v1
Date: Tue, 26 May 2026 10:45:24 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-27 17:51:41.888933
Title: ContextGuard: Structured Self-Auditing for Context Learning in Language Models
Title（参考訳）: ContextGuard: 言語モデルにおけるコンテキスト学習のための構造化自己監査
Authors: Hongbo Jin, Chi Wang, Haoran Tang, Zhongjing Du, Xu Jiang, Jingqi Tian, Qiaoman Zhang, Jiayu Ding,
Abstract要約: 強い推論能力にもかかわらず、大きな言語モデル(LLM)は複雑な文脈知識を忠実に適用するのに依然として苦労している。文脈に富んだタスクでは、モデルは周辺性、永続性、あるいはフォーマットに敏感な要求を欠いている間、中心的な推論経路をたどることができる。
参考スコア（独自算出の注目度）: 14.873791509241649
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent benchmarks reveal that despite strong reasoning capabilities, large language models (LLMs) still struggle to faithfully apply complex contextual knowledge. These failures are often not wholesale reasoning collapses: in context-rich tasks, models may follow the central reasoning path while missing peripheral, persistent, or format-sensitive requirements.
Abstract（参考訳）: 最近のベンチマークでは、強い推論能力にもかかわらず、大きな言語モデル(LLM)は複雑な文脈知識を忠実に適用するのに依然として苦労している。文脈に富んだタスクでは、モデルは周辺性、永続性、あるいはフォーマットに敏感な要求を欠いている間、中心的な推論経路をたどることができる。

関連論文リスト

DRInQ: Evaluating Conversational Implicature with Controlled Context Variation [24.87053225680957]
質問文における会話不規則に関する現実的推論を評価するためのベンチマークであるDRinQを紹介する。本稿では,体系的変動を伴う質問文解釈インスタンスを生成する半自動パイプラインを提案する。
論文参考訳（メタデータ） (2026-05-22T22:39:32Z)
LLMs as ASP Programmers: Self-Correction Enables Task-Agnostic Nonmonotonic Reasoning [6.77760769532626]
自然言語をAnswer Set Programming(ASP)に変換するフレームワークである"LLM+ASP"を紹介します。我々のフレームワークはタスクごとのエンジニアリングなしで動作し、様々な推論タスクに一様に適用します。
論文参考訳（メタデータ） (2026-04-30T14:55:48Z)
Beyond Memorization: Testing LLM Reasoning on Unseen Theory of Computation Tasks [8.210112631285666]
大規模言語モデル(LLM)は、形式的な言語タスクにおいて強力なパフォーマンスを示している。正規言語を用いた決定論的有限オートマトン (DFA) 構築のためのベンチマークを導入する。モデルが実際の質問に対して完璧に精度を達成し、タスクに対して84-90%を達成できることを示すが、その精度は目に見えない問題に対して急激に低下する。
論文参考訳（メタデータ） (2026-01-19T21:00:31Z)
mSCoRe: a $M$ultilingual and Scalable Benchmark for $S$kill-based $Co$mmonsense $Re$asoning [74.97363626515236]
textbfSkill ベースの textbfCommonsense textbfReasoning (textbfmSCoRe) のための textbfMultilingual と Scalable Benchmark を提案する。本ベンチマークでは,LLMの推論能力を体系的に評価するための3つの重要な要素を取り入れた。本研究は,多言語多言語一般と文化的共通点に直面する場合,そのような推論強化モデルの限界を明らかにするものである。
論文参考訳（メタデータ） (2025-08-13T18:59:02Z)
A Controllable Examination for Long-Context Language Models [62.845852724511964]
本研究では,長文言語モデルを評価するベンチマークである$textbfLongBioBenchを紹介する。その結果,ほとんどのモデルでは,検索結果に対する意味的理解や基礎的推論が不足していることが判明した。我々のさらなる分析は、文脈的非コヒーレンスなど、既存の合成ベンチマークで採用されているいくつかの設計選択を示している。
論文参考訳（メタデータ） (2025-06-03T14:23:06Z)
NeedleBench: Evaluating LLM Retrieval and Reasoning Across Varying Information Densities [51.07379913779232]
NeedleBenchは、長いコンテキストタスクにおける検索と推論のパフォーマンスを評価するためのフレームワークである。モデルの機能を厳格にテストするために、キーデータポイントをさまざまな深さに埋め込む。実験の結果,Deep-R1やOpenAIのo3のような推論モデルは,情報密度シナリオにおける連続的な検索と推論に苦労していることがわかった。
論文参考訳（メタデータ） (2024-07-16T17:59:06Z)
Lost in the Middle: How Language Models Use Long Contexts [88.78803442320246]
本研究では,言語モデルの性能を2つのタスクで解析する。関連する情報の位置を変えると,性能が著しく低下することがわかった。我々の分析は、言語モデルが入力コンテキストをどのように使用するかをよりよく理解し、将来の長文言語モデルのための新しい評価プロトコルを提供する。
論文参考訳（メタデータ） (2023-07-06T17:54:11Z)
Large Language Models are In-Context Semantic Reasoners rather than Symbolic Reasoners [75.85554779782048]
大規模言語モデル(LLM)は、近年、自然言語と機械学習コミュニティを興奮させています。多くの成功を収めたアプリケーションにもかかわらず、そのようなコンテキスト内機能の基盤となるメカニズムはまだ不明である。本研究では,学習した言語トークンのテクストセマンティクスが推論過程において最も重い処理を行うと仮定する。
論文参考訳（メタデータ） (2023-05-24T07:33:34Z)
ALERT: Adapting Language Models to Reasoning Tasks [43.8679673685468]
ALERTは、言語モデルの推論能力を評価するためのベンチマークと分析スイートである。 ALERTは、あらゆる言語モデルに対して、きめ細かい推論スキルを評価するためのテストベッドを提供する。言語モデルは、事前学習状態と比較して、微調整段階の推論スキルを学習する。
論文参考訳（メタデータ） (2022-12-16T05:15:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。