論文の概要: A Controlled Counterexample to Strong Proxy-Based Explanations of OOD Performance: in a Fixed Pretraining-and-Probing Setup
- arxiv url: http://arxiv.org/abs/2605.11554v1
- Date: Tue, 12 May 2026 05:36:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.603064
- Title: A Controlled Counterexample to Strong Proxy-Based Explanations of OOD Performance: in a Fixed Pretraining-and-Probing Setup
- Title(参考訳): OOD性能の強いプロキシに基づく説明に対する制御された反例--定型事前学習と探索のセットアップにおいて-
- Authors: Hongmin Li,
- Abstract要約: タスクに依存しない構造プロキシは、ある事前学習コーパスが他のコーパスよりも優れている理由を解釈するためにしばしば使用される。
我々は,この要件を,学習構造の計算的有界概念に動機づけられた,定型事前学習・探索設定で検証する。
総合的な学習構造のためのプロキシは、制御された設定であっても、OODパフォーマンスを駆動するタスク関連構造を追跡することができません。
- 参考スコア(独自算出の注目度): 0.9805949492148788
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Task-agnostic structure proxies are often used to interpret why one pretraining corpus transfers better than another, but such explanations require the proxy to track the structure that matters for the downstream task. We test this requirement in a fixed pretraining-and-probing setup motivated by computationally bounded notions of learned structure, including epiplexity. The core question is whether a proxy ranking of two pretraining datasets must agree with their ranking by OOD probe accuracy. We show that it need not. First, we give a controlled construction in which a formal structure quantity, its operational proxy, and the task-relevant structure for a target family separate. We then instantiate the same mechanism in a synthetic sequence-model experiment: under the primary all-sample evaluation, the OOD accuracy ranking reverses the proxy ranking in two of three seeds, with auxiliary diagnostics and ablations supporting the same interpretation. The counterexample does not reject structure-based explanations in general; it identifies a boundary on strong proxy-based explanations. A proxy for total learned structure can fail to track the task-relevant structure that drives OOD performance, even in a controlled setting.
- Abstract(参考訳): タスクに依存しない構造プロキシは、ある事前訓練されたコーパス転送が他のコーパスよりも優れている理由を解釈するためにしばしば使用されるが、そのような説明は、下流タスクにとって重要な構造を追跡するためにプロキシを必要とする。
我々は,この要件を,エピプレキシティを含む学習構造の概念の計算的境界によって動機付けられた,固定された事前学習と探索のセットアップで検証する。
問題は、2つの事前学習データセットのプロキシランキングが、OODプローブの精度によるランキングと一致しなければならないかどうかである。
私たちはそれが必要ないことを示します。
まず,形式的構造量,運用プロキシ,タスク関連構造を分離する制御された構成を提案する。
一次全サンプル評価では、OOD精度ランキングは3つの種子のうち2つでプロキシランキングを逆転させ、同じ解釈をサポートする補助的な診断と改善を行う。
反例は構造に基づく説明を一般的に拒絶せず、強力なプロキシベースの説明の境界を識別する。
総合的な学習構造のためのプロキシは、制御された設定であっても、OODパフォーマンスを駆動するタスク関連構造を追跡することができない。
関連論文リスト
- Deep Reasoning in General Purpose Agents via Structured Meta-Cognition [58.185853639335896]
構造化メタ推論を用いてタスク固有の足場を構築するための推論時アプローチを提案する。
我々は、より制御された推論スレッドに複雑なタスクを分散する汎用エージェントでこのアプローチをインスタンス化する。
論文 参考訳(メタデータ) (2026-05-12T01:21:37Z) - The Generalized Turing Test: A Foundation for Comparing Intelligence [0.8929189891250133]
識別不能性を通じて任意のエージェントの能力を比較するための公式なフレームワークを導入する。
エージェント A と B に対し、チューリングコンパレータ A$geq$B を定義して、B が微分器として作用し、A との相互作用と B の他のインスタンスとを確実に区別できないと仮定する。
これにより、データセットとタスクに依存しない相対知性の概念が得られる。
論文 参考訳(メタデータ) (2026-05-11T17:00:18Z) - EGL-SCA: Structural Credit Assignment for Co-Evolving Instructions and Tools in Graph Reasoning Agents [35.25814217014108]
グラフ推論エージェントのための検証器中心のデュアルスペースフレームワークであるEGL-SCAを提案する。
EGL-SCAは、最先端の92.0%の平均成功率を達成することを示す。
論文 参考訳(メタデータ) (2026-05-11T11:09:32Z) - Semantic Entanglement in Vector-Based Retrieval: A Formal Framework and Context-Conditioned Disentanglement Pipeline for Agentic RAG Systems [0.0]
埋め込み空間における交叉重なりのモデル相対尺度として意味的絡み合いを定式化する。
埋め込みに先立って文書を再構成する4段階の事前処理フレームワークであるセマンティック・ディスタングルメント・パイプライン(SDP)を紹介した。
約25のサブドメインにわたる2,000以上のドキュメントからなる実世界の企業医療知識ベースでSDPを評価した。
論文 参考訳(メタデータ) (2026-04-20T00:24:34Z) - Reasoning Provenance for Autonomous AI Agents: Structured Behavioral Analytics Beyond State Checkpoints and Execution Traces [0.0]
Agent Execution Record (AER) は構造化された推論プリミティブであり、すべてのステップで第一級クエリ可能なフィールドとしてインテント、観察、推論をキャプチャする。
AERが集団レベルの行動分析を可能にする方法を示す: 推論パターンマイニング、信頼度校正、クロスエージェント比較、モックリプレイによる反事実回帰テスト。
論文 参考訳(メタデータ) (2026-03-23T08:27:54Z) - Breaking the Chain: A Causal Analysis of LLM Faithfulness to Intermediate Structures [58.54426802984356]
本稿では,出力を因果的に決定する因果評価プロトコルを提案する。
8つのモデルと3つのベンチマークで、モデルは自身の中間構造と自己整合しているように見えるが、最大60%のケースに介入した後に予測を更新できない。
全体として、スキーマ誘導パイプラインの中間構造は、安定した因果メディエータよりも影響のある文脈として機能する。
論文 参考訳(メタデータ) (2026-03-17T13:01:44Z) - StructTest: Benchmarking LLMs' Reasoning through Compositional Structured Outputs [78.84060166851805]
StructTestは、大規模な言語モデル(LLM)を合成命令に従って構造化出力を生成する能力に基づいて評価する、新しいベンチマークである。
評価はルールベースの評価器を用いて決定的に行われ、新しいタスクやデータセットに容易に拡張できる。
StructTestは、Deepseek-V3/R1やGPT-4oといったトップパフォーマンスモデルでも、依然として難しいままです。
論文 参考訳(メタデータ) (2024-12-23T22:08:40Z) - Aligned Unsupervised Pretraining of Object Detectors with Self-training [41.03780087924593]
物体検出器の教師なし事前訓練は、近年、物体検出器訓練の重要な要素となっている。
本稿では、この問題を緩和し、3つの単純かつ重要な要素からなるフレームワークを提案する。
当社の戦略は,スクラッチ(背骨を含む)からの事前トレーニングも可能であり,COCOのような複雑な画像にも適用可能であることを示す。
論文 参考訳(メタデータ) (2023-07-28T17:46:00Z) - Robust Self-Supervised LiDAR Odometry via Representative Structure
Discovery and 3D Inherent Error Modeling [67.75095378830694]
そこで我々は,2段階のオドメトリ推定ネットワークを構築し,一連の部分領域変換を推定してエゴモーメントを求める。
本稿では,トレーニング,推論,マッピングフェーズにおける信頼できない構造の影響を軽減することを目的とする。
我々の2フレームのオードメトリーは、翻訳/回転誤差の点で、過去の芸術の状態を16%/12%上回っている。
論文 参考訳(メタデータ) (2022-02-27T12:52:27Z) - Aligning Pretraining for Detection via Object-Level Contrastive Learning [57.845286545603415]
画像レベルのコントラスト表現学習は、伝達学習の汎用モデルとして非常に有効であることが証明されている。
我々は、これは準最適である可能性があり、従って、自己教師付きプレテキストタスクと下流タスクのアライメントを促進する設計原則を提唱する。
Selective Object Contrastive Learning (SoCo) と呼ばれる本手法は,COCO検出における伝達性能の最先端化を実現する。
論文 参考訳(メタデータ) (2021-06-04T17:59:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。