論文の概要: Barriers to Counterfactual Credit Attribution for Autoregressive Models
- arxiv url: http://arxiv.org/abs/2605.01425v1
- Date: Sat, 02 May 2026 12:53:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.765632
- Title: Barriers to Counterfactual Credit Attribution for Autoregressive Models
- Title(参考訳): 自己回帰モデルに対する非現実的信用属性に対する障壁
- Authors: Aloni Cohen, Chenhao Zhang,
- Abstract要約: ジェネレーティブAIは、それまでの仕事にクレジットを与えるプラクティスを破壊します。
CCA(Counterfactual Credit Attribution)は、この目標を定式化した技術的条件である。
デプロイ時のデータセットに信用を与える自動回帰モデルを検討する。
- 参考スコア(独自算出の注目度): 5.874273948299446
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative AI disrupts the practice of giving credit to work that came before. Ideally, a generative model would give credit to any work on which its output depends in a significant way. \emph{Counterfactual credit attribution} (CCA) is a technical condition formalizing this goal--a relaxation of differential privacy--recently introduced by Livni, Moran, Nissim, and Pabbaraju [2024] who studied it in the PAC learning setting. We initiate the study of CCA generative models. Specifically, we consider autoregressive models giving credit to a deployment-time dataset (e.g., a RAG database). We uncover barriers to two natural approaches to CCA autoregressive models. First, we show that imposing CCA on the underlying next-token predictor does not guarantee that the model is CCA: CCA does not compose autoregressively (unlike DP). Second, we consider a different approach to building CCA models which we call \emph{retrofitting}. Retrofitting takes a model that does not attribute credit, and adds credit onto it. We prove a lower bound for CCA retrofitting under a weak optimality requirement. Given black-box access to the starting model, retrofitting requires query complexity exponential in the length of the model's outputs.
- Abstract(参考訳): ジェネレーティブAIは、それまでの仕事にクレジットを与えるプラクティスを破壊します。
理想的には、生成モデルは、その出力が重要な方法で依存するあらゆる作品に信用を与えるだろう。
\emph{Counterfactual Credit Attribution} (CCA)は、この目標を定式化した技術的条件である。
CCA生成モデルの研究を開始する。
具体的には、デプロイ時のデータセット(例えば、RAGデータベース)に信用を与える自動回帰モデルを検討する。
CCA自己回帰モデルに対する2つの自然なアプローチの障壁を明らかにする。
まず,次点予測器にCCAを付与しても,そのモデルがCCAであることを保証できないことを示す。
第二に、我々はCCAモデルを構築するための別のアプローチを検討し、それを 'emph{retrofitting}' と呼ぶ。
リトロフィッティング(Retrofitting)は、クレジットを属性としないモデルを採用し、そのモデルにクレジットを追加する。
最適性の弱い条件下でCCA補修の限界を低くする。
スタートモデルへのブラックボックスアクセスが与えられた場合、リトライフィッティングはモデルの出力の長さでクエリの複雑さを指数関数的に要求する。
関連論文リスト
- Tiny Autoregressive Recursive Models [48.902738432071935]
Tiny Recursive Models (TRMs) は最近のARC-AGIで顕著な性能を示した。
本稿では、自己回帰TRMを提案し、小さな自己回帰タスクで評価する。
期待に反して、完全なAutoregressive TRMアーキテクチャによる信頼性の高いパフォーマンス向上は見つからない。
論文 参考訳(メタデータ) (2026-03-09T08:22:45Z) - Is Gradient Ascent Really Necessary? Memorize to Forget for Machine Unlearning [71.96329385684395]
勾配上昇(GA)に代わるモデル外挿法を提案する。
言い換えると、記憶モデルから参照モデルへの外挿によって、忘れモデルが得られる。
モデル外挿法の実装はシンプルで効率的であり、トレーニング全体を通して効果的に収束し、未学習のパフォーマンスを向上させることができる。
論文 参考訳(メタデータ) (2026-02-06T07:11:27Z) - MERGETUNE: Continued fine-tuning of vision-language models [77.8627788911249]
微調整視覚言語モデル(VLM)は、しばしば事前訓練された知識を破滅的に忘れてしまう。
ゼロショットモデルに適応した後に事前学習した知識を回復するための新しいパラダイムである連続微調整(CFT)を導入する。
論文 参考訳(メタデータ) (2026-01-15T15:15:53Z) - Scalable Offline Model-Based RL with Action Chunks [60.80151356018376]
モデルに基づく強化学習が、オフラインRLにおける複雑で長期のタスクに対処するためのスケーラブルなレシピを提供するかどうかを検討する。
我々はこのレシピを textbfModel-based RL with Action Chunks (MAC) と呼ぶ。
MAC はオフラインモデルベース RL アルゴリズムの中で,特に長期的タスクにおいて,最高の性能を発揮することを示す。
論文 参考訳(メタデータ) (2025-12-08T23:26:29Z) - Continuous Autoregressive Language Models [56.49239051750678]
我々はCALM(Continuous Autoregressive Language Models)を紹介する。
CALMは高忠実度オートエンコーダを使用して、Kトークンの塊を1つの連続ベクトルに圧縮する。
我々は、堅牢なトレーニング、評価、および制御可能なサンプリングを可能にする包括的可能性のないフレームワークを開発する。
論文 参考訳(メタデータ) (2025-10-31T17:58:11Z) - Model Inversion with Layer-Specific Modeling and Alignment for Data-Free Continual Learning [19.12792297140574]
継続的な学習は、以前のタスクのパフォーマンスを維持しながら、一連のタスクでモデルを漸進的にトレーニングすることを目的としています。
データの保存と再生は、プライバシやセキュリティ上の制約によって不可能になることが多い。
単層最適化における高速収束にインスパイアされたPMI(Per-layer Model Inversion)を提案する。
論文 参考訳(メタデータ) (2025-10-30T09:58:48Z) - CARMO: Dynamic Criteria Generation for Context-Aware Reward Modelling [27.86204841898399]
大規模な言語モデルでのリワードモデリングは、ハッキングに報奨を与える可能性がある。
本稿では,この問題を緩和するためにコンテキストアウェア・リワード・モデリング(CARMO)を提案する。
我々は、生成モデルに対するゼロショット設定における新しい最先端性能を確立し、Reward Benchの2.1%の改善を実現した。
論文 参考訳(メタデータ) (2024-10-28T21:18:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。