論文の概要: Ideal Attribution and Faithful Watermarks for Language Models
- arxiv url: http://arxiv.org/abs/2512.07038v1
- Date: Sun, 07 Dec 2025 23:05:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.650934
- Title: Ideal Attribution and Faithful Watermarks for Language Models
- Title(参考訳): 言語モデルにおける理想的な属性と忠実な透かし
- Authors: Min Jae Song, Kameron Shahabi,
- Abstract要約: 我々は,文字列に対する帰属決定を推論するための形式的抽象化である理想的な帰属機構を導入する。
我々は,透かし方式の設計目標を理想帰属機構の忠実な表現とみなす。
- 参考スコア(独自算出の注目度): 7.022844873370558
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce ideal attribution mechanisms, a formal abstraction for reasoning about attribution decisions over strings. At the core of this abstraction lies the ledger, an append-only log of the prompt-response interaction history between a model and its user. Each mechanism produces deterministic decisions based on the ledger and an explicit selection criterion, making it well-suited to serve as a ground truth for attribution. We frame the design goal of watermarking schemes as faithful representation of ideal attribution mechanisms. This novel perspective brings conceptual clarity, replacing piecemeal probabilistic statements with a unified language for stating the guarantees of each scheme. It also enables precise reasoning about desiderata for future watermarking schemes, even when no current construction achieves them, since the ideal functionalities are specified first. In this way, the framework provides a roadmap that clarifies which guarantees are attainable in an idealized setting and worth pursuing in practice.
- Abstract(参考訳): 我々は,文字列に対する帰属決定を推論するための形式的抽象化である理想的な帰属機構を導入する。
この抽象化のコアには、モデルとユーザ間の迅速なレスポンスインタラクション履歴の追加専用ログである台帳がある。
各メカニズムは、台帳と明示的な選択基準に基づいて決定論的決定を生成するため、帰属の根拠となる真理として機能するのに適している。
我々は,透かし方式の設計目標を理想帰属機構の忠実な表現とみなす。
この新しい視点は概念的明快さをもたらし、各スキームの保証を記述する統一言語に断片的確率的文を置き換える。
また、デシデラタに関する正確な推論を将来の透かし方式で行うこともできる。
このようにして、このフレームワークは、どの保証が理想化された環境で達成可能で、実際に追求する価値のあるものかを明確化するロードマップを提供する。
関連論文リスト
- A Unified Representation Underlying the Judgment of Large Language Models [6.674085049223262]
生物学的および人工知能両方のアーキテクチャ上の問題は、判断が特別なモジュールに依存するか、あるいは統一されたドメイン・ジェネラル・リソースに依存しているかである。
評価判断が支配的次元に沿って計算されることを示し、これをVAA(Valence-Assent Axis)と呼ぶ。
VAAは生成過程の制御信号として機能し、実際の精度を犠牲にしても、その評価状態と整合した合理性を構築する。
論文 参考訳(メタデータ) (2025-10-31T09:57:19Z) - Generating Fair Consensus Statements with Social Choice on Token-Level MDPs [7.5036512760759715]
タスクを多目的トークンレベルマルコフ決定プロセス(MDP)としてモデル化する。
各エージェントに対するトークンレベルの報酬は、それぞれのポリシー(例えば、パーソナライズされた言語モデル)から導かれる。
このアプローチは、そのようなポリシーが最適Q-函数を暗黙的に定義し、値関数なしで各生成ステップでの報酬を定量化する原則的な方法を提供する。
論文 参考訳(メタデータ) (2025-10-15T21:23:18Z) - Feature Attribution from First Principles [6.836945436656676]
あらゆる特徴帰属メソッドが満たすべき公理的フレームワークは、しばしば制限的すぎると我々は主張する。
公理を課すのではなく、最も単純なモデルに対する属性を定義することから始める。
深部ReLUネットワークの帰属を表すクローズドフォーム式を導出し,評価指標の最適化に向けて一歩踏み出した。
論文 参考訳(メタデータ) (2025-05-30T15:53:11Z) - Prototype-based Aleatoric Uncertainty Quantification for Cross-modal
Retrieval [139.21955930418815]
クロスモーダル検索手法は、共通表現空間を共同学習することにより、視覚と言語モダリティの類似性関係を構築する。
しかし、この予測は、低品質なデータ、例えば、腐敗した画像、速いペースの動画、詳細でないテキストによって引き起こされるアレタリック不確実性のために、しばしば信頼性が低い。
本稿では, 原型に基づくAleatoric Uncertainity Quantification (PAU) フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-29T09:41:19Z) - DELPHIC: Practical DEL Planning via Possibilities (Extended Version) [76.75197961194182]
本研究は,実用的なDEL計画の展開を促進することを目的としている。
本稿では,メインビルディングブロックとして定義した等価なセマンティクスを,いわゆる可能性として提案する。
この主張を裏付けるために、ASPで両方のアプローチを実装し、DELPHICと従来のKripkeベースのアプローチを比較する実験的な評価を設定した。
論文 参考訳(メタデータ) (2023-07-28T10:09:45Z) - Rationale-Augmented Ensembles in Language Models [53.45015291520658]
我々は、数発のテキスト内学習のための合理化促進策を再考する。
我々は、出力空間における合理的サンプリングを、性能を確実に向上させるキーコンポーネントとして特定する。
有理拡張アンサンブルは既存のプロンプト手法よりも正確で解釈可能な結果が得られることを示す。
論文 参考訳(メタデータ) (2022-07-02T06:20:57Z) - Logical Satisfiability of Counterfactuals for Faithful Explanations in
NLI [60.142926537264714]
本稿では, 忠実度スルー・カウンタファクトの方法論について紹介する。
これは、説明に表される論理述語に基づいて、反実仮説を生成する。
そして、そのモデルが表現された論理と反ファクトの予測が一致しているかどうかを評価する。
論文 参考訳(メタデータ) (2022-05-25T03:40:59Z) - Towards Rigorous Interpretations: a Formalisation of Feature Attribution [6.905391624417595]
リラックスした機能依存の概念に基づいた機能選択/属性の形式化を提案する。
合成データセットのアーストルースアトリビューションを計算することで、最適化された場合でも、提案された特性を検証し、間違ったソリューションを提供することに失敗する人もいます。
論文 参考訳(メタデータ) (2021-04-26T10:04:44Z) - Measuring Association Between Labels and Free-Text Rationales [60.58672852655487]
解釈可能なNLPでは、説明された例に対するモデルの意思決定プロセスを反映した忠実な理性が必要です。
情報抽出型タスクに対する忠実な抽出合理化のための既存のモデルであるパイプラインは、自由テキスト合理化を必要とするタスクに確実に拡張されないことを示す。
我々は、信頼が確立されていない自由文合理化のための、広く使われている高性能モデルのクラスである、共同予測と合理化のモデルに目を向ける。
論文 参考訳(メタデータ) (2020-10-24T03:40:56Z) - Why do you think that? Exploring Faithful Sentence-Level Rationales
Without Supervision [60.62434362997016]
文レベルで忠実な論理を出力するモデルを作成するために,異なる訓練枠組みを提案する。
本モデルでは,各理性に基づいて各課題を個別に解決し,その課題を最もよく解決した者に高いスコアを割り当てることを学ぶ。
論文 参考訳(メタデータ) (2020-10-07T12:54:28Z) - On a plausible concept-wise multipreference semantics and its relations
with self-organising maps [0.0]
我々は,この提案がKLMなどの望ましい性質を満足し,溺れの問題を回避することを主張する。
我々は、自己組織化マップの論理的意味論を開発することにより、概念的多言語意味論の妥当性を動機づける。
論文 参考訳(メタデータ) (2020-08-30T21:06:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。