論文の概要: Controllable Information Production
- arxiv url: http://arxiv.org/abs/2601.22449v1
- Date: Fri, 30 Jan 2026 01:33:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.15274
- Title: Controllable Information Production
- Title(参考訳): 制御可能な情報生産
- Authors: Tristan Shah, Stas Tiomkin,
- Abstract要約: 内在的動機づけ(Intrinsic Motivation, IM)は、外部ユーティリティなしで知的行動を生成するためのパラダイムである。
我々は、外部ユーティリティとデザイナ指定変数の両方を避ける新しいIM原則である制御可能情報生成(CIP)を導入する。
我々は、CIPの重要な理論的特性を確立し、その有効性を標準IMベンチマークで示す。
- 参考スコア(独自算出の注目度): 2.442168164204936
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Intrinsic Motivation (IM) is a paradigm for generating intelligent behavior without external utilities. The existing information-theoretic methods for IM are predominantly based on information transmission, which explicitly depends on the designer's choice of which random variables engage in transmission. In this work, we introduce a novel IM principle, Controllable Information Production (CIP), that avoids both external utilities and designer-specified variables. We derive the CIP objective from Optimal Control, showing a connection between extrinsic and intrinsic behaviors. CIP appears as the gap between open-loop and closed-loop Kolmogorov-Sinai entropies, which simultaneously rewards the pursuit and regulation of chaos. We establish key theoretical properties of CIP and demonstrate its effectiveness on standard IM benchmarks.
- Abstract(参考訳): 内在的動機づけ(Intrinsic Motivation, IM)は、外部ユーティリティなしで知的行動を生成するためのパラダイムである。
IMの既存の情報理論手法は、主に情報伝達に基づいており、これはランダム変数が伝達に関与する設計者の選択に依存している。
本研究では、外部ユーティリティとデザイナ指定変数の両方を避ける新しいIM原理である制御可能情報生成(CIP)を導入する。
我々は,CIPの目的を最適制御から導出し,外因性行動と内因性行動の関連性を示す。
CIPはオープンループと閉ループのコルモゴロフ-シナイエントロピーのギャップとして現れ、同時にカオスの追求と規制に報いる。
我々は、CIPの重要な理論的特性を確立し、その有効性を標準IMベンチマークで示す。
関連論文リスト
- Correlated-Sequence Differential Privacy [32.411989837842086]
Correlated-Sequence Differential Privacy (CSDP) は、関連するシーケンシャルデータにプライバシを保存するために設計されている。
CSDPは、2つの関連する課題に対処する: 攻撃者が共同時間リンクとクロスシーケンスリンクから得られる余分な情報を定量化し、その情報を隠すのに十分なノイズを追加する。
2シーケンスデータセットのテストでは、CSDPは既存の相関DPメソッドに比べて、プライバシーとユーティリティのトレードオフを約50%改善している。
論文 参考訳(メタデータ) (2025-11-22T11:28:59Z) - A new measure for dynamic leakage based on quantitative information flow [2.3332469289621787]
定量的情報フロー(QIF)は、計算システムにおける情報の漏洩を評価することを目的としている。
静的パースペクティブは、情報フローの計算におけるシステムのすべての実行を考慮し、通常、システムを実行するかどうかを事前に決めるときに使用される。
ダイナミック・パースペクティブは、例えばシステムモニタやトラッカー、特に特定の実行を継続するか中止するかを決めるときに関係している。
論文 参考訳(メタデータ) (2025-10-23T18:22:39Z) - How Chain-of-Thought Works? Tracing Information Flow from Decoding, Projection, and Activation [9.455881608413137]
CoT(Chain-of-Thought)はモデル推論を著しく促進するが、内部メカニズムはよく分かっていない。
我々は,CoTの運用原理を,デコーディング,プロジェクション,アクティベーションの各フェーズにまたがる情報の流れを逆トレースすることで解析する。
論文 参考訳(メタデータ) (2025-07-28T12:11:16Z) - Communication-Efficient and Privacy-Adaptable Mechanism for Federated Learning [54.20871516148981]
通信効率・プライバシー適応メカニズム(CEPAM)について紹介する。
CEPAMは通信効率とプライバシー保護を同時に達成する。
我々は、CEPAMのプライバシー保証を理論的に分析し、CEPAMのユーザプライバシと正確性の間のトレードオフを調査する。
論文 参考訳(メタデータ) (2025-01-21T11:16:05Z) - Age of Semantics in Cooperative Communications: To Expedite Simulation
Towards Real via Offline Reinforcement Learning [53.18060442931179]
協調リレー通信システムにおける状態更新のセマンティックス更新度を測定するための意味学年代(AoS)を提案する。
オンライン・ディープ・アクター・クリティック(DAC)学習手法を,政治時間差学習の枠組みに基づいて提案する。
そこで我々は,以前に収集したデータセットから最適制御ポリシーを推定する,新しいオフラインDAC方式を提案する。
論文 参考訳(メタデータ) (2022-09-19T11:55:28Z) - Pessimism meets VCG: Learning Dynamic Mechanism Design via Offline
Reinforcement Learning [114.36124979578896]
オフライン強化学習アルゴリズムを用いて動的メカニズムを設計する。
我々のアルゴリズムは悲観主義の原理に基づいており、オフラインデータセットのカバレッジについて軽度な仮定しか必要としない。
論文 参考訳(メタデータ) (2022-05-05T05:44:26Z) - Bridging Differential Privacy and Byzantine-Robustness via Model
Aggregation [27.518542543750367]
本稿では,差分プライバシーとビザンチネロバストネスという,連邦学習における対立する問題に対処することを目的とする。
標準メカニズムは送信DP、エンベロップスエンベロップスエンベロップスエンベロープ(エンベロップスエンベロープ、エンベロープエンベロープアグリゲーション)を追加し、ビザンツ攻撃を防御する。
提案手法の影響は, その頑健なモデルアグリゲーションによって抑制されていることを示す。
論文 参考訳(メタデータ) (2022-04-29T23:37:46Z) - Sequential Information Design: Markov Persuasion Process and Its
Efficient Reinforcement Learning [156.5667417159582]
本稿では,逐次情報設計の新たなモデル,すなわちマルコフ説得過程(MPP)を提案する。
MPPのプランニングは、ミオピックレシーバーに同時に説得されるシグナルポリシーを見つけ、送信者の最適な長期累積ユーティリティを誘導する、というユニークな課題に直面している。
我々は,楽観主義と悲観主義の両原理の新たな組み合わせを特徴とする,実証可能な効率のよい非回帰学習アルゴリズム,Optimism-Pessimism Principle for Persuasion Process (OP4) を設計する。
論文 参考訳(メタデータ) (2022-02-22T05:41:43Z) - Self-Attention Attribution: Interpreting Information Interactions Inside
Transformer [89.21584915290319]
本稿では,トランスフォーマー内の情報相互作用を解釈する自己帰属属性法を提案する。
本研究は,BERT に対する非目標攻撃の実装において,その属性を敵対パターンとして用いることができることを示す。
論文 参考訳(メタデータ) (2020-04-23T14:58:22Z) - Forgetting Outside the Box: Scrubbing Deep Networks of Information
Accessible from Input-Output Observations [143.3053365553897]
本稿では、訓練された深層ネットワークからトレーニングデータのコホートへの依存を取り除く手順について述べる。
忘れられたコホートについて,クエリ毎にどれだけの情報を取り出すことができるか,という新たな境界を導入する。
我々は,ニューラルタンジェントカーネルにインスパイアされたDNNのアクティベーションとウェイトダイナミクスの接続を利用して,アクティベーションの情報を計算する。
論文 参考訳(メタデータ) (2020-03-05T23:17:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。