論文の概要: What do your logits know? (The answer may surprise you!)
- arxiv url: http://arxiv.org/abs/2604.09885v1
- Date: Fri, 10 Apr 2026 20:24:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:15.727593
- Title: What do your logits know? (The answer may surprise you!)
- Title(参考訳): あなたのロジットは何を知っているだろうか?
- Authors: Masha Fedzechkina, Eleonora Gualdoni, Rita Ramos, Sinead Williamson,
- Abstract要約: 近年の研究では、モデル内部がモデル世代から明らかでない豊富な情報を明らかにすることが示されている。
これは意図しない、または悪意のない情報漏洩のリスクを引き起こす。
モデルのトップロジット値によって定義される、アクセスしやすいボトルネックであっても、画像ベースのクエリに存在するタスク関連情報を漏洩させる可能性があることを示す。
- 参考スコア(独自算出の注目度): 10.903271445732308
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent work has shown that probing model internals can reveal a wealth of information not apparent from the model generations. This poses the risk of unintentional or malicious information leakage, where model users are able to learn information that the model owner assumed was inaccessible. Using vision-language models as a testbed, we present the first systematic comparison of information retained at different "representational levels'' as it is compressed from the rich information encoded in the residual stream through two natural bottlenecks: low-dimensional projections of the residual stream obtained using tuned lens, and the final top-k logits most likely to impact model's answer. We show that even easily accessible bottlenecks defined by the model's top logit values can leak task-irrelevant information present in an image-based query, in some cases revealing as much information as direct projections of the full residual stream.
- Abstract(参考訳): 近年の研究では、モデル内部がモデル世代から明らかでない豊富な情報を明らかにすることが示されている。
これは、モデルユーザーがモデル所有者が理解できないと仮定した情報を学ぶことができる、意図しない、または悪意のない情報漏洩のリスクを生じさせる。
テストベッドとして視覚言語モデルを用いて、残留ストリームに符号化されたリッチな情報から2つの自然なボトルネックを通して圧縮され、異なる「表現レベル」に保持される情報を初めて体系的に比較する。
モデルのトップロジット値で定義されているたとえ容易にアクセス可能なボトルネックであっても、画像ベースのクエリに存在するタスク非関連情報を漏洩させることができる。
関連論文リスト
- Debiasing Multimodal Models via Causal Information Minimization [65.23982806840182]
我々は、マルチモーダルデータのための因果グラフにおいて、共同創設者から生じるバイアスを研究する。
ロバストな予測機能は、モデルがアウト・オブ・ディストリビューションデータに一般化するのに役立つ多様な情報を含んでいる。
これらの特徴を共同設立者表現として使用し、因果理論によって動機づけられた手法を用いてモデルからバイアスを取り除く。
論文 参考訳(メタデータ) (2023-11-28T16:46:14Z) - Privacy Distillation: Reducing Re-identification Risk of Multimodal
Diffusion Models [11.659461421660613]
プライバシ蒸留(Privacy Distillation)は、テキストから画像への生成モデルで、識別可能なデータに公開することなく、別のモデルを教えることができるフレームワークである。
本手法は,(1)実データ上で第1拡散モデルをトレーニングし,(2)本モデルを用いて合成データセットを生成し,(3)再構成された合成データに対して第2拡散モデルをトレーニングする。
論文 参考訳(メタデータ) (2023-06-02T07:44:00Z) - Differentiable Outlier Detection Enable Robust Deep Multimodal Analysis [20.316056261749946]
本稿では,明示的な知識グラフを取り入れたエンドツーエンドのビジョンと言語モデルを提案する。
また,暗黙的ネットワーク演算子を用いた対話型アウト・オブ・ディストリビューション・レイヤを導入する。
実際に,視覚的質問応答,視覚的推論,画像テキスト検索など,複数の視覚および言語下流タスクにモデルを適用した。
論文 参考訳(メタデータ) (2023-02-11T05:46:21Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - Y-GAN: Learning Dual Data Representations for Efficient Anomaly
Detection [0.0]
本稿では,Y-GANと呼ばれる新しい再構成モデルを提案する。
モデルはY字型のオートエンコーダで構成され、2つの別々の潜在空間の画像を表現している。
論文 参考訳(メタデータ) (2021-09-28T20:17:04Z) - Beyond Trivial Counterfactual Explanations with Diverse Valuable
Explanations [64.85696493596821]
コンピュータビジョンの応用において、生成的対実法はモデルの入力を摂動させて予測を変更する方法を示す。
本稿では,多様性強化損失を用いて制約される不連続潜在空間における摂動を学習する反事実法を提案する。
このモデルは, 従来の最先端手法と比較して, 高品質な説明を生産する成功率を向上させる。
論文 参考訳(メタデータ) (2021-03-18T12:57:34Z) - Understanding invariance via feedforward inversion of discriminatively
trained classifiers [30.23199531528357]
過去の研究では、出力ログに余計な視覚的詳細が残っていることが判明した。
極めて高い忠実度を再現するフィードフォワードインバージョンモデルを開発する。
私たちのアプローチはBigGANをベースにしており、1ホットクラスのラベルの代わりにロジットのコンディショニングを行います。
論文 参考訳(メタデータ) (2021-03-15T17:56:06Z) - Visualising Deep Network's Time-Series Representations [93.73198973454944]
機械学習モデルの普及にもかかわらず、多くの場合、モデルの内部で起きていることに関する洞察のないブラックボックスとして運用される。
本稿では,多次元時系列データの可視化に着目し,この問題に対処する手法を提案する。
高周波在庫市場データセットの実験は、この方法が迅速かつ識別可能な可視化を提供することを示しています。
論文 参考訳(メタデータ) (2021-03-12T09:53:34Z) - Contextual Dropout: An Efficient Sample-Dependent Dropout Module [60.63525456640462]
ドロップアウトは、ディープニューラルネットワークのトレーニングプロセスを正規化するシンプルで効果的なモジュールとして実証されています。
単純でスケーラブルなサンプル依存型ドロップアウトモジュールとして,効率的な構造設計によるコンテキスト型ドロップアウトを提案する。
提案手法は,不確実性推定の精度と品質の両面において,ベースライン法よりも優れていた。
論文 参考訳(メタデータ) (2021-03-06T19:30:32Z) - Model extraction from counterfactual explanations [68.8204255655161]
本稿では, 敵が反実的説明によって提供された情報を利用して, 高精度かつ高精度なモデル抽出攻撃を構築する方法を示す。
我々の攻撃は、敵が相手モデルの忠実なコピーを、その偽説明にアクセスして作成することを可能にする。
論文 参考訳(メタデータ) (2020-09-03T19:02:55Z) - Granular Learning with Deep Generative Models using Highly Contaminated
Data [0.0]
品質問題のある実世界の画像データセット上で, 微粒な意味での異常検出のための深部生成モデルの最近の進歩を活用するためのアプローチを詳述する。
このアプローチは完全に教師なし(アノテーションは使用できない)だが、質的に画像の正確なセマンティックラベリングを提供するために示される。
論文 参考訳(メタデータ) (2020-01-06T23:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。