論文の概要: Lossy Common Information in a Learnable Gray-Wyner Network
- arxiv url: http://arxiv.org/abs/2601.21424v1
- Date: Thu, 29 Jan 2026 09:00:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.686019
- Title: Lossy Common Information in a Learnable Gray-Wyner Network
- Title(参考訳): 学習可能なグレー・ウィナーネットワークにおけるロッシー共通情報
- Authors: Anderson de Andrade, Alon Harell, Ivan V. Bajić,
- Abstract要約: 複数の視覚タスクにまたがるタスク固有の詳細情報から共有情報を分離する学習可能な3チャンネルシステムを開発した。
提案手法は冗長性を著しく低減し,一貫した独立符号化よりも優れることを示す。
これらの結果は、現代の機械学習におけるグレー・ワイナー理論の再検討の実践的価値を強調している。
- 参考スコア(独自算出の注目度): 1.5378391391800512
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Many computer vision tasks share substantial overlapping information, yet conventional codecs tend to ignore this, leading to redundant and inefficient representations. The Gray-Wyner network, a classical concept from information theory, offers a principled framework for separating common and task-specific information. Inspired by this idea, we develop a learnable three-channel codec that disentangles shared information from task-specific details across multiple vision tasks. We characterize the limits of this approach through the notion of lossy common information, and propose an optimization objective that balances inherent tradeoffs in learning such representations. Through comparisons of three codec architectures on two-task scenarios spanning six vision benchmarks, we demonstrate that our approach substantially reduces redundancy and consistently outperforms independent coding. These results highlight the practical value of revisiting Gray-Wyner theory in modern machine learning contexts, bridging classic information theory with task-driven representation learning.
- Abstract(参考訳): 多くのコンピュータビジョンタスクは重なり合う情報を共有しているが、従来のコーデックはこれを無視する傾向があり、冗長で非効率な表現をもたらす。
Gray-Wynerネットワークは、情報理論の古典的な概念であり、共通情報とタスク固有の情報を分離するための原則化されたフレームワークを提供する。
このアイデアにインスパイアされた学習可能な3チャンネルコーデックを開発した。
本稿では,この手法の限界を共通情報の損失の概念によって特徴づけるとともに,そのような表現の学習において固有のトレードオフのバランスをとる最適化目標を提案する。
6つのビジョンベンチマークにまたがる2タスクシナリオにおける3つのコーデックアーキテクチャの比較を通じて、我々のアプローチが冗長性を著しく低減し、一貫した独立符号化よりも優れた性能を示すことを示した。
これらの結果は、現代の機械学習の文脈でグレイ・ワイナー理論を再考し、タスク駆動表現学習で古典情報理論をブリッジすることの実践的価値を強調している。
関連論文リスト
- HERO: Rethinking Visual Token Early Dropping in High-Resolution Large Vision-Language Models [60.028070589466445]
本稿では,コンテンツ適応型トークン予算配分と関数対応トークン選択を統合したフレームワークHEROを提案する。
本研究は、HR-LVLMにおける効率的な推論に対する経験的洞察と実践的解決策の両方を提供する。
論文 参考訳(メタデータ) (2025-09-16T13:22:08Z) - Towards Comprehensive Information-theoretic Multi-view Learning [49.199817029783446]
CIMLは、情報理論に基づく共通情報と一意情報の両方の潜在的な予測能力を考える。
理論的には、学習された関節表現が下流タスクに十分であることを示す。
論文 参考訳(メタデータ) (2025-09-02T08:34:04Z) - Why Vision Language Models Struggle with Visual Arithmetic? Towards Enhanced Chart and Geometry Understanding [94.64781599202882]
視覚言語モデル(VLM)はマルチモーダルタスクにおいて顕著な進歩を遂げた。
彼らはしばしば、オブジェクトのカウントや長さ比較のような一見単純な機能である視覚的算術に苦しむ。
我々は、ピアジェの認知発達理論に触発された新しいポストトレーニング戦略であるCogAlignを提案する。
論文 参考訳(メタデータ) (2025-02-17T06:54:49Z) - Conceptual Codebook Learning for Vision-Language Models [27.68834532978939]
視覚言語モデル(VLM)の一般化能力向上のためのCodebook Learning(CoCoLe)を提案する。
視覚概念をキーとして,概念的プロンプトを値として,概念的コードブックを学習する。
この概念的コードブック学習法は,視覚的・言語的モダリティの高度化を実現することができる。
論文 参考訳(メタデータ) (2024-07-02T15:16:06Z) - TVE: Learning Meta-attribution for Transferable Vision Explainer [76.68234965262761]
本稿では,下流タスクにおける様々な視覚モデルを効果的に説明できるTransferable Vision Explainer(TVE)を提案する。
TVEは,大規模データセットの事前学習プロセスを通じて,メタ属性の学習を実現する。
このメタ属性は、一般的なバックボーンエンコーダの汎用性を利用して、入力インスタンスの属性知識を包括的にエンコードし、TVEがシームレスに転送し、様々な下流タスクを説明することを可能にする。
論文 参考訳(メタデータ) (2023-12-23T21:49:23Z) - Knowledge-enriched Attention Network with Group-wise Semantic for Visual
Storytelling [39.59158974352266]
視覚的なストーリーテリングは、関連した画像のグループから物語の多文を含む想像的で一貫性のあるストーリーを生成することを目的としている。
既存の手法では、画像以外の暗黙的な情報を探索することができないため、画像に基づくコンテンツの直接的および厳密な記述を生成することが多い。
これらの問題に対処するために,グループワイド・セマンティック・モデルを用いた新しい知識強化型アテンション・ネットワークを提案する。
論文 参考訳(メタデータ) (2022-03-10T12:55:47Z) - Explaining Representation by Mutual Information [0.0]
ニューラルネットワーク表現を3つの完全成分に分解する相互情報(MI)に基づく手法を提案する。
CNNやTransformerなどのアーキテクチャに統合された2つの軽量モジュールを用いて,これらのコンポーネントを推定し,解釈能力を示す。
論文 参考訳(メタデータ) (2021-03-28T12:26:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。