論文の概要: Air-Know: Arbiter-Calibrated Knowledge-Internalizing Robust Network for Composed Image Retrieval
- arxiv url: http://arxiv.org/abs/2604.19386v1
- Date: Tue, 21 Apr 2026 12:10:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 22:41:49.754692
- Title: Air-Know: Arbiter-Calibrated Knowledge-Internalizing Robust Network for Composed Image Retrieval
- Title(参考訳): Air-Know:Arbiter-Calibrated Knowledge-Internalizing Robust Network for Composed Image Retrieval
- Authors: Zhiheng Fu, Yupeng Hu, Qianyun Yang, Shiqi Zhang, Zhiwei Chen, Zixu Li,
- Abstract要約: 本研究では,Air-Know という新パラダイム "Expert-Proxy-Diversion" を提案する。
Air-Knowは3つのコアモジュールを組み込んでいる: (1) マルチモーダル大規模言語モデル(MLLM)をオフラインの専門家として使用し、高精度アンカーデータセットを構築するための外部事前調整(EPA)、(2) 専門家の識別論理を内部化するための軽量プロキシ"アビテータ"を効率的にガイドするエキスパート知識内在化(EKI)、(3) EKIの整合性を利用してトレーニングデータを分散し、クリーンなアライメントストリームと表現フィードバックを実現するDSR(Dual Stream Reconciliation)。
- 参考スコア(独自算出の注目度): 23.098868031524038
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Composed Image Retrieval (CIR) has attracted significant attention due to its flexible multimodal query method, yet its development is severely constrained by the Noisy Triplet Correspondence (NTC) problem. Most existing robust learning methods rely on the "small loss hypothesis", but the unique semantic ambiguity in NTC, such as "partial matching", invalidates this assumption, leading to unreliable noise identification. This entraps the model in a self dependent vicious cycle where the learner is intertwined with the arbiter, ultimately causing catastrophic "representation pollution". To address this critical challenge, we propose a novel "Expert-Proxy-Diversion" decoupling paradigm, named Air-Know (ArbIteR calibrated Knowledge iNternalizing rObust netWork). Air-Know incorporates three core modules: (1) External Prior Arbitration (EPA), which utilizes Multimodal Large Language Models (MLLMs) as an offline expert to construct a high precision anchor dataset; (2) Expert Knowledge Internalization (EKI), which efficiently guides a lightweight proxy "arbiter" to internalize the expert's discriminative logic; (3) Dual Stream Reconciliation (DSR), which leverages the EKI's matching confidence to divert the training data, achieving a clean alignment stream and a representation feedback reconciliation stream. Extensive experiments on multiple CIR benchmark datasets demonstrate that Air-Know significantly outperforms existing SOTA methods under the NTC setting, while also showing strong competitiveness in traditional CIR.
- Abstract(参考訳): Composed Image Retrieval (CIR) は、その柔軟なマルチモーダルクエリ法により注目されているが、その開発は、ノイズトリプルト対応(NTC)問題によって厳しく制約されている。
既存のロバスト学習手法の多くは「小さな損失仮説」に依存しているが、「部分的マッチング」のようなNTCのユニークな意味的曖昧さは、この仮定を無効にし、信頼できない雑音を識別する。
これは、学習者がアービターと連動し、破滅的な「表現汚染」を引き起こす自己依存的な悪循環にモデルを巻き込む。
そこで我々は,Air-Know (ArbIteR Calbrated Knowledge iNternalizing rObust netWork) という,新しい"Expert-Proxy-Diversion"デカップリングパラダイムを提案する。
Air-Knowには3つのコアモジュールが組み込まれている。(1)マルチモーダル大規模言語モデル(MLLM)をオフラインの専門家として使用し、高い精度のアンカーデータセットを構築すること、(2)エキスパート知識内部化(EKI)を効果的にガイドし、専門家の識別ロジックを内部化すること、(3)EKIの整合性を利用してトレーニングデータを分散し、クリーンなアライメントストリームと表現フィードバック調整ストリームを実現するDSR(Dual Stream Reconciliation)である。
複数のCIRベンチマークデータセットに対する大規模な実験により、Air-KnowはNTC設定下で既存のSOTAメソッドを著しく上回り、従来のCIRでは強力な競争力を示した。
関連論文リスト
- Search-R2: Enhancing Search-Integrated Reasoning via Actor-Refiner Collaboration [49.9937230730202]
本稿では,新たなアクター・リファイナ・コラボレーション・フレームワークであるSearch-R2を提案する。
提案手法は,生成過程をアクターに分解し,最初の推論軌道を生成する。
本稿では,検索-R2がモデルスケール全体にわたって強力なRAGとRLベースのベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2026-02-03T15:32:09Z) - Towards Sample-Efficient and Stable Reinforcement Learning for LLM-based Recommendation [56.92367609590823]
Long Chain-of-Thought (Long CoT)推論は、Large Language Models (LLMs)において有望であることを示している。
我々はLong CoTが本質的にシーケンシャルなレコメンデーションドメインに不適合であると主張している。
提案するRISER(Reinforced Item Space Exploration framework for Recommendation)を提案する。
論文 参考訳(メタデータ) (2026-01-31T10:02:43Z) - Open-World Deepfake Attribution via Confidence-Aware Asymmetric Learning [78.92934995292113]
本稿では,既知の偽造と新規な偽造の信頼のバランスをとる,信頼を意識した非対称学習(CAL)フレームワークを提案する。
CALは従来手法を一貫して上回り、既知の偽造と新しい偽造の両方で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-12-14T12:31:28Z) - Knowledge-Informed Neural Network for Complex-Valued SAR Image Recognition [51.03674130115878]
本稿では,新しい「圧縮集約圧縮」アーキテクチャ上に構築された軽量なフレームワークであるKnowledge-Informed Neural Network(KINN)を紹介する。
KINNはパラメータ効率の認識における最先端を確立し、データスカースとアウト・オブ・ディストリビューションのシナリオにおいて例外的な一般化を提供する。
論文 参考訳(メタデータ) (2025-10-23T07:12:26Z) - Rewarding the Journey, Not Just the Destination: A Composite Path and Answer Self-Scoring Reward Mechanism for Test-Time Reinforcement Learning [29.778703252962092]
大規模言語モデル(LLM)の進化のための強力なパラダイムとして強化学習(RL)が登場した。
外部の監督なしに動作する新しいテストタイム報酬機構を開発した。
論文 参考訳(メタデータ) (2025-10-20T07:53:51Z) - Divide-Then-Align: Honest Alignment based on the Knowledge Boundary of RAG [51.120170062795566]
本稿では,問合せが知識境界外にある場合の"I don't know"で応答する機能を備えたRAGシステムを実現するためのDTAを提案する。
DTAは適切な棄権と精度のバランスをとり、検索強化システムの信頼性と信頼性を高める。
論文 参考訳(メタデータ) (2025-05-27T08:21:21Z) - Dual-stream contrastive predictive network with joint handcrafted
feature view for SAR ship classification [9.251342335645765]
本稿では,新しいデュアルストリームコントラスト予測ネットワーク(DCPNet)を提案する。
最初のタスクは正のサンプルペアを構築し、コアエンコーダにより一般的な表現を学習させることである。
第2の課題は, 深部特徴と手話特徴との対応を適応的に把握し, モデル内での知識伝達を実現し, 特徴融合による冗長性を効果的に改善することである。
論文 参考訳(メタデータ) (2023-11-26T05:47:01Z) - Model-based Deep Learning Receiver Design for Rate-Splitting Multiple
Access [65.21117658030235]
本研究では,モデルベース深層学習(MBDL)に基づく実用的なRSMA受信機の設計を提案する。
MBDL受信機は、符号なしシンボル誤り率(SER)、リンクレベルシミュレーション(LLS)によるスループット性能、平均トレーニングオーバーヘッドの観点から評価される。
その結果,MBDLはCSIRが不完全なSIC受信機よりも優れていた。
論文 参考訳(メタデータ) (2022-05-02T12:23:55Z) - Exploring the Distributed Knowledge Congruence in Proxy-data-free
Federated Distillation [20.24005399782197]
フェデレートラーニング(Federated Learning)は、プライバシを保存する機械学習パラダイムである。
最近のプロキシデータフリーなFDアプローチは、追加の公開データの必要性を排除できるが、局所的な知識の相違に悩まされている。
分散知識合同(FedDKC)に基づくプロキシフリーFDアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-04-14T15:39:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。