論文の概要: VisualDeltas: Learning Preferences from Visual Quality Perturbations
- arxiv url: http://arxiv.org/abs/2603.07272v1
- Date: Sat, 07 Mar 2026 16:14:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:14.197553
- Title: VisualDeltas: Learning Preferences from Visual Quality Perturbations
- Title(参考訳): VisualDeltas:ビジュアル品質の摂動から学ぶ
- Authors: Hailiang Huang, Yihao Liu, Shengyue Guan, Haoze Li, Sujian Li,
- Abstract要約: VisualDeltasは、マルチモーダルデータの視覚的品質変化から監督を抽出する。
VisualDeltasは、人間のアノテーションや外部の教師に頼ることなく、情報的好みのシグナルを誘導する。
- 参考スコア(独自算出の注目度): 19.99199662469968
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present VisualDeltas, a lightweight preference-learning framework that extracts supervision from visual quality variations in multimodal data. By leveraging the systematic impact of image quality on visual perception and reasoning, VisualDeltas induces informative preference signals without relying on human annotations or external teachers. The framework supports both label-free and label-based regimes, enabling flexible use of available supervision when present. Across diverse multimodal benchmarks and model scales, VisualDeltas consistently outperforms rejection-sampling fine-tuning and improves generalization, and extends naturally to a range of visual degradations.
- Abstract(参考訳): マルチモーダルデータの視覚的品質変化から監督を抽出する軽量な嗜好学習フレームワークであるVisualDeltasを提案する。
画像品質の体系的な影響を視覚的知覚と推論に活用することにより、VisualDeltasは人間のアノテーションや外部教師に頼ることなく、情報的嗜好シグナルを誘導する。
このフレームワークはラベルフリーとラベルベースのレギュレーションの両方をサポートしており、現在利用可能な監視を柔軟に利用することができる。
多様なマルチモーダルベンチマークとモデルスケールにわたって、VisualDeltasはリジェクションサンプリングの微調整を一貫して上回り、一般化を改善し、様々な視覚的劣化に自然に拡張する。
関連論文リスト
- Test-Time Conditioning with Representation-Aligned Visual Features [9.262325724962485]
Representation-Aligned Guidance (REPA-G)を導入する。
我々は,事前学習した特徴抽出器から抽出した条件付き表現に対して,デノナイズ処理を行う。
提案手法は, 単一パッチによるきめ細かいテクスチャマッチングから, 広義の意味指導まで, 複数スケールで多目的制御を行う。
論文 参考訳(メタデータ) (2026-02-03T17:15:03Z) - How Well Do Models Follow Visual Instructions? VIBE: A Systematic Benchmark for Visual Instruction-Driven Image Editing [56.60465182650588]
我々は,3段階の相互作用階層を導入し,決定的接地,形態的操作,因果推論を捉える。
本稿では,スケーラブルできめ細かい評価を実現するために,タスク固有のメトリクスを備えた堅牢なLMM-as-a-judge評価フレームワークを提案する。
プロプライエタリなモデルは早期の視覚指示追従能力を示し、一貫してオープンソースモデルを上回っていることがわかった。
論文 参考訳(メタデータ) (2026-02-02T09:24:45Z) - DiG: Differential Grounding for Enhancing Fine-Grained Perception in Multimodal Large Language Model [22.28268642142352]
DiG (Differential Grounding) は、MLLM がより詳細な認識を学習する新しいプロキシ・タスク・フレームワークである。
この結果は,MLLMの微細な視覚的推論を向上するための,スケーラブルで堅牢なアプローチとして,微分接地に注目した。
論文 参考訳(メタデータ) (2025-12-14T10:40:27Z) - Unleashing the Intrinsic Visual Representation Capability of Multimodal Large Language Models [58.91911788912665]
より識別的な視覚表現の学習において,MLLMの学習を容易にする新しい学習フレームワークであるLaVerを提案する。
本手法はMLLMに対して直接視覚的アクティベーションを提供し,視覚的アサインメントが増大し,視覚情報の利用が向上したことを示す。
論文 参考訳(メタデータ) (2025-12-06T04:20:13Z) - Unleashing the Power of Vision-Language Models for Long-Tailed Multi-Label Visual Recognition [55.189113121465816]
本稿では,長い尾を持つ多ラベル視覚認識のための新しい相関適応プロンプトネットワーク(CAPNET)を提案する。
CAPNETはCLIPのテキストエンコーダからの相関を明示的にモデル化する。
テスト時間アンサンブルによる一般化を改善し、視覚・テクスチャのモダリティを実現する。
論文 参考訳(メタデータ) (2025-11-25T18:57:28Z) - Visual Imitation Learning with Calibrated Contrastive Representation [44.63125396964309]
AIL(Adversarial Imitation Learning)は、エージェントが低次元の状態と行動で専門家の行動を再現することを可能にする。
本稿では、視覚的AILフレームワークにコントラスト型代表学習を組み込むことにより、シンプルで効果的な解を提案する。
論文 参考訳(メタデータ) (2024-01-21T04:18:30Z) - SgVA-CLIP: Semantic-guided Visual Adapting of Vision-Language Models for
Few-shot Image Classification [84.05253637260743]
本稿では,セマンティック誘導視覚適応(SgVA)と呼ばれる新しいフレームワークを提案する。
SgVAは、視覚特異的のコントラスト損失、クロスモーダルのコントラスト損失、暗黙の知識蒸留を包括的に利用することで、識別的なタスク固有の視覚特徴を生成する。
13のデータセットの最先端の結果は、適応された視覚的特徴が、クロスモーダルな特徴を補完し、少数の画像分類を改善することを実証している。
論文 参考訳(メタデータ) (2022-11-28T14:58:15Z) - Visual Perturbation-aware Collaborative Learning for Overcoming the
Language Prior Problem [60.0878532426877]
本稿では,視覚的摂動校正の観点から,新しい協調学習手法を提案する。
具体的には、異なる摂動範囲で2種類のキュレートされた画像を構築するための視覚コントローラを考案する。
2つの診断VQA-CPベンチマークデータセットの実験結果は、その効果を明らかに示している。
論文 参考訳(メタデータ) (2022-07-24T23:50:52Z) - VizAI : Selecting Accurate Visualizations of Numerical Data [2.6039035727217907]
VizAIは、データの様々な統計特性を最初に生成する生成的識別フレームワークである。
これは、視覚化されるデータの真の統計に最もよく一致する視覚化を選択する識別モデルにリンクされている。
VizAIは、最小限の監督で容易に訓練でき、様々な監督レベルの設定に適応できる。
論文 参考訳(メタデータ) (2021-11-07T22:05:44Z) - Towards Modality Transferable Visual Information Representation with
Optimal Model Compression [67.89885998586995]
本稿では,伝達可能なモダリティの原理を活かした視覚信号表現手法を提案する。
提案するフレームワークは最先端のビデオコーディング標準に実装されている。
論文 参考訳(メタデータ) (2020-08-13T01:52:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。