論文の概要: See Less, See Right: Bi-directional Perceptual Shaping For Multimodal Reasoning
- arxiv url: http://arxiv.org/abs/2512.22120v1
- Date: Fri, 26 Dec 2025 18:59:47 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-29 11:59:33.848139
- Title: See Less, See Right: Bi-directional Perceptual Shaping For Multimodal Reasoning
- Title(参考訳): マルチモーダル推論のための双方向パーセプティカルシェイピング
- Authors: Shuoshuo Zhang, Yizhen Zhang, Jingjing Fu, Lei Song, Jiang Bian, Yujiu Yang, Rui Wang,
- Abstract要約: 本稿では,質問条件付きマスキングビューを双方向の視線信号に変換する双方向知覚整形(BiPS)を提案する。
BiPSはQwen2.5-VL-7Bを平均8.2%向上させ、目に見えないデータセットやイメージタイプに対して、ドメイン外の強力な一般化を示す。
- 参考スコア(独自算出の注目度): 58.7125460363147
- License:
- Abstract: Large vision-language models (VLMs) often benefit from intermediate visual cues, either injected via external tools or generated as latent visual tokens during reasoning, but these mechanisms still overlook fine-grained visual evidence (e.g., polylines in charts), generalize poorly across domains, and incur high inference-time cost. In this paper, we propose Bi-directional Perceptual Shaping (BiPS), which transforms question-conditioned masked views into bidirectional where-to-look signals that shape perception during training. BiPS first applies a KL-consistency constraint between the original image and an evidence-preserving view that keeps only question-relevant regions, encouraging coarse but complete coverage of supporting pixels. It then applies a KL-separation constraint between the original and an evidence-ablated view where critical pixels are masked so the image no longer supports the original answer, discouraging text-only shortcuts (i.e., answering from text alone) and enforcing fine-grained visual reliance. Across eight benchmarks, BiPS boosts Qwen2.5-VL-7B by 8.2% on average and shows strong out-of-domain generalization to unseen datasets and image types.
- Abstract(参考訳): 大規模な視覚言語モデル(VLM)は、外部ツール経由で注入されたり、推論中に潜伏した視覚トークンとして生成されたりする中間的な視覚的手がかりの恩恵を受けることが多いが、これらのメカニズムはいまだに細かい視覚的証拠(例えばチャートのポリライン)を見落としている。
本稿では,質問条件付きマスキングビューを,学習中に知覚を形作る双方向な位置視信号に変換するBi-directional Perceptual Shaping (BiPS)を提案する。
BiPSはまず、元の画像と疑問関連領域のみを保持するエビデンス保存ビューとの間にKL一貫性の制約を適用する。
次に、原画と重要な画素が隠蔽され、画像が元の答えをサポートしなくなり、テキストのみのショートカット(すなわち、テキストのみからの回答)を回避し、きめ細かい視覚的依存を強制するエビデンス対応ビューの間にKL区切りの制約を施す。
8つのベンチマークで、BiPSはQwen2.5-VL-7Bを平均8.2%向上させ、目に見えないデータセットやイメージタイプに対するドメイン外の強力な一般化を示している。
関連論文リスト
- PPBoost: Progressive Prompt Boosting for Text-Driven Medical Image Segmentation [56.238478239463575]
PPBoostは弱いテキスト由来の信号を強く、空間的に接地された視覚的プロンプトに変換する。
画像やピクセルレベルのセグメンテーションラベルを持たない厳格なゼロショット方式で動作する。
テキストや視覚的にプロンプトされたベースラインよりも、Diceと正規化されたSurface Distanceを一貫して改善する。
論文 参考訳(メタデータ) (2025-11-26T23:49:44Z) - Mitigating Multimodal Hallucinations via Gradient-based Self-Reflection [49.26064449816502]
本研究では,テキスト・視覚バイアスと共起バイアスに対処するために,グラディエントベースのインフルエンス・アウェア制約付きデコーディング(GACD)手法を提案する。
GACDは幻覚を効果的に低減し、MLLM出力の視覚的接地を改善する。
論文 参考訳(メタデータ) (2025-09-03T08:13:52Z) - Harnessing Group-Oriented Consistency Constraints for Semi-Supervised Semantic Segmentation in CdZnTe Semiconductors [71.44213719783703]
ICAF(Intra-group Consistency Augmentation Framework)は、CdZnTe(Cadmium Zinc Telluride)半導体画像にラベルを付けるために開発された。
ICAF は View Augmentation Module (VAM) と View Correction Module (VCM) の2つの重要なモジュールで構成されている。
ICAFは、CdZnTeデータセット上の70.6% mIoUを2つのグループアノテートデータのみを用いて達成する。
論文 参考訳(メタデータ) (2025-08-18T09:40:36Z) - Decouple before Align: Visual Disentanglement Enhances Prompt Tuning [85.91474962071452]
プロンプトチューニング(PT)は、視覚言語モデルのタスク固有の伝達性を改善する際、顕著な効果を示した。
本稿では,従来見過ごされていた情報非対称性の問題について述べる。
本稿では,直感的なデカプリアライン概念に基づく効果的なPTフレームワークであるDAPTを提案する。
論文 参考訳(メタデータ) (2025-08-01T07:46:00Z) - CROP: Contextual Region-Oriented Visual Token Pruning [9.099029419132775]
Contextual Region-Oriented Visual Token Pruning (CROP)は、ビジュアルトークンを圧縮する新しいフレームワークである。
プレLLM圧縮(PLC)と、異なる画像領域を異なる比率で適応的に圧縮する(2)インナーLLMプルーニング(ILP)は、識別されたコンテキスト領域に導かれる初期層内でトークンをプルーする訓練不要な方法である。
論文 参考訳(メタデータ) (2025-05-27T14:16:52Z) - v1: Learning to Point Visual Tokens for Multimodal Grounded Reasoning [27.688428439248607]
簡単なポイント・アンド・コピーアプローチによるアクティブな視覚的参照を可能にする軽量な拡張であるv1を紹介する。
これにより、モデルは関連するイメージパッチを特定し、埋め込みを推論ストリームにコピーすることができる。
我々のポインティング戦略では、MLLMはセマンティックな表現をキーとして直接イメージパッチを選択でき、知覚的証拠はモデルの推論と同じ空間に埋め込まれている。
論文 参考訳(メタデータ) (2025-05-24T19:30:47Z) - Object-Attribute Binding in Text-to-Image Generation: Evaluation and Control [58.37323932401379]
現在の拡散モデルは、入力としてテキストプロンプトが与えられたイメージを生成するが、テキストで言及されている属性を画像の正しいオブジェクトに正しく結び付けるのに苦労する。
入力文中の構文的制約により視覚的注意マップを制御できる集中的横断注意(FCA)を提案する。
我々は、T2I生成の大幅な改善、特にいくつかのデータセットに対する属性オブジェクトのバインディングを示す。
論文 参考訳(メタデータ) (2024-04-21T20:26:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。