論文の概要: Cross-Modal Taxonomic Generalization in (Vision-) Language Models
- arxiv url: http://arxiv.org/abs/2603.07474v1
- Date: Sun, 08 Mar 2026 05:29:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:14.621818
- Title: Cross-Modal Taxonomic Generalization in (Vision-) Language Models
- Title(参考訳): 視覚)言語モデルにおけるクロスモーダル分類学の一般化
- Authors: Tianyang Xu, Marcelo Sandoval-Castaneda, Karen Livescu, Greg Shakhnarovich, Kanishka Misra,
- Abstract要約: 本研究では,言語モデル(LM)で学習した意味表現と,より基礎的な証拠から学習した意味表現との相互作用について検討する。
画像に表現されたオブジェクトのハイパーネムを予測するタスクに焦点をあてる。
私たちが研究しているLMは、この知識を回復し、この実験の最も極端なバージョンでも一般化できることがわかりました。
- 参考スコア(独自算出の注目度): 47.15594091093832
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: What is the interplay between semantic representations learned by language models (LM) from surface form alone to those learned from more grounded evidence? We study this question for a scenario where part of the input comes from a different modality -- in our case, in a vision-language model (VLM), where a pretrained LM is aligned with a pretrained image encoder. As a case study, we focus on the task of predicting hypernyms of objects represented in images. We do so in a VLM setup where the image encoder and LM are kept frozen, and only the intermediate mappings are learned. We progressively deprive the VLM of explicit evidence for hypernyms, and test whether knowledge of hypernyms is recoverable from the LM. We find that the LMs we study can recover this knowledge and generalize even in the most extreme version of this experiment (when the model receives no evidence of a hypernym during training). Additional experiments suggest that this cross-modal taxonomic generalization persists under counterfactual image-label mappings only when the counterfactual data have high visual similarity within each category. Taken together, these findings suggest that cross-modal generalization in LMs arises as a result of both coherence in the extralinguistic input and knowledge derived from language cues.
- Abstract(参考訳): 言語モデル(LM)によって学習された意味表現と、より基礎的な証拠から学んだものとの相互作用はどのようなものか?
本稿では,事前学習されたLMが事前学習された画像エンコーダと整合する視覚言語モデル(VLM)において,入力の一部が異なるモードから得られるシナリオについて検討する。
ケーススタディでは、画像に表現されたオブジェクトのハイパーネムを予測するタスクに焦点をあてる。
我々は、イメージエンコーダとLMを凍結させ、中間マッピングのみを学習するVLMセットアップでそうする。
我々は徐々に超音韻の明示的な証拠をVLMから取り除き、超音韻の知識がLMから回復可能であるかどうかを検証する。
実験の最も極端なバージョンでも、我々が研究しているLMは、この知識を回復し、一般化することができる(もしモデルがトレーニング中にハイパーネムの証拠を受け取らなかったら)。
さらなる実験により、このクロスモーダルな分類学の一般化は、各カテゴリにおいて対物データに高い視覚的類似性がある場合にのみ、対物的イメージラベルマッピングの下で持続することが示唆された。
これらの結果は,言語的知識と外言語的入力のコヒーレンスを両立させた結果,LMにおけるクロスモーダル一般化が生じることを示唆している。
関連論文リスト
- Seeing to Act, Prompting to Specify: A Bayesian Factorization of Vision Language Action Policy [59.44168425139687]
BayesVLA(ベイズVLA)は、前もってポリシーを視覚的アクションに分解し、ルック・トゥ・アクティベーションと言語条件付き可能性をサポートし、即時特定を可能にするベイズ因子化である。
実験は、既存の方法と比較して、目に見えない命令、オブジェクト、環境に対して優れた一般化を示す。
論文 参考訳(メタデータ) (2025-12-12T01:59:23Z) - Towards Unification of Hallucination Detection and Fact Verification for Large Language Models [31.407333541614296]
大規模言語モデル(LLM)は、しばしば幻覚を示し、流動的に見えるコンテンツを生成するが、実際には正しくない。
この課題に対処するために、モデル中心の幻覚検出(HD)とテキスト中心のFact Verification(FV)という、2つの異なる研究パラダイムが登場した。
我々は,FVとHDの直接,インスタンスレベルの比較を可能にする統一評価フレームワークUniFactを紹介する。
論文 参考訳(メタデータ) (2025-12-02T13:51:01Z) - VLMDiff: Leveraging Vision-Language Models for Multi-Class Anomaly Detection with Diffusion [15.486565360380203]
我々の技術は、新しい教師なしのマルチクラス視覚異常検出フレームワークである。
LDM(Latent Diffusion Model)とVLM(Vision-Language Model)を統合し、異常な局所化と検出を強化する。
提案手法は,PRO(Pixel-level Per-Region-Overlap)メトリクスをReal-IADデータセットで最大25点,COCO-ADデータセットで最大8点向上する。
論文 参考訳(メタデータ) (2025-11-11T12:37:38Z) - Seeing Before Reasoning: A Unified Framework for Generalizable and Explainable Fake Image Detection [58.82268659497348]
この失敗の根源は、根本的なミスマッチにある、と私たちは主張する。
本稿では,偽画像検出のための汎用的で説明可能な,会話型アシスタントであるForensic-Chatを提案する。
論文 参考訳(メタデータ) (2025-09-29T20:59:19Z) - Analyzing and Mitigating Object Hallucination: A Training Bias Perspective [108.09666587800781]
我々は,LVLMのトレーニングデータから,特定の対象を隠蔽した反ファクト画像からなる新しいベンチマークPOPEv2を提案する。
現在のLVLMはトレーニングバイアスに悩まされており、トレーニングデータを完全に活用できず、トレーニング中に見られる画像に対してより頻繁に幻覚を与えることができません。
Obliviateは,学習バイアスアンラーニングによる物体幻覚の軽減を目的とした,効率的で軽量な未学習手法である。
論文 参考訳(メタデータ) (2025-08-06T15:51:02Z) - Aligning Modalities in Vision Large Language Models via Preference
Fine-tuning [67.62925151837675]
本研究では,幻覚の問題をアライメント問題とみなし,好みのチューニングで対処する。
具体的には,AIモデルを用いたフィードバックデータを生成するPOVIDを提案する。
提案手法は,好ましくないデータを生成するための2段階のアプローチである。
広範ベンチマークを用いた実験では、幻覚を減らすだけでなく、標準ベンチマークでのモデル性能を向上させることができ、従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-02-18T00:56:16Z) - Déjà Vu Memorization in Vision-Language Models [39.51189095703773]
視覚言語モデル(VLM)における記憶量測定のための新しい手法を提案する。
モデルでは、相関や画像キャプションから推測できる範囲を超えて、トレーニング画像中の個々のオブジェクトに関する情報が実際に保持されていることを示す。
サンプルおよび集団レベルでのd'eja vuメモリ化を評価し,最大5000万枚の画像キャプチャーペアで訓練したOpenCLIPにとって重要であることを示す。
論文 参考訳(メタデータ) (2024-02-03T09:55:35Z) - Distributional Inclusion Hypothesis and Quantifications: Probing for
Hypernymy in Functional Distributional Semantics [50.363809539842386]
関数分布意味論(FDS)は、真理条件関数による単語の意味をモデル化する。
FDSモデルは分布包含仮説(DIH)に厳格に従う制限されたコーパスのクラスでハイパーネミーを学ぶことを示す。
論文 参考訳(メタデータ) (2023-09-15T11:28:52Z) - Visual Spatial Reasoning [35.5155400193075]
66種類の空間的関係を持つ10k以上の自然なテキストイメージ対を含むデータセットを英語で提示する。
このデータセットは,参照フレームの変動など,難易度の高い言語現象を含むことを示す。
人間の天井は95%以上であり、最先端モデルは70%程度しか達成できない。
論文 参考訳(メタデータ) (2022-04-30T23:03:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。