論文の概要: Bridging Lexical Ambiguity and Vision: A Mini Review on Visual Word Sense Disambiguation
- arxiv url: http://arxiv.org/abs/2602.01193v1
- Date: Sun, 01 Feb 2026 12:36:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.653363
- Title: Bridging Lexical Ambiguity and Vision: A Mini Review on Visual Word Sense Disambiguation
- Title(参考訳): Bridging Lexical Ambiguity and Vision: A Mini Review on Visual Word Sense Disambiguation (英語)
- Authors: Shashini Nilukshi, Deshan Sumanathilaka,
- Abstract要約: Visual Word Sense Disambiguationは、視覚言語タスクにおける語彙的曖昧性に取り組むのに役立つ。
VWSDは、最小のテキスト入力で曖昧な単語の正しい意味を見つけるために視覚的手がかりを使用する。
2016年から2025年にかけての研究では、特徴ベース、グラフベース、コントラスト埋め込み技術によるVWSDの成長について検討した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper offers a mini review of Visual Word Sense Disambiguation (VWSD), which is a multimodal extension of traditional Word Sense Disambiguation (WSD). VWSD helps tackle lexical ambiguity in vision-language tasks. While conventional WSD depends only on text and lexical resources, VWSD uses visual cues to find the right meaning of ambiguous words with minimal text input. The review looks at developments from early multimodal fusion methods to new frameworks that use contrastive models like CLIP, diffusion-based text-to-image generation, and large language model (LLM) support. Studies from 2016 to 2025 are examined to show the growth of VWSD through feature-based, graph-based, and contrastive embedding techniques. It focuses on prompt engineering, fine-tuning, and adapting to multiple languages. Quantitative results show that CLIP-based fine-tuned models and LLM-enhanced VWSD systems consistently perform better than zero-shot baselines, achieving gains of up to 6-8\% in Mean Reciprocal Rank (MRR). However, challenges still exist, such as limitations in context, model bias toward common meanings, a lack of multilingual datasets, and the need for better evaluation frameworks. The analysis highlights the growing overlap of CLIP alignment, diffusion generation, and LLM reasoning as the future path for strong, context-aware, and multilingual disambiguation systems.
- Abstract(参考訳): 本稿では,従来のWord Sense Disambiguation(WSD)のマルチモーダル拡張であるVisual Word Sense Disambiguation(VWSD)のミニレビューを行う。
VWSDは視覚言語タスクの語彙的曖昧さに対処するのに役立つ。
従来のWSDはテキストと語彙のリソースにのみ依存するが、VWSDは最小のテキスト入力で曖昧な単語の正しい意味を見つけるために視覚的手がかりを使用する。
レビューでは、初期のマルチモーダルフュージョンメソッドから、CLIPのような対照的なモデル、拡散ベースのテキスト・ツー・イメージ生成、大規模言語モデル(LLM)をサポートする新しいフレームワークまでの開発について検討している。
2016年から2025年にかけての研究では、特徴ベース、グラフベース、コントラスト埋め込み技術によるVWSDの成長について検討した。
プロンプトエンジニアリング、微調整、複数の言語への適応に焦点を当てている。
定量的結果から,CLIPをベースとした微調整モデルとLLM強化VWSDシステムはゼロショットベースラインよりも一貫して優れた性能を示し,平均相反ランク (MRR) において最大6~8倍の利得を得た。
しかし、コンテキストの制限、共通の意味に対するモデル偏見、多言語データセットの欠如、より良い評価フレームワークの必要性など、課題はまだ残っている。
この分析は、CLIPアライメント、拡散生成、LLM推論の重なり合いが、強い、コンテキスト認識、多言語的曖昧化システムの将来の経路として強調されている。
関連論文リスト
- PENDULUM: A Benchmark for Assessing Sycophancy in Multimodal Large Language Models [43.767942065379366]
サイコファシー(英: Sycophancy)は、AIモデルが実際の正確さや視覚的証拠の矛盾を犠牲にしてユーザー入力に同意する傾向である。
約2000組の視覚質問応答対からなる総合評価ベンチマーク「textitPENDULUM」を導入する。
本研究は, モデルロバスト性およびサイコファンおよび幻覚行動に対する感受性の顕著な変動を観察する。
論文 参考訳(メタデータ) (2025-12-22T12:49:12Z) - Rethinking the Text-Vision Reasoning Imbalance in MLLMs through the Lens of Training Recipes [54.374410871041164]
MLLM(Multimodal large language model)は、視覚・言語タスクにおいて強力な機能を示す。
近年の研究では、視覚的・テキスト的モダリティ間の推論能力の不均衡が指摘されている。
我々は、この現象を、テキスト中心と視覚中心の入力のパフォーマンス格差として定義される、テクティモダリティギャップと呼ぶ。
論文 参考訳(メタデータ) (2025-10-26T21:06:13Z) - ViLa-MIL: Dual-scale Vision-Language Multiple Instance Learning for Whole Slide Image Classification [52.405499816861635]
多重インスタンス学習(MIL)ベースのフレームワークは、スライド画像全体(WSI)を処理する上で主流になっている。
スライド画像全体の分類のための2次元視覚言語多言語学習(ViLa-MIL)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-12T13:28:46Z) - CODIS: Benchmarking Context-Dependent Visual Comprehension for Multimodal Large Language Models [58.95889895912716]
我々は、自由形式のテキストで提供されるコンテキストを用いて視覚的理解を高めるモデルの有効性を評価するために、CODISと名付けられた新しいベンチマークを導入する。
以上の結果から,MLLMは必ずしも人体性能に劣っていることが示唆された。
このことは、MLLMが視覚を文脈依存的に理解する能力を高めることの必要性を浮き彫りにする。
論文 参考訳(メタデータ) (2024-02-21T08:21:12Z) - Large Language Models and Multimodal Retrieval for Visual Word Sense
Disambiguation [1.8591405259852054]
Visual Word Sense Disambiguation (VWSD)は、候補者の中から画像を取得することを目的とした、新しい課題である。
本稿では、様々なアプローチを適用することで、この興味深い課題を明らかにするための大きな一歩を踏み出す。
論文 参考訳(メタデータ) (2023-10-21T14:35:42Z) - A Multi-Modal Context Reasoning Approach for Conditional Inference on
Joint Textual and Visual Clues [23.743431157431893]
共同文と視覚的手がかりの条件推論は多モーダル推論タスクである。
我々はModCRというマルチモーダルコンテキスト推論手法を提案する。
2つの対応するデータセットに対して広範囲な実験を行い、実験結果により性能が大幅に向上した。
論文 参考訳(メタデータ) (2023-05-08T08:05:40Z) - DiMBERT: Learning Vision-Language Grounded Representations with
Disentangled Multimodal-Attention [101.99313208598569]
視覚と言語(V-L)タスクは、視覚内容と自然言語の両方を理解する必要がある。
視覚と言語に対する注意空間を分離したDiMBERT(Disentangled Multimodal-Attention BERT)を提案する。
DiMBERTは3つのタスクに対して最新のパフォーマンスを新たに設定する。
論文 参考訳(メタデータ) (2022-10-28T23:00:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。