論文の概要: Towards Understanding Ambiguity Resolution in Multimodal Inference of Meaning
- arxiv url: http://arxiv.org/abs/2510.09815v1
- Date: Fri, 10 Oct 2025 19:29:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.634993
- Title: Towards Understanding Ambiguity Resolution in Multimodal Inference of Meaning
- Title(参考訳): 意味のマルチモーダル推論におけるあいまいさ解決の理解に向けて
- Authors: Yufei Wang, Adriana Kovashka, Loretta Fernández, Marc N. Coutanche, Seth Wiener,
- Abstract要約: 我々は、異なる画像テキストペアを用いて、人間の被験者と研究を行う。
参加者がマスキングや不慣れな単語の意味を推測しやすくするデータの特徴を分析する。
参加者のパフォーマンスと強い相関関係を持つ直感的な特徴しか見つからない。
- 参考スコア(独自算出の注目度): 22.074331642366698
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate a new setting for foreign language learning, where learners infer the meaning of unfamiliar words in a multimodal context of a sentence describing a paired image. We conduct studies with human participants using different image-text pairs. We analyze the features of the data (i.e., images and texts) that make it easier for participants to infer the meaning of a masked or unfamiliar word, and what language backgrounds of the participants correlate with success. We find only some intuitive features have strong correlations with participant performance, prompting the need for further investigating of predictive features for success in these tasks. We also analyze the ability of AI systems to reason about participant performance, and discover promising future directions for improving this reasoning ability.
- Abstract(参考訳): 本研究では,対画像を記述する文のマルチモーダル文脈において,未知語の意味を学習者が推測する新たな外国語学習環境について検討する。
我々は、異なる画像テキストペアを用いて、人間の被験者と研究を行う。
我々は、参加者がマスクされた単語や見慣れない単語の意味を推測しやすくするデータの特徴(画像やテキストなど)を分析し、参加者の言語背景が成功と相関することを示す。
いくつかの直感的な特徴が参加者のパフォーマンスと強い相関関係があることに気付き、これらのタスクを成功させるための予測的特徴のさらなる調査の必要性が示唆された。
また、AIシステムが参加者のパフォーマンスを推論する能力を分析し、この推論能力を改善するための将来的な方向性を見出す。
関連論文リスト
- Learning Co-Speech Gesture Representations in Dialogue through Contrastive Learning: An Intrinsic Evaluation [4.216085185442862]
対面対話では, 文脈的要因によって, 話し言葉の形式的意味の関係が変化する。
ジェスチャーの多様性と音声との関係を考慮した意味あるジェスチャー表現の学習法
本稿では,自己指導型コントラスト学習技術を用いて,骨格情報と音声情報からジェスチャー表現を学習する。
論文 参考訳(メタデータ) (2024-08-31T08:53:18Z) - Integrating Language-Derived Appearance Elements with Visual Cues in Pedestrian Detection [51.66174565170112]
本研究では,大言語モデルの強みを文脈的外見の変化の理解に活用するための新しいアプローチを提案する。
本稿では,言語由来の外観要素を定式化し,歩行者検出に視覚的手がかりを取り入れることを提案する。
論文 参考訳(メタデータ) (2023-11-02T06:38:19Z) - TExplain: Explaining Learned Visual Features via Pre-trained (Frozen) Language Models [14.019349267520541]
本稿では,事前学習した画像分類器の学習特徴を解釈するために,言語モデルの能力を活用する新しい手法を提案する。
提案手法は,与えられた画像の分類器によって学習された特徴を説明するために,膨大な数の文を生成する。
提案手法は,視覚表現に対応する頻繁な単語を初めて利用し,意思決定プロセスに関する洞察を提供する。
論文 参考訳(メタデータ) (2023-09-01T20:59:46Z) - Exploring Affordance and Situated Meaning in Image Captions: A
Multimodal Analysis [1.124958340749622]
Flickr30kデータセットのイメージに5つの知覚特性(Affordance, Perceptual Salience, Object Number, Cue Gazeing, Ecological Niche Association (ENA))を付加した注釈を付ける。
以上の結果より,ギブソニアの空白画像は,テコールの空白画像と比較して,「保持動詞」と「コンテナ名詞」を含む字幕の頻度が高いことが明らかとなった。
論文 参考訳(メタデータ) (2023-05-24T01:30:50Z) - Learning Transferable Pedestrian Representation from Multimodal
Information Supervision [174.5150760804929]
VAL-PATは、移動可能な表現を学習し、様々な歩行者分析タスクをマルチモーダル情報で強化する新しいフレームワークである。
まず、LUPerson-TAデータセットで事前トレーニングを行い、各画像にはテキストと属性アノテーションが含まれている。
次に、学習した表現を、人物のreID、人物属性認識、テキストベースの人物検索など、さまざまな下流タスクに転送する。
論文 参考訳(メタデータ) (2023-04-12T01:20:58Z) - Universal Multimodal Representation for Language Understanding [110.98786673598015]
本研究は,一般的なNLPタスクの補助信号として視覚情報を利用する新しい手法を提案する。
各文に対して、まず、既存の文-画像ペア上で抽出された軽トピック-画像検索テーブルから、フレキシブルな画像を検索する。
そして、テキストと画像はそれぞれトランスフォーマーエンコーダと畳み込みニューラルネットワークによって符号化される。
論文 参考訳(メタデータ) (2023-01-09T13:54:11Z) - From Show to Tell: A Survey on Image Captioning [48.98681267347662]
視覚と言語を結びつけることは、ジェネレーティブ・インテリジェンスにおいて重要な役割を担っている。
画像キャプションの研究はまだ結論に達していない。
本研究の目的は,画像キャプション手法の包括的概要と分類を提供することである。
論文 参考訳(メタデータ) (2021-07-14T18:00:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。