論文の概要: Same Image, Different Meanings: Toward Retrieval of Context-Dependent Meanings
- arxiv url: http://arxiv.org/abs/2605.12905v1
- Date: Wed, 13 May 2026 02:31:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:27.763626
- Title: Same Image, Different Meanings: Toward Retrieval of Context-Dependent Meanings
- Title(参考訳): 同じイメージと異なる意味:文脈依存的意味の検索に向けて
- Authors: Ayuto Tsutsumi, Ryosuke Kohita,
- Abstract要約: 画像意味の文脈依存性とその検索への応用について検討する。
キーとなる観察は、コンテキスト依存はセマンティックな抽象化と相関しているということだ。
我々はこれをL1-L4フレームワークとして運用し、文脈非依存(L1)から最大文脈依存(L4)までのイメージセマンティクスを編成する。
- 参考スコア(独自算出の注目度): 2.9320341537404713
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: A scene of two people in the rain can convey hope and warmth in a reunion story or sorrow and finality in a farewell story. We investigate this context-dependent nature of image meaning and its implications for retrieval. Our key observation is that context dependency correlates with semantic abstraction: concrete elements (objects, actions) remain stable across contexts, while abstract elements (atmosphere, intent) shift with context. We operationalize this as the L1--L4 framework, organizing image semantics from context-independent (L1) to maximally context-dependent (L4). Using synthetic story contexts and queries for controlled evaluation, we examine how injecting narrative context into embeddings affects retrieval across abstraction levels. Concrete queries are retrievable without context, while abstract levels increasingly depend on narrative grounding. Where context is injected also matters, with image-side enrichment proving particularly effective. The most abstract level, however, remains challenging even with full context, highlighting context-dependent image retrieval as an important open problem. Our framework and findings lay groundwork toward retrieval systems that handle the context-dependent meanings images acquire in narrative settings.
- Abstract(参考訳): 雨の中の2人のシーンは、再会の物語や悲しみ、別れの物語で希望と暖かさを伝えることができます。
画像意味の文脈依存性とその検索への応用について検討する。
具体的な要素(オブジェクト、アクション)はコンテキスト全体にわたって安定し、抽象要素(雰囲気、意図)はコンテキストとともにシフトします。
我々はこれをL1-L4フレームワークとして運用し、文脈非依存(L1)から最大文脈依存(L4)までのイメージセマンティクスを整理する。
合成ストーリーコンテキストとクエリを制御した評価に用いることで,物語コンテキストを埋め込みに注入すると,抽象レベルを越えた検索がどう影響するかを考察する。
具体的クエリは文脈なしで検索可能であり、抽象レベルは物語のグラウンドにますます依存する。
文脈が注入される場合も重要であり、画像側のエンリッチメントは特に有効である。
しかし、最も抽象的なレベルは、コンテキストに依存した画像検索を重要なオープン問題として強調しながら、完全なコンテキストであっても依然として困難である。
筆者らの枠組みと知見は,ナラティブ・セッティングで取得した画像の文脈依存的な意味を扱う検索システムに基礎を置いている。
関連論文リスト
- Floating or Suggesting Ideas? A Large-Scale Contrastive Analysis of Metaphorical and Literal Verb-Object Constructions [53.690096725532726]
本研究では,2Mコーパス文中の297の英語動詞オブジェクト対(例:float idea vs. suggest idea)を分析した。
5つのNLPツールを用いて,感情的,語彙的,統語的,言論的な特徴を捉えた認知的・言語的特徴2,293点を抽出した。
クロスペアの結果は, 語彙頻度, 凝集度, 構造規則性が高く, 比喩的文脈は感情負荷, イメージ性, 語彙多様性, 構造的特異性を示す。
論文 参考訳(メタデータ) (2026-04-09T14:08:57Z) - Disentangling to Re-couple: Resolving the Similarity-Controllability Paradox in Subject-Driven Text-to-Image Generation [38.61976178933174]
視覚情報とテキスト情報を再結合するフレームワークであるDisCoを提案する。
提案手法はパラドックスを効果的に解決し,高忠実度被写体保存と正確なテキスト制御を同時に実現する。
論文 参考訳(メタデータ) (2026-04-01T13:03:11Z) - VLLMs Provide Better Context for Emotion Understanding Through Common Sense Reasoning [66.23296689828152]
我々は、視覚・言語モデルの機能を活用し、文脈内感情分類を強化する。
まず、VLLMに対して、視覚的文脈に関連して、被験者の明らかな感情を自然言語で記述するように促す。
第二に、記述は視覚入力とともに、トランスフォーマーベースのアーキテクチャのトレーニングに使用される。
論文 参考訳(メタデータ) (2024-04-10T15:09:15Z) - Exploring Affordance and Situated Meaning in Image Captions: A
Multimodal Analysis [1.124958340749622]
Flickr30kデータセットのイメージに5つの知覚特性(Affordance, Perceptual Salience, Object Number, Cue Gazeing, Ecological Niche Association (ENA))を付加した注釈を付ける。
以上の結果より,ギブソニアの空白画像は,テコールの空白画像と比較して,「保持動詞」と「コンテナ名詞」を含む字幕の頻度が高いことが明らかとなった。
論文 参考訳(メタデータ) (2023-05-24T01:30:50Z) - Knowledge Mining with Scene Text for Fine-Grained Recognition [53.74297368412834]
本研究では,シーンテキスト画像の背景にある暗黙的な文脈知識をマイニングする,エンドツーエンドのトレーニング可能なネットワークを提案する。
我々は,KnowBertを用いて意味表現の関連知識を検索し,それを画像特徴と組み合わせ,きめ細かい分類を行う。
本手法は,3.72%のmAPと5.39%のmAPをそれぞれ上回っている。
論文 参考訳(メタデータ) (2022-03-27T05:54:00Z) - Do Context-Aware Translation Models Pay the Right Attention? [61.25804242929533]
コンテキスト対応機械翻訳モデルは文脈情報を活用するように設計されているが、しばしば失敗する。
本稿では,人間の翻訳者が曖昧な単語を解くために使用する文脈について述べる。
SCAT(Supporting Context for Ambiguous Translations)は、14K翻訳のコンテキストワードをサポートする新しい英仏データセットです。
SCATを用いて,支援語の位置的特徴と語彙的特徴をあいまいにするために使用される文脈を詳細に分析する。
論文 参考訳(メタデータ) (2021-05-14T17:32:24Z) - Decontextualization: Making Sentences Stand-Alone [13.465459751619818]
質問応答、対話エージェント、要約のモデルは、しばしばリッチな文脈で文の意味を解釈する。
キーピースはローカルウィンドウで明示されない可能性があるため、テキストの抜粋を取ることは問題となる可能性がある。
文の非文脈化(decontextualization)の問題は、文を文脈とともに取り、文脈から解釈できるように書き換えることである。
論文 参考訳(メタデータ) (2021-02-09T22:52:37Z) - Grounded and Controllable Image Completion by Incorporating Lexical
Semantics [111.47374576372813]
Lexical Semantic Image Completion (LSIC)は、芸術、デザイン、遺産保護に潜在的な応用をもたらす可能性がある。
視覚的文脈と語彙的文脈の両方に忠実な結果を生成することを提唱する。
LSICの大きな課題の1つは、ビジュアル・セマンティック・コンテキストの構造をモデル化し整合させることである。
論文 参考訳(メタデータ) (2020-02-29T16:54:21Z) - A Deep Neural Framework for Contextual Affect Detection [51.378225388679425]
感情を持たない短い単純なテキストは、その文脈と共に読むときに強い感情を表現することができる。
文中の単語の相互依存を学習する文脈影響検出フレームワークを提案する。
論文 参考訳(メタデータ) (2020-01-28T05:03:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。