論文の概要: Visual Lifelog Retrieval through Captioning-Enhanced Interpretation
- arxiv url: http://arxiv.org/abs/2510.04010v1
- Date: Sun, 05 Oct 2025 03:00:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.393446
- Title: Visual Lifelog Retrieval through Captioning-Enhanced Interpretation
- Title(参考訳): キャプション強化解釈によるビジュアルライフログ検索
- Authors: Yu-Fei Shih, An-Zi Yen, Hen-Hsen Huang, Hsin-Hsi Chen,
- Abstract要約: 本稿では,ユーザの視覚的ライフログから画像を抽出するキャプション・インテグレート・ビジュアル・ライフログ(CIVIL)検索システムを提案する。
従来の埋め込み方式とは異なり,本システムはまずビジュアルライフログのキャプションを生成し,テキスト埋め込みモデルを用いて,キャプションとユーザクエリの両方を共有ベクトル空間に投影する。
- 参考スコア(独自算出の注目度): 26.095033653513
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: People often struggle to remember specific details of past experiences, which can lead to the need to revisit these memories. Consequently, lifelog retrieval has emerged as a crucial application. Various studies have explored methods to facilitate rapid access to personal lifelogs for memory recall assistance. In this paper, we propose a Captioning-Integrated Visual Lifelog (CIVIL) Retrieval System for extracting specific images from a user's visual lifelog based on textual queries. Unlike traditional embedding-based methods, our system first generates captions for visual lifelogs and then utilizes a text embedding model to project both the captions and user queries into a shared vector space. Visual lifelogs, captured through wearable cameras, provide a first-person viewpoint, necessitating the interpretation of the activities of the individual behind the camera rather than merely describing the scene. To address this, we introduce three distinct approaches: the single caption method, the collective caption method, and the merged caption method, each designed to interpret the life experiences of lifeloggers. Experimental results show that our method effectively describes first-person visual images, enhancing the outcomes of lifelog retrieval. Furthermore, we construct a textual dataset that converts visual lifelogs into captions, thereby reconstructing personal life experiences.
- Abstract(参考訳): 人々はしばしば過去の経験の特定の詳細を思い出すのに苦労し、これらの記憶を再考する必要がある。
その結果、ライフログ検索が重要な応用として浮上した。
メモリリコール支援のためのライフログの迅速なアクセスを容易にする手法について,様々な研究がなされている。
本稿では,テキストクエリに基づいてユーザの視覚的ライフログから特定のイメージを抽出するキャプション・インテグレート・ビジュアル・ライフログ(CIVIL)検索システムを提案する。
従来の埋め込み方式とは異なり,本システムはまずビジュアルライフログのキャプションを生成し,テキスト埋め込みモデルを用いて,キャプションとユーザクエリの両方を共有ベクトル空間に投影する。
ウェアラブルカメラで捉えたビジュアルライフログは、シーンを単に記述するのではなく、カメラの後ろの個人の活動の解釈を必要とする、一対一の視点を提供する。
そこで本研究では,一字幕法,一字幕法,一字幕法,統合字幕法という,ライフブロガーの生活経験を解釈するための3つのアプローチを提案する。
実験結果から,本手法は視覚画像を効果的に表現し,ライフログ検索の結果をより高めることが示唆された。
さらに,視覚的なライフログをキャプションに変換し,個人の生活体験を再構築するテキストデータセットを構築した。
関連論文リスト
- SAVER: Mitigating Hallucinations in Large Vision-Language Models via Style-Aware Visual Early Revision [59.61988843996952]
Style-Aware Visual Early Revision SAVERはトークンレベルの視覚的注意パターンに基づいてLVLMの最終出力を動的に調整する新しいメカニズムである。
我々は,SAVERが様々なモデル,データセット,タスクの幻覚緩和において,最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2025-08-05T07:41:25Z) - Personalized OVSS: Understanding Personal Concept in Open-Vocabulary Semantic Segmentation [59.047277629795325]
テキスト・パーソナライズされたオープン語彙セマンティックセマンティック・セグメンテーション」という新しいタスクを導入する。
数組のイメージとマスクを用いて、個人的視覚概念を認識するためのテキストプロンプトチューニングベースのプラグイン手法を提案する。
我々は、個人概念の視覚的埋め込みを注入することで、テキストプロンプトの表現を豊かにすることで、パフォーマンスをさらに向上する。
論文 参考訳(メタデータ) (2025-07-15T06:51:07Z) - LifeIR at the NTCIR-18 Lifelog-6 Task [7.029612431665877]
NTCIR-18 Lifelog-6 Challengeのライフログセマンティックアクセスタスク(LSAT)は、大規模なユーザのライフログから関連画像を取得することに焦点を当てている。
本稿では,ライフログ検索における様々な課題に対処するため,テキストを用いて画像検索を行うための多段階パイプラインを提案する。
論文 参考訳(メタデータ) (2025-05-27T10:21:57Z) - Imagining from Images with an AI Storytelling Tool [0.27309692684728604]
提案手法は,GPT-4oの視覚的コンテンツを解釈し,エンゲージメントなストーリーを作成するためのマルチモーダル機能について検討する。
この方法はImageTellerと呼ばれる完全に実装されたツールでサポートされており、様々なソースからのイメージを入力として受け入れる。
論文 参考訳(メタデータ) (2024-08-21T10:49:15Z) - You'll Never Walk Alone: A Sketch and Text Duet for Fine-Grained Image Retrieval [120.49126407479717]
事前学習したCLIPモデルを用いて,スケッチとテキストを効果的に組み合わせた新しい構成性フレームワークを提案する。
我々のシステムは、合成画像検索、ドメイン転送、きめ細かい生成における新しい応用にまで拡張する。
論文 参考訳(メタデータ) (2024-03-12T00:27:18Z) - TExplain: Explaining Learned Visual Features via Pre-trained (Frozen) Language Models [14.019349267520541]
本稿では,事前学習した画像分類器の学習特徴を解釈するために,言語モデルの能力を活用する新しい手法を提案する。
提案手法は,与えられた画像の分類器によって学習された特徴を説明するために,膨大な数の文を生成する。
提案手法は,視覚表現に対応する頻繁な単語を初めて利用し,意思決定プロセスに関する洞察を提供する。
論文 参考訳(メタデータ) (2023-09-01T20:59:46Z) - Text-Only Training for Visual Storytelling [107.19873669536523]
視覚条件付きストーリー生成問題として視覚的ストーリーテリングを定式化する。
本稿では,モダリティ間のアライメントとストーリー生成の学習を分離するテキストのみのトレーニング手法を提案する。
論文 参考訳(メタデータ) (2023-08-17T09:32:17Z) - Style-Aware Contrastive Learning for Multi-Style Image Captioning [36.1319565907582]
我々は、スタイルに関連のある潜在的な視覚コンテンツをマイニングするために、コントラスト学習を備えたスタイル認識型ビジュアルエンコーダを提案する。
また、画像、スタイル、キャプションが一致したかどうかを識別するために、スタイル対応のコントラスト目標を提案する。
実験により,本手法が最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2023-01-26T19:21:39Z) - Visually-augmented pretrained language models for NLP tasks without
images [77.74849855049523]
既存のソリューションはしばしば視覚的知識増強のために明示的なイメージに依存している。
我々は、新しいtextbfVisually-textbfAugmented fine-tuningアプローチを提案する。
我々のアプローチは、BERT、RoBERTa、BART、T5を異なるスケールで継続的に改善することができる。
論文 参考訳(メタデータ) (2022-12-15T16:13:25Z) - Telling the What while Pointing the Where: Fine-grained Mouse Trace and
Language Supervision for Improved Image Retrieval [60.24860627782486]
きめ細かい画像検索は、しばしば、探しているコンテンツがどこにあるかを表現する能力を必要とする。
本稿では,ユーザが音声自然言語(“What”)とマウスが空のキャンバス(“where”)にトレースした画像を同時に記述する画像検索装置について述べる。
我々のモデルは、この空間的ガイダンスを考慮に入れ、テキストのみの等価システムと比較して、より正確な検索結果を提供する。
論文 参考訳(メタデータ) (2021-02-09T17:54:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。