論文の概要: LifeIR at the NTCIR-18 Lifelog-6 Task
- arxiv url: http://arxiv.org/abs/2505.20987v1
- Date: Tue, 27 May 2025 10:21:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 01:49:06.725869
- Title: LifeIR at the NTCIR-18 Lifelog-6 Task
- Title(参考訳): NTCIR-18 Lifelog-6 タスクにおけるLifeIR
- Authors: Jiahan Chen, Da Li, Keping Bi,
- Abstract要約: NTCIR-18 Lifelog-6 Challengeのライフログセマンティックアクセスタスク(LSAT)は、大規模なユーザのライフログから関連画像を取得することに焦点を当てている。
本稿では,ライフログ検索における様々な課題に対処するため,テキストを用いて画像検索を行うための多段階パイプラインを提案する。
- 参考スコア(独自算出の注目度): 7.029612431665877
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, sharing lifelogs recorded through wearable devices such as sports watches and GoPros, has gained significant popularity. Lifelogs involve various types of information, including images, videos, and GPS data, revealing users' lifestyles, dietary patterns, and physical activities. The Lifelog Semantic Access Task(LSAT) in the NTCIR-18 Lifelog-6 Challenge focuses on retrieving relevant images from a large scale of users' lifelogs based on textual queries describing an action or event. It serves users' need to find images about a scenario in the historical moments of their lifelogs. We propose a multi-stage pipeline for this task of searching images with texts, addressing various challenges in lifelog retrieval. Our pipeline includes: filtering blurred images, rewriting queries to make intents clearer, extending the candidate set based on events to include images with temporal connections, and reranking results using a multimodal large language model(MLLM) with stronger relevance judgment capabilities. The evaluation results of our submissions have shown the effectiveness of each stage and the entire pipeline.
- Abstract(参考訳): 近年、スポーツウォッチやGoProなどのウェアラブルデバイスで記録されたライフログの共有が人気を集めている。
ライフログには、画像、ビデオ、GPSデータなど、さまざまな種類の情報が含まれており、ユーザのライフスタイル、食事パターン、身体活動を明らかにしている。
NTCIR-18 Lifelog-6 Challengeのライフログセマンティックアクセスタスク(LSAT)は、アクションやイベントを記述するテキストクエリに基づいて、大規模なユーザのライフログから関連するイメージを取得することに焦点を当てている。
ユーザーは、ライフログの歴史的瞬間にシナリオに関するイメージを見つける必要がある。
本稿では,ライフログ検索における様々な課題に対処するため,テキストを用いて画像検索を行うための多段階パイプラインを提案する。
我々のパイプラインは、ぼやけた画像のフィルタリング、意図を明確にするためのクエリの書き直し、時間的つながりのある画像を含むイベントに基づいた候補セットの拡張、より強い関連性判定機能を備えたマルチモーダル大言語モデル(MLLM)による結果の再評価を含む。
提案手法の評価結果は,各ステージとパイプライン全体の有効性を示した。
関連論文リスト
- Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - Harnessing Temporal Causality for Advanced Temporal Action Detection [53.654457142657236]
本稿では,因果的注意と因果的マンバを組み合わせたCausalTADを提案する。
Ego4D Challenge 2024では,EPIC-Kitchens Challenge 2024では行動認識,行動検出,音声によるインタラクション検出トラックで1位,Ego4D Challenge 2024ではMoment Queriesトラックで1位にランクインした。
論文 参考訳(メタデータ) (2024-07-25T06:03:02Z) - Losing Visual Needles in Image Haystacks: Vision Language Models are Easily Distracted in Short and Long Contexts [65.04791072532106]
視覚言語モデル(VLM)における長文抽出推論評価のためのベンチマークジェネレータであるLoCoVQAを提案する。
LoCoVQAは、数学的推論、VQA、そしてより長い視覚的コンテキストを持つ文字認識タスクのテスト例を拡張している。
このテストは、VLMがクエリに応答する際の無関係な情報をどの程度無視できるかを評価する。
論文 参考訳(メタデータ) (2024-06-24T17:58:03Z) - Multimodal Needle in a Haystack: Benchmarking Long-Context Capability of Multimodal Large Language Models [10.41857522464292]
本稿では,MultiModal Needle-in-a-haystack(MMNeedle)ベンチマークを導入する。
画像ステッチを用いて、入力コンテキスト長をさらに増加させ、サブイメージレベルの検索のためのラベルを自動的に生成するプロトコルを開発する。
我々は、APIベースモデルとオープンソースモデルの両方を含む最先端のMLLMを評価した。
論文 参考訳(メタデータ) (2024-06-17T05:54:06Z) - TimelineQA: A Benchmark for Question Answering over Timelines [22.931761248196363]
ライフログ(Lifelog)とは、人生で経験した経験を記述したものである。
Lifelogsは、コンテキスト内でアドバイスを提供しようとするときに、パーソナルアシスタントに重要なリソースを提供することができる。
ライフログのクエリの進捗を加速するベンチマークであるTimelineQA1を作成した。
論文 参考訳(メタデータ) (2023-06-01T18:17:13Z) - LED: A Dataset for Life Event Extraction from Dialogs [57.390999707053915]
ライフログは、パーソナライズされたレコメンデーションやメモリアシストなど、幅広い用途で注目を集めている。
Life Event Dialogは、会話データに詳細なライフイベントアノテーションを含むデータセットである。
本稿では,対話型ライフイベント抽出課題に対処するための3つの情報抽出(IE)フレームワークについて検討する。
論文 参考訳(メタデータ) (2023-04-17T14:46:59Z) - A DICOM Framework for Machine Learning Pipelines against Real-Time
Radiology Images [50.222197963803644]
Nifflerは、研究クラスタでの機械学習パイプラインの実行を可能にする統合フレームワークである。
ニフラーはDigital Imaging and Communications in Medicine (DICOM)プロトコルを使用して画像データの取得と保存を行っている。
我々は,そのアーキテクチャと3つのユースケースを提示する: リアルタイムに画像から下大静脈フィルターを検出すること,スキャナ利用の同定,およびスキャナクロックの校正。
論文 参考訳(メタデータ) (2020-04-16T21:06:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。