Fugu-MT 論文翻訳(概要): A Benchmark and Knowledge-Grounded Framework for Advanced Multimodal Personalization Study

論文の概要: A Benchmark and Knowledge-Grounded Framework for Advanced Multimodal Personalization Study

arxiv url: http://arxiv.org/abs/2602.19001v1
Date: Sun, 22 Feb 2026 01:44:16 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-24 17:42:02.43853
Title: A Benchmark and Knowledge-Grounded Framework for Advanced Multimodal Personalization Study
Title（参考訳）: 高度なマルチモーダルパーソナライゼーション研究のためのベンチマークと知識収集フレームワーク
Authors: Xia Hu, Honglei Zhuang, Brian Potetz, Alireza Fathi, Bo Hu, Babak Samari, Howard Zhou,
Abstract要約: シミュレーションされたデジタルフットプリント上に構築された総合的,合成的に生成されたマルチモーダルベンチマークであるLife-Benchを紹介する。 LifeGraphは、個人コンテキストを知識グラフに整理し、構造化された検索と推論を容易にするエンドツーエンドのフレームワークである。
参考スコア（独自算出の注目度）: 32.67773419521083
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: The powerful reasoning of modern Vision Language Models open a new frontier for advanced personalization study. However, progress in this area is critically hampered by the lack of suitable benchmarks. To address this gap, we introduce Life-Bench, a comprehensive, synthetically generated multimodal benchmark built on simulated user digital footprints. Life-Bench features over questions evaluating a wide spectrum of capabilities, from persona understanding to complex reasoning over historical data. These capabilities expand far beyond prior benchmarks, reflecting the critical demands essential for real-world applications. Furthermore, we propose LifeGraph, an end-to-end framework that organizes personal context into a knowledge graph to facilitate structured retrieval and reasoning. Our experiments on Life-Bench reveal that existing methods falter significantly on complex personalized tasks, exposing a large performance headroom, especially in relational, temporal and aggregative reasoning. While LifeGraph closes this gap by leveraging structured knowledge and demonstrates a promising direction, these advanced personalization tasks remain a critical open challenge, motivating new research in this area.
Abstract（参考訳）: 現代のビジョン言語モデルの強力な推論は、高度なパーソナライゼーション研究のための新たなフロンティアを開く。しかし、この領域の進歩は適切なベンチマークの欠如によって著しく妨げられている。このギャップに対処するために、シミュレーションされたユーザデジタルフットプリント上に構築された総合的に合成されたマルチモーダルベンチマークであるLife-Benchを紹介する。 Life-Benchは、ペルソナの理解から、歴史的データに対する複雑な推論まで、幅広い範囲の能力を評価する質問に特化している。これらの機能は以前のベンチマークをはるかに越え、現実世界のアプリケーションに必要な重要な要求を反映している。さらに、構造化検索と推論を容易にするために、個人コンテキストを知識グラフに整理するエンド・ツー・エンドのフレームワークであるLifeGraphを提案する。私たちのLife-Benchの実験では、既存の手法は複雑なパーソナライズされたタスクに大きく焦点を合わせ、特にリレーショナル、時間的、集約的な推論において大きなパフォーマンスのヘッドルームを露出させます。 LifeGraphはこのギャップを、構造化された知識を活用して解決し、有望な方向性を示す一方で、これらの高度なパーソナライゼーションタスクは依然として重要なオープンチャレンジであり、この分野における新たな研究の動機となっている。

関連論文リスト

DeepImageSearch: Benchmarking Multimodal Agents for Context-Aware Image Retrieval in Visual Histories [52.57197752244638]
本稿では,画像検索を自律探索タスクとして再構成する新しいエージェントパラダイムであるDeepImageSearchを紹介する。モデルは、暗黙の文脈的手がかりに基づいてターゲットを特定するために、生の視覚履歴に対して多段階の推論を計画し実行しなければならない。 DisBenchは、相互接続された視覚データ上に構築された、挑戦的なベンチマークである。
論文参考訳（メタデータ） (2026-02-11T12:51:10Z)
Towards Context-aware Reasoning-enhanced Generative Searching in E-commerce [61.03081096959132]
そこで本稿では,複雑な状況下でのテキストバウンダリングを改善するための,文脈対応推論強化型生成検索フレームワークを提案する。提案手法は,強力なベースラインに比べて優れた性能を示し,検索に基づく推薦の有効性を検証した。
論文参考訳（メタデータ） (2025-10-19T16:46:11Z)
From Perception to Cognition: A Survey of Vision-Language Interactive Reasoning in Multimodal Large Language Models [66.36007274540113]
MLLM(Multimodal Large Language Models)は、物理的世界に対する深い人間的な理解と相互作用を達成するための試みである。情報取得(知覚)や推論(認知)を行う際、しばしば浅く不整合な統合を示す。この調査では、新しい統合分析フレームワーク「知覚から認知へ」を紹介した。
論文参考訳（メタデータ） (2025-09-29T18:25:40Z)
HeroBench: A Benchmark for Long-Horizon Planning and Structured Reasoning in Virtual Worlds [0.0]
大規模言語モデル(LLM)は、数学やプログラミングのようなステップバイステップの推論タスクにおいて顕著な能力を示している。しかし、ソリューションが拡張され、構造化された相互依存的なアクションのシーケンスを必要とする長期計画におけるそれらの習熟度は、まだ未解明のままである。我々は,RPGにインスパイアされた複雑な仮想世界において,長期計画と構造化推論を評価するために設計された新しいベンチマークであるHeroBenchを紹介する。
論文参考訳（メタデータ） (2025-08-18T09:59:02Z)
Envisioning Beyond the Pixels: Benchmarking Reasoning-Informed Visual Editing [84.16442052968615]
RISEBenchはReasoning-Informed ViSual Editing (RISE)の最初のベンチマークである。 RISEBenchは、時間、因果、空間、論理的推論の4つの主要な推論カテゴリに焦点を当てている。オープンソースモデルとプロプライエタリモデルの両方を含む,9つの目立った視覚編集モデルを評価する実験を行った。
論文参考訳（メタデータ） (2025-04-03T17:59:56Z)
Contextual Compression in Retrieval-Augmented Generation for Large Language Models: A Survey [0.0]
大きな言語モデル(LLM)は目覚ましい能力を示すが、幻覚、時代遅れの知識、不透明さ、説明不能な推論といった制限に悩まされている。 Retrieval-Augmented Generation (RAG)は、外部データベースを活用して生成されたコンテンツの一貫性と一貫性を改善することで、実行可能なソリューションであることが証明されている。
論文参考訳（メタデータ） (2024-09-20T10:36:49Z)
NeedleBench: Evaluating LLM Retrieval and Reasoning Across Varying Information Densities [51.07379913779232]
NeedleBenchは、長いコンテキストタスクにおける検索と推論のパフォーマンスを評価するためのフレームワークである。モデルの機能を厳格にテストするために、キーデータポイントをさまざまな深さに埋め込む。実験の結果,Deep-R1やOpenAIのo3のような推論モデルは,情報密度シナリオにおける連続的な検索と推論に苦労していることがわかった。
論文参考訳（メタデータ） (2024-07-16T17:59:06Z)
Empowering Time Series Analysis with Foundation Models: A Comprehensive Survey [32.794229758722985]
時系列データは、様々な現実世界のアプリケーションに分散している。従来のアプローチは主にタスク固有のもので、限られた機能と低転送性を提供します。ファンデーションモデルは、その顕著なクロスタスク転送可能性によって、NLPとCVに革命をもたらした。
論文参考訳（メタデータ） (2024-05-03T03:12:55Z)
A Threefold Review on Deep Semantic Segmentation: Efficiency-oriented, Temporal and Depth-aware design [77.34726150561087]
我々は、自動運転車のビジョンの文脈において、Deep Semanticの最も関連性があり最近の進歩について調査を行う。私たちの主な目的は、それぞれの視点で直面している主要な方法、利点、制限、結果、課題に関する包括的な議論を提供することです。
論文参考訳（メタデータ） (2023-03-08T01:29:55Z)
SEEK: Segmented Embedding of Knowledge Graphs [77.5307592941209]
本稿では,モデル複雑性を増大させることなく,高い競争力を持つ関係表現性を実現する軽量なモデリングフレームワークを提案する。本フレームワークは,評価関数の設計に重点を置いており,1)十分な特徴相互作用の促進,2)関係の対称性と反対称性の両特性の保存,という2つの重要な特徴を強調している。
論文参考訳（メタデータ） (2020-05-02T15:15:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。