論文の概要: JIR-Arena: The First Benchmark Dataset for Just-in-time Information Recommendation
- arxiv url: http://arxiv.org/abs/2505.13550v1
- Date: Mon, 19 May 2025 04:49:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:52.390605
- Title: JIR-Arena: The First Benchmark Dataset for Just-in-time Information Recommendation
- Title(参考訳): JIR-Arena:ジャストインタイム情報レコメンデーションのためのベンチマークデータセット
- Authors: Ke Yang, Kevin Ros, Shankar Kumar Senthil Kumar, ChengXiang Zhai,
- Abstract要約: ジャスト・イン・タイム情報推薦(ジャスト・イン・タイム・イン・タイム・インフォメーション・レコメンデーション、英: Just-in-time Information Recommendation、JIR)は、ユーザが必要な時に最も関連性の高い情報を提供するように設計されたサービスである。
本稿では,JIRタスクと関連する評価指標の数学的定義について述べる。
JIR-Arenaは多種多様な情報要求集約シナリオを特徴とするマルチモーダルベンチマークデータセットである。
- 参考スコア(独自算出の注目度): 29.732827510828496
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Just-in-time Information Recommendation (JIR) is a service designed to deliver the most relevant information precisely when users need it, , addressing their knowledge gaps with minimal effort and boosting decision-making and efficiency in daily life. Advances in device-efficient deployment of foundation models and the growing use of intelligent wearable devices have made always-on JIR assistants feasible. However, there has been no systematic effort to formally define JIR tasks or establish evaluation frameworks. To bridge this gap, we present the first mathematical definition of JIR tasks and associated evaluation metrics. Additionally, we introduce JIR-Arena, a multimodal benchmark dataset featuring diverse, information-request-intensive scenarios to evaluate JIR systems across critical dimensions: i) accurately inferring user information needs, ii) delivering timely and relevant recommendations, and iii) avoiding irrelevant content that may distract users. Developing a JIR benchmark dataset poses challenges due to subjectivity in estimating user information needs and uncontrollable system variables affecting reproducibility. To address these, JIR-Arena: i) combines input from multiple humans and large AI models to approximate information need distributions; ii) assesses JIR quality through information retrieval outcomes using static knowledge base snapshots; and iii) employs a multi-turn, multi-entity validation framework to improve objectivity and generality. Furthermore, we implement a baseline JIR system capable of processing real-time information streams aligned with user inputs. Our evaluation of this baseline system on JIR-Arena indicates that while foundation model-based JIR systems simulate user needs with reasonable precision, they face challenges in recall and effective content retrieval. To support future research in this new area, we fully release our code and data.
- Abstract(参考訳): ジャスト・イン・タイム・イン・インフォメーション・レコメンデーション(JIR, Just-in-time Information Recommendation)は、ユーザが必要な時に最も関連性の高い情報を提供するサービスである。
ファウンデーションモデルのデバイス効率向上とインテリジェントなウェアラブルデバイスの利用の増加により、常時オンのJIRアシスタントが実現可能になった。
しかし、JIRタスクを正式に定義したり、評価フレームワークを確立するための体系的な取り組みは行われていない。
このギャップを埋めるために、我々はJIRタスクと関連する評価指標の数学的定義を初めて提示する。
さらに、JIR-Arenaというマルチモーダル・ベンチマーク・データセットを紹介します。
一 利用者情報のニーズを正確に推測すること。
二 適時かつ関係のある勧告を提出し、
三 利用者を混乱させる可能性のある無関係なコンテンツを避けること。
JIRベンチマークデータセットの開発は、ユーザ情報のニーズと再現性に影響を与える制御不能なシステム変数を推定する際の主観性による課題を提起する。
これらの問題に対処するため、JIR-Arena
i) 複数の人間からの入力と大規模なAIモデルを組み合わせて、情報に近似した分布を求めること。
二 静的知識ベーススナップショットを用いて情報検索結果を通じてJIR品質を評価すること。
三 客観性及び一般性を改善するため、多ターン多目的検証フレームワークを用いる。
さらに,ユーザ入力に整合したリアルタイム情報ストリームを処理できるベースラインJIRシステムを実装した。
JIR-Arena上でのこのベースラインシステムの評価は,基礎モデルに基づくJIRシステムがユーザニーズを適切な精度でシミュレートする一方で,リコールや効果的なコンテンツ検索の課題に直面していることを示している。
この新しい分野での今後の研究をサポートするため、コードとデータを完全にリリースしています。
関連論文リスト
- A Comprehensive Survey on Composed Image Retrieval [54.54527281731775]
Composed Image Retrieval (CIR)は、ユーザがマルチモーダルクエリを使ってターゲットイメージを検索できる、新しくて困難なタスクである。
現在、この分野のタイムリーな概要を提供するため、CIRの包括的なレビューは行われていない。
我々は、ACM TOIS、SIGIR、CVPRなど、トップカンファレンスやジャーナルで120以上の出版物から洞察を合成する。
論文 参考訳(メタデータ) (2025-02-19T01:37:24Z) - Robust Neural Information Retrieval: An Adversarial and Out-of-distribution Perspective [111.58315434849047]
ニューラルネットワーク検索モデル(IR)モデルの堅牢性は、大きな注目を集めている。
我々は、IRの堅牢性を多面的概念とみなし、敵攻撃、アウト・オブ・ディストリビューション(OOD)シナリオ、パフォーマンスのばらつきに対してその必要性を強調している。
我々は,既存の手法,データセット,評価指標について詳細な議論を行い,大規模言語モデルの時代における課題や今後の方向性に光を当てる。
論文 参考訳(メタデータ) (2024-07-09T16:07:01Z) - BIRCO: A Benchmark of Information Retrieval Tasks with Complex Objectives [2.3420045370973828]
複雑な目的を持つ情報検索タスクのベンチマーク(BIRCO)について述べる。
BIRCOは、多面的ユーザ目的のドキュメントを検索するIRシステムの能力を評価する。
論文 参考訳(メタデータ) (2024-02-21T22:22:30Z) - DNS-Rec: Data-aware Neural Architecture Search for Recommender Systems [79.76519917171261]
本稿では,SRS(Sequential Recommender Systems)における計算オーバーヘッドと資源非効率性について述べる。
本稿では, プルーニング法と高度なモデル設計を組み合わせた革新的な手法を提案する。
我々の主な貢献は、リコメンダシステム(DNS-Rec)のためのデータ対応ニューラルアーキテクチャ検索の開発である。
論文 参考訳(メタデータ) (2024-02-01T07:22:52Z) - ARES: An Automated Evaluation Framework for Retrieval-Augmented Generation Systems [46.522527144802076]
本稿では,RAGシステム評価のための自動RAG評価システムであるARESを紹介する。
ARESは軽量LM判定器を微調整し、個々のRAG成分の品質を評価する。
コードとデータセットをGithubで公開しています。
論文 参考訳(メタデータ) (2023-11-16T00:39:39Z) - Towards Validating Long-Term User Feedbacks in Interactive
Recommendation Systems [36.45966630580796]
対話型レコメンダシステム(IRS)は,ユーザとレコメンダシステム間の対話的プロセスをモデル化する能力から,多くの注目を集めている。
レビューデータセットを用いてIRSの実験を再考し、RLベースのモデルと単純な報酬モデルを比較した。
論文 参考訳(メタデータ) (2023-08-22T02:34:47Z) - Moving Beyond Downstream Task Accuracy for Information Retrieval
Benchmarking [32.64845310961208]
我々は、IRシステムの最適選択が、効率の考慮事項の選択と測定方法によってどのように異なるかを示す。
一般的なIRベンチマークMS MARCOとXOR-TyDiでは、これらの効率の考慮事項がどう選択され、重み付けされるかによって、IRシステムの最良の選択がどう変化するかを示す。
論文 参考訳(メタデータ) (2022-12-02T17:57:06Z) - Retrieval-Enhanced Machine Learning [110.5237983180089]
本稿では,いくつかの既存モデルを含む汎用的な検索強化機械学習フレームワークについて述べる。
REMLは情報検索の慣例に挑戦し、最適化を含む中核領域における新たな進歩の機会を提示している。
REMLリサーチアジェンダは、情報アクセス研究の新しいスタイルの基礎を築き、機械学習と人工知能の進歩への道を開く。
論文 参考訳(メタデータ) (2022-05-02T21:42:45Z) - Multi-Perspective Semantic Information Retrieval [22.74453301532817]
本研究は,複数の深層学習モデルと従来のIRモデルを組み合わせたマルチパースペクティブIRシステムの概念を導入し,クエリ・セマンス・ペアの関連性をより正確に予測する。
この研究はBioASQ Biomedical IR + QA Challengeで評価されている。
論文 参考訳(メタデータ) (2020-09-03T21:56:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。