論文の概要: The 1st EReL@MIR Workshop on Efficient Representation Learning for Multimodal Information Retrieval
- arxiv url: http://arxiv.org/abs/2504.14788v1
- Date: Mon, 21 Apr 2025 01:10:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-29 20:07:12.081311
- Title: The 1st EReL@MIR Workshop on Efficient Representation Learning for Multimodal Information Retrieval
- Title(参考訳): マルチモーダル情報検索のための効率的な表現学習に関する第1回EReL@MIRワークショップ
- Authors: Junchen Fu, Xuri Ge, Xin Xin, Haitao Yu, Yue Feng, Alexandros Karatzoglou, Ioannis Arapakis, Joemon M. Jose,
- Abstract要約: 我々は,Web Conference 2025で初めてのEReL@MIRワークショップを提案し,参加者に新しいソリューションの探求を依頼する。
このワークショップは、学術と産業の両方の研究者が議論し、洞察を共有し、コラボレーションを促進するためのプラットフォームを提供することを目的としている。
- 参考スコア(独自算出の注目度): 49.587042083937426
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal representation learning has garnered significant attention in the AI community, largely due to the success of large pre-trained multimodal foundation models like LLaMA, GPT, Mistral, and CLIP. These models have achieved remarkable performance across various tasks of multimodal information retrieval (MIR), including web search, cross-modal retrieval, and recommender systems, etc. However, due to their enormous parameter sizes, significant efficiency challenges emerge across training, deployment, and inference stages when adapting these models' representation for IR tasks. These challenges present substantial obstacles to the practical adaptation of foundation models for representation learning in information retrieval tasks. To address these pressing issues, we propose organizing the first EReL@MIR workshop at the Web Conference 2025, inviting participants to explore novel solutions, emerging problems, challenges, efficiency evaluation metrics and benchmarks. This workshop aims to provide a platform for both academic and industry researchers to engage in discussions, share insights, and foster collaboration toward achieving efficient and effective representation learning for multimodal information retrieval in the era of large foundation models.
- Abstract(参考訳): マルチモーダル表現学習は、LLaMA、GPT、Mistral、CLIPといった大規模なトレーニング済みのマルチモーダル基盤モデルの成功によって、AIコミュニティにおいて大きな注目を集めている。
これらのモデルは、Web検索、クロスモーダル検索、レコメンデータシステムなど、多モード情報検索(MIR)の様々なタスクにおいて、顕著なパフォーマンスを実現している。
しかしながら、その膨大なパラメータサイズのため、これらのモデルのIRタスクへの表現を適用する際に、トレーニング、デプロイメント、推論ステージに重大な効率上の課題が発生する。
これらの課題は,情報検索タスクにおける表現学習のための基礎モデルの実践的適応に重大な障害をもたらす。
こうしたプレッシャーに対処するため、Web Conference 2025でEReL@MIRワークショップを開催することを提案します。
本ワークショップは,大規模基盤モデルの時代において,多モーダル情報検索の効率的かつ効果的な表現学習を実現するための,学術的,産業的な両研究者が議論を行い,洞察を共有し,協力を促進するためのプラットフォームを提供することを目的とする。
関連論文リスト
- Feature Fusion Revisited: Multimodal CTR Prediction for MMCTR Challenge [4.3058911704400415]
EReL@MIRワークショップは、マルチモーダル表現学習の効率向上を目的とした様々なアプローチを試す貴重な機会となった。
我がチームは第2タスク-勝者賞(Multimodal CTR Prediction)を受賞した。
論文 参考訳(メタデータ) (2025-04-26T16:04:33Z) - Why Reasoning Matters? A Survey of Advancements in Multimodal Reasoning (v1) [66.51642638034822]
推論は人間の知性の中心であり、多様なタスクにまたがる構造化された問題解決を可能にする。
大規模言語モデル(LLM)の最近の進歩は、算術、常識、記号領域における推論能力を大幅に向上させてきた。
本稿では,テキストおよびマルチモーダルLLMにおける推論手法の簡潔かつ洞察に富んだ概要について述べる。
論文 参考訳(メタデータ) (2025-04-04T04:04:56Z) - A Comprehensive Survey of Mixture-of-Experts: Algorithms, Theory, and Applications [7.414857515253022]
本稿では,ゲーティング機能,エキスパートネットワーク,ルーティング機構,トレーニング戦略,システム設計など,MoEの基本設計を紹介する。
次に,継続学習,メタ学習,マルチタスク学習,強化学習など,機械学習の重要なパラダイムにおけるMoEのアルゴリズム設計について検討する。
論文 参考訳(メタデータ) (2025-03-10T10:08:55Z) - LamRA: Large Multimodal Model as Your Advanced Retrieval Assistant [63.28378110792787]
LamRAは大規模マルチモーダルモデルに高度な検索と再ランク機能を持たせるために設計された多機能フレームワークである。
検索には、言語のみの事前学習とマルチモーダル・インストラクション・チューニングからなる2段階のトレーニング戦略を採用する。
再格付けには、ポイントワイドとリストワイドの両方のジョイントトレーニングを採用し、検索性能をさらに向上させる2つの方法を提供している。
論文 参考訳(メタデータ) (2024-12-02T17:10:16Z) - RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - HEMM: Holistic Evaluation of Multimodal Foundation Models [91.60364024897653]
マルチモーダル・ファンデーション・モデルは、画像、ビデオ、オーディオ、その他の知覚モダリティと共にテキストをホリスティックに処理することができる。
モデリング決定、タスク、ドメインの範囲を考えると、マルチモーダル基盤モデルの進歩を特徴づけ、研究することは困難である。
論文 参考訳(メタデータ) (2024-07-03T18:00:48Z) - NoteLLM-2: Multimodal Large Representation Models for Recommendation [71.87790090964734]
大規模言語モデル(LLM)は、テキスト理解や埋め込みタスクにおいて、例外的な習熟度を示している。
マルチモーダル表現のポテンシャル、特にアイテムツーイテム(I2I)レコメンデーションについては、未解明のままである。
本稿では,既存のLLMと視覚エンコーダの統合をカスタマイズし,効率的なマルチモーダル表現を実現するエンド・ツー・エンドのファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2024-05-27T03:24:01Z) - A Survey on Efficient Inference for Large Language Models [25.572035747669275]
大きな言語モデル(LLM)は、様々なタスクにまたがる顕著なパフォーマンスのために、広く注目を集めている。
LLM推論のかなりの計算とメモリ要件は、リソース制約のあるシナリオへの展開に困難をもたらす。
本稿では,LLMの効率的な推論について,既存の文献を包括的に調査する。
論文 参考訳(メタデータ) (2024-04-22T15:53:08Z) - Attribution Regularization for Multimodal Paradigms [7.1262539590168705]
マルチモーダル機械学習は、学習と意思決定プロセスを強化するために、複数のモーダルからの情報を統合することができる。
ユニモーダルモデルは、よりリッチな情報にアクセスできるにもかかわらず、マルチモーダルモデルより優れていることがよく見られる。
本研究は,マルチモーダルモデルの意思決定において,すべてのモーダルからの情報を効果的に活用するための新たな正規化用語を提案する。
論文 参考訳(メタデータ) (2024-04-02T23:05:56Z) - Multi-Tower Multi-Interest Recommendation with User Representation Repel [0.9867914513513453]
本稿では,ユーザ表現を補う新しい多層多目的フレームワークを提案する。
複数の大規模産業データセットにまたがる実験結果から,提案手法の有効性と一般化性が確認された。
論文 参考訳(メタデータ) (2024-03-08T07:36:14Z) - High-Modality Multimodal Transformer: Quantifying Modality & Interaction
Heterogeneity for High-Modality Representation Learning [112.51498431119616]
本稿では,多種多様なモダリティを含む高モダリティシナリオに対する効率的な表現学習について検討する。
単一のモデルであるHighMMTは、テキスト、画像、オーディオ、ビデオ、センサー、プロプレセプション、スピーチ、時系列、セット、テーブル)と5つの研究領域から15のタスクをスケールする。
論文 参考訳(メタデータ) (2022-03-02T18:56:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。