Fugu-MT 論文翻訳(概要): Exploring the Implicit Semantic Ability of Multimodal Large Language Models: A Pilot Study on Entity Set Expansion

論文の概要: Exploring the Implicit Semantic Ability of Multimodal Large Language Models: A Pilot Study on Entity Set Expansion

arxiv url: http://arxiv.org/abs/2501.00330v1
Date: Tue, 31 Dec 2024 08:03:48 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-05 16:54:31.557213
Title: Exploring the Implicit Semantic Ability of Multimodal Large Language Models: A Pilot Study on Entity Set Expansion
Title（参考訳）: マルチモーダル大言語モデルの暗黙の意味的能力を探る:エンティティセットの拡張に関する実験的検討
Authors: Hebin Wang, Yangning Li, Yinghui Li, Hai-Tao Zheng, Wenhao Jiang, Hong-Gee Kim,
Abstract要約: マルチモーダル大言語モデル(MLLM)を用いて,エンティティレベルの粒度の暗黙的な意味情報を理解する。ローカルスコアをグローバルランキングにマッピングするリストワイズランキング手法であるLUSARを導入する。我々のLUSARは、MESEタスクにおけるMLLMの性能を大幅に向上させ、ESEタスクに生成MLLMを初めて使用し、リストワイドランキングの適用性を高めた。
参考スコア（独自算出の注目度）: 26.47488223403437
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The rapid development of multimodal large language models (MLLMs) has brought significant improvements to a wide range of tasks in real-world applications. However, LLMs still exhibit certain limitations in extracting implicit semantic information. In this paper, we apply MLLMs to the Multi-modal Entity Set Expansion (MESE) task, which aims to expand a handful of seed entities with new entities belonging to the same semantic class, and multi-modal information is provided with each entity. We explore the capabilities of MLLMs to understand implicit semantic information at the entity-level granularity through the MESE task, introducing a listwise ranking method LUSAR that maps local scores to global rankings. Our LUSAR demonstrates significant improvements in MLLM's performance on the MESE task, marking the first use of generative MLLM for ESE tasks and extending the applicability of listwise ranking.
Abstract（参考訳）: マルチモーダル大規模言語モデル(MLLM)の急速な開発により、現実世界のアプリケーションにおいて幅広いタスクが大幅に改善された。しかし、LLMは暗黙のセマンティック情報を抽出する際の一定の制限をまだ示している。本稿では,Multi-modal Entity Set Expansion (MESE)タスクにMLLMを適用し,複数のシードエンティティを同じ意味クラスに属する新しいエンティティに拡張することを目的として,各エンティティにマルチモーダル情報を提供する。本稿では,MESEタスクを通じて実体レベルの粒度の暗黙的な意味情報を理解するMLLMの能力について検討し,ローカルスコアをグローバルランキングにマッピングするリストワイドランキング手法であるLUSARを導入する。我々のLUSARは、MESEタスクにおけるMLLMの性能を大幅に向上させ、ESEタスクに生成MLLMを初めて使用し、リストワイドランキングの適用性を高めた。

関連論文リスト

Generative Giants, Retrieval Weaklings: Why do Multimodal Large Language Models Fail at Multimodal Retrieval? [8.45007357012084]
MLLMが有効なレトリバーとして機能することを妨げるメカニズムについて検討する。解析の結果,MLLMの表現空間はテキストセマンティクスによって圧倒的に支配されていることが明らかとなった。 MLLMの類似性計算に最も寄与する特定の特徴成分は、実際に、検索性能を積極的に劣化させるトラクタであることがわかった。
論文参考訳（メタデータ） (2025-12-22T07:36:20Z)
Keeping Yourself is Important in Downstream Tuning Multimodal Large Language Model [63.14883657299359]
MLLM(Multi-modal Large Language Models)は、視覚的および言語的推論を統合して、画像キャプションや視覚的質問応答といった複雑なタスクに対処する。ダウンストリームタスクのためのMLLMのチューニングには,2つの重要な課題がある。タスク-Expert – 事前トレーニングとターゲットデータセット間の分散シフトによってターゲットのパフォーマンスが制限される。
論文参考訳（メタデータ） (2025-03-06T15:29:13Z)
Can MLLMs Guide Weakly-Supervised Temporal Action Localization Tasks? [6.7065734065794835]
MLLM4WTALと呼ばれる新しい学習パラダイムを導入する。 MLLMのポテンシャルを利用して、時間的アクションキーセマンティクスと完全なセマンティクスの事前を提供する。キーセマンティックマッチング(KSM)と完全セマンティック再構成(CSR)の2つの異なるモジュールを統合することでこれを実現できる。
論文参考訳（メタデータ） (2024-11-13T09:37:24Z)
LLM4PR: Improving Post-Ranking in Search Engine with Large Language Models [9.566432486156335]
検索エンジンにおける後処理のための大規模言語モデル(LLM4PR) 検索エンジン(LLM4PR)におけるポストランキングのための大規模言語モデル(Large Language Models for Post-Ranking)という新しいパラダイムを導入する。
論文参考訳（メタデータ） (2024-11-02T08:36:16Z)
Layer by Layer: Uncovering Where Multi-Task Learning Happens in Instruction-Tuned Large Language Models [22.676688441884465]
タスクの多種多様な配列で訓練済みの大規模言語モデル(LLM)を微調整することが、モデル構築の一般的なアプローチとなっている。本研究では,事前学習したLLMに符号化されたタスク固有情報と,その表現に対する指導指導の効果について検討する。
論文参考訳（メタデータ） (2024-10-25T23:38:28Z)
A Comprehensive Review of Multimodal Large Language Models: Performance and Challenges Across Different Tasks [74.52259252807191]
MLLM(Multimodal Large Language Models)は、単一のモダリティシステムの能力を超えた現実世界のアプリケーションの複雑さに対処する。本稿では,自然言語,視覚,音声などのマルチモーダルタスクにおけるMLLMの応用を体系的に整理する。
論文参考訳（メタデータ） (2024-08-02T15:14:53Z)
UniMEL: A Unified Framework for Multimodal Entity Linking with Large Language Models [0.42832989850721054]
MEL(Multimodal Entities Linking)は、ウィキペディアのようなマルチモーダル知識ベースの参照エンティティに、多モーダルコンテキスト内で曖昧な言及をリンクすることを目的とした重要なタスクである。既存の方法はMELタスクを過度に複雑にし、視覚的意味情報を見渡す。大規模言語モデルを用いたマルチモーダル・エンティティ・リンクタスクを処理するための新しいパラダイムを確立する統一フレームワークUniMELを提案する。
論文参考訳（メタデータ） (2024-07-23T03:58:08Z)
Automated Commit Message Generation with Large Language Models: An Empirical Study and Beyond [24.151927600694066]
コミットメッセージ生成(CMG)アプローチは、与えられたコード差分に基づいてコミットメッセージを自動的に生成することを目的としている。本稿では,Large Language Models (LLMs) を用いて高品質なコミットメッセージの生成にどの程度の期間を費やしてきたかを調べるための,最初の包括的な実験を行う。
論文参考訳（メタデータ） (2024-04-23T08:24:43Z)
Do Large Language Model Understand Multi-Intent Spoken Language ? [5.494472119991781]
この研究は、多言語言語理解(SLU)におけるLarge Language Models(LLM)の利用において、大きなブレークスルーを示すものである。本稿では,マルチインテリジェントSLUアプリケーションにおけるエンティティスロットの利用について再検討する。本稿では,複雑なマルチインテント通信の分析と解釈を増幅するために,サブインテントインストラクション(SII)の概念を導入する。
論文参考訳（メタデータ） (2024-03-07T13:30:52Z)
Probing Multimodal Large Language Models for Global and Local Semantic Representations [57.25949445963422]
マルチモーダル大言語モデルのどの層がグローバルな画像情報に最も力を注いでいるかを検討する。本研究では,モデルの中間層が,よりグローバルな意味情報を符号化できることを見出した。最上位のレイヤが過度にローカル情報に集中していることが分かり、グローバル情報をエンコードする能力の低下につながります。
論文参考訳（メタデータ） (2024-02-27T08:27:15Z)
Small LLMs Are Weak Tool Learners: A Multi-LLM Agent [73.54562551341454]
大規模言語モデル(LLM)エージェントはスタンドアロンのLLMの機能を大幅に拡張する。本稿では、上記の機能をプランナー、呼び出し元、要約器に分解する新しい手法を提案する。このモジュール化されたフレームワークは、個々の更新と、それぞれの機能を構築するための小さなLLMの潜在的な使用を容易にする。
論文参考訳（メタデータ） (2024-01-14T16:17:07Z)
Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文参考訳（メタデータ） (2023-12-26T07:24:46Z)
MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models [73.86954509967416]
マルチモーダル言語モデル(MLLM)は、マルチモーダルタスクを実行するために強力なLLMに依存している。本稿では,MLLM 評価ベンチマーク MME について述べる。知覚能力と認知能力の両方を合計14のサブタスクで測定する。
論文参考訳（メタデータ） (2023-06-23T09:22:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。