Fugu-MT 論文翻訳(概要): Evaluating Cost-Accuracy Trade-offs in Multimodal Search Relevance Judgements

論文の概要: Evaluating Cost-Accuracy Trade-offs in Multimodal Search Relevance Judgements

arxiv url: http://arxiv.org/abs/2410.19974v1
Date: Fri, 25 Oct 2024 21:29:04 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:40.709977
Title: Evaluating Cost-Accuracy Trade-offs in Multimodal Search Relevance Judgements
Title（参考訳）: マルチモーダル検索関連判断におけるコスト精度トレードオフの評価
Authors: Silvia Terragni, Hoang Cuong, Joachim Daiber, Pallavi Gudipati, Pablo N. Mendes,
Abstract要約: 大規模言語モデル (LLM) は, 有効な検索関連評価指標としての可能性を示している。さまざまなコンテキストや特定のユースケースにおいて、モデルが常に最適に機能する包括的なガイダンスが欠如しています。本分析では,コストと精度のトレードオフについて検討し,モデルの性能が文脈によって大きく異なることを明らかにする。
参考スコア（独自算出の注目度）: 1.6637373649145606
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) have demonstrated potential as effective search relevance evaluators. However, there is a lack of comprehensive guidance on which models consistently perform optimally across various contexts or within specific use cases. In this paper, we assess several LLMs and Multimodal Language Models (MLLMs) in terms of their alignment with human judgments across multiple multimodal search scenarios. Our analysis investigates the trade-offs between cost and accuracy, highlighting that model performance varies significantly depending on the context. Interestingly, in smaller models, the inclusion of a visual component may hinder performance rather than enhance it. These findings highlight the complexities involved in selecting the most appropriate model for practical applications.
Abstract（参考訳）: 大規模言語モデル (LLM) は, 有効な検索関連評価指標としての可能性を示している。しかし、さまざまなコンテキストや特定のユースケースにおいてモデルが常に最適に機能する包括的なガイダンスが欠如している。本稿では,複数のマルチモーダル検索シナリオにおける人間の判断との整合性の観点から,MLLMおよびマルチモーダル言語モデル(MLLM)の評価を行う。本分析では,コストと精度のトレードオフについて検討し,モデルの性能が文脈によって大きく異なることを明らかにする。興味深いことに、より小さなモデルでは、視覚的なコンポーネントが組み込まれているため、パフォーマンスが向上しない可能性がある。これらの知見は、実用上最も適切なモデルを選択する際の複雑さを浮き彫りにしている。

関連論文リスト

A Survey on Mechanistic Interpretability for Multi-Modal Foundation Models [74.48084001058672]
基礎モデルの台頭は機械学習の研究に変化をもたらした。マルチモーダル・ファンデーション・モデル(MMFM)は、ユニモーダル・フレームワークを超えて、ユニークな解釈可能性の課題を提起する。本研究は,(1)多モーダルモデルへのLLM解釈可能性法の適応,(2)単モーダル言語モデルとクロスモーダルシステムとの機械的差異の理解の2つの重要な側面について考察する。
論文参考訳（メタデータ） (2025-02-22T20:55:26Z)
One for All: A General Framework of LLMs-based Multi-Criteria Decision Making on Human Expert Level [7.755152930120769]
本稿では,一般の複雑なMCDM問題に自動的に対処する評価フレームワークを提案する。フレームワーク内では、ClaudeやChatGPTといった商用モデルと同様に、様々な典型的なオープンソースモデルの性能を評価する。実験の結果,異なるアプリケーションの精度は95%程度に向上し,異なるモデル間の性能差は自明であることがわかった。
論文参考訳（メタデータ） (2025-02-17T06:47:20Z)
Personalized Multimodal Large Language Models: A Survey [127.9521218125761]
マルチモーダル大言語モデル(MLLM)は、最先端の性能と複数のデータモダリティを統合する能力により、ますます重要になっている。本稿では,パーソナライズされたマルチモーダルな大規模言語モデルに関する包括的調査を行い,そのアーキテクチャ,トレーニング方法,アプリケーションに焦点をあてる。
論文参考訳（メタデータ） (2024-12-03T03:59:03Z)
P-MMEval: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs [84.24644520272835]
大きな言語モデル(LLM)は、翻訳、コード生成、推論といったタスクにまたがる様々な多言語機能を示す。以前の評価では、その範囲を基本自然言語処理(NLP)や、独立した機能固有のタスクに制限することが多かった。我々は、これらのベンチマークの有用性に関する以前の研究の監視に対処するため、大規模ベンチマークから利用可能な、合理的なベンチマークを選択するパイプラインを提案する。本稿では,P-MMEvalを提案する。P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval。
論文参考訳（メタデータ） (2024-11-14T01:29:36Z)
Assessing Modality Bias in Video Question Answering Benchmarks with Multimodal Large Language Models [12.841405829775852]
我々は、VidQAベンチマークとデータセットのバイアスを特定するために、MIS(Modality importance score)を導入する。また,最新のMLLMを用いてモダリティの重要度を推定する手法を提案する。以上の結果から,既存のデータセットでは,モダリティの不均衡による情報統合が効果的に行われていないことが示唆された。
論文参考訳（メタデータ） (2024-08-22T23:32:42Z)
OLMES: A Standard for Language Model Evaluations [64.85905119836818]
再現可能な言語モデル評価のための実用的でオープンな標準であるOLMESを提案する。我々は,コミュニティが採用する評価実践において,様々な要因を特定し,検討する。 OLMESは、複数の質問の非自然な「閉じた」定式化を必要とする小さなベースモデル間の有意義な比較をサポートする。
論文参考訳（メタデータ） (2024-06-12T17:37:09Z)
MT-Eval: A Multi-Turn Capabilities Evaluation Benchmark for Large Language Models [70.92847554971065]
MT-Evalは,マルチターン対話能力を評価するための総合的なベンチマークである。人間のLLM会話を解析することにより,インタラクションパターンを,再現,拡張,洗練,フォローアップの4つのタイプに分類する。 11個の有名なLCMを評価したところ、クローズドソースモデルは一般的にオープンソースモデルを上回るが、特定のタスクにおいて特定のオープンソースモデルの方がGPT-3.5-Turboを上回っていることがわかった。
論文参考訳（メタデータ） (2024-01-30T04:50:28Z)
Retrieval-augmented Multi-modal Chain-of-Thoughts Reasoning for Large Language Models [56.256069117502385]
Chain of Thought (CoT)アプローチは、複雑な推論タスクにおいて、LLM(Large Language Models)の能力を高めるために使用できる。しかし、マルチモーダル推論における最適なCoT実例の選択は、まだ検討されていない。本稿では,この課題に対処する新しい手法として,検索機構を用いて実演例を自動的に選択する手法を提案する。
論文参考訳（メタデータ） (2023-12-04T08:07:21Z)
An Empirical Investigation into Benchmarking Model Multiplicity for Trustworthy Machine Learning: A Case Study on Image Classification [0.8702432681310401]
本稿では,モデル設計の様々な側面にまたがる多重性の1ストップ実験ベンチマークを提案する。また,マルチプライシティシート(multiplicity sheets)と呼ばれるフレームワークを開発し,様々なシナリオにおけるマルチプライシティのベンチマークを行う。モデル選択中に追加仕様を適用した後でも,マルチプライシティがディープラーニングモデルに持続することを示す。
論文参考訳（メタデータ） (2023-11-24T22:30:38Z)
MM-BigBench: Evaluating Multimodal Models on Multimodal Content Comprehension Tasks [56.60050181186531]
MM-BigBenchを導入し、様々なモデルや命令のパフォーマンスを広範囲に評価する。本稿では,6タスクにまたがる14のマルチモーダルデータセット上で,20の言語モデル (14 MLLM) を評価し,各タスクに10の指示を与え,新しい洞察を導き出す。
論文参考訳（メタデータ） (2023-10-13T11:57:04Z)
On the Performance of Multimodal Language Models [4.677125897916577]
本研究は、異なるマルチモーダル命令チューニングアプローチの比較分析を行う。大規模言語モデルにマルチモーダル機能を組み込む際に,アーキテクチャ選択を導く上で重要な洞察を明らかにする。
論文参考訳（メタデータ） (2023-10-04T23:33:36Z)
Scaling Vision-Language Models with Sparse Mixture of Experts [128.0882767889029]
提案手法は, 等価計算コストの高密度モデルに対して, 様々なベンチマークにおいて, 最先端性能を実現することができることを示す。我々の研究は、MoEモデルのトレーニングの安定化、モデル解釈可能性に対するMoEの影響の理解、ビジョン言語モデルをスケールする際の計算性能間のトレードオフのバランスに関する貴重な洞察を提供する。
論文参考訳（メタデータ） (2023-03-13T16:00:31Z)
Robustness of Fusion-based Multimodal Classifiers to Cross-Modal Content Dilutions [27.983902791798965]
画像と既存のテキストとの関連性やトピックのコヒーレンスを維持する希釈テキストを生成するモデルを開発する。その結果,タスク固有の融合型マルチモーダル分類器の性能はそれぞれ23.3%,22.5%低下することがわかった。我々の研究は、深いマルチモーダルモデルの現実的な変動に対する堅牢性について、さらなる研究をハイライトし、奨励することを目的としている。
論文参考訳（メタデータ） (2022-11-04T17:58:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。