Fugu-MT 論文翻訳(概要): MIP-GAF: A MLLM-annotated Benchmark for Most Important Person Localization and Group Context Understanding

論文の概要: MIP-GAF: A MLLM-annotated Benchmark for Most Important Person Localization and Group Context Understanding

arxiv url: http://arxiv.org/abs/2409.06224v1
Date: Tue, 10 Sep 2024 05:28:38 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-11 19:00:01.259950
Title: MIP-GAF: A MLLM-annotated Benchmark for Most Important Person Localization and Group Context Understanding
Title（参考訳）: MIP-GAF:最重要人物位置推定とグループコンテキスト理解のためのMLLMアノテーション付きベンチマーク
Authors: Surbhi Madan, Shreya Ghosh, Lownish Rai Sookha, M. A. Ganaie, Ramanathan Subramanian, Abhinav Dhall, Tom Gedeon,
Abstract要約: 社会的イベント設定において最も重要な人物(MIP)を推定することは、ラベル付きデータのコンテキスト的複雑さと不足のために難しい問題である。我々は、画像中のMIPに関する人間の知覚を識別するために、大規模な「ワイルド」データセットに注釈を付けることで、この問題に対処することを目指している。提案するデータセットは,次世代の社会状況理解手法を構築する上で重要な役割を果たす。
参考スコア（独自算出の注目度）: 12.572321050617571
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Estimating the Most Important Person (MIP) in any social event setup is a challenging problem mainly due to contextual complexity and scarcity of labeled data. Moreover, the causality aspects of MIP estimation are quite subjective and diverse. To this end, we aim to address the problem by annotating a large-scale `in-the-wild' dataset for identifying human perceptions about the `Most Important Person (MIP)' in an image. The paper provides a thorough description of our proposed Multimodal Large Language Model (MLLM) based data annotation strategy, and a thorough data quality analysis. Further, we perform a comprehensive benchmarking of the proposed dataset utilizing state-of-the-art MIP localization methods, indicating a significant drop in performance compared to existing datasets. The performance drop shows that the existing MIP localization algorithms must be more robust with respect to `in-the-wild' situations. We believe the proposed dataset will play a vital role in building the next-generation social situation understanding methods. The code and data is available at https://github.com/surbhimadan92/MIP-GAF.
Abstract（参考訳）: 社会的イベント設定において最も重要な人物(MIP)を推定することは、主にラベル付きデータのコンテキスト的複雑さと不足のために難しい問題である。さらに、MIP推定の因果関係は、非常に主観的で多様である。この目的のために,画像中の「最重要人物」(MIP)に関する人間の知覚を識別するために,大規模"in-the-wild"データセットに注釈を付けることで,この問題に対処することを目的とする。本稿では,MLLMに基づくデータアノテーション戦略の詳細な説明と,データ品質解析について述べる。さらに、最先端のMIPローカライゼーション手法を用いて提案したデータセットの総合的なベンチマークを行い、既存のデータセットと比較して性能が大幅に低下したことを示す。性能低下は、既存のMIPローカライゼーションアルゴリズムが 'in-the-wild' 状況に対してより堅牢でなければならないことを示している。提案したデータセットは,次世代の社会状況理解手法を構築する上で重要な役割を果たすものと信じている。コードとデータはhttps://github.com/surbhimadan92/MIP-GAFで公開されている。

関連論文リスト

Beyond Description: A Multimodal Agent Framework for Insightful Chart Summarization [18.33134893463544]
本稿では,グラフ画像から直接深い洞察を明らかにするためのマルチエージェント・フレームワークを提案する。適切なベンチマークの欠如を克服するため、我々はChartSummInsightsを紹介した。
論文参考訳（メタデータ） (2026-02-21T06:17:37Z)
Scaling Beyond Context: A Survey of Multimodal Retrieval-Augmented Generation for Document Understanding [61.36285696607487]
文書理解は、財務分析から科学的発見への応用に不可欠である。現在のアプローチでは、OCRベースのパイプラインがLarge Language Models(LLM)やネイティブのMultimodal LLMs(MLLM)に制限されている。 Retrieval-Augmented Generation (RAG)は、外部データの基底モデルを支援するが、文書のマルチモーダルな性質は、テキスト、テーブル、チャート、レイアウトを組み合わせることで、より高度なパラダイムを必要とする。
論文参考訳（メタデータ） (2025-10-17T02:33:16Z)
Bootstrapping Grounded Chain-of-Thought in Multimodal LLMs for Data-Efficient Model Adaptation [25.283739839182147]
MLLMをChain-of-Thought(CoT)推論データでトレーニングすることで、特殊な視覚タスクにおけるモデル適応が容易になることを示す。我々は,CoTデータに接地情報を注入することを目的とした,単純なブートストラップに基づくアプローチであるグラウンドド・チェーン・オブ・ワット(GCoT)を提案する。様々な視覚形式をカバーする5つの視覚タスクに対するアプローチの評価を行った。
論文参考訳（メタデータ） (2025-07-03T17:59:29Z)
Unsupervised Topic Models are Data Mixers for Pre-training Language Models [6.77198566340415]
大規模言語モデル(LLM)のためのトピックベースのデータ混合戦略を提案する。 DataWeaveは、セマンティックに類似したドキュメントをグループ化するために、マルチステージクラスタリングプロセスを採用している。我々は、サイエンスとリレーションシップのトピックが特に効果的であることを確認し、最も実質的なパフォーマンス改善をもたらす。
論文参考訳（メタデータ） (2025-02-24T03:25:56Z)
Beyond Confusion: A Fine-grained Dialectical Examination of Human Activity Recognition Benchmark Datasets [4.249657064343807]
HAR(Human Activity Recognition)のための機械学習アルゴリズムの研究は、公開データセットで大きく進歩した。トランスフォーマーのような最近のモデルは、ベンチマーク指標から限られた成功を収めたHARデータセットに適用されている。本稿では,6つの人気のあるHARベンチマークデータセットのきめ細かい検査を行うことで,これらのオープンな問題に対処することを目的とする。
論文参考訳（メタデータ） (2024-12-12T07:53:17Z)
Matchmaker: Self-Improving Large Language Model Programs for Schema Matching [60.23571456538149]
本稿では,スキーママッチングのための合成言語モデルプログラムを提案する。 Matchmakerは、ラベル付きデモを必要とせずに、ゼロショットで自己改善する。実証的に、Matchmakerが以前のMLベースのアプローチより優れている実世界の医療スキーママッチングベンチマークを実証する。
論文参考訳（メタデータ） (2024-10-31T16:34:03Z)
An Information Criterion for Controlled Disentanglement of Multimodal Data [39.601584166020274]
マルチモーダル表現学習は、複数のモーダルに固有の情報を関連付けて分解しようとする。 Disentangled Self-Supervised Learning (DisentangledSSL)は、非角表現を学習するための新しい自己教師型アプローチである。
論文参考訳（メタデータ） (2024-10-31T14:57:31Z)
Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文参考訳（メタデータ） (2024-10-31T06:55:24Z)
Context is Key: A Benchmark for Forecasting with Essential Textual Information [87.3175915185287]
コンテキスト・イズ・キー (Context is Key) (CiK) は、時系列予測ベンチマークであり、様々な種類のテキストコンテキストと数値データをペアリングする。我々は,統計モデル,時系列基礎モデル,LLMに基づく予測モデルなど,さまざまなアプローチを評価する。実験では、文脈情報の導入の重要性を強調し、LLMに基づく予測モデルを用いた場合の驚くべき性能を示すとともに、それらの重要な欠点を明らかにした。
論文参考訳（メタデータ） (2024-10-24T17:56:08Z)
Detecting Training Data of Large Language Models via Expectation Maximization [62.28028046993391]
メンバーシップ推論攻撃(MIA)は、特定のインスタンスがターゲットモデルのトレーニングデータの一部であるかどうかを判断することを目的としている。大規模言語モデル(LLM)にMIAを適用することは、事前学習データの大規模化と、会員シップのあいまいさによって、ユニークな課題をもたらす。 EM-MIAは,予測最大化アルゴリズムを用いて,メンバーシップスコアとプレフィックススコアを反復的に洗練するLLMの新しいMIA手法である。
論文参考訳（メタデータ） (2024-10-10T03:31:16Z)
FineCops-Ref: A new Dataset and Task for Fine-Grained Compositional Referring Expression Comprehension [10.482908189805872]
Referring Expression (REC) は言語理解能力、画像理解能力、言語と画像の接地能力を客観的に評価する重要なクロスモーダルタスクである。我々は2つの重要な特徴を特徴とする新しいRECデータセットを構築した。これには、既存のデータに基づいて微細な編集と生成によって作成された否定的なテキストと画像が含まれる。
論文参考訳（メタデータ） (2024-09-23T06:56:51Z)
Minimally Supervised Learning using Topological Projections in Self-Organizing Maps [55.31182147885694]
自己組織化マップ(SOM)におけるトポロジカルプロジェクションに基づく半教師付き学習手法を提案する。提案手法は,まずラベル付きデータ上でSOMを訓練し,最小限のラベル付きデータポイントをキーベストマッチングユニット(BMU)に割り当てる。提案した最小教師付きモデルが従来の回帰手法を大幅に上回ることを示す。
論文参考訳（メタデータ） (2024-01-12T22:51:48Z)
Semantic-Preserving Feature Partitioning for Multi-View Ensemble Learning [11.415864885658435]
本稿では,情報理論に基づく新しい手法であるセマンティック・保存特徴分割(SPFP)アルゴリズムを紹介する。 SPFPアルゴリズムは、データセットを複数のセマンティックな一貫したビューに効果的に分割し、マルチビューアンサンブル学習プロセスを強化する。モデル精度を維持しつつ、高い一般化性能が達成可能なシナリオにおける不確実性対策を大幅に改善する。
論文参考訳（メタデータ） (2024-01-11T20:44:45Z)
Improving Classifier Training Efficiency for Automatic Cyberbullying Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文参考訳（メタデータ） (2021-11-02T15:48:28Z)
The Surprising Performance of Simple Baselines for Misinformation Detection [4.060731229044571]
我々は、現代のトランスフォーマーベースの言語モデルの広いセットのパフォーマンスを調べます。誤情報検出の新たな手法の創出と評価のベースラインとして,本フレームワークを提案する。
論文参考訳（メタデータ） (2021-04-14T16:25:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。