論文の概要: MIP-GAF: A MLLM-annotated Benchmark for Most Important Person Localization and Group Context Understanding
- arxiv url: http://arxiv.org/abs/2409.06224v1
- Date: Tue, 10 Sep 2024 05:28:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-11 19:00:01.259950
- Title: MIP-GAF: A MLLM-annotated Benchmark for Most Important Person Localization and Group Context Understanding
- Title(参考訳): MIP-GAF:最重要人物位置推定とグループコンテキスト理解のためのMLLMアノテーション付きベンチマーク
- Authors: Surbhi Madan, Shreya Ghosh, Lownish Rai Sookha, M. A. Ganaie, Ramanathan Subramanian, Abhinav Dhall, Tom Gedeon,
- Abstract要約: 社会的イベント設定において最も重要な人物(MIP)を推定することは、ラベル付きデータのコンテキスト的複雑さと不足のために難しい問題である。
我々は、画像中のMIPに関する人間の知覚を識別するために、大規模な「ワイルド」データセットに注釈を付けることで、この問題に対処することを目指している。
提案するデータセットは,次世代の社会状況理解手法を構築する上で重要な役割を果たす。
- 参考スコア(独自算出の注目度): 12.572321050617571
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Estimating the Most Important Person (MIP) in any social event setup is a challenging problem mainly due to contextual complexity and scarcity of labeled data. Moreover, the causality aspects of MIP estimation are quite subjective and diverse. To this end, we aim to address the problem by annotating a large-scale `in-the-wild' dataset for identifying human perceptions about the `Most Important Person (MIP)' in an image. The paper provides a thorough description of our proposed Multimodal Large Language Model (MLLM) based data annotation strategy, and a thorough data quality analysis. Further, we perform a comprehensive benchmarking of the proposed dataset utilizing state-of-the-art MIP localization methods, indicating a significant drop in performance compared to existing datasets. The performance drop shows that the existing MIP localization algorithms must be more robust with respect to `in-the-wild' situations. We believe the proposed dataset will play a vital role in building the next-generation social situation understanding methods. The code and data is available at https://github.com/surbhimadan92/MIP-GAF.
- Abstract(参考訳): 社会的イベント設定において最も重要な人物(MIP)を推定することは、主にラベル付きデータのコンテキスト的複雑さと不足のために難しい問題である。
さらに、MIP推定の因果関係は、非常に主観的で多様である。
この目的のために,画像中の「最重要人物」(MIP)に関する人間の知覚を識別するために,大規模"in-the-wild"データセットに注釈を付けることで,この問題に対処することを目的とする。
本稿では,MLLMに基づくデータアノテーション戦略の詳細な説明と,データ品質解析について述べる。
さらに、最先端のMIPローカライゼーション手法を用いて提案したデータセットの総合的なベンチマークを行い、既存のデータセットと比較して性能が大幅に低下したことを示す。
性能低下は、既存のMIPローカライゼーションアルゴリズムが 'in-the-wild' 状況に対してより堅牢でなければならないことを示している。
提案したデータセットは,次世代の社会状況理解手法を構築する上で重要な役割を果たすものと信じている。
コードとデータはhttps://github.com/surbhimadan92/MIP-GAFで公開されている。
関連論文リスト
- Data-Centric AI in the Age of Large Language Models [51.20451986068925]
本稿では,大規模言語モデル(LLM)に着目した,AI研究におけるデータ中心の視点を提案する。
本研究では,LLMの発達段階(事前学習や微調整など)や推論段階(文脈内学習など)において,データが有効であることを示す。
データを中心とした4つのシナリオを特定し、データ中心のベンチマークとデータキュレーション、データ属性、知識伝達、推論コンテキスト化をカバーします。
論文 参考訳(メタデータ) (2024-06-20T16:34:07Z) - CLAIM Your Data: Enhancing Imputation Accuracy with Contextual Large Language Models [0.18416014644193068]
本稿では,精度インプット法(CLAIM)の文脈言語モデルを提案する。
従来の計算法とは異なり、CLAIMは文脈に関連のある自然言語記述子を使用して、欠落した値を埋める。
多様なデータセットや欠落パターンに対する評価は,既存の計算手法よりもCLAIMの方が優れた性能を示している。
論文 参考訳(メタデータ) (2024-05-28T00:08:29Z) - Minimally Supervised Learning using Topological Projections in
Self-Organizing Maps [55.31182147885694]
自己組織化マップ(SOM)におけるトポロジカルプロジェクションに基づく半教師付き学習手法を提案する。
提案手法は,まずラベル付きデータ上でSOMを訓練し,最小限のラベル付きデータポイントをキーベストマッチングユニット(BMU)に割り当てる。
提案した最小教師付きモデルが従来の回帰手法を大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-01-12T22:51:48Z) - Semantic-Preserving Feature Partitioning for Multi-View Ensemble
Learning [11.415864885658435]
本稿では,情報理論に基づく新しい手法であるセマンティック・保存特徴分割(SPFP)アルゴリズムを紹介する。
SPFPアルゴリズムは、データセットを複数のセマンティックな一貫したビューに効果的に分割し、マルチビューアンサンブル学習プロセスを強化する。
モデル精度を維持しつつ、高い一般化性能が達成可能なシナリオにおける不確実性対策を大幅に改善する。
論文 参考訳(メタデータ) (2024-01-11T20:44:45Z) - Adapting LLMs for Efficient, Personalized Information Retrieval: Methods
and Implications [0.7832189413179361]
LLM(Large Language Models)は、人間に似たテキストの理解と生成に優れた言語モデルである。
本稿では,言語モデル(LLM)と情報検索(IR)システムの統合戦略について検討する。
論文 参考訳(メタデータ) (2023-11-21T02:01:01Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - DataPerf: Benchmarks for Data-Centric AI Development [81.03754002516862]
DataPerfは、MLデータセットとデータ中心アルゴリズムを評価するための、コミュニティ主導のベンチマークスイートである。
私たちは、この反復的な開発をサポートするために、複数の課題を抱えたオープンなオンラインプラットフォームを提供しています。
ベンチマーク、オンライン評価プラットフォーム、ベースライン実装はオープンソースである。
論文 参考訳(メタデータ) (2022-07-20T17:47:54Z) - Local Learning Matters: Rethinking Data Heterogeneity in Federated
Learning [61.488646649045215]
フェデレートラーニング(FL)は、クライアントのネットワーク(エッジデバイス)でプライバシ保護、分散ラーニングを行うための有望な戦略である。
論文 参考訳(メタデータ) (2021-11-28T19:03:39Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z) - The Surprising Performance of Simple Baselines for Misinformation
Detection [4.060731229044571]
我々は、現代のトランスフォーマーベースの言語モデルの広いセットのパフォーマンスを調べます。
誤情報検出の新たな手法の創出と評価のベースラインとして,本フレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-14T16:25:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。