論文の概要: Families In Wild Multimedia: A Multimodal Database for Recognizing
Kinship
- arxiv url: http://arxiv.org/abs/2007.14509v6
- Date: Fri, 1 Oct 2021 20:16:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-06 02:38:05.078509
- Title: Families In Wild Multimedia: A Multimodal Database for Recognizing
Kinship
- Title(参考訳): 野生マルチメディアの家族:親族認識のためのマルチモーダルデータベース
- Authors: Joseph P. Robinson, Zaid Khan, Yu Yin, Ming Shao, Yun Fu
- Abstract要約: マルチタスク MM キンシップデータセットを初めて公開する。
FIW MMを構築するために,データを自動収集,注釈付け,作成する機構を開発した。
結果は、改善の異なる領域で将来の研究を刺激するエッジケースを強調します。
- 参考スコア(独自算出の注目度): 63.27052967981546
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Kinship, a soft biometric detectable in media, is fundamental for a myriad of
use-cases. Despite the difficulty of detecting kinship, annual data challenges
using still-images have consistently improved performances and attracted new
researchers. Now, systems reach performance levels unforeseeable a decade ago,
closing in on performances acceptable to deploy in practice. Like other
biometric tasks, we expect systems can receive help from other modalities. We
hypothesize that adding modalities to FIW, which has only still-images, will
improve performance. Thus, to narrow the gap between research and reality and
enhance the power of kinship recognition systems, we extend FIW with multimedia
(MM) data (i.e., video, audio, and text captions). Specifically, we introduce
the first publicly available multi-task MM kinship dataset. To build FIW MM, we
developed machinery to automatically collect, annotate, and prepare the data,
requiring minimal human input and no financial cost. The proposed MM corpus
allows the problem statements to be more realistic template-based protocols. We
show significant improvements in all benchmarks with the added modalities. The
results highlight edge cases to inspire future research with different areas of
improvement. FIW MM supplies the data needed to increase the potential of
automated systems to detect kinship in MM. It also allows experts from diverse
fields to collaborate in novel ways.
- Abstract(参考訳): Kinshipは、メディアで検出可能な軟式バイオメトリックーであり、無数のユースケースに基本である。
親族関係を検出することの難しさにもかかわらず、静止画像を用いた年次データ課題は一貫してパフォーマンスを改善し、新しい研究者を惹きつけた。
現在、システムは10年前に予期せぬパフォーマンスレベルに達しており、実際にデプロイできるパフォーマンスを閉じています。
他のバイオメトリックタスクと同様に、システムは他のモダリティから助けを受けることができると期待しています。
静止画像のみを持つFIWにモダリティを加えることで性能が向上すると仮定する。
したがって、研究と現実の間のギャップを狭め、キンシップ認識システムのパワーを高めるために、fiwをマルチメディアデータ(すなわち、ビデオ、オーディオ、テキストキャプション)で拡張する。
具体的には、初めて公開されたマルチタスクmm kinshipデータセットを紹介します。
FIW MMを構築するために,人間の入力が最小限で費用がかからないデータを自動的に収集,注釈,作成する装置を開発した。
提案したMMコーパスにより,問題文をよりリアルなテンプレートベースのプロトコルにすることができる。
追加のモダリティにより,すべてのベンチマークで大幅な改善が見られた。
結果は、異なる改善領域で将来の研究を刺激するエッジケースを強調する。
FIW MMは、MMの親交を検出する自動化システムの可能性を高めるために必要なデータを提供する。
また、様々な分野の専門家が新しい方法で協力できる。
関連論文リスト
- MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。
MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。
インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文 参考訳(メタデータ) (2024-10-14T04:15:00Z) - MMSearch: Benchmarking the Potential of Large Models as Multi-modal Search Engines [91.08394877954322]
大規模マルチモーダルモデル(LMM)は、AI検索エンジンにおいて目覚ましい進歩を遂げた。
しかし、AI検索エンジンとして機能するかどうかはまだ未定だ。
まず,マルチモーダル検索機能を備えた任意のLMMに対して,センシティブなパイプラインMMSearch-Engineを設計する。
論文 参考訳(メタデータ) (2024-09-19T17:59:45Z) - MMSci: A Dataset for Graduate-Level Multi-Discipline Multimodal Scientific Understanding [59.41495657570397]
このデータセットには、スキーマ図、シミュレーション画像、マクロ/顕微鏡写真、実験的可視化などの図が含まれている。
我々は,6つのプロプライエタリモデルと10以上のオープンソースモデルを評価し,科学的フィギュアキャプションと複数選択質問のベンチマークを開発した。
データセットとベンチマークは、さらなる研究をサポートするためにリリースされる予定だ。
論文 参考訳(メタデータ) (2024-07-06T00:40:53Z) - Exploring Fusion Techniques in Multimodal AI-Based Recruitment: Insights from FairCVdb [4.420073761023326]
マルチモーダルAIに基づく採用システムにおけるマルチモーダルフュージョン技術の公平性とバイアスの影響について検討する。
以上の結果から,早期融合は両人口の基盤的真理と密接に一致し,最も低いMAEを達成できた。
対照的に、遅延融合は高度に一般化された平均スコアとより高いMAEをもたらす。
論文 参考訳(メタデータ) (2024-06-17T12:37:58Z) - MuJo: Multimodal Joint Feature Space Learning for Human Activity Recognition [2.7532797256542403]
HAR(Human Activity Recognition)は、医療、スポーツ、フィットネス、セキュリティなど、幅広い分野で応用されているAIの長年の問題である。
本研究では,HAR 性能を向上させるため,総合的な Fitness Multimodal Activity データセット (FiMAD) を導入する。
MM-Fit,myoGym, MotionSense, MHEALTH などの実HARデータセット上で,FiMAD で事前学習した分類器の性能が向上することを示す。
論文 参考訳(メタデータ) (2024-06-06T08:42:36Z) - Exploring the Capabilities of Large Multimodal Models on Dense Text [58.82262549456294]
我々は170万の質問応答対を持つDT-VQAデータセットを提案する。
本稿では,GPT4V,Gemini,および各種オープンソースLMMの総合評価を行う。
自動的にラベル付けされたトレーニングデータセットであっても、モデルパフォーマンスの大幅な改善が達成できる。
論文 参考訳(メタデータ) (2024-05-09T07:47:25Z) - Exploring Missing Modality in Multimodal Egocentric Datasets [89.76463983679058]
モダリティが欠如している場合でも,MMT(Missing Modality Token)という新しい概念を導入してパフォーマンスを維持する。
テストセットの半分がモダル不完全である場合、元の$sim 30%$ dropから$sim 10%$に減らします。
論文 参考訳(メタデータ) (2024-01-21T11:55:42Z) - VERITE: A Robust Benchmark for Multimodal Misinformation Detection
Accounting for Unimodal Bias [17.107961913114778]
マルチモーダルの誤報は ソーシャルメディアのプラットフォームで 増え続けている問題です
本研究では,広範に使用されているMDDベンチマークにおいて,一様偏差の存在を調査・同定する。
リアルな合成学習データを生成するための新しい手法であるCrossmodal HArd Synthetic MisAlignment (CHASMA)を導入する。
論文 参考訳(メタデータ) (2023-04-27T12:28:29Z) - MELINDA: A Multimodal Dataset for Biomedical Experiment Method
Classification [14.820951153262685]
マルチモーダルbiomEdicaL experImeNtmethoD clAssificationのための新しいデータセット、MELINDAを紹介します。
データセットは、完全に自動化された遠隔監視方法で収集され、ラベルは既存のキュレーションデータベースから取得されます。
キャプションテキストまたは画像のみを入力として取得するユニモダルモデルを含む、さまざまな最先端のNLPおよびコンピュータビジョンモデルをベンチマークします。
論文 参考訳(メタデータ) (2020-12-16T19:11:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。