論文の概要: Vilio: State-of-the-art Visio-Linguistic Models applied to Hateful Memes
- arxiv url: http://arxiv.org/abs/2012.07788v1
- Date: Mon, 14 Dec 2020 18:25:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-08 14:45:35.848907
- Title: Vilio: State-of-the-art Visio-Linguistic Models applied to Hateful Memes
- Title(参考訳): Vilio:Hateful Memesに適用された最先端のVisio-Linguistic Model
- Authors: Niklas Muennighoff
- Abstract要約: Vilioは最先端のビジュアル言語モデルの実装です。
Vilioの目標は、視覚言語問題にユーザーフレンドリーな出発点を提供することです。
Vilioで実装された5つの異なるV+Lモデルのアンサンブルは、3,300人の参加者のうちのHateful Memes Challengeで2位を獲得します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work presents Vilio, an implementation of state-of-the-art
visio-linguistic models and their application to the Hateful Memes Dataset. The
implemented models have been fitted into a uniform code-base and altered to
yield better performance. The goal of Vilio is to provide a user-friendly
starting point for any visio-linguistic problem. An ensemble of 5 different V+L
models implemented in Vilio achieves 2nd place in the Hateful Memes Challenge
out of 3,300 participants. The code is available at
https://github.com/Muennighoff/vilio.
- Abstract(参考訳): この研究は、最先端のビリオ言語モデルの実装であるVilioとそのHateful Memes Datasetへの適用について紹介する。
実装されたモデルは、統一されたコードベースに適合し、パフォーマンスを改善するために変更されている。
Vilioの目標は、視覚言語の問題にユーザフレンドリーな出発点を提供することだ。
Vilioで実装された5つの異なるV+Lモデルのアンサンブルは、3300人の参加者のうち2位を獲得した。
コードはhttps://github.com/muennighoff/vilioで入手できる。
関連論文リスト
- ViSTa Dataset: Do vision-language models understand sequential tasks? [6.039062076849557]
強化学習における報酬モデルとして視覚言語モデル(VLM)を使用することは、コスト削減と安全性の向上を約束する。
逐次タスクの視覚的理解を評価するためのデータセットであるViSTaを紹介する。
ViSTaは4000本以上のビデオと、仮想ホーム、Minecraft、および現実世界の環境におけるステップバイステップの説明で構成されている。
論文 参考訳(メタデータ) (2024-11-20T11:19:22Z) - Run-time Observation Interventions Make Vision-Language-Action Models More Visually Robust [9.647148940880381]
視覚言語アクション(VLA)モデルは、大規模なインターネットデータとロボットのデモンストレーションに基づいて訓練され、汎用的なロボットポリシーとして機能する可能性がある。
本稿では,入力画像の領域を動的に識別するリアルタイム介入方式である bring Your Own VLA (BYOVLA) を紹介する。
我々は,BYOVLAが最先端のVLAモデルに対して,邪魔な対象や背景が存在する場合に,その名目上の性能をほぼ維持できることを示す。
論文 参考訳(メタデータ) (2024-10-02T19:29:24Z) - Qwen2-VL: Enhancing Vision-Language Model's Perception of the World at Any Resolution [82.38677987249348]
本稿では,従来の視覚処理における既定分解能アプローチを再定義するQwen2-VLシリーズを提案する。
Qwen2-VLでは、さまざまな解像度の画像を異なる数のビジュアルトークンに動的に処理できるNaive Dynamic Resolutionメカニズムが導入されている。
また、Multimodal Rotary Position Embedding (M-RoPE)を統合し、テキスト、画像、ビデオ間で位置情報の効果的な融合を容易にする。
論文 参考訳(メタデータ) (2024-09-18T17:59:32Z) - Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models [73.40350756742231]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。
新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
論文 参考訳(メタデータ) (2024-02-12T18:21:14Z) - MobileVLM : A Fast, Strong and Open Vision Language Assistant for Mobile
Devices [73.46317110474064]
MobileVLM (MobileVLM) は、モバイルデバイス上で動作する多モード視覚言語モデル(MMVLM)である。
これは、CLIP方式で事前訓練されたマルチモーダル視覚モデルである、スクラッチからトレーニングされた1.4Bと2.7Bのスケールの言語モデルで構成されている。
論文 参考訳(メタデータ) (2023-12-28T08:21:24Z) - ViT-Lens: Towards Omni-modal Representations [64.66508684336614]
ViT-Lens-2は、モダリティ増加の表現学習のためのフレームワークである。
ViT-Lens-2は3Dポイントクラウド,奥行き,オーディオ,触覚,脳波の表現を学習できることを示す。
ViT-Lens-2をシームレスにMultimodal Foundation Modelsに統合することにより、テキストと画像生成へのAny-modalityを可能にする。
論文 参考訳(メタデータ) (2023-11-27T18:52:09Z) - ViT-Lens: Initiating Omni-Modal Exploration through 3D Insights [61.36309876889977]
ViT-Lensは、事前訓練されたViTで新しいモダリティを知覚し、予め定義された空間に整列することで、効率的なOmni-Modal表現学習を可能にする。
ゼロショット3D分類では、ViT-Lensは従来の最先端技術よりも大幅に改善されている。
近い将来、さらなるモダリティに関するViT-Lensの結果を公表します。
論文 参考訳(メタデータ) (2023-08-20T07:26:51Z) - FAME-ViL: Multi-Tasking Vision-Language Model for Heterogeneous Fashion
Tasks [129.49630356651454]
ファシオンに着目した視覚・言語タスクのための多タスク学習手法(FAME-ViL)を提案する。
我々のFAME-ViLは、代替案よりも61.5%のパラメータを節約できるが、従来の独立的に訓練されたシングルタスクモデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2023-03-04T19:07:48Z) - V$^2$L: Leveraging Vision and Vision-language Models into Large-scale
Product Retrieval [32.28772179053869]
本稿では,eBay eProduct Visual Search Challenge (FGVC9)における第1位ソリューションについて紹介する。
視覚モデルと視覚言語モデルを組み合わせることで、その相補性から特別なメリットが得られ、私たちの優位性にとって重要な要素であることが示される。
論文 参考訳(メタデータ) (2022-07-26T15:53:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。