論文の概要: ZR-2021VG: Zero-Resource Speech Challenge, Visually-Grounded Language
Modelling track, 2021 edition
- arxiv url: http://arxiv.org/abs/2107.06546v1
- Date: Wed, 14 Jul 2021 08:29:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-15 23:21:29.182963
- Title: ZR-2021VG: Zero-Resource Speech Challenge, Visually-Grounded Language
Modelling track, 2021 edition
- Title(参考訳): ZR-2021VG: Zero-Resource Speech Challenge, Visually-Grounded Language Modelling Track, 2021 edition
- Authors: Afra Alishahia, Grzegorz Chrupa{\l}a, Alejandrina Cristia, Emmanuel
Dupoux, Bertrand Higy, Marvin Lavechin, Okko R\"as\"anen and Chen Yu
- Abstract要約: このトラックは、Zero-Resource Speech Challenge、2021年版、第2ラウンドで導入された。
我々は、新しいトラックを動機付け、参加ルールを詳細に議論する。
また,このトラック用に開発された2つのベースラインシステムについても紹介する。
- 参考スコア(独自算出の注目度): 96.87241233266448
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present the visually-grounded language modelling track that was introduced
in the Zero-Resource Speech challenge, 2021 edition, 2nd round. We motivate the
new track and discuss participation rules in detail. We also present the two
baseline systems that were developed for this track.
- Abstract(参考訳): 本稿では,Zero-Resource Speech Challenge, 2021 Edition, 2nd Roundで導入された,視覚的な言語モデリングトラックについて紹介する。
我々は新しいトラックを動機付け、参加ルールを詳細に議論する。
このトラック用に開発された2つのベースラインシステムについても紹介する。
関連論文リスト
- The NPU-HWC System for the ISCSLP 2024 Inspirational and Convincing Audio Generation Challenge [12.862628838633396]
本稿では,ISCSLP 2024 Inspirational and Convincing Audio Generation Challenge 2024(ICAGC)に提出されたNPU-HWCシステムについて述べる。
本システムは,トラック1の音声生成装置とトラック2の音声生成装置の2つのモジュールから構成される。
論文 参考訳(メタデータ) (2024-10-31T10:58:59Z) - TCG CREST System Description for the Second DISPLACE Challenge [19.387615374726444]
2024年の第2回DisPLACEチャレンジのために,我々のチームが開発した話者ダイアリゼーション(SD)と言語ダイアリゼーション(LD)システムについて述べる。
コントリビューションは,多言語および多話者シナリオにおいて,トラック1 for SDとトラック2 for LDに充てられた。
論文 参考訳(メタデータ) (2024-09-16T05:13:34Z) - Overview of AI-Debater 2023: The Challenges of Argument Generation Tasks [62.443665295250035]
第2023回中国影響コンピューティング会議(CCAC 2023)におけるAI-Debater 2023チャレンジの結果を提示する。
合計で32のチームがチャレンジに登録し、そこから11の応募をもらいました。
論文 参考訳(メタデータ) (2024-07-20T10:13:54Z) - Findings of the 2023 ML-SUPERB Challenge: Pre-Training and Evaluation
over More Languages and Beyond [89.54151859266202]
2023年のMultilingual Speech Universal Performance Benchmark (ML-SUPERB) Challengeは、宣言されたSUPERBフレームワークに拡張される。
この挑戦は12のモデル提出と54の言語コーパスを集め、154の言語を含む包括的なベンチマークをもたらした。
この結果は、単にスケーリングモデルが多言語音声タスクにおける決定的な解決策ではないことを示唆している。
論文 参考訳(メタデータ) (2023-10-09T08:30:01Z) - NICE: CVPR 2023 Challenge on Zero-shot Image Captioning [149.28330263581012]
NICEプロジェクトは、堅牢な画像キャプションモデルを開発するためにコンピュータビジョンコミュニティに挑戦するために設計されている。
レポートには、新たに提案されたNICEデータセット、評価方法、課題結果、トップレベルのエントリの技術的な詳細などが含まれている。
論文 参考訳(メタデータ) (2023-09-05T05:32:19Z) - GroundNLQ @ Ego4D Natural Language Queries Challenge 2023 [73.12670280220992]
映像を正確にグラウンドするには、効果的なエゴセントリック特徴抽出器と強力なグラウンドモデルが必要である。
我々は,2段階の事前学習戦略を利用して,ビデオナレーションにおけるエゴセントリックな特徴抽出器とグラウンドングモデルを訓練する。
さらに,マルチモーダルなマルチスケールグラウンドモジュールを用いた新しいグラウンドグラウンドモデル GroundNLQ を提案する。
論文 参考訳(メタデータ) (2023-06-27T07:27:52Z) - A Study on the Integration of Pipeline and E2E SLU systems for Spoken
Semantic Parsing toward STOP Quality Challenge [33.89616011003973]
本稿では,音声言語理解グランドチャレンジにおける品質トラック(トラック1)のための音声意味解析システムについて述べる。
Whisperのような強自動音声認識(ASR)モデルとBARTのような事前訓練言語モデル(LM)は、我々のSLUフレームワーク内で利用され、性能が向上する。
また,各モデルの出力レベルの組み合わせについて,精度80.8の精度で検討し,第1位を獲得した。
論文 参考訳(メタデータ) (2023-05-02T17:25:19Z) - Self-Supervised Representation Learning for Speech Using Visual
Grounding and Masked Language Modeling [13.956691231452336]
FaST-VGSはトランスフォーマーをベースとしたモデルで、生音声波形と意味論的関連画像の関連付けを学習する。
FaST-VGS+は、マスク付き言語モデリングの目的を持つマルチタスク方式で学習される。
我々のモデルはABXタスク上で競合的に動作し、SyntacticおよびSemanticタスクにおける他のコンカレントサブミッションよりも優れており、Lexicalタスクにおける最高のシステムとほぼ一致していることを示す。
論文 参考訳(メタデータ) (2022-02-07T22:09:54Z) - Two-Stream Consensus Network: Submission to HACS Challenge 2021
Weakly-Supervised Learning Track [78.64815984927425]
弱い監督による時間的行動ローカライゼーションの目標は、ビデオの興味ある動作を時間的に特定し、分類することである。
この課題では,2ストリームコンセンサスネットワーク(TSCN)を主要なフレームワークとして採用しています。
この課題では,本手法が今後の学術研究のベースラインとなることを期待して,第2位にランクインした。
論文 参考訳(メタデータ) (2021-06-21T03:36:36Z) - The Zero Resource Speech Challenge 2020: Discovering discrete subword
and word units [40.41406551797358]
Zero Resource Speech Challenge 2020は、ラベルなしで生の音声信号から音声表現を学ぶことを目的としている。
提案した20のモデルの結果を提示し、教師なし音声学習における主な研究結果の意義について考察する。
論文 参考訳(メタデータ) (2020-10-12T18:56:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。