Fugu-MT 論文翻訳(概要): A Survey on Multi-modal Machine Translation: Tasks, Methods and Challenges

論文の概要: A Survey on Multi-modal Machine Translation: Tasks, Methods and Challenges

arxiv url: http://arxiv.org/abs/2405.12669v1
Date: Tue, 21 May 2024 10:34:47 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-22 13:39:22.806901
Title: A Survey on Multi-modal Machine Translation: Tasks, Methods and Challenges
Title（参考訳）: マルチモーダル機械翻訳に関する調査:課題,方法,課題
Authors: Huangjun Shen, Liangying Shao, Wenbo Li, Zhibin Lan, Zhanyu Liu, Jinsong Su,
Abstract要約: マルチモーダル機械翻訳は学術と産業の両方に大きな関心を集めている。テキストと視覚の両方を入力として取り、視覚的コンテキストを活用して、ソーステキストの曖昧さに対処する。
参考スコア（独自算出の注目度）: 35.873666277696096
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In recent years, multi-modal machine translation has attracted significant interest in both academia and industry due to its superior performance. It takes both textual and visual modalities as inputs, leveraging visual context to tackle the ambiguities in source texts. In this paper, we begin by offering an exhaustive overview of 99 prior works, comprehensively summarizing representative studies from the perspectives of dominant models, datasets, and evaluation metrics. Afterwards, we analyze the impact of various factors on model performance and finally discuss the possible research directions for this task in the future. Over time, multi-modal machine translation has developed more types to meet diverse needs. Unlike previous surveys confined to the early stage of multi-modal machine translation, our survey thoroughly concludes these emerging types from different aspects, so as to provide researchers with a better understanding of its current state.
Abstract（参考訳）: 近年、マルチモーダル機械翻訳は、その優れた性能のために、学術と産業の両方に大きな関心を集めている。テキストと視覚の両方を入力として取り、視覚的コンテキストを活用して、ソーステキストの曖昧さに対処する。本稿では、99の先行研究の概要を概観し、支配的なモデル、データセット、評価指標の観点から代表研究を包括的に要約することから始める。その後,様々な要因がモデル性能に与える影響を分析し,今後の課題について検討する。時間が経つにつれ、多モーダル機械翻訳は様々なニーズを満たすためにより多くのタイプを開発した。マルチモーダル機械翻訳の初期段階に限られる以前の調査とは違い,本調査では,これらの新種をさまざまな側面から徹底的に結論付け,研究者に現状の理解を深めることを目的としている。

関連論文リスト

Decoding the Multimodal Maze: A Systematic Review on the Adoption of Explainability in Multimodal Attention-based Models [0.0]
この体系的な文献レビューは、マルチモーダルモデルの説明可能性に焦点を当てた2020年1月から2024年初頭に発表された研究を分析している。マルチモーダル環境におけるXAIの評価手法は, ほぼ非体系的であり, 一貫性, 堅牢性, モダリティ特有の認知的・文脈的要因の考慮が欠如していることが判明した。
論文参考訳（メタデータ） (2025-08-06T13:14:20Z)
Vision Generalist Model: A Survey [87.49797517847132]
本稿では、ビジョンジェネラリストモデルの概要を概観し、その分野におけるその特性と能力について考察する。関連ドメインへの簡単な探索を行い、相互接続と潜在的なシナジーに光を当てます。
論文参考訳（メタデータ） (2025-06-11T17:23:41Z)
Multimodal Chain-of-Thought Reasoning: A Comprehensive Survey [124.23247710880008]
マルチモーダルCoT (MCoT) 推論は近年大きな研究の注目を集めている。既存のMCoT研究は、画像、ビデオ、音声、オーディオ、3D、構造化データの課題に対処する様々な手法を設計している。我々はMCoT推論に関する最初の体系的な調査を行い、関連する基礎概念と定義を解明する。
論文参考訳（メタデータ） (2025-03-16T18:39:13Z)
A Survey on Mechanistic Interpretability for Multi-Modal Foundation Models [74.48084001058672]
基礎モデルの台頭は機械学習の研究に変化をもたらした。マルチモーダル・ファンデーション・モデル(MMFM)は、ユニモーダル・フレームワークを超えて、ユニークな解釈可能性の課題を提起する。本研究は,(1)多モーダルモデルへのLLM解釈可能性法の適応,(2)単モーダル言語モデルとクロスモーダルシステムとの機械的差異の理解の2つの重要な側面について考察する。
論文参考訳（メタデータ） (2025-02-22T20:55:26Z)
Cross-Modal Consistency in Multimodal Large Language Models [33.229271701817616]
クロスモーダル一貫性という新しい概念を導入する。実験結果から, GPT-4V内における視覚と言語モダリティの矛盾が明らかとなった。我々の研究は、そのようなモデルの適切な利用に関する洞察と、その設計を強化するための潜在的な道のヒントを得る。
論文参考訳（メタデータ） (2024-11-14T08:22:42Z)
Recent Advances in Hate Speech Moderation: Multimodality and the Role of Large Models [52.24001776263608]
この包括的調査は、HSモデレーションの最近の歩みを掘り下げている。大型言語モデル(LLM)と大規模マルチモーダルモデル(LMM)の急成長する役割を強調した。研究における既存のギャップを、特に表現不足言語や文化の文脈で特定する。
論文参考訳（メタデータ） (2024-01-30T03:51:44Z)
Recent Advances in Direct Speech-to-text Translation [58.692782919570845]
我々は、既存の研究成果を、モデリングの負担、データの不足、アプリケーション問題という3つの課題に基づいて分類する。データ不足の課題に対して、最近の研究は、データ強化、事前学習、知識蒸留、多言語モデリングなど、多くの高度な技術を活用している。我々は、リアルタイム、セグメンテーション、名前付きエンティティ、性別バイアス、コードスイッチングなど、アプリケーションの問題を分析して要約する。
論文参考訳（メタデータ） (2023-06-20T16:14:27Z)
Improving Factuality and Reasoning in Language Models through Multiagent Debate [95.10641301155232]
複数の言語モデルインスタンスが共通の最終回答に到達するために、複数のラウンドで個別の応答と推論プロセスを提案し、議論する言語応答を改善するための補完的なアプローチを提案する。以上の結果から,本手法は様々なタスクにおける数学的・戦略的推論を著しく向上させることが示唆された。我々のアプローチは、既存のブラックボックスモデルに直接適用され、調査するすべてのタスクに対して、同じ手順とプロンプトを使用することができる。
論文参考訳（メタデータ） (2023-05-23T17:55:11Z)
Multilingual Multimodality: A Taxonomical Survey of Datasets, Techniques, Challenges and Opportunities [10.721189858694396]
マルチ言語とマルチモーダル(MultiX)ストリームの統合について検討する。我々は、並列アノテーションで研究された言語、金または銀のデータを調べ、これらのモダリティと言語がモデリングにおいてどのように相互作用するかを理解する。モデリングアプローチの長所と短所とともに、どのシナリオを確実に使用できるのかをよりよく理解するために、モデリングアプローチについて説明します。
論文参考訳（メタデータ） (2022-10-30T21:46:01Z)
Vision+X: A Survey on Multimodal Learning in the Light of Data [64.03266872103835]
様々なソースからのデータを組み込んだマルチモーダル機械学習が,ますます普及している研究分野となっている。我々は、視覚、音声、テキスト、動きなど、各データフォーマットの共通点と特異点を分析する。本稿では,表現学習と下流アプリケーションレベルの両方から,マルチモーダル学習に関する既存の文献を考察する。
論文参考訳（メタデータ） (2022-10-05T13:14:57Z)
Logically at the Factify 2022: Multimodal Fact Verification [2.8914815569249823]
本稿では,AAAI 2022におけるマルチモーダル事実検証(Factify)課題の参加者システムについて述べる。アンサンブルモデルとマルチモーダルアテンションネットワークを含む2つのベースラインアプローチを提案し,検討した。我々の最良モデルは、検証セットとテストセットの両方において、重み付き平均F値が0.77となるリーダーボードで第1位にランクされている。
論文参考訳（メタデータ） (2021-12-16T23:34:07Z)
Multilingual Multi-Aspect Explainability Analyses on Machine Reading Comprehension Models [76.48370548802464]
本稿では,マルチヘッド自己注意と最終MRCシステム性能の関係を検討するために,一連の解析実験を実施することに焦点を当てる。問合せ及び問合せ理解の注意が問合せプロセスにおいて最も重要なものであることが判明した。包括的可視化とケーススタディを通じて、注意マップに関するいくつかの一般的な知見も観察し、これらのモデルがどのように問題を解くかを理解するのに役立ちます。
論文参考訳（メタデータ） (2021-08-26T04:23:57Z)
A Comprehensive Survey of Multilingual Neural Machine Translation [22.96845346423759]
我々は多言語ニューラルマシン翻訳(MNMT)について調査する。 MNMTは、機械翻訳の研究のために、エンドツーエンドのモデリングと分散表現が新しい道を開くため、統計機械翻訳よりも有望である。まず、その中心となるユースケースに基づいて様々なアプローチを分類し、さらにリソースシナリオ、基礎となるモデリング原則、コアイシュー、課題に基づいてそれらを分類します。
論文参考訳（メタデータ） (2020-01-04T19:38:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。