Fugu-MT 論文翻訳(概要): A Vision-free Baseline for Multimodal Grammar Induction

論文の概要: A Vision-free Baseline for Multimodal Grammar Induction

arxiv url: http://arxiv.org/abs/2212.10564v2
Date: Tue, 31 Oct 2023 17:22:17 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-02 04:22:23.898860
Title: A Vision-free Baseline for Multimodal Grammar Induction
Title（参考訳）: マルチモーダル文法誘導のためのビジョンフリーベースライン
Authors: Boyi Li and Rodolfo Corona and Karttikeya Mangalam and Catherine Chen and Daniel Flaherty and Serge Belongie and Kilian Q. Weinberger and Jitendra Malik and Trevor Darrell and Dan Klein
Abstract要約: テキストでのみ訓練された大規模言語モデル(LLM)の進歩が,マルチモーダル環境における文法誘導の強力な支援となるかを検討する。テキストのみのアプローチであるLCMベースのC-PCFGは,従来のマルチモーダル手法よりも優れていた。これらの結果は、テキストのみの言語モデルには、マルチモーダルな文脈における文法の帰納を支援する視覚的な接頭辞が含まれるかもしれないという概念を浮き彫りにした。
参考スコア（独自算出の注目度）: 123.0364325619215
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Past work has shown that paired vision-language signals substantially improve grammar induction in multimodal datasets such as MSCOCO. We investigate whether advancements in large language models (LLMs) that are only trained with text could provide strong assistance for grammar induction in multimodal settings. We find that our text-only approach, an LLM-based C-PCFG (LC-PCFG), outperforms previous multi-modal methods, and achieves state-of-the-art grammar induction performance for various multimodal datasets. Compared to image-aided grammar induction, LC-PCFG outperforms the prior state-of-the-art by 7.9 Corpus-F1 points, with an 85% reduction in parameter count and 1.7x faster training speed. Across three video-assisted grammar induction benchmarks, LC-PCFG outperforms prior state-of-the-art by up to 7.7 Corpus-F1, with 8.8x faster training. These results shed light on the notion that text-only language models might include visually grounded cues that aid in grammar induction in multimodal contexts. Moreover, our results emphasize the importance of establishing a robust vision-free baseline when evaluating the benefit of multimodal approaches.
Abstract（参考訳）: 過去の研究によると、MSCOCOのようなマルチモーダルデータセットにおけるペア視覚言語信号は文法誘導を大幅に改善している。テキストでのみ訓練された大規模言語モデル(LLM)の進歩が,マルチモーダル環境における文法誘導の強力な支援となるかを検討する。テキストのみのアプローチであるLC-PCFG(LC-PCFG)は,従来のマルチモーダル手法よりも優れ,様々なマルチモーダルデータセットに対して最先端の文法誘導性能を実現する。 LC-PCFGは画像支援文法帰納法と比較して、7.9コーパス-F1ポイントの先行状態を85%削減し、訓練速度は1.7倍に向上した。 3つのビデオ支援文法誘導ベンチマークでLC-PCFGは最先端の7.7 Corpus-F1を8.8倍高速化した。これらの結果は、テキストのみの言語モデルには、マルチモーダルな文脈における文法の帰納を支援する視覚的な手がかりが含まれるかもしれないという概念に光を当てた。さらに,マルチモーダルアプローチのメリットを評価する上で,堅牢なビジョンフリーなベースラインを確立することの重要性も強調する。

関連論文リスト

CSE-SFP: Enabling Unsupervised Sentence Representation Learning via a Single Forward Pass [3.0566617373924325]
プレトレーニング言語モデル(PLM)の最近の進歩は、この分野において顕著な進歩をもたらした。 CSE-SFPは,生成モデルの構造的特徴を利用する革新的な手法である。 CSE-SFPは高品質な埋め込みを実現するだけでなく、トレーニング時間とメモリ消費を著しく削減する。
論文参考訳（メタデータ） (2025-05-01T08:27:14Z)
What Differentiates Educational Literature? A Multimodal Fusion Approach of Transformers and Computational Linguistics [0.7342677574855649]
英語カリキュラムへの新しい文学の統合は、様々な教室のニーズに対して、読みやすさとテキストの適応を迅速に評価するスケーラブルなツールがしばしば欠如しているため、依然として課題である。本研究は,変圧器を用いたテキスト分類と言語的特徴分析を組み合わせたマルチモーダル手法により,このギャップに対処することを提案する。提案手法は、ステークホルダーが対象とするWebアプリケーションにカプセル化され、非技術ステークホルダーが、テキストの複雑さ、読みやすさ、カリキュラムのアライメント、学習年齢範囲に関するリアルタイムな洞察にアクセスできるようにする。
論文参考訳（メタデータ） (2024-11-26T17:01:27Z)
SelfSeg: A Self-supervised Sub-word Segmentation Method for Neural Machine Translation [51.881877192924414]
サブワードセグメンテーションはニューラルマシン翻訳(NMT)に不可欠な前処理ステップである本稿では,自己教師型ニューラルネットワークサブワードセグメンテーション手法であるSelfSegを紹介する。 SelfSegはトレーニング/デコードがはるかに高速で、並列コーパスの代わりに単言語辞書のみを必要とする。
論文参考訳（メタデータ） (2023-07-31T04:38:47Z)
Prompt-Augmented Linear Probing: Scaling beyond the Limit of Few-shot In-Context Learners [25.262774179224945]
本稿では,線形探索とインコンテクスト学習のハイブリッドであるPALP(Properced-augmented linear probing)を提案する。 PALPは、データハングリーシナリオにおけるICL間のギャップを閉じる入力表現と、トレーニングオーバーヘッドの少ないデータバウンダントシナリオにおける微調整を大幅に強化する。
論文参考訳（メタデータ） (2022-12-21T09:37:05Z)
MURMUR: Modular Multi-Step Reasoning for Semi-Structured Data-to-Text Generation [102.20036684996248]
多段階推論を用いた半構造化データからテキストを生成するための,ニューロシンボリックなモジュラーアプローチであるMURMURを提案する。 WebNLG や LogicNLG のような2つのデータ・テキスト生成タスクについて実験を行った。
論文参考訳（メタデータ） (2022-12-16T17:36:23Z)
A Multi-level Supervised Contrastive Learning Framework for Low-Resource Natural Language Inference [54.678516076366506]
自然言語推論(NLI)は、自然言語理解において、ますます重要な課題である。本稿では,低リソースな自然言語推論のためのマルチSCLという,マルチレベルの教師付きコントラスト学習フレームワークを提案する。
論文参考訳（メタデータ） (2022-05-31T05:54:18Z)
ALP: Data Augmentation using Lexicalized PCFGs for Few-Shot Text Classification [11.742065170002162]
Lexicalized Probabilistic context-free grammars (ALP) を用いたデータ拡張について述べる。数ショットのテキスト分類タスクの実験は、ALPが多くの最先端の分類方法を強化することを示した。我々は、従来のトレーニングと検証セットの分割は、我々の新しい拡張ベースの分割戦略と比較して、準最適であると実証的に主張する。
論文参考訳（メタデータ） (2021-12-16T09:56:35Z)
Dependency Induction Through the Lens of Visual Perception [81.91502968815746]
本稿では,単語の具体性を利用した教師なし文法帰納モデルと,構成的視覚に基づく構成的文法を共同学習する手法を提案する。実験により,提案した拡張は,文法的サイズが小さい場合でも,現在最先端の視覚的接地モデルよりも優れた性能を示すことが示された。
論文参考訳（メタデータ） (2021-09-20T18:40:37Z)
Multi-view Subword Regularization [111.04350390045705]
マルチビューサブワード正規化(MVR)は、標準でトークン化された入力と確率的セグメンテーションとの整合性を強制する手法です。 XTREMEマルチ言語ベンチマークの結果は、MVRが標準セグメンテーションアルゴリズムよりも最大2.5ポイントの一貫性のある改善をもたらすことを示している。
論文参考訳（メタデータ） (2021-03-15T16:07:42Z)
Learning synchronous context-free grammars with multiple specialised non-terminals for hierarchical phrase-based translation [0.0]
本稿では,初期非終端数の少ない同期文脈自由文法を学習する手法を提案する。実験により、結果の小さな非終端集合が文脈情報を正しく捉えていることが示されている。
論文参考訳（メタデータ） (2020-04-03T08:09:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。