論文の概要: Does unsupervised grammar induction need pixels?
- arxiv url: http://arxiv.org/abs/2212.10564v1
- Date: Tue, 20 Dec 2022 18:59:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-21 13:33:39.052103
- Title: Does unsupervised grammar induction need pixels?
- Title(参考訳): 教師なし文法誘導には画素が必要か?
- Authors: Boyi Li and Rodolfo Corona and Karttikeya Mangalam and Catherine Chen
and Daniel Flaherty and Serge Belongie and Kilian Q. Weinberger and Jitendra
Malik and Trevor Darrell and Dan Klein
- Abstract要約: LLMに基づくC-PCFGは、教師なし選挙区解析のタスクにおいて、従来のマルチモーダル手法よりも優れていた。
LC-PCFGはパラメータ数を50%以上削減し、画像支援モデルでは1.7倍、ビデオ支援モデルでは5倍以上のトレーニング時間を高速化する。
- 参考スコア(独自算出の注目度): 122.93595142431153
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Are extralinguistic signals such as image pixels crucial for inducing
constituency grammars? While past work has shown substantial gains from
multimodal cues, we investigate whether such gains persist in the presence of
rich information from large language models (LLMs). We find that our approach,
LLM-based C-PCFG (LC-PCFG), outperforms previous multi-modal methods on the
task of unsupervised constituency parsing, achieving state-of-the-art
performance on a variety of datasets. Moreover, LC-PCFG results in an over 50%
reduction in parameter count, and speedups in training time of 1.7x for
image-aided models and more than 5x for video-aided models, respectively. These
results challenge the notion that extralinguistic signals such as image pixels
are needed for unsupervised grammar induction, and point to the need for better
text-only baselines in evaluating the need of multi-modality for the task.
- Abstract(参考訳): 画像画素などの言語外信号は構成文法の誘導に不可欠か?
過去の研究はマルチモーダルな手がかりからかなりの利益を得ているが、そのような成果が大規模言語モデル(LLM)からの豊富な情報の存在に持続するかどうかを考察する。
LLMに基づくC-PCFG (LC-PCFG) は、教師なし選挙区解析のタスクにおいて従来のマルチモーダル手法よりも優れ、様々なデータセット上で最先端の性能を達成する。
さらに、LC-PCFGはパラメータ数を50%以上削減し、画像支援モデルでは1.7倍、ビデオ支援モデルでは5倍以上のトレーニング時間を高速化する。
これらの結果は、教師なし文法誘導には画像画素などの外部言語信号が必要であるという考えに挑戦し、タスクに対するマルチモーダル性の必要性を評価する上で、テキストのみのベースラインの改善の必要性を指摘する。
関連論文リスト
- Analyzing and Adapting Large Language Models for Few-Shot Multilingual
NLU: Are We There Yet? [82.02076369811402]
教師付きファインチューニング(SFT)、教師付きインストラクションチューニング(SIT)、インコンテキストラーニング(ICL)は、3つの代替であり、事実上の標準的アプローチである。
提案手法は,6つの高・低リソース言語,3つの異なるNLUタスク,多種多様な言語とドメインのセットアップを用いて,3つのアプローチを網羅的かつ体系的に比較する。
そこで本研究では,教師あり指導のチューニングが,性能とリソース要件の最良のトレードオフであることを示す。
論文 参考訳(メタデータ) (2024-03-04T10:48:13Z) - A Multi-level Supervised Contrastive Learning Framework for Low-Resource
Natural Language Inference [54.678516076366506]
自然言語推論(NLI)は、自然言語理解において、ますます重要な課題である。
本稿では,低リソースな自然言語推論のためのマルチSCLという,マルチレベルの教師付きコントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-31T05:54:18Z) - Dependency Induction Through the Lens of Visual Perception [81.91502968815746]
本稿では,単語の具体性を利用した教師なし文法帰納モデルと,構成的視覚に基づく構成的文法を共同学習する手法を提案する。
実験により,提案した拡張は,文法的サイズが小さい場合でも,現在最先端の視覚的接地モデルよりも優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2021-09-20T18:40:37Z) - ROSITA: Enhancing Vision-and-Language Semantic Alignments via Cross- and
Intra-modal Knowledge Integration [48.01536973731182]
ROSITAと呼ばれる新しい視覚・言語事前学習手法を提案する。
クロスモーダルとイントラモーダルの知識を統合されたシーングラフに統合し、セマンティックアライメントを強化する。
ROSITAは6つのベンチマークデータセット上での3つの典型的な視覚・言語タスクにおいて、既存の最先端メソッドを大幅に上回っている。
論文 参考訳(メタデータ) (2021-08-16T13:16:58Z) - Video-aided Unsupervised Grammar Induction [108.53765268059425]
ラベルのないテキストと対応するビデオの両方から構成を学習するビデオ支援文法インダクションについて検討する。
ビデオは、静的オブジェクトだけでなく、動詞句を誘導するのに有用なアクションや状態の変更を含む、さらに豊富な情報を提供します。
マルチモードコンパウンドPCFGモデル(MMC-PCFG)を提案し,これらの豊富な特徴を異なるモダリティから効果的に集約する。
論文 参考訳(メタデータ) (2021-04-09T14:01:36Z) - Learning synchronous context-free grammars with multiple specialised
non-terminals for hierarchical phrase-based translation [0.0]
本稿では,初期非終端数の少ない同期文脈自由文法を学習する手法を提案する。
実験により、結果の小さな非終端集合が文脈情報を正しく捉えていることが示されている。
論文 参考訳(メタデータ) (2020-04-03T08:09:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。