論文の概要: Exploring External Knowledge for Accurate modeling of Visual and
Language Problems
- arxiv url: http://arxiv.org/abs/2302.08901v1
- Date: Fri, 27 Jan 2023 02:01:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-26 14:53:04.233791
- Title: Exploring External Knowledge for Accurate modeling of Visual and
Language Problems
- Title(参考訳): 視覚・言語問題の正確なモデリングのための外部知識の探索
- Authors: Xuewen Yang
- Abstract要約: この論文は、多くの困難なタスクを含む視覚的および言語的理解に焦点を当てている。
これらの問題を解決する最先端の手法は通常、ソースデータとターゲットラベルの2つの部分のみを含む。
まず外部知識を抽出し,元のモデルと統合する手法を開発した。
- 参考スコア(独自算出の注目度): 2.7190267444272056
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: The interest in Artificial Intelligence (AI) and its applications has seen
unprecedented growth in the last few years. The success can be partly
attributed to the advancements of deep neural networks made in the sub-fields
of AI such as Computer Vision (CV) and Natural Language Processing (NLP). The
promising research area that this dissertation focuses on is visual and
language understanding which involves many challenging tasks, i.e.,
classification, detection, segmentation, machine translation and captioning,
etc. The state-of-the-art methods for solving these problems usually involves
only two parts: source data and target labels, which is rather insufficient
especially when the dataset is small. Meanwhile, many external tools or sources
can provide extra useful information (external knowledge) that can help improve
the performance of these methods. For example, a detection model has been
applied to provide better object features than state-of-the-art ResNet for
image captioning models. Inspired by this observation, we developed a
methodology that we can first extract external knowledge and then integrate it
with the original models. The external knowledge has to be extracted from the
dataset, or can directly come from external, e.g., grammar rules or scene
graphs. We apply this methodology to different AI tasks, including machine
translation and image captioning and improve the original state-of-the-art
models by a large margin.
- Abstract(参考訳): 人工知能(AI)とその応用への関心は、ここ数年で前例のない成長を遂げた。
この成功の一部は、コンピュータビジョン(CV)や自然言語処理(NLP)といったAIのサブフィールドで作られたディープニューラルネットワークの進歩によるものである。
この論文に焦点をあてる有望な研究分野は、視覚的および言語的理解であり、分類、検出、セグメンテーション、機械翻訳、キャプションなど、多くの困難なタスクを含む。
これらの問題を解決するための最先端の手法は通常、ソースデータとターゲットラベルの2つの部分しか含まない。
一方、多くの外部ツールやソースは、これらの手法の性能向上に役立つ追加の有用な情報(外部知識)を提供することができる。
例えば、画像キャプションモデルの最先端のresnetよりも優れたオブジェクト機能を提供するために、検出モデルが適用されている。
この観察から着想を得て,まず外部知識を抽出し,元のモデルと統合する手法を開発した。
外部知識はデータセットから抽出するか、例えば文法規則やシーングラフといった外部知識から直接得る必要がある。
この手法を機械翻訳や画像キャプションなどさまざまなAIタスクに適用し,従来の最先端モデルを大幅に改善する。
関連論文リスト
- Towards A Unified Agent with Foundation Models [18.558328028366816]
強化学習(RL)エージェントにそのような能力を組み込んで活用する方法を検討する。
我々は、言語を中核的推論ツールとして使用するフレームワークを設計し、エージェントが一連の基本的なRL課題にどのように取り組むことができるかを探る。
探索効率とオフラインデータセットからのデータの再利用能力において,ベースラインよりも大幅にパフォーマンスが向上したことを示す。
論文 参考訳(メタデータ) (2023-07-18T22:37:30Z) - Contextual Object Detection with Multimodal Large Language Models [78.30374204127418]
本稿では,コンテキストオブジェクト検出の新たな研究課題について紹介する。
言語クローゼテスト,視覚キャプション,質問応答の3つの代表的なシナリオについて検討した。
本稿では、視覚的コンテキストのエンドツーエンドの微分可能なモデリングが可能な統合マルチモーダルモデルContextDETを提案する。
論文 参考訳(メタデータ) (2023-05-29T17:50:33Z) - Vision-Language Models in Remote Sensing: Current Progress and Future
Trends [19.179306993193023]
視覚言語モデルは、画像とその関連するテキスト記述の推論を可能にし、基礎となるセマンティクスのより深い理解を可能にする。
視覚言語モデルは、画像内のオブジェクトを認識するだけでなく、それら間の関係を推測したり、画像の自然言語記述を生成することもできる。
本稿では,リモートセンシングにおける視覚言語モデルの研究を包括的にレビューする。
論文 参考訳(メタデータ) (2023-05-09T19:17:07Z) - Foundation Models for Natural Language Processing -- Pre-trained
Language Models Integrating Media [0.0]
ファンデーションモデルは自然言語処理のための事前訓練された言語モデルである。
画像処理やビデオ処理からロボット制御学習まで、幅広いメディアや問題領域に適用することができる。
本書は、ファンデーションモデルの研究および応用における技術の現状を概観する。
論文 参考訳(メタデータ) (2023-02-16T20:42:04Z) - Retrieval-Augmented Transformer for Image Captioning [51.79146669195357]
我々は、kNNメモリを用いた画像キャプション手法を開発し、外部コーパスから知識を抽出して生成プロセスを支援する。
我々のアーキテクチャは、視覚的類似性に基づく知識検索と、識別可能なエンコーダと、トークンを予測するためにkNN拡張アテンション層を組み合わせる。
COCOデータセットで実施した実験結果は、明示的な外部メモリを利用することで、生成プロセスの助けとなり、キャプションの品質が向上することを示した。
論文 参考訳(メタデータ) (2022-07-26T19:35:49Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - Vision-Language Intelligence: Tasks, Representation Learning, and Large
Models [32.142076223602906]
本稿では,時間的観点からの視覚言語知能の包括的調査について述べる。
本稿では,この分野での開発を,タスク固有手法,視覚言語事前学習法,大規模弱ラベルデータによって強化された大規模モデルという3つの期間にまとめる。
論文 参考訳(メタデータ) (2022-03-03T18:54:59Z) - From Show to Tell: A Survey on Image Captioning [48.98681267347662]
視覚と言語を結びつけることは、ジェネレーティブ・インテリジェンスにおいて重要な役割を担っている。
画像キャプションの研究はまだ結論に達していない。
本研究の目的は,画像キャプション手法の包括的概要と分類を提供することである。
論文 参考訳(メタデータ) (2021-07-14T18:00:54Z) - VidLanKD: Improving Language Understanding via Video-Distilled Knowledge
Transfer [76.3906723777229]
言語理解を改善するためのビデオ言語知識蒸留法VidLanKDを提案する。
我々は、ビデオテキストデータセット上でマルチモーダル教師モデルを訓練し、その知識をテキストデータセットを用いて学生言語モデルに伝達する。
我々の実験では、VidLanKDはテキストのみの言語モデルや発声モデルよりも一貫した改善を実現している。
論文 参考訳(メタデータ) (2021-07-06T15:41:32Z) - Knowledge-Aware Procedural Text Understanding with Multi-Stage Training [110.93934567725826]
本稿では,このような文書の理解とプロセス中のエンティティの状態や場所の追跡を目的とした手続き的テキスト理解の課題に焦点をあてる。
常識的推論の難しさとデータ不足という2つの課題はまだ未解決のままである。
我々は、複数の外部知識を効果的に活用する、KnOwledge-Aware ProceduraL text understAnding (KOALA)モデルを提案する。
論文 参考訳(メタデータ) (2020-09-28T10:28:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。