Fugu-MT 論文翻訳(概要): Exploring External Knowledge for Accurate modeling of Visual and Language Problems

論文の概要: Exploring External Knowledge for Accurate modeling of Visual and Language Problems

arxiv url: http://arxiv.org/abs/2302.08901v1
Date: Fri, 27 Jan 2023 02:01:50 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-26 14:53:04.233791
Title: Exploring External Knowledge for Accurate modeling of Visual and Language Problems
Title（参考訳）: 視覚・言語問題の正確なモデリングのための外部知識の探索
Authors: Xuewen Yang
Abstract要約: この論文は、多くの困難なタスクを含む視覚的および言語的理解に焦点を当てている。これらの問題を解決する最先端の手法は通常、ソースデータとターゲットラベルの2つの部分のみを含む。まず外部知識を抽出し,元のモデルと統合する手法を開発した。
参考スコア（独自算出の注目度）: 2.7190267444272056
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: The interest in Artificial Intelligence (AI) and its applications has seen unprecedented growth in the last few years. The success can be partly attributed to the advancements of deep neural networks made in the sub-fields of AI such as Computer Vision (CV) and Natural Language Processing (NLP). The promising research area that this dissertation focuses on is visual and language understanding which involves many challenging tasks, i.e., classification, detection, segmentation, machine translation and captioning, etc. The state-of-the-art methods for solving these problems usually involves only two parts: source data and target labels, which is rather insufficient especially when the dataset is small. Meanwhile, many external tools or sources can provide extra useful information (external knowledge) that can help improve the performance of these methods. For example, a detection model has been applied to provide better object features than state-of-the-art ResNet for image captioning models. Inspired by this observation, we developed a methodology that we can first extract external knowledge and then integrate it with the original models. The external knowledge has to be extracted from the dataset, or can directly come from external, e.g., grammar rules or scene graphs. We apply this methodology to different AI tasks, including machine translation and image captioning and improve the original state-of-the-art models by a large margin.
Abstract（参考訳）: 人工知能(AI)とその応用への関心は、ここ数年で前例のない成長を遂げた。この成功の一部は、コンピュータビジョン(CV)や自然言語処理(NLP)といったAIのサブフィールドで作られたディープニューラルネットワークの進歩によるものである。この論文に焦点をあてる有望な研究分野は、視覚的および言語的理解であり、分類、検出、セグメンテーション、機械翻訳、キャプションなど、多くの困難なタスクを含む。これらの問題を解決するための最先端の手法は通常、ソースデータとターゲットラベルの2つの部分しか含まない。一方、多くの外部ツールやソースは、これらの手法の性能向上に役立つ追加の有用な情報(外部知識)を提供することができる。例えば、画像キャプションモデルの最先端のresnetよりも優れたオブジェクト機能を提供するために、検出モデルが適用されている。この観察から着想を得て,まず外部知識を抽出し,元のモデルと統合する手法を開発した。外部知識はデータセットから抽出するか、例えば文法規則やシーングラフといった外部知識から直接得る必要がある。この手法を機械翻訳や画像キャプションなどさまざまなAIタスクに適用し,従来の最先端モデルを大幅に改善する。

関連論文リスト

Retrieval Augmented Generation and Understanding in Vision: A Survey and New Outlook [85.43403500874889]
Retrieval-augmented Generation (RAG) は人工知能(AI)において重要な技術である。具体化されたAIのためのRAGの最近の進歩は、特に計画、タスク実行、マルチモーダル知覚、インタラクション、特殊ドメインの応用に焦点を当てている。
論文参考訳（メタデータ） (2025-03-23T10:33:28Z)
Detection-Fusion for Knowledge Graph Extraction from Videos [49.1574468325115]
本稿では,知識グラフを用いた動画アノテート手法を提案する。具体的には,この課題に対するディープラーニングモデルを提案する。また,知識グラフ構築に背景知識を組み込むためのモデルの拡張も提案する。
論文参考訳（メタデータ） (2024-12-30T20:26:11Z)
Deep Learning and Machine Learning -- Natural Language Processing: From Theory to Application [17.367710635990083]
自然言語処理(NLP)と大規模言語モデル(LLM)の役割に焦点を当てる。本稿では,データ前処理技術とHugging Faceのようなフレームワークを用いたトランスフォーマーモデルの実装について論じる。マルチリンガルデータの扱い、バイアスの低減、モデルの堅牢性確保といった課題を強調している。
論文参考訳（メタデータ） (2024-10-30T09:35:35Z)
VALE: A Multimodal Visual and Language Explanation Framework for Image Classifiers using eXplainable AI and Language Models [0.0]
VALE Visual and Language Explanation という新しいフレームワークを提案する。 VALEは説明可能なAI技術と高度な言語モデルを統合し、包括的な説明を提供する。本稿では,画像分類タスクのためのVALEフレームワークの試験的検討を行う。
論文参考訳（メタデータ） (2024-08-23T03:02:11Z)
Towards Retrieval-Augmented Architectures for Image Captioning [81.11529834508424]
本研究は,外部kNNメモリを用いた画像キャプションモデルの構築に向けた新しい手法を提案する。具体的には、視覚的類似性に基づく知識検索コンポーネントを組み込んだ2つのモデル変種を提案する。我々はCOCOデータセットとnocapsデータセットに対する我々のアプローチを実験的に検証し、明示的な外部メモリを組み込むことでキャプションの品質を著しく向上させることができることを示した。
論文参考訳（メタデータ） (2024-05-21T18:02:07Z)
Towards A Unified Agent with Foundation Models [18.558328028366816]
強化学習(RL)エージェントにそのような能力を組み込んで活用する方法を検討する。我々は、言語を中核的推論ツールとして使用するフレームワークを設計し、エージェントが一連の基本的なRL課題にどのように取り組むことができるかを探る。探索効率とオフラインデータセットからのデータの再利用能力において,ベースラインよりも大幅にパフォーマンスが向上したことを示す。
論文参考訳（メタデータ） (2023-07-18T22:37:30Z)
Contextual Object Detection with Multimodal Large Language Models [66.15566719178327]
本稿では,コンテキストオブジェクト検出の新たな研究課題について紹介する。言語クローゼテスト,視覚キャプション,質問応答の3つの代表的なシナリオについて検討した。本稿では、視覚的コンテキストのエンドツーエンドの微分可能なモデリングが可能な統合マルチモーダルモデルContextDETを提案する。
論文参考訳（メタデータ） (2023-05-29T17:50:33Z)
Retrieval-Augmented Transformer for Image Captioning [51.79146669195357]
我々は、kNNメモリを用いた画像キャプション手法を開発し、外部コーパスから知識を抽出して生成プロセスを支援する。我々のアーキテクチャは、視覚的類似性に基づく知識検索と、識別可能なエンコーダと、トークンを予測するためにkNN拡張アテンション層を組み合わせる。 COCOデータセットで実施した実験結果は、明示的な外部メモリを利用することで、生成プロセスの助けとなり、キャプションの品質が向上することを示した。
論文参考訳（メタデータ） (2022-07-26T19:35:49Z)
On Advances in Text Generation from Images Beyond Captioning: A Case Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文参考訳（メタデータ） (2022-05-24T00:52:40Z)
VidLanKD: Improving Language Understanding via Video-Distilled Knowledge Transfer [76.3906723777229]
言語理解を改善するためのビデオ言語知識蒸留法VidLanKDを提案する。我々は、ビデオテキストデータセット上でマルチモーダル教師モデルを訓練し、その知識をテキストデータセットを用いて学生言語モデルに伝達する。我々の実験では、VidLanKDはテキストのみの言語モデルや発声モデルよりも一貫した改善を実現している。
論文参考訳（メタデータ） (2021-07-06T15:41:32Z)
Knowledge-Aware Procedural Text Understanding with Multi-Stage Training [110.93934567725826]
本稿では,このような文書の理解とプロセス中のエンティティの状態や場所の追跡を目的とした手続き的テキスト理解の課題に焦点をあてる。常識的推論の難しさとデータ不足という2つの課題はまだ未解決のままである。我々は、複数の外部知識を効果的に活用する、KnOwledge-Aware ProceduraL text understAnding (KOALA)モデルを提案する。
論文参考訳（メタデータ） (2020-09-28T10:28:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。