Fugu-MT 論文翻訳(概要): In-Context Ensemble Learning from Pseudo Labels Improves Video-Language Models for Low-Level Workflow Understanding

論文の概要: In-Context Ensemble Learning from Pseudo Labels Improves Video-Language Models for Low-Level Workflow Understanding

arxiv url: http://arxiv.org/abs/2409.15867v5
Date: Sun, 20 Oct 2024 10:45:08 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-06 19:21:13.803918
Title: In-Context Ensemble Learning from Pseudo Labels Improves Video-Language Models for Low-Level Workflow Understanding
Title（参考訳）: 低レベルワークフロー理解のためのビデオ言語モデルの改良
Authors: Moucheng Xu, Evangelos Chatzaroulas, Luc McCutcheon, Abdul Ahad, Hamzah Azeem, Janusz Marecki, Ammar Anwar,
Abstract要約: 標準運用手順は、ビジネスソフトウェアワークフローのための低レベルのステップバイステップのガイドを定義する。近年の大規模ビデオ言語モデルの進歩は、人間の実演記録を解析することにより、SOP生成を自動化する可能性を秘めている。本研究では,SOP生成のためのビデオ言語モデルを用いたインコンテキスト学習について検討する。
参考スコア（独自算出の注目度）: 0.32248482136498435
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: A Standard Operating Procedure (SOP) defines a low-level, step-by-step written guide for a business software workflow. SOP generation is a crucial step towards automating end-to-end software workflows. Manually creating SOPs can be time-consuming. Recent advancements in large video-language models offer the potential for automating SOP generation by analyzing recordings of human demonstrations. However, current large video-language models face challenges with zero-shot SOP generation. In this work, we first explore in-context learning with video-language models for SOP generation. We then propose an exploration-focused strategy called In-Context Ensemble Learning, to aggregate pseudo labels of multiple possible paths of SOPs. The proposed in-context ensemble learning as well enables the models to learn beyond its context window limit with an implicit consistency regularisation. We report that in-context learning helps video-language models to generate more temporally accurate SOP, and the proposed in-context ensemble learning can consistently enhance the capabilities of the video-language models in SOP generation.
Abstract（参考訳）: 標準運用手順(SOP)は、ビジネスソフトウェアワークフローのための低レベルのステップバイステップのガイドを定義する。 SOP生成は、エンドツーエンドのソフトウェアワークフローを自動化するための重要なステップです。手動でSOPを作成するのには時間がかかる。近年の大規模ビデオ言語モデルの進歩は、人間の実演記録を解析することにより、SOP生成を自動化する可能性を秘めている。しかし、現在の大規模ビデオ言語モデルは、ゼロショットSOP生成による課題に直面している。そこで本研究では,SOP生成のためのビデオ言語モデルを用いたインコンテキスト学習について検討する。次に、SOPの複数の経路の擬似ラベルを集約する、In-Context Ensemble Learningと呼ばれる探索中心の戦略を提案する。提案したコンテキスト内アンサンブル学習は、暗黙の一貫性の規則化によって、コンテキストウィンドウ制限を超えて学習することを可能にする。テキスト内学習は、ビデオ言語モデルがより時間的に正確なSOPを生成するのに役立つことを報告し、提案したコンテキスト内アンサンブル学習は、SOP生成におけるビデオ言語モデルの能力を一貫して向上させることができる。

関連論文リスト

CMULAB: An Open-Source Framework for Training and Deployment of Natural Language Processing Models [59.91221728187576]
本稿では,NLPモデルのモデル展開と連続的なヒューマン・イン・ザ・ループの微調整を簡単にするオープンソースフレームワークであるCMU言語バックエンドを紹介する。 CMULABは、マルチ言語モデルのパワーを活用して、音声認識、OCR、翻訳、構文解析などの既存のツールを新しい言語に迅速に適応し、拡張することができる。
論文参考訳（メタデータ） (2024-04-03T02:21:46Z)
Learning to Decode Collaboratively with Multiple Language Models [37.31339648499042]
本稿では,複数の大規模言語モデル (LLM) に,トークンレベルで世代間をインターリーブすることで協調する手法を提案する。復号化中のトークンレベルのコラボレーションは、各モデルの専門知識を、手元にある特定のタスクに合わせて統合することを可能にする。
論文参考訳（メタデータ） (2024-03-06T17:23:28Z)
Generative Context-aware Fine-tuning of Self-supervised Speech Models [54.389711404209415]
生成型大規模言語モデル(LLM)生成コンテキスト情報の利用について検討する。自己教師型音声モデルの微調整中に生成した情報を抽出する手法を提案する。本稿では,SLUE と Libri-light のベンチマークを用いて,自動音声認識,名前付きエンティティ認識,感情分析を行う手法を提案する。
論文参考訳（メタデータ） (2023-12-15T15:46:02Z)
Towards More Unified In-context Visual Understanding [74.55332581979292]
マルチモーダル出力を有効にした視覚理解のための新しいICLフレームワークを提案する。まず、テキストと視覚的プロンプトの両方を量子化し、統一された表現空間に埋め込む。次にデコーダのみのスパーストランスアーキテクチャを用いて生成モデリングを行う。
論文参考訳（メタデータ） (2023-12-05T06:02:21Z)
SINC: Self-Supervised In-Context Learning for Vision-Language Tasks [64.44336003123102]
大規模言語モデルにおけるコンテキスト内学習を実現するためのフレームワークを提案する。メタモデルは、カスタマイズされたデモからなる自己教師型プロンプトで学ぶことができる。実験の結果、SINCは様々な視覚言語タスクにおいて勾配に基づく手法よりも優れていた。
論文参考訳（メタデータ） (2023-07-15T08:33:08Z)
Benchmarking Large Language Model Capabilities for Conditional Generation [15.437176676169997]
既存のアプリケーション固有の生成ベンチマークをPLMに適応させる方法について論じる。 PLMは異なるデータ体系に適用可能であり、複数の言語に一般化可能であることを示す。
論文参考訳（メタデータ） (2023-06-29T08:59:40Z)
Pre-Training to Learn in Context [138.0745138788142]
言語モデルが文脈で学習するために明示的に訓練されていないため、コンテキスト内学習の能力は十分に活用されていない。 In-Context Learning のための PICL (Pre-training for In-Context Learning) を提案する。実験の結果,PICLはベースラインよりも効率が高く,タスクの汎用性が高く,約4倍のパラメータを持つ言語モデルよりも優れていた。
論文参考訳（メタデータ） (2023-05-16T03:38:06Z)
An Overview on Language Models: Recent Developments and Outlook [32.528770408502396]
従来の言語モデル(CLM)は、因果的に言語シーケンスの確率を予測することを目的としている。事前学習言語モデル(PLM)はより広範な概念をカバーし、因果逐次モデリングと下流アプリケーションのための微調整の両方に使用することができる。
論文参考訳（メタデータ） (2023-03-10T07:55:00Z)
Stabilized In-Context Learning with Pre-trained Language Models for Few Shot Dialogue State Tracking [57.92608483099916]
大規模事前学習言語モデル(PLM)は、多くのNLPタスクにまたがる優れた性能を示している。対話状態追跡(DST)のようなより複雑なタスクでは、望ましい意図を確実に伝達するプロンプトを設計するのは簡単ではない。対話文の長さを制限するためのサリエンシモデルを導入し、クエリ毎に多くの例を含めることができます。
論文参考訳（メタデータ） (2023-02-12T15:05:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。