Fugu-MT 論文翻訳(概要): In-Context Ensemble Improves Video-Language Models for Low-Level Workflow Understanding from Human Demonstrations

論文の概要: In-Context Ensemble Improves Video-Language Models for Low-Level Workflow Understanding from Human Demonstrations

arxiv url: http://arxiv.org/abs/2409.15867v1
Date: Tue, 24 Sep 2024 08:41:01 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-26 08:21:18.679555
Title: In-Context Ensemble Improves Video-Language Models for Low-Level Workflow Understanding from Human Demonstrations
Title（参考訳）: In-Context Ensembleは人間のデモから低レベルワークフロー理解のためのビデオ言語モデルを改善する
Authors: Moucheng Xu, Evangelos Chatzaroulas, Luc McCutcheon, Abdul Ahad, Hamzah Azeem, Janusz Marecki, Ammar Anwar,
Abstract要約: Standard Operating procedureは、ビデオデモに基づいて、ビジネスソフトウェアワークフローのための低レベルのステップバイステップのガイドを定義する。近年の大規模ビデオ言語モデルの進歩は、人間の実演記録を解析することにより、SOP生成を自動化する可能性を秘めている。 SOP生成のためのビデオ言語モデルを用いたテキスト内学習について検討する。
参考スコア（独自算出の注目度）: 0.32248482136498435
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: A Standard Operating Procedure (SOP) defines a low-level, step-by-step written guide for a business software workflow based on a video demonstration. SOPs are a crucial step toward automating end-to-end software workflows. Manually creating SOPs can be time-consuming. Recent advancements in large video-language models offer the potential for automating SOP generation by analyzing recordings of human demonstrations. However, current large video-language models face challenges with zero-shot SOP generation. We explore in-context learning with video-language models for SOP generation. We report that in-context learning sometimes helps video-language models at SOP generation. We then propose an in-context ensemble learning to further enhance the capabilities of the models in SOP generation.
Abstract（参考訳）: Standard Operating Procedure(SOP)は、ビデオデモに基づいて、ビジネスソフトウェアワークフローのための低レベルなステップバイステップのガイドを定義する。 SOPはエンドツーエンドのソフトウェアワークフローを自動化するための重要なステップです。手動でSOPを作成するのには時間がかかる。近年の大規模ビデオ言語モデルの進歩は、人間の実演記録を解析することによって、SOP生成を自動化する可能性を秘めている。しかし、現在の大規模ビデオ言語モデルは、ゼロショットSOP生成による課題に直面している。 SOP生成のためのビデオ言語モデルを用いたテキスト内学習について検討する。テキスト内学習は、SOP生成時のビデオ言語モデルに役立つことがあると報告する。そこで本研究では,SOP生成におけるモデルの性能向上を図るために,コンテキスト内アンサンブル学習を提案する。

関連論文リスト

CMULAB: An Open-Source Framework for Training and Deployment of Natural Language Processing Models [59.91221728187576]
本稿では,NLPモデルのモデル展開と連続的なヒューマン・イン・ザ・ループの微調整を簡単にするオープンソースフレームワークであるCMU言語バックエンドを紹介する。 CMULABは、マルチ言語モデルのパワーを活用して、音声認識、OCR、翻訳、構文解析などの既存のツールを新しい言語に迅速に適応し、拡張することができる。
論文参考訳（メタデータ） (2024-04-03T02:21:46Z)
Learning to Decode Collaboratively with Multiple Language Models [37.31339648499042]
本稿では,複数の大規模言語モデル (LLM) に,トークンレベルで世代間をインターリーブすることで協調する手法を提案する。復号化中のトークンレベルのコラボレーションは、各モデルの専門知識を、手元にある特定のタスクに合わせて統合することを可能にする。
論文参考訳（メタデータ） (2024-03-06T17:23:28Z)
Generative Context-aware Fine-tuning of Self-supervised Speech Models [54.389711404209415]
生成型大規模言語モデル(LLM)生成コンテキスト情報の利用について検討する。自己教師型音声モデルの微調整中に生成した情報を抽出する手法を提案する。本稿では,SLUE と Libri-light のベンチマークを用いて,自動音声認識,名前付きエンティティ認識,感情分析を行う手法を提案する。
論文参考訳（メタデータ） (2023-12-15T15:46:02Z)
Towards More Unified In-context Visual Understanding [74.55332581979292]
マルチモーダル出力を有効にした視覚理解のための新しいICLフレームワークを提案する。まず、テキストと視覚的プロンプトの両方を量子化し、統一された表現空間に埋め込む。次にデコーダのみのスパーストランスアーキテクチャを用いて生成モデリングを行う。
論文参考訳（メタデータ） (2023-12-05T06:02:21Z)
SINC: Self-Supervised In-Context Learning for Vision-Language Tasks [64.44336003123102]
大規模言語モデルにおけるコンテキスト内学習を実現するためのフレームワークを提案する。メタモデルは、カスタマイズされたデモからなる自己教師型プロンプトで学ぶことができる。実験の結果、SINCは様々な視覚言語タスクにおいて勾配に基づく手法よりも優れていた。
論文参考訳（メタデータ） (2023-07-15T08:33:08Z)
Benchmarking Large Language Model Capabilities for Conditional Generation [15.437176676169997]
既存のアプリケーション固有の生成ベンチマークをPLMに適応させる方法について論じる。 PLMは異なるデータ体系に適用可能であり、複数の言語に一般化可能であることを示す。
論文参考訳（メタデータ） (2023-06-29T08:59:40Z)
Pre-Training to Learn in Context [138.0745138788142]
言語モデルが文脈で学習するために明示的に訓練されていないため、コンテキスト内学習の能力は十分に活用されていない。 In-Context Learning のための PICL (Pre-training for In-Context Learning) を提案する。実験の結果,PICLはベースラインよりも効率が高く,タスクの汎用性が高く,約4倍のパラメータを持つ言語モデルよりも優れていた。
論文参考訳（メタデータ） (2023-05-16T03:38:06Z)
An Overview on Language Models: Recent Developments and Outlook [32.528770408502396]
従来の言語モデル(CLM)は、因果的に言語シーケンスの確率を予測することを目的としている。事前学習言語モデル(PLM)はより広範な概念をカバーし、因果逐次モデリングと下流アプリケーションのための微調整の両方に使用することができる。
論文参考訳（メタデータ） (2023-03-10T07:55:00Z)
Stabilized In-Context Learning with Pre-trained Language Models for Few Shot Dialogue State Tracking [57.92608483099916]
大規模事前学習言語モデル(PLM)は、多くのNLPタスクにまたがる優れた性能を示している。対話状態追跡(DST)のようなより複雑なタスクでは、望ましい意図を確実に伝達するプロンプトを設計するのは簡単ではない。対話文の長さを制限するためのサリエンシモデルを導入し、クエリ毎に多くの例を含めることができます。
論文参考訳（メタデータ） (2023-02-12T15:05:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。