論文の概要: QA-TOOLBOX: Conversational Question-Answering for process task guidance in manufacturing
- arxiv url: http://arxiv.org/abs/2412.02638v1
- Date: Tue, 03 Dec 2024 18:10:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:50:30.965622
- Title: QA-TOOLBOX: Conversational Question-Answering for process task guidance in manufacturing
- Title(参考訳): QA-TOOLBOX:製造業におけるプロセスタスク指導のための会話型質問-回答
- Authors: Ramesh Manuvinakurike, Elizabeth Watkins, Celal Savur, Anthony Rhodes, Sovan Biswas, Gesem Gudino Mejia, Richard Beckwith, Saurav Sahay, Giuseppe Raffa, Lama Nachman,
- Abstract要約: このデータセットは、先進的な製造環境で作業する技術者とのインタラクションの代表的なサンプルで構成されている。
データセットは20万以上の質問/回答のペアで構成されており、仕様文書を参照し、ナレーションやビデオデモに基づいている。
- 参考スコア(独自算出の注目度): 6.377282332225302
- License:
- Abstract: In this work we explore utilizing LLMs for data augmentation for manufacturing task guidance system. The dataset consists of representative samples of interactions with technicians working in an advanced manufacturing setting. The purpose of this work to explore the task, data augmentation for the supported tasks and evaluating the performance of the existing LLMs. We observe that that task is complex requiring understanding from procedure specification documents, actions and objects sequenced temporally. The dataset consists of 200,000+ question/answer pairs that refer to the spec document and are grounded in narrations and/or video demonstrations. We compared the performance of several popular open-sourced LLMs by developing a baseline using each LLM and then compared the responses in a reference-free setting using LLM-as-a-judge and compared the ratings with crowd-workers whilst validating the ratings with experts.
- Abstract(参考訳): 本研究では,LLMをデータ拡張に活用したタスクガイダンスシステムについて検討する。
このデータセットは、先進的な製造環境で作業する技術者とのインタラクションの代表的なサンプルで構成されている。
本研究の目的は,タスクの探索,サポート対象タスクのデータ拡張,既存のLCMの性能評価である。
我々は、そのタスクが、時間的にシーケンスされた手続き仕様文書、アクション、オブジェクトからの理解を必要としていることを観察する。
データセットは20万以上の質問/回答のペアで構成されており、仕様文書を参照し、ナレーションやビデオデモに基づいている。
LLM-as-a-judge を用いた基準フリー環境での基準ラインの開発により,複数のオープンソース LLM の性能を比較し,専門家による評価を検証しながら,クラウドワーカーによる評価と比較した。
関連論文リスト
- Layer by Layer: Uncovering Where Multi-Task Learning Happens in Instruction-Tuned Large Language Models [22.676688441884465]
タスクの多種多様な配列で訓練済みの大規模言語モデル(LLM)を微調整することが、モデル構築の一般的なアプローチとなっている。
本研究では,事前学習したLLMに符号化されたタスク固有情報と,その表現に対する指導指導の効果について検討する。
論文 参考訳(メタデータ) (2024-10-25T23:38:28Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - DOCBENCH: A Benchmark for Evaluating LLM-based Document Reading Systems [99.17123445211115]
本稿では,大規模言語モデル(LLM)に基づく文書読解システムを評価するベンチマークであるDocBenchを紹介する。
我々のベンチマークには、人間のアノテーションの募集と、合成質問の生成が含まれる。
実際の文書は229件、質問は1,102件で、5つのドメインにまたがって4種類の質問がある。
論文 参考訳(メタデータ) (2024-07-15T13:17:42Z) - A Practice-Friendly LLM-Enhanced Paradigm with Preference Parsing for Sequential Recommendation [15.153844486572932]
本稿では、シーケンシャルレコメンデータシステム(SRS)のための優先構文解析(P2Rec)を用いた実践的LLM拡張パラダイムを提案する。
具体的には、情報再構成段階において、事前学習したSRSモデルの助けを借りて、協調的な情報注入のための新しいユーザレベルSFTタスクを設計する。
我々のゴールは、LLMが各ユーザのインタラクションシーケンスから対応する優先度分布を再構築することを学ばせることである。
論文 参考訳(メタデータ) (2024-06-01T07:18:56Z) - RepEval: Effective Text Evaluation with LLM Representation [55.26340302485898]
RepEvalは、評価のためにLarge Language Models(LLM)表現の投影を利用するメトリクスである。
我々の研究は、LLM表現に埋め込まれたテキスト品質に関する情報の豊かさを強調し、新しいメトリクスの開発のための洞察を提供する。
論文 参考訳(メタデータ) (2024-04-30T13:50:55Z) - Benchmarking LLMs on the Semantic Overlap Summarization Task [9.656095701778975]
本稿では,セマンティック・オーバーラップ・サマリゼーション(SOS)タスクにおいて,Large Language Models (LLM) を包括的に評価する。
本稿では, ROUGE, BERTscore, SEM-F1$などの定評ある指標を, 2種類の代替物語のデータセット上で報告する。
論文 参考訳(メタデータ) (2024-02-26T20:33:50Z) - Small LLMs Are Weak Tool Learners: A Multi-LLM Agent [73.54562551341454]
大規模言語モデル(LLM)エージェントはスタンドアロンのLLMの機能を大幅に拡張する。
本稿では、上記の機能をプランナー、呼び出し元、要約器に分解する新しい手法を提案する。
このモジュール化されたフレームワークは、個々の更新と、それぞれの機能を構築するための小さなLLMの潜在的な使用を容易にする。
論文 参考訳(メタデータ) (2024-01-14T16:17:07Z) - LLM-in-the-loop: Leveraging Large Language Model for Thematic Analysis [18.775126929754833]
Thematic Analysis (TA)は、多くの分野や分野における定性的データを解析するために広く使われている。
ヒューマンコーダはデータの解釈とコーディングを複数のイテレーションで開発し、より深くする。
In-context Learning (ICL) を用いたTAを実現するための人間-LLM協調フレームワーク(LLM-in-the-loop)を提案する。
論文 参考訳(メタデータ) (2023-10-23T17:05:59Z) - Multi-Task Instruction Tuning of LLaMa for Specific Scenarios: A
Preliminary Study on Writing Assistance [60.40541387785977]
小さな基礎モデルは、命令駆動データを用いて微調整された場合、多様なタスクに対処する際、顕著な習熟度を示すことができる。
本研究は, 汎用的な指導よりも, 1つないし数つの特定のタスクに主眼を置いている, 実践的な問題設定について検討する。
実験結果から,命令データに対する微調整LLaMAは,タスクの記述能力を大幅に向上することが示された。
論文 参考訳(メタデータ) (2023-05-22T16:56:44Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。