Fugu-MT 論文翻訳(概要): Nemo: Guiding and Contextualizing Weak Supervision for Interactive Data Programming

論文の概要: Nemo: Guiding and Contextualizing Weak Supervision for Interactive Data Programming

arxiv url: http://arxiv.org/abs/2203.01382v1
Date: Wed, 2 Mar 2022 19:57:32 GMT
ステータス: 翻訳完了
システム内更新日: 2022-03-04 16:05:37.774122
Title: Nemo: Guiding and Contextualizing Weak Supervision for Interactive Data Programming
Title（参考訳）: Nemo: インタラクティブなデータプログラミングのためのガイドとコンテキスト化の弱さ
Authors: Cheng-Yu Hsieh, Jieyu Zhang, Alexander Ratner
Abstract要約: 私たちは、WS 学習パイプラインの全体的な生産性を、一般的な WS 監督アプローチと比較して平均20%(最大 47% のタスク)改善する、エンドツーエンドのインタラクティブなスーパービジョンシステムである Nemo を紹介します。
参考スコア（独自算出の注目度）: 77.38174112525168
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Weak Supervision (WS) techniques allow users to efficiently create large training datasets by programmatically labeling data with heuristic sources of supervision. While the success of WS relies heavily on the provided labeling heuristics, the process of how these heuristics are created in practice has remained under-explored. In this work, we formalize the development process of labeling heuristics as an interactive procedure, built around the existing workflow where users draw ideas from a selected set of development data for designing the heuristic sources. With the formalism, we study two core problems of how to strategically select the development data to guide users in efficiently creating informative heuristics, and how to exploit the information within the development process to contextualize and better learn from the resultant heuristics. Building upon two novel methodologies that effectively tackle the respective problems considered, we present Nemo, an end-to-end interactive system that improves the overall productivity of WS learning pipeline by an average 20% (and up to 47% in one task) compared to the prevailing WS approach.
Abstract（参考訳）: Weak Supervision(WS)技術により、ユーザはヒューリスティックなデータソースをプログラムでラベル付けすることで、大規模なトレーニングデータセットを効率的に作成できる。 WSの成功は提供されたラベル付けヒューリスティックに大きく依存していますが、これらのヒューリスティックが実際にどのように作成されるかのプロセスは、まだ解明されていないままです。本稿では,ヒューリスティックをインタラクティブな手順としてラベル付けする開発プロセスを定式化し,ユーザが選択した開発データからアイデアを描き,ヒューリスティックなソースを設計する既存のワークフローを中心に構築する。本稿では,情報ヒューリスティックを効率的に作成するための開発データを戦略的に選択する方法と,開発プロセス内の情報を活用して,結果ヒューリスティックからよりよく学習する方法の2つの問題について検討する。それぞれの問題に効果的に対処する2つの新しい手法に基づいて、我々は、一般的なWSアプローチと比較して、WS学習パイプライン全体の生産性を平均20%(最大47%まで)改善するエンドツーエンドの対話システムNemoを紹介します。

関連論文リスト

Scaling Web Agent Training through Automatic Data Generation and Fine-grained Evaluation [54.945281159783896]
Webエージェントのための高品質なトレーニングデータを自動的に生成するスケーラブルなパイプラインを提案する。本稿では,タスク完了に向けた進捗のきめ細かい評価を提供する制約に基づく新しい評価フレームワークを提案する。
論文参考訳（メタデータ） (2026-02-13T02:52:18Z)
Data Science and Technology Towards AGI Part I: Tiered Data Management [53.64581824953229]
我々は、人工知能の開発がデータモデル共進化の新しい段階に入ったと論じる。我々は、未処理のリソースから組織的で検証可能な知識まで、L0-L4階層のデータ管理フレームワークを紹介します。提案手法の有効性を実証研究により検証する。
論文参考訳（メタデータ） (2026-02-09T18:47:51Z)
LAM SIMULATOR: Advancing Data Generation for Large Action Model Training via Online Exploration and Trajectory Feedback [121.78866929908871]
AIエージェントのための大規模アクションモデル(LAM)は、素晴らしいポテンシャルを提供するが、高品質なトレーニングデータを必要とするため、課題に直面している。 LAM SIMULATORは,高品質なフィードバックによるエージェントタスクのオンライン探索を目的とした総合的なフレームワークである。本フレームワークは,動的タスククエリジェネレータ,広範囲なツールコレクション,および大規模言語モデル(LLM)エージェントがツールを呼び出し,リアルタイムフィードバックを受信できる対話型環境を備えている。
論文参考訳（メタデータ） (2025-06-02T22:36:02Z)
Learning Task Representations from In-Context Learning [73.72066284711462]
大規模言語モデル(LLM)は、文脈内学習において顕著な習熟性を示している。 ICLプロンプトにおけるタスク情報をアテンションヘッドの関数として符号化するための自動定式化を導入する。提案手法の有効性は,最後の隠れ状態の分布と最適に実行されたテキスト内学習モデルとの整合性に起因していることを示す。
論文参考訳（メタデータ） (2025-02-08T00:16:44Z)
Learn-by-interact: A Data-Centric Framework for Self-Adaptive Agents in Realistic Environments [33.83610929282721]
Learn-by-interactは、大規模な言語モデル(LLM)を人間のアノテーションなしで任意の環境に適用するための、データ中心のフレームワークである。我々は、トレーニングベースのシナリオとトレーニング不要なインコンテキスト学習(ICL)の両方でそれらを用いて、合成データの質を評価する。 SWE-bench、WebArena、OSWorld、Spider2-Vが現実的なコーディング、Web、デスクトップ環境にまたがる実験は、Learning-by-interactの有効性を示している。
論文参考訳（メタデータ） (2025-01-18T22:34:41Z)
Data-Juicer 2.0: Cloud-Scale Adaptive Data Processing for Foundation Models [64.28420991770382]
我々は,100以上の演算子が支援する実りあるデータ処理機能を提供する新しいシステムであるData-Juicer 2.0を提案する。このシステムは、さまざまな研究努力、実用的なアプリケーション、Alibaba Cloud PAIのような現実世界の製品で、公開され、積極的に維持され、広く採用されている。
論文参考訳（メタデータ） (2024-12-23T08:29:57Z)
Intelligent Spark Agents: A Modular LangGraph Framework for Scalable, Visualized, and Enhanced Big Data Machine Learning Workflows [1.4582633500696451]
LangGraphフレームワークは、スケーラビリティ、視覚化、インテリジェントなプロセス最適化を通じて機械学習を強化するように設計されている。このフレームワークの中核となるのは、Sparkの分散コンピューティング機能を活用する重要なイノベーションであるAgent AIだ。フレームワークにはLangChainエコシステムを通じて大きな言語モデルも組み込まれており、構造化されていないデータとのインタラクションが強化されている。
論文参考訳（メタデータ） (2024-12-02T13:41:38Z)
Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文参考訳（メタデータ） (2024-11-21T02:30:53Z)
Process-aware Human Activity Recognition [1.912429179274357]
本稿では,HARの性能向上のために,コンテキストからのプロセス情報を組み込んだ新しい手法を提案する。具体的には、機械学習モデルによって生成された確率的事象と、文脈情報から導出されるプロセスモデルとを一致させる。このアライメントは、これらの2つの情報源を適応的に重み付けし、HARの精度を最適化する。
論文参考訳（メタデータ） (2024-11-13T17:53:23Z)
Collaborative Evolving Strategy for Automatic Data-Centric Development [17.962373755266068]
本稿では,自動データ中心開発(AD2)タスクを紹介する。ドメインエキスパートのようなタスクスケジューリングと実装能力を必要とする、その中核的な課題を概説している。本稿では,Retrieval による協調的知恵強化進化という戦略を取り入れた自律エージェントを提案する。
論文参考訳（メタデータ） (2024-07-26T12:16:47Z)
AvaTaR: Optimizing LLM Agents for Tool Usage via Contrastive Reasoning [93.96463520716759]
大規模言語モデル(LLM)エージェントは、精度と幻覚を高めるために外部ツールと知識を活用する際、印象的な能力を示した。本稿では、LLMエージェントを最適化して提供されたツールを効果的に活用し、与えられたタスクのパフォーマンスを向上させる新しい自動化フレームワークであるAvaTaRを紹介する。
論文参考訳（メタデータ） (2024-06-17T04:20:02Z)
ALP: Action-Aware Embodied Learning for Perception [60.64801970249279]
認知のための行動認識型身体学習(ALP)について紹介する。 ALPは、強化学習ポリシーと逆ダイナミクス予測目標を最適化することにより、行動情報を表現学習に組み込む。 ALPは、複数の下流認識タスクにおいて、既存のベースラインよりも優れていることを示す。
論文参考訳（メタデータ） (2023-06-16T21:51:04Z)
Learning Context-Aware Service Representation for Service Recommendation in Workflow Composition [6.17189383632496]
本稿では,ワークフロー開発プロセス全体でのサービス推奨に対して,NLPにインスパイアされた新たなアプローチを提案する。ワークフロー構成プロセスは、ステップワイドでコンテキスト対応のサービス生成手順として形式化される。サービス埋め込みは、NLPフィールドからディープラーニングモデルを適用することで学習される。
論文参考訳（メタデータ） (2022-05-24T04:18:01Z)
SemTUI: a Framework for the Interactive Semantic Enrichment of Tabular Data [0.0]
SemTUIは、セマンティクスを使うことで、リッチ化プロセスを柔軟、完全、効果的にするためのフレームワークである。タスク駆動のユーザ評価によって、SemTUIは理解でき、使いやすく、テーブルの充実をほとんど努力も時間もかからずに達成できることが証明された。
論文参考訳（メタデータ） (2022-03-17T17:14:21Z)
Learning to Continuously Optimize Wireless Resource in a Dynamic Environment: A Bilevel Optimization Perspective [52.497514255040514]
この研究は、データ駆動メソッドが動的環境でリソース割り当て戦略を継続的に学び、最適化することを可能にする新しいアプローチを開発しています。学習モデルが新たなエピソードに段階的に適応できるように、連続学習の概念を無線システム設計に組み込むことを提案する。我々の設計は、異なるデータサンプルにまたがる公平性を保証する、新しい二段階最適化定式化に基づいている。
論文参考訳（メタデータ） (2021-05-03T07:23:39Z)
Mining Implicit Entity Preference from User-Item Interaction Data for Knowledge Graph Completion via Adversarial Learning [82.46332224556257]
本稿では,知識グラフ補完タスクにおけるユーザインタラクションデータを活用することで,新たな逆学習手法を提案する。我々のジェネレータはユーザインタラクションデータから分離されており、識別器の性能を向上させるのに役立ちます。利用者の暗黙の実体的嗜好を発見するために,グラフニューラルネットワークに基づく精巧な協調学習アルゴリズムを設計する。
論文参考訳（メタデータ） (2020-03-28T05:47:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。