Fugu-MT 論文翻訳(概要): DistALANER: Distantly Supervised Active Learning Augmented Named Entity Recognition in the Open Source Software Ecosystem

論文の概要: DistALANER: Distantly Supervised Active Learning Augmented Named Entity Recognition in the Open Source Software Ecosystem

arxiv url: http://arxiv.org/abs/2402.16159v4
Date: Tue, 28 May 2024 07:54:44 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-30 01:18:48.188278
Title: DistALANER: Distantly Supervised Active Learning Augmented Named Entity Recognition in the Open Source Software Ecosystem
Title（参考訳）: DistALANER: オープンソースソフトウェアエコシステムにおけるアクティブラーニングの拡張されたエンティティ認識
Authors: Somnath Banerjee, Avik Dutta, Aaditya Agrawal, Rima Hazra, Animesh Mukherjee,
Abstract要約: 本稿では,オープンソースソフトウェアシステムに適したエンティティ認識(NER)技術を提案する。提案手法は,2段階の遠隔教師付きアノテーションプロセスを用いて,注釈付きソフトウェアデータの不足に対処することを目的としている。我々のモデルは最先端のLLMよりもかなり優れています。
参考スコア（独自算出の注目度）: 4.368725325557961
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: With the AI revolution in place, the trend for building automated systems to support professionals in different domains such as the open source software systems, healthcare systems, banking systems, transportation systems and many others have become increasingly prominent. A crucial requirement in the automation of support tools for such systems is the early identification of named entities, which serves as a foundation for developing specialized functionalities. However, due to the specific nature of each domain, different technical terminologies and specialized languages, expert annotation of available data becomes expensive and challenging. In light of these challenges, this paper proposes a novel named entity recognition (NER) technique specifically tailored for the open-source software systems. Our approach aims to address the scarcity of annotated software data by employing a comprehensive two-step distantly supervised annotation process. This process strategically leverages language heuristics, unique lookup tables, external knowledge sources, and an active learning approach. By harnessing these powerful techniques, we not only enhance model performance but also effectively mitigate the limitations associated with cost and the scarcity of expert annotators. It is noteworthy that our model significantly outperforms the state-of-the-art LLMs by a substantial margin. We also show the effectiveness of NER in the downstream task of relation extraction.
Abstract（参考訳）: AI革命が成立すると、オープンソースのソフトウェアシステム、医療システム、銀行システム、交通システムなど、さまざまな分野のプロフェッショナルをサポートする自動化システムを構築する傾向がますます顕著になっている。このようなシステムのサポートツールの自動化において重要な要件は、名前付きエンティティの早期識別であり、特殊機能開発の基礎となっている。しかし、各ドメイン固有の性質、異なる専門用語や専門言語により、利用可能なデータのエキスパートアノテーションは高価で困難になる。これらの課題を踏まえて,オープンソースのソフトウェアシステムに特化して,エンティティ認識(NER)技術を提案する。提案手法は,2段階の遠隔教師付きアノテーションプロセスを用いて,注釈付きソフトウェアデータの不足に対処することを目的としている。このプロセスは、言語ヒューリスティックス、ユニークなルックアップテーブル、外部知識源、アクティブな学習アプローチを戦略的に活用する。これらの強力な技術を活用することで、モデルの性能を高めるだけでなく、コストや専門家アノテータの不足に伴う制限を効果的に緩和する。我々のモデルは最先端のLLMよりもかなり優れています。また,関係抽出の下流課題におけるNERの有効性を示す。

関連論文リスト

Advances and Frontiers of LLM-based Issue Resolution in Software Engineering: A Comprehensive Survey [59.3507264893654]
課題解決は、現実世界の開発に不可欠な複雑なソフトウェアエンジニアリングタスクです。 SWE-benchのようなベンチマークでは、このタスクは大規模言語モデルでは極めて困難であることが判明した。本稿では,この新興領域を体系的に調査する。
論文参考訳（メタデータ） (2026-01-15T18:55:03Z)
Using LLMs and Essence to Support Software Practice Adoption [0.3609538870261841]
本研究では,ソフトウェアエンジニアリングプラクティスを管理するための標準および思考フレームワークであるEssenceと,大規模言語モデル(LLM)の統合について検討する。提案システムは、ドメイン固有のタスクにおいて、ベースラインよりも一貫して優れている。
論文参考訳（メタデータ） (2025-08-22T14:59:35Z)
Does Machine Unlearning Truly Remove Model Knowledge? A Framework for Auditing Unlearning in LLMs [58.24692529185971]
本研究では,3つのベンチマークデータセット,6つのアンラーニングアルゴリズム,および5つのプロンプトベースの監査手法からなる,アンラーニング評価のための総合的な監査フレームワークを提案する。異なるアンラーニング戦略の有効性とロバスト性を評価する。
論文参考訳（メタデータ） (2025-05-29T09:19:07Z)
Edge-Cloud Collaborative Computing on Distributed Intelligence and Model Optimization: A Survey [59.52058740470727]
エッジクラウドコラボレーティブコンピューティング(ECCC)は、現代のインテリジェントアプリケーションの計算要求に対処するための重要なパラダイムとして登場した。 AIの最近の進歩、特にディープラーニングと大規模言語モデル(LLM)は、これらの分散システムの能力を劇的に向上させてきた。この調査は、基本的なアーキテクチャ、技術の実現、新しいアプリケーションに関する構造化されたチュートリアルを提供する。
論文参考訳（メタデータ） (2025-05-03T13:55:38Z)
Agentic Knowledgeable Self-awareness [79.25908923383776]
KnowSelfはデータ中心のアプローチで、人間のような知識のある自己認識を持つエージェントを応用する。我々の実験により、KnowSelfは、外部知識を最小限に使用して、様々なタスクやモデルにおいて、様々な強力なベースラインを達成できることが実証された。
論文参考訳（メタデータ） (2025-04-04T16:03:38Z)
Empowering AIOps: Leveraging Large Language Models for IT Operations Management [0.6752538702870792]
従来の予測機械学習モデルとLarge Language Models(LLMs)のような生成AI技術を統合することを目指しています。 LLMは、システムログやインシデントレポート、技術ドキュメントなど、膨大な量の非構造化データの処理と分析を可能にする。我々は,AIOpsにおける永続的な課題に対処し,IT運用管理の能力を高めるための革新的な手法を提案する。
論文参考訳（メタデータ） (2025-01-21T19:17:46Z)
Towards Human-Guided, Data-Centric LLM Co-Pilots [53.35493881390917]
CliMB-DCは、機械学習コパイロットのための、ヒューマンガイド付き、データ中心のフレームワークである。高度なデータ中心ツールとLLM駆動推論を組み合わせることで、堅牢でコンテキスト対応のデータ処理を可能にする。 CliMB-DCが未処理のデータセットをML対応フォーマットに変換する方法を示す。
論文参考訳（メタデータ） (2025-01-17T17:51:22Z)
A Survey: Collaborative Hardware and Software Design in the Era of Large Language Models [16.250856588632637]
大規模言語モデル(LLM)の急速な発展は、人工知能の分野を大きく変えた。これらのモデルは多様なアプリケーションに統合され、研究と産業の両方に影響を及ぼす。本稿では,大規模言語モデルの特徴と制約に対処するために,ハードウェアとソフトウェアの共同設計手法について検討する。
論文参考訳（メタデータ） (2024-10-08T21:46:52Z)
Dealing with Data for RE: Mitigating Challenges while using NLP and Generative AI [2.9189409618561966]
本章では、ソフトウェア工学全般の進化する展望、特に要件工学(RE)について論じている。自然言語処理(NLP)と生成AIをエンタープライズクリティカルなソフトウェアシステムに統合する際に生じる課題について論じる。本は、読者に必要な知識とツールを提供するために、実践的な洞察、解決策、例を提供する。
論文参考訳（メタデータ） (2024-02-26T19:19:47Z)
Machine Learning Insides OptVerse AI Solver: Design Principles and Applications [74.67495900436728]
本稿では,Huawei CloudのOpsVerse AIソルバに機械学習(ML)技術を統合するための総合的研究について述べる。本稿では,実世界の多面構造を反映した生成モデルを用いて,複雑なSATインスタンスとMILPインスタンスを生成する手法を紹介する。本稿では,解解器性能を著しく向上させる,最先端パラメータチューニングアルゴリズムの導入について詳述する。
論文参考訳（メタデータ） (2024-01-11T15:02:15Z)
Enabling Automated Machine Learning for Model-Driven AI Engineering [60.09869520679979]
モデル駆動型ソフトウェアエンジニアリングとモデル駆動型AIエンジニアリングを実現するための新しいアプローチを提案する。特に、私たちはAutomated MLをサポートし、AI集約システムの開発において、AIの深い知識のないソフトウェアエンジニアを支援します。
論文参考訳（メタデータ） (2022-03-06T10:12:56Z)
Towards a Reference Software Architecture for Human-AI Teaming in Smart Manufacturing [0.0]
我々は、知識グラフ、トラッキングとシーン分析、およびリレーショナル機械学習のためのコンポーネントに基づくリファレンスソフトウェアアーキテクチャを開発した。本ソフトウェアアーキテクチャの実証検証は,自動車,エネルギーシステム,精密加工領域の大規模企業3社と連携して実施する。
論文参考訳（メタデータ） (2022-01-13T10:43:49Z)
From Machine Learning to Robotics: Challenges and Opportunities for Embodied Intelligence [113.06484656032978]
記事は、インテリジェンスが機械学習技術の進歩の鍵を握っていると主張している。私たちは、インテリジェンスを具体化するための課題と機会を強調します。本稿では,ロボット学習の最先端性を著しく向上させる研究の方向性を提案する。
論文参考訳（メタデータ） (2021-10-28T16:04:01Z)
Engineering an Intelligent Essay Scoring and Feedback System: An Experience Report [1.5168188294440734]
専門的な採用支援サービスの顧客から提供されるエッセイの質を評価するための探索システムについて述べる。オープンエンドの顧客提供のソーステキストがあいまいさとエラーのかなりの範囲を持っているため、問題領域は困難です。また、専門的なビジネスドメイン知識をインテリジェントな処理システムに組み込む必要もあります。
論文参考訳（メタデータ） (2021-03-25T03:46:05Z)
Technology Readiness Levels for Machine Learning Systems [107.56979560568232]
機械学習システムの開発とデプロイは、現代のツールで簡単に実行できますが、プロセスは一般的に急ぎ、エンドツーエンドです。私たちは、機械学習の開発と展開のための実証済みのシステムエンジニアリングアプローチを開発しました。当社の「機械学習技術準備レベル」フレームワークは、堅牢で信頼性が高く、責任あるシステムを確保するための原則的なプロセスを定義します。
論文参考訳（メタデータ） (2021-01-11T15:54:48Z)
Technology Readiness Levels for AI & ML [79.22051549519989]
機械学習システムの開発は、現代的なツールで容易に実行できるが、プロセスは通常急いで、エンドツーエンドで実行される。エンジニアリングシステムは、高品質で信頼性の高い結果の開発を効率化するために、明確に定義されたプロセスとテスト標準に従います。我々は、機械学習の開発と展開のための実証されたシステムエンジニアリングアプローチを提案する。
論文参考訳（メタデータ） (2020-06-21T17:14:34Z)
Distributed and Democratized Learning: Philosophy and Research Challenges [80.39805582015133]
民主化学習(Dem-AI)という新しいデザイン哲学を提案する。ヒトの社会的グループに触発され、提案されたDem-AIシステムの学習エージェントの専門グループは階層構造で自己組織化され、より効率的に学習タスクを遂行する。本稿では,様々な学際分野に触発された未来のDem-AIシステムを実現するためのガイドラインとして,参照設計を提案する。
論文参考訳（メタデータ） (2020-03-18T08:45:10Z)
Synergizing Domain Expertise with Self-Awareness in Software Systems: A Patternized Architecture Guideline [11.155059219430207]
本稿では、ソフトウェアシステムにおける自己適応性を高めるために、ドメインの専門知識の相乗化と自己認識の重要性を強調する。我々は、DBASESと呼ばれる概念、豊富なパターン、方法論の総合的なフレームワークを提示し、エンジニアに原則化されたガイドラインを提供する。
論文参考訳（メタデータ） (2020-01-20T12:17:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。