論文の概要: AVIATE: Exploiting Translation Variants of Artifacts to Improve IR-based Traceability Recovery in Bilingual Software Projects
- arxiv url: http://arxiv.org/abs/2409.19304v1
- Date: Sat, 28 Sep 2024 10:21:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-05 23:58:48.383540
- Title: AVIATE: Exploiting Translation Variants of Artifacts to Improve IR-based Traceability Recovery in Bilingual Software Projects
- Title(参考訳): AVIATE: 2言語ソフトウェアプロジェクトにおけるIRベースのトレーサビリティ回復のためのアーティファクトの翻訳変数のエクスプロイト
- Authors: Kexin Sun, Yiding Ren, Hongyu Kuang, Hui Gao, Xiaoxing Ma, Guoping Rong, Dong Shao, He Zhang,
- Abstract要約: トレーサビリティは、様々なソフトウェア開発活動を促進する上で重要な役割を担います。
IR(Information Retrieval)ベースのアプローチは、テキストの類似性を利用して、アーティファクト間のトレースの可能性を測定する。
ソフトウェア開発のグローバル化は、同じ概念で可能な多言語主義など、新たな課題をもたらしている。
- 参考スコア(独自算出の注目度): 14.643142867163748
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traceability plays a vital role in facilitating various software development activities by establishing the traces between different types of artifacts (e.g., issues and commits in software repositories). Among the explorations for automated traceability recovery, the IR (Information Retrieval)-based approaches leverage textual similarity to measure the likelihood of traces between artifacts and show advantages in many scenarios. However, the globalization of software development has introduced new challenges, such as the possible multilingualism on the same concept (e.g., "ShuXing" vs. "attribute") in the artifact texts, thus significantly hampering the performance of IR-based approaches. Existing research has shown that machine translation can help address the term inconsistency in bilingual projects. However, the translation can also bring in synonymous terms that are not consistent with those in the bilingual projects (e.g., another translation of "ShuXing" as "property"). Therefore, we propose an enhancement strategy called AVIATE that exploits translation variants from different translators by utilizing the word pairs that appear simultaneously across the translation variants from different kinds artifacts (a.k.a. consensual biterms). We use these biterms to first enrich the artifact texts, and then to enhance the calculated IR values for improving IR-based traceability recovery for bilingual software projects. The experiments on 17 bilingual projects (involving English and 4 other languages) demonstrate that AVIATE significantly outperformed the IR-based approach with machine translation (the state-of-the-art in this field) with an average increase of 16.67 in Average Precision (31.43%) and 8.38 (11.22%) in Mean Average Precision, indicating its effectiveness in addressing the challenges of multilingual traceability recovery.
- Abstract(参考訳): トレーサビリティは、さまざまな種類のアーティファクト(ソフトウェアリポジトリのイシューやコミットなど)間のトレースを確立することによって、さまざまなソフトウェア開発活動を促進する上で重要な役割を担います。
自動トレーサビリティ回復のための探究の中で、IR(Information Retrieval)ベースのアプローチは、アーティファクト間のトレーサビリティの可能性を測り、多くのシナリオで利点を示すために、テキストの類似性を活用する。
しかし、ソフトウェア開発のグローバル化は、アーティファクトテキストにおける同じ概念(例えば、"ShuXing" 対 "attribute" など)上の多言語主義のような新しい課題を導入し、IRベースのアプローチのパフォーマンスを著しく妨げている。
既存の研究では、機械翻訳はバイリンガルプロジェクトの不整合という用語に対処するのに役立つことが示されている。
しかし、この翻訳は二言語プロジェクトのものと一致しない同義語(例えば、「ShuXing」を「property」として訳す)も持ち込むことができる。
そこで本研究では,異なる種類の成果物(つまり,合意二項)の翻訳変種間で同時に現れる単語ペアを利用して,異なる翻訳者からの翻訳変種を利用するAVIATEという拡張戦略を提案する。
これらの両項を用いて、まずアーティファクトテキストを豊かにし、次に計算したIR値を拡張して、両言語ソフトウェアプロジェクトのIRベースのトレーサビリティ回復を改善する。
17のバイリンガルプロジェクト(英語と他の4つの言語を含む)の実験は、AVIATEが機械翻訳(この分野の最先端技術)でIRベースのアプローチを著しく上回り、平均精度は16.67で平均31.43%、平均精度は8.38 (11.22%)、多言語トレーサビリティ回復の課題に対処する効果を示した。
関連論文リスト
- LLM-based Translation Inference with Iterative Bilingual Understanding [45.00660558229326]
大規模言語モデル(LLM)の言語間機能に基づいた,新しい反復的バイリンガル理解翻訳法を提案する。
LLMの言語横断的能力により、ソース言語とターゲット言語を別々にコンテキスト理解することが可能になる。
提案したIBUTは、いくつかの強力な比較法より優れている。
論文 参考訳(メタデータ) (2024-10-16T13:21:46Z) - Exploring the Necessity of Visual Modality in Multimodal Machine Translation using Authentic Datasets [3.54128607634285]
実世界の翻訳データセットを活用し,視覚的モダリティが翻訳効率に与える影響について検討した。
視覚的モダリティは、実際の翻訳データセットの大部分に有利であることが判明した。
以上の結果から,視覚情報は多モーダル翻訳における補助的役割を担っていることが示唆された。
論文 参考訳(メタデータ) (2024-04-09T08:19:10Z) - Lost in the Source Language: How Large Language Models Evaluate the Quality of Machine Translation [64.5862977630713]
本研究では,機械翻訳評価タスクにおいて,Large Language Models (LLM) がソースデータと参照データをどのように活用するかを検討する。
参照情報が評価精度を大幅に向上させるのに対して,意外なことに,ソース情報は時として非生産的である。
論文 参考訳(メタデータ) (2024-01-12T13:23:21Z) - TRIAD: Automated Traceability Recovery based on Biterm-enhanced
Deduction of Transitive Links among Artifacts [53.92293118080274]
トレーサビリティにより、ステークホルダは、ソフトウェアライフサイクル全体で導入されたソフトウェアアーティファクト間のトレースリンクを抽出し、理解することができます。
ほとんどの場合、Information Retrieval (IR) など、ソフトウェアアーティファクト間のテキストの類似性に依存している。
論文 参考訳(メタデータ) (2023-12-28T06:44:24Z) - On Cross-Lingual Retrieval with Multilingual Text Encoders [51.60862829942932]
言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性について検討する。
教師なしのアドホック文と文書レベルのCLIR実験でそれらの性能をベンチマークする。
我々は、ゼロショット言語とドメイン転送CLIR実験のシリーズにおける英語関連データに基づいて、教師付き方式で微調整された多言語エンコーダの評価を行った。
論文 参考訳(メタデータ) (2021-12-21T08:10:27Z) - Modelling Latent Translations for Cross-Lingual Transfer [47.61502999819699]
従来のパイプラインの2つのステップ(翻訳と分類)を1つのモデルに統合する新しい手法を提案する。
我々は,多言語NLUタスクにおける新しい潜時翻訳モデルの評価を行った。
ゼロショットと数ショットの学習設定の両方で、平均2.7の精度ポイントのゲインを報告します。
論文 参考訳(メタデータ) (2021-07-23T17:11:27Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - Evaluating Multilingual Text Encoders for Unsupervised Cross-Lingual
Retrieval [51.60862829942932]
本稿では,言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性に着目した体系的実証研究を行う。
文レベルのCLIRでは、最先端のパフォーマンスが達成できることを実証する。
しかし、ピーク性能は、汎用の多言語テキストエンコーダをオフ・ザ・シェルフで使うのではなく、文の理解タスクにさらに特化したバリエーションに依存している。
論文 参考訳(メタデータ) (2021-01-21T00:15:38Z) - Translation Artifacts in Cross-lingual Transfer Learning [51.66536640084888]
機械翻訳は、既存の言語間モデルに顕著な影響を与える微妙なアーティファクトを導入することができることを示す。
自然言語の推論では、前提と仮説を独立に翻訳することで、それらの間の語彙的重複を減らすことができる。
また、XNLIでは、それぞれ4.3点と2.8点の翻訳とゼロショットのアプローチを改善している。
論文 参考訳(メタデータ) (2020-04-09T17:54:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。