Fugu-MT 論文翻訳(概要): Structured abbreviation expansion in context

論文の概要: Structured abbreviation expansion in context

arxiv url: http://arxiv.org/abs/2110.01140v1
Date: Mon, 4 Oct 2021 01:22:43 GMT
ステータス: 翻訳完了
システム内更新日: 2021-10-06 01:29:17.295362
Title: Structured abbreviation expansion in context
Title（参考訳）: 文脈における構造化省略拡張
Authors: Kyle Gorman, Christo Kirov, Brian Roark, and Richard Sproat
Abstract要約: 我々は,短縮メッセージの正規化および拡張バージョンを回復するために,文脈内でのアドホック略語を逆転させる作業を検討する。この問題は、アドホックの略語が意図的であり、元の単語とはかなり異なる可能性があるという点において、綴りの修正とは関係があるが、異なるものである。
参考スコア（独自算出の注目度）: 12.000998471674649
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Ad hoc abbreviations are commonly found in informal communication channels that favor shorter messages. We consider the task of reversing these abbreviations in context to recover normalized, expanded versions of abbreviated messages. The problem is related to, but distinct from, spelling correction, in that ad hoc abbreviations are intentional and may involve substantial differences from the original words. Ad hoc abbreviations are productively generated on-the-fly, so they cannot be resolved solely by dictionary lookup. We generate a large, open-source data set of ad hoc abbreviations. This data is used to study abbreviation strategies and to develop two strong baselines for abbreviation expansion
Abstract（参考訳）: アドホックな略語は、短いメッセージを好む非公式なコミュニケーションチャネルでよく見られる。本研究は, 短縮メッセージの正規化, 拡張バージョンを回復するために, 文脈内でこれらの略語を逆転させる作業を検討する。この問題は、アドホックな略語が意図的であり、元の単語と実質的な違いがあるという点で、綴りの修正とは関係があるが、異なる。アドホックな略語は生産的にオンザフライで生成されるので、辞書検索だけでは解決できない。アドホックな略語からなる大規模でオープンソースのデータセットを生成します。このデータは、短縮戦略の研究と、短縮拡大のための2つの強力なベースラインの開発に使用される。

関連論文リスト

C2T-ID: Converting Semantic Codebooks to Textual Document Identifiers for Generative Search [73.61009656398384]
本稿では,階層クラスタリングによる意味的数値決定法を構築するC2T-IDを提案する。 C2T-IDは、アトミック、セマンティック・コードブック、純粋テキスト・ドシッド・ベースラインを著しく上回っている。
論文参考訳（メタデータ） (2025-10-22T04:05:38Z)
Automated Extraction of Acronym-Expansion Pairs from Scientific Papers [0.0]
このプロジェクトは、デジタルテキストにおける略語や頭字語の普及によって引き起こされる課題に対処する。本稿では,文書前処理,正規表現,および大規模言語モデルを組み合わせて,省略を識別し,対応する拡張にマッピングする手法を提案する。
論文参考訳（メタデータ） (2024-12-02T04:05:49Z)
Evaluating and Improving ChatGPT-Based Expansion of Abbreviations [6.900119856872516]
大規模言語モデル(LLM)に基づく略語拡張に関する最初の実証的研究について述べる。以上の結果から,ChatGPTは最先端のアプローチよりも精度が低いことが示唆された。最初の原因として, 様々な文脈の影響を調査し, 周辺ソースコードが最適選択であることを確認した。
論文参考訳（メタデータ） (2024-10-31T12:20:24Z)
CRAT: A Multi-Agent Framework for Causality-Enhanced Reflective and Retrieval-Augmented Translation with Large Language Models [59.8529196670565]
CRATは、RAGと因果強化自己回帰を利用して翻訳課題に対処する、新しいマルチエージェント翻訳フレームワークである。以上の結果からCRATは翻訳精度を著しく向上させ,特に文脈に敏感な単語や語彙の出現に寄与することが示唆された。
論文参考訳（メタデータ） (2024-10-28T14:29:11Z)
Enriching Relation Extraction with OpenIE [70.52564277675056]
関係抽出(RE)は情報抽出(IE)のサブ分野である本稿では,オープン情報抽出(OpenIE)の最近の取り組みがREの課題の改善にどのように役立つかを検討する。本稿では,2つの注釈付きコーパスであるKnowledgeNetとFewRelを用いた実験により,拡張モデルの精度向上を実証した。
論文参考訳（メタデータ） (2022-12-19T11:26:23Z)
Dealing with Abbreviations in the Slovenian Biographical Lexicon [2.0810096547938164]
省略は、トークン化や語彙外エラーを引き起こすため、NLPシステムにとって大きな課題となる。そこで本研究では,テキスト中のドメイン固有省略量の高密度化に起因する問題に対処する手法を提案する。
論文参考訳（メタデータ） (2022-11-04T13:09:02Z)
Token Classification for Disambiguating Medical Abbreviations [0.0]
省略は避けられないが、医療テキストの重要な部分である。標準化されたマッピングシステムの欠如は、曖昧な省略を困難かつ時間を要するタスクにする。
論文参考訳（メタデータ） (2022-10-05T18:06:49Z)
Hierarchical Context Tagging for Utterance Rewriting [51.251400047377324]
配列を線形に生成するのではなくタグ付けする方法は、ドメイン内および外部の書き直し設定においてより強力であることが証明されている。本稿では,スロット付きルールを予測してこの問題を緩和する階層型コンテキストタグを提案する。いくつかのベンチマーク実験により、HCTは2つのBLEUポイントで最先端の書き換えシステムより優れていることが示された。
論文参考訳（メタデータ） (2022-06-22T17:09:34Z)
Atypical lexical abbreviations identification in Russian medical texts [0.0]
そこで我々は,ロシア語テキストの省略を識別する,効率的なMLベースのアルゴリズムを提案する。この方法は、ROC AUCスコア0.926とF1スコア0.706を達成し、競合性が確認された。
論文参考訳（メタデータ） (2022-06-04T13:16:08Z)
Context-Aware Abbreviation Expansion Using Large Language Models [16.52516727224014]
本稿では,主に単語初期文字としてフレーズを積極的に省略するパラダイムを提案する。我々のアプローチは、会話コンテキストを活用することで、略語をフルフレーズの選択肢に拡張することである。
論文参考訳（メタデータ） (2022-05-08T03:02:53Z)
End-to-end contextual asr based on posterior distribution adaptation for hybrid ctc/attention system [61.148549738631814]
エンドツーエンド(E2E)音声認識アーキテクチャは、従来の音声認識システムのすべてのコンポーネントを単一のモデルに組み立てる。これはASRシステムを単純化するが、文脈的ASRの欠点を導入している: E2Eモデルは、頻繁な固有名詞を含む発話に対して、より悪い性能を持つ。本稿では,文脈的単語認識能力を向上させるために,文脈バイアスアテンション(CBA)モジュールをアテンションベースエンコーダデコーダ(AED)モデルに追加することを提案する。
論文参考訳（メタデータ） (2022-02-18T03:26:02Z)
Counterfactual Interventions Reveal the Causal Effect of Relative Clause Representations on Agreement Prediction [61.4913233397155]
BERTが言語戦略を用いて合意予測中にRCスパンに関する情報を使用することを示す。また,特定のRCサブタイプに対して生成された反事実表現が,他のRCサブタイプを含む文の数値予測に影響を及ぼし,RC境界に関する情報がBERTの表現に抽象的に符号化されたことを示唆した。
論文参考訳（メタデータ） (2021-05-14T17:11:55Z)
What Does This Acronym Mean? Introducing a New Dataset for Acronym Identification and Disambiguation [74.42107665213909]
頭字語は、文書中の長い文を伝達し、文章の主文の1つとして機能する短い形式の句である。その重要性から、頭字語と対応する語句(AI)を識別し、それぞれの頭字語(AD)の正しい意味を見つけることは、テキスト理解に不可欠である。このタスクの最近の進歩にもかかわらず、既存のデータセットにはいくつかの制限があり、さらなる改善を妨げる。
論文参考訳（メタデータ） (2020-10-28T00:12:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。