Fugu-MT 論文翻訳(概要): Punctuation-aware treebank tree binarization

論文の概要: Punctuation-aware treebank tree binarization

arxiv url: http://arxiv.org/abs/2510.10951v1
Date: Mon, 13 Oct 2025 03:02:38 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-14 18:06:30.166895
Title: Punctuation-aware treebank tree binarization
Title（参考訳）: Punctuation-Aware Treebank Tree Binarization
Authors: Eitan Klinger, Vivaan Wadhwa, Jungyeul Park,
Abstract要約: 句読点対応のツリーバンクバイナライゼーションパイプラインは、2ナライゼーションの前に兄弟ノードとして句読点を保存する。ペン・ツリーバンクでは、句読点認識前処理により、頭部の予測精度が73.66%(コリンズ規則)から91.85%に向上した。すべてのコード、構成ファイル、ドキュメントがリリースされ、他のコーパスへのレプリケーションと拡張が可能である。
参考スコア（独自算出の注目度）: 4.779196219827507
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This article presents a curated resource and evaluation suite for punctuation-aware treebank binarization. Standard binarization pipelines drop punctuation before head selection, which alters constituent shape and harms head-child identification. We release (1) a reproducible pipeline that preserves punctuation as sibling nodes prior to binarization, (2) derived artifacts and metadata (intermediate @X markers, reversibility signatures, alignment indices), and (3) an accompanying evaluation suite covering head-child prediction, round-trip reversibility, and structural compatibility with derivational resources (CCGbank). On the Penn Treebank, punctuation-aware preprocessing improves head prediction accuracy from 73.66\% (Collins rules) and 86.66\% (MLP) to 91.85\% with the same classifier, and achieves competitive alignment against CCGbank derivations. All code, configuration files, and documentation are released to enable replication and extension to other corpora.
Abstract（参考訳）: 本稿では,句読点を考慮した木バンクバイナライゼーションのためのキュレートされた資源と評価スイートについて述べる。標準的なバイナライゼーションパイプラインは、頭部選択の前に句読点を落とし、構成形状を変え、頭部の識別を害する。 1)二項化前の句読点を兄弟ノードとして保存する再現可能なパイプライン,(2)派生した成果物とメタデータ(中間@Xマーカー,可逆性シグネチャ,アライメント指標),(3)親子予測,ラウンドトリップ可逆性,および派生資源(CCGbank)との構造的整合性を含む伴奏評価スイートをリリースする。ペンツリーバンクでは、句読点認識前処理により、頭部予測精度が73.66\%(コリンズ規則)と86.66\%(MLP)から91.85\%(同一分類器)に向上し、CCGバンクの派生と競合する調整を行う。すべてのコード、構成ファイル、ドキュメントがリリースされ、他のコーパスへのレプリケーションと拡張が可能である。

関連論文リスト

CORE: Context-Robust Remasking for Diffusion Language Models [51.59514489363897]
我々は、推論時リビジョンのためのトレーニング不要フレームワークであるContext-Robust Remasking (CORE)を提案する。静的トークンの確率を信頼するのではなく、COREは、ターゲットとなるマスク付きコンテキストの摂動に対する感受性を示すことによって、コンテキスト不安定なトークンを識別する。 LLaDA-8B-Baseでは、COREは推論とコードベンチマークの間で一貫した改善を行い、計算に適合したベースラインを上回り、MBPPを最大9.2%改善した。
論文参考訳（メタデータ） (2026-02-04T00:12:30Z)
ReTreever: Tree-based Coarse-to-Fine Representations for Retrieval [64.44265315244579]
そこで本研究では,様々なレベルで参照文書を整理し,表現するためのツリーベース手法を提案する。我々の手法はReTreeverと呼ばれ、クエリと参照ドキュメントが同様のツリーブランチに割り当てられるように、バイナリツリーの内部ノード毎のルーティング関数を共同で学習する。我々の評価では、ReTreeverは一般的に完全な表現精度を保っている。
論文参考訳（メタデータ） (2025-02-11T21:35:13Z)
Uncovering Prototypical Knowledge for Weakly Open-Vocabulary Semantic Segmentation [59.37587762543934]
本稿では,弱開語彙セマンティックセマンティックセグメンテーション(WOVSS)の問題点について検討する。既存の方法は、グループトークンの使用に関する粒度の矛盾に悩まされる。マルチモーダル正規化を組み込んだプロトタイプ誘導ネットワーク(PGSeg)を提案する。
論文参考訳（メタデータ） (2023-10-29T13:18:00Z)
Scalable Learning of Latent Language Structure With Logical Offline Cycle Consistency [71.42261918225773]
概念的には、LOCCOは、トレーニング対象のセマンティクスを使用してラベルなしテキストのアノテーションを生成する、自己学習の一形態と見なすことができる。追加ボーナスとして、LOCCOによって生成されたアノテーションは、神経テキスト生成モデルをトレーニングするために自明に再利用することができる。
論文参考訳（メタデータ） (2023-05-31T16:47:20Z)
Cascading and Direct Approaches to Unsupervised Constituency Parsing on Spoken Sentences [67.37544997614646]
本研究は,教師なし音声補聴における最初の研究である。目的は, 音声文の階層的構文構造を, 選挙区解析木の形で決定することである。正確なセグメンテーションだけでは、音声文を正確に解析するのに十分であることを示す。
論文参考訳（メタデータ） (2023-03-15T17:57:22Z)
Tree-constrained Pointer Generator with Graph Neural Network Encodings for Contextual Speech Recognition [19.372248692745167]
本稿では,木制約ポインタジェネレータ (TCPGen) コンポーネントにおけるグラフニューラルネットワーク (GNN) のエンド・ツー・エンドコンテキスト ASR への利用を提案する。 GNNエンコーディングのTCPGenは、元のTCPGenと比較して、バイアスのある単語のWERを15%削減した。
論文参考訳（メタデータ） (2022-07-02T15:12:18Z)
Co-training an Unsupervised Constituency Parser with Weak Supervision [33.63314110665062]
本稿では,あるノードが文中の特定のスパンを支配しているかどうかを識別するために,ブートストラップ分類器に依存する教師なし解析手法を提案する。両者の相互作用が両者の精度の向上に役立ち、その結果、効果的に解析できることが示される。
論文参考訳（メタデータ） (2021-10-05T18:45:06Z)
Tree-constrained Pointer Generator for End-to-end Contextual Speech Recognition [16.160767678589895]
TCPGenは、アテンションベースのエンコーダデコーダとトランスデューサエンドツーエンドのASRモデルの両方に偏りのある単語のリストのような知識を組み込む。 TCPGenは、バイアスワードを効率的なプレフィックスツリーに構造化し、そのシンボル入力として機能し、デコード中のバイアスワードの認識を容易にするニューラルネットワークショートカットを生成する。
論文参考訳（メタデータ） (2021-09-01T21:41:59Z)
RST Parsing from Scratch [14.548146390081778]
本稿では、RST(Rhetorical Structure Theory)フレームワークにおいて、文書レベルの言論解析の新しいエンドツーエンドの定式化を導入する。本フレームワークは,会話のセグメンテーションを前提条件として必要とせず,スクラッチからの談話解析を容易にする。我々の統合構文解析モデルでは、ビームサーチを用いて、最高の木構造を高速な木々の空間を探索することでデコードする。
論文参考訳（メタデータ） (2021-05-23T06:19:38Z)
Span-based Semantic Parsing for Compositional Generalization [53.24255235340056]
SpanBasedSPは入力発話上のスパンツリーを予測し、部分的なプログラムが入力内のスパンをどのように構成するかを明示的に符号化する。 GeoQuery、SCAN、CLOSUREでは、SpanBasedSPはランダムスプリットの強いseq2seqベースラインと似ているが、構成一般化を必要とするスプリットのベースラインに比べて劇的に性能が向上する。
論文参考訳（メタデータ） (2020-09-13T16:42:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。