論文の概要: Interdisciplinary Research in Conversation: A Case Study in Computational Morphology for Language Documentation
- arxiv url: http://arxiv.org/abs/2509.10644v1
- Date: Fri, 12 Sep 2025 19:20:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:22.707101
- Title: Interdisciplinary Research in Conversation: A Case Study in Computational Morphology for Language Documentation
- Title(参考訳): 会話における学際的研究--言語文書の計算形態を事例として
- Authors: Enora Rice, Katharina von der Wense, Alexis Palmer,
- Abstract要約: 本稿は,NLPにおける研究と実践の幅広い相違点の中で,計算形態学と言語文書との切り離しを考察する。
ユーザ中心設計(UCD)の体系的な統合を伴わずに、非コンテキスト化と非効率化のフィールドリスクを論じる。
- 参考スコア(独自算出の注目度): 20.169593321938695
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Computational morphology has the potential to support language documentation through tasks like morphological segmentation and the generation of Interlinear Glossed Text (IGT). However, our research outputs have seen limited use in real-world language documentation settings. This position paper situates the disconnect between computational morphology and language documentation within a broader misalignment between research and practice in NLP and argues that the field risks becoming decontextualized and ineffectual without systematic integration of User-Centered Design (UCD). To demonstrate how principles from UCD can reshape the research agenda, we present a case study of GlossLM, a state-of-the-art multilingual IGT generation model. Through a small-scale user study with three documentary linguists, we find that despite strong metric based performance, the system fails to meet core usability needs in real documentation contexts. These insights raise new research questions around model constraints, label standardization, segmentation, and personalization. We argue that centering users not only produces more effective tools, but surfaces richer, more relevant research directions
- Abstract(参考訳): 計算形態学は、形態素セグメンテーションやInterlinear Glossed Text (IGT) の生成といったタスクを通じて、言語文書をサポートする可能性がある。
しかし、我々の研究成果は、実世界の言語文書設定でしか使われていない。
本稿は,NLPにおける研究と実践の幅広い相違点の中で,計算形態学と言語文書の切り離しを考察し,ユーザ中心設計(UCD)を体系的に統合することなく,非コンテキスト化と非効率化のフィールドリスクを論じる。
UCDの原理が研究課題をどう作り直すかを示すために,最新の多言語IGT生成モデルであるGrossLMのケーススタディを示す。
3つのドキュメンタリー言語学者による小規模なユーザスタディを通じて、メトリクスベースのパフォーマンスが強いにもかかわらず、実際のドキュメントコンテキストにおける中核的なユーザビリティのニーズを満たすことができないことが分かった。
これらの洞察は、モデル制約、ラベルの標準化、セグメンテーション、パーソナライゼーションに関する新しい研究課題を提起する。
我々は、ユーザー中心がより効果的なツールを生み出すだけでなく、より豊かで、より関連する研究の方向性を表面化していると論じている。
関連論文リスト
- Boosting Short Text Classification with Multi-Source Information Exploration and Dual-Level Contrastive Learning [12.377363857246602]
短文分類のためのMI-DELIGHTという新しいモデルを提案する。
まず、スパーシリティの問題を軽減するために、マルチソース情報探索を行う。
次に,短いテキストの表現を学習するために,グラフ学習アプローチを採用する。
論文 参考訳(メタデータ) (2025-01-16T00:26:15Z) - Feature engineering vs. deep learning for paper section identification: Toward applications in Chinese medical literature [5.773921786449337]
セクション識別は図書館科学、特に知識管理にとって重要な課題である。
中国医学文献分析の文脈における論文セクション識別問題について検討する。
論文 参考訳(メタデータ) (2024-12-15T09:11:14Z) - Boosting the Capabilities of Compact Models in Low-Data Contexts with Large Language Models and Retrieval-Augmented Generation [2.9921619703037274]
本稿では,形態素解析の言語タスクにおいて,より小さなモデルの出力を補正するために,大言語モデル(LLM)を基盤とした検索拡張生成(RAG)フレームワークを提案する。
データ不足や訓練可能なパラメータの不足を補うために,言語情報を活用するとともに,LLMを通して解釈・蒸留された記述文法からの入力を許容する。
コンパクトなRAG支援モデルがデータスカース設定に極めて有効であることを示し、このタスクとターゲット言語に対する新しい最先端技術を実現する。
論文 参考訳(メタデータ) (2024-10-01T04:20:14Z) - Retrieval-Enhanced Machine Learning: Synthesis and Opportunities [60.34182805429511]
検索エンハンスメントは機械学習(ML)の幅広い範囲に拡張できる
この研究は、MLの様々な領域の文献を、現在の文献から欠落している一貫した表記で合成することで、このパラダイムの正式なフレームワークであるRetrieval-Enhanced Machine Learning (REML)を導入する。
本研究の目的は、様々な分野の研究者に対して、検索強化モデルの包括的、正式に構造化された枠組みを付与し、学際的な将来の研究を促進することである。
論文 参考訳(メタデータ) (2024-07-17T20:01:21Z) - Systematic Task Exploration with LLMs: A Study in Citation Text Generation [63.50597360948099]
大規模言語モデル(LLM)は、複雑な創造的自然言語生成(NLG)タスクの定義と実行において、前例のない柔軟性をもたらす。
本稿では,系統的な入力操作,参照データ,出力測定からなる3成分研究フレームワークを提案する。
我々はこのフレームワークを用いて引用テキスト生成を探索する。これは一般的なNLPタスクであり、タスク定義と評価基準に関するコンセンサスを欠いている。
論文 参考訳(メタデータ) (2024-07-04T16:41:08Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - Topic Discovery via Latent Space Clustering of Pretrained Language Model
Representations [35.74225306947918]
本研究では, PLM 埋め込みを基盤とした空間学習とクラスタリングの連携フレームワークを提案する。
提案モデルでは,トピック発見のためにPLMがもたらす強力な表現力と言語的特徴を効果的に活用する。
論文 参考訳(メタデータ) (2022-02-09T17:26:08Z) - Incorporating Linguistic Knowledge for Abstractive Multi-document
Summarization [20.572283625521784]
ニューラルネットワークに基づく抽象的多文書要約(MDS)モデルを開発した。
依存関係情報を言語誘導型注意機構に処理する。
言語信号の助けを借りて、文レベルの関係を正しく捉えることができる。
論文 参考訳(メタデータ) (2021-09-23T08:13:35Z) - Positioning yourself in the maze of Neural Text Generation: A
Task-Agnostic Survey [54.34370423151014]
本稿では, ストーリーテリング, 要約, 翻訳など, 世代ごとのタスクインパクトをリレーする手法の構成要素について検討する。
本稿では,学習パラダイム,事前学習,モデリングアプローチ,復号化,各分野における重要な課題について,命令的手法の抽象化を提案する。
論文 参考訳(メタデータ) (2020-10-14T17:54:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。