論文の概要: A Survey of Idiom Datasets for Psycholinguistic and Computational Research
- arxiv url: http://arxiv.org/abs/2508.11828v1
- Date: Fri, 15 Aug 2025 22:24:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:10.39917
- Title: A Survey of Idiom Datasets for Psycholinguistic and Computational Research
- Title(参考訳): 心理言語・計算研究のためのイディオムデータセットの検討
- Authors: Michael Flor, Xinyi Liu, Anna Feldman,
- Abstract要約: 本調査は,イディオム研究のための心理言語学および計算言語学で開発されたデータセットをレビューする。
心理学的資源は通常、親しみ、透明性、構成性といった次元に沿った基準付き格付けを含む。
計算データセットは、慣用性の検出/分類、言い換え、言語間モデリングなどのタスクをサポートする。
- 参考スコア(独自算出の注目度): 11.290412163567197
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Idioms are figurative expressions whose meanings often cannot be inferred from their individual words, making them difficult to process computationally and posing challenges for human experimental studies. This survey reviews datasets developed in psycholinguistics and computational linguistics for studying idioms, focusing on their content, form, and intended use. Psycholinguistic resources typically contain normed ratings along dimensions such as familiarity, transparency, and compositionality, while computational datasets support tasks like idiomaticity detection/classification, paraphrasing, and cross-lingual modeling. We present trends in annotation practices, coverage, and task framing across 53 datasets. Although recent efforts expanded language coverage and task diversity, there seems to be no relation yet between psycholinguistic and computational research on idioms.
- Abstract(参考訳): イディオム(英: Idioms)は、個々の単語からしばしば意味を推測できない図形表現であり、計算的に処理し難く、人間の実験研究に挑戦する。
本調査は,イディオム研究のための心理言語学および計算言語学で開発されたデータセットをレビューし,その内容,形態,意図的な使用に焦点を当てた。
心理学的リソースは通常、親しみやすさ、透明性、構成性といった次元に沿った規範的な評価を含むが、計算データセットは慣用性の検出/分類、パラフレーズ化、言語間モデリングなどのタスクをサポートする。
53データセットにわたるアノテーションプラクティス、カバレッジ、タスクフレーミングのトレンドを紹介します。
近年の取り組みは言語カバレッジとタスクの多様性を拡大したものの、イディオムに関する心理言語学と計算研究の間にはまだ関係がないようである。
関連論文リスト
- Variationist: Exploring Multifaceted Variation and Bias in Written Language Data [3.666781404469562]
言語データの探索と理解は、人間の言語を扱うあらゆる分野において、基本的な段階である。
しかし現時点では、言語の変化とバイアスをシームレスに検査し視覚化する、統一的でカスタマイズ可能なツールが欠如している。
本稿では、このギャップを埋める高度にモジュラーで記述的でタスクに依存しないツールである「変分主義」を紹介する。
論文 参考訳(メタデータ) (2024-06-25T15:41:07Z) - A blind spot for large language models: Supradiegetic linguistic information [0.602276990341246]
ChatGPTのような大きな言語モデル(LLM)は、驚くべきことに人間らしく、言語的な流布を実現する。
本稿では,言語学,具体的認知,認知科学,数学,歴史など,いくつかの分野の思想を用いて,この枠組みの詳細について検討する。
これらの概念を用いて,ChatGPT などの LLM がパリンドロム処理に苦慮する理由,シンボルの視覚的特徴,シュメール・キュニフォームの翻訳,整数列の継続について検討する。
論文 参考訳(メタデータ) (2023-06-11T22:15:01Z) - Syntax and Semantics Meet in the "Middle": Probing the Syntax-Semantics
Interface of LMs Through Agentivity [68.8204255655161]
このような相互作用を探索するためのケーススタディとして,作用性のセマンティックな概念を提示する。
これは、LMが言語アノテーション、理論テスト、発見のためのより有用なツールとして役立つ可能性を示唆している。
論文 参考訳(メタデータ) (2023-05-29T16:24:01Z) - Lexical Complexity Prediction: An Overview [13.224233182417636]
テキスト中の未知の単語の発生は、読書の理解を著しく妨げている。
計算モデリングは、テキスト中の複雑な単語を識別し、より単純な代替語に置き換えるために応用されている。
本稿では,英文データに基づく語彙複雑性予測に対する計算手法の概要について述べる。
論文 参考訳(メタデータ) (2023-03-08T19:35:08Z) - Analyzing the Limits of Self-Supervision in Handling Bias in Language [52.26068057260399]
我々は、言語モデルが、認識、識別、抽出、言い換えの4つのタスクのセマンティクスをいかにうまく捉えているかを評価する。
分析の結果,言語モデルでは,ジェンダーや政治的アフィリエイトなど,様々なバイアス次元にまたがって,これらのタスクを広範囲にわたって実行することが可能であることが示唆された。
論文 参考訳(メタデータ) (2021-12-16T05:36:08Z) - Schr\"odinger's Tree -- On Syntax and Neural Language Models [10.296219074343785]
言語モデルは、NLPのワークホースとして登場し、ますます流動的な生成能力を示している。
我々は、多くの次元にまたがる明瞭さの欠如を観察し、研究者が形成する仮説に影響を及ぼす。
本稿では,構文研究における様々な研究課題の意義について概説する。
論文 参考訳(メタデータ) (2021-10-17T18:25:23Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - Information-Theoretic Probing for Linguistic Structure [74.04862204427944]
本稿では,相互情報を推定するための情報理論による探索運用手法を提案する。
我々は,NLP研究でしばしば不足している10の型的多様言語について評価した。
論文 参考訳(メタデータ) (2020-04-07T01:06:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。