Fugu-MT 論文翻訳(概要): EtiCor: Corpus for Analyzing LLMs for Etiquettes

論文の概要: EtiCor: Corpus for Analyzing LLMs for Etiquettes

arxiv url: http://arxiv.org/abs/2310.18974v1
Date: Sun, 29 Oct 2023 10:47:23 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-31 14:59:44.136149
Title: EtiCor: Corpus for Analyzing LLMs for Etiquettes
Title（参考訳）: EtiCor:EtiquettesのLCM分析コーパス
Authors: Ashutosh Dwivedi, Pradhyumna Lavania, Ashutosh Modi
Abstract要約: 我々は,エティケテスコーパスであるEtiCorを提案する。コーパスは、地域固有のエチケットの知識と理解のためにLSMを評価するためのテストベッドを提供する。
参考スコア（独自算出の注目度）: 5.259087610534564
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Etiquettes are an essential ingredient of day-to-day interactions among people. Moreover, etiquettes are region-specific, and etiquettes in one region might contradict those in other regions. In this paper, we propose EtiCor, an Etiquettes Corpus, having texts about social norms from five different regions across the globe. The corpus provides a test bed for evaluating LLMs for knowledge and understanding of region-specific etiquettes. Additionally, we propose the task of Etiquette Sensitivity. We experiment with state-of-the-art LLMs (Delphi, Falcon40B, and GPT-3.5). Initial results indicate that LLMs, mostly fail to understand etiquettes from regions from non-Western world.
Abstract（参考訳）: エチケットは、人々の日々の交流の重要な要素である。さらに、エチケットは地域特有であり、ある地域のエチケットは他の地域と矛盾する可能性がある。本稿では,世界5地域からの社会規範に関するテキストを収録したエチケットコーパスであるeticorを提案する。コーパスは、地域固有のエチケットの知識と理解のためにLSMを評価するためのテストベッドを提供する。また,Etiquette Sensitivityの課題を提案する。現状のLLM (Delphi, Falcon40B, GPT-3.5) を実験した。最初の結果は、llmは、ほとんどが非西洋世界の地域からの礼儀作法を理解していないことを示している。

関連論文リスト

The World According to LLMs: How Geographic Origin Influences LLMs' Entity Deduction Capabilities [12.46765303763981]
大きな言語モデル(LLM)は明示的なバイアスを軽減するために広範囲に調整されてきたが、事前学習データに根ざした暗黙のバイアスがしばしば現れる。我々は、モデルが積極的に質問するときにどのように振る舞うかを研究する。マルチターン推論タスクである20の質問ゲームは、この目的のために理想的なテストベッドとして機能する。
論文参考訳（メタデータ） (2025-08-07T15:53:30Z)
EtiCor++: Towards Understanding Etiquettical Bias in LLMs [4.679320772294786]
世界中のエチケットのコーパスであるEtiCor++を紹介します。様々な地域におけるエチケットに関する知識のために,LLMを評価するための様々なタスクを紹介した。
論文参考訳（メタデータ） (2025-06-10T06:29:35Z)
Analyzing LLMs' Knowledge Boundary Cognition Across Languages Through the Lens of Internal Representations [72.62400923539234]
本研究は,LLMが言語間の知識境界をどのように認識するかを解析するための最初の研究である。 1) LLM の知識境界に対する認識は, 言語間の中間層と中間層にコード化されている。
論文参考訳（メタデータ） (2025-04-18T17:44:12Z)
QUENCH: Measuring the gap between Indic and Non-Indic Contextual General Reasoning in LLMs [22.408857659304484]
QUENCHは、YouTubeのクイズビデオから手作業でキュレーションされ、書き起こされる新しいテキストベースのイングリッシュ・クイズ・ベンチマークである。地理的文脈と常識推論の交差において、QUENCHはLLMの世界の知識と推論能力を評価するのに役立っている。
論文参考訳（メタデータ） (2024-12-16T13:28:29Z)
Dialectal Toxicity Detection: Evaluating LLM-as-a-Judge Consistency Across Language Varieties [23.777874316083984]
現代のLSMによる毒性の検出に方言の違いがどう影響するかについては、体系的な研究はほとんど行われていない。 10の言語クラスタと60の変種をカバーする合成変換と人間による翻訳により、多言語データセットを作成する。次に,多言語,方言,LLM-ヒト間の毒性を評価できる3つのLSMを評価した。
論文参考訳（メタデータ） (2024-11-17T03:53:24Z)
CulturalBench: a Robust, Diverse and Challenging Benchmark on Measuring the (Lack of) Cultural Knowledge of LLMs [75.82306181299153]
文化ベンチについて紹介する: 文化的知識を評価するための1,227の人文的・人文的な質問である。同じ質問を共有しながら異なる質問をするCulturalBench-EasyとCulturalBench-Hardの2つの設定でモデルを評価する。人間のパフォーマンス(92.6%の精度)と比較して、カルチャーベンチ・ハードは、最もパフォーマンスの良いモデル(GPT-4o)が61.5%、最悪のモデル(Llama3-8b)が21.4%であるフロンティアのLLMにとってより難しい。
論文参考訳（メタデータ） (2024-10-03T17:04:31Z)
Hate Personified: Investigating the role of LLMs in content moderation [64.26243779985393]
ヘイト検出などの主観的タスクでは,人々が嫌悪感を知覚する場合には,多様なグループを表現できるLarge Language Model(LLM)の能力は不明確である。追加の文脈をプロンプトに含めることで、LLMの地理的プライミングに対する感受性、ペルソナ属性、数値情報を分析し、様々なグループのニーズがどの程度反映されているかを評価する。
論文参考訳（メタデータ） (2024-10-03T16:43:17Z)
How Well Do LLMs Represent Values Across Cultures? Empirical Analysis of LLM Responses Based on Hofstede Cultural Dimensions [9.275967682881944]
ユーザの既知の国のステレオタイプ値に基づいて,大規模言語モデルがユーザに対して異なる値を示すかどうかを理解することが重要である。我々は,5つのホフスティード文化次元に基づく一連のアドバイス要請で,異なるLCMを刺激する。 LLMは、ある価値の一方の側面と他方の側面を区別することができ、また、国が異なる価値を持っていることを理解できます。
論文参考訳（メタデータ） (2024-06-21T00:58:01Z)
BLEnD: A Benchmark for LLMs on Everyday Knowledge in Diverse Cultures and Languages [39.17279399722437]
大型言語モデル(LLM)は、特に多種多様な地域や非英語言語において、日常生活に関する文化特有の知識を欠いていることが多い。 BLEnDはLLMの日常的な知識を様々な文化や言語で評価するために設計された手作りのベンチマークである。提案手法は,短問合せと複数問合せの2つの形式を含むベンチマークを構築した。
論文参考訳（メタデータ） (2024-06-14T11:48:54Z)
CULTURE-GEN: Revealing Global Cultural Perception in Language Models through Natural Language Prompting [73.94059188347582]
110か国・地域での3つのSOTAモデルの文化認識を,文化条件付き世代を通して8つの文化関連トピックについて明らかにした。文化条件付き世代は、デフォルトの文化と区別される余分な文化を区別する言語的な「マーカー」から成り立っていることが判明した。
論文参考訳（メタデータ） (2024-04-16T00:50:43Z)
Aligning Bag of Regions for Open-Vocabulary Object Detection [74.89762864838042]
本稿では,各地域を超えて,各地域のバッグを埋め込む方法を提案する。提案手法は,バッグとしてコンテキスト的相互関連領域をグループ化する。オープンボキャブラリCOCOとLVISベンチマークの新たなカテゴリでは,従来の4.6ボックスAP50と2.8マスクAPよりも優れている。
論文参考訳（メタデータ） (2023-02-27T17:39:21Z)
American cultural regions mapped through the lexical analysis of social media [1.8199326045904993]
本研究は,マイクロブログ投稿からの大規模データセットの自動解析に基づいて,文化的地域を推定する手法を導入することで,この方向への重要な一歩を踏み出した。特に、記述された言論の地域的変化は、アメリカのソーシャルメディアで測定される。この低次元空間におけるデータの階層的クラスタリングを通じて、この手法は明確な文化的領域とそれらを定義する議論のトピックを生み出す。
論文参考訳（メタデータ） (2022-08-16T10:18:47Z)
GeoMLAMA: Geo-Diverse Commonsense Probing on Multilingual Pre-Trained Language Models [68.50584946761813]
我々は多言語言語モデル(mPLM)に基づく地理多言語共通感覚探索のためのフレームワークを提案する。我々は、GeoMLAMAデータセット上のmBERT、XLM、mT5、XGLMの変種を含む11の標準mPLMをベンチマークする。 1)大きなmPLMの変種は、必ずしもその小さな変種よりもジオ・ディバースの概念を保存していないこと,2)mPLMは西欧の知識に固有の偏りがないこと,3)母国よりも母国に関する知識を調査する方がよいこと,などが分かる。
論文参考訳（メタデータ） (2022-05-24T17:54:50Z)
Broaden the Vision: Geo-Diverse Visual Commonsense Reasoning [49.04866469947569]
地理的・地理的・地理的な共通点を理解する視覚・言語モデルの能力をテストするために,Geo-Diverse Visual Commonsense Reasoning dataset(GD-VCR)を構築した。その結果,東アジア,南アジア,アフリカを含む非西欧地域での両モデルの性能は,西欧地域に比べて著しく低いことがわかった。
論文参考訳（メタデータ） (2021-09-14T17:52:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。