このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20231022となっている論文です。

PDF登録状況(公開日: 20231022)

TitleAuthorsAbstract論文公表日・翻訳日
# モバイルアプリケーションAPIにおける脆弱性発見 - モジュール型プログラムアプローチ

Finding Vulnerabilities in Mobile Application APIs: A Modular Programmatic Approach ( http://arxiv.org/abs/2310.14137v1 )

ライセンス: Link先を確認
Nate Haris, Kendree Chen, Ann Song, Benjamin Pou, (参考訳) 現在、様々なモバイルアプリケーションでデータ転送を容易にするために、アプリケーションプログラミングインタフェース(API)がますます人気を集めています。 これらのAPIはエンドポイントを通じてセンシティブなユーザ情報を処理します。 本稿では,様々なモバイルAndroidアプリケーションにおける情報漏洩の度合いに関する統計情報を提供するために,カスタムなモジュール型エンドポイント脆弱性検出ツールを作成し,実装した。 エンドポイントの脆弱性検出ツールは、APIテストの自動アプローチを提供し、特定の情報攻撃方法(IAM)を使用して複数のリクエストをプログラム的に修正し、潜在的に脆弱なエンドポイント(PVE)に対する応答をヒューリスティックに分析する。 さまざまなアプリケーションでAPI要求を分析した結果、さまざまな重大性のBroken Access Control(BAC)脆弱性が、50%以上のアプリケーションで一般的であることが判明した。 これらの脆弱性は、意図しないAPI使用による小さなデータ漏洩から、パスワード、名前、アドレス、SSNを含むセンシティブなユーザデータの完全な開示まで様々である。 この調査は、Androidアプリケーションにおける完全なAPIエンドポイントセキュリティの必要性の実証と、開発者がエンドポイント脆弱性をテストするために使用できるモジュールプログラムのオープンソース例の提供を目的としている。

Currently, Application Programming Interfaces (APIs) are becoming increasingly popular to facilitate data transfer in a variety of mobile applications. These APIs often process sensitive user information through their endpoints, which are potentially exploitable due to developer misimplementation. In this paper, a custom, modular endpoint vulnerability detection tool was created and implemented to present current statistics on the degree of information leakage in various mobile Android applications. Our endpoint vulnerability detection tool provided an automated approach to API testing, programmatically modifying requests multiple times using specific information attack methods (IAMs) and heuristically analyzing responses for potentially vulnerable endpoints (PVEs). After analysis of API requests in an encompassing range of applications, findings showed that easily exploitable Broken Access Control (BAC) vulnerabilities of varying severity were common in over 50% of applications. These vulnerabilities ranged from small data leakages due to unintended API use, to full disclosure of sensitive user data, including passwords, names, addresses, and SSNs. This investigation aims to demonstrate the necessity of complete API endpoint security within Android applications, as well as provide an open source example of a modular program which developers could use to test for endpoint vulnerabilities.
翻訳日:2024-03-25 14:05:29 公開日:2023-10-22
# ディファレンシャル・プライベート・スプリット・ラーニングにおける精度と生産性のトレードオフの促進

Enhancing Accuracy-Privacy Trade-off in Differentially Private Split Learning ( http://arxiv.org/abs/2310.14434v1 )

ライセンス: Link先を確認
Ngoc Duy Pham, Khoa Tran Phan, Naveen Chilamkurti, (参考訳) Split Learning(SL)は、クライアントサーバ間で詳細なモデルを分散し、プライベートデータをローカルに保持することで、ユーザのデータプライバシを保護することを目的としている。 SLプロセス中にクライアントからサーバに送信できるのは、処理されたデータまたは‘スマッシュ’データのみである。 しかし、最近提案されたモデル反転攻撃は、スマッシュされたデータから元のデータを復元することができる。 このような攻撃に対するプライバシー保護を強化するために、ある精度の損失を犠牲にして、スマッシュされたデータを保護することを含む差分プライバシー(DP)を採用する戦略がある。 本稿では、SLにおける複数のクライアントをさまざまなプライバシー要件でトレーニングする際の精度への影響について、初めて検討する。 そこで本研究では,クライアントトレーニング中のDPノイズ分布を検証し,精度の劣化に対処する手法を提案する。 また, SLの局所モデルに対するDPの適用について検討し, 精度とプライバシのトレードオフについて考察する。 具体的には、後続のローカルレイヤにノイズを導入することで、精度とプライバシのバランスが最も良好であることが判明した。 より浅い層における洞察から、より高精度を維持しながらデータの漏洩を最小限に抑え、精度とプライバシのトレードオフを最適化する手法を提案する。 さらに、スマッシュデータのサイズが小さくなれば、クライアント側の通信オーバーヘッドが減少し、SLの顕著な欠点の1つが軽減される。 一般的なデータセットを用いた実験により,提案手法はDPをSLに組み込むための最適なトレードオフを提供することを示した。

Split learning (SL) aims to protect user data privacy by distributing deep models between client-server and keeping private data locally. Only processed or `smashed' data can be transmitted from the clients to the server during the SL process. However, recently proposed model inversion attacks can recover the original data from the smashed data. In order to enhance privacy protection against such attacks, a strategy is to adopt differential privacy (DP), which involves safeguarding the smashed data at the expense of some accuracy loss. This paper presents the first investigation into the impact on accuracy when training multiple clients in SL with various privacy requirements. Subsequently, we propose an approach that reviews the DP noise distributions of other clients during client training to address the identified accuracy degradation. We also examine the application of DP to the local model of SL to gain insights into the trade-off between accuracy and privacy. Specifically, findings reveal that introducing noise in the later local layers offers the most favorable balance between accuracy and privacy. Drawing from our insights in the shallower layers, we propose an approach to reduce the size of smashed data to minimize data leakage while maintaining higher accuracy, optimizing the accuracy-privacy trade-off. Additionally, a smaller size of smashed data reduces communication overhead on the client side, mitigating one of the notable drawbacks of SL. Experiments with popular datasets demonstrate that our proposed approaches provide an optimal trade-off for incorporating DP into SL, ultimately enhancing training accuracy for multi-client SL with varying privacy requirements.
翻訳日:2024-03-25 14:05:29 公開日:2023-10-22
# 解釈可能性(AmI)の評価と発見を伴うアタック

Attacks Meet Interpretability (AmI) Evaluation and Findings ( http://arxiv.org/abs/2310.08808v3 )

ライセンス: Link先を確認
Qian Ma, Ziping Ye, Shagufta Mehnaz, (参考訳) モデル説明の有効性を検討するために,2つの論文,Attacks Meet Interpretability: Attribute-steered Detection of Adversarial Samples and Is AmI (Attacks Meet Interpretability) Robust to Adversarial Examplesを再現した。 そして、両方の作品の限界を特定するために実験とケーススタディを実施します。 AmI(Attacks Meet Interpretability)はハイパーパラメータの選択に大きく依存している。 したがって、異なるパラメータ選択により、AmIは依然としてニコラス・カルリーニの攻撃を検出することができる。 最後に,AmI などの防衛技術の評価に関する今後の課題について提案する。

To investigate the effectiveness of the model explanation in detecting adversarial examples, we reproduce the results of two papers, Attacks Meet Interpretability: Attribute-steered Detection of Adversarial Samples and Is AmI (Attacks Meet Interpretability) Robust to Adversarial Examples. And then conduct experiments and case studies to identify the limitations of both works. We find that Attacks Meet Interpretability(AmI) is highly dependent on the selection of hyperparameters. Therefore, with a different hyperparameter choice, AmI is still able to detect Nicholas Carlini's attack. Finally, we propose recommendations for future work on the evaluation of defense techniques such as AmI.
翻訳日:2024-03-19 02:33:12 公開日:2023-10-22
# 深層ニューラルネットワークの敵攻撃に対する知覚不可能なCMOSカメラダッズ

Imperceptible CMOS camera dazzle for adversarial attacks on deep neural networks ( http://arxiv.org/abs/2311.16118v1 )

ライセンス: Link先を確認
Zvi Stein and Adrian Stern(参考訳) ディープニューラルネットワークの優れた性能にもかかわらず、敵の攻撃に弱い。 デジタルドメインには多くの目に見えない攻撃があるが、ほとんどの物理的世界敵攻撃は見えない。 ここでは、光源を用いてローリングシャッターでCMOSカメラをダッズする可視光対向攻撃を示す。 撮影された画像を十分に妨害しながら、攻撃する光源を完全に視認するために必要なフォトピクチャ条件を提示し、ディープニューラルネットワークを欺く。

Despite the outstanding performance of deep neural networks, they are vulnerable to adversarial attacks. While there are many invisible attacks in the digital domain, most physical world adversarial attacks are visible. Here we present an invisible optical adversarial attack that uses a light source to dazzle a CMOS camera with a rolling shutter. We present the photopic conditions required to keep the attacking light source completely invisible while sufficiently jamming the captured image so that a deep neural network applied to it is deceived.
翻訳日:2024-01-15 15:24:58 公開日:2023-10-22
# 脳波信号分類における脅威軽減のための評価に基づくフェデレーション学習防衛

Reputation-Based Federated Learning Defense to Mitigate Threats in EEG Signal Classification ( http://arxiv.org/abs/2401.01896v1 )

ライセンス: Link先を確認
Zhibo Zhang, Pengfei Li, Ahmed Y. Al Hammadi, Fusen Guo, Ernesto Damiani, Chan Yeob Yeun(参考訳) 本稿では,フェデレートラーニングのモデルアグリゲーションにおける脳波信号分類における潜在的なセキュリティ脅威を防御する評価に基づく脅威軽減フレームワークを提案する。 脳波信号解析は脳コンピュータインタフェース(BCI)技術の出現により注目されているが、脳波データの分散特性と関連するプライバシーやセキュリティ上の懸念から、脳波解析のための効率的な学習モデルを作成するのは難しい。 これらの課題に対処するために、提案された防御フレームワークはフェデレートラーニングパラダイムを活用し、分散ソースからのローカライズされたデータとの協調モデルトレーニングによりプライバシーを保護し、データ中毒攻撃の影響を緩和し、漏洩した参加者を識別する評判に基づくメカニズムを導入する。 提案した評価に基づくフェデレート学習防衛フレームワークの効率を評価するために, 説明可能な人工知能(XAI)技術によるトレーニングデータのリスクレベルに基づくデータ中毒攻撃を, 公開されているEEG信号データセットと自己確立されたEEG信号データセットの両方を用いて実施した。 有毒なデータセットを用いた実験結果から,脳波信号の分類では防衛手法が良好に機能し,セキュリティ上の脅威に関連するリスクを低減できた。

This paper presents a reputation-based threat mitigation framework that defends potential security threats in electroencephalogram (EEG) signal classification during model aggregation of Federated Learning. While EEG signal analysis has attracted attention because of the emergence of brain-computer interface (BCI) technology, it is difficult to create efficient learning models for EEG analysis because of the distributed nature of EEG data and related privacy and security concerns. To address these challenges, the proposed defending framework leverages the Federated Learning paradigm to preserve privacy by collaborative model training with localized data from dispersed sources and introduces a reputation-based mechanism to mitigate the influence of data poisoning attacks and identify compromised participants. To assess the efficiency of the proposed reputation-based federated learning defense framework, data poisoning attacks based on the risk level of training data derived by Explainable Artificial Intelligence (XAI) techniques are conducted on both publicly available EEG signal datasets and the self-established EEG signal dataset. Experimental results on the poisoned datasets show that the proposed defense methodology performs well in EEG signal classification while reducing the risks associated with security threats.
翻訳日:2024-01-15 09:55:49 公開日:2023-10-22
# 網膜画像における血管の自動局在

Automated Localization of Blood Vessels in Retinal Images ( http://arxiv.org/abs/2401.02962v1 )

ライセンス: Link先を確認
Vahid Mohammadi Safarzadeh(参考訳) 血管構造は、医師がその特徴を分析して多くの疾患を検出できる網膜の最も重要な部分の1つである。 網膜画像における血管の局在は、医療画像解析において重要なプロセスである。 この過程は、明るい病変と暗い病変の存在によっても困難である。 本論文では、健康および不健康(病理)網膜画像の両方を扱う2つの自動血管局在法を解析した。 各方法は2つの主要なステップで構成され、2番目のステップは2つのメソッドで同じである。 最初のステップでは、明るい病変の影響を減らすためにアルゴリズムが使用される。 方法1では、このアルゴリズムはk平均セグメンテーションに基づいており、方法2では正規化手順に基づいている。 どちらの方法も第2段階では、ライン状血管構造の局所化や、一般的に不規則なパターンと推定される暗黒病変の無視に多スケールのラインオペレータが用いられる。 提案手法の導入後,公に入手可能な2つのデータセット,drive と stare のイメージに対するセグメンテーション結果に基づいて,各手法の定量的・質的比較および文献の最先端ソリューションについて報告する。 その結果,本手法は他の手法と非常によく比較できることがわかった。

Vessel structure is one of the most important parts of the retina which physicians can detect many diseases by analysing its features. Localization of blood vessels in retina images is an important process in medical image analysis. This process is also more challenging with the presence of bright and dark lesions. In this thesis, two automated vessel localization methods to handle both healthy and unhealthy (pathological) retina images are analyzed. Each method consists of two major steps and the second step is the same in the two methods. In the first step, an algorithm is used to decrease the effect of bright lesions. In Method 1, this algorithm is based on K- Means segmentation, and in Method 2, it is based on a regularization procedure. In the second step of both methods, a multi-scale line operator is used to localize the line-shaped vascular structures and ignore the dark lesions which are generally assumed to have irregular patterns. After the introduction of the methods, a detailed quantitative and qualitative comparison of the methods with one another as well as the state-of-the-art solutions in the literature based on the segmentation results on the images of the two publicly available datasets, DRIVE and STARE, is reported. The results demonstrate that the methods are highly comparable with other solutions.
翻訳日:2024-01-15 09:46:00 公開日:2023-10-22
# JOSA:脳の形状と機能に関する共同表面ベース登録とアトラス構築

JOSA: Joint surface-based registration and atlas construction of brain geometry and function ( http://arxiv.org/abs/2311.08544v1 )

ライセンス: Link先を確認
Jian Li, Greta Tuckute, Evelina Fedorenko, Brian L. Edlow, Adrian V. Dalca, Bruce Fischl(参考訳) 表面ベースの皮質登録は、医用画像解析において重要なトピックであり、多くの下流応用を促進する。 現在の皮質登録のアプローチは、主にsulcal depthやcurvatureのような幾何学的特徴によって行われており、しばしば折りたたみパターンの登録が脳機能のアライメントにつながると仮定している。 しかし,特に高次認知領域では,解剖学的対応領域の機能的変動が広く報告されている。 本研究は,人口固有のアトラスを同時に学習しながら,幾何学と関数のミスマッチを共同でモデル化する新しい皮質登録フレームワークJOSAを提案する。 JOSAは、半教師付きトレーニング戦略を用いて、幾何学と関数の両方において、最先端の手法よりも優れた登録性能を達成するが、推論時に関数データを必要としない。 この学習フレームワークは、トレーニング中に利用可能な球面登録をガイドするために任意の補助データに拡張することができ、パーセレーション、構造的アイデンティティ、転写情報、分子プロファイルなど、推論中に取得することが困難または不可能である。 JOSAは、幾何学と関数のミスマッチを認識することにより、脳構造と機能の共同解析を用いて、将来の登録方法の開発に関する新たな洞察を提供する。

Surface-based cortical registration is an important topic in medical image analysis and facilitates many downstream applications. Current approaches for cortical registration are mainly driven by geometric features, such as sulcal depth and curvature, and often assume that registration of folding patterns leads to alignment of brain function. However, functional variability of anatomically corresponding areas across subjects has been widely reported, particularly in higher-order cognitive areas. In this work, we present JOSA, a novel cortical registration framework that jointly models the mismatch between geometry and function while simultaneously learning an unbiased population-specific atlas. Using a semi-supervised training strategy, JOSA achieves superior registration performance in both geometry and function to the state-of-the-art methods but without requiring functional data at inference. This learning framework can be extended to any auxiliary data to guide spherical registration that is available during training but is difficult or impossible to obtain during inference, such as parcellations, architectonic identity, transcriptomic information, and molecular profiles. By recognizing the mismatch between geometry and function, JOSA provides new insights into the future development of registration methods using joint analysis of the brain structure and function.
翻訳日:2023-11-19 14:04:54 公開日:2023-10-22
# インタラクティブレコメンデーションにおけるソフト属性による選好誘発

Preference Elicitation with Soft Attributes in Interactive Recommendation ( http://arxiv.org/abs/2311.02085v1 )

ライセンス: Link先を確認
Erdem Biyik and Fan Yao and Yinlam Chow and Alex Haig and Chih-wei Hsu and Mohammad Ghavamzadeh and Craig Boutilier(参考訳) 嗜好誘発はインタラクティブなレコメンデーションシステムにおいて中心的な役割を果たす。 ほとんどの嗜好推論アプローチでは、ユーザが好みの項目をスレートから選択するよう求める項目クエリや、アイテム特性の嗜好を表現するように求める属性クエリを使用する。 残念なことに、ユーザは、基幹的な意味論が与えられないソフト属性を使って、自分の好みを記述したい場合が多い。 ソフト属性のセマンティクスのための概念アクティベーションベクトルを活用することで、ソフト属性を適応し、アイテムと属性に基づく嗜好の双方をまとめる新しい選好推論手法を開発する。 提案手法は,商品とソフト属性の両方を用いてユーザに対して,レコメンデーション品質を改善するために,レコメンデーションシステムの好みに対する信念を更新する。 合成および実世界のデータセットにおける競合する手法の有効性を示す。

Preference elicitation plays a central role in interactive recommender systems. Most preference elicitation approaches use either item queries that ask users to select preferred items from a slate, or attribute queries that ask them to express their preferences for item characteristics. Unfortunately, users often wish to describe their preferences using soft attributes for which no ground-truth semantics is given. Leveraging concept activation vectors for soft attribute semantics, we develop novel preference elicitation methods that can accommodate soft attributes and bring together both item and attribute-based preference elicitation. Our techniques query users using both items and soft attributes to update the recommender system's belief about their preferences to improve recommendation quality. We demonstrate the effectiveness of our methods vis-a-vis competing approaches on both synthetic and real-world datasets.
翻訳日:2023-11-12 19:57:57 公開日:2023-10-22
# ITEm:eコマースのための教師なしイメージテキスト埋め込み学習

ITEm: Unsupervised Image-Text Embedding Learning for eCommerce ( http://arxiv.org/abs/2311.02084v1 )

ライセンス: Link先を確認
Baohao Liao, Michael Kozielski, Sanjika Hewavitharana, Jiangbo Yuan, Shahram Khadivi, Tomer Lancewicki(参考訳) プロダクトの埋め込みは、eコマースにおける幅広いアプリケーションの基盤となる。 複数のモダリティから学んだ製品埋め込みは、異なるモダリティが補完的な情報を提供するため、単一のモダリティからそれよりも大きな改善を示している。 しかし、いくつかのモダリティは他のモダリティよりも情報的に優位である。 より支配的なモダリティからの情報を無視することなく、異なるモダリティから埋め込みを学ぶためのモデルを教える方法は難しい。 本稿では,画像とテキストのモダリティをよりよく扱うために,教師なし学習手法である画像テキスト埋め込みモデル(ITEm)を提案する。 bertを拡張して,(1)興味のある領域を知らずにテキストや画像から埋め込みを学習し,(2)グローバル表現を訓練してマスクされた単語を予測し,個々の表現を伴わずにマスク画像パッチを構築する。 我々は,非常に類似した商品の探索と,製品カテゴリーの予測という2つのタスクについて事前学習した項目を評価し,強力なベースラインモデルと比較してかなりの利益を示した。

Product embedding serves as a cornerstone for a wide range of applications in eCommerce. The product embedding learned from multiple modalities shows significant improvement over that from a single modality, since different modalities provide complementary information. However, some modalities are more informatively dominant than others. How to teach a model to learn embedding from different modalities without neglecting information from the less dominant modality is challenging. We present an image-text embedding model (ITEm), an unsupervised learning method that is designed to better attend to image and text modalities. We extend BERT by (1) learning an embedding from text and image without knowing the regions of interest; (2) training a global representation to predict masked words and to construct masked image patches without their individual representations. We evaluate the pre-trained ITEm on two tasks: the search for extremely similar products and the prediction of product categories, showing substantial gains compared to strong baseline models.
翻訳日:2023-11-12 19:57:41 公開日:2023-10-22
# MaRU: 視覚と言語をつなぐマンガ検索・理解システム

MaRU: A Manga Retrieval and Understanding System Connecting Vision and Language ( http://arxiv.org/abs/2311.02083v1 )

ライセンス: Link先を確認
Conghao Tom Shen, Violet Yao, Yixin Liu(参考訳) 日本の漫画作品として広く知られる漫画は、多彩な物語と独自の芸術様式で有名である。 しかし、複数のパネルを収容する画像を含むマンガの視覚的かつ複雑な構造は、コンテンツ検索において重要な課題となっている。 そこで我々は,マンガフレーム内の対話と場面の効率的な検索を容易にするために,視覚と言語を接続する多段階システムであるMaRU(Manga Retrieval and Understanding)を提案する。 MaRUのアーキテクチャは、テキストとフレーム境界ボックスを識別するオブジェクト検出モデル、テキスト認識のためのビジョンエンコーダ・デコーダモデル、テキストを埋め込むテキストエンコーダ、およびテキスト情報と視覚情報を統合してシーン検索のための統合埋め込み空間にマージするビジョンテキストエンコーダを統合する。 厳密な評価により,MaRUはエンドツーエンドの対話検索に優れ,シーン検索に有望な結果を示す。

Manga, a widely celebrated Japanese comic art form, is renowned for its diverse narratives and distinct artistic styles. However, the inherently visual and intricate structure of Manga, which comprises images housing multiple panels, poses significant challenges for content retrieval. To address this, we present MaRU (Manga Retrieval and Understanding), a multi-staged system that connects vision and language to facilitate efficient search of both dialogues and scenes within Manga frames. The architecture of MaRU integrates an object detection model for identifying text and frame bounding boxes, a Vision Encoder-Decoder model for text recognition, a text encoder for embedding text, and a vision-text encoder that merges textual and visual information into a unified embedding space for scene retrieval. Rigorous evaluations reveal that MaRU excels in end-to-end dialogue retrieval and exhibits promising results for scene retrieval.
翻訳日:2023-11-12 19:57:21 公開日:2023-10-22
# 意味処理技術に関する調査研究

A Survey on Semantic Processing Techniques ( http://arxiv.org/abs/2310.18345v1 )

ライセンス: Link先を確認
Rui Mao, Kai He, Xulang Zhang, Guanyi Chen, Jinjie Ni, Zonglin Yang, Erik Cambria(参考訳) 意味処理は計算言語学の基本的な研究領域である。 強力な事前学習型言語モデルと大規模言語モデルの時代、この分野の研究の進展は減速しているようだ。 しかし、意味論の研究は言語学において多次元である。 計算意味処理の研究の深さと幅は、新しい技術で大きく改善できる。 本研究では,単語認識の曖昧さ,アナフォラ分解,名前付きエンティティ認識,概念抽出,主観性検出の5つの意味処理タスクを分析した。 これらの分野における関連する理論的研究、高度手法、下流応用について検討する。 このような低レベルの意味処理タスクと高レベルの自然言語処理タスクを融合させるきっかけになる可能性があるため、調査対象のタスクを下流のアプリケーションに接続する。 理論的研究のレビューは、セマンティック処理領域における新しいタスクとテクノロジーを刺激するかもしれない。 最後に, 異なる意味処理手法を比較し, その技術動向, 応用動向, 今後の方向性を概説する。

Semantic processing is a fundamental research domain in computational linguistics. In the era of powerful pre-trained language models and large language models, the advancement of research in this domain appears to be decelerating. However, the study of semantics is multi-dimensional in linguistics. The research depth and breadth of computational semantic processing can be largely improved with new technologies. In this survey, we analyzed five semantic processing tasks, e.g., word sense disambiguation, anaphora resolution, named entity recognition, concept extraction, and subjectivity detection. We study relevant theoretical research in these fields, advanced methods, and downstream applications. We connect the surveyed tasks with downstream applications because this may inspire future scholars to fuse these low-level semantic processing tasks with high-level natural language processing tasks. The review of theoretical research may also inspire new tasks and technologies in the semantic processing domain. Finally, we compare the different semantic processing techniques and summarize their technical trends, application trends, and future directions.
翻訳日:2023-11-05 13:54:01 公開日:2023-10-22
# chainpoll : llm幻覚検出のための高有効性法

Chainpoll: A high efficacy method for LLM hallucination detection ( http://arxiv.org/abs/2310.18344v1 )

ライセンス: Link先を確認
Robert Friel, Atindriyo Sanyal(参考訳) 大規模言語モデル(llm)は、コヒーレントでコンテキスト的に関連する応答を生成することに顕著な進歩を経験した。 しかしながら、幻覚(誤った主張や根拠のない主張)は依然として一般的であり、LLM出力でそれらを検出するための自動メトリクスが作成される。 当社のコントリビューションには,革新的な幻覚検出手法であるchainpollの導入と,近年の研究成果から幻覚検出メトリクスを評価するための,洗練されたベンチマークデータセットのコレクションであるrealhallの公開などが含まれています。 RealHallを作成しながら、過去の幻覚検出研究からタスクとデータセットを評価し、その多くが現在使用されている強力なLLMには適さないことを示した。 これを克服するために、私たちは現代のLLMに挑戦する4つのデータセットを選択しました。 realhallを用いて,最近の研究からチェーンポールと多数の幻覚指標を包括的に比較した。 以上の結果から,ChainPollはすべてのRealHallベンチマークより優れ,AUROC全体の0.781。 これは次の最良の理論手法を11%上回り、業界標準を23%以上上回る。 加えて、ChainPollはコスト効率が高く、他のメトリクスよりも透明性が高い。 我々は,LLM幻覚評価のための2つの新しい指標を紹介した。 適合性はRetrieval Augmented Generationワークフローに関係し、与えられたドキュメントやコンテキスト内でのLLMの分析能力を評価する。 対照的に、正確性は論理的および推論的誤りを識別する。

Large language models (LLMs) have experienced notable advancements in generating coherent and contextually relevant responses. However, hallucinations - incorrect or unfounded claims - are still prevalent, prompting the creation of automated metrics to detect these in LLM outputs. Our contributions include: introducing ChainPoll, an innovative hallucination detection method that excels compared to its counterparts, and unveiling RealHall, a refined collection of benchmark datasets to assess hallucination detection metrics from recent studies. While creating RealHall, we assessed tasks and datasets from previous hallucination detection studies and observed that many are not suitable for the potent LLMs currently in use. Overcoming this, we opted for four datasets challenging for modern LLMs and pertinent to real-world scenarios. Using RealHall, we conducted a comprehensive comparison of ChainPoll with numerous hallucination metrics from recent studies. Our findings indicate that ChainPoll outperforms in all RealHall benchmarks, achieving an overall AUROC of 0.781. This surpasses the next best theoretical method by 11% and exceeds industry standards by over 23%. Additionally, ChainPoll is cost-effective and offers greater transparency than other metrics. We introduce two novel metrics to assess LLM hallucinations: Adherence and Correctness. Adherence is relevant to Retrieval Augmented Generation workflows, evaluating an LLM's analytical capabilities within given documents and contexts. In contrast, Correctness identifies logical and reasoning errors.
翻訳日:2023-11-05 13:53:45 公開日:2023-10-22
# PHD: 歴史的文書のピクセルベース言語モデリング

PHD: Pixel-Based Language Modeling of Historical Documents ( http://arxiv.org/abs/2310.18343v1 )

ライセンス: Link先を確認
Nadav Borenstein, Phillip Rust, Desmond Elliott, Isabelle Augenstein(参考訳) 歴史文書のデジタル化は歴史家に前例のない研究機会を与えた。 しかし、従来の歴史文書の分析手法では、画像からテキストへocrで変換するが、これは画像として扱うことの利点を見逃し、高いレベルのノイズをもたらすプロセスである。 このギャップを埋めるために、トークン分布を予測する代わりに、マスクしたピクセルのパッチを再構築するよう訓練された画素ベース言語モデルの最近の進歩を利用する。 実史スキャンが不足していることから,実史文書に類似した合成スキャンを生成する新しい手法を提案する。 1700-1900年代には,本モデルであるPHDを,合成スキャンと実際の歴史新聞の組み合わせで事前訓練した。 実験により,PHDはマスク付き画像パッチの再構築に高い習熟度を示し,本モデルで注目すべき言語理解能力を示す。 特に、我々のモデルを歴史的QAタスクに適用し、この領域での有用性を強調した。

The digitisation of historical documents has provided historians with unprecedented research opportunities. Yet, the conventional approach to analysing historical documents involves converting them from images to text using OCR, a process that overlooks the potential benefits of treating them as images and introduces high levels of noise. To bridge this gap, we take advantage of recent advancements in pixel-based language models trained to reconstruct masked patches of pixels instead of predicting token distributions. Due to the scarcity of real historical scans, we propose a novel method for generating synthetic scans to resemble real historical documents. We then pre-train our model, PHD, on a combination of synthetic scans and real historical newspapers from the 1700-1900 period. Through our experiments, we demonstrate that PHD exhibits high proficiency in reconstructing masked image patches and provide evidence of our model's noteworthy language understanding capabilities. Notably, we successfully apply our model to a historical QA task, highlighting its usefulness in this domain.
翻訳日:2023-11-05 13:53:20 公開日:2023-10-22
# MIRACLE: 複数個人属性制御による個人化対話生成に向けて

MIRACLE: Towards Personalized Dialogue Generation with Latent-Space Multiple Personal Attribute Control ( http://arxiv.org/abs/2310.18342v1 )

ライセンス: Link先を確認
Zhenyi Lu, Wei Wei, Xiaoye Qu, XianLing Mao, Dangyang Chen, Jixiong Chen(参考訳) パーソナライズされた対話システムは、チャットボットエージェントに人間のようなインタラクションのためのより人為的な特徴を与えることを目的としている。 これまでのアプローチでは,テキスト記述やユーザ埋め込みの暗黙的導出,あるいはchatgptライクなモデルに対する手工芸プロンプトの利用といった,明示的なユーザプロファイルモデリングを探求している。 しかし、テキストのパーソナラは多面的属性(例えば、\emph{e.}, \emph{language style, inner character nuances})の記述に制限され、暗黙の埋め込みは人格のスパースに苦しめられ、手工芸のプロンプトは細かい粒度と安定した制御性に欠ける。 したがって、これらのアプローチは複雑なパーソナライズされた対話生成タスクに苦労し、複数の個人属性による制御可能な応答を生成する必要がある。 そこで本研究では,新しい対話生成手法である \textbf{M}ult\textbf{I}ple Pe\textbf{R}sonal \textbf{A}ttributes \textbf{C}ontrol in \textbf{L}atent-Space \textbf{E}nergy-based Modelsを提案する。 ttributes \textbf{c}ontrol in \textbf{l}atent-space \textbf{e}nergyベースのモデル。 特に,このアプローチでは,複雑なパーソナリティを多面属性に分類する。 その後,条件付き変分オートエンコーダを用いて,潜在属性空間内の密集したパーソナライズされた応答に対応する。 また,専用エネルギー関数を調整し,通常の微分方程式サンプリング法をカスタマイズし,柔軟な属性構成と正確な属性制御を提供する。 広範囲な実験により、‘textsc{Miracle} はパーソナリティ制御性と応答生成品質の点で、いくつかの強いベースラインを上回ります。 我々のデータセットとコードは \url{https://github.com/LZY-the-boys/MIRACLE} で入手できる。

Personalized dialogue systems aim to endow the chatbot agent with more anthropomorphic traits for human-like interactions. Previous approaches have explored explicitly user profile modeling using text descriptions, implicit derivation of user embeddings, or utilizing handicraft prompts for ChatGPT-like models. However, textual personas are limited in describing multi-faceted attributes (\emph{e.g.}, \emph{language style, inner character nuances}), implicit embedding suffers from personality sparsity, and handicraft prompts lack fine-grained and stable controllability. Hence, these approaches may struggle with complex personalized dialogue generation tasks that require generating controllable responses with multiple personal attributes. To this end, we propose \textbf{\textsc{Miracle}}, a novel personalized dialogue generation method through \textbf{M}ult\textbf{I}ple Pe\textbf{R}sonal \textbf{A}ttributes \textbf{C}ontrol within \textbf{L}atent-Space \textbf{E}nergy-based Models. ttributes \textbf{C}ontrol within \textbf{L}atent-Space \textbf{E}nergy-based Models. Specifically, our approach first disentangles complex personality into multi-faceted attributes. Subsequently, we employ a conditional variational auto-encoder to align with the dense personalized responses within a latent joint attribute space. We have also tailored a dedicated energy function and customized the ordinary differential equations sampling method to offer flexible attribute composition and precise attribute control. Extensive experiments demonstrate that \textsc{Miracle} outperforms several strong baselines in terms of personality controllability and response generation quality. Our dataset and code are available at \url{https://github.com/LZY-the-boys/MIRACLE}
翻訳日:2023-11-05 13:53:07 公開日:2023-10-22
# 都市域のプロファイリングが大規模言語モデルと出会うとき

When Urban Region Profiling Meets Large Language Models ( http://arxiv.org/abs/2310.18340v1 )

ライセンス: Link先を確認
Yibo Yan, Haomin Wen, Siru Zhong, Wei Chen, Haodong Chen, Qingsong Wen, Roger Zimmermann, Yuxuan Liang(参考訳) web ソースデータからの都市部のプロファイリングは,都市計画と持続可能な開発において極めて重要である。 画像の補足情報としてテキストモダリティが機能する視覚言語学習などのマルチモーダルデータ研究において,様々な分野におけるllmの台頭が注目されている。 都市域プロファイリングにおけるモダリティの組み合わせにテキストモダリティが導入されたことはないため、本稿では2つの基本的な質問に答える。 i)テキストモダリティは都市部のプロファイリングを促進することができるか? ii)もしそうなら,どのような面で,どのような面に関して? この疑問に答えるために,我々はLLM(Large Language Models, LLMs)の力を活用し, テキストモダリティの知識を都市画像プロファイリングに統合する初のLLM拡張フレームワーク, LLM拡張都市領域プロファイリング(LLM拡張都市領域プロファイリング, コントラスト言語-画像プレトレーニング(UrbanCLIP)を導入する。 具体的には、まず、オープンソースのImage-to-Text LLMにより、各衛星画像の詳細なテキスト記述を生成する。 次に、画像とテキストのペアでモデルを訓練し、都市視覚表現学習のための自然言語監督をシームレスに統一し、コントラスト損失と言語モデリング損失とを併用する。 中国の4大都市圏における3つの都市指標の予測結果は、最先端の方法と比較して、R^2の平均6.1%向上したことを示す。 私たちのコードとイメージ言語データセットは、ペーパー通知でリリースされます。

Urban region profiling from web-sourced data is of utmost importance for urban planning and sustainable development. We are witnessing a rising trend of LLMs for various fields, especially dealing with multi-modal data research such as vision-language learning, where the text modality serves as a supplement information for the image. Since textual modality has never been introduced into modality combinations in urban region profiling, we aim to answer two fundamental questions in this paper: i) Can textual modality enhance urban region profiling? ii) and if so, in what ways and with regard to which aspects? To answer the questions, we leverage the power of Large Language Models (LLMs) and introduce the first-ever LLM-enhanced framework that integrates the knowledge of textual modality into urban imagery profiling, named LLM-enhanced Urban Region Profiling with Contrastive Language-Image Pretraining (UrbanCLIP). Specifically, it first generates a detailed textual description for each satellite image by an open-source Image-to-Text LLM. Then, the model is trained on the image-text pairs, seamlessly unifying natural language supervision for urban visual representation learning, jointly with contrastive loss and language modeling loss. Results on predicting three urban indicators in four major Chinese metropolises demonstrate its superior performance, with an average improvement of 6.1% on R^2 compared to the state-of-the-art methods. Our code and the image-language dataset will be released upon paper notification.
翻訳日:2023-11-05 13:52:28 公開日:2023-10-22
# TimbreTron: 楽音伝達のためのWaveNet(CycleGAN(CQT(Audio))パイプライン

TimbreTron: A WaveNet(CycleGAN(CQT(Audio))) Pipeline for Musical Timbre Transfer ( http://arxiv.org/abs/1811.09620v3 )

ライセンス: Link先を確認
Sicong Huang, Qiyang Li, Cem Anil, Xuchan Bao, Sageev Oore, Roger B. Grosse(参考訳) そこで本研究では,音色伝達の問題に対処し,音のサンプルの音色を1つの楽器から操作し,他の楽器とマッチングし,ピッチ,リズム,ラウドネスなどの他の音楽コンテンツを保存することを目的とする。 原則として、音声信号の時間周波数表現に画像ベースのスタイル転送技術を適用することができるが、これは音色を独立に操作できる表現と高品質な波形生成に依存する。 音声信号の時間周波数表現に「イメージ」ドメインの転送を適用し、条件付きウェーブネットシンセサイザーを用いて高品質な波形を生成する音楽音色変換法であるtimbretronを提案する。 定Q変換(CQT)表現は、その近似ピッチ同値性により畳み込みアーキテクチャに特に適していることを示す。 ヒトの知覚的評価に基づいて,TimbreTronは音色を認識可能に変換し,それ以外は音色を保存し,モノフォニックとポリフォニックの両方のサンプルで確認した。

In this work, we address the problem of musical timbre transfer, where the goal is to manipulate the timbre of a sound sample from one instrument to match another instrument while preserving other musical content, such as pitch, rhythm, and loudness. In principle, one could apply image-based style transfer techniques to a time-frequency representation of an audio signal, but this depends on having a representation that allows independent manipulation of timbre as well as high-quality waveform generation. We introduce TimbreTron, a method for musical timbre transfer which applies "image" domain style transfer to a time-frequency representation of the audio signal, and then produces a high-quality waveform using a conditional WaveNet synthesizer. We show that the Constant Q Transform (CQT) representation is particularly well-suited to convolutional architectures due to its approximate pitch equivariance. Based on human perceptual evaluations, we confirmed that TimbreTron recognizably transferred the timbre while otherwise preserving the musical content, for both monophonic and polyphonic samples.
翻訳日:2023-10-28 07:33:03 公開日:2023-10-22
# 強い構造的エンコーディングはメッセージパッシングの重要性を減らせるか?

Can strong structural encoding reduce the importance of Message Passing? ( http://arxiv.org/abs/2310.15197v1 )

ライセンス: Link先を確認
Floor Eijkelboom (1), Erik Bekkers (1), Michael Bronstein (2), Francesco Di Giovanni (3) ((1) University of Amsterdam, (2) University of Oxford, (3) University of Cambridge)(参考訳) グラフ上で動作している最も一般的なニューラルネットワークのクラスは、メッセージパッシングニューラルネットワーク(mpnn)である。 ノード埋め込みのこのパラダイムは、モデルが粗い位相構造を学習することを妨げる可能性があるため、初期特徴はしばしばグラフの構造情報(典型的にはラプラシア固有ベクトルまたはランダムウォーク遷移確率の形で拡張される。 本稿では,強い構造的エンコーディングが提供された場合のメッセージパッシングの寄与について検討する。 本稿では,標準結合ではなく,テンソル積に基づく特徴情報と構造情報の相互作用をモデル化する新しい手法を提案する。 インタラクションの選択は、一般的なシナリオや、メッセージパッシング層の容量が大幅に削減され、最終的にメッセージパッシングフェーズが完全に削除される設定で比較されます。 我々の結果は、テンソルベースのエンコーディングは、少なくとも結合ベースのエンコーディングと同等であり、メッセージパッシング層が削除されたとき、パフォーマンスがほとんど低下しないタスクにおいて、モデルをより堅牢にすることを示している。 これは、モデルが強い構造的エンコーディングを構築できる場合、メッセージパッシングの重要性が制限されていることを示唆している。

The most prevalent class of neural networks operating on graphs are message passing neural networks (MPNNs), in which the representation of a node is updated iteratively by aggregating information in the 1-hop neighborhood. Since this paradigm for computing node embeddings may prevent the model from learning coarse topological structures, the initial features are often augmented with structural information of the graph, typically in the form of Laplacian eigenvectors or Random Walk transition probabilities. In this work, we explore the contribution of message passing when strong structural encodings are provided. We introduce a novel way of modeling the interaction between feature and structural information based on their tensor product rather than the standard concatenation. The choice of interaction is compared in common scenarios and in settings where the capacity of the message-passing layer is severely reduced and ultimately the message-passing phase is removed altogether. Our results indicate that using tensor-based encodings is always at least on par with the concatenation-based encoding and that it makes the model much more robust when the message passing layers are removed, on some tasks incurring almost no drop in performance. This suggests that the importance of message passing is limited when the model can construct strong structural encodings.
翻訳日:2023-10-25 22:45:47 公開日:2023-10-22
# 多目的組合せ最適化のための効率的なメタニューラルヒューリスティック

Efficient Meta Neural Heuristic for Multi-Objective Combinatorial Optimization ( http://arxiv.org/abs/2310.15196v1 )

ライセンス: Link先を確認
Jinbiao Chen, Jiahai Wang, Zizhen Zhang, Zhiguang Cao, Te Ye, Siyuan Chen(参考訳) 近年,深層強化学習に基づくニューラルヒューリスティックスは,多目的組合せ最適化問題(mocops)の解決に有望である。 しかし、彼らは依然として高い学習効率とソリューションの品質を達成するのに苦労している。 この問題に対処するために,まずメタモデルを訓練し,次にいくつかのステップで微調整し,対応する単目的サブプロブレムを解く,効率的なメタニューラルヒューリスティック(EMNH)を提案する。 具体的には、(部分的な)アーキテクチャ共有マルチタスクモデルを利用してメタモデルの並列学習を行い、トレーニングを高速化する一方、重みベクトルに関するスケールド対称サンプリング法はトレーニングを安定化させるように設計されている。 微調整プロセスでは,全ての部分問題に体系的に取り組むための効率的な階層的手法が提案されている。 multi-objective travel salesman problem (motsp)、multi-objective capacitated vehicle routing problem (mocvrp)、multi-objective knapsack problem (mokp)の実験結果は、emnhが解の質と学習効率の点で最先端のニューラルヒューリスティックよりも優れており、強力な伝統的なヒューリスティックに競争力のある解決策を与えながら、はるかに短い時間を消費できることを示している。

Recently, neural heuristics based on deep reinforcement learning have exhibited promise in solving multi-objective combinatorial optimization problems (MOCOPs). However, they are still struggling to achieve high learning efficiency and solution quality. To tackle this issue, we propose an efficient meta neural heuristic (EMNH), in which a meta-model is first trained and then fine-tuned with a few steps to solve corresponding single-objective subproblems. Specifically, for the training process, a (partial) architecture-shared multi-task model is leveraged to achieve parallel learning for the meta-model, so as to speed up the training; meanwhile, a scaled symmetric sampling method with respect to the weight vectors is designed to stabilize the training. For the fine-tuning process, an efficient hierarchical method is proposed to systematically tackle all the subproblems. Experimental results on the multi-objective traveling salesman problem (MOTSP), multi-objective capacitated vehicle routing problem (MOCVRP), and multi-objective knapsack problem (MOKP) show that, EMNH is able to outperform the state-of-the-art neural heuristics in terms of solution quality and learning efficiency, and yield competitive solutions to the strong traditional heuristics while consuming much shorter time.
翻訳日:2023-10-25 22:45:26 公開日:2023-10-22
# 多様性を向上したニューラル多目的組合せ最適化

Neural Multi-Objective Combinatorial Optimization with Diversity Enhancement ( http://arxiv.org/abs/2310.15195v1 )

ライセンス: Link先を確認
Jinbiao Chen, Zizhen Zhang, Zhiguang Cao, Yaoxin Wu, Yining Ma, Te Ye, Jiahai Wang(参考訳) 多目的組合せ最適化(MOCO)問題に対する既存のニューラルメソッドの多くは、分解のみに依存しており、しばしば各サブプロブレムに対する反復解が導かれるため、パレート集合は限定的である。 本稿では,2つの観点からよりパレートな解を生成するために,多様性向上を伴うニューラルヒューリスティックを提案する。 一方,異なる部分問題に対する重複解を阻害するために,モデル誘導のためのインジケータ強調深層強化学習法を提案し,インスタンスグラフとparetoフロントグラフの関係を捉える異種グラフ注意機構を設計する。 一方,各サブプロブレム近傍のより多くの解を発掘するために,望ましい解をサンプリングし保存する複数のパレートオプティマ戦略を提案する。 従来のMOCO問題に対する実験結果から, NHDEはより多様性の高いパレートフロントを生成でき, 全体的な性能が向上することが示された。 さらに、NHDEは汎用的であり、MOCOの異なるニューラルメソッドにも適用できる。

Most of existing neural methods for multi-objective combinatorial optimization (MOCO) problems solely rely on decomposition, which often leads to repetitive solutions for the respective subproblems, thus a limited Pareto set. Beyond decomposition, we propose a novel neural heuristic with diversity enhancement (NHDE) to produce more Pareto solutions from two perspectives. On the one hand, to hinder duplicated solutions for different subproblems, we propose an indicator-enhanced deep reinforcement learning method to guide the model, and design a heterogeneous graph attention mechanism to capture the relations between the instance graph and the Pareto front graph. On the other hand, to excavate more solutions in the neighborhood of each subproblem, we present a multiple Pareto optima strategy to sample and preserve desirable solutions. Experimental results on classic MOCO problems show that our NHDE is able to generate a Pareto front with higher diversity, thereby achieving superior overall performance. Moreover, our NHDE is generic and can be applied to different neural methods for MOCO.
翻訳日:2023-10-25 22:44:47 公開日:2023-10-22
# パッチレベル近傍補間:一般的なグラフベース正規化戦略

Patch-level Neighborhood Interpolation: A General and Effective Graph-based Regularization Strategy ( http://arxiv.org/abs/1911.09307v3 )

ライセンス: Link先を確認
Ke Sun, Bing Yu, Zhouchen Lin, Zhanxing Zhu(参考訳) 正規化は機械学習モデル、特にディープニューラルネットワークにおいて重要な役割を果たす。 既存の正規化技術は主にi.d.仮定に依存しており、サンプル間の隣り合う関係を活用することなく、現在のサンプルからの知識のみを考慮する。 本研究では,ネットワークの計算において非局所表現を行う一般正規化子 \textbf{patch-level neighborhood interpolation~(pani)}を提案する。 提案手法は,パッチレベルのグラフを異なるレイヤに明示的に構築し,近傍パッチの特徴を線形補間し,汎用的かつ効果的な正規化戦略として機能する。 さらに、我々のアプローチを、VAT(Virtual Adversarial Training)とMixUp(MixUp)という2種類の一般的な正規化手法にカスタマイズする。 最初に導出された \textbf{Pani VAT} はパッチレベルの補間摂動を用いて非局所対向滑らか性を構築する新しい方法を示す。 2番目の派生した \textbf{Pani MixUp} 法は MixUp を拡張し、MixUp よりも優れ、MixUp の最先端の変種よりも競争性能が優れ、計算効率に大きな利点がある。 広範囲にわたる実験により,paniアプローチの有効性が確認できた。

Regularization plays a crucial role in machine learning models, especially for deep neural networks. The existing regularization techniques mainly rely on the i.i.d. assumption and only consider the knowledge from the current sample, without the leverage of the neighboring relationship between samples. In this work, we propose a general regularizer called \textbf{Patch-level Neighborhood Interpolation~(Pani)} that conducts a non-local representation in the computation of networks. Our proposal explicitly constructs patch-level graphs in different layers and then linearly interpolates neighborhood patch features, serving as a general and effective regularization strategy. Further, we customize our approach into two kinds of popular regularization methods, namely Virtual Adversarial Training (VAT) and MixUp as well as its variants. The first derived \textbf{Pani VAT} presents a novel way to construct non-local adversarial smoothness by employing patch-level interpolated perturbations. The second derived \textbf{Pani MixUp} method extends the MixUp, and achieves superiority over MixUp and competitive performance over state-of-the-art variants of MixUp method with a significant advantage in computational efficiency. Extensive experiments have verified the effectiveness of our Pani approach in both supervised and semi-supervised settings.
翻訳日:2023-10-25 15:29:51 公開日:2023-10-22
# ガスパー:GrAph信号のRでのプロセシング

Gasper: GrAph Signal ProcEssing in R ( http://arxiv.org/abs/2007.10642v4 )

ライセンス: Link先を確認
Basile de Loynes, Fabien Navarro, Baptiste Olivier(参考訳) 本稿では,Proglang{R} \pkg{gasper}パッケージの使用に関する簡単なチュートリアルを紹介する。 Gasperはグラフ上の信号処理専用のパッケージである。 SuiteSparse Matrix Collectionへのインターフェースも提供する。

We present a short tutorial on to the use of the \proglang{R} \pkg{gasper} package. Gasper is a package dedicated to signal processing on graphs. It also provides an interface to the SuiteSparse Matrix Collection.
翻訳日:2023-10-25 15:26:29 公開日:2023-10-22
# 畳み込みミラーによるデュアルPID制御系の解析

Analysis of Dual-Based PID Controllers through Convolutional Mirror Descent ( http://arxiv.org/abs/2202.06152v3 )

ライセンス: Link先を確認
Santiago R. Balseiro, Haihao Lu, Vahab Mirrokni, Balasubramanian Sivan(参考訳) 双対型比例積分微分(PID)コントローラは、オンライン広告の予算割当など、グローバルな制約でオンライン割り当て問題を解決するためにしばしば使用される。 しかし、コントローラはヒューリスティックな方法で使われ、パフォーマンスに関する保証が得られない。 本稿では、オンラインアロケーション問題に対するデュアルベースPIDコントローラの性能に関する最初の後悔点を提供する。 我々はまず,双対型PIDコントローラとオンライン凸最適化のための新しい一階次アルゴリズムである 'emph{Convolutional Mirror Descent} (CMD) の基本的な接続を確立し,過去の勾配の重み付き移動平均に基づいて反復を更新する。 CMDは特別な場合、運動量と楽観的なミラー降下を伴うオンラインミラー降下を回復する。 我々は,CMDが一般のオンライン凸最適化問題に対して,逆入力による後悔の少ない条件を確立する。 この新たな結果を利用して、オンラインアロケーション問題に対するデュアルベースのPIDコントローラに初めて後悔の意を表す。 証明の副産物として、我々は非滑らかな凸最適化のためのCMDに対する最初の後悔の束を提供する。

Dual-based proportional-integral-derivative (PID) controllers are often employed in practice to solve online allocation problems with global constraints, such as budget pacing in online advertising. However, controllers are used in a heuristic fashion and come with no provable guarantees on their performance. This paper provides the first regret bounds on the performance of dual-based PID controllers for online allocation problems. We do so by first establishing a fundamental connection between dual-based PID controllers and a new first-order algorithm for online convex optimization called \emph{Convolutional Mirror Descent} (CMD), which updates iterates based on a weighted moving average of past gradients. CMD recovers, in a special case, online mirror descent with momentum and optimistic mirror descent. We establish sufficient conditions under which CMD attains low regret for general online convex optimization problems with adversarial inputs. We leverage this new result to give the first regret bound for dual-based PID controllers for online allocation problems. As a byproduct of our proofs, we provide the first regret bound for CMD for non-smooth convex optimization, which might be of independent interest.
翻訳日:2023-10-25 15:15:35 公開日:2023-10-22
# データに基づく価格識別における情報理論の限界

Information-theoretic limitations of data-based price discrimination ( http://arxiv.org/abs/2204.12723v4 )

ライセンス: Link先を確認
Haitian Xie, Ying Zhu, Denis Shishkin(参考訳) 本稿では,コバリアイトが連続しており,販売者にはデータの分布が不明な,ランダムな評価データと共変量データに基づいて,第3次価格差別(3PD)について検討する。 本論文の主な成果は2つである。 最初の一連の結果は、独立した価格戦略であり、3PDと均一価格の2つのケースでデータベースの価格戦略の基本的な情報理論的な制限を明らかにする。 第2の結果は、K$-markets empirical revenue maximization (ERM) 戦略を提案し、K$-markets ERM 戦略と均一 ERM 戦略が、それぞれの真分布3PD と均一価格オプティマによって生成される収益の最適収束率を達成することを示す。 我々の理論的および数値的な結果は、サンプルサイズが十分に小さい場合、一様(すなわち1ドル市場)のEMM戦略は、Kドル市場EMM戦略よりも大きな収益を生み出すことを示唆している。

This paper studies third-degree price discrimination (3PD) based on a random sample of valuation and covariate data, where the covariate is continuous, and the distribution of the data is unknown to the seller. The main results of this paper are twofold. The first set of results is pricing strategy independent and reveals the fundamental information-theoretic limitation of any data-based pricing strategy in revenue generation for two cases: 3PD and uniform pricing. The second set of results proposes the $K$-markets empirical revenue maximization (ERM) strategy and shows that the $K$-markets ERM and the uniform ERM strategies achieve the optimal rate of convergence in revenue to that generated by their respective true-distribution 3PD and uniform pricing optima. Our theoretical and numerical results suggest that the uniform (i.e., $1$-market) ERM strategy generates a larger revenue than the $K$-markets ERM strategy when the sample size is small enough, and vice versa.
翻訳日:2023-10-25 15:05:59 公開日:2023-10-22
# オートエンコーダに基づく単一チャネル水中音響信号の未知数の音源分離

Source Separation of Unknown Numbers of Single-Channel Underwater Acoustic Signals Based on Autoencoders ( http://arxiv.org/abs/2207.11749v3 )

ライセンス: Link先を確認
Qinggang Sun and Kejun Wang(参考訳) 単一チャネル水中音響信号の分離は、実用上重要な課題である。 未知数の信号によるソース分離問題に注目する既存の研究はほとんどなく、システムの性能を評価する方法はまだ明確ではない。 本稿では,これらの2つの問題に対処するために,一定数の出力チャネルを持つ解を提案し,目標への出力のアライメントによって引き起こされる置換問題による次元的災害を回避する。 具体的には、オートエンコーダに基づく2段階アルゴリズムと、ミュートチャネルを有する状況に対する新しい性能評価手法を提案する。 放射された船舶騒音の混合混合実験により, 提案手法は既知の信号数で得られたものと同様の分離性能が得られることがわかった。 提案アルゴリズムは、既知の信号数に対して開発された2つのアルゴリズムとして、高い説明性と拡張性を備え、この枠組みの下での最先端性を得る。

The separation of single-channel underwater acoustic signals is a challenging problem with practical significance. Few existing studies focus on the source separation problem with unknown numbers of signals, and how to evaluate the performances of the systems is not yet clear. We propose a solution with a fixed number of output channels to address these two problems, enabling it to avoid the dimensional disaster caused by the permutation problem induced by the alignment of outputs to targets. Specifically, we propose a two-step algorithm based on autoencoders and a new performance evaluation method for situations with mute channels. Experiments conducted on simulated mixtures of radiated ship noise show that the proposed solution can achieve similar separation performance to that attained with a known number of signals. The proposed algorithm achieved competitive performance as two algorithms developed for known numbers of signals, which is highly explainable and extensible and get the state of the art under this framework.
翻訳日:2023-10-25 14:55:42 公開日:2023-10-22
# 作曲学習行動学習のためのメタレファレンシャルゲーム

Meta-Referential Games to Learn Compositional Learning Behaviours ( http://arxiv.org/abs/2207.08012v3 )

ライセンス: Link先を確認
Kevin Denamgana\"i, Sondess Missaoui, and James Alfred Walker(参考訳) 人間は構成性を使って過去の経験から新しい経験へと一般化する。 我々は、経験を基本原子要素に分離し、新しい経験に携わる能力を支援するために、新しい方法で組み換えることができると仮定する。 我々は、これを作曲を一般化する能力として捉え、これを作曲学習行動(CLB)として活用する行動について述べる。 CLBの学習における中心的な問題は、結合問題(BP)の解決である。 人間は容易に行動できるという別の知能の偉業であるが、最先端の人工エージェントには当てはまらない。 そこで我々は,人間と協調できる人工エージェントを構築するために,BPのドメインに依存しないバージョンを解くことにより,CLBを展示するエージェントの能力を調べる新しいベンチマークを開発することを提案する。 我々は,参照ゲームの言語台頭と基盤フレームワークからインスピレーションを得て,メタ参照ゲーム(Meta-Referential Games)と題するメタラーニングゲームの拡張を提案し,このフレームワークを用いてベンチマーク,シンボリックビヘイビアベンチマーク(S2B)を構築した。 ベースラインの結果とエラー分析を提供し、ベンチマークが魅力的な課題であることを示し、研究コミュニティがより有能な人工エージェントを開発することを促すことを期待しています。

Human beings use compositionality to generalise from past experiences to novel experiences. We assume a separation of our experiences into fundamental atomic components that can be recombined in novel ways to support our ability to engage with novel experiences. We frame this as the ability to learn to generalise compositionally, and we will refer to behaviours making use of this ability as compositional learning behaviours (CLBs). A central problem to learning CLBs is the resolution of a binding problem (BP). While it is another feat of intelligence that human beings perform with ease, it is not the case for state-of-the-art artificial agents. Thus, in order to build artificial agents able to collaborate with human beings, we propose to develop a novel benchmark to investigate agents' abilities to exhibit CLBs by solving a domain-agnostic version of the BP. We take inspiration from the language emergence and grounding framework of referential games and propose a meta-learning extension of referential games, entitled Meta-Referential Games, and use this framework to build our benchmark, the Symbolic Behaviour Benchmark (S2B). We provide baseline results and error analysis showing that our benchmark is a compelling challenge that we hope will spur the research community towards developing more capable artificial agents.
翻訳日:2023-10-25 14:54:29 公開日:2023-10-22
# スケッチのクラスタ化: テーブル圧縮を埋め込む新しいアプローチ

Clustering the Sketch: A Novel Approach to Embedding Table Compression ( http://arxiv.org/abs/2210.05974v3 )

ライセンス: Link先を確認
Henry Ling-Hei Tsang, Thomas Dybdahl Ahle(参考訳) 埋め込みテーブルは、機械学習システムによってカテゴリ機能を扱うために使用される。 現代のレコメンデーションシステムでは、これらのテーブルは非常に大きく、トレーニング中にもメモリに適合する新しい方法の開発が必要となる。 本稿では,コードブックへの量子化のようなクラスタリングベースの圧縮と,The Hashing Trick や Composal Embeddings (Shi et al., 2020)のような動的メソッドを組み合わせたクラスタ構成埋め込み(CCE)を提案する。 cceは、コードブックベースの量子化の圧縮率が高いが、ハッシュベースのメソッドのように*動的に*高いので、トレーニング中に使用できる。 理論的には、CCEは最適なコードブックに収束し、必要なイテレーション数に厳密な制限を与えることが保証されている。

Embedding tables are used by machine learning systems to work with categorical features. In modern Recommendation Systems, these tables can be very large, necessitating the development of new methods for fitting them in memory, even during training. We suggest Clustered Compositional Embeddings (CCE) which combines clustering-based compression like quantization to codebooks with dynamic methods like The Hashing Trick and Compositional Embeddings (Shi et al., 2020). Experimentally CCE achieves the best of both worlds: The high compression rate of codebook-based quantization, but *dynamically* like hashing-based methods, so it can be used during training. Theoretically, we prove that CCE is guaranteed to converge to the optimal codebook and give a tight bound for the number of iterations required.
翻訳日:2023-10-25 14:48:07 公開日:2023-10-22
# once is enough: 高速文対モデリングのための軽量クロスアテンション

Once is Enough: A Light-Weight Cross-Attention for Fast Sentence Pair Modeling ( http://arxiv.org/abs/2210.05261v3 )

ライセンス: Link先を確認
Yuanhang Yang, Shiyi Qi, Chuanyi Liu, Qifan Wang, Cuiyun Gao, and Zenglin Xu(参考訳) トランスフォーマーベースのモデルは、応答選択や自然言語推論(NLI)といった文対モデリングタスクで大きな成功を収めた。 これらのモデルは通常、入力ペアに対してクロスアテンションを実行するため、計算コストは禁じられる。 近年、高速計算のためのデュアルエンコーダと遅延インタラクションアーキテクチャを提案する。 しかし、クロスアテンションの表現と計算スピードアップのバランスはいまだよく調整する必要がある。 そこで本稿では,効率的な文対モデリングのための新しいパラダイムミックスエンコーダを提案する。 mixencoderには軽量なクロスアテンション機構がある。 クエリ-候補相互作用を並列にモデリングしながら、クエリエンコーディングのみを実行する。 4つのタスクで実施された大規模な実験により、MixEncoderは、より高価なクロスアテンションモデルと同等の性能を保ちながら、文ペアリングを113倍高速化できることが示された。

Transformer-based models have achieved great success on sentence pair modeling tasks, such as answer selection and natural language inference (NLI). These models generally perform cross-attention over input pairs, leading to prohibitive computational costs. Recent studies propose dual-encoder and late interaction architectures for faster computation. However, the balance between the expressive of cross-attention and computation speedup still needs better coordinated. To this end, this paper introduces a novel paradigm MixEncoder for efficient sentence pair modeling. MixEncoder involves a light-weight cross-attention mechanism. It conducts query encoding only once while modeling the query-candidate interaction in parallel. Extensive experiments conducted on four tasks demonstrate that our MixEncoder can speed up sentence pairing by over 113x while achieving comparable performance as the more expensive cross-attention models.
翻訳日:2023-10-25 14:47:18 公開日:2023-10-22
# 異種環境における分散クラスタ学習のためのワンショットフレームワーク

A One-shot Framework for Distributed Clustered Learning in Heterogeneous Environments ( http://arxiv.org/abs/2209.10866v5 )

ライセンス: Link先を確認
Aleksandar Armacki, Dragana Bajovic, Dusan Jakovetic, Soummya Kar(参考訳) 異種環境における分散学習のためのコミュニケーション効率のよい手法のファミリーを提案し,K$の異なる分布の1つからデータを取得する。 提案した設定では,ユーザグループ化(サンプリングしたデータ分布に基づく)と,その基礎となる統計特性が不明である。 1ショット分散クラスタリング学習手法のファミリー(ODCL-$\mathcal{C}$)が提案され、各ユーザで真のモデルを学ぶことを目的として、許容クラスタリングアルゴリズムのセット$\mathcal{C}$によってパラメータ化される。 K$-means (KM) とconvex clustering (CC) は、ODCL-KM や ODCL-CC のような、提案されたファミリー内で様々なワンショットの手法をもたらす。 提案したワンショットアプローチは,ユーザのローカル計算とサーバのクラスタリングベースの集約ステップに基づいて,強力な学習保証を提供する。 特に,強い凸問題に対しては,ユーザ毎のデータポイント数がしきい値を超えている限り,サンプルサイズの観点からmse(order-optimal mean-squared error)率を達成できることが示されている。 しきい値の明示的な特徴付けは問題パラメータの観点で与えられる。 各種クラスタリング手法(ODCL-CC, ODCL-KM)の選択に関するトレードオフについて論じ, 最先端技術に対する大幅な改善が示された。 数値実験により,提案手法の有効性を実証し,考察した。

The paper proposes a family of communication efficient methods for distributed learning in heterogeneous environments in which users obtain data from one of $K$ different distributions. In the proposed setup, the grouping of users (based on the data distributions they sample), as well as the underlying statistical properties of the distributions, are apriori unknown. A family of One-shot Distributed Clustered Learning methods (ODCL-$\mathcal{C}$) is proposed, parametrized by the set of admissible clustering algorithms $\mathcal{C}$, with the objective of learning the true model at each user. The admissible clustering methods include $K$-means (KM) and convex clustering (CC), giving rise to various one-shot methods within the proposed family, such as ODCL-KM and ODCL-CC. The proposed one-shot approach, based on local computations at the users and a clustering based aggregation step at the server is shown to provide strong learning guarantees. In particular, for strongly convex problems it is shown that, as long as the number of data points per user is above a threshold, the proposed approach achieves order-optimal mean-squared error (MSE) rates in terms of the sample size. An explicit characterization of the threshold is provided in terms of problem parameters. The trade-offs with respect to selecting various clustering methods (ODCL-CC, ODCL-KM) are discussed and significant improvements over state-of-the-art are demonstrated. Numerical experiments illustrate the findings and corroborate the performance of the proposed methods.
翻訳日:2023-10-25 14:45:45 公開日:2023-10-22
# 自然界における創発現象:理論とのパラドックス?

Emergent phenomena in Nature: a paradox with Theory? ( http://arxiv.org/abs/2209.10488v2 )

ライセンス: Link先を確認
Christiaan J. F. van de Ven(参考訳) 様々な物理的現象の存在は漸近的出現 (asymptotic emerge) と呼ばれる概念に由来する。 重要な例としては、自発的対称性の破れ(ssb)と相転移があり、これは基礎となる有限量子系の古典的あるいは熱力学的極限でのみ起こり、有限量子系では、関連する状態の特異性のため、そのような現象は理論によって除外される。 しかし自然界では、実物質を記述する有限量子系は明らかにそのような効果を示す。 本稿では,これらの「パラドキカル」現象について論じ,物理的・数学的観点から理論と現実の両方を包含する様々な概念とメカニズムを概説する。

The existence of various physical phenomena stems from the concept called asymptotic emergence, that is, they seem to be exclusively reserved for certain limiting theories. Important examples are spontaneous symmetry breaking (SSB) and phase transitions: these would only occur in the classical or thermodynamic limit of underlying finite quantum systems, since for finite quantum systems, due to the uniqueness of the relevant states, such phenomena are excluded by Theory. In Nature, however, finite quantum systems describing real materials clearly exhibit such effects. In this paper we discuss these apparently ``paradoxical'' phenomena and outline various ideas and mechanisms that encompass both theory and reality, from physical and mathematical points of view.
翻訳日:2023-10-25 14:45:16 公開日:2023-10-22
# COFFEE:説明可能なリコメンデーションにおける個人化テキスト生成の非現実的公正性

COFFEE: Counterfactual Fairness for Personalized Text Generation in Explainable Recommendation ( http://arxiv.org/abs/2210.15500v2 )

ライセンス: Link先を確認
Nan Wang, Qifan Wang, Yi-Chia Wang, Maziar Sanjabi, Jingzhou Liu, Hamed Firooz, Hongning Wang, Shaoliang Nie(参考訳) 言語モデルが私たちのデジタル生活にますます統合されるにつれて、パーソナライズドテキスト生成(PTG)は幅広いアプリケーションで重要なコンポーネントとして現れています。 しかし、PTGモデルトレーニングによく使用されるユーザ記述テキストに固有のバイアスは、言語品質の異なるレベルとユーザの保護属性を不注意に関連付けることができる。 このモデルは、w.r.t.ユーザの保護された属性を生成する際のバイアスを継承し、不平等を持続することができる。 本研究では,レコメンデーションのためのパーソナライズされた説明生成の文脈におけるPTGの公平性を検討する。 まず,生成された説明のバイアスとその公平性について論じる。 公平性を促進するために,説明生成における尺度固有の反事実的公平性を達成するための一般的な枠組みを提案する。 本手法の有効性を示す実験と人体評価を行った。

As language models become increasingly integrated into our digital lives, Personalized Text Generation (PTG) has emerged as a pivotal component with a wide range of applications. However, the bias inherent in user written text, often used for PTG model training, can inadvertently associate different levels of linguistic quality with users' protected attributes. The model can inherit the bias and perpetuate inequality in generating text w.r.t. users' protected attributes, leading to unfair treatment when serving users. In this work, we investigate fairness of PTG in the context of personalized explanation generation for recommendations. We first discuss the biases in generated explanations and their fairness implications. To promote fairness, we introduce a general framework to achieve measure-specific counterfactual fairness in explanation generation. Extensive experiments and human evaluations demonstrate the effectiveness of our method.
翻訳日:2023-10-25 14:37:16 公開日:2023-10-22
# データパースペクティビズムとパーソナライズ:社会的ノルムへの応用

Unifying Data Perspectivism and Personalization: An Application to Social Norms ( http://arxiv.org/abs/2210.14531v3 )

ライセンス: Link先を確認
Joan Plepi, B\'ela Neuendorf, Lucie Flek, Charles Welch(参考訳) 言語処理タスクに単元真理を使用する代わりに、最近のいくつかの研究は、アノテーションのセットのラベルをどのように表現し、予測するかを調査した。 しかし、アノテータに関する情報はほとんど、あるいは全く知られておらず、また、アノテータの集合は小さい。 本研究では,13k アノテーションと210k の社会的規範判断の対立に関するソーシャルメディア投稿のコーパスについて検討する。 アノテーションのモデル化にパーソナライズ手法を適用し,その効果を社会規範の知覚予測に比較した新しい実験的な設定を提案する。 さらに、紛争中の当事者間の関係の密接性によって異なる社会的状況のサブセット間でのパフォーマンス分析を行い、パーソナライゼーションが最も役立つ場所を評価する。

Instead of using a single ground truth for language processing tasks, several recent studies have examined how to represent and predict the labels of the set of annotators. However, often little or no information about annotators is known, or the set of annotators is small. In this work, we examine a corpus of social media posts about conflict from a set of 13k annotators and 210k judgements of social norms. We provide a novel experimental setup that applies personalization methods to the modeling of annotators and compare their effectiveness for predicting the perception of social norms. We further provide an analysis of performance across subsets of social situations that vary by the closeness of the relationship between parties in conflict, and assess where personalization helps the most.
翻訳日:2023-10-25 14:36:58 公開日:2023-10-22
# 神経固有関数は構造化表現学習者である

Neural Eigenfunctions Are Structured Representation Learners ( http://arxiv.org/abs/2210.12637v2 )

ライセンス: Link先を確認
Zhijie Deng, Jiaxin Shi, Hao Zhang, Peng Cui, Cewu Lu, Jun Zhu(参考訳) 本稿では,neural eigenmapと呼ばれる構造的,適応的長大な深層表現について述べる。 Laplacian Eigenmapのような従来のスペクトル法とは異なり、Neural EigenmapはNeuralEFを利用してニューラルネットワークを用いて固有関数をパラメトリックにモデル化する。 固有関数がデータ拡張設定における正の関係から導出される場合、NeuralEFを適用すると、一般的な自己教師付き学習手法に類似した目的関数が得られ、特徴が重要度によって順序づけられる構造化表現につながる追加の対称性破壊特性が現れる。 画像検索システムにおいて,適応長符号のような表現を用いることを実証する。 特徴量に応じて切り詰めることにより,本手法は,検索性能を向上するために,指導的自己指導学習よりも最大16\times$短い表現長を必要とする。 さらに,この手法をグラフデータに適用し,100万以上のノードを有するノード表現学習ベンチマークで強い結果を報告する。

This paper introduces a structured, adaptive-length deep representation called Neural Eigenmap. Unlike prior spectral methods such as Laplacian Eigenmap that operate in a nonparametric manner, Neural Eigenmap leverages NeuralEF to parametrically model eigenfunctions using a neural network. We show that, when the eigenfunction is derived from positive relations in a data augmentation setup, applying NeuralEF results in an objective function that resembles those of popular self-supervised learning methods, with an additional symmetry-breaking property that leads to structured representations where features are ordered by importance. We demonstrate using such representations as adaptive-length codes in image retrieval systems. By truncation according to feature importance, our method requires up to $16\times$ shorter representation length than leading self-supervised learning ones to achieve similar retrieval performance. We further apply our method to graph data and report strong results on a node representation learning benchmark with more than one million nodes.
翻訳日:2023-10-25 14:35:37 公開日:2023-10-22
# テンソルネットワーク形式を用いたO(3)等価ニューラルネットワークの設計

Unifying O(3) Equivariant Neural Networks Design with Tensor-Network Formalism ( http://arxiv.org/abs/2211.07482v2 )

ライセンス: Link先を確認
Zimu Li, Zihan Pengmei, Han Zheng, Erik Thiede, Junyu Liu, and Risi Kondor(参考訳) アブイニシアト計算からのポテンシャルエネルギー表面の学習を含む多くの学習タスクは、大域的な空間対称性と原子または一般粒子間の置換対称性を含む。 等変グラフニューラルネットワークはそのような問題に対する標準的なアプローチであり、空間群の下で変換される様々なテンソル間のテンソル積を利用する最も成功した手法の1つである。 しかし、異なるテンソルの数とそれらの間の関係の複雑さが増すにつれて、パシモニーと等価性の維持がますます困難になる。 本稿では,SU($2$)対称量子多体問題のシミュレーションに広く用いられている融合図を用いて,同変ニューラルネットワークのための新しい同変成分を設計する。 これにより、新しいニューラルネットワークアーキテクチャを構築するための図式的アプローチが実現される。 与えられた局所近傍の粒子に適用すると、結果として得られる成分は「融合ブロック」と呼ばれ、近傍で定義される任意の連続同値函数の普遍近似となる。 既存の等価構造(コーマントとメイス)に核融合ブロックを組み込むことにより,様々な化学問題に対するパラメータの少ない性能向上を実現した。 さらに,stilbene cis-trans異性化の非断熱分子動力学を研究するために,グループ同変ニューラルネットワークを適用した。 テンソルネットワークと等価ニューラルネットワークを組み合わせたこのアプローチは,より表現力のある等価ニューラルネットワークを設計する上で,潜在的に実りある方向を示唆する。

Many learning tasks, including learning potential energy surfaces from ab initio calculations, involve global spatial symmetries and permutational symmetry between atoms or general particles. Equivariant graph neural networks are a standard approach to such problems, with one of the most successful methods employing tensor products between various tensors that transform under the spatial group. However, as the number of different tensors and the complexity of relationships between them increase, maintaining parsimony and equivariance becomes increasingly challenging. In this paper, we propose using fusion diagrams, a technique widely employed in simulating SU($2$)-symmetric quantum many-body problems, to design new equivariant components for equivariant neural networks. This results in a diagrammatic approach to constructing novel neural network architectures. When applied to particles within a given local neighborhood, the resulting components, which we term "fusion blocks," serve as universal approximators of any continuous equivariant function defined in the neighborhood. We incorporate a fusion block into pre-existing equivariant architectures (Cormorant and MACE), leading to improved performance with fewer parameters on a range of challenging chemical problems. Furthermore, we apply group-equivariant neural networks to study non-adiabatic molecular dynamics of stilbene cis-trans isomerization. Our approach, which combines tensor networks with equivariant neural networks, suggests a potentially fruitful direction for designing more expressive equivariant neural networks.
翻訳日:2023-10-25 14:27:23 公開日:2023-10-22
# 自動音声認識のための自己監督音声モデルの有効蒸留探索

Exploring Effective Distillation of Self-Supervised Speech Models for Automatic Speech Recognition ( http://arxiv.org/abs/2210.15631v3 )

ライセンス: Link先を確認
Yujin Wang, Changli Tang, Ziyang Ma, Zhisheng Zheng, Xie Chen and Wei-Qiang Zhang(参考訳) 近年,音声処理における自己教師型学習(SSL)の進歩が注目されている。 SSLモデルは、通常、多数の未ラベルデータに対して事前トレーニングされ、モデリング能力を高めるために、大きなモデルサイズが好ましい。 しかし、これはオーバーサイズモデルによってもたらされる計算コストとメモリコストのため、潜在的なアプリケーションを制限する可能性がある。 SSLモデルの小型化は、実用価値の重要な研究方向となっている。 そこで本研究では,自動音声認識(ASR)のためのHuBERTベースのSSLモデルの有効蒸留について検討する。 まず,強力なベースラインを確立するために,様々な学生モデル構造に関する総合的研究を行った。 これに加えて, 従来の研究で広く採用されていたレグレッション損失の補足として, 特に低資源シナリオにおいて, 蒸留性能を高めるために, HuBERTに差別的損失が導入された。 さらに、波形からFbank特徴量へのフロントエンド入力を蒸留する簡便で効率的なアルゴリズムを設計し、17%のパラメータ削減と2倍の推論速度を限界性能劣化で実現した。

Recent years have witnessed great strides in self-supervised learning (SSL) on the speech processing. The SSL model is normally pre-trained on a great variety of unlabelled data and a large model size is preferred to increase the modeling capacity. However, this might limit its potential applications due to the expensive computation and memory costs introduced by the oversize model. Miniaturization for SSL models has become an important research direction of practical value. To this end, we explore the effective distillation of HuBERT-based SSL models for automatic speech recognition (ASR). First, in order to establish a strong baseline, a comprehensive study on different student model structures is conducted. On top of this, as a supplement to the regression loss widely adopted in previous works, a discriminative loss is introduced for HuBERT to enhance the distillation performance, especially in low-resource scenarios. In addition, we design a simple and effective algorithm to distill the front-end input from waveform to Fbank feature, resulting in 17% parameter reduction and doubling inference speed, at marginal performance degradation.
翻訳日:2023-10-25 14:25:46 公開日:2023-10-22
# 非退化サドル点の固定時間収束と高速蒸発を伴う一般化勾配流

Generalized Gradient Flows with Provable Fixed-Time Convergence and Fast Evasion of Non-Degenerate Saddle Points ( http://arxiv.org/abs/2212.03765v2 )

ライセンス: Link先を確認
Mayank Baranwal, Param Budhraja, Vishal Raj, Ashish R. Hota(参考訳) 勾配に基づく1次凸最適化アルゴリズムは、機械学習タスクを含む様々な領域で広く適用できる。 連続時間力学系の固定時間安定性理論の最近の進歩に動機づけられ、非凸関数のサブクラスにさらに拡張する最も強い収束保証を持つ高速化最適化アルゴリズムを設計するための一般化フレームワークを提案する。 特に,Polak-{\L}ojasiewicz (PL)の不等式を満たす目的関数の最適解に,一定時間で確実に収束するGenFlowアルゴリズムとその運動量変種を導入する。 さらに,非退化サドルポイントを許容する関数に対して,提案するgenflowアルゴリズムでは,すべての初期条件において,これらのサドルポイントを回避するのに要する時間は一様に有界であることを示す。 最後に、最適解が鞍点である強凸・強凸ミニマックス問題に対して、同様のスキームが一定時間内に再び最適解に到達することが示される。 このアルゴリズムの優れた収束特性は、様々なベンチマークデータセットで実験的に検証される。

Gradient-based first-order convex optimization algorithms find widespread applicability in a variety of domains, including machine learning tasks. Motivated by the recent advances in fixed-time stability theory of continuous-time dynamical systems, we introduce a generalized framework for designing accelerated optimization algorithms with strongest convergence guarantees that further extend to a subclass of non-convex functions. In particular, we introduce the GenFlow algorithm and its momentum variant that provably converge to the optimal solution of objective functions satisfying the Polyak-{\L}ojasiewicz (PL) inequality in a fixed time. Moreover, for functions that admit non-degenerate saddle-points, we show that for the proposed GenFlow algorithm, the time required to evade these saddle-points is uniformly bounded for all initial conditions. Finally, for strongly convex-strongly concave minimax problems whose optimal solution is a saddle point, a similar scheme is shown to arrive at the optimal solution again in a fixed time. The superior convergence properties of our algorithm are validated experimentally on a variety of benchmark datasets.
翻訳日:2023-10-25 14:16:55 公開日:2023-10-22
# 解釈可能な画像分類のための学習支援と試行プロトタイプ

Learning Support and Trivial Prototypes for Interpretable Image Classification ( http://arxiv.org/abs/2301.04011v4 )

ライセンス: Link先を確認
Chong Wang, Yuyuan Liu, Yuanhong Chen, Fengbei Liu, Yu Tian, Davis J. McCarthy, Helen Frazer, Gustavo Carneiro(参考訳) Prototypeal part network (ProtoPNet) 法は,特徴空間の分類境界から遠く離れた位置にあるように訓練されるため,一連のトレーニングプロトタイプと予測を関連付けることで,解釈可能な分類を実現するように設計されている。 両方の方法からの分類は、一連のトレーニングポイント(つまり、protopnetにおける自明なプロトタイプと、svmにおけるサポートベクター)との類似性を計算することに依存しているため、protopnetとサポートベクターマシン(svm)の類似化が可能である。 しかしながら、自明なプロトタイプは分類境界から遠く離れた位置にあるが、支持ベクトルはこの境界に近い位置にあり、よく確立されたSVM理論とのこの相違は、分類精度が劣るProtoPNetモデルをもたらすと論じる。 本稿では,SVM理論により提案される特徴空間の分類境界付近にある支援プロトタイプを学習するための新しい手法を用いて,ProtoPNetの分類を改善することを目的とする。 さらに,新しいモデル st-protopnet を用いて分類結果の改善を目標とし,サポートプロトタイプと自明なプロトタイプを活用し,より効果的な分類を提供する。 CUB-200-2011、Stanford Cars、Stanford Dogsのデータセットによる実験結果は、ST-ProtoPNetが最先端の分類精度と解釈可能性の達成を実証している。 また,提案するサポートプロトタイプは,背景領域よりも興味のある対象にローカライズされる傾向が強いことを示した。

Prototypical part network (ProtoPNet) methods have been designed to achieve interpretable classification by associating predictions with a set of training prototypes, which we refer to as trivial prototypes because they are trained to lie far from the classification boundary in the feature space. Note that it is possible to make an analogy between ProtoPNet and support vector machine (SVM) given that the classification from both methods relies on computing similarity with a set of training points (i.e., trivial prototypes in ProtoPNet, and support vectors in SVM). However, while trivial prototypes are located far from the classification boundary, support vectors are located close to this boundary, and we argue that this discrepancy with the well-established SVM theory can result in ProtoPNet models with inferior classification accuracy. In this paper, we aim to improve the classification of ProtoPNet with a new method to learn support prototypes that lie near the classification boundary in the feature space, as suggested by the SVM theory. In addition, we target the improvement of classification results with a new model, named ST-ProtoPNet, which exploits our support prototypes and the trivial prototypes to provide more effective classification. Experimental results on CUB-200-2011, Stanford Cars, and Stanford Dogs datasets demonstrate that ST-ProtoPNet achieves state-of-the-art classification accuracy and interpretability results. We also show that the proposed support prototypes tend to be better localised in the object of interest rather than in the background region.
翻訳日:2023-10-25 14:07:45 公開日:2023-10-22
# ALCAP:アライメント強化音楽キャプタ

ALCAP: Alignment-Augmented Music Captioner ( http://arxiv.org/abs/2212.10901v3 )

ライセンス: Link先を確認
Zihao He, Weituo Hao, Wei-Tsung Lu, Changyou Chen, Kristina Lerman, Xuchen Song(参考訳) 音楽キャプションは、ストリーミングメディアプラットフォームが高まりつつあることを受け、大きな注目を集めている。 伝統的なアプローチは、しばしば音楽のオーディオまたは歌詞の側面を優先し、2つの間の複雑な相互作用を無視している。 しかし、音楽の包括的理解は、これら2つの要素の統合を必要とする。 本研究では,音声と歌詞のマルチモーダルアライメントをコントラスト学習によって体系的に学習する手法を導入することで,この見過ごされた領域を解明する。 これは、音声と歌詞のシナジーを認識し強調するだけでなく、モデルがより深いクロスモーダルなコヒーレンスを実現する方法も与え、高品質なキャプションを生成する。 提案手法の利点を実証する理論的および実証的な結果を提供し,2つの音楽キャプションデータセットにおいて新たな最先端を実現する。

Music captioning has gained significant attention in the wake of the rising prominence of streaming media platforms. Traditional approaches often prioritize either the audio or lyrics aspect of the music, inadvertently ignoring the intricate interplay between the two. However, a comprehensive understanding of music necessitates the integration of both these elements. In this study, we delve into this overlooked realm by introducing a method to systematically learn multimodal alignment between audio and lyrics through contrastive learning. This not only recognizes and emphasizes the synergy between audio and lyrics but also paves the way for models to achieve deeper cross-modal coherence, thereby producing high-quality captions. We provide both theoretical and empirical results demonstrating the advantage of the proposed method, which achieves new state-of-the-art on two music captioning datasets.
翻訳日:2023-10-25 14:05:28 公開日:2023-10-22
# 視線追跡, 注釈, 言語モデルからのスタイルのテクスチュアル・サリエンシに関する比較研究

A Comparative Study on Textual Saliency of Styles from Eye Tracking, Annotations, and Language Models ( http://arxiv.org/abs/2212.09873v2 )

ライセンス: Link先を確認
Karin de Langis and Dongyeop Kang(参考訳) 自然言語処理(NLP)パイプラインに、視線追跡データやその他の人間の言語処理の暗黙測度を取り入れることへの関心が高まっている。 人間の言語処理のデータには、言語モデルによって活用できる人間の言語理解に関するユニークな洞察が含まれている。 しかしながら、このデータの性質や、下流のnlpタスクでどのように活用できるか、多くの未解決の疑問が残っている。 本稿では,スタイリスティックテキスト(丁寧さなど)の人為的処理のためのアイトラッキングデータセットである eyeStyliency を提案する。 収集したアイデータセットを用いて,テキスト上でのサリエンシスコアを導出する様々な手法を開発した。 さらに、このデータと人間のアノテーション手法とモデルに基づく解釈可能性指標を比較した。 視線追跡データはユニークだが、人間のアノテーションとモデルに基づく重要度スコアの両方と交差し、人間と機械の視点を橋渡しする可能性がある。 この種のデータを用いて,スタイルを解釈するモデルの認知的可能性を評価する。 視線追跡データと処理コードは公開されています。

There is growing interest in incorporating eye-tracking data and other implicit measures of human language processing into natural language processing (NLP) pipelines. The data from human language processing contain unique insight into human linguistic understanding that could be exploited by language models. However, many unanswered questions remain about the nature of this data and how it can best be utilized in downstream NLP tasks. In this paper, we present eyeStyliency, an eye-tracking dataset for human processing of stylistic text (e.g., politeness). We develop a variety of methods to derive style saliency scores over text using the collected eye dataset. We further investigate how this saliency data compares to both human annotation methods and model-based interpretability metrics. We find that while eye-tracking data is unique, it also intersects with both human annotations and model-based importance scores, providing a possible bridge between human- and machine-based perspectives. We propose utilizing this type of data to evaluate the cognitive plausibility of models that interpret style. Our eye-tracking data and processing code are publicly available.
翻訳日:2023-10-25 14:05:14 公開日:2023-10-22
# 知識蒸留$\approx$ Label Smoothing: Fact or Fallacy?

Knowledge Distillation $\approx$ Label Smoothing: Fact or Fallacy? ( http://arxiv.org/abs/2301.12609v3 )

ライセンス: Link先を確認
Md Arafat Sultan(参考訳) 元々は、あるモデルから別のモデルへの知識伝達の方法として提案されていたが、近年の研究では、知識蒸留(KD)が実際に正則化の一形態であることを示唆している。 この新しい視点で、最も強力なサポートは、ラベルスムーシング(LS)との明らかな類似性である。 ここでは、トレーニングしたモデルの予測信頼度を比較することにより、この2つの方法間の等価性を再検討する。 異なるサイズのモデルを含む4つのテキスト分類タスクの実験では、以下のことが示される。 (a)ほとんどの環境では、KDとLSが全く反対方向にモデルの信頼性を駆動し、 b)KDでは,学生は知識だけでなく,教師からの信頼も受け継ぎ,古典的知識伝達の視点を強化している。

Originally proposed as a method for knowledge transfer from one model to another, some recent studies have suggested that knowledge distillation (KD) is in fact a form of regularization. Perhaps the strongest support of all for this new perspective comes from its apparent similarities with label smoothing (LS). Here we re-examine this stated equivalence between the two methods by comparing the predictive confidences of the models they train. Experiments on four text classification tasks involving models of different sizes show that: (a) In most settings, KD and LS drive model confidence in completely opposite directions, and (b) In KD, the student inherits not only its knowledge but also its confidence from the teacher, reinforcing the classical knowledge transfer view.
翻訳日:2023-10-25 13:56:01 公開日:2023-10-22
# Re-ViLM:ZeroとFew-Shot画像キャプションのための検索拡張ビジュアル言語モデル

Re-ViLM: Retrieval-Augmented Visual Language Model for Zero and Few-Shot Image Captioning ( http://arxiv.org/abs/2302.04858v2 )

ライセンス: Link先を確認
Zhuolin Yang, Wei Ping, Zihan Liu, Vijay Korthikanti, Weili Nie, De-An Huang, Linxi Fan, Zhiding Yu, Shiyi Lan, Bo Li, Ming-Yu Liu, Yuke Zhu, Mohammad Shoeybi, Bryan Catanzaro, Chaowei Xiao, Anima Anandkumar(参考訳) 事前訓練された言語モデル(LM)を視覚エンコーダ(例えばFlamingo)で拡張することで、画像からテキスト生成の最先端結果が得られる。 しかしながら、これらのモデルは全ての知識をパラメータに格納するため、豊富な視覚概念と非常に豊富なテキスト記述をモデル化するために巨大なモデルパラメータを必要とすることが多い。 さらに、新しいデータを取り込むのに効率が悪く、計算効率のよい微調整プロセスが必要となる。 本稿では,フラミンゴ上に構築された検索型ビジュアル言語モデルであるre-vilmを導入することで,外部データベースから関連する知識をゼロおよびインコンテキストの少数ショット画像からテキストへの世代で検索することを支援する。 特定の知識を外部データベースに明示的に格納することで、モデルパラメータの数を減らし、データベースを単純に更新することで、評価中に容易に新しいデータに対応できる。 また,インターリーブされた画像とテキストデータを構築し,テキスト内数ショット学習機能を実現する。 本稿では,画像からテキストへの生成タスク,特に領域外設定におけるゼロショットおよび少数ショット生成において,ベースラインメソッドと比較して4倍のパラメータで,re-vilmが性能を大幅に向上させることを示す。

Augmenting pretrained language models (LMs) with a vision encoder (e.g., Flamingo) has obtained the state-of-the-art results in image-to-text generation. However, these models store all the knowledge within their parameters, thus often requiring enormous model parameters to model the abundant visual concepts and very rich textual descriptions. Additionally, they are inefficient in incorporating new data, requiring a computational-expensive fine-tuning process. In this work, we introduce a Retrieval-augmented Visual Language Model, Re-ViLM, built upon the Flamingo, that supports retrieving the relevant knowledge from the external database for zero and in-context few-shot image-to-text generations. By storing certain knowledge explicitly in the external database, our approach reduces the number of model parameters and can easily accommodate new data during evaluation by simply updating the database. We also construct an interleaved image and text data that facilitates in-context few-shot learning capabilities. We demonstrate that Re-ViLM significantly boosts performance for image-to-text generation tasks, especially for zero-shot and few-shot generation in out-of-domain settings with 4 times less parameters compared with baseline methods.
翻訳日:2023-10-25 13:48:47 公開日:2023-10-22
# インコンテキスト学習による対話の安全性向上

Using In-Context Learning to Improve Dialogue Safety ( http://arxiv.org/abs/2302.00871v3 )

ライセンス: Link先を確認
Nicholas Meade, Spandana Gella, Devamanyu Hazarika, Prakhar Gupta, Di Jin, Siva Reddy, Yang Liu, Dilek Hakkani-T\"ur(参考訳) 大規模なニューラルベースの対話型モデルでは,対話エージェントの習熟度が高まっているが,近年の研究では,これらのシステムに対する安全性の問題が強調されている。 例えば、これらのシステムは有害なコンテンツを生成し、しばしば社会的バイアスやステレオタイプを持続させる。 チャットボットからの応答のバイアスと毒性を低減させる検索ベース手法について検討した。 コンテキスト内学習を使用して、モデルをより安全な世代に向けて操る。 具体的には,安全でない対話コンテキストに対する応答を生成するために,類似した対話コンテキストに対する安全な応答のデモンストレーションを検索する。 本手法は,トレーニングを必要とせず,強いベースラインと競合する。 例えば、自動評価を用いて、最高の微調整ベースラインは、DiaSafety 4.04%以上の安全でない対話コンテキストに対してのみ安全な応答を生成する。 最後に,応答の安全性をさらに向上させるための再ランキング手順を提案する。

While large neural-based conversational models have become increasingly proficient dialogue agents, recent work has highlighted safety issues with these systems. For example, these systems can be goaded into generating toxic content, which often perpetuates social biases or stereotypes. We investigate a retrieval-based method for reducing bias and toxicity in responses from chatbots. It uses in-context learning to steer a model towards safer generations. Concretely, to generate a response to an unsafe dialogue context, we retrieve demonstrations of safe responses to similar dialogue contexts. We find our method performs competitively with strong baselines without requiring training. For instance, using automatic evaluation, we find our best fine-tuned baseline only generates safe responses to unsafe dialogue contexts from DiaSafety 4.04% more than our approach. Finally, we also propose a re-ranking procedure which can further improve response safeness.
翻訳日:2023-10-25 13:45:24 公開日:2023-10-22
# グラフ畳み込みネットワークのためのランダムプロジェクションフォレスト初期化

Random Projection Forest Initialization for Graph Convolutional Networks ( http://arxiv.org/abs/2302.12001v2 )

ライセンス: Link先を確認
Mashaan Alshammari, John Stavrakakis, Adel F. Ahmed, Masahiro Takatsuka(参考訳) グラフ畳み込みネットワーク(GCN)は、グラフのような非構造化データにディープラーニングを拡張するための大きなステップであった。 しかし、GCNは、動作する構築されたグラフが必要です。 この問題を解決するために、$k$-nearest neighborのような古典的なグラフは通常GCNを初期化するために使われる。 k$-nnグラフを構築するのは計算効率が良いが、構築されたグラフは学習にはあまり役に立たないかもしれない。 k$-nnグラフでは、点が一定数の辺を持つように制限され、グラフ内のすべての辺は同じ重みを持つ。 グラフを構築し、GCNを初期化する新しい方法を提案する。 ランダム・プロジェクション・フォレスト(rpforest)に基づいている。 rpForestを使えば、さまざまな重要度を示すエッジに様々な重みを割り当てることができ、学習が促進されます。 木数はrpForestのハイパーパラメータである。 このパラメータを適切な範囲に設定するために,スペクトル解析を行った。 実験では、rpForestを使ってGCNを初期化することで、$k$-nnの初期化よりも優れた結果が得られる。

Graph convolutional networks (GCNs) were a great step towards extending deep learning to unstructured data such as graphs. But GCNs still need a constructed graph to work with. To solve this problem, classical graphs such as $k$-nearest neighbor are usually used to initialize the GCN. Although it is computationally efficient to construct $k$-nn graphs, the constructed graph might not be very useful for learning. In a $k$-nn graph, points are restricted to have a fixed number of edges, and all edges in the graph have equal weights. We present a new way to construct the graph and initialize the GCN. It is based on random projection forest (rpForest). rpForest enables us to assign varying weights on edges indicating varying importance, which enhanced the learning. The number of trees is a hyperparameter in rpForest. We performed spectral analysis to help us setting this parameter in the right range. In the experiments, initializing the GCN using rpForest provides better results compared to $k$-nn initialization.
翻訳日:2023-10-25 13:35:49 公開日:2023-10-22
# 分子からの質量スペクトル予測のためのプリフィックストレーデコーディング

Prefix-Tree Decoding for Predicting Mass Spectra from Molecules ( http://arxiv.org/abs/2303.06470v2 )

ライセンス: Link先を確認
Samuel Goldman, John Bradshaw, Jiayi Xin, and Connor W. Coley(参考訳) 分子からの質量スペクトルの計算学的予測により、臨床的に関連する代謝物の発見が可能となった。 しかし、これらの予測ツールはまだ2つの極端の1つを占めるため、運用に制限がある。 (a)分子を断片的に断片化し、潜在的な再配列や時間的複雑さに過度に厳格な制約を課すこと (b)損失および非物理的離散スペクトルベクトルの復号による。 本研究では、質量スペクトルを原子の多重集合である分子公式の集合として扱うことにより、分子からの質量スペクトルを予測するための新しい中間戦略を用いる。 まず、入力された分子グラフを符号化した後、分子サブフォーミュラの集合をデコードし、それぞれが質量スペクトルの予測ピークを指定し、その強度を第2のモデルで予測する。 我々の重要な洞察は、プレフィックスツリー構造であるatom-type by atom-typeを用いて式集合をデコードすることにより、分子サブフォルムの組合せ可能性の克服である。 質量スペクトル予測タスクにおける有望な実験結果を示す。

Computational predictions of mass spectra from molecules have enabled the discovery of clinically relevant metabolites. However, such predictive tools are still limited as they occupy one of two extremes, either operating (a) by fragmenting molecules combinatorially with overly rigid constraints on potential rearrangements and poor time complexity or (b) by decoding lossy and nonphysical discretized spectra vectors. In this work, we use a new intermediate strategy for predicting mass spectra from molecules by treating mass spectra as sets of molecular formulae, which are themselves multisets of atoms. After first encoding an input molecular graph, we decode a set of molecular subformulae, each of which specify a predicted peak in the mass spectrum, the intensities of which are predicted by a second model. Our key insight is to overcome the combinatorial possibilities for molecular subformulae by decoding the formula set using a prefix tree structure, atom-type by atom-type, representing a general method for ordered multiset decoding. We show promising empirical results on mass spectra prediction tasks.
翻訳日:2023-10-25 13:25:39 公開日:2023-10-22
# WiCE:ウィキペディアにおける主張の現実的エンターテイメント

WiCE: Real-World Entailment for Claims in Wikipedia ( http://arxiv.org/abs/2303.01432v2 )

ライセンス: Link先を確認
Ryo Kamoi, Tanya Goyal, Juan Diego Rodriguez, Greg Durrett(参考訳) テキスト・エンテーメント・モデルは、事実チェック、質問応答における前提検証、要約評価といった設定にますます適用される。 しかしながら、これらは既存のエンテーメントデータセットから重要なドメインシフトであり、結果としてモデルの性能が低下している。 自然クレームとwikipediaから抽出したエビデンスペアに基づく,新しいきめ細かなテクストリテラルデータセットであるwiceを提案する。 標準的なクレームレベルの記述に加えて、wiceはクレームのサブセンテンス単位と各サブセンテンスを支持する証拠文の最小サブセットに関する詳細な判断を提供する。 そこで本研究では,GPT-3.5を用いた自動クレーム分解手法を提案する。 最後に、我々のデータセットにおける真のクレームは、既存のモデルで対処できない検証と検索の問題に挑戦するものであることを示す。

Textual entailment models are increasingly applied in settings like fact-checking, presupposition verification in question answering, or summary evaluation. However, these represent a significant domain shift from existing entailment datasets, and models underperform as a result. We propose WiCE, a new fine-grained textual entailment dataset built on natural claim and evidence pairs extracted from Wikipedia. In addition to standard claim-level entailment, WiCE provides entailment judgments over sub-sentence units of the claim, and a minimal subset of evidence sentences that support each subclaim. To support this, we propose an automatic claim decomposition strategy using GPT-3.5 which we show is also effective at improving entailment models' performance on multiple datasets at test time. Finally, we show that real claims in our dataset involve challenging verification and retrieval problems that existing models fail to address.
翻訳日:2023-10-25 13:24:39 公開日:2023-10-22
# MEGA: 生成AIの多言語評価

MEGA: Multilingual Evaluation of Generative AI ( http://arxiv.org/abs/2303.12528v4 )

ライセンス: Link先を確認
Kabir Ahuja and Harshita Diddee and Rishav Hada and Millicent Ochieng and Krithika Ramesh and Prachi Jain and Akshay Nambi and Tanuja Ganu and Sameer Segal and Maxamed Axmed and Kalika Bali and Sunayana Sitaram(参考訳) 生成AIモデルは、言語理解、推論、言語生成など、多くの自然言語処理タスクで素晴らしいパフォーマンスを示している。 今日のAIコミュニティから求められている重要な質問は、これらのモデルの能力と限界についてであり、生成的AIを評価することが非常に難しいことは明らかである。 生成 LLM に関するほとんどの研究は英語に限られており、これらのモデルが他言語でのテキストの理解と生成にどの程度の能力があるかは不明である。 我々は,70言語にまたがる16のNLPデータセットを網羅し,標準NLPベンチマークのモデル評価を行う,ジェネレーティブLLMの最初の総合ベンチマークであるMEGAを提案する。 これらの課題に対して,Chat-GPT や GPT-4 などの生成 LLM と State of the Art (SOTA) の非自己回帰モデルの性能を比較し,前世代の LLM と比較した。 本稿では,言語とタスク間のモデルの性能を徹底的に分析し,低リソース言語における生成LDMの性能向上の課題について論じる。 我々は,多言語設定におけるジェネレーティブLLMの評価フレームワークを作成し,今後の発展に向けての方向性を提供する。

Generative AI models have shown impressive performance on many Natural Language Processing tasks such as language understanding, reasoning, and language generation. An important question being asked by the AI community today is about the capabilities and limits of these models, and it is clear that evaluating generative AI is very challenging. Most studies on generative LLMs have been restricted to English and it is unclear how capable these models are at understanding and generating text in other languages. We present the first comprehensive benchmarking of generative LLMs - MEGA, which evaluates models on standard NLP benchmarks, covering 16 NLP datasets across 70 typologically diverse languages. We compare the performance of generative LLMs including Chat-GPT and GPT-4 to State of the Art (SOTA) non-autoregressive models on these tasks to determine how well generative models perform compared to the previous generation of LLMs. We present a thorough analysis of the performance of models across languages and tasks and discuss challenges in improving the performance of generative LLMs on low-resource languages. We create a framework for evaluating generative LLMs in the multilingual setting and provide directions for future progress in the field.
翻訳日:2023-10-25 13:13:29 公開日:2023-10-22
# トランスフォーマーをベースとした言語モデル、約20億のトレーニングトークンで人間の読解回数を予測

Transformer-Based Language Model Surprisal Predicts Human Reading Times Best with About Two Billion Training Tokens ( http://arxiv.org/abs/2304.11389v2 )

ライセンス: Link先を確認
Byung-Doh Oh, William Schuler(参考訳) 近年の精神言語学的な研究は、言語モデルの品質と、人間の読解時間を予測するための予備的な推定能力の関係について矛盾する結論を導いてきた。 本研究の目的は, 学習データ量とモデルの能力に系統的に異なるトランスフォーマに基づく言語モデルから推定される推定値を評価することで, 人間の読書時間を予測することにある。 その結果、現代のモデル能力を持つほとんどの変種からの超越的な推定は、約20億のトレーニングトークンを見た後に最も適しており、その後、人間的な期待から逸脱し始めた。 さらに、新たに訓練された小さなモデル変種は収束時に「転換点」を示し、その後言語モデルの難易度が低下し始め、人間の読解時間に適合する。 これらの結果から,トランスフォーマーをベースとした言語モデルでは,より大規模な事前学習型言語モデルから得られる不適合性に,膨大なトレーニングデータが関与していることが示唆された。

Recent psycholinguistic studies have drawn conflicting conclusions about the relationship between the quality of a language model and the ability of its surprisal estimates to predict human reading times, which has been speculated to be due to the large gap in both the amount of training data and model capacity across studies. The current work aims to consolidate these findings by evaluating surprisal estimates from Transformer-based language model variants that vary systematically in the amount of training data and model capacity on their ability to predict human reading times. The results show that surprisal estimates from most variants with contemporary model capacities provide the best fit after seeing about two billion training tokens, after which they begin to diverge from humanlike expectations. Additionally, newly-trained smaller model variants reveal a 'tipping point' at convergence, after which the decrease in language model perplexity begins to result in poorer fits to human reading times. These results suggest that the massive amount of training data is mainly responsible for the poorer fit achieved by surprisal from larger pre-trained language models, and that a certain degree of model capacity is necessary for Transformer-based language models to capture humanlike expectations.
翻訳日:2023-10-25 13:07:35 公開日:2023-10-22
# AI支援コード生成ツールのコード品質の評価:GitHub Copilot、Amazon CodeWhisperer、ChatGPTに関する実証的研究

Evaluating the Code Quality of AI-Assisted Code Generation Tools: An Empirical Study on GitHub Copilot, Amazon CodeWhisperer, and ChatGPT ( http://arxiv.org/abs/2304.10778v2 )

ライセンス: Link先を確認
Burak Yeti\c{s}tiren, I\c{s}{\i}k \"Ozsoy, Miray Ayerdem, Eray T\"uz\"un(参考訳) コンテキスト: AIによるコード生成ツールは、自然言語のプロンプトや部分的なコード入力からコードを生成する機能を提供するソフトウェア工学において、ますます普及している。 これらのツールの有名な例としては、GitHub Copilot、Amazon CodeWhisperer、OpenAIのChatGPTがある。 目的: 本研究の目的は,これらの著名なコード生成ツールのパフォーマンスを,コードの妥当性,コードの正確性,コードのセキュリティ,コードの信頼性,コードの保守性といったコード品質指標の観点から比較することで,その長所と短所を識別することにある。 方法:HumanEval Datasetのベンチマークを用いて,GitHub Copilot,Amazon CodeWhisperer,ChatGPTのコード生成機能を評価する。 生成されたコードは、提案するコード品質メトリクスに基づいて評価される。 結果:我々の分析によると、ChatGPT、GitHub Copilot、Amazon CodeWhispererの最新バージョンは、それぞれ65.2%、46.3%、31.1%の正しいコードを生成する。 一方、github copilotとamazon codewhispererの新しいバージョンでは、github copilotでは18%、amazon codewhispererでは7%の改善率を示した。 コードの臭いを考慮すると、平均的な技術的負債はChatGPTで8.9分、GitHub Copilotで9.1分、Amazon CodeWhispererで5.6分であった。 結論: この研究は、最も人気のあるコード生成ツールの強みと弱みを強調し、実践者にとって価値のある洞察を提供する。 これらのジェネレータを比較することで,特定のタスクに最適なツールを選択し,意思決定プロセスを強化できる。

Context: AI-assisted code generation tools have become increasingly prevalent in software engineering, offering the ability to generate code from natural language prompts or partial code inputs. Notable examples of these tools include GitHub Copilot, Amazon CodeWhisperer, and OpenAI's ChatGPT. Objective: This study aims to compare the performance of these prominent code generation tools in terms of code quality metrics, such as Code Validity, Code Correctness, Code Security, Code Reliability, and Code Maintainability, to identify their strengths and shortcomings. Method: We assess the code generation capabilities of GitHub Copilot, Amazon CodeWhisperer, and ChatGPT using the benchmark HumanEval Dataset. The generated code is then evaluated based on the proposed code quality metrics. Results: Our analysis reveals that the latest versions of ChatGPT, GitHub Copilot, and Amazon CodeWhisperer generate correct code 65.2%, 46.3%, and 31.1% of the time, respectively. In comparison, the newer versions of GitHub CoPilot and Amazon CodeWhisperer showed improvement rates of 18% for GitHub Copilot and 7% for Amazon CodeWhisperer. The average technical debt, considering code smells, was found to be 8.9 minutes for ChatGPT, 9.1 minutes for GitHub Copilot, and 5.6 minutes for Amazon CodeWhisperer. Conclusions: This study highlights the strengths and weaknesses of some of the most popular code generation tools, providing valuable insights for practitioners. By comparing these generators, our results may assist practitioners in selecting the optimal tool for specific tasks, enhancing their decision-making process.
翻訳日:2023-10-25 13:07:14 公開日:2023-10-22
# Model Sparsityは機械学習を単純化する

Model Sparsity Can Simplify Machine Unlearning ( http://arxiv.org/abs/2304.04934v9 )

ライセンス: Link先を確認
Jinghan Jia, Jiancheng Liu, Parikshit Ram, Yuguang Yao, Gaowen Liu, Yang Liu, Pranay Sharma, Sijia Liu(参考訳) 最近のデータ規制要件に応えて、マシンアンラーニング(MU)は、特定のモデルから特定のサンプルの影響を取り除く重要なプロセスとして登場した。 正確なアンラーニングは、残りのデータセットを使った完全なモデルのリトレーニングによって達成できるが、関連する計算コストは、効率的で近似的なアンラーニング技術の開発につながった。 我々の研究は、データ中心のMUアプローチを超えて、新しいモデルベース視点、すなわちウェイトプルーニングによるモデルスペーシフィケーションを導入し、正確なアンラーニングと近似アンラーニングのギャップを減らすことができる。 モデルスパーシリティは、近似的アンラーナーのマルチ基準アンラーニング性能を高め、近似ギャップを閉じながら効率を保ち続けることを理論と実践の両方で示している。 これは新しいMUパラダイムにつながり、まずはPrune、次にはUnlearnと呼ばれ、未学習のプロセスにスパースモデルを注入する。 この知見に基づいて,スパルシティ正規化を利用したスパルシリティ対応学習手法を開発し,近似学習の学習プロセスを強化する。 広範な実験により、我々の提案は様々な未学習シナリオにおいて一貫してmに利益をもたらすことが示された。 77%の未学習の有効性向上(最も単純な未学習手法の1つ)が、スパーシティーを意識した未学習の使用において注目されている。 さらに,バックドア攻撃に対する防御や移動学習の強化など,機械学習の他の課題に対処する上で,提案手法の実践的影響を示す。 コードはhttps://github.com/OPTML-Group/Unlearn-Sparseで入手できる。

In response to recent data regulation requirements, machine unlearning (MU) has emerged as a critical process to remove the influence of specific examples from a given model. Although exact unlearning can be achieved through complete model retraining using the remaining dataset, the associated computational costs have driven the development of efficient, approximate unlearning techniques. Moving beyond data-centric MU approaches, our study introduces a novel model-based perspective: model sparsification via weight pruning, which is capable of reducing the gap between exact unlearning and approximate unlearning. We show in both theory and practice that model sparsity can boost the multi-criteria unlearning performance of an approximate unlearner, closing the approximation gap, while continuing to be efficient. This leads to a new MU paradigm, termed prune first, then unlearn, which infuses a sparse model prior into the unlearning process. Building on this insight, we also develop a sparsity-aware unlearning method that utilizes sparsity regularization to enhance the training process of approximate unlearning. Extensive experiments show that our proposals consistently benefit MU in various unlearning scenarios. A notable highlight is the 77% unlearning efficacy gain of fine-tuning (one of the simplest unlearning methods) when using sparsity-aware unlearning. Furthermore, we demonstrate the practical impact of our proposed MU methods in addressing other machine learning challenges, such as defending against backdoor attacks and enhancing transfer learning. Codes are available at https://github.com/OPTML-Group/Unlearn-Sparse.
翻訳日:2023-10-25 13:05:07 公開日:2023-10-22
# 連続学習に基づく総合的心電図解釈法ECG-CL

ECG-CL: A Comprehensive Electrocardiogram Interpretation Method Based on Continual Learning ( http://arxiv.org/abs/2304.04646v2 )

ライセンス: Link先を確認
Hongxiang Gao, Xingyao Wang, Zhenghua Chen, Min Wu, Jianqing Li and Chengyu Liu(参考訳) 心電図(ecg)モニタリングは、心血管疾患(cvd)早期診断の最も強力な技術の一つであり、インテリジェントなウェアラブルecgデバイスの導入は、毎日のモニタリングを可能にした。 しかし、ECGの解釈に専門的な専門知識が必要であったため、公衆のアクセスは再び制限され、高度な診断アルゴリズムの開発が必要になった。 従来のルールベースのアルゴリズムは、ディープラーニングベースの手法で完全に勝っている。 しかし、スマート診断アルゴリズムの進歩は、小さなデータセット、一貫性のないデータラベリング、ローカルおよびグローバルECG情報の非効率使用、複数のモデルのデプロイに要するメモリと推論時間、タスク間の情報転送の欠如といった問題によって妨げられている。 本研究では,局所形態情報とグローバルリズム情報の両方を活用し,低分解能高レベル意味情報の開発に資する,高分解能低レベル意味情報を維持するマルチレゾリューションモデルを提案する。 効果的なデータレバレッジとタスク間知識伝達の観点から,パラメータ分離に基づくECG連続学習(ECG-CL)アプローチを開発する。 クロスドメインインクリメンタルラーニングのためのセグメンテーションからクラス化、カテゴリインクリメンタルラーニングのためのマイノリティ・ツー・メジャー、タスクインクリメンタルラーニングのための小規模から大規模のサンプル、という4つのオープンアクセスデータセットにおけるモデルの性能を評価した。 本手法は,ECGセグメンテーションから情報的形態的・リズム的特徴を抽出し,より高品質な分類結果を得る。 インテリジェントなウェアラブルアプリケーションの観点からは、単一リードECGに基づく包括的なECG解釈アルゴリズムの可能性も確認されている。

Electrocardiogram (ECG) monitoring is one of the most powerful technique of cardiovascular disease (CVD) early identification, and the introduction of intelligent wearable ECG devices has enabled daily monitoring. However, due to the need for professional expertise in the ECGs interpretation, general public access has once again been restricted, prompting the need for the development of advanced diagnostic algorithms. Classic rule-based algorithms are now completely outperformed by deep learning based methods. But the advancement of smart diagnostic algorithms is hampered by issues like small dataset, inconsistent data labeling, inefficient use of local and global ECG information, memory and inference time consuming deployment of multiple models, and lack of information transfer between tasks. We propose a multi-resolution model that can sustain high-resolution low-level semantic information throughout, with the help of the development of low-resolution high-level semantic information, by capitalizing on both local morphological information and global rhythm information. From the perspective of effective data leverage and inter-task knowledge transfer, we develop a parameter isolation based ECG continual learning (ECG-CL) approach. We evaluated our model's performance on four open-access datasets by designing segmentation-to-classification for cross-domain incremental learning, minority-to-majority class for category incremental learning, and small-to-large sample for task incremental learning. Our approach is shown to successfully extract informative morphological and rhythmic features from ECG segmentation, leading to higher quality classification results. From the perspective of intelligent wearable applications, the possibility of a comprehensive ECG interpretation algorithm based on single-lead ECGs is also confirmed.
翻訳日:2023-10-25 13:04:40 公開日:2023-10-22
# 量子機械学習における信頼性不確かさの量子コンフォーマル予測

Quantum Conformal Prediction for Reliable Uncertainty Quantification in Quantum Machine Learning ( http://arxiv.org/abs/2304.03398v3 )

ライセンス: Link先を確認
Sangwoo Park, Osvaldo Simeone(参考訳) 本研究では,有限サンプルのカバレッジ保証を提供する「エラーバー」を用いて,量子モデルによる決定の強化を目標とする。 量子モデルは暗黙の確率予測器を実装し、測定ショットを通じて各入力に対して複数のランダムな決定を生成する。 ランダム性は量子測定の固有確率性だけでなく、ノイズのハードウェアに起因する量子ゲートノイズや量子測定ノイズからも生じる。 さらに、量子ノイズはショット間で相関し、時間内にドリフトを示すこともある。 本稿では,モデルの不確実性を確実に捉えるための分類と回帰の両方の予測集合を定義するために,そのようなランダム性を活用することを提案する。 このアプローチは確率的共形予測(PCP)に基づいており、量子モデルのユニークな特徴を考慮に入れている。 重要な技術革新の1つとして、量子ノイズの存在に対処し得るドリフトを含む非定型スコアの新たな一般クラスを導入する。 シミュレーションと現在の量子コンピュータの両方を用いた実験により,提案フレームワークの理論的校正保証を確認した。

In this work, we aim at augmenting the decisions output by quantum models with "error bars" that provide finite-sample coverage guarantees. Quantum models implement implicit probabilistic predictors that produce multiple random decisions for each input through measurement shots. Randomness arises not only from the inherent stochasticity of quantum measurements, but also from quantum gate noise and quantum measurement noise caused by noisy hardware. Furthermore, quantum noise may be correlated across shots and it may present drifts in time. This paper proposes to leverage such randomness to define prediction sets for both classification and regression that provably capture the uncertainty of the model. The approach builds on probabilistic conformal prediction (PCP), while accounting for the unique features of quantum models. Among the key technical innovations, we introduce a new general class of non-conformity scores that address the presence of quantum noise, including possible drifts. Experimental results, using both simulators and current quantum computers, confirm the theoretical calibration guarantees of the proposed framework.
翻訳日:2023-10-25 13:04:07 公開日:2023-10-22
# パラメータ効率を目指して:動的容量を持つ階層化スパース活性変圧器

Towards Being Parameter-Efficient: A Stratified Sparsely Activated Transformer with Dynamic Capacity ( http://arxiv.org/abs/2305.02176v2 )

ライセンス: Link先を確認
Haoran Xu, Maha Elbayad, Kenton Murray, Jean Maillard and Vedanuj Goswami(参考訳) スパースアクティベーションを用いたMixture-of-Experts (MoE)モデルはトークン当たりの計算要求を低く保ちながらパラメータ数を著しく増加させる効果を示した。 しかし、近年の研究では、moeモデルの性能向上が専門家の増加とともに減少するにつれて、本質的にパラメータ非効率であることが判明している。 このパラメータの非効率性は、同じキャパシティを持つすべての専門家が、異なるトークンやタスクのさまざまな複雑性要件を十分に満たしていないと仮定する。 そこで本稿では,階層化構造を特徴とし,異なるトークンに動的容量を割り当てるsmoe(stratified mixture of experts)モデルを提案する。 4, 15, 94の言語対を含む3つの多言語機械翻訳ベンチマークにおけるSMoEの有効性を示す。 SMoEは、同じまたは少ないパラメータで複数の最先端MoEモデルより優れていることを示す。

Mixture-of-experts (MoE) models that employ sparse activation have demonstrated effectiveness in significantly increasing the number of parameters while maintaining low computational requirements per token. However, recent studies have established that MoE models are inherently parameter-inefficient as the improvement in performance diminishes with an increasing number of experts. We hypothesize this parameter inefficiency is a result of all experts having equal capacity, which may not adequately meet the varying complexity requirements of different tokens or tasks. In light of this, we propose Stratified Mixture of Experts (SMoE) models, which feature a stratified structure and can assign dynamic capacity to different tokens. We demonstrate the effectiveness of SMoE on three multilingual machine translation benchmarks, containing 4, 15, and 94 language pairs, respectively. We show that SMoE outperforms multiple state-of-the-art MoE models with the same or fewer parameters.
翻訳日:2023-10-25 12:54:52 公開日:2023-10-22
# GPT-RE:大規模言語モデルを用いた関係抽出のための文脈内学習

GPT-RE: In-context Learning for Relation Extraction using Large Language Models ( http://arxiv.org/abs/2305.02105v2 )

ライセンス: Link先を確認
Zhen Wan, Fei Cheng, Zhuoyuan Mao, Qianying Liu, Haiyue Song, Jiwei Li, Sadao Kurohashi(参考訳) 大規模な言語モデル(例えばGPT-3)によって提供される画期的な成果の可能性があるにもかかわらず、関係抽出(RE)において完全に教師されたベースライン(例えば細調整されたBERT)を大きく遅れている。 これは、reにおけるllmの2つの大きな欠点が原因である: (1) 文脈内学習のための検索されたデモンストレーションにおけるエンティティと関係に関する関連性が低い、(2) ヌル例を他の事前定義されたラベルに誤って分類する強い傾向。 本稿では,LPMと完全教師付きベースラインのギャップを埋めるためのGPT-REを提案する。 gpt-reは,(1)実演検索におけるタスク固有実体表現の導入,(2)ゴールドラベル推論論理による実演の充実により,上記の課題にうまく対処した。 広範に使用されている4つのREデータセット上でGPT-REを評価し、GPT-REが既存のGPT-3ベースラインだけでなく、完全に教師されたベースラインよりも改善されていることを観察した。 具体的には、GPT-REはSemevalデータセットとSciERCデータセットのSOTAパフォーマンス、TACREDデータセットとACE05データセットの競合パフォーマンスを実現している。

In spite of the potential for ground-breaking achievements offered by large language models (LLMs) (e.g., GPT-3), they still lag significantly behind fully-supervised baselines (e.g., fine-tuned BERT) in relation extraction (RE). This is due to the two major shortcomings of LLMs in RE: (1) low relevance regarding entity and relation in retrieved demonstrations for in-context learning; and (2) the strong inclination to wrongly classify NULL examples into other pre-defined labels. In this paper, we propose GPT-RE to bridge the gap between LLMs and fully-supervised baselines. GPT-RE successfully addresses the aforementioned issues by (1) incorporating task-specific entity representations in demonstration retrieval; and (2) enriching the demonstrations with gold label-induced reasoning logic. We evaluate GPT-RE on four widely-used RE datasets, and observe that GPT-RE achieves improvements over not only existing GPT-3 baselines, but also fully-supervised baselines. Specifically, GPT-RE achieves SOTA performances on the Semeval and SciERC datasets, and competitive performances on the TACRED and ACE05 datasets.
翻訳日:2023-10-25 12:54:36 公開日:2023-10-22
# テキストから画像への拡散モデルはマルチモーダルデータ中毒により容易にバックドアできる

Text-to-Image Diffusion Models can be Easily Backdoored through Multimodal Data Poisoning ( http://arxiv.org/abs/2305.04175v2 )

ライセンス: Link先を確認
Shengfang Zhai, Yinpeng Dong, Qingni Shen, Shi Pu, Yuejian Fang and Hang Su(参考訳) 条件付け機構の助けを借りて、最先端の拡散モデルがガイド画像生成、特にテキスト対画像合成において大きな成功を収めた。 テキスト対画像合成の学習過程と潜在的なリスクをよりよく理解するために,テキスト対画像拡散モデルにおけるバックドア攻撃の体系的調査を行い,様々な意味レベルで画像合成をいじる一般的なマルチモーダルバックドア攻撃フレームワークbadt2iを提案する。 具体的には、Pixel-Backdoor、Object-Backdoor、Style-Backdoorの3つのレベルに対してバックドア攻撃を行います。 正規化損失を利用することで,良質な入力で有効性を保ちつつ,大規模テキスト・画像拡散モデルにバックドアを効率的に注入する。 広範に用いられているテキストから画像への拡散モデルである安定拡散実験を行い,数回の微調整ステップで大規模拡散モデルを容易にバックドア化できることを実証した。 我々は、様々な種類のテキストトリガーの影響や、さらなるトレーニング中のバックドア持続性について、さらなる実験を行い、バックドア防御法の開発への洞察を提供する。 また,本研究は,今後,テキスト対画像モデルの著作権保護に寄与する可能性がある。

With the help of conditioning mechanisms, the state-of-the-art diffusion models have achieved tremendous success in guided image generation, particularly in text-to-image synthesis. To gain a better understanding of the training process and potential risks of text-to-image synthesis, we perform a systematic investigation of backdoor attack on text-to-image diffusion models and propose BadT2I, a general multimodal backdoor attack framework that tampers with image synthesis in diverse semantic levels. Specifically, we perform backdoor attacks on three levels of the vision semantics: Pixel-Backdoor, Object-Backdoor and Style-Backdoor. By utilizing a regularization loss, our methods efficiently inject backdoors into a large-scale text-to-image diffusion model while preserving its utility with benign inputs. We conduct empirical experiments on Stable Diffusion, the widely-used text-to-image diffusion model, demonstrating that the large-scale diffusion model can be easily backdoored within a few fine-tuning steps. We conduct additional experiments to explore the impact of different types of textual triggers, as well as the backdoor persistence during further training, providing insights for the development of backdoor defense methods. Besides, our investigation may contribute to the copyright protection of text-to-image models in the future.
翻訳日:2023-10-25 12:46:07 公開日:2023-10-22
# re$^3$dial:long-turn open-domain dialogue pre-trainingのための対話コーパスの検索、再構成、再スケール

Re$^3$Dial: Retrieve, Reorganize and Rescale Dialogue Corpus for Long-Turn Open-Domain Dialogue Pre-training ( http://arxiv.org/abs/2305.02606v2 )

ライセンス: Link先を確認
Jiaxin Wen, Hao Zhou, Jian Guan, Minlie Huang(参考訳) 大規模オープンドメイン対話データの事前学習は対話モデルの性能を大幅に向上させることができる。 しかし,長期対話セッションの不足により,事前学習した対話モデルの長距離文脈利用能力は制限されている。 既存の訓練済みコーパスのほとんどの対話は3回未満の対話を含む。 この問題を軽減するために,既存のショートターンを再構成することで,数十億ドル規模のロングターン対話を自動的に構築できるRetrieve, Reorganize, Rescaleフレームワーク(Re$^3$Dial)を提案する。 短いターンセッションが与えられると、re$^3$dialはまずセッションレトリバーを使用してコヒーレントな連続セッションを取得する。 そこで本研究では,対話における意味と談話の関係をコントラスト的訓練によって捉えるように,レトリバーを訓練する。 次に、Re$^3$Dialは、繰り返しセッションやジェネリックセッションをペナルライズするために設計された多様性サンプリング戦略に従って、検索した結果からセッションをサンプリングする。 長いセッションは、元のセッションとサンプルセッションを連結することで導き出される。 上記のプロセスを繰り返すことで、^3$dialはコヒーレントなロングターン対話が得られる。 複数のマルチターンダイアログベンチマークの大規模な実験により、Re$3$Dialは、長距離コンテキストを利用する対話モデルの能力を著しく改善し、より合理的で有益な応答を生成することを示した。 最後に、Re$3$Dialで会話を効率的に再スケーリングするためのツールキットを構築し、11.3ターンで1Bの中国語対話セッションを含むコーパスを構築することができる(元のコーパスよりも5$\times$長い)。 我々の検索モデル、コード、データは、 \url{https://github.com/thu-coai/Re3Dial}で公開されています。

Pre-training on large-scale open-domain dialogue data can substantially improve the performance of dialogue models. However, the pre-trained dialogue model's ability to utilize long-range context is limited due to the scarcity of long-turn dialogue sessions. Most dialogues in existing pre-training corpora contain fewer than three turns of dialogue. To alleviate this issue, we propose the Retrieve, Reorganize and Rescale framework (Re$^3$Dial), which can automatically construct billion-scale long-turn dialogues by reorganizing existing short-turn ones. Given a short-turn session, Re$^3$Dial first employs a session retriever to retrieve coherent consecutive sessions. To this end, we train the retriever to capture semantic and discourse relations within multi-turn dialogues through contrastive training. Next, Re$^3$Dial samples a session from retrieved results following a diversity sampling strategy, which is designed to penalize repetitive or generic sessions. A longer session is then derived by concatenating the original session and the sampled session. By repeating the above process, Re$^3$Dial can yield a coherent long-turn dialogue. Extensive experiments on multiple multi-turn dialogue benchmarks demonstrate that Re$^3$Dial significantly improves the dialogue model's ability to utilize long-range context and thus generate more sensible and informative responses. Finally, we build a toolkit for efficiently rescaling conversations with Re$^3$Dial, which enables us to construct a corpus containing 1B Chinese dialogue sessions with 11.3 turns on average (5$\times$ longer than the original corpus). Our retriever model, code, and data is publicly available at \url{https://github.com/thu-coai/Re3Dial}.
翻訳日:2023-10-25 12:44:05 公開日:2023-10-22
# 要約前の再構築: 要約と要約のための効率的な2ステップフレームワーク

Reconstruct Before Summarize: An Efficient Two-Step Framework for Condensing and Summarizing Meeting Transcripts ( http://arxiv.org/abs/2305.07988v2 )

ライセンス: Link先を確認
Haochen Tan, Han Wu, Wei Shao, Xinyun Zhang, Mingjie Zhan, Zhaohui Hou, Ding Liang, Linqi Song(参考訳) 会議は通常、複数の参加者と長い会話を伴い、結果として冗長で自明な内容になる。 これらの課題を克服するため,我々は,効果的かつ効率的なミーティング要約のための2段階フレームワークであるrestructe before summary (rbs)を提案する。 RbSは、まず自己管理パラダイムを利用して、ミーティングの書き起こしを再構築することで、本質的な内容に注釈を付ける。 次に,コンベンショナルな要約モデルを用いてサマリーを生成するための相対的位置バケット(rpb)アルゴリズムを提案する。 さらなる再構成プロセスにもかかわらず,提案手法は入力を著しく圧縮し,従来の要約手法に比べて高速な処理とメモリ消費量の削減を実現した。 本手法の有効性と有効性を広範囲な評価と分析により検証した。 AMIとICSIの2つの集合要約データセットでは、大規模な事前学習やエキスパートグレードのアノテーションツールに頼ることなく、従来の最先端のアプローチよりも優れている。

Meetings typically involve multiple participants and lengthy conversations, resulting in redundant and trivial content. To overcome these challenges, we propose a two-step framework, Reconstruct before Summarize (RbS), for effective and efficient meeting summarization. RbS first leverages a self-supervised paradigm to annotate essential contents by reconstructing the meeting transcripts. Secondly, we propose a relative positional bucketing (RPB) algorithm to equip (conventional) summarization models to generate the summary. Despite the additional reconstruction process, our proposed RPB significantly compressed the input, leading to faster processing and reduced memory consumption compared to traditional summarization methods. We validate the effectiveness and efficiency of our method through extensive evaluations and analysis. On two meeting summarization datasets, AMI and ICSI, our approach outperforms previous state-of-the-art approaches without relying on large-scale pre-training or expert-grade annotating tools.
翻訳日:2023-10-25 12:35:00 公開日:2023-10-22
# 医用ビジョンランゲージ事前トレーニングのためのアライメントモデリングによるマルチタスクペアマスキング

Multi-task Paired Masking with Alignment Modeling for Medical Vision-Language Pre-training ( http://arxiv.org/abs/2305.07920v3 )

ライセンス: Link先を確認
Ke Zhang, Yan Yang, Jun Yu, Hanliang Jiang, Jianping Fan, Qingming Huang and Weidong Han(参考訳) 近年,医用画像診断の需要が高まり,放射線科医に大きな負担がかかっている。 その結果、医用画像やレポートから普遍表現を学習し、細かなアノテーションを必要とせずに下流課題に便益を与えるためのmed-vlp(med-vlp)法が提案されている。 しかし、既存の手法では、共同画像・テキスト再構成におけるクロスモーダルアライメントの重要性を見落としており、結果としてクロスモーダル相互作用は不十分である。 この制限に対処するため,マルチタスク・ペアド・マスキング・アライメント(MPMA)に基づく統一型Med-VLPフレームワークを提案し,より包括的な相互モーダルインタラクションを実現するために,クロスモーダルアライメントタスクを共同画像テキスト再構成フレームワークに統合する一方,グローバル・ローカルアライメント(GLA)モジュールは,豊富なドメイン知識を持つ意味表現を得るための自己監督パラダイムを支援するように設計されている。 さらに,マルチモーダル表現を適切に融合し,報告の再構築を支援する視覚情報の統合を行うメモリ型クロスモーダル融合(ma-cmf)モジュールを提案する。 実験の結果,提案手法は,ユニモーダルタスク,クロスモーダルタスク,マルチモーダルタスクなど,下流タスクの従来の手法よりも優れていた。

In recent years, the growing demand for medical imaging diagnosis has placed a significant burden on radiologists. As a solution, Medical Vision-Language Pre-training (Med-VLP) methods have been proposed to learn universal representations from medical images and reports, benefiting downstream tasks without requiring fine-grained annotations. However, existing methods have overlooked the importance of cross-modal alignment in joint image-text reconstruction, resulting in insufficient cross-modal interaction. To address this limitation, we propose a unified Med-VLP framework based on Multi-task Paired Masking with Alignment (MPMA) to integrate the cross-modal alignment task into the joint image-text reconstruction framework to achieve more comprehensive cross-modal interaction, while a Global and Local Alignment (GLA) module is designed to assist self-supervised paradigm in obtaining semantic representations with rich domain knowledge. Furthermore, we introduce a Memory-Augmented Cross-Modal Fusion (MA-CMF) module to fully integrate visual information to assist report reconstruction and fuse the multi-modal representations adequately. Experimental results demonstrate that the proposed unified approach outperforms previous methods in all downstream tasks, including uni-modal, cross-modal, and multi-modal tasks.
翻訳日:2023-10-25 12:34:44 公開日:2023-10-22
# e(n)同変メッセージパッシング単純化ネットワーク

E(n) Equivariant Message Passing Simplicial Networks ( http://arxiv.org/abs/2305.07100v2 )

ライセンス: Link先を確認
Floor Eijkelboom, Rob Hesselink, Erik Bekkers(参考訳) 本稿では、回転、変換、反射に同変である幾何学的グラフと点雲を学習するための新しいアプローチである、$\mathrm{e}(n)$ equivariant message passing simplicial networks (empsns)を提案する。 EMPSNはグラフ(例えば三角形)の高次元の単純関数を学習し、$\mathrm{E}(n)$同変の方法で高次元の単純化の幾何学的情報を増やすことができる。 EMPSNは同時に$\mathrm{E}(n)$ Equivariant Graph Neural Networksを位相的により精巧に一般化し、メッセージパッシング単純ネットワークに幾何学的情報を含めるためのアプローチを提供する。 その結果, EMPSNは両手法の利点を生かすことができ, いずれの手法と比較しても性能が全般的に向上することが示唆された。 さらに, 幾何学的情報を取り込むことは, メッセージパッシングネットワーク, 特に高次元単純構造上での動作に対する効果的な対策として有効であることが示唆された。 最後に、EMPSNは幾何学グラフの学習における最先端のアプローチと同等であることを示す。

This paper presents $\mathrm{E}(n)$ Equivariant Message Passing Simplicial Networks (EMPSNs), a novel approach to learning on geometric graphs and point clouds that is equivariant to rotations, translations, and reflections. EMPSNs can learn high-dimensional simplex features in graphs (e.g. triangles), and use the increase of geometric information of higher-dimensional simplices in an $\mathrm{E}(n)$ equivariant fashion. EMPSNs simultaneously generalize $\mathrm{E}(n)$ Equivariant Graph Neural Networks to a topologically more elaborate counterpart and provide an approach for including geometric information in Message Passing Simplicial Networks. The results indicate that EMPSNs can leverage the benefits of both approaches, leading to a general increase in performance when compared to either method. Furthermore, the results suggest that incorporating geometric information serves as an effective measure against over-smoothing in message passing networks, especially when operating on high-dimensional simplicial structures. Last, we show that EMPSNs are on par with state-of-the-art approaches for learning on geometric graphs.
翻訳日:2023-10-25 12:33:34 公開日:2023-10-22
# LLMでは全ての言語が等しく作成されるわけではない: 言語間対話による多言語能力の向上

Not All Languages Are Created Equal in LLMs: Improving Multilingual Capability by Cross-Lingual-Thought Prompting ( http://arxiv.org/abs/2305.07004v2 )

ライセンス: Link先を確認
Haoyang Huang, Tianyi Tang, Dongdong Zhang, Wayne Xin Zhao, Ting Song, Yan Xia, Furu Wei(参考訳) 大規模言語モデル(LLM)は印象的な多言語機能を示すが、その性能は言語によって大きく異なる。 本研究では,LLMの多言語機能を改善するために,XLT (cross-lingual- Thought prompting) と呼ばれるシンプルだが効果的な手法を提案する。 具体的には、XLTは言語間および論理的推論スキルを刺激し、言語間のタスクパフォーマンスを向上させる汎用テンプレートプロンプトである。 我々は、高リソース言語と低リソース言語の両方をカバーする、推論、理解、生成タスクに関連する7つの典型的なベンチマークを包括的に評価する。 実験の結果,XLTは多言語タスクの性能を著しく向上させるだけでなく,各タスクの平均性能と各タスクの最高のパフォーマンスとのギャップを著しく低減することがわかった。 特に、xltは算術推論とオープンドメインの質問応答タスクにおいて平均10ポイント以上の改善をもたらす。

Large language models (LLMs) demonstrate impressive multilingual capability, but their performance varies substantially across different languages. In this work, we introduce a simple yet effective method, called cross-lingual-thought prompting (XLT), to systematically improve the multilingual capability of LLMs. Specifically, XLT is a generic template prompt that stimulates cross-lingual and logical reasoning skills to enhance task performance across languages. We conduct comprehensive evaluations on 7 typical benchmarks related to reasoning, understanding, and generation tasks, covering both high-resource and low-resource languages. Experimental results show that XLT not only remarkably enhances the performance of various multilingual tasks but also significantly reduces the gap between the average performance and the best performance of each task in different languages. Notably, XLT brings over 10 points of average improvement in arithmetic reasoning and open-domain question-answering tasks.
翻訳日:2023-10-25 12:33:11 公開日:2023-10-22
# アクティブ検索強化世代

Active Retrieval Augmented Generation ( http://arxiv.org/abs/2305.06983v2 )

ライセンス: Link先を確認
Zhengbao Jiang, Frank F. Xu, Luyu Gao, Zhiqing Sun, Qian Liu, Jane Dwivedi-Yu, Yiming Yang, Jamie Callan, Graham Neubig(参考訳) 大きな言語モデル(LM)が言語を理解して生成する驚くべき能力にもかかわらず、彼らは幻覚を与え、事実的に不正確な出力を作り出す傾向にある。 外部知識資源から情報を取得することでlmsを増強することは有望な解決策である。 ほとんどの既存の検索拡張LMは、入力に基づいて一度だけ情報を検索する検索生成設定を採用している。 しかし、長いテキストを生成する一般的なシナリオでは、世代を通して継続的に情報を集めることが不可欠である。 本研究は, アクティブ検索拡張生成の汎用的ビューを提供し, 生成過程をまたいでいつ, どのように検索するかを積極的に決定する手法を提案する。 提案するFLARE(Forward-Looking Active Retrieval augmented generation, FLARE)は,近日中の文の予測を反復的に使用して将来の内容を予測し,低信頼トークンを含む場合,関連する文書を検索して文を再生するクエリとして利用する汎用手法である。 FLAREを4つの長い知識集約型タスク/データセットに包括的にベースラインとともにテストする。 FLAREは,全タスクにおいて優れた,あるいは競争的な性能を達成し,本手法の有効性を実証する。 コードとデータセットはhttps://github.com/jzbjyb/flareで入手できる。

Despite the remarkable ability of large language models (LMs) to comprehend and generate language, they have a tendency to hallucinate and create factually inaccurate output. Augmenting LMs by retrieving information from external knowledge resources is one promising solution. Most existing retrieval augmented LMs employ a retrieve-and-generate setup that only retrieves information once based on the input. This is limiting, however, in more general scenarios involving generation of long texts, where continually gathering information throughout generation is essential. In this work, we provide a generalized view of active retrieval augmented generation, methods that actively decide when and what to retrieve across the course of the generation. We propose Forward-Looking Active REtrieval augmented generation (FLARE), a generic method which iteratively uses a prediction of the upcoming sentence to anticipate future content, which is then utilized as a query to retrieve relevant documents to regenerate the sentence if it contains low-confidence tokens. We test FLARE along with baselines comprehensively over 4 long-form knowledge-intensive generation tasks/datasets. FLARE achieves superior or competitive performance on all tasks, demonstrating the effectiveness of our method. Code and datasets are available at https://github.com/jzbjyb/FLARE.
翻訳日:2023-10-25 12:32:53 公開日:2023-10-22
# クリフォード群同変ニューラルネットワーク

Clifford Group Equivariant Neural Networks ( http://arxiv.org/abs/2305.11141v5 )

ライセンス: Link先を確認
David Ruhe, Johannes Brandstetter, Patrick Forr\'e(参考訳) 我々は、clifford group equivariant neural networks: $\mathrm{o}(n)$- および $\mathrm{e}(n)$-同変モデルを構築するための新しいアプローチを紹介する。 クリフォード代数内の部分群である $\textit{Clifford group}$ を特定し、研究し、いくつかの好ましい性質を達成する。 主に、群の作用は直交自己同型を形成し、これは典型的なベクトル空間を越えてクリフォード代数全体へ拡張し、乗ベクトル階調を尊重する。 これにより、多重ベクトル分解に対応する複数の非同値な部分表現が導かれる。 さらに、作用はクリフォード代数のベクトル空間構造だけでなく、その乗法構造、すなわち幾何学積も尊重していることを証明する。 これらの結果から、乗ベクトルのすべての多項式は、任意の次元の内積空間に優雅に一般化できる表現的層が得られるという利点がある。 特に,1つのコア実装,3次元$n$-body実験,4次元Lorentz-equivariant高エネルギー物理実験,5次元凸船体実験など,いくつかの異なるタスクにおける最先端性能を実証する。

We introduce Clifford Group Equivariant Neural Networks: a novel approach for constructing $\mathrm{O}(n)$- and $\mathrm{E}(n)$-equivariant models. We identify and study the $\textit{Clifford group}$, a subgroup inside the Clifford algebra tailored to achieve several favorable properties. Primarily, the group's action forms an orthogonal automorphism that extends beyond the typical vector space to the entire Clifford algebra while respecting the multivector grading. This leads to several non-equivalent subrepresentations corresponding to the multivector decomposition. Furthermore, we prove that the action respects not just the vector space structure of the Clifford algebra but also its multiplicative structure, i.e., the geometric product. These findings imply that every polynomial in multivectors, An advantage worth mentioning is that we obtain expressive layers that can elegantly generalize to inner-product spaces of any dimension. We demonstrate, notably from a single core implementation, state-of-the-art performance on several distinct tasks, including a three-dimensional $n$-body experiment, a four-dimensional Lorentz-equivariant high-energy physics experiment, and a five-dimensional convex hull experiment.
翻訳日:2023-10-25 12:26:19 公開日:2023-10-22
# 大規模視覚言語モデルを用いたテキストの可視性学習

Learning the Visualness of Text Using Large Vision-Language Models ( http://arxiv.org/abs/2305.10434v2 )

ライセンス: Link先を確認
Gaurav Verma, Ryan A. Rossi, Christopher Tensmeyer, Jiuxiang Gu, Ani Nenkova(参考訳) 視覚テキストは人の心の中のイメージを誘発するが、非視覚テキストはそうしない。 テキスト内の視覚を自動的に検出する手法により、テキスト・ツー・イメージ検索と生成モデルにより、関連する画像でテキストを拡張できる。 テキスト・ツー・イメージ生成と検索モデルは、自然界においてはっきりと視覚的に設計されたテキストに対してしばしばトリガーされるが、長文には多くの非視覚的文が含まれる。 この目的のために,3,620個の英語文のデータセットと,複数のアノテータによる視覚スコアを収集した。 また,非視覚と認識されるテキストを共通のヌルイメージにマッピングするモデルのコントラスト学習目的を変更し,文書中の対応する画像と視覚テキストをマッチングすることにより,クリップのような大きな視覚言語モデルに適応させる微調整戦略を提案する。 提案するアプローチの能力を評価する。 (i)視覚的・非視覚的テキストを正確に分類し、 (二)心理言語学研究において視覚的に識別される単語に参画すること。 経験的評価は,提案手法が複数のヒューリスティックモデルやベースラインモデルよりも優れた性能を示す。 さらに,テキストの視覚的さをモデル化することの重要性を強調するため,dall-e のようなテキスト対画像生成システムの質的分析を行う。 プロジェクトWebページ: https://gaurav22verma.github.io/text-visualness/

Visual text evokes an image in a person's mind, while non-visual text fails to do so. A method to automatically detect visualness in text will enable text-to-image retrieval and generation models to augment text with relevant images. This is particularly challenging with long-form text as text-to-image generation and retrieval models are often triggered for text that is designed to be explicitly visual in nature, whereas long-form text could contain many non-visual sentences. To this end, we curate a dataset of 3,620 English sentences and their visualness scores provided by multiple human annotators. We also propose a fine-tuning strategy that adapts large vision-language models like CLIP by modifying the model's contrastive learning objective to map text identified as non-visual to a common NULL image while matching visual text to their corresponding images in the document. We evaluate the proposed approach on its ability to (i) classify visual and non-visual text accurately, and (ii) attend over words that are identified as visual in psycholinguistic studies. Empirical evaluation indicates that our approach performs better than several heuristics and baseline models for the proposed task. Furthermore, to highlight the importance of modeling the visualness of text, we conduct qualitative analyses of text-to-image generation systems like DALL-E. Project webpage: https://gaurav22verma.github.io/text-visualness/
翻訳日:2023-10-25 12:25:15 公開日:2023-10-22
# エンド・ツー・エンド自動運転のオープンループ評価の再検討

Rethinking the Open-Loop Evaluation of End-to-End Autonomous Driving in nuScenes ( http://arxiv.org/abs/2305.10430v2 )

ライセンス: Link先を確認
Jiang-Tian Zhai, Ze Feng, Jinhao Du, Yongqiang Mao, Jiang-Jiang Liu, Zichang Tan, Yifu Zhang, Xiaoqing Ye, Jingdong Wang(参考訳) 現代の自動運転システムは通常、知覚、予測、計画という3つの主なタスクに分けられる。 計画作業は、内部意図及び外部環境からの入力に基づいて、自走車の軌道を予測し、それに応じて車両を操作することを含む。 既存の研究の多くは、予測された軌道と地上の真実との衝突率とL2誤差を用いて、nuScenesデータセットの性能を評価する。 本稿では,既存の評価指標を再評価し,異なる手法の優越性を正確に測定するかどうかを検討する。 具体的には、カメラ画像やライダーなどの知覚情報や予測情報を使わずに、生のセンサデータ(例えば過去の軌道、速度など)を入力として、ego車両の将来の軌道を直接出力するmlpベースの方法を設計する。 本手法は他の知覚に基づく手法と類似したエンドツーエンド計画性能を実現し,平均l2誤差を約20%削減した。 一方、知覚に基づく手法は衝突率の点で有利である。 さらに詳細な分析を行い,nuscenesデータセットにおける計画タスクの成功に不可欠な要因について新たな知見を提供する。 我々はまた, ニューScenesにおけるエンドツーエンド自動運転の現在のオープンループ評価手法を再考する必要があることを示唆している。 コードはhttps://github.com/E2E-AD/AD-MLP.comで入手できる。

Modern autonomous driving systems are typically divided into three main tasks: perception, prediction, and planning. The planning task involves predicting the trajectory of the ego vehicle based on inputs from both internal intention and the external environment, and manipulating the vehicle accordingly. Most existing works evaluate their performance on the nuScenes dataset using the L2 error and collision rate between the predicted trajectories and the ground truth. In this paper, we reevaluate these existing evaluation metrics and explore whether they accurately measure the superiority of different methods. Specifically, we design an MLP-based method that takes raw sensor data (e.g., past trajectory, velocity, etc.) as input and directly outputs the future trajectory of the ego vehicle, without using any perception or prediction information such as camera images or LiDAR. Our simple method achieves similar end-to-end planning performance on the nuScenes dataset with other perception-based methods, reducing the average L2 error by about 20%. Meanwhile, the perception-based methods have an advantage in terms of collision rate. We further conduct in-depth analysis and provide new insights into the factors that are critical for the success of the planning task on nuScenes dataset. Our observation also indicates that we need to rethink the current open-loop evaluation scheme of end-to-end autonomous driving in nuScenes. Codes are available at https://github.com/E2E-AD/AD-MLP.
翻訳日:2023-10-25 12:24:52 公開日:2023-10-22
# 知識強化型生成前訓練モデルによる中国医学免許試験

Qualifying Chinese Medical Licensing Examination with Knowledge Enhanced Generative Pre-training Model ( http://arxiv.org/abs/2305.10163v2 )

ライセンス: Link先を確認
Jiageng Wu, Xian Wu, Zhaopeng Qiu, Minghui Li, Yefeng Zheng, and Jie Yang(参考訳) ChatGPTのような生成前訓練(GPT)モデルは、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示している。 chatgptは、多くの領域で効率を高めるためにワークフロー全体に統合されているが、微調整プロセスの柔軟性の欠如は、医療のような広範なドメイン専門知識とセマンティック知識を必要とする分野のアプリケーションを妨げる。 本稿では,中国国立医学ライセンス試験(CNMLE)におけるChatGPTの評価を行い,医学領域の知識の統合と少数ショット学習の実現という2つの観点からChatGPTを改善する新しいアプローチを提案する。 シンプルだが効果的な検索手法を用いて、ChatGPTの推論を導く意味的指示として医学的背景知識を抽出する。 同様に、関連する医療質問が特定され、ChatGPTのデモンストレーションとして提供される。 実験の結果、chatgptを直接適用しても、スコア51のcnmleの資格が得られないことが示されている(つまり、質問の51\%しか正しく答えられていない)。 知識向上モデルでは, CNMLE-2022では70点を達成できるが, 資格を合格するだけでなく, 人間の平均スコア(61。 本研究は、よりアクセスしやすく、ユーザフレンドリーで、適応可能な方法で現実世界の医療問題を分析できる、多用途な医療アシスタントとして機能する知識エンハンスドチャットgptの可能性を示す。

Generative Pre-Training (GPT) models like ChatGPT have demonstrated exceptional performance in various Natural Language Processing (NLP) tasks. Although ChatGPT has been integrated into the overall workflow to boost efficiency in many domains, the lack of flexibility in the finetuning process hinders its applications in areas that demand extensive domain expertise and semantic knowledge, such as healthcare. In this paper, we evaluate ChatGPT on the China National Medical Licensing Examination (CNMLE) and propose a novel approach to improve ChatGPT from two perspectives: integrating medical domain knowledge and enabling few-shot learning. By using a simple but effective retrieval method, medical background knowledge is extracted as semantic instructions to guide the inference of ChatGPT. Similarly, relevant medical questions are identified and fed as demonstrations to ChatGPT. Experimental results show that directly applying ChatGPT fails to qualify the CNMLE at a score of 51 (i.e., only 51\% of questions are answered correctly). While our knowledge-enhanced model achieves a high score of 70 on CNMLE-2022 which not only passes the qualification but also surpasses the average score of humans (61). This research demonstrates the potential of knowledge-enhanced ChatGPT to serve as versatile medical assistants, capable of analyzing real-world medical problems in a more accessible, user-friendly, and adaptable manner.
翻訳日:2023-10-25 12:24:29 公開日:2023-10-22
# mmgp:非パラメータ幾何変動下における物理問題の回帰のためのメッシュモーフィングガウス過程に基づく機械学習手法

MMGP: a Mesh Morphing Gaussian Process-based machine learning method for regression of physical problems under non-parameterized geometrical variability ( http://arxiv.org/abs/2305.12871v2 )

ライセンス: Link先を確認
Fabien Casenave, Brian Staber and Xavier Roynard(参考訳) 産業設計における物理現象をモデル化するためのシミュレーションを学習する場合、幾何学的変動が主な関心事である。 古典回帰手法はパラメータ化された測地に対して有効であるが、実際のシナリオは推論段階で形状パラメトリゼーションが欠如している場合が多く、利用可能なデータとしてメッシュの離散化しか残っていない。 このようなメッシュベースの表現から学習するシミュレーションは、従来の機械学習アプローチの限界を克服するために、ディープグラフニューラルネットワークに大きく依存するなど、大きな課題がある。 有望な結果にもかかわらず、グラフニューラルネットワークには、広範なデータセットへの依存や、組み込み予測の不確実性の提供や大規模メッシュの処理に関する制限など、いくつかの欠点がある。 本研究では,グラフニューラルネットワークに依存しない機械学習手法を提案する。 固定位相を伴う複雑な幾何学的形状と変分は、古典的次元減少法やガウス過程と組み合わせて、共通の支持によく知られたメッシュフォーミングを用いる。 提案手法は, 明確な形状パラメータ化を必要とせずに容易に大規模メッシュに対処でき, 情報決定に不可欠な重要な予測不確実性を提供する。 検討された数値実験では,提案手法は既存のグラフニューラルネットワークに対して,予測のトレーニング効率と精度に関して競合する。

When learning simulations for modeling physical phenomena in industrial designs, geometrical variabilities are of prime interest. While classical regression techniques prove effective for parameterized geometries, practical scenarios often involve the absence of shape parametrization during the inference stage, leaving us with only mesh discretizations as available data. Learning simulations from such mesh-based representations poses significant challenges, with recent advances relying heavily on deep graph neural networks to overcome the limitations of conventional machine learning approaches. Despite their promising results, graph neural networks exhibit certain drawbacks, including their dependency on extensive datasets and limitations in providing built-in predictive uncertainties or handling large meshes. In this work, we propose a machine learning method that do not rely on graph neural networks. Complex geometrical shapes and variations with fixed topology are dealt with using well-known mesh morphing onto a common support, combined with classical dimensionality reduction techniques and Gaussian processes. The proposed methodology can easily deal with large meshes without the need for explicit shape parameterization and provides crucial predictive uncertainties, which are essential for informed decision-making. In the considered numerical experiments, the proposed method is competitive with respect to existing graph neural networks, regarding training efficiency and accuracy of the predictions.
翻訳日:2023-10-25 12:14:34 公開日:2023-10-22
# 要約記述に基づくテキストの検索

Retrieving Texts based on Abstract Descriptions ( http://arxiv.org/abs/2305.12517v2 )

ライセンス: Link先を確認
Shauli Ravfogel, Valentina Pyatkin, Amir DN Cohen, Avshalom Manevich, Yoav Goldberg(参考訳) 命令調整型大言語モデル(llm)はテキストから情報を抽出するのに優れているが、大文書収集(意味検索)において与えられた記述に準拠したテキストの特定には適していない。 組込みベクトル上の類似性検索はクエリによる検索を可能にするが、組込みに反映される類似性は不定義で一貫性がなく、多くのユースケースで副最適である。 では、効率的な検索のための良いクエリ表現は何か? 文章の内容の抽象的な記述に基づいて,文章の検索の明確かつ一貫したタスクを同定する。 本稿では,現在のテキスト埋め込みの不適切さを実証し,近隣の標準的な検索で使用する場合の精度を向上する代替モデルを提案する。 モデルはLDMのプロンプトを通じて、正と負のペアによって訓練される。 LLMからトレーニング材料を引き出すのは容易であるが、LLMから直接は検索タスクを実行できない。 このことは、LLMのデータは、元のLLMよりも効率的な特殊モデルを蒸留するためにだけでなく、元のモデルではすぐには不可能な新しい機能を作成するためにも利用できることを示している。

While instruction-tuned Large Language Models (LLMs) excel at extracting information from text, they are not suitable for locating texts conforming to a given description in a large document collection (semantic retrieval). Similarity search over embedding vectors does allow to perform retrieval by query, but the similarity reflected in the embedding is ill-defined and non-consistent, and is sub-optimal for many use cases. What, then, is a good query representation for effective retrieval? We identify the well defined and consistent task of retrieving sentences based on abstract descriptions of their content. We demonstrate the inadequacy of current text embeddings and propose an alternative model that significantly improves when used in standard nearest neighbor search. The model is trained using positive and negative pairs sourced through prompting a LLM. While it is easy to source the training material from an LLM, the retrieval task cannot be performed by the LLM directly. This demonstrates that data from LLMs can be used not only for distilling more efficient specialized models than the original LLM, but also for creating new capabilities not immediately possible using the original model.
翻訳日:2023-10-25 12:13:30 公開日:2023-10-22
# 大規模言語モデルによるトピック自動評価の再検討

Revisiting Automated Topic Model Evaluation with Large Language Models ( http://arxiv.org/abs/2305.12152v2 )

ライセンス: Link先を確認
Dominik Stammbach, Vil\'em Zouhar, Alexander Hoyle, Mrinmaya Sachan, Elliott Ash(参考訳) トピックモデルは大きなテキストコレクションを理解するために使用される。 しかし、トピックモデルのアウトプットを自動評価し、最適なトピック数を決定することは、どちらも長年の課題であり、これまでは効果的な自動化ソリューションがなかった。 本稿では,大規模言語モデルを用いた出力評価手法を提案する。 大規模言語モデルは、既存の自動メトリクスよりも人間の判断に強く関連し、結果のトピックを適切に評価する。 次に,大規模言語モデルを用いてトピックの最適な数を自動的に決定できるかどうかを検討する。 文書にラベルを自動的に割り当て、最も純粋なラベルを持つ構成を選択すると、最適なトピック数に対して適切な値を返す。

Topic models are used to make sense of large text collections. However, automatically evaluating topic model output and determining the optimal number of topics both have been longstanding challenges, with no effective automated solutions to date. This paper proposes using large language models to evaluate such output. We find that large language models appropriately assess the resulting topics, correlating more strongly with human judgments than existing automated metrics. We then investigate whether we can use large language models to automatically determine the optimal number of topics. We automatically assign labels to documents and choosing configurations with the most pure labels returns reasonable values for the optimal number of topics.
翻訳日:2023-10-25 12:12:54 公開日:2023-10-22
# 軽量言語モジュールによる多言語知識の凝縮

Condensing Multilingual Knowledge with Lightweight Language-Specific Modules ( http://arxiv.org/abs/2305.13993v3 )

ライセンス: Link先を確認
Haoran Xu, Weiting Tan, Shuyue Stella Li, Yunmo Chen, Benjamin Van Durme, Philipp Koehn, Kenton Murray(参考訳) 言語固有の(LS)モジュールを組み込むことは、多言語機械翻訳の性能を高めるための実証された方法である。 このアプローチはFLOPをインフレしないため、Mixture-of-Experts (MoE)と似ている。 しかしながら、数百の言語(専門家)に対するこのアプローチのスケーラビリティは、完全連結層でフルランク行列によって導入されたパラメータの数が制限されるため、管理できない傾向がある。 本稿では,Language-Specific Matrix Synthesis (LMS)法について述べる。 このアプローチは、フルランク行列を近似するために、2つのかなり小さな行列から低ランク行列を生成することでLSモジュールを構築する。 さらに,複数のLSモジュールからの多言語知識をFuse Distillation (FD)技術で単一の共有モジュールに凝縮し,推論とモデルシリアライゼーションの効率化を図る。 LMS法は, 多数の多言語機械翻訳において, Switch Transformer 上の 1.73 BLEU 点と同一量の余剰パラメータで, 従来のLS法と MoE 法を著しく上回ることを示す。 重要なことに、lmsはより少ないパラメータで同等の翻訳性能を得ることができる。

Incorporating language-specific (LS) modules is a proven method to boost performance in multilingual machine translation. This approach bears similarity to Mixture-of-Experts (MoE) because it does not inflate FLOPs. However, the scalability of this approach to hundreds of languages (experts) tends to be unmanageable due to the prohibitive number of parameters introduced by full-rank matrices in fully-connected layers. In this work, we introduce the Language-Specific Matrix Synthesis (LMS) method. This approach constructs LS modules by generating low-rank matrices from two significantly smaller matrices to approximate the full-rank matrix. Furthermore, we condense multilingual knowledge from multiple LS modules into a single shared module with the Fuse Distillation (FD) technique to improve the efficiency of inference and model serialization. We show that our LMS method significantly outperforms previous LS methods and MoE methods with the same amount of extra parameters, e.g., 1.73 BLEU points over the Switch Transformer on many-to-many multilingual machine translation. Importantly, LMS is able to have comparable translation performance with much fewer parameters.
翻訳日:2023-10-25 12:06:38 公開日:2023-10-22
# 1次元非エルミタンスターク系におけるエルゴディディティから多体局在へ

From Ergodicity to Many-Body Localization in a One-Dimensional Interacting Non-Hermitian Stark System ( http://arxiv.org/abs/2305.13636v2 )

ライセンス: Link先を確認
Jinghu Liu and Zhihao Xu(参考訳) 非エルミート量子系における無秩序誘導多体局在(mbl)の研究が注目されている。 しかし、非エルミート障害のないMBLは明らかにする必要がある。 時間-逆対称性を持つ非相互ホッピングを持つ1次元の相互作用するスタークモデルを考える。 周期境界条件 (pbcs) 下では、そのようなモデルは3種類の位相遷移(固有エネルギーの実複素遷移、位相相転移、非エルミートスターク mbl遷移)を示す。 実複素およびトポロジカル相転移は熱力学的極限において同じ点で起こるが、非エルミートスタークMBL遷移とは一致しない。 レベル統計により、この系は、線形傾動ポテンシャルの強度が$\gamma$の増加とともに、ジニブレアンサンブル(GE)からガウス直交アンサンブル(GOE)からポッションアンサンブル(PE)へ遷移する。 固有値の実際の複素遷移は、エルゴード系におけるGE-to-GOE遷移を伴う。 さらに、レベル統計の第二の遷移は非エルミートスターク mbl の発生に対応する。 我々は、非エルミートスタークMBLがロバストであり、スペクトル統計学および固有状態特性の既存の特徴量で確認できる障害誘発MBLと多くの類似点を有することを示した。 絡み合いエントロピーと密度不均衡の動的進化は、実複素およびスタークMBL遷移を区別することができる。 最後に, 開境界条件下での系には実複素遷移が欠如しており, 非エルミートスターク mbl の遷移はpbcs の系と同じであることがわかった。

Recent studies on disorder-induced many-body localization (MBL) in non-Hermitian quantum systems have attracted great interest. However, the non-Hermitian disorder-free MBL still needs to be clarified. We consider a one-dimensional interacting Stark model with nonreciprocal hoppings having time-reversal symmetry, the properties of which are boundary dependent. Under periodic boundary conditions (PBCs), such a model exhibits three types of phase transitions: the real-complex transition of eigenenergies, the topological phase transition, and the non-Hermitian Stark MBL transition. The real-complex and topological phase transitions occur at the same point in the thermodynamic limit, but do not coincide with the non-Hermitian Stark MBL transition, which is quite different from the non-Hermitian disordered cases. By the level statistics, the system undergoes from the Ginibre ensemble (GE) to Gaussian orthogonal ensemble (GOE) to Possion ensemble (PE) transitions with the increase of the linear tilt potential's strength $\gamma$. The real-complex transition of the eigenvalues is accompanied by the GE-to-GOE transition in the ergodic regime. Moreover, the second transition of the level statistics corresponds to the occurrence of non-Hermitian Stark MBL. We demonstrate that the non-Hermitian Stark MBL is robust and shares many similarities with disorder-induced MBL, which several existing characteristic quantities of the spectral statistics and eigenstate properties can confirm. The dynamical evolutions of the entanglement entropy and the density imbalance can distinguish the real-complex and Stark MBL transitions. Finally, we find that our system under open boundary conditions lacks a real-complex transition, and the transition of non-Hermitian Stark MBL is the same as that under PBCs.
翻訳日:2023-10-25 12:05:35 公開日:2023-10-22
# ミックスアップのための自己進化学習:Few-Shotテキスト分類タスクにおけるデータ強化

Self-Evolution Learning for Mixup: Enhance Data Augmentation on Few-Shot Text Classification Tasks ( http://arxiv.org/abs/2305.13547v2 )

ライセンス: Link先を確認
Haoqi Zheng, Qihuang Zhong, Liang Ding, Zhiliang Tian, Xin Niu, Dongsheng Li, Dacheng Tao(参考訳) テキスト分類タスクは、ラベル付きデータに制限されたショットシナリオが少なく、データの不足に対処することが不可欠である。 mixupによるデータ拡張は、様々なテキスト分類タスクに有効であることが示されている。 しかし、混合手法の多くは、訓練の異なる段階での学習困難度を考慮せず、1つのホットラベルで新しいサンプルを生成するため、モデルが信頼性を超越する結果となった。 本稿では,テキスト分類におけるデータ拡張のための自己進化学習(SE)に基づくミックスアップ手法を提案する。 seはモデルの学習能力の変動に焦点を当てている。 モデルの信頼性を緩和するために,モデルの出力を線形に補間する新しいインスタンス固有ラベル平滑化手法と,元のサンプルの1つのホットラベルを導入し,新しいラベル混合用ソフトを生成する。 実験分析により,分類精度の向上に加えて,seはモデルの一般化能力も向上することを示す。

Text classification tasks often encounter few shot scenarios with limited labeled data, and addressing data scarcity is crucial. Data augmentation with mixup has shown to be effective on various text classification tasks. However, most of the mixup methods do not consider the varying degree of learning difficulty in different stages of training and generate new samples with one hot labels, resulting in the model over confidence. In this paper, we propose a self evolution learning (SE) based mixup approach for data augmentation in text classification, which can generate more adaptive and model friendly pesudo samples for the model training. SE focuses on the variation of the model's learning ability. To alleviate the model confidence, we introduce a novel instance specific label smoothing approach, which linearly interpolates the model's output and one hot labels of the original samples to generate new soft for label mixing up. Through experimental analysis, in addition to improving classification accuracy, we demonstrate that SE also enhances the model's generalize ability.
翻訳日:2023-10-25 12:04:40 公開日:2023-10-22
# 成功と失敗のバランス:SALSAを用いた編集レベルの単純化評価

Dancing Between Success and Failure: Edit-level Simplification Evaluation using SALSA ( http://arxiv.org/abs/2305.14458v2 )

ライセンス: Link先を確認
David Heineman, Yao Dou, Mounica Maddela, Wei Xu(参考訳) 大規模言語モデル(gpt-4など)は、高度に評価されたテキスト簡易化を独特に生成できるが、現在の評価手法ではシステムの強みと弱みを明確に理解できない。 この制限に対処するため、SALSAは、完全かつきめ細かいテキストの簡易化評価を可能にする編集ベースのヒューマンアノテーションフレームワークである。 我々は, 概念的, 構文的, 語彙的単純さの観点から, 成功と失敗のスペクトルを網羅した20種類の編集型を開発した。 SALSAを用いて,840の単純化に対して19Kの編集アノテーションを収集し,微調整されたモデルによる単純化戦略の分布の相違を明らかにし,LLMや人間に刺激を与え,GPT-3.5が人間よりも高品質な編集を行うことを示した。 より詳細なアノテーションを用いて,文と単語レベルの品質を同時に予測するために訓練された,参照不要な自動単純化指標であるLENS-SALSAを開発した。 さらに,簡易化のための単語レベルの品質推定と,期待できる基準結果の報告を行う。 当社のデータ、新しいメトリック、アノテーションツールキットはhttps://salsa-eval.com.com.comで利用可能です。

Large language models (e.g., GPT-4) are uniquely capable of producing highly rated text simplification, yet current human evaluation methods fail to provide a clear understanding of systems' specific strengths and weaknesses. To address this limitation, we introduce SALSA, an edit-based human annotation framework that enables holistic and fine-grained text simplification evaluation. We develop twenty one linguistically grounded edit types, covering the full spectrum of success and failure across dimensions of conceptual, syntactic and lexical simplicity. Using SALSA, we collect 19K edit annotations on 840 simplifications, revealing discrepancies in the distribution of simplification strategies performed by fine-tuned models, prompted LLMs and humans, and find GPT-3.5 performs more quality edits than humans, but still exhibits frequent errors. Using our fine-grained annotations, we develop LENS-SALSA, a reference-free automatic simplification metric, trained to predict sentence- and word-level quality simultaneously. Additionally, we introduce word-level quality estimation for simplification and report promising baseline results. Our data, new metric, and annotation toolkit are available at https://salsa-eval.com.
翻訳日:2023-10-25 11:55:28 公開日:2023-10-22
# LLMによる言語間性能向上のためのデータ拡張

LLM-powered Data Augmentation for Enhanced Cross-lingual Performance ( http://arxiv.org/abs/2305.14288v2 )

ライセンス: Link先を確認
Chenxi Whitehouse, Monojit Choudhury, Alham Fikri Aji(参考訳) 本稿では、利用可能なトレーニングデータが極めて限られている多言語コモンセンス推論データセットにおけるデータ拡張にLarge Language Models(LLMs)を活用する可能性について検討する。 これを実現するために、私たちは、XCOPA、XWinograd、XStoryClozeの3つのデータセットを増強するために、Dlly-v2、StableVicuna、ChatGPT、GPT-4といういくつかのLCMを利用する。 次に, 合成データを用いて, mBERT と XLMR を微調整した小型多言語モデルの有効性を評価する。 我々は、英語とターゲット言語で生成されたデータと、翻訳された英語で生成されたデータを比較し、LLMが生成したデータを組み込むことの全体的な利点を明らかにする。 さらに,母国語話者に対して,生成した事例の自然性や論理的一貫性を評価することで,人間の評価を行う。 評価の結果、ChatGPTやGPT-4のようなLCMは、多くの言語で自然で一貫性のあるテキストを生成するのに優れており、タミル語のような特定の言語で意味のあるテキストを生成するのに苦労していることがわかった。 また、ChatGPTは、元のデータセットと比較すると、妥当な代替品を生成するのに不足しているのに対し、GPT-4の例は競合論理的一貫性を示す。

This paper explores the potential of leveraging Large Language Models (LLMs) for data augmentation in multilingual commonsense reasoning datasets where the available training data is extremely limited. To achieve this, we utilise several LLMs, namely Dolly-v2, StableVicuna, ChatGPT, and GPT-4, to augment three datasets: XCOPA, XWinograd, and XStoryCloze. Subsequently, we evaluate the effectiveness of fine-tuning smaller multilingual models, mBERT and XLMR, using the synthesised data. We compare the performance of training with data generated in English and target languages, as well as translated English-generated data, revealing the overall advantages of incorporating data generated by LLMs, e.g. a notable 13.4 accuracy score improvement for the best case. Furthermore, we conduct a human evaluation by asking native speakers to assess the naturalness and logical coherence of the generated examples across different languages. The results of the evaluation indicate that LLMs such as ChatGPT and GPT-4 excel at producing natural and coherent text in most languages, however, they struggle to generate meaningful text in certain languages like Tamil. We also observe that ChatGPT falls short in generating plausible alternatives compared to the original dataset, whereas examples from GPT-4 exhibit competitive logical consistency.
翻訳日:2023-10-25 11:54:31 公開日:2023-10-22
# You Are What Annotate: Annotator Representationを通じてより良いモデルを目指す

You Are What You Annotate: Towards Better Models through Annotator Representations ( http://arxiv.org/abs/2305.14663v2 )

ライセンス: Link先を確認
Naihao Deng, Xinliang Frederick Zhang, Siyang Liu, Winston Wu, Lu Wang, Rada Mihalcea(参考訳) アノテーションの不一致は自然言語処理(NLP)タスクにおいてユビキタスである。 このような意見の相違には、課題の主観性、難しい事例、不明瞭なガイドラインなど、さまざまな理由がある。 データアノテーションを取得するためにラベルを集約する代わりに、アノテーションのさまざまな観点を直接モデル化し、アノテーション(アノテーションの埋め込み)とアノテーション(アノテーションの埋め込み)の表現を作成することによって、モデリングプロセスにおけるアノテーションの慣用性を明確に説明しようとします。 さらに,既存の8つの言語理解データセットで構成されるベンチマークであるTID-8,The Inherent Disagreement - 8を提案する。 提案手法は, モデルサイズを1%未満に向上させながら, TID-8における6つのデータセットの相違から, モデルをよりよく学習する上で有効であることを示す。 埋め込みによって個々のアノテータのユニークな傾向と主観性を捉えることで、私たちの表現は素AIモデルを多様な視点を包含するようにします。

Annotator disagreement is ubiquitous in natural language processing (NLP) tasks. There are multiple reasons for such disagreements, including the subjectivity of the task, difficult cases, unclear guidelines, and so on. Rather than simply aggregating labels to obtain data annotations, we instead try to directly model the diverse perspectives of the annotators, and explicitly account for annotators' idiosyncrasies in the modeling process by creating representations for each annotator (annotator embeddings) and also their annotations (annotation embeddings). In addition, we propose TID-8, The Inherent Disagreement - 8 dataset, a benchmark that consists of eight existing language understanding datasets that have inherent annotator disagreement. We test our approach on TID-8 and show that our approach helps models learn significantly better from disagreements on six different datasets in TID-8 while increasing model size by fewer than 1% parameters. By capturing the unique tendencies and subjectivity of individual annotators through embeddings, our representations prime AI models to be inclusive of diverse viewpoints.
翻訳日:2023-10-25 11:45:39 公開日:2023-10-22
# 推論課題に基づく大規模言語モデルによる幻覚の源泉

Sources of Hallucination by Large Language Models on Inference Tasks ( http://arxiv.org/abs/2305.14552v2 )

ライセンス: Link先を確認
Nick McKenna, Tianyi Li, Liang Cheng, Mohammad Javad Hosseini, Mark Johnson, Mark Steedman(参考訳) 大きな言語モデル(LLM)は自然言語推論(NLI)が可能であり、質問応答や要約のような応用タスクに必要である。 制御実験により,複数のLPMファミリー(LLaMA, GPT-3.5, PaLM)の行動調査を行った。 我々は,その行動の多くを予知する事前学習に起因する2つのバイアスを定式化し,これらがLLMの主要な幻覚源であることを示す。 まず, 前提によらず, NLI テストサンプルを, 仮説が訓練データで検証された場合に関係するものとして, モデルが誤ってラベル付けされ, 実体が記憶データにアクセスするために 'indices' として使用されることを示す。 第2に,コーパスのレベルで学習した使用パターンの統計的パターンについて考察する。 前提述語がトレーニングデータにおける仮説よりも頻度が低い場合にも同様の効果を示す。 我々は,これらのバイアスに適合しないNLI試験試料に対して,LLMが著しく悪影響を及ぼすことを示し,将来のLCM評価に有用なコントロールとして提供する。

Large Language Models (LLMs) are claimed to be capable of Natural Language Inference (NLI), necessary for applied tasks like question answering and summarization. We present a series of behavioral studies on several LLM families (LLaMA, GPT-3.5, and PaLM) which probe their behavior using controlled experiments. We establish two biases originating from pretraining which predict much of their behavior, and show that these are major sources of hallucination in generative LLMs. First, memorization at the level of sentences: we show that, regardless of the premise, models falsely label NLI test samples as entailing when the hypothesis is attested in training data, and that entities are used as ``indices'' to access the memorized data. Second, statistical patterns of usage learned at the level of corpora: we further show a similar effect when the premise predicate is less frequent than that of the hypothesis in the training data, a bias following from previous studies. We demonstrate that LLMs perform significantly worse on NLI test samples which do not conform to these biases than those which do, and we offer these as valuable controls for future LLM evaluation.
翻訳日:2023-10-25 11:44:39 公開日:2023-10-22
# nv中心を用いた統計偏極ナノnmrの最適センシングプロトコル

Optimal Sensing Protocol for Statistically Polarized Nano-NMR with NV Centers ( http://arxiv.org/abs/2305.14881v2 )

ライセンス: Link先を確認
Nicolas Staudenmaier, Anjusha Vijayakumar-Sreeja, Genko Genov, Daniel Cohen, Christoph Findler, Johannes Lang, Alex Retzker, Fedor Jelezko, Santiago Oviedo-Casado(参考訳) 拡散ノイズは、成功した液体状態のナノNMR分光の主要な制約である。 フィッシャー情報を忠実な尺度として用いて, 位相感度プロトコルは, サンプルの相関関係からの情報抽出を最大化するため, 実験シナリオにおいて優れていることを示す。 量子ヘテロダイン検出(Qdyne)のための最適実験パラメータを導出し、最も正確な統計的に偏光したナノNMRQdyne検出実験を提示し、ナノスケールでの化学シフトとJ$結合を解消する方法を導出した。

Diffusion noise represents a major constraint to successful liquid state nano-NMR spectroscopy. Using the Fisher information as a faithful measure, we theoretically calculate and experimentally show that phase sensitive protocols are superior in most experimental scenarios, as they maximize information extraction from correlations in the sample. We derive the optimal experimental parameters for quantum heterodyne detection (Qdyne) and present the most accurate statistically polarized nano-NMR Qdyne detection experiments to date, leading the way to resolve chemical shifts and $J$ couplings at the nanoscale.
翻訳日:2023-10-25 11:33:15 公開日:2023-10-22
# Bi-Drop: 同期サブネット推定と最適化による微調整一般化の促進

Bi-Drop: Enhancing Fine-tuning Generalization via Synchronous sub-net Estimation and Optimization ( http://arxiv.org/abs/2305.14760v2 )

ライセンス: Link先を確認
Shoujie Tong, Heming Xia, Damai Dai, Runxin Xu, Tianyu Liu, Binghuai Lin, Yunbo Cao, Zhifang Sui(参考訳) 事前訓練された言語モデルは自然言語理解において顕著な成功を収めた。 しかし、限られた訓練データに対する微調整事前訓練モデルは過度に適合し、性能が低下する傾向にある。 本稿では,ドロップアウトによって動的に生成される様々なサブネットの勾配を用いてモデルパラメータを選択的に更新する,微調整戦略であるbi-dropを提案する。 ダブルドロップのサブネット推定はバッチ内で行われるので、非同期サブネット推定を行う以前のメソッドが保持するサブネット更新におけるヒステリシスの問題を克服する。 また、Bi-Dropはトレーニングデータの利便性を高めるために、サブネットを推定するために1つのミニバッチしか必要としない。 GLUEベンチマークの実験は、Bi-Dropが従来の微調整方法よりも一貫して優れていることを示した。 さらに、bi-dropは、ドメイン転送、データ不均衡、低リソースシナリオにおいて、優れた一般化能力と堅牢性を示す。

Pretrained language models have achieved remarkable success in natural language understanding. However, fine-tuning pretrained models on limited training data tends to overfit and thus diminish performance. This paper presents Bi-Drop, a fine-tuning strategy that selectively updates model parameters using gradients from various sub-nets dynamically generated by dropout. The sub-net estimation of Bi-Drop is performed in an in-batch manner, so it overcomes the problem of hysteresis in sub-net updating, which is possessed by previous methods that perform asynchronous sub-net estimation. Also, Bi-Drop needs only one mini-batch to estimate the sub-net so it achieves higher utility of training data. Experiments on the GLUE benchmark demonstrate that Bi-Drop consistently outperforms previous fine-tuning methods. Furthermore, empirical results also show that Bi-Drop exhibits excellent generalization ability and robustness for domain transfer, data imbalance, and low-resource scenarios.
翻訳日:2023-10-25 11:32:42 公開日:2023-10-22
# ディープアンサンブルと(変数)ベイズ法による厳密なリンク

A Rigorous Link between Deep Ensembles and (Variational) Bayesian Methods ( http://arxiv.org/abs/2305.15027v2 )

ライセンス: Link先を確認
Veit David Wild, Sahra Ghalebikesabi, Dino Sejdinovic, Jeremias Knoblauch(参考訳) ベイズ法,変分ベイズ法,アンサンブル法の数学的に厳密な関係を確立する。 これに向けた重要なステップは、確率測度の空間における凸最適化として一般的にディープラーニングで発生する非凸最適化問題を再構築することである。 技術的なレベルでは、ワッサーシュタイン勾配流のレンズを通して一般化された変分推論を研究することに貢献した。 その結果、深層学習における不確かさの定量化に一般的に用いられる様々な非分離なアプローチの統一理論が生まれ、深層アンサンブルや(可変的な)ベイズ法などが含まれる。 これはパラメータ化された変分推論に基づく手続きよりも深いアンサンブルが成功した理由に関する新たな見解を提供し、収束保証を持つ新しいセンスリングスキームの導出を可能にする。 熱力学における粒子系の相互作用と直接平行に相互作用するディープアンサンブルの族を提案し、この理論を用いてこれらのアルゴリズムの収束を確率測度の空間上の明確に定義された大域最小化器に証明する。

We establish the first mathematically rigorous link between Bayesian, variational Bayesian, and ensemble methods. A key step towards this it to reformulate the non-convex optimisation problem typically encountered in deep learning as a convex optimisation in the space of probability measures. On a technical level, our contribution amounts to studying generalised variational inference through the lense of Wasserstein gradient flows. The result is a unified theory of various seemingly disconnected approaches that are commonly used for uncertainty quantification in deep learning -- including deep ensembles and (variational) Bayesian methods. This offers a fresh perspective on the reasons behind the success of deep ensembles over procedures based on parameterised variational inference, and allows the derivation of new ensembling schemes with convergence guarantees. We showcase this by proposing a family of interacting deep ensembles with direct parallels to the interactions of particle systems in thermodynamics, and use our theory to prove the convergence of these algorithms to a well-defined global minimiser on the space of probability measures.
翻訳日:2023-10-25 11:15:59 公開日:2023-10-22
# マルチソーストランスレーショナルct再構成のためのbpfアルゴリズム

BPF Algorithms for Multiple Source-Translation Computed Tomography Reconstruction ( http://arxiv.org/abs/2305.18878v3 )

ライセンス: Link先を確認
Zhisheng Wang (1 and 2), Haijun Yu (3), Yixing Huang (4), Shunli Wang (1 and 2), Song Ni (3), Zongfeng Li (3), Fenglin Liu (3), Junning Cui (1 and 2) ((1) Center of Ultra-Precision Optoelectronic Instrument Engineering, Harbin Institute of Technology, Harbin 150080, China, (2) Key Lab of Ultra-Precision Intelligent Instrumentation (Harbin Institute of Technology), Ministry of Industry and Information Technology, Harbin 150080, China, (3) Key Laboratory of Optoelectronic Technology and Systems, Ministry of Education, Chongqing University, Chongqing 400044, China, (4) Oncology, University Hospital Erlangen, Friedrich-Alexander-University Erlangen-Nuremberg, 91054 Erlangen, Germany)(参考訳) micro-computed tomography (micro-ct) は様々な分野の物体の形態構造を研究するために広く使われている最先端の装置である。 しかし、fov (small field-of-view) は、比較的大きな物体を高い空間分解能で撮像する要求を満たすことができない。 近年,マイクロCTのFOVを効果的に拡張するMultiple Source Translation CT (mSTCT) と呼ばれる新しい走査モードを考案し,これに対応する仮想投影型フィルタバックジェクション (V-FBP) アルゴリズムを開発した。 V-FBPはmSTCTの切り欠き問題を巧みに解決するが、高分解能再構成に到達するには高密度サンプル投影が必要であるため、画像効率が低下する。 本稿では, mSTCT, S-BPF と D-BPF の2つのバックプロジェクションフィルタ (BPF) を用いたアルゴリズムを開発した。 D-BPFは、V-FBPやS-BPFよりもプロジェクションが少なく、高分解能の再構成が可能である。 そこで本研究では, d-bpfを用いて, 同じ空間分解能のv-fbpと比較して, ソースサンプリングを75%削減できることを実証した。 一方、S-BPFはV-FBPと似たD-BPFよりも安定な結果が得られる。

Micro-computed tomography (micro-CT) is a widely used state-of-the-art instrument employed to study the morphological structures of objects in various fields. However, its small field-of-view (FOV) cannot meet the pressing demand for imaging relatively large objects at high spatial resolutions. Recently, we devised a novel scanning mode called multiple source translation CT (mSTCT) that effectively enlarges the FOV of the micro-CT and correspondingly developed a virtual projection-based filtered backprojection (V-FBP) algorithm for reconstruction. Although V-FBP skillfully solves the truncation problem in mSTCT, it requires densely sampled projections to arrive at high-resolution reconstruction, which reduces imaging efficiency. In this paper, we developed two backprojection-filtration (BPF)-based algorithms for mSTCT, i.e., S-BPF (derivatives along source) and D-BPF (derivatives along detector). D-BPF can achieve high-resolution reconstruction with fewer projections than V-FBP and S-BPF. Through simulated and real experiments conducted in this paper, we demonstrate that D-BPF can reduce source sampling by 75% compared with V-FBP at the same spatial resolution, which makes mSTCT more feasible in practice. Meanwhile, S-BPF can yield more stable results than D-BPF, which is similar to V-FBP.
翻訳日:2023-10-25 09:03:14 公開日:2023-10-22
# 潜在量子化による解離

Disentanglement via Latent Quantization ( http://arxiv.org/abs/2305.18378v4 )

ライセンス: Link先を確認
Kyle Hsu and Will Dorrell and James C. R. Whittington and Jiajun Wu and Chelsea Finn(参考訳) 乱れた表現学習では、モデルはデータセットの基盤となる変動源を区別し、互いに独立して表現するように要求される。 モデルにはこれらの情報源に関する基礎的な真理情報がないため、帰納的バイアスは遠絡を可能にする上で最重要である。 本研究では,組織化された潜在空間への符号化と復号に対する帰納的バイアスを構築する。 具体的には、これを行う。 (i)次元ごとに学習可能なスカラー符号帳を分離した離散符号ベクトルに潜在空間を定量化すること。 (ii)異常に高い重量減少による強モデル正則化の適用。 直感的には、潜在空間設計は、エンコーダに少数の異なるスカラー値から符号を組合せて構成させ、それによってデコーダは各値に一貫した意味を割り当てることができる。 正規化は、モデルをこの控えめな戦略へと導くのに役立ちます。 本稿では,基本データ再構成 (vanilla autoencoder) と潜在データ再構成 (InfoGAN) の両方に付加することで,このアプローチの適用性を示す。 信頼性の高い評価のために,我々は,情報理論において結合的に基礎を置き,先行する指標の確立された欠点を修正するための新しい指標セットであるinfomecを提案する。 正規化とともに、潜在量子化は、ベンチマークデータセットの代表スイートにおける学習された表現のモジュラリティと明示性を劇的に改善する。 特に、当社の量子化遅延オートエンコーダ(QLAE)は、データ再構成を損なうことなく、これらのキー不整合特性において、従来から強い手法よりも一貫して優れています。

In disentangled representation learning, a model is asked to tease apart a dataset's underlying sources of variation and represent them independently of one another. Since the model is provided with no ground truth information about these sources, inductive biases take a paramount role in enabling disentanglement. In this work, we construct an inductive bias towards encoding to and decoding from an organized latent space. Concretely, we do this by (i) quantizing the latent space into discrete code vectors with a separate learnable scalar codebook per dimension and (ii) applying strong model regularization via an unusually high weight decay. Intuitively, the latent space design forces the encoder to combinatorially construct codes from a small number of distinct scalar values, which in turn enables the decoder to assign a consistent meaning to each value. Regularization then serves to drive the model towards this parsimonious strategy. We demonstrate the broad applicability of this approach by adding it to both basic data-reconstructing (vanilla autoencoder) and latent-reconstructing (InfoGAN) generative models. For reliable evaluation, we also propose InfoMEC, a new set of metrics for disentanglement that is cohesively grounded in information theory and fixes well-established shortcomings in previous metrics. Together with regularization, latent quantization dramatically improves the modularity and explicitness of learned representations on a representative suite of benchmark datasets. In particular, our quantized-latent autoencoder (QLAE) consistently outperforms strong methods from prior work in these key disentanglement properties without compromising data reconstruction.
翻訳日:2023-10-25 09:02:33 公開日:2023-10-22
# 信頼できる機械学習アプリケーションのための認定の再検討

Rethinking Certification for Trustworthy Machine Learning-Based Applications ( http://arxiv.org/abs/2305.16822v4 )

ライセンス: Link先を確認
Marco Anisetti and Claudio A. Ardagna and Nicola Bena and Ernesto Damiani(参考訳) 機械学習(ML)は、クラウドエッジの連続体で動作する非決定論的振る舞いを持つ高度なアプリケーションの実装にますます使われています。 mlの広範な採用は、アプリケーション非機能プロパティ(フェアネス、ロバスト性、プライバシなど)を信頼性向上のために評価する、保証ソリューションを緊急に求めている。 認証は、政策立案者、規制当局、工業利害関係者によって、この要求に対処するために望ましい保証技術として明確に特定されている。 残念ながら、既存の認証スキームは、MLモデル上に構築された非決定論的アプリケーションにはすぐには適用できない。 本稿では、現状の認定制度の課題と欠陥を分析し、オープンな研究課題について論じ、MLベースのアプリケーションのための最初の認定制度を提案する。

Machine Learning (ML) is increasingly used to implement advanced applications with non-deterministic behavior, which operate on the cloud-edge continuum. The pervasive adoption of ML is urgently calling for assurance solutions assessing applications non-functional properties (e.g., fairness, robustness, privacy) with the aim to improve their trustworthiness. Certification has been clearly identified by policymakers, regulators, and industrial stakeholders as the preferred assurance technique to address this pressing need. Unfortunately, existing certification schemes are not immediately applicable to non-deterministic applications built on ML models. This article analyzes the challenges and deficiencies of current certification schemes, discusses open research issues, and proposes a first certification scheme for ML-based applications.
翻訳日:2023-10-25 09:01:23 公開日:2023-10-22
# wacky vs. definitely wacky: 事前学習された言語モデルにおけるスカラ副詞の研究

Not wacky vs. definitely wacky: A study of scalar adverbs in pretrained language models ( http://arxiv.org/abs/2305.16426v2 )

ライセンス: Link先を確認
Isabelle Lorge and Janet Pierrehumbert(参考訳) 単語意味のベクトル空間モデルは、同じ文脈で起こる単語が同様の意味を持つという仮定を共有している。 このようなモデルでは、それらの話題の関連性に類似しているが、その論理力が異なる単語は意味論的に近くなる傾向があり、論理的推論を含むNLPアプリケーションにおいてよく知られた課題を生み出す。 BERT、RoBERTa、GPT-3といった現代の事前訓練された言語モデルは、古典的な静的単語の埋め込みよりも論理的なタスクでより良いパフォーマンスを期待している。 しかし、その成功については諸説ある。 本稿では,この議論を,強い論理力を持つ未熟な単語のクラスであるスカラー副詞の体系的研究を通じて進めていく。 自然主義的ソーシャルメディアデータと構築事例の両方を含む3つのタスクを用いて, BERT, RoBERTa, GPT-2, GPT-3が, これらの共通語の一般的, 人間的, 知的な知識を示す程度について検討した。 私たちはこう問いかけます 1) モデルは, モダリティ, FREQUENCY, DEGREEの3つの意味カテゴリーに分類できるか? 2) 最大負から最大正までの全尺度の暗黙的表現は存在するか? 3) 単語頻度と文脈要因はモデルの性能にどのように影響するか? 論理的な意味のいくつかの側面を捉えているにもかかわらず、モデルは人間のパフォーマンスにかなり劣っている。

Vector space models of word meaning all share the assumption that words occurring in similar contexts have similar meanings. In such models, words that are similar in their topical associations but differ in their logical force tend to emerge as semantically close, creating well-known challenges for NLP applications that involve logical reasoning. Modern pretrained language models, such as BERT, RoBERTa and GPT-3 hold the promise of performing better on logical tasks than classic static word embeddings. However, reports are mixed about their success. In the current paper, we advance this discussion through a systematic study of scalar adverbs, an under-explored class of words with strong logical force. Using three different tasks, involving both naturalistic social media data and constructed examples, we investigate the extent to which BERT, RoBERTa, GPT-2 and GPT-3 exhibit general, human-like, knowledge of these common words. We ask: 1) Do the models distinguish amongst the three semantic categories of MODALITY, FREQUENCY and DEGREE? 2) Do they have implicit representations of full scales from maximally negative to maximally positive? 3) How do word frequency and contextual factors impact model performance? We find that despite capturing some aspects of logical meaning, the models fall far short of human performance.
翻訳日:2023-10-25 09:01:11 公開日:2023-10-22
# 量子可能性ラベルと変分量子探索に基づく浅度深度係数決定

Shallow Depth Factoring Based on Quantum Feasibility Labeling and Variational Quantum Search ( http://arxiv.org/abs/2305.19542v2 )

ライセンス: Link先を確認
Imran Khan Tutul, Sara Karimi, Mohammadreza Soltaninia, Junpeng Zhan(参考訳) 整数分解は、特に量子コンピューティングの文脈において顕著な研究課題である。 これは特に公開鍵暗号システムに依存する情報セキュリティにおいて重要な意味を持つ。 整数の素因子の古典的な計算は指数時間複雑性を持つ。 量子コンピューティングは、従来のプロセッサに比べて計算プロセスが大幅に高速になる可能性がある。 本稿では,二素整数を分解する新しい量子アルゴリズムである浅層深さ分解 (sdf) を提案する。 SDFは3つのステップから構成される。 まず、目的関数を使わずにファクタリング問題を最適化問題に変換する。 次に、量子フィージビリティラベル法(QFL)を用いて、最適化問題に対して実現可能か不可能かに応じて、あらゆる可能なソリューションをラベル付けする。 最後に、すべての実現可能なソリューションを見つけるために、変分量子探索(VQS)を採用している。 SDFは、浅い深さの量子回路を効率的な分解に利用し、回路深さは分解される整数が増加するにつれて線形にスケーリングする。 回路内のゲート数を最小限にすることで、アルゴリズムは実現可能性を高め、エラーに対する脆弱性を減らす。

Large integer factorization is a prominent research challenge, particularly in the context of quantum computing. This holds significant importance, especially in information security that relies on public key cryptosystems. The classical computation of prime factors for an integer has exponential time complexity. Quantum computing offers the potential for significantly faster computational processes compared to classical processors. In this paper, we propose a new quantum algorithm, Shallow Depth Factoring (SDF), to factor a biprime integer. SDF consists of three steps. First, it converts a factoring problem to an optimization problem without an objective function. Then, it uses a Quantum Feasibility Labeling (QFL) method to label every possible solution according to whether it is feasible or infeasible for the optimization problem. Finally, it employs the Variational Quantum Search (VQS) to find all feasible solutions. The SDF utilizes shallow-depth quantum circuits for efficient factorization, with the circuit depth scaling linearly as the integer to be factorized increases. Through minimizing the number of gates in the circuit, the algorithm enhances feasibility and reduces vulnerability to errors.
翻訳日:2023-10-25 08:48:59 公開日:2023-10-22
# SSL4EO-L:ランドサット画像のデータセットと基礎モデル

SSL4EO-L: Datasets and Foundation Models for Landsat Imagery ( http://arxiv.org/abs/2306.09424v2 )

ライセンス: Link先を確認
Adam J. Stewart, Nils Lehmann, Isaac A. Corley, Yi Wang, Yi-Chia Chang, Nassim Ait Ali Braham, Shradha Sehgal, Caleb Robinson, Arindam Banerjee(参考訳) ランドサット計画(英: Landsat program)は、8つの衛星が50年以上にわたって取得した地球観測プログラムである。 これらの衛星に搭載されたセンサーが捉えたマルチスペクトル画像は、幅広い科学分野において重要である。 ディープラーニングとリモートセンシングの人気は高まっているが、ほとんどの研究者は、小さなラベル付きデータセットと基礎モデルの欠如により、ランドサット画像解析に決定木とランダム森林を使っている。 本稿では,ランドサット衛星群(3つのセンサと2つの製品レベルを含む)とランドサット史上最大のデータセット(5Mイメージパッチ)を対象とした,地球観測のための自己監督学習のための最初のデータセットであるSSL4EO-Lを紹介する。 さらに,L7 IrishおよびL8 Biomeクラウド検出データセットの近代化と再リリースを行い,Landsats 4-5 TMとLandsat 7 ETM+ SR用のMLベンチマークデータセットを導入した。 最後に,SSL4EO-Lを用いたランドサット画像の基礎モデルの事前学習を行い,複数のセマンティックセグメンテーションタスクの性能評価を行う。 全てのデータセットとモデル重みはtorchgeo(https://github.com/microsoft/torchgeo)ライブラリで利用可能であり、再現性と実験を容易にし、多数の下流アプリケーションのためのリモートセンシングの分野における科学的進歩を可能にする。

The Landsat program is the longest-running Earth observation program in history, with 50+ years of data acquisition by 8 satellites. The multispectral imagery captured by sensors onboard these satellites is critical for a wide range of scientific fields. Despite the increasing popularity of deep learning and remote sensing, the majority of researchers still use decision trees and random forests for Landsat image analysis due to the prevalence of small labeled datasets and lack of foundation models. In this paper, we introduce SSL4EO-L, the first ever dataset designed for Self-Supervised Learning for Earth Observation for the Landsat family of satellites (including 3 sensors and 2 product levels) and the largest Landsat dataset in history (5M image patches). Additionally, we modernize and re-release the L7 Irish and L8 Biome cloud detection datasets, and introduce the first ML benchmark datasets for Landsats 4-5 TM and Landsat 7 ETM+ SR. Finally, we pre-train the first foundation models for Landsat imagery using SSL4EO-L and evaluate their performance on multiple semantic segmentation tasks. All datasets and model weights are available via the TorchGeo (https://github.com/microsoft/torchgeo) library, making reproducibility and experimentation easy, and enabling scientific advancements in the burgeoning field of remote sensing for a multitude of downstream applications.
翻訳日:2023-10-25 08:42:02 公開日:2023-10-22
# 信号時間論理仕様によるマルチエージェント強化学習

Multi-Agent Reinforcement Learning Guided by Signal Temporal Logic Specifications ( http://arxiv.org/abs/2306.06808v2 )

ライセンス: Link先を確認
Jiangwei Wang, Shuo Yang, Ziyan An, Songyang Han, Zhili Zhang, Rahul Mangharam, Meiyi Ma, Fei Miao(参考訳) リワード設計は深層強化学習の重要な要素であるが、いくつかのタスクやデザイナの目的はスカラーコスト関数として定義することが不自然な場合がある。 様々な技術の中で、DRLと統合された形式的手法は、エージェントの異なる状態や行動に対する報酬と要求を定義するための表現性と柔軟性のために、かなりの注目を集めている。 しかし、STL(Signal Temporal Logic)を用いてマルチエージェント強化学習報酬設計を導出する方法は未定である。 複雑な相互作用、異種目標、マルチエージェントシステムにおけるクリティカルセーフティ要件により、この問題はさらに困難になる。 本稿では,新しいstl誘導型マルチエージェント強化学習フレームワークを提案する。 STL要求は、各エージェントの目的と安全仕様に応じてタスク仕様の両方を含むように設計されており、STL仕様の堅牢性値は、報酬を生成するために利用される。 本手法の利点を実証研究により検証する。 実験の結果,STL誘導を伴わないMARLと比較して,報奨性能が有意に向上し,マルチエージェントシステム全体の安全性が著しく向上した。

Reward design is a key component of deep reinforcement learning, yet some tasks and designer's objectives may be unnatural to define as a scalar cost function. Among the various techniques, formal methods integrated with DRL have garnered considerable attention due to their expressiveness and flexibility to define the reward and requirements for different states and actions of the agent. However, how to leverage Signal Temporal Logic (STL) to guide multi-agent reinforcement learning reward design remains unexplored. Complex interactions, heterogeneous goals and critical safety requirements in multi-agent systems make this problem even more challenging. In this paper, we propose a novel STL-guided multi-agent reinforcement learning framework. The STL requirements are designed to include both task specifications according to the objective of each agent and safety specifications, and the robustness values of the STL specifications are leveraged to generate rewards. We validate the advantages of our method through empirical studies. The experimental results demonstrate significant reward performance improvements compared to MARL without STL guidance, along with a remarkable increase in the overall safety rate of the multi-agent systems.
翻訳日:2023-10-25 08:41:07 公開日:2023-10-22
# スカースとノイズデータに基づく量子サロゲートモデルのベンチマーク

Benchmarking Quantum Surrogate Models on Scarce and Noisy Data ( http://arxiv.org/abs/2306.05042v2 )

ライセンス: Link先を確認
Jonas Stein, Michael Poppel, Philip Adamczyk, Ramona Fabry, Zixin Wu, Michael K\"olle, Jonas N\"u{\ss}lein, Dani\"elle Schuman, Philipp Altmann, Thomas Ehmer, Vijay Narasimhan, Claudia Linnhoff-Popien(参考訳) サロゲートモデルは、与えられたブラックボックス関数を効率的に近似するために、産業や学界でユビキタスに使われている。 古典的機械学習の最先端の手法は、実用的応用においてしばしば希少でノイズの多いデータセットのために、この問題を解決するのにしばしば苦労しているため、新しいアプローチを調査することは非常に興味深い。 量子ニューラルネットワーク (QNN) が, 希少かつノイズの多いデータの存在下で, 古典的アナログよりも優れる可能性を示唆する最近の理論的結果により, このシナリオの質的性能を実証的に評価した。 我々のコントリビューションは、QNNを高次元の実世界データ上の代理モデルとして使う最初のアプリケーション中心のアプローチを示す。 類似したパラメータを持つ古典的人工ニューラルネットワークと比較すると、我々のQNNはノイズや不足データに対してはるかに優れた結果を示しており、代理モデリングにおけるこの潜在的な量子優位性を探究する動機となっている。 最後に,現在のNISQハードウェアの性能を実験的に実証し,シミュレーション結果の再現に必要なゲート特性を推定する。

Surrogate models are ubiquitously used in industry and academia to efficiently approximate given black box functions. As state-of-the-art methods from classical machine learning frequently struggle to solve this problem accurately for the often scarce and noisy data sets in practical applications, investigating novel approaches is of great interest. Motivated by recent theoretical results indicating that quantum neural networks (QNNs) have the potential to outperform their classical analogs in the presence of scarce and noisy data, we benchmark their qualitative performance for this scenario empirically. Our contribution displays the first application-centered approach of using QNNs as surrogate models on higher dimensional, real world data. When compared to a classical artificial neural network with a similar number of parameters, our QNN demonstrates significantly better results for noisy and scarce data, and thus motivates future work to explore this potential quantum advantage in surrogate modelling. Finally, we demonstrate the performance of current NISQ hardware experimentally and estimate the gate fidelities necessary to replicate our simulation results.
翻訳日:2023-10-25 08:40:11 公開日:2023-10-22
# GIMLET:授業に基づくゼロショット学習のための統一グラフテキストモデル

GIMLET: A Unified Graph-Text Model for Instruction-Based Molecule Zero-Shot Learning ( http://arxiv.org/abs/2306.13089v3 )

ライセンス: Link先を確認
Haiteng Zhao, Shengchao Liu, Chang Ma, Hannan Xu, Jie Fu, Zhi-Hong Deng, Lingpeng Kong, Qi Liu(参考訳) 近年,分子特性の予測が注目されている。 主なボトルネックは、高価な実験実験によるラベルの不足である。 本研究は、この問題を緩和し、タスクのテキスト知識をより活用するために、ゼロショット設定で分子関連タスクを達成するために自然言語命令を用いることの可能性を検討する。 既存の分子テキストモデルは,命令の不適切な処理やグラフのキャパシティの制限などにより,この設定では性能に乏しいことが判明した。 これらの問題を解決するために,グラフデータとテキストデータの言語モデルを統合するGIMLETを提案する。 一般化された位置埋め込みを採用することにより、我々のモデルはグラフ構造と命令文の両方を追加のグラフ符号化モジュールなしでエンコードするように拡張される。 GIMLETはまた、アテンションメカニズムのタスク命令からグラフのエンコーディングを分離し、新しいタスク間のグラフ機能の一般化を強化する。 我々は、タスク記述から派生した命令を含む、2,000分子以上のタスクからなるデータセットを構築する。 我々は、GIMLETを分子タスクにプリトレーニングし、命令とともにモデルが幅広いタスクに効果的に転送できるようにする。 実験の結果、gimletは命令ベースのゼロショット学習において分子テキストベースラインを大きく上回り、toxcastやmmvなどのタスクでgnnモデルを監督する閉じた結果を得ることができた。

Molecule property prediction has gained significant attention in recent years. The main bottleneck is the label insufficiency caused by expensive lab experiments. In order to alleviate this issue and to better leverage textual knowledge for tasks, this study investigates the feasibility of employing natural language instructions to accomplish molecule-related tasks in a zero-shot setting. We discover that existing molecule-text models perform poorly in this setting due to inadequate treatment of instructions and limited capacity for graphs. To overcome these issues, we propose GIMLET, which unifies language models for both graph and text data. By adopting generalized position embedding, our model is extended to encode both graph structures and instruction text without additional graph encoding modules. GIMLET also decouples encoding of the graph from tasks instructions in the attention mechanism, enhancing the generalization of graph features across novel tasks. We construct a dataset consisting of more than two thousand molecule tasks with corresponding instructions derived from task descriptions. We pretrain GIMLET on the molecule tasks along with instructions, enabling the model to transfer effectively to a broad range of tasks. Experimental results demonstrate that GIMLET significantly outperforms molecule-text baselines in instruction-based zero-shot learning, even achieving closed results to supervised GNN models on tasks such as toxcast and muv.
翻訳日:2023-10-25 08:30:36 公開日:2023-10-22
# UUKG:都市時空間予測のための統一都市知識グラフデータセット

UUKG: Unified Urban Knowledge Graph Dataset for Urban Spatiotemporal Prediction ( http://arxiv.org/abs/2306.11443v2 )

ライセンス: Link先を確認
Yansong Ning, Hao Liu, Hao Wang, Zhenyu Zeng and Hui Xiong(参考訳) 正確な都市時空間予測(USTP)はスマートシティの開発と運用において非常に重要である。 ビルディングブロックとして、マルチソースの都市データは、都市時空間予測モデルに対する重要な知識を提供するために、通常都市知識グラフ(UrbanKG)として統合される。 しかし、既存のUrbanKGは特定の下流予測タスク用に調整されており、公開されていないため、潜在的な進歩は制限されている。 本稿では,知識強化型都市時空間予測のための統合都市知識グラフデータセットUUKGを提案する。 具体的には、行政区、POI、道路セグメントなどの異質な都市組織を接続することで、2つの都市圏に数百万のトリプルからなる都市KGを最初に構築する。 さらに,構築した都市kgの質的・定量的解析を行い,下流のustpタスクに活用可能な階層やサイクルといった多種多様な高次構造パターンを明らかにする。 我々は,UrbanKGの有効利用を検証するため,KG完了タスクに15個のKG埋め込み手法を実装し,学習したKG埋め込みを5つの異なるUTPタスクのための9つの時空間モデルに統合した。 この実験結果は、異なるタスク設定下での知識強化USTPモデルのベンチマークを提供するだけでなく、最先端の高次構造対応UrbanKG埋め込み手法の可能性も浮き彫りにしている。 提案するuukgは,都市ナレッジグラフと幅広いスマートシティ応用に関する研究を促進することを願っている。 データセットとソースコードはhttps://github.com/usail-hkust/UUKG/で入手できる。

Accurate Urban SpatioTemporal Prediction (USTP) is of great importance to the development and operation of the smart city. As an emerging building block, multi-sourced urban data are usually integrated as urban knowledge graphs (UrbanKGs) to provide critical knowledge for urban spatiotemporal prediction models. However, existing UrbanKGs are often tailored for specific downstream prediction tasks and are not publicly available, which limits the potential advancement. This paper presents UUKG, the unified urban knowledge graph dataset for knowledge-enhanced urban spatiotemporal predictions. Specifically, we first construct UrbanKGs consisting of millions of triplets for two metropolises by connecting heterogeneous urban entities such as administrative boroughs, POIs, and road segments. Moreover, we conduct qualitative and quantitative analysis on constructed UrbanKGs and uncover diverse high-order structural patterns, such as hierarchies and cycles, that can be leveraged to benefit downstream USTP tasks. To validate and facilitate the use of UrbanKGs, we implement and evaluate 15 KG embedding methods on the KG completion task and integrate the learned KG embeddings into 9 spatiotemporal models for five different USTP tasks. The extensive experimental results not only provide benchmarks of knowledge-enhanced USTP models under different task settings but also highlight the potential of state-of-the-art high-order structure-aware UrbanKG embedding methods. We hope the proposed UUKG fosters research on urban knowledge graphs and broad smart city applications. The dataset and source code are available at https://github.com/usail-hkust/UUKG/.
翻訳日:2023-10-25 08:29:16 公開日:2023-10-22
# SpawnNet: トレーニング済みネットワークから汎用的なVisuomotorスキルを学ぶ

SpawnNet: Learning Generalizable Visuomotor Skills from Pre-trained Networks ( http://arxiv.org/abs/2307.03567v2 )

ライセンス: Link先を確認
Xingyu Lin, John So, Sashwat Mahalingam, Fangchen Liu, Pieter Abbeel(参考訳) 既存のインターネット規模の画像とビデオデータセットは、さまざまなシナリオで一般化する学習ポリシーの可能性をもたらし、さまざまな日常オブジェクトやタスクをカバーしている。 先行研究は、異なる自己監督目的による視覚的事前学習を探求している。 それでも、学習方針の一般化能力と、十分に調整されたベースラインに対する利点は、以前の研究から明らかでない。 本稿では,事前学習された視覚表現のカテゴリレベルでの一般化能力について検討する。 フリーズされた視覚的バックボーンをポリシー学習に使用する上で重要なボトルネックを特定し,その上で,事前学習された多層表現を独立したネットワークに融合してロバストなポリシを学習する,新しい2ストリームアーキテクチャSpawnNetを提案する。 シミュレーションおよび実演実験により,模倣学習環境における先行手法と比較して,カテゴリー一般化が有意に良好であることを示す。 オープンソースコードとビデオは、私たちのWebサイト(https://xingyu-lin.github.io/spawnnet.com)にある。

The existing internet-scale image and video datasets cover a wide range of everyday objects and tasks, bringing the potential of learning policies that generalize in diverse scenarios. Prior works have explored visual pre-training with different self-supervised objectives. Still, the generalization capabilities of the learned policies and the advantages over well-tuned baselines remain unclear from prior studies. In this work, we present a focused study of the generalization capabilities of the pre-trained visual representations at the categorical level. We identify the key bottleneck in using a frozen pre-trained visual backbone for policy learning and then propose SpawnNet, a novel two-stream architecture that learns to fuse pre-trained multi-layer representations into a separate network to learn a robust policy. Through extensive simulated and real experiments, we show significantly better categorical generalization compared to prior approaches in imitation learning settings. Open-sourced code and videos can be found on our website: https://xingyu-lin.github.io/spawnnet.
翻訳日:2023-10-25 08:21:43 公開日:2023-10-22
# 画像多様体の確率的・意味的記述とその応用

Probabilistic and Semantic Descriptions of Image Manifolds and Their Applications ( http://arxiv.org/abs/2307.02881v4 )

ライセンス: Link先を確認
Peter Tu, Zhaoyuan Yang, Richard Hartley, Zhiwei Xu, Jing Zhang, Yiwei Fu, Dylan Campbell, Jaskirat Singh, Tianyu Wang(参考訳) 本論文は,高次元画像空間の制限領域に通常そのようなデータが配置されるという観察を反映した画像確率密度関数を推定する手法の説明から始まる。 画像は高次元空間の低次元多様体上にあると言うのが一般的である。 しかし、多様体上のすべての点が像である確率が等しいというわけではない。 画像は多様体上に不均一に分布し、この分布を確率分布としてモデル化する方法を考案する。 したがって、一般的な生成モデルを考える。 我々の目的のために、生成的・確率的モデルは性質を持つべきである 1)サンプル生成:この分布からモデル密度関数で試料を採取する可能性、及び 2) 確率計算: 興味のあるデータセットから以前に見つからなかったサンプルが与えられた場合、少なくとも正規化定数までその確率を計算することができる。 そこで本研究では,流れの正規化や拡散モデルなどの手法について検討する。 次に、多様体上の点を記述するために意味解釈がどのように使われるかを示す。 これを実現するために、与えられた多様体上に存在する点の不等角表現に変分エンコーダを用いる創発的言語フレームワークを考える。 多様体上の点間の軌跡は、進化する意味的記述として記述することができる。 また、このような確率的記述(有界)は、敵攻撃に対する防御を構築することによって意味的一貫性を向上させることができることを示す。 提案手法は,semantic robustnessおよびood detection機能の改善,説明可能かつ編集可能なセマンティック補間,パッチ攻撃時の分類精度の向上により評価した。 また拡散モデルの制限についても論じる。

This paper begins with a description of methods for estimating image probability density functions that reflects the observation that such data is usually constrained to lie in restricted regions of the high-dimensional image space-not every pattern of pixels is an image. It is common to say that images lie on a lower-dimensional manifold in the high-dimensional space. However, it is not the case that all points on the manifold have an equal probability of being images. Images are unevenly distributed on the manifold, and our task is to devise ways to model this distribution as a probability distribution. We therefore consider popular generative models. For our purposes, generative/probabilistic models should have the properties of 1) sample generation: the possibility to sample from this distribution with the modelled density function, and 2) probability computation: given a previously unseen sample from the dataset of interest, one should be able to compute its probability, at least up to a normalising constant. To this end, we investigate the use of methods such as normalising flow and diffusion models. We then show how semantic interpretations are used to describe points on the manifold. To achieve this, we consider an emergent language framework that uses variational encoders for a disentangled representation of points that reside on a given manifold. Trajectories between points on a manifold can then be described as evolving semantic descriptions. We also show that such probabilistic descriptions (bounded) can be used to improve semantic consistency by constructing defences against adversarial attacks. We evaluate our methods with improved semantic robustness and OoD detection capability, explainable and editable semantic interpolation, and improved classification accuracy under patch attacks. We also discuss the limitation in diffusion models.
翻訳日:2023-10-25 08:21:02 公開日:2023-10-22
# HIQL: オフラインのゴールコンディションRLと遅延状態のアクション

HIQL: Offline Goal-Conditioned RL with Latent States as Actions ( http://arxiv.org/abs/2307.11949v2 )

ライセンス: Link先を確認
Seohong Park, Dibya Ghosh, Benjamin Eysenbach, Sergey Levine(参考訳) 教師なし事前学習はコンピュータビジョンと自然言語処理の基盤となっている。 強化学習(RL)において、ゴール条件付きRLは、大量のラベルなし(リワードフリー)データを利用するための類似した自己教師付きアプローチを提供する可能性がある。 しかし, 多様なオフラインデータから直接学習できるゴール条件付きRLの効率的なアルゴリズムの構築は困難であり, 遠方目標の正確な値関数を正確に推定することは困難である。 それでも、目標達成問題は、遠くの目標に達するには、まず近いサブゴールを通過する必要がある構造を示す。 この構造は非常に有用であり、近くの目標に対する行動の質を評価することは、通常より遠い目標よりも容易である。 この考えに基づき、オフラインデータからゴール条件付きRLの階層的アルゴリズムを提案する。 1つのアクションフリーバリュー関数を使用して、この構造を活用可能な2つのポリシーを学習する。 状態をアクションとして扱うハイレベルポリシと、このサブゴールに到達するためのアクションを予測する低レベルポリシ(潜在表現)です。 分析とディダクティックな例を通して,この階層的分解により,推定値関数の雑音に対して頑健になることを示す。 そこで,本手法をオフラインゴール取得ベンチマークに適用し,従来の手法を精査し,高次元画像観察にスケールできるとともに,アクションフリーなデータを容易に活用できることを示す。 私たちのコードはhttps://seohong.me/projects/hiql/で利用可能です。

Unsupervised pre-training has recently become the bedrock for computer vision and natural language processing. In reinforcement learning (RL), goal-conditioned RL can potentially provide an analogous self-supervised approach for making use of large quantities of unlabeled (reward-free) data. However, building effective algorithms for goal-conditioned RL that can learn directly from diverse offline data is challenging, because it is hard to accurately estimate the exact value function for faraway goals. Nonetheless, goal-reaching problems exhibit structure, such that reaching distant goals entails first passing through closer subgoals. This structure can be very useful, as assessing the quality of actions for nearby goals is typically easier than for more distant goals. Based on this idea, we propose a hierarchical algorithm for goal-conditioned RL from offline data. Using one action-free value function, we learn two policies that allow us to exploit this structure: a high-level policy that treats states as actions and predicts (a latent representation of) a subgoal and a low-level policy that predicts the action for reaching this subgoal. Through analysis and didactic examples, we show how this hierarchical decomposition makes our method robust to noise in the estimated value function. We then apply our method to offline goal-reaching benchmarks, showing that our method can solve long-horizon tasks that stymie prior methods, can scale to high-dimensional image observations, and can readily make use of action-free data. Our code is available at https://seohong.me/projects/hiql/
翻訳日:2023-10-25 08:11:35 公開日:2023-10-22
# tree-based vertical federated learningにおけるラベル漏洩の除去

Eliminating Label Leakage in Tree-Based Vertical Federated Learning ( http://arxiv.org/abs/2307.10318v2 )

ライセンス: Link先を確認
Hideaki Takahashi, Jingjing Liu, Yang Liu(参考訳) 垂直連合学習(VFL)は、プライベートデータを共有せずに機械学習モデルをトレーニングするための共通ユーザセットの分離した特徴を持つ複数のパーティを可能にする。 木に基づくモデルは、その解釈可能性と効率性のためにVFLで普及している。 しかし,木系VFLの脆弱性は十分に調査されていない。 本研究では,まず,各ノード(インスタンス空間)に割り当てられたレコードIDの集合を利用して,プライベートなトレーニングラベルを推論する新しいラベル推論攻撃ID2Graphを提案する。 ID2Graph攻撃は、トレーニングサンプルからグラフ構造を生成し、グラフからコミュニティを抽出し、コミュニティ情報を使用してローカルデータセットをクラスタ化する。 本稿では,ラベルの漏出に対処するために,ラベルの差分プライバシーを後処理で改善するGrafting-LDPと,相互情報の整合性に着目したID-LMIDという2つの効果的な防御機構を提案する。 さまざまなデータセットに関する総合的な実験によると、ID2GraphはRandomForestやXGBoostといったツリーベースのモデルに重大なリスクをもたらす。 これらのベンチマークのさらなる評価は、我々の防御手法がそのような事例におけるラベル漏洩を効果的に軽減することを示している。

Vertical federated learning (VFL) enables multiple parties with disjoint features of a common user set to train a machine learning model without sharing their private data. Tree-based models have become prevalent in VFL due to their interpretability and efficiency. However, the vulnerability of tree-based VFL has not been sufficiently investigated. In this study, we first introduce a novel label inference attack, ID2Graph, which utilizes the sets of record IDs assigned to each node (i.e., instance space)to deduce private training labels. ID2Graph attack generates a graph structure from training samples, extracts communities from the graph, and clusters the local dataset using community information. To counteract label leakage from the instance space, we propose two effective defense mechanisms, Grafting-LDP, which improves the utility of label differential privacy with post-processing, and andID-LMID, which focuses on mutual information regularization. Comprehensive experiments on various datasets reveal that ID2Graph presents significant risks to tree-based models such as RandomForest and XGBoost. Further evaluations of these benchmarks demonstrate that our defense methods effectively mitigate label leakage in such instances
翻訳日:2023-10-25 08:09:28 公開日:2023-10-22
# sem-gat:学習グラフによる意味的ポーズ推定

SEM-GAT: Explainable Semantic Pose Estimation using Learned Graph Attention ( http://arxiv.org/abs/2308.03718v2 )

ライセンス: Link先を確認
Efimia Panagiotaki, Daniele De Martini, Georgi Pramatarov, Matthew Gadd, Lars Kunze(参考訳) 本稿では,semantics と local geometry を利用したグラフニューラルネットワーク(gnn)を用いた,信頼性の高いpointcloud登録候補の同定手法を提案する。 環境の意味的および形態的特徴は、登録のための重要な基準点となり、lidarに基づく正確なポーズ推定を可能にする。 提案する軽量静的グラフ構造は,セマンティクス・インスタンス関係を同定し,ポイントクラウド登録の計算負荷を大幅に軽減するインダクティブバイアスとして機能することにより,注意に基づくノードアグリゲーションネットワークに通知する。 候補ノードを接続し,クロスグラフアテンションを利用することにより,すべての潜在的登録対応に対する信頼スコアを特定し,ポイントクラウドスキャン間の変位を推定する。 私たちのパイプラインは、環境内のローカルな構造の個々のコントリビューションと相関し、システムの振る舞いに関する貴重な洞察を提供することで、モデルのパフォーマンスのイントロスペクティブ分析を可能にします。 提案手法をkitti odometryデータセット上でテストし,ベンチマーク法と比較し,ネットワークパラメータをかなり少なくしつつ,高いトラックスムース性を実現する。

This paper proposes a Graph Neural Network(GNN)-based method for exploiting semantics and local geometry to guide the identification of reliable pointcloud registration candidates. Semantic and morphological features of the environment serve as key reference points for registration, enabling accurate lidar-based pose estimation. Our novel lightweight static graph structure informs our attention-based node aggregation network by identifying semantic-instance relationships, acting as an inductive bias to significantly reduce the computational burden of pointcloud registration. By connecting candidate nodes and exploiting cross-graph attention, we identify confidence scores for all potential registration correspondences and estimate the displacement between pointcloud scans. Our pipeline enables introspective analysis of the model's performance by correlating it with the individual contributions of local structures in the environment, providing valuable insights into the system's behaviour. We test our method on the KITTI odometry dataset, achieving competitive accuracy compared to benchmark methods and a higher track smoothness while relying on significantly fewer network parameters.
翻訳日:2023-10-25 08:02:18 公開日:2023-10-22
# TPTU:タスクプランニングとツール使用のための大規模言語モデルベースAIエージェント

TPTU: Large Language Model-based AI Agents for Task Planning and Tool Usage ( http://arxiv.org/abs/2308.03427v2 )

ライセンス: Link先を確認
Jingqing Ruan, Yihong Chen, Bin Zhang, Zhiwei Xu, Tianpeng Bao, Guoqing Du, Shiwei Shi, Hangyu Mao, Ziyue Li, Xingyu Zeng, Rui Zhao(参考訳) 近年の自然言語処理の進歩により、Large Language Models (LLM) は様々な現実世界のアプリケーションのための強力なツールとして登場した。 それらの長所にもかかわらず、LLMの本質的な生成能力は、タスク計画と外部ツールの使用を必要とする複雑なタスクを扱うには不十分である。 本稿では,LLMベースのAIエージェントに適した構造化フレームワークを提案し,複雑な問題に対処するために必要な重要な機能について議論する。 このフレームワーク内では、推論プロセスを実行するために2つの異なるタイプのエージェント(すなわち、ワンステップエージェントとシーケンシャルエージェント)を設計する。 その後、様々なLCMを用いてフレームワークをインスタンス化し、典型的なタスクにおけるタスク計画とツール利用(TPTU)能力を評価する。 私たちのゴールは、重要な発見と課題を強調することで、研究者や実践者がAIアプリケーションでLLMのパワーを活用する上で有用なリソースを提供することです。 本研究は,これらのモデルの有効性を強調し,さらなる調査と改善を必要とする領域を特定する。

With recent advancements in natural language processing, Large Language Models (LLMs) have emerged as powerful tools for various real-world applications. Despite their prowess, the intrinsic generative abilities of LLMs may prove insufficient for handling complex tasks which necessitate a combination of task planning and the usage of external tools. In this paper, we first propose a structured framework tailored for LLM-based AI Agents and discuss the crucial capabilities necessary for tackling intricate problems. Within this framework, we design two distinct types of agents (i.e., one-step agent and sequential agent) to execute the inference process. Subsequently, we instantiate the framework using various LLMs and evaluate their Task Planning and Tool Usage (TPTU) abilities on typical tasks. By highlighting key findings and challenges, our goal is to provide a helpful resource for researchers and practitioners to leverage the power of LLMs in their AI applications. Our study emphasizes the substantial potential of these models, while also identifying areas that need more investigation and improvement.
翻訳日:2023-10-25 08:01:47 公開日:2023-10-22
# 時間領域におけるテンソルネットワークによる近似非マルコフ力学

A bound on approximating non-Markovian dynamics by tensor networks in the time domain ( http://arxiv.org/abs/2307.15592v2 )

ライセンス: Link先を確認
Ilya Vilkoviskiy and Dmitry A. Abanin(参考訳) スピンボーソン(sb)モデルは、その概念的重要性と多くの物理系との関係から、散逸量子力学の研究において中心的な役割を果たす。 ここでは,ゼロ温度オーミック浴の物理的に関連する場合に対して,sbモデルの計算複雑性の厳密な境界を与える。 まず、スピンの軌道の空間上のテンソルであるファインマン・ヴァーノン影響汎関数(if)を介してボソニック浴の記述から始める。 IF関数の核を崩壊指数の和で拡張することにより、有限個の減衰ボゾンモードによる連続浴の解析的近似が得られる。 我々は、ボソニックヒルベルト空間を小さなボソン数を持つ有限次元部分空間に制限することで引き起こされる誤差を束縛し、IFの行列積状態(MPS)表現の解析形式を生成する。 我々はMPS結合次元$D$が物理観測値$\epsilon$の誤差と進化時間$T$,$D\propto T^4/\epsilon^2$の誤差で多項式的にスケールすることを示した。 この境界は、スピンボソンモデルが時間計算資源の多項式を用いて効率的にシミュレートできることを示している。

Spin-boson (SB) model plays a central role in studies of dissipative quantum dynamics, both due its conceptual importance and relevance to a number of physical systems. Here we provide rigorous bounds of the computational complexity of the SB model for the physically relevant case of a zero temperature Ohmic bath. We start with the description of the bosonic bath via its Feynman-Vernon influence functional (IF), which is a tensor on the space of spin's trajectories. By expanding the kernel of the IF functional via a sum of decaying exponentials, we obtain an analytical approximation of the continuous bath by a finite number of damped bosonic modes. We bound the error induced by restricting bosonic Hilbert spaces to a finite-dimensional subspace with small boson numbers, which yields an analytical form of a matrix-product state (MPS) representation of the IF. We show that the MPS bond dimension $D$ scales polynomially in the error on physical observables $\epsilon$, as well as in the evolution time $T$, $D\propto T^4/\epsilon^2$. This bound indicates that the spin-boson model can be efficiently simulated using polynomial in time computational resources.
翻訳日:2023-10-25 08:00:16 公開日:2023-10-22
# hosnn:適応的な発火閾値を持つ敵対的ロバストなホメオスタティックスパイクニューラルネットワーク

HoSNN: Adversarially-Robust Homeostatic Spiking Neural Networks with Adaptive Firing Thresholds ( http://arxiv.org/abs/2308.10373v2 )

ライセンス: Link先を確認
Hejia Geng, Peng Li(参考訳) スパイキングニューラルネットワーク(SNN)は、効率的で強力なニューラルネットワークにインスパイアされた計算を約束する。 しかし、他のタイプのニューラルネットワークに共通するSNNは、敵の攻撃に対する脆弱性の深刻な問題に直面している。 神経性ホメオスタシスからインスピレーションを得た最初の研究は、SNNの障害に対する感受性に対処するバイオインスパイアされたソリューションを開発することである。 我々のアプローチの核心は、新しいしきい値適応型インテリジェンス・アンド・ファイア(TA-LIF)ニューロンモデルであり、提案した対向的に堅牢なホメオスタティックSNN(HoSNN)を構築するために採用されている。 従来の LIF モデルとは違って,我々のTA-LIF モデルでは,自己安定化動的しきい値設定機構,対向雑音伝搬の削減,HoSNN の堅牢性を教師なしで保護する。 理論解析により、ta-lifニューロンの安定性と収束性が示され、従来のlifニューロンに対する入力分布シフト下での優れた動的ロバスト性が証明された。 また,CIFAR-10では,FGSMおよびPGD攻撃に対する精度が72.6%,54.19%向上し,それぞれ20.97%,0.6%向上した。 さらに、FGSMの対抗訓練が最小限で、我々のHoSNNはFGSMの29.99%、CIFAR-10のPGD攻撃47.83%を突破した。 我々の研究は、SNNの強靭性と防御を強化するための生物学的原理を活用する新しい視点を提供し、より弾力性のあるニューロモルフィックコンピューティングへの道を開いた。

Spiking neural networks (SNNs) offer promise for efficient and powerful neurally inspired computation. Common to other types of neural networks, however, SNNs face the severe issue of vulnerability to adversarial attacks. We present the first study that draws inspiration from neural homeostasis to develop a bio-inspired solution that counters the susceptibilities of SNNs to adversarial onslaughts. At the heart of our approach is a novel threshold-adapting leaky integrate-and-fire (TA-LIF) neuron model, which we adopt to construct the proposed adversarially robust homeostatic SNN (HoSNN). Distinct from traditional LIF models, our TA-LIF model incorporates a self-stabilizing dynamic thresholding mechanism, curtailing adversarial noise propagation and safeguarding the robustness of HoSNNs in an unsupervised manner. Theoretical analysis is presented to shed light on the stability and convergence properties of the TA-LIF neurons, underscoring their superior dynamic robustness under input distributional shifts over traditional LIF neurons. Remarkably, without explicit adversarial training, our HoSNNs demonstrate inherent robustness on CIFAR-10, with accuracy improvements to 72.6% and 54.19% against FGSM and PGD attacks, up from 20.97% and 0.6%, respectively. Furthermore, with minimal FGSM adversarial training, our HoSNNs surpass previous models by 29.99% under FGSM and 47.83% under PGD attacks on CIFAR-10. Our findings offer a new perspective on harnessing biological principles for bolstering SNNs adversarial robustness and defense, paving the way to more resilient neuromorphic computing.
翻訳日:2023-10-25 07:51:09 公開日:2023-10-22
# オンライン教師付き学習のための分散変分推論

Distributed Variational Inference for Online Supervised Learning ( http://arxiv.org/abs/2309.02606v2 )

ライセンス: Link先を確認
Parth Paritosh, Nikolay Atanasov, Sonia Martinez(参考訳) インテリジェントセンサーネットワークにおける推論問題に対する効率的なソリューションの開発は、次世代のロケーション、トラッキング、マッピングサービスにとって不可欠である。 本稿では,センサネットワークにおける連続変数,抽出可能な後部および大規模リアルタイムデータに適用可能な,スケーラブルな分散確率推定アルゴリズムを提案する。 集中的な環境では、変分推論は近似ベイズ推定の基本的な手法であり、難解な後方密度をパラメトリック密度で近似する。 センサネットワークにおける1ホップ通信による分散変分推論を可能にする,集中的推定目標に対する分離可能な下限の導出が鍵となる。 我々の分散エビデンスローバウンド(DELBO)は、観測可能性の重み付けと事前密度のばらつきで構成されており、測定エビデンスとのギャップは、コンセンサスとモデリングエラーによるものである。 ストリーミングデータを扱う場合のバイナリ分類と回帰問題を解決するために,DELBOを最大化するオンライン分散アルゴリズムを設計し,非線形確率を持つガウス変分密度に特化する。 結果の分散ガウス変分推論(DGVI)は、共分散行列に1ドルランクの補正を効率的に反転させる。 最後に、高次元モデルにおけるオンライン分散推論のための対角化バージョンを導出し、屋内ライダーデータを用いたマルチロボット確率マッピングに適用する。

Developing efficient solutions for inference problems in intelligent sensor networks is crucial for the next generation of location, tracking, and mapping services. This paper develops a scalable distributed probabilistic inference algorithm that applies to continuous variables, intractable posteriors and large-scale real-time data in sensor networks. In a centralized setting, variational inference is a fundamental technique for performing approximate Bayesian estimation, in which an intractable posterior density is approximated with a parametric density. Our key contribution lies in the derivation of a separable lower bound on the centralized estimation objective, which enables distributed variational inference with one-hop communication in a sensor network. Our distributed evidence lower bound (DELBO) consists of a weighted sum of observation likelihood and divergence to prior densities, and its gap to the measurement evidence is due to consensus and modeling errors. To solve binary classification and regression problems while handling streaming data, we design an online distributed algorithm that maximizes DELBO, and specialize it to Gaussian variational densities with non-linear likelihoods. The resulting distributed Gaussian variational inference (DGVI) efficiently inverts a $1$-rank correction to the covariance matrix. Finally, we derive a diagonalized version for online distributed inference in high-dimensional models, and apply it to multi-robot probabilistic mapping using indoor LiDAR data.
翻訳日:2023-10-25 07:42:26 公開日:2023-10-22
# SuperUDF:表面再構成のための自己監督型UDF推定

SuperUDF: Self-supervised UDF Estimation for Surface Reconstruction ( http://arxiv.org/abs/2308.14371v2 )

ライセンス: Link先を確認
Hui Tian, Chenyang Zhu, Yifei Shi, Kai Xu(参考訳) 非符号距離関数(UDF)に基づく学習に基づく表面再構成は、開面の扱いなど多くの利点がある。 効率的なトレーニングのために学習した幾何を利用した自己教師付きUDF学習のSuperUDFと,スパースサンプリングのためのロバストネスの新しい正規化を提案する。 SuperUDFのコアアイデアは、局所最適射影(LOP)の古典曲面近似演算子からインスピレーションを得ている。 重要な洞察は、UDFが正しく推定された場合、3DポイントはUDFの勾配に従って下面に局所的に投影されるべきであるということである。 これにより、udf幾何上の多くの帰納的バイアスと事前学習済み幾何が考案され、udf推定を効率的に学習する。 superudfをスパースサンプリングに頑健にする新しい正規化損失を提案する。 さらに,推定UDFからの学習に基づくメッシュ抽出にも貢献する。 大規模な評価では、SuperUDFは品質と効率の両面で、いくつかの公開データセットで芸術の状態を上回ります。 コード url は https://github.com/THHHomas/SuperUDF です。

Learning-based surface reconstruction based on unsigned distance functions (UDF) has many advantages such as handling open surfaces. We propose SuperUDF, a self-supervised UDF learning which exploits a learned geometry prior for efficient training and a novel regularization for robustness to sparse sampling. The core idea of SuperUDF draws inspiration from the classical surface approximation operator of locally optimal projection (LOP). The key insight is that if the UDF is estimated correctly, the 3D points should be locally projected onto the underlying surface following the gradient of the UDF. Based on that, a number of inductive biases on UDF geometry and a pre-learned geometry prior are devised to learn UDF estimation efficiently. A novel regularization loss is proposed to make SuperUDF robust to sparse sampling. Furthermore, we also contribute a learning-based mesh extraction from the estimated UDFs. Extensive evaluations demonstrate that SuperUDF outperforms the state of the arts on several public datasets in terms of both quality and efficiency. Code url is https://github.com/THHHomas/SuperUDF.
翻訳日:2023-10-25 07:41:31 公開日:2023-10-22
# OmniQuant: 大規模言語モデルのための一方向校正量子化

OmniQuant: Omnidirectionally Calibrated Quantization for Large Language Models ( http://arxiv.org/abs/2308.13137v2 )

ライセンス: Link先を確認
Wenqi Shao, Mengzhao Chen, Zhaoyang Zhang, Peng Xu, Lirui Zhao, Zhiqian Li, Kaipeng Zhang, Peng Gao, Yu Qiao, Ping Luo(参考訳) 大規模言語モデル(LLM)は自然言語処理タスクに革命をもたらした。 しかし、実際のデプロイメントは、その膨大なメモリと計算要件によって妨げられている。 近年のPTQ法はメモリフットプリントの削減とLLMの計算効率の向上に有効であるが、手作業による量子化パラメーターにより性能が低下し、極端に低ビットの量子化に対処できない。 この問題に対処するために,様々な量子化パラメータを効率的に最適化し,PTQの計算効率を保ちつつ,多様な量子化設定において優れた性能を実現するLLMのためのOmnidirectly calibrated Quantization(OmniQuant)技術を導入する。 OmniQuantはLearnerable Weight Clipping (LWC)とLearnerable Equivalent Transformation (LET)の2つの革新的なコンポーネントで構成されている。 LWCはクリッピング閾値を最適化することで重量の極端な値を変調する。 一方、letは、学習可能な等価変換を通じて、量子化の課題を活性化から重みにシフトすることで、アクティベーション異常に取り組みます。 OmniQuantはブロックワイドエラー最小化を用いて、微分可能なフレームワーク内で動作し、ウェイトオンリーおよびウェイトアクティベーション量子化の両方のために量子化プロセスを効率的に最適化することができる。 例えば、7-70BサイズのLLaMA-2モデルファミリは、1-16時間以内に128サンプルを使用して単一のA100-40G GPU上でOmniQuantで処理できる。 大規模な実験により、OmniQuantはW4A4、W6A6、W4A16、W3A16、W2A16といった様々な量子化構成にまたがる優れた性能を検証した。 さらに、OmniQuantは命令チューニングモデルの有効性を示し、実際のデバイスにおける推論速度とメモリ削減の顕著な改善を提供する。 コードとモデルは \url{https://github.com/OpenGVLab/OmniQuant} で公開されている。

Large language models (LLMs) have revolutionized natural language processing tasks. However, their practical deployment is hindered by their immense memory and computation requirements. Although recent post-training quantization (PTQ) methods are effective in reducing memory footprint and improving the computational efficiency of LLM, they hand-craft quantization parameters, which leads to low performance and fails to deal with extremely low-bit quantization. To tackle this issue, we introduce an Omnidirectionally calibrated Quantization (OmniQuant) technique for LLMs, which achieves good performance in diverse quantization settings while maintaining the computational efficiency of PTQ by efficiently optimizing various quantization parameters. OmniQuant comprises two innovative components including Learnable Weight Clipping (LWC) and Learnable Equivalent Transformation (LET). LWC modulates the extreme values of weights by optimizing the clipping threshold. Meanwhile, LET tackles activation outliers by shifting the challenge of quantization from activations to weights through a learnable equivalent transformation. Operating within a differentiable framework using block-wise error minimization, OmniQuant can optimize the quantization process efficiently for both weight-only and weight-activation quantization. For instance, the LLaMA-2 model family with the size of 7-70B can be processed with OmniQuant on a single A100-40G GPU within 1-16 hours using 128 samples. Extensive experiments validate OmniQuant's superior performance across diverse quantization configurations such as W4A4, W6A6, W4A16, W3A16, and W2A16. Additionally, OmniQuant demonstrates effectiveness in instruction-tuned models and delivers notable improvements in inference speed and memory reduction on real devices. Codes and models are available at \url{https://github.com/OpenGVLab/OmniQuant}.
翻訳日:2023-10-25 07:40:18 公開日:2023-10-22
# 対称関数のきめ細かい問合せ複雑性について

On the Fine-Grained Query Complexity of Symmetric Functions ( http://arxiv.org/abs/2309.11279v2 )

ライセンス: Link先を確認
Supartha Podder, Penghui Yao and Zekun Ye(参考訳) 本稿では、確率が任意に1/2$に近いランダム化および量子化アルゴリズムを含む、Watrous予想のきめ細かいバージョンを探索する。 私たちの貢献には以下のものがある。 i) 固定されたクエリ数が与えられた2つの基本部分対称ブール関数の量子およびランダム化クエリアルゴリズムの最適成功確率の解析。 我々は、これらの2つの関数を$t$クエリで計算する量子アルゴリズムに対して、成功確率が1/2に近い場合であっても、量子アルゴリズムと同じ成功確率を達成する$\mathsf{poly}(t)$クエリを用いたランダム化アルゴリズムが存在することを証明する。 i)任意の全対称ブール関数$f$に対して、量子アルゴリズムが成功確率1/2+\beta$を計算するために$T$クエリを使用していれば、成功確率1/2+\Omega(\delta\beta^2)$を計算するために$O(T^2)$クエリを使用してランダム化されたアルゴリズムが存在し、$\beta,\delta$を任意に小さな正の値にすることができる。 コーナリーとして、アルゴリズムの成功確率が 1/2 に任意に近づく状態において、全対称ブール関数に対するアーロンソン・アンバイニス導出のランダム化版を証明する。 iii) 部分対称ブール関数のいくつかの基本複雑性測度に対する多項式同値性を示す。 具体的には、ある部分対称ブール関数に対して、量子的クエリの複雑性は1/2に近い任意の誤差に対して最も2次的に証明する。 次に、量子クエリの複雑性が少なくとも2次であることを示す。 さらに、いくつかの複雑性測度の厳密な境界を与え、それらの多項式同値性を示す。

This paper explores a fine-grained version of the Watrous conjecture, including the randomized and quantum algorithms with success probabilities arbitrarily close to $1/2$. Our contributions include the following: i) An analysis of the optimal success probability of quantum and randomized query algorithms of two fundamental partial symmetric Boolean functions given a fixed number of queries. We prove that for any quantum algorithm computing these two functions using $T$ queries, there exist randomized algorithms using $\mathsf{poly}(T)$ queries that achieve the same success probability as the quantum algorithm, even if the success probability is arbitrarily close to 1/2. ii) We establish that for any total symmetric Boolean function $f$, if a quantum algorithm uses $T$ queries to compute $f$ with success probability $1/2+\beta$, then there exists a randomized algorithm using $O(T^2)$ queries to compute $f$ with success probability $1/2+\Omega(\delta\beta^2)$ on a $1-\delta$ fraction of inputs, where $\beta,\delta$ can be arbitrarily small positive values. As a corollary, we prove a randomized version of Aaronson-Ambainis Conjecture for total symmetric Boolean functions in the regime where the success probability of algorithms can be arbitrarily close to 1/2. iii) We present polynomial equivalences for several fundamental complexity measures of partial symmetric Boolean functions. Specifically, we first prove that for certain partial symmetric Boolean functions, quantum query complexity is at most quadratic in approximate degree for any error arbitrarily close to 1/2. Next, we show exact quantum query complexity is at most quadratic in degree. Additionally, we give the tight bounds of several complexity measures, indicating their polynomial equivalence.
翻訳日:2023-10-25 07:29:51 公開日:2023-10-22
# 画像復元のためのガイド周波数損失

Guided Frequency Loss for Image Restoration ( http://arxiv.org/abs/2309.15563v2 )

ライセンス: Link先を確認
Bilel Benjdira, Anas M. Ali, Anis Koubaa(参考訳) 近年,画像復元が著しい進歩を遂げている。 多くの生成モデルは、既知の画像の復元に適応している。 しかし、周波数領域からの利益に対する関心は、画像合成の特別な場合において主要な要因であるにもかかわらず、十分に検討されていない。 本研究では,画像の周波数コンテンツを空間内容と並行してバランスよく学習することを支援する誘導周波数損失(gfl)を提案する。 学習効率を高めるために並行して働く3つの主要なコンポーネント、すなわち、charbonnierコンポーネント、ラプラシアピラミッドコンポーネント、漸進周波数コンポーネントを集約する。 我々はスーパーレゾリューションとDenoisingタスクでGFLをテストした。 それぞれに3つの異なるデータセットと3つの異なるアーキテクチャを使いました。 その結果、ほとんどの実験でGFL損失はPSNR測定値を改善した。 また、SwinIRとSRGANの両方でスーパーレゾリューションモデルのトレーニングを改善した。 さらに, 試料中の高周波数成分の確率性が低下するため, GFL損失の有効性は, 制約データにより向上した。

Image Restoration has seen remarkable progress in recent years. Many generative models have been adapted to tackle the known restoration cases of images. However, the interest in benefiting from the frequency domain is not well explored despite its major factor in these particular cases of image synthesis. In this study, we propose the Guided Frequency Loss (GFL), which helps the model to learn in a balanced way the image's frequency content alongside the spatial content. It aggregates three major components that work in parallel to enhance learning efficiency; a Charbonnier component, a Laplacian Pyramid component, and a Gradual Frequency component. We tested GFL on the Super Resolution and the Denoising tasks. We used three different datasets and three different architectures for each of them. We found that the GFL loss improved the PSNR metric in most implemented experiments. Also, it improved the training of the Super Resolution models in both SwinIR and SRGAN. In addition, the utility of the GFL loss increased better on constrained data due to the less stochasticity in the high frequencies' components among samples.
翻訳日:2023-10-25 07:21:50 公開日:2023-10-22
# ObVi-SLAM: 長期的なオブジェクト指向SLAM

ObVi-SLAM: Long-Term Object-Visual SLAM ( http://arxiv.org/abs/2309.15268v2 )

ライセンス: Link先を確認
Amanda Adkins, Taijing Chen, Joydeep Biswas(参考訳) 長時間の作業に責任を持つロボットは、幾何学的、視点的、外観的変化の中で一貫してスカラー化できなければならない。 既存のvisual slamのアプローチは、このような環境変化に対して堅牢でない低レベルの機能記述子に依存しており、長期的にはスケールしない大きなマップサイズになる。 対照的に、オブジェクト検出は環境変動に対して堅牢であり、よりコンパクトな表現をもたらすが、ほとんどのオブジェクトベースのSLAMシステムは、クローゼットオブジェクトによる短期的な屋内配置をターゲットとしている。 本稿では,両手法のベストを活かし,これらの課題を克服するためにobvi-slamを提案する。 ObVi-SLAMは、高品質な短期視覚計測のために低レベルの視覚的特徴を使用し、グローバルで長期的な一貫性を確保するために、永続オブジェクトの不確実性を認識した長期マップを構築し、デプロイ毎に更新する。 気象条件や照明条件の異なる16回の配備セッションのデータに基づいてObVi-SLAMを評価することにより,ObVi-SLAMは外観条件が異なるにもかかわらず,長時間のスケールで正確な位置推定値を生成することを実証的に示す。

Robots responsible for tasks over long time scales must be able to localize consistently and scalably amid geometric, viewpoint, and appearance changes. Existing visual SLAM approaches rely on low-level feature descriptors that are not robust to such environmental changes and result in large map sizes that scale poorly over long-term deployments. In contrast, object detections are robust to environmental variations and lead to more compact representations, but most object-based SLAM systems target short-term indoor deployments with close objects. In this paper, we introduce ObVi-SLAM to overcome these challenges by leveraging the best of both approaches. ObVi-SLAM uses low-level visual features for high-quality short-term visual odometry; and to ensure global, long-term consistency, ObVi-SLAM builds an uncertainty-aware long-term map of persistent objects and updates it after every deployment. By evaluating ObVi-SLAM on data from 16 deployment sessions spanning different weather and lighting conditions, we empirically show that ObVi-SLAM generates accurate localization estimates consistent over long-time scales in spite of varying appearance conditions.
翻訳日:2023-10-25 07:21:16 公開日:2023-10-22
# 洪水浸水マッピングにおけるIBMとNASAの地理空間基盤モデルの評価

Assessment of IBM and NASA's geospatial foundation model in flood inundation mapping ( http://arxiv.org/abs/2309.14500v2 )

ライセンス: Link先を確認
Wenwen Li, Hyunho Lee, Sizhe Wang, Chia-Yu Hsu, Samantha T. Arundel(参考訳) ビジョンファウンデーションモデルは、膨大な地理空間データから重要な画像の特徴を学習し抽出することで強力な画像解析を可能にする可能性から、GeoAI研究の新たなフロンティアである。 そこで本稿は,IBM-NASAのPrithviによる地空間基盤モデルの性能評価を行い,地空間解析の重要課題である洪水浸水マッピングを支援する。 このモデルは、浸水した地域のマッピング精度の観点から、一般的な畳み込みニューラルネットワークや視覚トランスフォーマーアーキテクチャと比較される。 ベンチマークデータセットであるsen1floods11を実験に使用し、そのモデルによって完全に認識されていないテストデータセットとデータセットの両方に基づいて、モデルの予測可能性、一般化性、転送性を評価する。 以上の結果から,プリスヴィモデルでは,未確認領域のセグメンテーションにおける性能上の優位性が示された。 また,マルチスケール表現学習の導入,高レベル画像解析タスクのためのエンドツーエンドパイプラインの開発,入力データバンドの柔軟性向上など,prithviモデルの改善領域も示唆された。

Vision foundation models are a new frontier in GeoAI research because of their potential to enable powerful image analysis by learning and extracting important image features from vast amounts of geospatial data. This paper evaluates the performance of the first-of-its-kind geospatial foundation model, IBM-NASA's Prithvi, to support a crucial geospatial analysis task: flood inundation mapping. This model is compared with popular convolutional neural network and vision transformer-based architectures in terms of mapping accuracy for flooded areas. A benchmark dataset, Sen1Floods11, is used in the experiments, and the models' predictability, generalizability, and transferability are evaluated based on both a test dataset and a dataset that is completely unseen by the model. Results show the impressive transferability of the Prithvi model, highlighting its performance advantages in segmenting flooded areas in previously unseen regions. The findings also suggest areas for improvement for the Prithvi model in terms of adopting multi-scale representation learning, developing more end-to-end pipelines for high-level image analysis tasks, and offering more flexibility in terms of input data bands.
翻訳日:2023-10-25 07:20:52 公開日:2023-10-22
# lmc:トレーニングフリーオープンセット物体認識のためのクロスアセスメントによる大規模モデル協調

LMC: Large Model Collaboration with Cross-assessment for Training-Free Open-Set Object Recognition ( http://arxiv.org/abs/2309.12780v2 )

ライセンス: Link先を確認
Haoxuan Qu, Xiaofei Hui, Yujun Cai, Jun Liu(参考訳) オープンセットオブジェクト認識は、トレーニング中に遭遇したクラスからオブジェクトを識別することを目的としている。 オープンセットオブジェクト認識を正確に行うためには、素早い識別的特徴への依存を減らすかが課題である。 本稿では,異なるパラダイムを通じて事前学習された異なる大規模モデルが,異なる暗黙の知識を持つことができることを動機として,この課題に対処する新たなフレームワークであるLarge Model Collaboration(LMC)を提案する。 さらに,提案フレームワークをいくつかの新しい設計に組み込んで,大規模モデルから暗黙的な知識を効果的に抽出する。 広範な実験により,提案手法の有効性が実証された。 コードはhttps://github.com/Harryqu123/LMCで入手できる。

Open-set object recognition aims to identify if an object is from a class that has been encountered during training or not. To perform open-set object recognition accurately, a key challenge is how to reduce the reliance on spurious-discriminative features. In this paper, motivated by that different large models pre-trained through different paradigms can possess very rich while distinct implicit knowledge, we propose a novel framework named Large Model Collaboration (LMC) to tackle the above challenge via collaborating different off-the-shelf large models in a training-free manner. Moreover, we also incorporate the proposed framework with several novel designs to effectively extract implicit knowledge from large models. Extensive experiments demonstrate the efficacy of our proposed framework. Code is available https://github.com/Harryqu123/LMC
翻訳日:2023-10-25 07:19:37 公開日:2023-10-22
# 長距離ホッピングを有するフェルミオン鎖の非平衡定常輸送に及ぼす脱灰の影響

Impact of dephasing on non-equilibrium steady-state transport in fermionic chains with long-range hopping ( http://arxiv.org/abs/2310.01323v2 )

ライセンス: Link先を確認
Subhajit Sarkar, Bijay Kumar Agarwalla, Devendra Singh Bhakuni(参考訳) 非平衡状態における量子輸送は、量子デバイスから生体システムまで、システムの特性を理解する上で重要な役割を果たす。 非平衡システムの重要な側面であるデフォーカスは、ノイズの多い環境との相互作用から逸脱し、輸送特性を深く修正することができる。 ここでは、非相互作用フェルミオンの非平衡定常輸送特性が長距離ホッピングを持つ一次元格子(\sim \frac{1}{r^\alpha}$)に与える影響を検討する。 長距離ホッピングパラメータ$\alpha$が調整されているため、異なる輸送機構の出現を示す。 短距離極限 (\alpha \gg 1$) では輸送は拡散的であり、一方長距離極限 (\alpha \sim \mathcal{O}(1)$) では超拡散的輸送体制を観察する。 リンドブラッドマスター方程式の数値シミュレーションを用いて、現在の作用素ノルムの分析と相関し、臨界長距離ホッピングパラメータである$\alpha_c \approx 1.5$を同定する。 間欠的に、超拡散状態において、非平衡定常抵抗における対数式からパワーローシステムサイズの依存性は、$\alpha \leq 1$ から$\alpha \lesssim 1.5$ に変化する。 その結果,デファスメントとユニタリダイナミクスの複雑なバランスが解明され,新しい定常輸送特性が明らかになった。

Quantum transport in a non-equilibrium setting plays a fundamental role in understanding the properties of systems ranging from quantum devices to biological systems. Dephasing -- a key aspect of out-of-equilibrium systems -- arises from the interactions with the noisy environment and can profoundly modify transport features. Here, we investigate the impact of dephasing on the non-equilibrium steady-state transport properties of non-interacting fermions on a one-dimensional lattice with long-range hopping ($\sim \frac{1}{r^\alpha}$). We show the emergence of distinct transport regimes as the long-range hopping parameter $\alpha$ is tuned. In the short-range limit ($\alpha \gg 1$), transport is diffusive, while for the long-range limit ($\alpha \sim \mathcal{O}(1)$), we observe a super-diffusive transport regime. Using the numerical simulation of the Lindblad master equation, and corroborated with the analysis of the current operator norm, we identify a critical long-range hopping parameter, $\alpha_c \approx 1.5$, below which super-diffusive transport becomes evident that quickly becomes independent of the dephasing strength. Interstingly, within the super-diffusive regime, we find a crossover from logarithmic to power-law system-size dependence in the non-equilibrium steady-state resistance when $\alpha$ varies from $\alpha \leq 1$ to $\alpha \lesssim 1.5$. Our results, thus, elucidate the intricate balance between dephasing and unitary dynamics, revealing novel steady-state transport features.
翻訳日:2023-10-25 07:09:10 公開日:2023-10-22
# 自己回帰型時系列データに対する完全予測型貯留層計算の数学的構造

Mathematical structure of perfect predictive reservoir computing for autoregressive type of time series data ( http://arxiv.org/abs/2310.00290v2 )

ライセンス: Link先を確認
Tsuyoshi Yoneda(参考訳) Reservoir Computing(RC)は再帰的ニューラルネットワーク(RNN)の一種であり、RCがトレーニングコストが低く、高速で計算能力の高い時系列データの将来の予測モデルを構築するために、より広く使われるようになることは疑いない。 しかし,rcニューラルネットワークの数学的構造に関する研究が最近始まったばかりである。 Bollt (2021) は、RCニューラルネットワークの数学的構造に関する洞察を得るために自己回帰(AR)モデルの必要性を明らかにし、Wold分解定理がこれらの理解のマイルストーンであることを示した。 そこで本研究では,rcニューラルネットワークにおける入力重み行列と再帰重み行列の隠れた構造を念頭に置いて,これらの構造がar型時系列データの完全な予測を実現することを示す。

Reservoir Computing (RC) is a type of recursive neural network (RNN), and there can be no doubt that the RC will be more and more widely used for building future prediction models for time-series data, with low training cost, high speed and high computational power. However, research into the mathematical structure of RC neural networks has only recently begun. Bollt (2021) clarified the necessity of the autoregressive (AR) model for gaining the insight into the mathematical structure of RC neural networks, and indicated that the Wold decomposition theorem is the milestone for understanding of these. Keeping this celebrated result in mind, in this paper, we clarify hidden structures of input and recurrent weight matrices in RC neural networks, and show that such structures attain perfect prediction for the AR type of time series data.
翻訳日:2023-10-25 07:08:01 公開日:2023-10-22
# ヘキサ:知識接地対話システムのための自己改善

Hexa: Self-Improving for Knowledge-Grounded Dialogue System ( http://arxiv.org/abs/2310.06404v2 )

ライセンス: Link先を確認
Daejin Jo, Daniel Wontae Nam, Gunsoo Han, Kyoung-Woon On, Taehwan Kwon, Seungeun Rho, Sungwoong Kim(参考訳) 知識基底ダイアログ生成の一般的な実践は、モジュール的なアプローチで中間ステップ(例えば、Web検索、メモリ検索)を明示的に利用することである。 しかし、通常の対話では観測できないため、このようなステップのデータは対話応答のデータに比べてアクセスし難いことが多い。 これらのデータの欠如を補うために, 基礎的真理データを用いずに中間段の生成性能を向上させる自己改善手法を開発した。 特に, 自己生成応答の多様性を高めるために, 誘導プロンプトと修正損失関数を備えた新しいブートストラップ方式を提案する。 種々のベンチマークデータセットの実験を通して,本手法は中間応答と最終応答を生成する自己改善機構をうまく活用し,知識基底型対話生成タスクの性能を向上させることを実証的に実証した。

A common practice in knowledge-grounded dialogue generation is to explicitly utilize intermediate steps (e.g., web-search, memory retrieval) with modular approaches. However, data for such steps are often inaccessible compared to those of dialogue responses as they are unobservable in an ordinary dialogue. To fill in the absence of these data, we develop a self-improving method to improve the generative performances of intermediate steps without the ground truth data. In particular, we propose a novel bootstrapping scheme with a guided prompt and a modified loss function to enhance the diversity of appropriate self-generated responses. Through experiments on various benchmark datasets, we empirically demonstrate that our method successfully leverages a self-improving mechanism in generating intermediate and final responses and improves the performances on the task of knowledge-grounded dialogue generation.
翻訳日:2023-10-25 06:50:21 公開日:2023-10-22
# 事前学習列列モデルを用いたキーワード生成のためのモデル選択と復号化の検討

Rethinking Model Selection and Decoding for Keyphrase Generation with Pre-trained Sequence-to-Sequence Models ( http://arxiv.org/abs/2310.06374v2 )

ライセンス: Link先を確認
Di Wu, Wasi Uddin Ahmad, Kai-Wei Chang(参考訳) keyphrase generation (kpg) はnlpの長年にわたるタスクであり、広く応用されている。 sequence-to-sequence (seq2seq) pre-trained language model (plms) の出現は、kpgの変革期を告げ、有望なパフォーマンス改善をもたらした。 しかし、多くの設計決定は未検討のままであり、しばしば任意に行われる。 本稿では,plmベースのkpgに対するモデル選択と復号戦略の影響を体系的に分析する。 まず,seq2seq plmがkpgに適している理由を明らかにする。 1) モデルサイズを増加させたり,タスク固有の適応を実行するだけではパラメータ効率が向上しない,(2) ドメイン内事前トレーニングとタスク適応の併用はkpgの利点だが,一般化を部分的に妨げている。 復号化に関しては,グリージー検索はF1スコアが強いが,サンプリング法に比べて遅延が小さいことを示す。 これらの知見に基づいて,Seq2seq PLMのための確率ベースデコード選択アルゴリズムであるDeSelを提案する。 DeSelは5つのデータセットで平均4.7%のセマンティックF1による欲求検索を改善している。 本研究は, PLM を用いた KPG の今後の研究の道を開くものである。

Keyphrase Generation (KPG) is a longstanding task in NLP with widespread applications. The advent of sequence-to-sequence (seq2seq) pre-trained language models (PLMs) has ushered in a transformative era for KPG, yielding promising performance improvements. However, many design decisions remain unexplored and are often made arbitrarily. This paper undertakes a systematic analysis of the influence of model selection and decoding strategies on PLM-based KPG. We begin by elucidating why seq2seq PLMs are apt for KPG, anchored by an attention-driven hypothesis. We then establish that conventional wisdom for selecting seq2seq PLMs lacks depth: (1) merely increasing model size or performing task-specific adaptation is not parameter-efficient; (2) although combining in-domain pre-training with task adaptation benefits KPG, it does partially hinder generalization. Regarding decoding, we demonstrate that while greedy search achieves strong F1 scores, it lags in recall compared with sampling-based methods. Based on these insights, we propose DeSel, a likelihood-based decode-select algorithm for seq2seq PLMs. DeSel improves greedy search by an average of 4.7% semantic F1 across five datasets. Our collective findings pave the way for deeper future investigations into PLM-based KPG.
翻訳日:2023-10-25 06:50:06 公開日:2023-10-22
# ベイズ推論を用いた自律走行知覚における偽陽性率の低減

Reducing the False Positive Rate Using Bayesian Inference in Autonomous Driving Perception ( http://arxiv.org/abs/2310.05951v2 )

ライセンス: Link先を確認
Gledson Melotti, Johann J. S. Bastos, Bruno L. S. da Silva, Tiago Zanotelli, Cristiano Premebida(参考訳) オブジェクト認識は、このトピックにおける多くの研究成果によって証明されているように、自律車やインテリジェント車の認識システムにおいて重要なステップである。 本稿では,偽陽性率(fpr)を低減すべく,マルチセンサとマルチモダリティアプローチを用いて物体認識について検討する。 FPRの低減は、物体の誤分類が事故を引き起こす可能性があるため、認識システムにおいてますます重要になる。 特に本研究では,正規化ヒストグラムの累積関数として,確率関数をガウス的核密度推定から累積分布関数とし,事前確率を累積分布関数とするベイズ推定手法を提案する。 提案手法の検証は, ディープネットワーク(DenseNet, NasNet, EfficientNet)と最近の3Dポイントクラウドネットワーク(PointNet, PintNet++)を用いて, 3つのオブジェクトカテゴリ(車, サイクリスト, 歩行者)とRGBおよびLiDARセンサモードを考慮し, KITTIデータセット上で行う。

Object recognition is a crucial step in perception systems for autonomous and intelligent vehicles, as evidenced by the numerous research works in the topic. In this paper, object recognition is explored by using multisensory and multimodality approaches, with the intention of reducing the false positive rate (FPR). The reduction of the FPR becomes increasingly important in perception systems since the misclassification of an object can potentially cause accidents. In particular, this work presents a strategy through Bayesian inference to reduce the FPR considering the likelihood function as a cumulative distribution function from Gaussian kernel density estimations, and the prior probabilities as cumulative functions of normalized histograms. The validation of the proposed methodology is performed on the KITTI dataset using deep networks (DenseNet, NasNet, and EfficientNet), and recent 3D point cloud networks (PointNet, and PintNet++), by considering three object-categories (cars, cyclists, pedestrians) and the RGB and LiDAR sensor modalities.
翻訳日:2023-10-25 06:49:45 公開日:2023-10-22
# 言語モデルは類推的推論を学べるか? トレーニング目標の検討と人的パフォーマンスとの比較

Can language models learn analogical reasoning? Investigating training objectives and comparisons to human performance ( http://arxiv.org/abs/2310.05597v3 )

ライセンス: Link先を確認
Molly R. Petersen, Lonneke van der Plas(参考訳) アナロジーは、nlpにおける単語埋め込みを評価する一般的な方法であるが、アナロジー推論がそれ自体が学習できるタスクであるかどうかを調べることも興味深い。 本稿では,NLPベンチマークでよく用いられるものよりも,ヒトの類似推論を評価するのによく用いられるアナロジーに特化して,基本的なアナロジー推論を学習する方法をいくつか試す。 実験の結果,少量のデータであっても,モデルが類似推論を学習できることが判明した。 さらに、モデルとデータセットを人間のベースラインと比較すると、トレーニング後にモデルが人間のパフォーマンスに近づくことが分かります。

While analogies are a common way to evaluate word embeddings in NLP, it is also of interest to investigate whether or not analogical reasoning is a task in itself that can be learned. In this paper, we test several ways to learn basic analogical reasoning, specifically focusing on analogies that are more typical of what is used to evaluate analogical reasoning in humans than those in commonly used NLP benchmarks. Our experiments find that models are able to learn analogical reasoning, even with a small amount of data. We additionally compare our models to a dataset with a human baseline, and find that after training, models approach human performance.
翻訳日:2023-10-25 06:48:12 公開日:2023-10-22
# llmsの民主化:自己精製オープンソースモデルにおけるコストパフォーマンストレードオフの探求

Democratizing LLMs: An Exploration of Cost-Performance Trade-offs in Self-Refined Open-Source Models ( http://arxiv.org/abs/2310.07611v2 )

ライセンス: Link先を確認
Sumuk Shashidhar, Abhinav Chinta, Vaibhav Sahai, Zhenhailong Wang, Heng Ji(参考訳) プロプライエタリなLSMの優位性は、アクセス制限と情報プライバシーの懸念を引き起こしている。 情報センシティブで高ボリュームなアプリケーションには、高性能なオープンソース代替製品が不可欠だが、パフォーマンスには遅れがしばしばある。 このギャップに対処するため,(1)外的影響を伴わない反復的自己批判と自己抑制の未目標変種を提案する。 2) 性能, 精細化, 推論コストスコア (PeRFICS) という新しいランク付け指標を用いて, 改良された性能とコストを考慮したタスクの最適モデルを求める。 実験の結果,SoTAのオープンソースモデルは7Bから65Bまで,ベースライン性能は平均8.2%向上した。 厳密に言えば、Vicuna-7Bのような非常に小さなメモリフットプリントを持つモデルでさえ、全体的な11.74%の改善を示し、Vicunaベンチマークでは25.39%の改善が達成された。 Vicuna-13Bはさらに一歩前進し、ChatGPTのポストリファインメントを上回っている。 この研究は、資源に制約のある情報に敏感な環境において、違法なコストを伴わずにLCMを活用し、パフォーマンスとプライバシを損なうことなく、大きな意味を持つ。 新たなランキング指標と組み合わされたドメイン非依存な自己定義プロセスは、モデル選択のインフォームド意思決定を促進し、コストを削減し、高パフォーマンス言語モデルへのアクセスを民主化する。

The dominance of proprietary LLMs has led to restricted access and raised information privacy concerns. High-performing open-source alternatives are crucial for information-sensitive and high-volume applications but often lag behind in performance. To address this gap, we propose (1) A untargeted variant of iterative self-critique and self-refinement devoid of external influence. (2) A novel ranking metric - Performance, Refinement, and Inference Cost Score (PeRFICS) - to find the optimal model for a given task considering refined performance and cost. Our experiments show that SoTA open source models of varying sizes from 7B - 65B, on average, improve 8.2% from their baseline performance. Strikingly, even models with extremely small memory footprints, such as Vicuna-7B, show a 11.74% improvement overall and up to a 25.39% improvement in high-creativity, open ended tasks on the Vicuna benchmark. Vicuna-13B takes it a step further and outperforms ChatGPT post-refinement. This work has profound implications for resource-constrained and information-sensitive environments seeking to leverage LLMs without incurring prohibitive costs, compromising on performance and privacy. The domain-agnostic self-refinement process coupled with our novel ranking metric facilitates informed decision-making in model selection, thereby reducing costs and democratizing access to high-performing language models, as evidenced by case studies.
翻訳日:2023-10-25 06:41:29 公開日:2023-10-22
# 動的グラフCNNによる局所幾何構造を用いた点雲デノジングと外乱検出

Point Cloud Denoising and Outlier Detection with Local Geometric Structure by Dynamic Graph CNN ( http://arxiv.org/abs/2310.07376v2 )

ライセンス: Link先を確認
Kosuke Nakayama, Hiroto Fukuta, Hiroshi Watanabe(参考訳) 社会のデジタル化は、デジタル・ツインとメタバースの実現に向けて急速に進んでいる。 特にポイントクラウドは、3d空間のメディアフォーマットとして注目を集めている。 点雲データは測定誤差によりノイズや異常値で汚染される。 したがって、ポイントクラウド処理にはノイズ検出と異常検出が必要である。 その中でもPointCleanNetは,ポイントクラウドのノイズ検出とアウトレイラ検出に有効な方法である。 しかし、パッチの局所的な幾何学的構造は考慮していない。 動的グラフCNNに基づいて設計された2種類のグラフ畳み込み層を適用してこの問題を解決する。 実験の結果,提案手法は,異常検出精度を示すaupr法と,異化精度を示すchamfer距離法よりも優れていた。

The digitalization of society is rapidly developing toward the realization of the digital twin and metaverse. In particular, point clouds are attracting attention as a media format for 3D space. Point cloud data is contaminated with noise and outliers due to measurement errors. Therefore, denoising and outlier detection are necessary for point cloud processing. Among them, PointCleanNet is an effective method for point cloud denoising and outlier detection. However, it does not consider the local geometric structure of the patch. We solve this problem by applying two types of graph convolutional layer designed based on the Dynamic Graph CNN. Experimental results show that the proposed methods outperform the conventional method in AUPR, which indicates outlier detection accuracy, and Chamfer Distance, which indicates denoising accuracy.
翻訳日:2023-10-25 06:40:13 公開日:2023-10-22
# タブラルデータ学習のための基礎モデルに向けて

Towards Foundation Models for Learning on Tabular Data ( http://arxiv.org/abs/2310.07338v2 )

ライセンス: Link先を確認
Han Zhang, Xumeng Wen, Shun Zheng, Wei Xu, Jiang Bian(参考訳) 表データの学習は多くの現実世界のアプリケーションを支える。 表形式のデータに対する効果的な学習モデルの開発に多大な努力を払ってはいるが、現在の移行可能な表形式のモデルは、新しいタスクに追従する直接命令のサポートの欠如や、様々な表形式のデータセットから基礎知識や能力の獲得の欠如によって制限されている。 本稿では,これらの制約を克服するためのタブラル基礎モデル(TabFM)を提案する。 TabFMは生成表学習の可能性を生かし、訓練済みの大規模言語モデル(LLM)をベースモデルとして使用し、広範囲の表付きデータセットに基づいて目的に設計された目的を用いて微調整する。 このアプローチは、表データの学習に不可欠な深い理解と普遍性を備えたTabFMを提供する。 我々の評価は,TabFMの有効性を裏付けるものである。ゼロショットやインコンテキスト推論のような命令追従タスクに優れるだけでなく,GPT-4のような謎めいたクローズドソースのLCMにも,そのアプローチや,さらには超越といったパフォーマンスを示す。 さらに,少ないデータで微調整を行う場合,本モデルは優れた効率を達成し,豊富なトレーニングデータとの競合性能を維持する。 最後に,TabFMの限界や可能性についても検討し,より強力なTabFMの開発に向けた今後の研究を促進・促進することを目的とする。

Learning on tabular data underpins numerous real-world applications. Despite considerable efforts in developing effective learning models for tabular data, current transferable tabular models remain in their infancy, limited by either the lack of support for direct instruction following in new tasks or the neglect of acquiring foundational knowledge and capabilities from diverse tabular datasets. In this paper, we propose Tabular Foundation Models (TabFMs) to overcome these limitations. TabFMs harness the potential of generative tabular learning, employing a pre-trained large language model (LLM) as the base model and fine-tuning it using purpose-designed objectives on an extensive range of tabular datasets. This approach endows TabFMs with a profound understanding and universal capabilities essential for learning on tabular data. Our evaluations underscore TabFM's effectiveness: not only does it significantly excel in instruction-following tasks like zero-shot and in-context inference, but it also showcases performance that approaches, and in instances, even transcends, the renowned yet mysterious closed-source LLMs like GPT-4. Furthermore, when fine-tuning with scarce data, our model achieves remarkable efficiency and maintains competitive performance with abundant training data. Finally, while our results are promising, we also delve into TabFM's limitations and potential opportunities, aiming to stimulate and expedite future research on developing more potent TabFMs.
翻訳日:2023-10-25 06:40:02 公開日:2023-10-22
# EViT:バイフォア自己認識型イーグルビジョントランス

EViT: An Eagle Vision Transformer with Bi-Fovea Self-Attention ( http://arxiv.org/abs/2310.06629v2 )

ライセンス: Link先を確認
Yulong Shi, Mingwei Sun, Yongshuai Wang, Rui Wang, Hui Sun, Zengqiang Chen(参考訳) 深層学習技術の進歩により、視覚トランスフォーマーは様々なコンピュータビジョンタスクにおいて競争性能を示した。 残念ながら、視覚変換器は高い計算複雑性や望ましい帰納バイアスの欠如など、いくつかの課題に直面している。 これらの問題を緩和するために、ワシ眼における両眼視の生理的構造と特徴に着想を得て、新しいBFSA(Bi-Fovea Self-Attention)を提案する。 このbfsaは、eagle visionの浅いfovea関数と深いfovea関数をシミュレートし、ネットワークがターゲットの特徴表現を粗く細かいものから抽出し、マルチスケールの特徴表現の相互作用を容易にする。 さらに,bfsaに基づくbionic eagle vision (bev)ブロックの設計を行った。 CNNとVision Transformerの利点を組み合わせて、ネットワークのグローバルな特徴表現とローカルな特徴表現の能力を強化する。 さらに、この研究において、Eagle Vision Transformers (EViTs)と呼ばれるBEVブロックを積み重ねることで、統一的で効率的な汎用ピラミッドバックボーンネットワークファミリを開発する。 画像分類,オブジェクト検出,インスタンスセグメンテーション,その他の移動学習タスクを含む様々なコンピュータビジョンタスクの実験結果から,提案したEViTは,同じモデルサイズでのベースラインと比較し,他のモデルよりも高速なグラフィックス処理を行うことを示す。 コードはhttps://github.com/nkusyl/evitで入手できる。

Thanks to the advancement of deep learning technology, vision transformer has demonstrated competitive performance in various computer vision tasks. Unfortunately, vision transformer still faces some challenges such as high computational complexity and absence of desirable inductive bias. To alleviate these problems, a novel Bi-Fovea Self-Attention (BFSA) is proposed, inspired by the physiological structure and characteristics of bi-fovea vision in eagle eyes. This BFSA can simulate the shallow fovea and deep fovea functions of eagle vision, enable the network to extract feature representations of targets from coarse to fine, facilitate the interaction of multi-scale feature representations. Additionally, a Bionic Eagle Vision (BEV) block based on BFSA is designed in this study. It combines the advantages of CNNs and Vision Transformers to enhance the ability of global and local feature representations of networks. Furthermore, a unified and efficient general pyramid backbone network family is developed by stacking the BEV blocks in this study, called Eagle Vision Transformers (EViTs). Experimental results on various computer vision tasks including image classification, object detection, instance segmentation and other transfer learning tasks show that the proposed EViTs perform effectively by comparing with the baselines under same model size and exhibit higher speed on graphics processing unit than other models. Code is available at https://github.com/nkusyl/EViT.
翻訳日:2023-10-25 06:38:48 公開日:2023-10-22
# 階層的指数族エネルギーモデルにおけるニューラルサンプリング

Neural Sampling in Hierarchical Exponential-family Energy-based Models ( http://arxiv.org/abs/2310.08431v2 )

ライセンス: Link先を確認
Xingsi Dong, Si Wu(参考訳) ベイジアン脳理論は、脳は外界を理解するために生成モデルを使っていることを示唆している。 サンプリングに基づく観点では、脳は確率的神経反応のサンプルを通して後部分布を推測する。 さらに、脳はその生成モデルを継続的に更新し、外界の真の分布にアプローチする。 本研究では,推論と学習のダイナミクスを捉える階層的指数族エネルギーベース(HEE)モデルを提案する。 HEEモデルでは、分割関数を個々の層に分解し、短い時間定数のニューロン群を利用して分解正規化項の勾配をサンプリングする。 これにより,従来のエネルギーベースモデル (ebms) では負の位相を回避し,分割関数を推定し,同時に推論を行うことができる。 その結果、学習プロセスは時間と空間の両方で局所化され、モデルを簡単に収束させることができる。 脳の急速な計算に適合するため、神経適応は運動量項として機能し、推論過程を著しく加速できることを実証する。 自然画像データセットでは,生体視覚系で観察された画像に類似した表現を示す。 さらに、機械学習コミュニティにとって、このモデルはジョイントまたはマージン生成を通じて観察を生成できる。 限界生成は共同生成より優れ,他のESMと同等の性能を発揮することを示す。

Bayesian brain theory suggests that the brain employs generative models to understand the external world. The sampling-based perspective posits that the brain infers the posterior distribution through samples of stochastic neuronal responses. Additionally, the brain continually updates its generative model to approach the true distribution of the external world. In this study, we introduce the Hierarchical Exponential-family Energy-based (HEE) model, which captures the dynamics of inference and learning. In the HEE model, we decompose the partition function into individual layers and leverage a group of neurons with shorter time constants to sample the gradient of the decomposed normalization term. This allows our model to estimate the partition function and perform inference simultaneously, circumventing the negative phase encountered in conventional energy-based models (EBMs). As a result, the learning process is localized both in time and space, and the model is easy to converge. To match the brain's rapid computation, we demonstrate that neural adaptation can serve as a momentum term, significantly accelerating the inference process. On natural image datasets, our model exhibits representations akin to those observed in the biological visual system. Furthermore, for the machine learning community, our model can generate observations through joint or marginal generation. We show that marginal generation outperforms joint generation and achieves performance on par with other EBMs.
翻訳日:2023-10-25 06:28:59 公開日:2023-10-22
# Hyp-UML:不確かさを意識したメトリクス学習による双曲的画像検索

Hyp-UML: Hyperbolic Image Retrieval with Uncertainty-aware Metric Learning ( http://arxiv.org/abs/2310.08390v2 )

ライセンス: Link先を確認
Shiyang Yan, Zongxuan Liu, Lin Xu(参考訳) メトリック学習は、画像検索と分類のトレーニングにおいて重要な役割を果たす。 また、例えば、特徴学習とその距離空間におけるアライメントのための表現学習における重要なアルゴリズムでもある。 ハイパーボリック埋め込みは近年開発されている。 前述したほとんどのモデルにおける通常のユークリッド埋め込みと比較して、双曲埋め込みは階層データ構造を表現する上でより効果的である。 第二に、不確実性の推定/測定は人工知能における長期的な課題である。 不確実性の推定に成功すると、機械学習モデルのパフォーマンス、堅牢性、セキュリティが向上する。 双曲空間において、不確実性の測定は、少なくともそれ以上でも重要な重要性を持つ。 本稿では,画像検索のための不確実性を考慮したメトリクス学習を組み込んだハイパーボリック画像を開発する。 我々はHyp-UMLと呼ばれるハイパーボリックな不確かさを意識したメトリックラーニングを行う。 我々は,ハイパーボリック空間に基づく画像埋め込みアルゴリズムとそれに対応する不確実性値を提案する。また,一般的なコントラスト学習と従来型のマージンベースのメトリクス学習の2種類の不確実性を考慮したメトリクス学習を提案する。 我々は,提案アルゴリズムが関連する手法で最先端の成果を得られることを示すため,広範囲な実験的検証を行った。 包括的アブレーション研究は,提案アルゴリズムの各成分の有効性を検証する。

Metric learning plays a critical role in training image retrieval and classification. It is also a key algorithm in representation learning, e.g., for feature learning and its alignment in metric space. Hyperbolic embedding has been recently developed. Compared to the conventional Euclidean embedding in most of the previously developed models, Hyperbolic embedding can be more effective in representing the hierarchical data structure. Second, uncertainty estimation/measurement is a long-lasting challenge in artificial intelligence. Successful uncertainty estimation can improve a machine learning model's performance, robustness, and security. In Hyperbolic space, uncertainty measurement is at least with equivalent, if not more, critical importance. In this paper, we develop a Hyperbolic image embedding with uncertainty-aware metric learning for image retrieval. We call our method Hyp-UML: Hyperbolic Uncertainty-aware Metric Learning. Our contribution are threefold: we propose an image embedding algorithm based on Hyperbolic space, with their corresponding uncertainty value; we propose two types of uncertainty-aware metric learning, for the popular Contrastive learning and conventional margin-based metric learning, respectively. We perform extensive experimental validations to prove that the proposed algorithm can achieve state-of-the-art results among related methods. The comprehensive ablation study validates the effectiveness of each component of the proposed algorithm.
翻訳日:2023-10-25 06:28:06 公開日:2023-10-22
# AdaLomo: 適応学習率による低メモリ最適化

AdaLomo: Low-memory Optimization with Adaptive Learning Rate ( http://arxiv.org/abs/2310.10195v2 )

ライセンス: Link先を確認
Kai Lv, Hang Yan, Qipeng Guo, Haijun Lv, Xipeng Qiu(参考訳) 大規模言語モデルは目覚ましい成功を収めたが、その広範なパラメータサイズはトレーニングにかなりのメモリを必要とするため、高い閾値を設定できる。 最近提案されたlow-memory optimization (lomo)はメモリフットプリントを減少させるが、その最適化技術は確率的勾配降下に似ており、ハイパーパラメータに敏感であり、サブ最適収束を示す。 アダム最適化器の実証分析により、運動量と比較して、適応学習率はギャップを埋める上でより重要であることがわかった。 この知見に基づいて、各パラメータに対して適応学習率を提供する適応学習率(AdaLomo)を用いた低メモリ最適化を導入する。 メモリ効率を維持するため,オプティマイザ状態の2次モーメント推定には非負行列分解を用いる。 さらに,収束を安定化するためにグループ化更新正規化の利用を提案する。 本研究では,AdaLomoがAdamWと同等の結果を得るとともに,メモリ要求を大幅に低減し,大規模言語モデルの学習におけるハードウェア障壁を低くすることを示す。

Large language models have achieved remarkable success, but their extensive parameter size necessitates substantial memory for training, thereby setting a high threshold. While the recently proposed low-memory optimization (LOMO) reduces memory footprint, its optimization technique, akin to stochastic gradient descent, is sensitive to hyper-parameters and exhibits suboptimal convergence, failing to match the performance of the prevailing optimizer for large language models, AdamW. Through empirical analysis of the Adam optimizer, we found that, compared to momentum, the adaptive learning rate is more critical for bridging the gap. Building on this insight, we introduce the low-memory optimization with adaptive learning rate (AdaLomo), which offers an adaptive learning rate for each parameter. To maintain memory efficiency, we employ non-negative matrix factorization for the second-order moment estimation in the optimizer state. Additionally, we suggest the use of a grouped update normalization to stabilize convergence. Our experiments with instruction-tuning and further pre-training demonstrate that AdaLomo achieves results on par with AdamW, while significantly reducing memory requirements, thereby lowering the hardware barrier to training large language models.
翻訳日:2023-10-25 06:21:24 公開日:2023-10-22
# SeUNet-Trans:医療画像セグメンテーションのためのシンプルで効果的なUNet-Transformerモデル

SeUNet-Trans: A Simple yet Effective UNet-Transformer Model for Medical Image Segmentation ( http://arxiv.org/abs/2310.09998v2 )

ライセンス: Link先を確認
Tan-Hanh Pham, Xianqi Li, Kim-Doang Nguyen(参考訳) 正確な診断の必要性の高まり、パーソナライズされた治療計画の推進、機械学習アルゴリズムの進歩、特に深層学習法の導入によって、医療画像の自動分割が現代の臨床でますます重要になっている。 畳み込みニューラルネットワーク(cnns)はこれらの手法で広く普及しているが、コンピュータビジョンタスクにおけるトランスフォーマーベースのモデルの注目すべきポテンシャルは認識されている。 cnnモデルとトランスフォーマモデルの両方の利点を活用するため、医療画像分割のための単純かつ効果的なunet-transformer(seunet-trans)モデルを提案する。 提案手法では,入力画像から複数の特徴マップを生成する機能抽出器としてUNetモデルを設計し,これらのマップをブリッジ層に伝播させてUNetとトランスフォーマーを順次接続する。 この段階では,位置埋め込みベクトルを使わずに画素レベルの埋め込み技術を用いてモデルをより効率的にする。 さらに,トランスフォーマーの空間的減算を応用し,計算/メモリオーバーヘッドを低減した。 UNetアーキテクチャと自己認識機構を活用することで、我々のモデルはローカルとグローバルの両方のコンテキスト情報を保存するだけでなく、入力要素間の長距離依存関係もキャプチャする。 提案モデルはポリプセグメンテーションを含む5つの医用画像セグメンテーションデータセットを用いて広範囲に実験を行い,その効果を実証した。 これらのデータセットにおける最先端セグメンテーションモデルとの比較では、seUNet-Transの性能が優れている。

Automated medical image segmentation is becoming increasingly crucial in modern clinical practice, driven by the growing demand for precise diagnoses, the push towards personalized treatment plans, and advancements in machine learning algorithms, especially the incorporation of deep learning methods. While convolutional neural networks (CNNs) have been prevalent among these methods, the remarkable potential of Transformer-based models for computer vision tasks is gaining more acknowledgment. To harness the advantages of both CNN-based and Transformer-based models, we propose a simple yet effective UNet-Transformer (seUNet-Trans) model for medical image segmentation. In our approach, the UNet model is designed as a feature extractor to generate multiple feature maps from the input images, and these maps are propagated into a bridge layer, which sequentially connects the UNet and the Transformer. In this stage, we employ the pixel-level embedding technique without position embedding vectors to make the model more efficient. Moreover, we applied spatial-reduction attention in the Transformer to reduce the computational/memory overhead. By leveraging the UNet architecture and the self-attention mechanism, our model not only preserves both local and global context information but also captures long-range dependencies between input elements. The proposed model is extensively experimented on five medical image segmentation datasets, including polyp segmentation, to demonstrate its efficacy. A comparison with several state-of-the-art segmentation models on these datasets shows the superior performance of seUNet-Trans.
翻訳日:2023-10-25 06:20:32 公開日:2023-10-22
# 空間幾何学的推論を必要とするオブジェクトアセンブリタスクにおける視覚的表現のロバスト性評価

Evaluating Robustness of Visual Representations for Object Assembly Task Requiring Spatio-Geometrical Reasoning ( http://arxiv.org/abs/2310.09943v2 )

ライセンス: Link先を確認
Chahyon Ku, Carl Winge, Ryan Diaz, Wentao Yuan, Karthik Desingh(参考訳) 本稿では主に、オブジェクトアセンブリタスクのコンテキストにおける視覚表現の堅牢性の評価とベンチマークに焦点をあてる。 具体的には、一般にpeg-in-holeタスクと呼ばれる幾何学的押出しと侵入を伴う物体のアライメントと挿入について検討する。 成功組立のためにSE(3)空間のペグと穴形状を検出・オリエントするために必要な精度は大きな課題となる。 そこで我々はヴィジュアル・エンコーダとして視覚前訓練モデルを利用するvisosomotor policy learningの汎用フレームワークを採用している。 本研究は,両腕操作設定,特に把持変動に対して適用した場合のロバスト性について検討する。 我々の定量的分析は、既存の事前学習モデルでは、このタスクに必要な視覚的特徴を捉えることができないことを示している。 しかし、スクラッチから訓練されたビジュアルエンコーダは、凍結した事前訓練されたモデルよりも一貫して優れている。 さらに、政策学習を大幅に改善する回転表現と関連する損失関数について論じる。 本稿では,幾何学的・空間的推論を必要とする複雑な組み立て作業のロバスト性向上に特に焦点をあてた,visosomotor policy learningの進歩を評価するための新しいタスクシナリオを提案する。 ビデオ、追加の実験、データセット、コードはhttps://bit.ly/geometric-peg-in-hole.com/で入手できる。

This paper primarily focuses on evaluating and benchmarking the robustness of visual representations in the context of object assembly tasks. Specifically, it investigates the alignment and insertion of objects with geometrical extrusions and intrusions, commonly referred to as a peg-in-hole task. The accuracy required to detect and orient the peg and the hole geometry in SE(3) space for successful assembly poses significant challenges. Addressing this, we employ a general framework in visuomotor policy learning that utilizes visual pretraining models as vision encoders. Our study investigates the robustness of this framework when applied to a dual-arm manipulation setup, specifically to the grasp variations. Our quantitative analysis shows that existing pretrained models fail to capture the essential visual features necessary for this task. However, a visual encoder trained from scratch consistently outperforms the frozen pretrained models. Moreover, we discuss rotation representations and associated loss functions that substantially improve policy learning. We present a novel task scenario designed to evaluate the progress in visuomotor policy learning, with a specific focus on improving the robustness of intricate assembly tasks that require both geometrical and spatial reasoning. Videos, additional experiments, dataset, and code are available at https://bit.ly/geometric-peg-in-hole .
翻訳日:2023-10-25 06:20:04 公開日:2023-10-22
# 反復演示選択を用いたインテクスト学習

In-Context Learning with Iterative Demonstration Selection ( http://arxiv.org/abs/2310.09881v2 )

ライセンス: Link先を確認
Chengwei Qin, Aston Zhang, Anirudh Dagar, Wenming Ye(参考訳) 大規模化により,大規模言語モデル (LLM) は,文脈内学習 (ICL) を介して,強力な数発学習能力を示した。 しかし、iclの性能は、少数のデモの選択に非常に敏感であることが示されている。 コンテキストとして最も適切な例を選択することは、現在も進行中の課題であり、オープンな問題である。 既存の文献は、最適選択次元(多様性または類似性)がタスク固有であるという事実を無視しながら、テストサンプルと多様性または意味的に類似した例を選択することの重要性を強調している。 両次元のメリットを生かして,反復デモ選択(IDS)を提案する。 ゼロショットチェーン・オブ・シークレット推論(Zero-shot-CoT)を用いて、IDSは多種多様であるが、ICLの実証としてテストサンプルと強く相関する例を反復的に選択する。 具体的には、デモ選択前のテストサンプルにZero-shot-CoTを適用する。 出力推論パスは、推論のためにテストサンプルに事前設定されたデモを選択するために使用される。 生成された回答には、次のイテレーションで新しいデモセットを抽出する対応する推論パスが添付されている。 数回のイテレーションの後、idsは多数決を採用して最終結果を得る。 本研究は,コモンセンス推論,質問応答,トピック分類,感情分析などのタスクに関する広範な実験を通じて,IDSが既存のICLの実証選択手法を一貫して上回ることを示す。

Spurred by advancements in scale, large language models (LLMs) have demonstrated strong few-shot learning ability via in-context learning (ICL). However, the performance of ICL has been shown to be highly sensitive to the selection of few-shot demonstrations. Selecting the most suitable examples as context remains an ongoing challenge and an open problem. Existing literature has highlighted the importance of selecting examples that are diverse or semantically similar to the test sample while ignoring the fact that the optimal selection dimension, i.e., diversity or similarity, is task-specific. Leveraging the merits of both dimensions, we propose Iterative Demonstration Selection (IDS). Using zero-shot chain-of-thought reasoning (Zero-shot-CoT), IDS iteratively selects examples that are diverse but still strongly correlated with the test sample as ICL demonstrations. Specifically, IDS applies Zero-shot-CoT to the test sample before demonstration selection. The output reasoning path is then used to choose demonstrations that are prepended to the test sample for inference. The generated answer is accompanied by its corresponding reasoning path for extracting a new set of demonstrations in the next iteration. After several iterations, IDS adopts majority voting to obtain the final result. Through extensive experiments on tasks including commonsense reasoning, question answering, topic classification, and sentiment analysis, we demonstrate that IDS can consistently outperform existing ICL demonstration selection methods.
翻訳日:2023-10-25 06:19:43 公開日:2023-10-22
# 専門家を1つにマージする:専門家の混合の計算効率を改善する

Merging Experts into One: Improving Computational Efficiency of Mixture of Experts ( http://arxiv.org/abs/2310.09832v2 )

ライセンス: Link先を確認
Shwai He, Run-Ze Fan, Liang Ding, Li Shen, Tianyi Zhou, Dacheng Tao(参考訳) 言語モデルのサイズを拡大することは、通常、NLPタスクにおいて顕著な進歩をもたらす。 しかし、しばしば計算コストが増加するという価格が伴う。 スパースミキチャー・オブ・エキスパート(MoE)は、入力ごとにパラメータの小さなサブセット(例えば1つのエキスパート)を活性化することでコストを削減できるが、その計算はアクティベートされた専門家の数を増やして実用性を制限すると著しく増大する。 計算コストを大幅に高めることなく、専門家を増やすという利点を維持できるだろうか? 本稿では,まず,複数の専門家を選択することの優位性を実証し,その上で,計算コストを1人の専門家に還元する「textbf{\texttt{Merging Experts into One}} (MEO)」という計算効率の高い手法を提案する。 大規模な実験により、MEOは計算効率を著しく改善し、例えば、FLOPSはバニラMoEの72.0Gから28.6G(MEO)へと低下する。 さらに,トークンレベルのMEO(例えば 83.3\% (MEO) 対 82.6\% (vanilla MoE) 平均スコア) の GLUE ベンチマークにおける効率と性能をさらに向上させるトークンレベルの注目ブロックを提案する。 私たちのコードは受け入れ次第解放されます。 コードは \url{https://github.com/shwai-he/meo} でリリースされる。

Scaling the size of language models usually leads to remarkable advancements in NLP tasks. But it often comes with a price of growing computational cost. Although a sparse Mixture of Experts (MoE) can reduce the cost by activating a small subset of parameters (e.g., one expert) for each input, its computation escalates significantly if increasing the number of activated experts, limiting its practical utility. Can we retain the advantages of adding more experts without substantially increasing the computational costs? In this paper, we first demonstrate the superiority of selecting multiple experts and then propose a computation-efficient approach called \textbf{\texttt{Merging Experts into One}} (MEO), which reduces the computation cost to that of a single expert. Extensive experiments show that MEO significantly improves computational efficiency, e.g., FLOPS drops from 72.0G of vanilla MoE to 28.6G (MEO). Moreover, we propose a token-level attention block that further enhances the efficiency and performance of token-level MEO, e.g., 83.3\% (MEO) vs. 82.6\% (vanilla MoE) average score on the GLUE benchmark. Our code will be released upon acceptance. Code will be released at: \url{https://github.com/Shwai-He/MEO}.
翻訳日:2023-10-25 06:19:17 公開日:2023-10-22
# コモンセンス対応会話エージェントの対話連鎖蒸留

Dialogue Chain-of-Thought Distillation for Commonsense-aware Conversational Agents ( http://arxiv.org/abs/2310.09343v2 )

ライセンス: Link先を確認
Hyungjoo Chae, Yongho Song, Kai Tzu-iunn Ong, Taeyoon Kwon, Minjin Kim, Youngjae Yu, Dongha Lee, Dongyeop Kang, Jinyoung Yeo(参考訳) 人間のようなチャットボットは、会話の中で暗黙の情報を効果的に理解し、応答するために、常識推論の使用を必要とする。 しかし、そのような一貫性と応答のインフォマティブ性を達成することは、非自明なタスクである。 大きな言語モデル(llm)であっても、単一のホップ内で重要なエビデンスを識別し集約する作業は大きな課題となる。 この複雑さは、そのような証拠が会話中の複数のターンに散在するため、複数のホップ上の統合を必要とする。 したがって、対話コンテキスト、すなわち対話連鎖思考(CoT)推論において、このようなマルチホップ推論を促進することに注力する。 そこで本研究では,LLMを信頼できない教師として活用し,アライメントフィルタによる一貫した有理性を選択的に蒸留する知識蒸留フレームワークを提案する。 さらに、応答生成のための信頼性の高い CoT 論理を提供する DialOgue Chain-of-ThOught Reasoner である DOCTOR について述べる。 我々は,DOCTORから高品質な理性を持つ対話エージェントの強化が応答の質を著しく向上することを示すため,広範囲な実験を行った。

Human-like chatbots necessitate the use of commonsense reasoning in order to effectively comprehend and respond to implicit information present within conversations. Achieving such coherence and informativeness in responses, however, is a non-trivial task. Even for large language models (LLMs), the task of identifying and aggregating key evidence within a single hop presents a substantial challenge. This complexity arises because such evidence is scattered across multiple turns in a conversation, thus necessitating integration over multiple hops. Hence, our focus is to facilitate such multi-hop reasoning over a dialogue context, namely dialogue chain-of-thought (CoT) reasoning. To this end, we propose a knowledge distillation framework that leverages LLMs as unreliable teachers and selectively distills consistent and helpful rationales via alignment filters. We further present DOCTOR, a DialOgue Chain-of-ThOught Reasoner that provides reliable CoT rationales for response generation. We conduct extensive experiments to show that enhancing dialogue agents with high-quality rationales from DOCTOR significantly improves the quality of their responses.
翻訳日:2023-10-25 06:18:48 公開日:2023-10-22
# 大規模言語モデルによるマルチエージェント協調のための心の理論

Theory of Mind for Multi-Agent Collaboration via Large Language Models ( http://arxiv.org/abs/2310.10701v2 )

ライセンス: Link先を確認
Huao Li, Yu Quan Chong, Simon Stepputtis, Joseph Campbell, Dana Hughes, Michael Lewis, Katia Sycara(参考訳) 大規模言語モデル(llm)は推論と計画の両方において印象的な成果を上げてきたが、マルチエージェントコラボレーションにおけるその能力はほとんど未調査のままである。 本研究では,MARL(Multi-Agent Reinforcement Learning)とプランニングベースライン(MARL)を併用した多エージェント協調型テキストゲームにおけるLLMエージェントの評価を行った。 llmに基づくエージェント間の創発的協調行動と高次心機能理論の証拠を観察した。 この結果から,LLMエージェントの長期的コンテキスト管理における系統的障害とタスク状態に対する幻覚による計画最適化の限界が明らかになった。 本研究では,これらの問題を緩和するために,明示的な信念状態表現を用いることで,LCMに基づくエージェントに対するタスク性能とToM推論の精度を向上させることを明らかにする。

While Large Language Models (LLMs) have demonstrated impressive accomplishments in both reasoning and planning, their abilities in multi-agent collaborations remains largely unexplored. This study evaluates LLM-based agents in a multi-agent cooperative text game with Theory of Mind (ToM) inference tasks, comparing their performance with Multi-Agent Reinforcement Learning (MARL) and planning-based baselines. We observed evidence of emergent collaborative behaviors and high-order Theory of Mind capabilities among LLM-based agents. Our results reveal limitations in LLM-based agents' planning optimization due to systematic failures in managing long-horizon contexts and hallucination about the task state. We explore the use of explicit belief state representations to mitigate these issues, finding that it enhances task performance and the accuracy of ToM inferences for LLM-based agents.
翻訳日:2023-10-25 06:08:49 公開日:2023-10-22
# コードセマンティックとLLMのブリッジ: コード生成のためのセマンティック連鎖

Bridging Code Semantic and LLMs: Semantic Chain-of-Thought Prompting for Code Generation ( http://arxiv.org/abs/2310.10698v2 )

ライセンス: Link先を確認
Yingwei Ma, Yue Yu, Shanshan Li, Yu Jiang, Yong Guo, Yuanliang Zhang, Yutao Xie, Xiangke Liao(参考訳) 大規模言語モデル(LLM)は、コード生成において顕著な進歩を見せている。 しかし、自然言語要求とコードの間の高度なセマンティックマッピングを必要とするため、自動コード生成は依然として難しい。 コード生成のための既存のllmsベースのアプローチのほとんどは、デコーダのみの因果言語モデルに依存しており、単に単なるプレーンテキストトークンとして、すなわち、要求をプロンプト入力として送り、コードを平易なトークン列として出力する。 このギャップを埋めるため,本論文では,secot というコードの意味的情報を侵入する "semantic chain-of-thought" アプローチを提案する。 我々のモチベーションは、ソースコードの意味情報(データフローと制御フロー)がより正確なプログラム実行行動、意図、機能を記述することである。 LLMを考慮し、セマンティック情報を統合することにより、より粒度の細かいコード理解と表現を実現し、コード生成の精度を高めることができる。 一方、従来の手法では、データフローや制御フローなどの機能を得るためには、複雑な静的または動的コード解析を必要とするが、SeCoTは、このプロセスがLLMの本質的な能力(インコンテキスト学習)を介して完全に自動化され、一般化可能であり、挑戦的なドメインに適用可能であることを実証している。 本論文は,SeCoT を異なる LLM に適用できる一方で,強力な GPT スタイルモデルである ChatGPT (クローズソースモデル) と WizardCoder (オープンソースモデル) に焦点を当てる。 一般的な3つのDLベンチマーク(HumanEval、HumanEval-ET、MBPP)の実験研究は、SeCoTが最先端のパフォーマンスを達成でき、大規模モデルやコード生成の可能性を大幅に改善できることを示している。

Large language models (LLMs) have showcased remarkable prowess in code generation. However, automated code generation is still challenging since it requires a high-level semantic mapping between natural language requirements and codes. Most existing LLMs-based approaches for code generation rely on decoder-only causal language models often treate codes merely as plain text tokens, i.e., feeding the requirements as a prompt input, and outputing code as flat sequence of tokens, potentially missing the rich semantic features inherent in source code. To bridge this gap, this paper proposes the "Semantic Chain-of-Thought" approach to intruduce semantic information of code, named SeCoT. Our motivation is that the semantic information of the source code (\eg data flow and control flow) describes more precise program execution behavior, intention and function. By guiding LLM consider and integrate semantic information, we can achieve a more granular understanding and representation of code, enhancing code generation accuracy. Meanwhile, while traditional techniques leveraging such semantic information require complex static or dynamic code analysis to obtain features such as data flow and control flow, SeCoT demonstrates that this process can be fully automated via the intrinsic capabilities of LLMs (i.e., in-context learning), while being generalizable and applicable to challenging domains. While SeCoT can be applied with different LLMs, this paper focuses on the powerful GPT-style models: ChatGPT(close-source model) and WizardCoder(open-source model). The experimental study on three popular DL benchmarks (i.e., HumanEval, HumanEval-ET and MBPP) shows that SeCoT can achieves state-of-the-art performance, greatly improving the potential for large models and code generation.
翻訳日:2023-10-25 06:08:28 公開日:2023-10-22
# DANAA:double adversarial neuron Attributionによるトランスファー可能な攻撃を目指して

DANAA: Towards transferable attacks with double adversarial neuron attribution ( http://arxiv.org/abs/2310.10427v2 )

ライセンス: Link先を確認
Zhibo Jin, Zhiyu Zhu, Xinyi Wang, Jiayu Zhang, Jun Shen, Huaming Chen(参考訳) ディープニューラルネットワークは多くの分野において優れた結果をもたらすが、それらは誤った判断を下すサンプルの攻撃による干渉に影響を受けやすい。 機能レベルの攻撃は効果的な攻撃タイプの1つであり、異なるモデル間の伝達性を改善するために隠れたレイヤの学習機能をターゲットにしている。 しかし, 伝達能は神経細胞の重要度推定結果に大きく影響されていることが観察された。 本稿では,DANAAと呼ばれる二重対向ニューロン帰属攻撃法を提案し,より正確な特徴重要度推定法を提案する。 本手法では, モデル出力は, 逆方向の非線形経路に基づいて中間層に帰属する。 目標は、個々のニューロンの重みを計測し、トランスファービリティーにとってより重要な特徴を保持することである。 本手法の最先端性能を実証するために,ベンチマークデータセットの広範な実験を行った。 私たちのコードは、https://github.com/Davidjinzb/DANAAで利用可能です。

While deep neural networks have excellent results in many fields, they are susceptible to interference from attacking samples resulting in erroneous judgments. Feature-level attacks are one of the effective attack types, which targets the learnt features in the hidden layers to improve its transferability across different models. Yet it is observed that the transferability has been largely impacted by the neuron importance estimation results. In this paper, a double adversarial neuron attribution attack method, termed `DANAA', is proposed to obtain more accurate feature importance estimation. In our method, the model outputs are attributed to the middle layer based on an adversarial non-linear path. The goal is to measure the weight of individual neurons and retain the features that are more important towards transferability. We have conducted extensive experiments on the benchmark datasets to demonstrate the state-of-the-art performance of our method. Our code is available at: https://github.com/Davidjinzb/DANAA
翻訳日:2023-10-25 06:07:17 公開日:2023-10-22
# MMTF-DES:ソーシャルメディアデータの欲求・感情・感性分析のためのマルチモーダルトランスフォーマーモデルの融合

MMTF-DES: A Fusion of Multimodal Transformer Models for Desire, Emotion, and Sentiment Analysis of Social Media Data ( http://arxiv.org/abs/2310.14143v1 )

ライセンス: Link先を確認
Abdul Aziz, Nihad Karim Chowdhury, Muhammad Ashad Kabir, Abu Nowshed Chy, Md. Jawad Siddique(参考訳) 欲望(英: desire)とは、人間の感情や行動を動かし、他の動物と区別する、言語的、認知的な側面からなる人間の願望と願望のセットである。 人間の欲望を理解することは、最も興味深く挑戦的な研究領域の1つになる可能性がある。 感情分析や感情認識のタスクと密接に結びついている。 これは人間とコンピュータの相互作用の増加、人間の感情的知性認識、対人関係の理解、意思決定に有用である。 しかし、人間の欲望を理解することは、欲望を誘発する方法が人間によって異なる可能性があるため、難解で未熟である。 多様な文化、国、言語のために、タスクはより難しくなります。 以前の研究では、人間の欲求理解のタスクに欠かせない、画像テキストのペアワイズ特徴表現の使用を見落としていた。 本研究では,人間の欲望,感情,感情を識別するために,画像とテキストのペア設定を用いたマルチモーダルトランスフォーマティブフレームワークを提案する。 提案手法のコアは,2つの最先端マルチモーダルトランスモデルを用いて構築されたエンコーダモジュールである。 これらのモデルは多様な特徴を抽出できる。 ソーシャルメディア画像とテキストペアから視覚的・文脈的埋め込み特徴を効果的に抽出するため,視覚・言語変換(ViLT)と視覚・言語変換(VAuLT)の2つの事前学習型マルチモーダルトランスモデルの共同微調整を行った。 次に、これらの埋め込み機能に対する初期融合戦略を用いて、画像テキスト対の多様な特徴表現を得る。 この統合では、このタスクに関するさまざまな情報が組み込まれており、複数の視点からコンテキストとイメージペアを堅牢に認識することができます。

Desire is a set of human aspirations and wishes that comprise verbal and cognitive aspects that drive human feelings and behaviors, distinguishing humans from other animals. Understanding human desire has the potential to be one of the most fascinating and challenging research domains. It is tightly coupled with sentiment analysis and emotion recognition tasks. It is beneficial for increasing human-computer interactions, recognizing human emotional intelligence, understanding interpersonal relationships, and making decisions. However, understanding human desire is challenging and under-explored because ways of eliciting desire might be different among humans. The task gets more difficult due to the diverse cultures, countries, and languages. Prior studies overlooked the use of image-text pairwise feature representation, which is crucial for the task of human desire understanding. In this research, we have proposed a unified multimodal transformer-based framework with image-text pair settings to identify human desire, sentiment, and emotion. The core of our proposed method lies in the encoder module, which is built using two state-of-the-art multimodal transformer models. These models allow us to extract diverse features. To effectively extract visual and contextualized embedding features from social media image and text pairs, we conducted joint fine-tuning of two pre-trained multimodal transformer models: Vision-and-Language Transformer (ViLT) and Vision-and-Augmented-Language Transformer (VAuLT). Subsequently, we use an early fusion strategy on these embedding features to obtain combined diverse feature representations of the image-text pair. This consolidation incorporates diverse information about this task, enabling us to robustly perceive the context and image pair from multiple perspectives.
翻訳日:2023-10-25 01:45:45 公開日:2023-10-22
# t-設計上の連続時間量子ウォークによる量子探索

Quantum search by continuous-time quantum walk on t-designs ( http://arxiv.org/abs/2310.14141v1 )

ライセンス: Link先を確認
Pedro H. G. Lug\~ao, Renato Portugal(参考訳) 本研究は、連続時間量子ウォークを用いて、複数のマーク要素を持つ組合せ $t$-designs 上の量子探索アルゴリズムの時間複雑性について検討する。 t$-designsとその入射行列の詳細な調査を通じて、ランダムウォークに基づく検索アルゴリズムと比較して成功に導かれる二部グラフのサブセットを特定する。 これらのグラフは固有値を持つ隣接行列と代数的に決定でき、多点頂点シナリオの解析にも適する固有ベクトルを持つ。 ある対称な$t$-デザイン上の連続時間量子ウォークは、任意の数のマークされた要素を計算しても、_n$が点数とブロック数である場合であっても、最適な実行時間である$o(\sqrt{n})$が得られる。 マークされた要素分布の2つの一次配置を調べると、成功確率は一貫して$o(1)$となるが、特定のシナリオでは漸近的に1に近づく。

This work examines the time complexity of quantum search algorithms on combinatorial $t$-designs with multiple marked elements using the continuous-time quantum walk. Through a detailed exploration of $t$-designs and their incidence matrices, we identify a subset of bipartite graphs that are conducive to success compared to random-walk-based search algorithms. These graphs have adjacency matrices with eigenvalues and eigenvectors that can be determined algebraically and are also suitable for analysis in the multiple-marked vertex scenario. We show that the continuous-time quantum walk on certain symmetric $t$-designs achieves an optimal running time of $O(\sqrt{n})$, where $n$ is the number of points and blocks, even when accounting for an arbitrary number of marked elements. Upon examining two primary configurations of marked elements distributions, we observe that the success probability is consistently $o(1)$, but it approaches 1 asymptotically in certain scenarios.
翻訳日:2023-10-25 01:45:13 公開日:2023-10-22
# 対称群の双対性解析とそのランダムテンソルネットワークモデルへの応用

Duality analysis in symmetric group and its application to random tensor network model ( http://arxiv.org/abs/2310.14140v1 )

ライセンス: Link先を確認
Masayuki Ohzeki(参考訳) イジングモデルは、古典的な統計力学において最も単純な多体効果を記述する。 双対性分析はいくつかの仮定の下で臨界点をもたらす。 ising モデル自体が $z(2)$ 対称性を持つ。 双対性解析の基礎は、低温膨張と高温膨張の間の非自明な関係である。 しかし、離散フーリエ変換は自動的に隠れた関係を見つける。 双対性解析は自然に、$Z(q)$対称性とランダムスピン系を持つ自由度の場合に一般化することができる。 本研究では、対称群 $S_q$ とそのフーリエ変換を考慮し、一連の置換モデルにおける双対性をさらに獲得する。 対称群における置換モデルは、ランダム量子回路とランダムテンソルネットワークモデルと密接に関連しており、量子計算とホログラフィック原理(弦理論と量子重力の性質)の文脈でしばしば議論されている。 これらのモデルにおける相転移を分析するために、双対性解析による体系的な方法を提供する。

The Ising model is the simplest to describe many-body effects in classical statistical mechanics. Duality analysis leads to a critical point under several assumptions. The Ising model itself has $Z(2)$ symmetry. The basis of the duality analysis is a nontrivial relationship between low and high-temperature expansions. However, the discrete Fourier transformation finds the hidden relationship automatically. The duality analysis can be naturally generalized into the case with the degrees of freedom with $Z(q)$ symmetry and random spin systems. We further obtain the duality in a series of permutation models in the present study by considering the symmetric group $S_q$ and its Fourier transformation. The permutation model in the symmetric group is closely related to the random quantum circuits and random tensor network model, often discussed in the context of quantum computing and the holographic principle, a property of string theories and quantum gravity. We provide a systematic way by our duality analysis to analyze the phase transition in these models.
翻訳日:2023-10-25 01:44:54 公開日:2023-10-22
# LSTMsの学習者は少ないか?

Are LSTMs Good Few-Shot Learners? ( http://arxiv.org/abs/2310.14139v1 )

ライセンス: Link先を確認
Mike Huisman, Thomas M. Moerland, Aske Plaat, Jan N. van Rijn(参考訳) ディープラーニングは、新しいタスクをうまく学習するために大量のデータを必要とし、そのようなデータが利用可能なドメインへの適用性を制限する。 メタラーニングはこの制限を克服し、学習の仕方を学ぶ。 2001年、Hochreiterらは、異なるタスクにわたるバックプロパゲーションで訓練されたLSTMがメタラーニング能力を持つことを示した。 小規模問題に対するこのアプローチの有望な結果、さらに最近では強化学習問題についても、このアプローチは教師付きの少数ショット学習環境ではほとんど注目されていない。 このアプローチを再検討し、現代の数ショット学習ベンチマークでテストします。 LSTMは、単純な数ショットの正弦波回帰ベンチマークでMAMLよりも優れているが、予想されることに、より複雑な数ショット画像分類ベンチマークでは不足している。 我々は,2つの潜在的な原因を特定し,これらの問題を解消し,通常のLSTMよりもかなりの性能向上を示す,OP-LSTM(Outer Product LSTM)と呼ばれる新しい手法を提案する。 一般的なメタラーニングベースラインと比較すると、OP-LSTMはドメイン内の少数ショット画像分類において競争性能が向上し、ドメイン間設定では精度スコアが0.5%から1.9%向上する。 これらの結果だけで新しい最先端技術は確立されていないが、OP-LSTMの進歩はメタラーニングの分野での他の進歩と直交しており、画像分類におけるLSTMの作用に関する新たな洞察を与え、新しい研究の方向性を広く得ることができる。 再現性のために、我々はすべての研究コードを公開している。

Deep learning requires large amounts of data to learn new tasks well, limiting its applicability to domains where such data is available. Meta-learning overcomes this limitation by learning how to learn. In 2001, Hochreiter et al. showed that an LSTM trained with backpropagation across different tasks is capable of meta-learning. Despite promising results of this approach on small problems, and more recently, also on reinforcement learning problems, the approach has received little attention in the supervised few-shot learning setting. We revisit this approach and test it on modern few-shot learning benchmarks. We find that LSTM, surprisingly, outperform the popular meta-learning technique MAML on a simple few-shot sine wave regression benchmark, but that LSTM, expectedly, fall short on more complex few-shot image classification benchmarks. We identify two potential causes and propose a new method called Outer Product LSTM (OP-LSTM) that resolves these issues and displays substantial performance gains over the plain LSTM. Compared to popular meta-learning baselines, OP-LSTM yields competitive performance on within-domain few-shot image classification, and performs better in cross-domain settings by 0.5% to 1.9% in accuracy score. While these results alone do not set a new state-of-the-art, the advances of OP-LSTM are orthogonal to other advances in the field of meta-learning, yield new insights in how LSTM work in image classification, allowing for a whole range of new research directions. For reproducibility purposes, we publish all our research code publicly.
翻訳日:2023-10-25 01:44:41 公開日:2023-10-22
# 脳波に基づく感情認識のための接続不確実性を有するグラフ畳み込みネットワーク

Graph Convolutional Network with Connectivity Uncertainty for EEG-based Emotion Recognition ( http://arxiv.org/abs/2310.14165v1 )

ライセンス: Link先を確認
Hongxiang Gao, Xiangyao Wang, Zhenghua Chen, Min Wu, Zhipeng Cai, Lulu Zhao, Jianqing Li and Chengyu Liu(参考訳) eeg(multichannel electroencephalography)に基づく感情の自動認識は、人間とコンピュータの相互作用を前進させる大きな可能性を秘めている。 しかし、アルゴリズム的感情認識に関する既存の研究において、いくつかの重要な課題が続いている。 これらの課題には、長い経路上で識別ノード属性を効果的に学習する堅牢なモデルの必要性、脳波チャネルと効果的な周波数帯域における曖昧なトポロジ情報の探索、本質的なデータ品質と提供されたラベルのマッピングなどが含まれる。 これらの課題に対処するために,本研究では,グラフ畳み込みネットワーク(gcn)アーキテクチャに基づく脳波信号の空間依存性と時間スペクトル相対性を表現する分布に基づく不確かさ法を提案する。 さらに,グラフ混合手法を用いて遅延接続エッジの強化とノイズラベル問題を軽減する。 さらに,この不確実性学習手法と深いGCN重みを一方向学習方式で統合し,コネクティビティ不確実性GCN (CU-GCN) と呼ぶ。 感情認識タスクにおいて、SEEDとSEEDIVという2つの広く使われているデータセットに対するアプローチを評価した。 実験の結果,従来の手法よりも優れた手法が示され,有意かつ有意な改善が得られた。 アブレーション研究は、全体的なパフォーマンスに対する各コンポーネントの実質的な貢献を確認します。

Automatic emotion recognition based on multichannel Electroencephalography (EEG) holds great potential in advancing human-computer interaction. However, several significant challenges persist in existing research on algorithmic emotion recognition. These challenges include the need for a robust model to effectively learn discriminative node attributes over long paths, the exploration of ambiguous topological information in EEG channels and effective frequency bands, and the mapping between intrinsic data qualities and provided labels. To address these challenges, this study introduces the distribution-based uncertainty method to represent spatial dependencies and temporal-spectral relativeness in EEG signals based on Graph Convolutional Network (GCN) architecture that adaptively assigns weights to functional aggregate node features, enabling effective long-path capturing while mitigating over-smoothing phenomena. Moreover, the graph mixup technique is employed to enhance latent connected edges and mitigate noisy label issues. Furthermore, we integrate the uncertainty learning method with deep GCN weights in a one-way learning fashion, termed Connectivity Uncertainty GCN (CU-GCN). We evaluate our approach on two widely used datasets, namely SEED and SEEDIV, for emotion recognition tasks. The experimental results demonstrate the superiority of our methodology over previous methods, yielding positive and significant improvements. Ablation studies confirm the substantial contributions of each component to the overall performance.
翻訳日:2023-10-25 01:34:04 公開日:2023-10-22
# 価格$\alpha$-fairコンテキスト・バンディット

$\alpha$-Fair Contextual Bandits ( http://arxiv.org/abs/2310.14164v1 )

ライセンス: Link先を確認
Siddhant Chaudhary and Abhishek Sinha(参考訳) コンテキストバンディットアルゴリズムは、推奨システム、臨床試験、最適なポートフォリオ選択など、多くのアプリケーションの中核にある。 文脈的バンディット文学で研究される最も一般的な問題の1つは、最も固定された文脈依存ポリシーに対するサブ線形後悔を確実にすることで、各ラウンドにおける報酬の総和を最大化することである。 しかし、多くの応用において累積報酬は正しい目的ではない - banditアルゴリズムはエコーチャンバー効果を避け、規制要件に従うために公平でなければならない。 そこで本稿では,大域的$\alpha$-fairユーティリティ関数を最大化することを目的とした$\alpha$-fairコンテキストバンディット問題を考える。 問題は、ラウンドごとの目的の非分離性のためである。 我々は,全情報とバンディットフィードバックの設定において,おおよそ半線形な後悔を保証する効率的なアルゴリズムを設計する。

Contextual bandit algorithms are at the core of many applications, including recommender systems, clinical trials, and optimal portfolio selection. One of the most popular problems studied in the contextual bandit literature is to maximize the sum of the rewards in each round by ensuring a sublinear regret against the best-fixed context-dependent policy. However, in many applications, the cumulative reward is not the right objective - the bandit algorithm must be fair in order to avoid the echo-chamber effect and comply with the regulatory requirements. In this paper, we consider the $\alpha$-Fair Contextual Bandits problem, where the objective is to maximize the global $\alpha$-fair utility function - a non-decreasing concave function of the cumulative rewards in the adversarial setting. The problem is challenging due to the non-separability of the objective across rounds. We design an efficient algorithm that guarantees an approximately sublinear regret in the full-information and bandit feedback settings.
翻訳日:2023-10-25 01:33:40 公開日:2023-10-22
# CANバスデータによるエンドツーエンドのステアリング角度予測の強化

Augmenting End-to-End Steering Angle Prediction with CAN Bus Data ( http://arxiv.org/abs/2310.14162v1 )

ライセンス: Link先を確認
Rohan Gupta(参考訳) 近年、自動運転車のエンド・ツー・エンドの操舵予測が主要な研究分野となっている。 エンド・ツー・エンドのステアリングを達成するための主要な方法は、ビデオデータのライブフィードにコンピュータビジョンモデルを使用することであった。 しかし、精度をさらに高めるために、多くの企業がセンサー融合による光検出・測位(lidar)やレーダーセンサーからのデータを追加している。 しかし、レーザーとセンサーの追加は高い財政的コストを伴っている。 本稿では,LiDARやセンサの使用コストを増大させることなく,コンピュータビジョンモデルの精度を高めることにより,これらの課題に対処する。 ビデオデータと車両プロトコルであるcanバスデータを用いて,コンピュータビジョンモデルの精度を向上させることで,これを実現した。 CANバスデータは、速度、操舵角度、加速度など、車両の状態に関する情報の豊富な情報源である。 このデータをビデオデータと融合することにより、コンピュータビジョンモデルの予測精度を向上させることができる。 CANバスデータを使わずにモデルをトレーニングしたとき,CANバスデータを用いてトレーニングしたモデルは0.02492のRMSEを得た。 この結果は、CANバスデータをビデオデータと融合することで、コンピュータビジョンモデルの予測誤差を20%削減し、一部のモデルではエラーを80%削減できることを示している。

In recent years, end to end steering prediction for autonomous vehicles has become a major area of research. The primary method for achieving end to end steering was to use computer vision models on a live feed of video data. However, to further increase accuracy, many companies have added data from light detection and ranging (LiDAR) and or radar sensors through sensor fusion. However, the addition of lasers and sensors comes at a high financial cost. In this paper, I address both of these issues by increasing the accuracy of the computer vision models without the increased cost of using LiDAR and or sensors. I achieved this by improving the accuracy of computer vision models by sensor fusing CAN bus data, a vehicle protocol, with video data. CAN bus data is a rich source of information about the vehicle's state, including its speed, steering angle, and acceleration. By fusing this data with video data, the accuracy of the computer vision model's predictions can be improved. When I trained the model without CAN bus data, I obtained an RMSE of 0.02492, while the model trained with the CAN bus data achieved an RMSE of 0.01970. This finding indicates that fusing CAN Bus data with video data can reduce the computer vision model's prediction error by 20% with some models decreasing the error by 80%.
翻訳日:2023-10-25 01:33:22 公開日:2023-10-22
# 逆インスタンス拡張による厳密解法の一般化の促進

Promoting Generalization for Exact Solvers via Adversarial Instance Augmentation ( http://arxiv.org/abs/2310.14161v1 )

ライセンス: Link先を確認
Haoyang Liu and Yufei Kuang and Jie Wang and Xijun Li and Yongdong Zhang and Feng Wu(参考訳) 機械学習は、MILP(Mixed-Integer Linear Programming)ソルバの効率向上に成功している。 しかしながら、学習ベースのソルバは、トレーニング分布の多様性が限定されているため、目に見えないMILPインスタンス(特に摂動環境の大規模インスタンス)の厳しいパフォーマンス劣化に悩まされることが多い。 この問題に対処するため,AdaSolver(Adversarial Instance Augmentation)と呼ばれる新しい手法を提案し,新しいインスタンス生成における問題タイプを知る必要はなく,分岐(B&B)ソルバー(AdaSolver)における学習ベース分岐モジュールのデータ多様性を促進する。 両部グラフ表現をMILPインスタンスに使用し、様々な摂動インスタンスを取得し、グラフ構造を学習拡張ポリシーで拡張することにより、ソルバを正規化する。 AdaSolverの主な技術的貢献は、非微分不可能なインスタンス拡張を文脈的包帯問題として定式化し、学習に基づく解法と拡張ポリシーを逆向きに訓練し、拡張ポリシーの効率的な勾配に基づく訓練を可能にすることである。 我々の知る限り、AdaSolverは、模倣学習ベース(ILベース)と強化学習ベース(RLベース)の両方のB&Bソルバの一般化を理解し、改善するための、最初の汎用的で効果的なフレームワークである。 広範囲な実験により、様々な拡張インスタンスを生成することで、adasolverは様々なディストリビューションで顕著な効率改善をもたらすことが示されている。

Machine learning has been successfully applied to improve the efficiency of Mixed-Integer Linear Programming (MILP) solvers. However, the learning-based solvers often suffer from severe performance degradation on unseen MILP instances -- especially on large-scale instances from a perturbed environment -- due to the limited diversity of training distributions. To tackle this problem, we propose a novel approach, which is called Adversarial Instance Augmentation and does not require to know the problem type for new instance generation, to promote data diversity for learning-based branching modules in the branch-and-bound (B&B) Solvers (AdaSolver). We use the bipartite graph representations for MILP instances and obtain various perturbed instances to regularize the solver by augmenting the graph structures with a learned augmentation policy. The major technical contribution of AdaSolver is that we formulate the non-differentiable instance augmentation as a contextual bandit problem and adversarially train the learning-based solver and augmentation policy, enabling efficient gradient-based training of the augmentation policy. To the best of our knowledge, AdaSolver is the first general and effective framework for understanding and improving the generalization of both imitation-learning-based (IL-based) and reinforcement-learning-based (RL-based) B&B solvers. Extensive experiments demonstrate that by producing various augmented instances, AdaSolver leads to a remarkable efficiency improvement across various distributions.
翻訳日:2023-10-25 01:33:01 公開日:2023-10-22
# 言語モデルはyoutubeの短いビデオで笑えるか?

Can Language Models Laugh at YouTube Short-form Videos? ( http://arxiv.org/abs/2310.14159v1 )

ライセンス: Link先を確認
Dayoon Ko, Sangho Lee, Gunhee Kim(参考訳) ソーシャルネットワーク上の短いビデオが人気を集めている中、人間とのコミュニケーションをより良くするためのAIモデルの必要性が高まっている。 残念ながら、以前のビデオユーモアデータセットは、スピーチやシットコムのような特定のドメインをターゲットにしており、主に動詞の手がかりに焦点を当てている。 ユーザ生成したYouTubeから10Kのマルチモーダルな面白いビデオのデータセット、ExFunTubeをキュレートします。 gpt-3.5を用いたビデオフィルタリングパイプラインを用いて,ユーモアに寄与する言語要素と視覚要素の両方を検証する。 フィルタリング後、各ビデオにタイムスタンプとテキスト説明をアノテートして面白い瞬間を知らせる。 われわれのExFunTubeは、既存のデータセットとは違って、ビデオはさまざまな種類のユーモアを持つ幅広い領域をカバーし、コンテンツに対するマルチモーダルな理解を必要とする。 また,大規模言語モデル (LLM) の映像ユーモア理解を最大化するために,ゼロショットビデオ・トゥ・テキスト・プロンプトを開発した。 自動スコア,合理化実験,人的評価の3つの異なる評価手法を用いて,本手法はユーモアの説明能力を大幅に向上させることを示す。

As short-form funny videos on social networks are gaining popularity, it becomes demanding for AI models to understand them for better communication with humans. Unfortunately, previous video humor datasets target specific domains, such as speeches or sitcoms, and mostly focus on verbal cues. We curate a user-generated dataset of 10K multimodal funny videos from YouTube, called ExFunTube. Using a video filtering pipeline with GPT-3.5, we verify both verbal and visual elements contributing to humor. After filtering, we annotate each video with timestamps and text explanations for funny moments. Our ExFunTube is unique over existing datasets in that our videos cover a wide range of domains with various types of humor that necessitate a multimodal understanding of the content. Also, we develop a zero-shot video-to-text prompting to maximize video humor understanding of large language models (LLMs). With three different evaluation methods using automatic scores, rationale quality experiments, and human evaluations, we show that our prompting significantly improves LLMs' ability for humor explanation.
翻訳日:2023-10-25 01:32:33 公開日:2023-10-22
# 進行型軽度認知障害予測のための視覚属性プロンプト学習

Visual-Attribute Prompt Learning for Progressive Mild Cognitive Impairment Prediction ( http://arxiv.org/abs/2310.14158v1 )

ライセンス: Link先を確認
Luoyao Kang and Haifan Gong and Xiang Wan and Haofeng Li(参考訳) 深層学習(DL)は、脳画像データを用いた軽度認知障害(MCI)とアルツハイマー病(AD)の自動診断に用いられている。 しかし、従来の方法では、専門家が広く採用している脳画像と臨床情報との関係を十分に活用していない。 画像と表データからの異質な特徴を同時に活用するために,多モード特徴を高速に微調整して効率的に抽出・融合するトランスフォーマーであるvap(visual-attribute prompt learning-based transformer)を提案する。 さらに, プログレッシブMCI (pMCI) 診断のためのAD予測タスクから知識を伝達する, Prompt Fine-Tuning (PT) 方式を提案する。 詳しくは、まずvap-formerを広告診断タスクをプロンプトすることなく事前トレーニングし、その後、バックボーンを凍結しながら少量のパラメータのみを最適化するpmci検出タスクのモデルをptで微調整する。 次に,視覚プロンプトのための新しいグローバルプロンプトトークンを提案し,マルチモーダル表現へのグローバルガイダンスを提供する。 pMCI予測の最先端手法と比較して,本手法の優位性を示すとともに,グローバルなプロンプトが学習過程をより効果的かつ安定したものにすることを示す。 興味深いことに、提案したプロンプト学習モデルは、ADからpMCIへの知識伝達において、完全な微調整ベースラインよりも優れている。

Deep learning (DL) has been used in the automatic diagnosis of Mild Cognitive Impairment (MCI) and Alzheimer's Disease (AD) with brain imaging data. However, previous methods have not fully exploited the relation between brain image and clinical information that is widely adopted by experts in practice. To exploit the heterogeneous features from imaging and tabular data simultaneously, we propose the Visual-Attribute Prompt Learning-based Transformer (VAP-Former), a transformer-based network that efficiently extracts and fuses the multi-modal features with prompt fine-tuning. Furthermore, we propose a Prompt fine-Tuning (PT) scheme to transfer the knowledge from AD prediction task for progressive MCI (pMCI) diagnosis. In details, we first pre-train the VAP-Former without prompts on the AD diagnosis task and then fine-tune the model on the pMCI detection task with PT, which only needs to optimize a small amount of parameters while keeping the backbone frozen. Next, we propose a novel global prompt token for the visual prompts to provide global guidance to the multi-modal representations. Extensive experiments not only show the superiority of our method compared with the state-of-the-art methods in pMCI prediction but also demonstrate that the global prompt can make the prompt learning process more effective and stable. Interestingly, the proposed prompt learning model even outperforms the fully fine-tuning baseline on transferring the knowledge from AD to pMCI.
翻訳日:2023-10-25 01:32:16 公開日:2023-10-22
# 階層的車両経路問題に対するニューラルコスト予測器を用いた遺伝的アルゴリズム

Genetic Algorithms with Neural Cost Predictor for Solving Hierarchical Vehicle Routing Problems ( http://arxiv.org/abs/2310.14157v1 )

ライセンス: Link先を確認
Abhay Sobhanan, Junyoung Park, Jinkyoo Park, Changhyun Kwon(参考訳) 車両の経路決定が高次決定と連動する場合、結果の最適化問題は計算に重大な課題をもたらす。 例えば、顧客が配送前にデポに割り当てられるマルチデポの車両ルーティング問題(MDVRP)や、最初にデポの位置を決定するキャパシタイトされた位置ルーティング問題(CLRP)などがある。 このような階層的な問題に対する単純で簡単なアプローチは、高レベルの決定を複雑な車両ルーティング決定から分離することである。 各上位決定候補に対して、下位の車両経路問題を評価し、その候補を評価する。 このアプローチでは、車両の経路問題を複数回解決する必要があるため、多くの場合、実用的でないと見なされている。 本稿では,遺伝的アルゴリズムとニューラルコスト予測器(GANCP)を併用した新しいディープラーニング手法を提案する。 各上位決定候補に対して,事前学習したグラフニューラルネットワークを用いて,実際のルーティング問題を解くことなく,基礎となる車両ルーティング問題の目的関数値を予測する。 特に,提案するニューラルネットワークは,静電容量化車両ルーティング問題を解決するHGS-CVRPオープンソースパッケージの目的値について学習する。 この単純化手法はMDVRPとCLRPの両方の高品質な解を生成する上で効果的であり,複雑な階層問題に対するアルゴリズム開発を高速化する可能性が示唆された。 文献で使用される標準ベンチマークインスタンスで評価した計算結果を提供する。

When vehicle routing decisions are intertwined with higher-level decisions, the resulting optimization problems pose significant challenges for computation. Examples are the multi-depot vehicle routing problem (MDVRP), where customers are assigned to depots before delivery, and the capacitated location routing problem (CLRP), where the locations of depots should be determined first. A simple and straightforward approach for such hierarchical problems would be to separate the higher-level decisions from the complicated vehicle routing decisions. For each higher-level decision candidate, we may evaluate the underlying vehicle routing problems to assess the candidate. As this approach requires solving vehicle routing problems multiple times, it has been regarded as impractical in most cases. We propose a novel deep-learning-based approach called Genetic Algorithm with Neural Cost Predictor (GANCP) to tackle the challenge and simplify algorithm developments. For each higher-level decision candidate, we predict the objective function values of the underlying vehicle routing problems using a pre-trained graph neural network without actually solving the routing problems. In particular, our proposed neural network learns the objective values of the HGS-CVRP open-source package that solves capacitated vehicle routing problems. Our numerical experiments show that this simplified approach is effective and efficient in generating high-quality solutions for both MDVRP and CLRP and has the potential to expedite algorithm developments for complicated hierarchical problems. We provide computational results evaluated in the standard benchmark instances used in the literature.
翻訳日:2023-10-25 01:31:50 公開日:2023-10-22
# マルチクラス細胞核検出のためのアフィン整合トランスフォーマー

Affine-Consistent Transformer for Multi-Class Cell Nuclei Detection ( http://arxiv.org/abs/2310.14154v1 )

ライセンス: Link先を確認
Junjia Huang and Haofeng Li and Xiang Wan and Guanbin Li(参考訳) 多クラス細胞核検出は病理診断の基本的な前提条件である。 デジタル病理画像の様々な形態と分布を持つ細胞を効率的に同定し同定することが重要である。 既存の手法の多くは、複雑な中間表現を学習対象とし、様々な細胞密度や視野にあまり注意を払わずに、柔軟性のない再定義に依存する。 本稿では,核位置の列を直接生成し,グローバルネットワークとローカルネットワークという2つのサブネットワークで協調的に学習する新しいアフィン整合トランスフォーマを提案する。 ローカルブランチは、小さなスケールの歪んだ入力画像を推測し、グローバルネットワークは、大規模な予測を余分な監視信号として出力する。 さらに,ローカルネットワークトレーニングのために,鍵となる空間変換を自動学習して元の画像に反動させる適応型アフィントランスフォーマティブ(aat)モジュールも導入する。 aatモジュールは、モデルのトレーニングでより価値のある変換されたイメージ領域をキャプチャすることで動作します。 実験の結果,提案手法は,既存の最先端アルゴリズムを様々なベンチマークで大幅に上回ることがわかった。

Multi-class cell nuclei detection is a fundamental prerequisite in the diagnosis of histopathology. It is critical to efficiently locate and identify cells with diverse morphology and distributions in digital pathological images. Most existing methods take complex intermediate representations as learning targets and rely on inflexible post-refinements while paying less attention to various cell density and fields of view. In this paper, we propose a novel Affine-Consistent Transformer (AC-Former), which directly yields a sequence of nucleus positions and is trained collaboratively through two sub-networks, a global and a local network. The local branch learns to infer distorted input images of smaller scales while the global network outputs the large-scale predictions as extra supervision signals. We further introduce an Adaptive Affine Transformer (AAT) module, which can automatically learn the key spatial transformations to warp original images for local network training. The AAT module works by learning to capture the transformed image regions that are more valuable for training the model. Experimental results demonstrate that the proposed method significantly outperforms existing state-of-the-art algorithms on various benchmarks.
翻訳日:2023-10-25 01:31:28 公開日:2023-10-22
# 言語モデル連続学習のための直交部分空間学習

Orthogonal Subspace Learning for Language Model Continual Learning ( http://arxiv.org/abs/2310.14152v1 )

ライセンス: Link先を確認
Xiao Wang, Tianze Chen, Qiming Ge, Han Xia, Rong Bao, Rui Zheng, Qi Zhang, Tao Gui, Xuanjing Huang(参考訳) 大量のコーパスと高度なハードウェアを取り入れた大規模言語モデル(LLM)は、言語理解と生成において優れた能力を示す。 しかし、複数のタスクが連続的に遭遇するシナリオではパフォーマンスが低下する。 本稿では,言語モデルにおける連続学習のための単純かつ効率的な手法である直交低ランク適応 (o-lora) を提案する。 特に、o-loraは干渉を最小限に抑えるために互いに直交する異なる(低ランク)ベクトル部分空間でタスクを学ぶ。 提案手法は,パラメータの余分な追加コストのみを誘導し,再生にユーザデータストレージを必要としない。 連続学習ベンチマークの実験結果から,本手法は最先端手法よりも優れていた。 さらに,従来の手法に比べ,非知覚タスクにおけるllmの一般化能力の維持に優れていた。

Benefiting from massive corpora and advanced hardware, large language models (LLMs) exhibit remarkable capabilities in language understanding and generation. However, their performance degrades in scenarios where multiple tasks are encountered sequentially, also known as catastrophic forgetting. In this paper, we propose orthogonal low-rank adaptation (O-LoRA), a simple and efficient approach for continual learning in language models, effectively mitigating catastrophic forgetting while learning new tasks. Specifically, O-LoRA learns tasks in different (low-rank) vector subspaces that are kept orthogonal to each other in order to minimize interference. Our method induces only marginal additional parameter costs and requires no user data storage for replay. Experimental results on continual learning benchmarks show that our method outperforms state-of-the-art methods. Furthermore, compared to previous approaches, our method excels in preserving the generalization ability of LLMs on unseen tasks.
翻訳日:2023-10-25 01:31:08 公開日:2023-10-22
# PromptCBLUE: 医学領域のための中国のプロンプトチューニングベンチマーク

PromptCBLUE: A Chinese Prompt Tuning Benchmark for the Medical Domain ( http://arxiv.org/abs/2310.14151v1 )

ライセンス: Link先を確認
Wei Zhu and Xiaoling Wang and Huanran Zheng and Mosha Chen and Buzhou Tang(参考訳) バイオメディカル言語理解ベンチマークは、大規模言語モデル(LLM)バックエンドを持つ人工知能アプリケーションの推進力である。 しかし現在のベンチマークのほとんどは (a)英語に限られており、他の言語で英語での成功の多くを再現することは困難である。 b) LLMの知識を探究することに集中し、LLMがこれらの知識を幅広いバイオメディカル・タスクに応用する方法を評価すること、又は (c)は、公開コーパスとなり、事前トレーニング中にLLMにリークされる。 医学LLMの研究を容易にするため,中国バイオメディカル言語理解評価(CBLUE)ベンチマークを大規模プロンプトチューニングベンチマークであるPromptCBLUEに再構築した。 本ベンチマークは, 医学的実体認識, 医学的テキスト分類, 医学的自然言語推論, 医学的対話理解, 医学的内容・対話生成など, 幅広いバイオメディカルタスクにおいて, 中国語LLMのマルチタスク能力を評価するための適切なテストベッドおよびオンラインプラットフォームである。 本研究は,これらの課題を評価するために,現在の9つの中国語LLMに異なる微調整技術を適用し,その結果を報告する。

Biomedical language understanding benchmarks are the driving forces for artificial intelligence applications with large language model (LLM) back-ends. However, most current benchmarks: (a) are limited to English which makes it challenging to replicate many of the successes in English for other languages, or (b) focus on knowledge probing of LLMs and neglect to evaluate how LLMs apply these knowledge to perform on a wide range of bio-medical tasks, or (c) have become a publicly available corpus and are leaked to LLMs during pre-training. To facilitate the research in medical LLMs, we re-build the Chinese Biomedical Language Understanding Evaluation (CBLUE) benchmark into a large scale prompt-tuning benchmark, PromptCBLUE. Our benchmark is a suitable test-bed and an online platform for evaluating Chinese LLMs' multi-task capabilities on a wide range bio-medical tasks including medical entity recognition, medical text classification, medical natural language inference, medical dialogue understanding and medical content/dialogue generation. To establish evaluation on these tasks, we have experimented and report the results with the current 9 Chinese LLMs fine-tuned with differtent fine-tuning techniques.
翻訳日:2023-10-25 01:30:54 公開日:2023-10-22
# 一貫性モデルのトレーニングのための改良技術

Improved Techniques for Training Consistency Models ( http://arxiv.org/abs/2310.14189v1 )

ライセンス: Link先を確認
Yang Song and Prafulla Dhariwal(参考訳) 一貫性モデル(consistency model)は、高品質なデータを1ステップでサンプリング可能な、新たな生成モデルのファミリである。 現在の整合性モデルは、事前訓練された拡散モデルから蒸留し、LPIPSなどの学習指標を用いて最適なサンプル品質を実現する。 しかし, 蒸留法では, 整合性モデルの品質を事前学習拡散モデルに制限し, LPIPSは望ましくないバイアスを引き起こす。 これらの課題に対処するため、我々は、一貫性モデルが蒸留なしで直接データから学習する一貫性トレーニングの手法を改良した。 我々は、一貫性トレーニングの背後にある理論を掘り下げ、教師の一貫性モデルから指数移動平均を排除し、これまで見過ごされていた欠陥を特定します。 LPIPSのような学習メトリクスを置き換えるために、ロバストな統計からPseudo-Huberの損失を採用する。 さらに,対数正規ノイズスケジュールを一貫性トレーニング目標に導入し,各セットのトレーニングイテレーション毎に全離散化ステップを2倍にすることを提案する。 ハイパーパラメータチューニングの改善と組み合わせることで、一貫性モデルによって、cifar-10とimagenetで2.51と3.25のfidスコアを1回のサンプリングステップでそれぞれ6,4\times 64$で達成することができる。 これらのスコアは、以前の一貫性トレーニングアプローチと比べて3.5$\times$と4$\times$の改善を示している。 2段階のサンプリングにより、これらの2つのデータセット上でFIDスコアを2.24と2.77に減らし、1段階および2段階の蒸留により得られたスコアを上回り、一貫性モデルと他の最先端生成モデルとのギャップを狭める。

Consistency models are a nascent family of generative models that can sample high quality data in one step without the need for adversarial training. Current consistency models achieve optimal sample quality by distilling from pre-trained diffusion models and employing learned metrics such as LPIPS. However, distillation limits the quality of consistency models to that of the pre-trained diffusion model, and LPIPS causes undesirable bias in evaluation. To tackle these challenges, we present improved techniques for consistency training, where consistency models learn directly from data without distillation. We delve into the theory behind consistency training and identify a previously overlooked flaw, which we address by eliminating Exponential Moving Average from the teacher consistency model. To replace learned metrics like LPIPS, we adopt Pseudo-Huber losses from robust statistics. Additionally, we introduce a lognormal noise schedule for the consistency training objective, and propose to double total discretization steps every set number of training iterations. Combined with better hyperparameter tuning, these modifications enable consistency models to achieve FID scores of 2.51 and 3.25 on CIFAR-10 and ImageNet $64\times 64$ respectively in a single sampling step. These scores mark a 3.5$\times$ and 4$\times$ improvement compared to prior consistency training approaches. Through two-step sampling, we further reduce FID scores to 2.24 and 2.77 on these two datasets, surpassing those obtained via distillation in both one-step and two-step settings, while narrowing the gap between consistency models and other state-of-the-art generative models.
翻訳日:2023-10-25 01:25:14 公開日:2023-10-22
# ソフトマックスゲーティングにおけるエキスパートの多項ロジスティックな混合の理論

A General Theory for Softmax Gating Multinomial Logistic Mixture of Experts ( http://arxiv.org/abs/2310.14188v1 )

ライセンス: Link先を確認
Huy Nguyen, Pedram Akbarian, TrungTin Nguyen, Nhat Ho(参考訳) mix-of-experts(moe)モデルは、ゲーティング関数を介して複数のサブモデルのパワーを取り入れ、多くの回帰および分類アプリケーションでより高いパフォーマンスを達成する。 理論的な観点からは、ガウスmoeモデルにおける最大確率推定の収束解析を通じて回帰条件下でのモデルの挙動を理解する試みは以前から行われてきたが、このような分類問題の設定下での分析は文献に欠落している。 このギャップを,softmax gating multinomial logistic moeモデルにおける密度推定とパラメータ推定の収束率を確立することで解消する。 特に、エキスパートパラメータの一部が消失すると、これらのレートは、ソフトマックスゲーティングと偏微分方程式によるエキスパート関数との固有の相互作用により多項式レートよりも遅いことが示されている。 この問題に対処するため,本稿では,入力値をガティング関数に渡す前に変換する,修正ソフトマックスガティング関数の新たなクラスを提案する。 その結果,従来の相互作用は消失し,パラメータ推定率が大幅に向上した。

Mixture-of-experts (MoE) model incorporates the power of multiple submodels via gating functions to achieve greater performance in numerous regression and classification applications. From a theoretical perspective, while there have been previous attempts to comprehend the behavior of that model under the regression settings through the convergence analysis of maximum likelihood estimation in the Gaussian MoE model, such analysis under the setting of a classification problem has remained missing in the literature. We close this gap by establishing the convergence rates of density estimation and parameter estimation in the softmax gating multinomial logistic MoE model. Notably, when part of the expert parameters vanish, these rates are shown to be slower than polynomial rates owing to an inherent interaction between the softmax gating and expert functions via partial differential equations. To address this issue, we propose using a novel class of modified softmax gating functions which transform the input value before delivering them to the gating functions. As a result, the previous interaction disappears and the parameter estimation rates are significantly improved.
翻訳日:2023-10-25 01:24:39 公開日:2023-10-22
# 多重共役区間に対する自由コンパクトボソンのマルチチャージモーメントと対称性分解R'enyiエントロピー

Multi-charged moments and symmetry-resolved R\'enyi entropy of free compact boson for multiple disjoint intervals ( http://arxiv.org/abs/2310.14186v1 )

ライセンス: Link先を確認
Himanshu Gaur and Urjit A. Yajnik(参考訳) 自由コンパクトなボソンの多重荷電モーメントと対称性分解R'enyiエントロピーを、複数の不斉区間に対して検討する。 r\'enyi エントロピー評価は、リーマン曲面上の理論の g>1 の分割関数を計算することを含む。 これにより、R'enyiエントロピーは理論の局所共形代数に敏感になる。 自由コンパクトなボソンは、R'enyiエントロピーを解いた大域的 U(1) 対称性を持つ。 多電荷モーメントは、関連するリーマン面上のフラックス発生頂点作用素の相関関数を研究することによって得られる。 シンメトリー分解されたR'enyiエントロピーは、荷電モーメントのフーリエ変換から得られる。 r\'enyi entropy は、先行する順序まで局所電荷セクタへの親しみやすい等価性を持つことが示されている。 マルチチャージモーメントは、相互情報の対称性分解の研究にも不可欠である。 自己双対コンパクトボソンと質量を持たないディラックフェルミオンの多電荷モーメントは、関連する還元密度行列モーメントが同一であることが分かっている場合と一致することも示されている。 最後に, 強結合モデルを用いて数値的に結果を確認した。

We study multi-charged moments and symmetry-resolved R\'enyi entropy of free compact boson for multiple disjoint intervals. The R\'enyi entropy evaluation involves computing the partition function of the theory on Riemann surfaces with genus g>1. This makes R\'enyi entropy sensitive to the local conformal algebra of the theory. The free compact boson possesses a global U(1) symmetry with respect to which we resolve R\'enyi entropy. The multi-charged moments are obtained by studying the correlation function of flux-generating vertex operators on the associated Riemann surface. Symmetry-resolved R\'enyi entropy is then obtained from the Fourier transforms of the charged moments. R\'enyi entropy is shown to have the familiar equipartition into local charge sectors up to the leading order. The multi-charged moments are also essential in studying the symmetry resolution of mutual information. The multi-charged moments of the self-dual compact boson and massless Dirac fermion are also shown to match for the cases when the associated reduced density matrix moments are known to be the same. Finally, we numerically check our results against the tight-binding model.
翻訳日:2023-10-25 01:24:12 公開日:2023-10-22
# 指数的増加仮説に基づく学習意図的ニューラル表現の高速化

Partition Speeds Up Learning Implicit Neural Representations Based on Exponential-Increase Hypothesis ( http://arxiv.org/abs/2310.14184v1 )

ライセンス: Link先を確認
Ke Liu, Feng Liu, Haishuai Wang, Ning Ma, Jiajun Bu, Bo Han(参考訳) $\textit{Implicit neural representations}$ (INRs)は、画像を表すために$\textit{Continuous function}$ (つまり、ニューラルネットワーク)を学ぶことを目的としており、関数の入力と出力はそれぞれピクセル座標とRGB/Gray値である。 しかし、画像は色が完全に一貫していない多くのオブジェクトで構成される傾向があるため、画像は実際には$\textit{discontinuous piecewise function}$であり、連続関数によってうまく推定できないという課題が生じる。 本稿では,ニューラルネットワークが不連続なピースワイズ関数に適合するように強制された場合,目標信号の空間領域の境界に関して,時間コストが指数関数的に増加することを実証的に検討する。 この現象を $\textit{exponential-increase}$ hypothesis と呼ぶ。 textit{exponential-increase}$仮説では、多数のオブジェクトを持つ画像のインサーの学習は非常にゆっくりと収束する。 この問題に対処するために、まず、複雑な信号を複数のサブリージョンに分割し、その信号に適合する部分的なインサーを利用することで、収束を著しく高速化できることを証明します。 この事実に基づいて、画像再構成のための2つのINR法の性能を高めるための単純な分割機構を導入し、もう1つはINR法を学習し、もう1つは学習から学習までのINR法を学習する。 どちらの場合も、イメージを異なるサブリージョンに分割し、各部分に小さなネットワークを割り当てる。 さらに,正規格子とセマンティックセグメンテーションマップに基づく2つの分割ルールを提案する。 一つの画像(通常の学習フレームワーク)と学習から学習までのフレームワークにおけるINR学習の観点から,提案手法の有効性を検証した。

$\textit{Implicit neural representations}$ (INRs) aim to learn a $\textit{continuous function}$ (i.e., a neural network) to represent an image, where the input and output of the function are pixel coordinates and RGB/Gray values, respectively. However, images tend to consist of many objects whose colors are not perfectly consistent, resulting in the challenge that image is actually a $\textit{discontinuous piecewise function}$ and cannot be well estimated by a continuous function. In this paper, we empirically investigate that if a neural network is enforced to fit a discontinuous piecewise function to reach a fixed small error, the time costs will increase exponentially with respect to the boundaries in the spatial domain of the target signal. We name this phenomenon the $\textit{exponential-increase}$ hypothesis. Under the $\textit{exponential-increase}$ hypothesis, learning INRs for images with many objects will converge very slowly. To address this issue, we first prove that partitioning a complex signal into several sub-regions and utilizing piecewise INRs to fit that signal can significantly speed up the convergence. Based on this fact, we introduce a simple partition mechanism to boost the performance of two INR methods for image reconstruction: one for learning INRs, and the other for learning-to-learn INRs. In both cases, we partition an image into different sub-regions and dedicate smaller networks for each part. In addition, we further propose two partition rules based on regular grids and semantic segmentation maps, respectively. Extensive experiments validate the effectiveness of the proposed partitioning methods in terms of learning INR for a single image (ordinary learning framework) and the learning-to-learn framework.
翻訳日:2023-10-25 01:23:54 公開日:2023-10-22
# 核検出・分類のためのプロンプトベースグルーピングトランスフォーマ

Prompt-based Grouping Transformer for Nucleus Detection and Classification ( http://arxiv.org/abs/2310.14176v1 )

ライセンス: Link先を確認
Junjia Huang and Haofeng Li and Weijun Sun and Xiang Wan and Guanbin Li(参考訳) 自動核検出と分類は、疾患診断に有効な情報を生み出すことができる。 既存のほとんどの手法は、核を独立に分類するか、核とそのグループの特徴の間の意味的類似性を十分に利用しない。 本稿では,グループ変換器をベースとした新しいエンドツーエンド核検出・分類フレームワークを提案する。 核分類器は、核埋め込みを階層的にグループ化し、核群とカテゴリの表現を学び、更新する。 すると、細胞型はカテゴリー埋め込みと核の特徴の対関係で予測される。 完全なtransformerベースのフレームワークの効率性については、backboneの入力プロンプトとしてnucleus group embeddedsを取り上げ、backbone全体ではなくプロンプトのみをチューニングすることで、グループ化ガイド機能の収集を支援する。 実験の結果,提案手法は3つのデータセット上で既存モデルよりも有意に優れていた。

Automatic nuclei detection and classification can produce effective information for disease diagnosis. Most existing methods classify nuclei independently or do not make full use of the semantic similarity between nuclei and their grouping features. In this paper, we propose a novel end-to-end nuclei detection and classification framework based on a grouping transformer-based classifier. The nuclei classifier learns and updates the representations of nuclei groups and categories via hierarchically grouping the nucleus embeddings. Then the cell types are predicted with the pairwise correlations between categorical embeddings and nucleus features. For the efficiency of the fully transformer-based framework, we take the nucleus group embeddings as the input prompts of backbone, which helps harvest grouping guided features by tuning only the prompts instead of the whole backbone. Experimental results show that the proposed method significantly outperforms the existing models on three datasets.
翻訳日:2023-10-25 01:23:21 公開日:2023-10-22
# 知識ベース質問応答のための文脈内スキーマ理解手法

An In-Context Schema Understanding Method for Knowledge Base Question Answering ( http://arxiv.org/abs/2310.14174v1 )

ライセンス: Link先を確認
Yantao Liu, Zixuan Li, Xiaolong Jin, Long Bai, Saiping Guan, Jiafeng Guo and Xueqi Cheng(参考訳) 知識ベース質問回答(KBQA)タスクは、与えられた知識ベースに基づいて自然言語質問に回答することを目的としている。 このタスクの一般的な方法として、セマンティックパーシングベースのものは、まず自然言語の質問を論理形式(SPARQLクエリなど)に変換し、それから知識ベースで実行して答えを得る。 近年,Large Language Models (LLMs) は言語理解に強い能力を示し,このような手法で意味解析として採用されている。 しかし、LLMにとっての大きな課題は、知識基盤のスキーマを理解することである。 そこで本研究では,KBQAのセマンティックパーサとして使用するLLMを容易にするためのインコンテキストスキーマ理解(ICSU)手法を提案する。 具体的には、ICSUは、LLMにSPARQLクエリを例で生成するように指示するために、In-context Learningメカニズムを採用している。 質問に関する包括的なスキーマ情報を含む注釈付き問合せペアから適切な例を検索するために、ICSUは4つの異なる検索戦略を探索する。 最大のKBQAベンチマークであるKQA Proの実験結果によると、ICSUの全ての戦略は、ランダムな検索戦略(精度が12\%から78.76\%)よりも優れていた。

The Knowledge Base Question Answering (KBQA) task aims to answer natural language questions based on a given knowledge base. As a kind of common method for this task, semantic parsing-based ones first convert natural language questions to logical forms (e.g., SPARQL queries) and then execute them on knowledge bases to get answers. Recently, Large Language Models (LLMs) have shown strong abilities in language understanding and may be adopted as semantic parsers in such kinds of methods. However, in doing so, a great challenge for LLMs is to understand the schema of knowledge bases. Therefore, in this paper, we propose an In-Context Schema Understanding (ICSU) method for facilitating LLMs to be used as a semantic parser in KBQA. Specifically, ICSU adopts the In-context Learning mechanism to instruct LLMs to generate SPARQL queries with examples. In order to retrieve appropriate examples from annotated question-query pairs, which contain comprehensive schema information related to questions, ICSU explores four different retrieval strategies. Experimental results on the largest KBQA benchmark, KQA Pro, show that ICSU with all these strategies outperforms that with a random retrieval strategy significantly (from 12\% to 78.76\% in accuracy).
翻訳日:2023-10-25 01:23:06 公開日:2023-10-22
# ASC:胎児脳MRIにおける教師なし領域適応の出現と構造整合性

ASC: Appearance and Structure Consistency for Unsupervised Domain Adaptation in Fetal Brain MRI Segmentation ( http://arxiv.org/abs/2310.14172v1 )

ライセンス: Link先を確認
Zihang Xu and Haifan Gong and Xiang Wan and Haofeng Li(参考訳) 胎児脳画像の自動組織分割は出生前神経発達の定量的解析に不可欠である。 しかし、胎児脳画像のボクセルレベルのアノテーションの作成には時間と費用がかかる。 そこで本研究では,高品質な胎児脳アトラスのセグメンテーションラベルを他の領域の胎児脳MRIデータに適応させる,実用的な非教師なし領域適応(UDA)設定を提案する。 この課題に対処するため,ASC という外観・構造整合性に基づく新しい UDA フレームワークを提案する。 我々は、周波数ベースの画像変換の前後の一貫性を制約し、脳MRIデータとアトラスの外観を置き換えることで、セグメント化モデルを異なる領域の外観に適応させる。 同じ領域であっても、妊娠年齢の異なる胎児の脳画像は解剖学的構造に大きな変化をもたらす可能性がある。 モデルが対象領域の構造変化に適応できるようにするため、異なる構造摂動下での予測一貫性をさらに促進する。 FeTA 2021ベンチマークの大規模な実験は、登録ベース、半教師付き学習ベースおよび既存のUDAベースの方法と比較して、ASCの有効性を示す。

Automatic tissue segmentation of fetal brain images is essential for the quantitative analysis of prenatal neurodevelopment. However, producing voxel-level annotations of fetal brain imaging is time-consuming and expensive. To reduce labeling costs, we propose a practical unsupervised domain adaptation (UDA) setting that adapts the segmentation labels of high-quality fetal brain atlases to unlabeled fetal brain MRI data from another domain. To address the task, we propose a new UDA framework based on Appearance and Structure Consistency, named ASC. We adapt the segmentation model to the appearances of different domains by constraining the consistency before and after a frequency-based image transformation, which is to swap the appearance between brain MRI data and atlases. Consider that even in the same domain, the fetal brain images of different gestational ages could have significant variations in the anatomical structures. To make the model adapt to the structural variations in the target domain, we further encourage prediction consistency under different structural perturbations. Extensive experiments on FeTA 2021 benchmark demonstrate the effectiveness of our ASC in comparison to registration-based, semi-supervised learning-based, and existing UDA-based methods.
翻訳日:2023-10-25 01:22:44 公開日:2023-10-22
# 潜在離散空間における不変分子表現の学習

Learning Invariant Molecular Representation in Latent Discrete Space ( http://arxiv.org/abs/2310.14170v1 )

ライセンス: Link先を確認
Xiang Zhuang, Qiang Zhang, Keyan Ding, Yatao Bian, Xiao Wang, Jingsong Lv, Hongyang Chen, Huajun Chen(参考訳) 分子表現学習は、薬物発見の基礎となる。 しかし、既存の手法では、特にトレーニングやテストのためのデータが異なる環境に由来する場合、OODの一般化に悩まされている。 この問題に対処するために,分布シフトに対する不変性と堅牢性を示す分子表現を学習するための新しい枠組みを提案する。 具体的には,従来の慣行から逸脱した潜伏空間における不変分子の特徴を識別する「第一エンコード・then-separation」という戦略を提案する。 分離ステップに先立ち,エンコーダの表現性を維持しつつ,トレーニングデータ分布へのオーバーフィッティングを緩和する残差ベクトル量子化モジュールを導入する。 さらに,タスク非依存な自己教師付き学習目標を設計,高精度な不分散同定を奨励し,回帰やマルチラベル分類など,様々なタスクに適用可能な手法を提案する。 18種類の実世界の分子データセットに関する広範囲な実験により,本モデルが分散シフトの存在下で,最先端のベースラインに対してより強固な一般化を実現することを証明した。 私たちのコードはhttps://github.com/hicai-zju/imoldで利用可能です。

Molecular representation learning lays the foundation for drug discovery. However, existing methods suffer from poor out-of-distribution (OOD) generalization, particularly when data for training and testing originate from different environments. To address this issue, we propose a new framework for learning molecular representations that exhibit invariance and robustness against distribution shifts. Specifically, we propose a strategy called ``first-encoding-then-separation'' to identify invariant molecule features in the latent space, which deviates from conventional practices. Prior to the separation step, we introduce a residual vector quantization module that mitigates the over-fitting to training data distributions while preserving the expressivity of encoders. Furthermore, we design a task-agnostic self-supervised learning objective to encourage precise invariance identification, which enables our method widely applicable to a variety of tasks, such as regression and multi-label classification. Extensive experiments on 18 real-world molecular datasets demonstrate that our model achieves stronger generalization against state-of-the-art baselines in the presence of various distribution shifts. Our code is available at https://github.com/HICAI-ZJU/iMoLD.
翻訳日:2023-10-25 01:22:23 公開日:2023-10-22
# 最適化アルゴリズムの自動微分のランダム化フォワードモード

Randomized Forward Mode of Automatic Differentiation for Optimization Algorithms ( http://arxiv.org/abs/2310.14168v1 )

ライセンス: Link先を確認
Khemraj Shukla and Yeonjong Shin(参考訳) ニューラルネットワーク内のバックプロパゲーションは、リバースモード微分(reverse mode differentiation)またはベクタージャコビアン積(vector jacobian product、vjp)と呼ばれる自動微分の基本的な要素を利用する。 勾配降下法を用いてニューラルネットワークパラメータの更新を行うため,勾配の計算が重要である。 本研究では,フォワードモード ad やヤコビベクトル積 (jvp) を用いて効率的に計算される損失関数の方向微分を用いて,ニューラルネットワークのパラメータを更新するジェネリックランダム化手法を提案する。 これらのJVPは、Bernoulli、Normal、Wigner、Laplace、Uniformといった確率分布からサンプリングされたランダムな方向に沿って計算される。 勾配の計算はニューラルネットワークの前方通過中に行われる。 また,特に物理インフォームドニューラルネットワークやDeep Operator Networksにおいて,科学的機械学習に導入された計算実験とともに収束率を示す手法について,厳密な分析を行った。

Backpropagation within neural networks leverages a fundamental element of automatic differentiation, which is referred to as the reverse mode differentiation, or vector Jacobian Product (VJP) or, in the context of differential geometry, known as the pull-back process. The computation of gradient are important as update of neural network parameters is performed using gradient descent method. In this study, we present a genric randomized method, which updates the parameters of neural networks by using directional derivatives of loss functions computed efficiently by using forward mode AD or Jacobian vector Product (JVP). These JVP are computed along the random directions sampled from different probability distributions e.g., Bernoulli, Normal, Wigner, Laplace and Uniform distributions. The computation of gradient is performed during the forward pass of the neural network. We also present a rigorous analysis of the presented methods providing the rate of convergence along with the computational experiments deployed in scientific Machine learning in particular physics-informed neural networks and Deep Operator Networks.
翻訳日:2023-10-25 01:22:04 公開日:2023-10-22
# グラフニューラルネットワークのためのアンサンブル学習

Ensemble Learning for Graph Neural Networks ( http://arxiv.org/abs/2310.14166v1 )

ライセンス: Link先を確認
Zhen Hao Wong, Ling Yue, Quanming Yao(参考訳) グラフニューラルネットワーク(GNN)は、グラフ構造化データから学習するための様々な分野で成功している。 本稿では,グラフニューラルネットワーク(GNN)の性能と堅牢性向上のためのアンサンブル学習手法の適用について検討する。 多様な初期化やアーキテクチャを用いて複数のGNNモデルをトレーニングすることにより、データのさまざまな側面をキャプチャし、Tree-Structued Parzen Estimatorアルゴリズムを用いてアンサンブル重量を決定する、ELGNNと呼ばれるアンサンブルモデルを作成する。 これらのモデルの予測を組み合わせることで、全体的な精度を高め、バイアスと分散を低減し、ノイズデータの影響を軽減する。 本研究は,複雑なグラフ構造データ解析のためのGNN能力向上のためのアンサンブル学習の有効性を示す。 コードはhttps://github.com/wongzhenhao/elgnnで公開されている。

Graph Neural Networks (GNNs) have shown success in various fields for learning from graph-structured data. This paper investigates the application of ensemble learning techniques to improve the performance and robustness of Graph Neural Networks (GNNs). By training multiple GNN models with diverse initializations or architectures, we create an ensemble model named ELGNN that captures various aspects of the data and uses the Tree-Structured Parzen Estimator algorithm to determine the ensemble weights. Combining the predictions of these models enhances overall accuracy, reduces bias and variance, and mitigates the impact of noisy data. Our findings demonstrate the efficacy of ensemble learning in enhancing GNN capabilities for analyzing complex graph-structured data. The code is public at https://github.com/wongzhenhao/ELGNN.
翻訳日:2023-10-25 01:21:46 公開日:2023-10-22
# 非エルミート横光ビームシフトにおける不均一偏光進化の基本的問題を解く

Inhomogeneous polarization evolution resolves a fundamental issue in non-Hermitian transverse optical beam shifts ( http://arxiv.org/abs/2310.14210v1 )

ライセンス: Link先を確認
Niladri Modak, Swain Ashutosh, Shyamal Guchhait, Sayan Ghosh, Ritwik Dhara, Jeeban Kumar Nayak, Sourin Das, Nirmalya Ghosh(参考訳) 系のパラメータによっては、反射の逆光ビームシフトは、実際の固有値と非直交固有状態を持つ非エルミタンとなる。 典型的なPT(パリティ時)対称系とのこのような特異な類似性は、ビームの運動量領域の分極進化に由来する。 特に部分反射の場合、ビームの運動量領域の不均一偏光進化は、横シフト作用素の対応する固有スペクトルにおける全ての特異点の中心にある。 これらの知見は、新しい非エルミートスピン軌道フォトニクスの概念を提唱し、共通偏光光学素子をPT対称非エルミート系として機能させることを可能にした。

Depending on the system parameters, the transverse optical beam shift in reflection can be non-Hermitian with real eigenvalues and non-orthogonal eigenstates. We reveal that such an unusual resemblance with typical PT (parity-time)-symmetric systems originates from the beam's momentum domain polarization evolution. Specifically, for partial reflection, the momentum domain inhomogeneous polarization evolution of the beam is at the heart of all the peculiarities in the corresponding eigenspectrum of the transverse shift operator. These findings put forward the notion of novel non-Hermitian spin-orbit photonics and enable common polarization optical elements to act as PT-symmetric non-Hermitian systems.
翻訳日:2023-10-25 01:13:36 公開日:2023-10-22
# SUT: トランスコンパイラモデルのアクティブな欠陥調査

SUT: Active Defects Probing for Transcompiler Models ( http://arxiv.org/abs/2310.14209v1 )

ライセンス: Link先を確認
Mengnan Qi, Yufan Huang, Maoquan Wang, Yongqiang Yao, Zihan Liu, Bin Gu, Colin Clement, Neel Sundaresan(参考訳) 自動プログラム翻訳は膨大なアプリケーション価値を持ち、ai研究者から大きな関心を集めている。 しかし、現在のプログラム翻訳モデルは、特に対象言語がソース言語に構文要素を持っていない場合に、基本的な構文エラーを生じさせる。 BLUE、CodeBLUE、計算精度などのメトリクスはこれらの問題を露呈しない可能性がある。 本稿では、プログラミング言語翻訳のための新しいメトリクスを導入し、これらの基本的な構文エラーに対処する。 本稿では,sut(syntactic unit tests)と呼ばれる新しい能動欠陥探索スイートを開発した。 実験によると、ChatGPTのような強力なモデルでさえ、これらの基本的なユニットテストで間違いを犯している。 具体的には,従来のプログラム翻訳タスク評価データセットと比較して,ユニットテストの合格率は26.15%減少した。 さらに,これらのモデルが欠陥を示す構文的要素誤差を明らかにする。

Automatic Program translation has enormous application value and hence has been attracting significant interest from AI researchers. However, we observe that current program translation models still make elementary syntax errors, particularly, when the target language does not have syntax elements in the source language. Metrics like BLUE, CodeBLUE and computation accuracy may not expose these issues. In this paper we introduce a new metrics for programming language translation and these metrics address these basic syntax errors. We develop a novel active defects probing suite called Syntactic Unit Tests (SUT) which includes a highly interpretable evaluation harness for accuracy and test scoring. Experiments have shown that even powerful models like ChatGPT still make mistakes on these basic unit tests. Specifically, compared to previous program translation task evaluation dataset, its pass rate on our unit tests has decreased by 26.15%. Further our evaluation harness reveal syntactic element errors in which these models exhibit deficiencies.
翻訳日:2023-10-25 01:13:26 公開日:2023-10-22
# 多様体保存トランスは短距離符号化に有効である

Manifold-Preserving Transformers are Effective for Short-Long Range Encoding ( http://arxiv.org/abs/2310.14206v1 )

ライセンス: Link先を確認
Ayan Sengupta, Md Shad Akhtar and Tanmoy Chakraborty(参考訳) マルチヘッドセルフアテンションベースのトランスフォーマーは、さまざまな学習タスクで期待されている。 これらのモデルは、シークエンス、トランスフォーマーのエンコーダ、およびそれらの変種からの短期的および長期的コンテキストの理解において、大きな改善を示す。 トランスフォーマーは通常、トークンをスパース多様体に射影し、トークン表現間の数学的等価性を維持するのに失敗する。 本研究では,一対のトークン間の層間距離保存の理論的境界を保証するエンコーダモデルであるtransjectを提案する。 リプシッツ連続性を確保するために,点生成的注意の簡易な代替案を提案する。 これにより、トランジェクションは射影写像を学習し、同様のトポロジーを持つ異なる多様体へのトークン表現を変換し、続く層内のすべてのトークン間のユークリッド距離を保存することができる。 複数のベンチマークのショートシーケンスとロングシーケンスの分類タスクに対する評価は、トランスフォーマーの変種よりも最大6.8%と5.9%の改善を示している。 さらに、TransJectは言語モデリングタスクでTransformerよりも79%パフォーマンスが向上している。 統計物理学の観点から,マルチヘッド自己注意の欠点をさらに強調する。 マルチヘッド・セルフ・アテンションはネットワーク内で異なる抽象レベルを学ぶために始められたが、実験的な分析から異なる注意ヘッドがランダムに無秩序に学習することを示唆している。 対照的に、transjectは正規化のために専門家の混合物に適応する;これらの専門家はより秩序とバランスを持ち、入力シーケンスから異なるスパース表現を学ぶ。 トランスジェクトは非常に低いエントロピーを示し、より深い深さまで効率的にスケールできる。

Multi-head self-attention-based Transformers have shown promise in different learning tasks. Albeit these models exhibit significant improvement in understanding short-term and long-term contexts from sequences, encoders of Transformers and their variants fail to preserve layer-wise contextual information. Transformers usually project tokens onto sparse manifolds and fail to preserve mathematical equivalence among the token representations. In this work, we propose TransJect, an encoder model that guarantees a theoretical bound for layer-wise distance preservation between a pair of tokens. We propose a simple alternative to dot-product attention to ensure Lipschitz continuity. This allows TransJect to learn injective mappings to transform token representations to different manifolds with similar topology and preserve Euclidean distance between every pair of tokens in subsequent layers. Evaluations across multiple benchmark short- and long-sequence classification tasks show maximum improvements of 6.8% and 5.9%, respectively, over the variants of Transformers. Additionally, TransJect displays 79% better performance than Transformer on the language modeling task. We further highlight the shortcomings of multi-head self-attention from the statistical physics viewpoint. Although multi-head self-attention was incepted to learn different abstraction levels within the networks, our empirical analyses suggest that different attention heads learn randomly and unorderly. In contrast, TransJect adapts a mixture of experts for regularization; these experts are more orderly and balanced and learn different sparse representations from the input sequences. TransJect exhibits very low entropy and can be efficiently scaled to larger depths.
翻訳日:2023-10-25 01:13:13 公開日:2023-10-22
# 最適制御レンズによるプロンプトエンジニアリング

Prompt Engineering Through the Lens of Optimal Control ( http://arxiv.org/abs/2310.14201v1 )

ライセンス: Link先を確認
Yifan Luo, Yiming Tang, Chengfeng Shen, Zhennan Zhou, Bin Dong(参考訳) Prompt Engineering (PE)は、複雑なタスクの解決において、LLM(Large Language Models)を導く重要なテクニックとして登場した。 その重要性は、人間と機械の相互作用の効率と効率を著しく向上させる可能性によって強調される。 タスクが複雑化するにつれて、最近の高度なPE手法は、LLMとのより深く、よりニュアンスなエンゲージメントを可能にするマルチラウンドインタラクションを受け入れるために、シングルラウンドインタラクションの制限を超えて拡張されている。 本稿では,LLMとのマルチラウンドインタラクションに適した最適制御フレームワークを提案する。 このフレームワークは、既存のPEメソッドを体系化するだけでなく、厳密な解析的改善の段階を設定できる統一された数学的構造を提供する。 さらに,本フレームワークを,アンサンブル手法とマルチエージェント協調によるPEを含むように拡張し,適用範囲を拡大する。 最適制御の観点を採用することで、既存のPE手法に対する新たな洞察を提供し、将来の研究を保証できる理論上の課題を強調します。 さらに,本研究は,より効率的かつ解釈可能なPE手法の開発の基礎となる。

Prompt Engineering (PE) has emerged as a critical technique for guiding Large Language Models (LLMs) in solving intricate tasks. Its importance is highlighted by its potential to significantly enhance the efficiency and effectiveness of human-machine interaction. As tasks grow increasingly complex, recent advanced PE methods have extended beyond the limitations of single-round interactions to embrace multi-round interactions, which allows for a deeper and more nuanced engagement with LLMs. In this paper, we propose an optimal control framework tailored for multi-round interactions with LLMs. This framework provides a unified mathematical structure that not only systematizes the existing PE methods but also sets the stage for rigorous analytical improvements. Furthermore, we extend this framework to include PE via ensemble methods and multi-agent collaboration, thereby enlarging the scope of applicability. By adopting an optimal control perspective, we offer fresh insights into existing PE methods and highlight theoretical challenges that warrant future research. Besides, our work lays a foundation for the development of more effective and interpretable PE methods.
翻訳日:2023-10-25 01:12:48 公開日:2023-10-22
# QA-NatVer:自然論理に基づくファクト検証のための質問回答

QA-NatVer: Question Answering for Natural Logic-based Fact Verification ( http://arxiv.org/abs/2310.14198v1 )

ライセンス: Link先を確認
Rami Aly and Marek Strong and Andreas Vlachos(参考訳) 事実検証システムは、証拠に基づいてクレームの妥当性を評価する。 それらを設計する上で重要な考慮事項は、忠実性、すなわちモデルの推論を正確に反映する説明の生成である。 最近の研究は自然言語を直接操作する自然言語に焦点を合わせており、集合論演算子を通して、アライメントの主張とその証拠の間のスパンの意味的関係を捉えている。 しかし、これらのアプローチはトレーニングにかなりのリソースに依存しており、これは高リソース言語でしか利用できない。 そこで本研究では,自然言語演算子の予測に質問応答を用い,命令調整言語モデルの一般化機能を活用することを提案する。 したがって、決定論的推論システムに依存しつつ、注釈付きトレーニングデータの必要性を回避できる。 FEVER上の数ショット設定では、最先端の訓練済みのseq2seq自然言語システムや最先端のプロンプトベースの分類器などを含む、最高のベースラインを4.3ドルの精度で上回ります。 本システムは,その堅牢性とポータビリティを実証し,対実的データセット上での競合性能を実現し,デンマークの検証データセットにさらなるアノテーションを加えることなく,すべてのアプローチを克服する。 人間による評価は、従来の自然論理に基づくシステムよりも、誤った自然論理演算子が少なく、より妥当な証明を生み出すことを示している。

Fact verification systems assess a claim's veracity based on evidence. An important consideration in designing them is faithfulness, i.e. generating explanations that accurately reflect the reasoning of the model. Recent works have focused on natural logic, which operates directly on natural language by capturing the semantic relation of spans between an aligned claim with its evidence via set-theoretic operators. However, these approaches rely on substantial resources for training, which are only available for high-resource languages. To this end, we propose to use question answering to predict natural logic operators, taking advantage of the generalization capabilities of instruction-tuned language models. Thus, we obviate the need for annotated training data while still relying on a deterministic inference system. In a few-shot setting on FEVER, our approach outperforms the best baseline by $4.3$ accuracy points, including a state-of-the-art pre-trained seq2seq natural logic system, as well as a state-of-the-art prompt-based classifier. Our system demonstrates its robustness and portability, achieving competitive performance on a counterfactual dataset and surpassing all approaches without further annotation on a Danish verification dataset. A human evaluation indicates that our approach produces more plausible proofs with fewer erroneous natural logic operators than previous natural logic-based systems.
翻訳日:2023-10-25 01:12:29 公開日:2023-10-22
# 拡散に基づく核画像分割のためのデータ拡張

Diffusion-based Data Augmentation for Nuclei Image Segmentation ( http://arxiv.org/abs/2310.14197v1 )

ライセンス: Link先を確認
Xinyi Yu and Guanbin Li and Wei Lou and Siqi Liu and Xiang Wan and Yan Chen and Haofeng Li(参考訳) 核セグメンテーションは病理組織像の定量的解析において基本的だが困難な課題である。 完全教師付き深層学習に基づく手法は大きな進歩を遂げているが,多くのラベル付き画像が大きなセグメンテーション性能を達成するために必要である。 データセットのすべての核インスタンスを手動でラベル付けするのは非効率であることを考えると、大規模な人間による注釈付きデータセットを得るには時間と労力がかかります。 したがって、セグメンテーション性能を改善するためにラベル付き画像の少ないデータセットを増強することは、重要な研究と応用価値である。 本稿では,最初の拡散に基づく核分割の増強法を提案する。 セグメンテーションモデルのトレーニングを容易にするために、多数のラベル付き画像を合成する。 そこで我々は2段階の戦略を提案する。 最初のステップでは、無条件拡散モデルを訓練し、ピクセルレベルの意味と距離変換の表現として定義される核構造を合成する。 各合成核構造は病理組織像合成の制約となり、さらに後処理されてインスタンスマップとなる。 第2段階では,核構造に基づく病理組織像を合成するために条件付き拡散モデルを訓練する。 合成インスタンスマップと組み合わせた合成組織病理画像は、セグメンテーションモデルをトレーニングするために実際のデータセットに追加される。 実験の結果,10%のラベル付き実データセットを合成サンプルで拡張することにより,完全教師付きベースラインで同等のセグメンテーション結果が得られることがわかった。

Nuclei segmentation is a fundamental but challenging task in the quantitative analysis of histopathology images. Although fully-supervised deep learning-based methods have made significant progress, a large number of labeled images are required to achieve great segmentation performance. Considering that manually labeling all nuclei instances for a dataset is inefficient, obtaining a large-scale human-annotated dataset is time-consuming and labor-intensive. Therefore, augmenting a dataset with only a few labeled images to improve the segmentation performance is of significant research and application value. In this paper, we introduce the first diffusion-based augmentation method for nuclei segmentation. The idea is to synthesize a large number of labeled images to facilitate training the segmentation model. To achieve this, we propose a two-step strategy. In the first step, we train an unconditional diffusion model to synthesize the Nuclei Structure that is defined as the representation of pixel-level semantic and distance transform. Each synthetic nuclei structure will serve as a constraint on histopathology image synthesis and is further post-processed to be an instance map. In the second step, we train a conditioned diffusion model to synthesize histopathology images based on nuclei structures. The synthetic histopathology images paired with synthetic instance maps will be added to the real dataset for training the segmentation model. The experimental results show that by augmenting 10% labeled real dataset with synthetic samples, one can achieve comparable segmentation results with the fully-supervised baseline.
翻訳日:2023-10-25 01:12:05 公開日:2023-10-22
# 識別への学習 : 嗜好と表現の学習による異種人間デモの省略

Learning to Discern: Imitating Heterogeneous Human Demonstrations with Preference and Representation Learning ( http://arxiv.org/abs/2310.14196v1 )

ライセンス: Link先を確認
Sachit Kuhar and Shuo Cheng and Shivang Chopra and Matthew Bronars and Danfei Xu(参考訳) 実践的模倣学習(IL)システムは、政策学習を成功させるために大規模な人間の実演データセットに依存している。 しかしながら、収集されたデータの品質を維持し、いくつかのデモの最適以下の性質に対処する上での課題は、データセットの全体的な品質を損なう可能性がある。 さらに、人間の行動に内在する不均一性は、等しく成功するが異質なデモンストレーションを生み出すことがあり、デモの質を見極めるという課題をさらに悪化させる。 これらの課題に対処するために,多様な品質とスタイルのデモンストレーションから学ぶためのオフライン模倣学習フレームワークであるL2Dを紹介した。 粗い品質ラベルを持つ少数の実演を考えると、時間的に埋め込まれた軌道セグメントの潜在表現を学習する。 この潜在空間における選好学習は、異なるスタイルを示す新しいデモンストレータに一般化された品質評価器を訓練する。 実証的に,l2dは様々なデモから効果的に評価し,学習し,シミュレーションと物理ロボットの両方において,様々なタスクにわたるポリシー性能の向上に繋がることを示した。

Practical Imitation Learning (IL) systems rely on large human demonstration datasets for successful policy learning. However, challenges lie in maintaining the quality of collected data and addressing the suboptimal nature of some demonstrations, which can compromise the overall dataset quality and hence the learning outcome. Furthermore, the intrinsic heterogeneity in human behavior can produce equally successful but disparate demonstrations, further exacerbating the challenge of discerning demonstration quality. To address these challenges, this paper introduces Learning to Discern (L2D), an offline imitation learning framework for learning from demonstrations with diverse quality and style. Given a small batch of demonstrations with sparse quality labels, we learn a latent representation for temporally embedded trajectory segments. Preference learning in this latent space trains a quality evaluator that generalizes to new demonstrators exhibiting different styles. Empirically, we show that L2D can effectively assess and learn from varying demonstrations, thereby leading to improved policy performance across a range of tasks in both simulations and on a physical robot.
翻訳日:2023-10-25 01:11:43 公開日:2023-10-22
# ディトラクタ対応イベントベーストラッキング

Distractor-aware Event-based Tracking ( http://arxiv.org/abs/2310.14194v1 )

ライセンス: Link先を確認
Yingkai Fu, Meng Li, Wenxi Liu, Yuanchen Wang, Jiqing Zhang, Baocai Yin, Xiaopeng Wei, Xin Yang(参考訳) イベントカメラ(ダイナミックビジョンセンサー)は、近年、基本的な視覚タスクからハイレベル視覚研究まで成功している。 光強度の変化を非同期に捉えることができるため、イベントカメラは、低照度、高ダイナミックレンジ、高速移動中のオブジェクトなど、困難なシナリオで動くオブジェクトをキャプチャする固有の利点がある。 したがって、イベントカメラはビジュアルオブジェクト追跡に自然である。 しかし、RGBトラッカーから派生した現在のイベントベースのトラッカーは、単に入力イメージをイベントフレームに変更するだけで、ターゲットの区別のために主にオブジェクトテクスチャに焦点を当てた従来の追跡パイプラインに従っている。 結果として、トラッカーは、移動カメラや散らかった前景などの困難なシナリオに頑丈ではないかもしれない。 本稿では,シャムネットワークアーキテクチャ(danet)にトランスフォーマーモジュールを導入するイベントベースのトラッカを提案する。 具体的には,動き認識ネットワークとターゲット認識ネットワークを主とし,イベントデータから動きの手がかりと物体の輪郭を同時に活用し,動きの物体を発見し,動的に注意をそらして対象物体を識別する。 私たちのDANetは、後処理なしでエンドツーエンドでトレーニングでき、単一のV100上で80FPS以上で実行できます。 提案モデルを検証するため、2つの大きなイベント追跡データセットに関する包括的な実験を行った。 我々のトラッカーは精度と効率の両面において最先端トラッカーに対して優れた性能を示す。

Event cameras, or dynamic vision sensors, have recently achieved success from fundamental vision tasks to high-level vision researches. Due to its ability to asynchronously capture light intensity changes, event camera has an inherent advantage to capture moving objects in challenging scenarios including objects under low light, high dynamic range, or fast moving objects. Thus event camera are natural for visual object tracking. However, the current event-based trackers derived from RGB trackers simply modify the input images to event frames and still follow conventional tracking pipeline that mainly focus on object texture for target distinction. As a result, the trackers may not be robust dealing with challenging scenarios such as moving cameras and cluttered foreground. In this paper, we propose a distractor-aware event-based tracker that introduces transformer modules into Siamese network architecture (named DANet). Specifically, our model is mainly composed of a motion-aware network and a target-aware network, which simultaneously exploits both motion cues and object contours from event data, so as to discover motion objects and identify the target object by removing dynamic distractors. Our DANet can be trained in an end-to-end manner without any post-processing and can run at over 80 FPS on a single V100. We conduct comprehensive experiments on two large event tracking datasets to validate the proposed model. We demonstrate that our tracker has superior performance against the state-of-the-art trackers in terms of both accuracy and efficiency.
翻訳日:2023-10-25 01:11:24 公開日:2023-10-22
# PromptMix:大規模言語モデル蒸留のためのクラス境界拡張法

PromptMix: A Class Boundary Augmentation Method for Large Language Model Distillation ( http://arxiv.org/abs/2310.14192v1 )

ライセンス: Link先を確認
Gaurav Sahu, Olga Vechtomova, Dzmitry Bahdanau, Issam H. Laradji(参考訳) データ拡張は、限られたトレーニングデータが存在する場合に、テキスト分類の問題に対処するために広く用いられるテクニックである。 最近の研究は、しばしばGPT3のような大きな言語モデル(LLM)を使ってこの問題に取り組む。 そこで本研究では,llmの命令を追従し,少数ショットの分類を行うことで,より有用な拡張データを生成する手法を提案する。 PromptMix法は2つのステップから構成される。 1)クラス境界付近で難易度の高いテキスト拡張を生成するが,境界例の生成はデータセット内の偽陽性のリスクを増加させる。 2) 生成したデータのラベルの正しさを高めるために, プロンプトベースのLCM分類器を用いてテキスト拡張を行う。 Banking77, TREC6, Subjectivity (SUBJ), Twitter Complaints の4つのテキスト分類データセットに対して, 2ショット・ゼロショット設定に挑戦する手法の評価を行った。 実験により, GPT3.5-turbo のような大規模 LLM の知識を DistilBERT$_{base}$ や BERT$_{base}$ などより小さく,より安価な分類器に伝達する上で, 境界線例の生成と再現が重要であることが示された。 さらに、2-shot PromptMixは、4つのデータセットで複数の5-shotデータ拡張メソッドより優れています。 私たちのコードはhttps://github.com/ServiceNow/PromptMix-EMNLP-2023で利用可能です。

Data augmentation is a widely used technique to address the problem of text classification when there is a limited amount of training data. Recent work often tackles this problem using large language models (LLMs) like GPT3 that can generate new examples given already available ones. In this work, we propose a method to generate more helpful augmented data by utilizing the LLM's abilities to follow instructions and perform few-shot classifications. Our specific PromptMix method consists of two steps: 1) generate challenging text augmentations near class boundaries; however, generating borderline examples increases the risk of false positives in the dataset, so we 2) relabel the text augmentations using a prompting-based LLM classifier to enhance the correctness of labels in the generated data. We evaluate the proposed method in challenging 2-shot and zero-shot settings on four text classification datasets: Banking77, TREC6, Subjectivity (SUBJ), and Twitter Complaints. Our experiments show that generating and, crucially, relabeling borderline examples facilitates the transfer of knowledge of a massive LLM like GPT3.5-turbo into smaller and cheaper classifiers like DistilBERT$_{base}$ and BERT$_{base}$. Furthermore, 2-shot PromptMix outperforms multiple 5-shot data augmentation methods on the four datasets. Our code is available at https://github.com/ServiceNow/PromptMix-EMNLP-2023.
翻訳日:2023-10-25 01:10:57 公開日:2023-10-22
# 一般グラフ上のボースハバードモデルの境界散乱トモグラフィー

Boundary scattering tomography of the Bose Hubbard model on general graphs ( http://arxiv.org/abs/2310.14191v1 )

ライセンス: Link先を確認
Abhi Saxena, Erfan Abbasgholinejad, Arka Majumdar and Rahul Trivedi(参考訳) 格子モデルにおける関連する量子多体現象は、古典的に解決できない物理的に興味深い問題の集合として特定されている。 フォトニクスやマイクロ波超伝導回路におけるアナログ量子シミュレータは、これらの問題に対処するための短期的プラットフォームとして登場してきた。 現実的な量子シミュレーション実験において重要な要素は、実装されたハミルトニアンのトモグラフィーである。シミュレータ内の各キュービットに個別の計測アクセスがある場合、これは容易に実行できるが、多くのハードウェアプラットフォームで実装することは困難である。 本稿では,bose-hubbardハミルトニアンによって記述できる量子シミュレータのトモグラフィー法を提案する。 本稿では, 実験的に定常な伝送関数と2光子相関関数を境界で測定し, 標準量子限界でのハミルトニアンパラメータを抽出するアルゴリズムを提案する。 さらに、量子強化分光法に基づいて、シミュレータのオンサイト反発をオン/オフする追加の能力により、標準量子限界を超えたハミルトンパラメータを感知できることが示される。

Correlated quantum many-body phenomena in lattice models have been identified as a set of physically interesting problems that cannot be solved classically. Analog quantum simulators, in photonics and microwave superconducting circuits, have emerged as near-term platforms to address these problems. An important ingredient in practical quantum simulation experiments is the tomography of the implemented Hamiltonians -- while this can easily be performed if we have individual measurement access to each qubit in the simulator, this could be challenging to implement in many hardware platforms. In this paper, we present a scheme for tomography of quantum simulators which can be described by a Bose-Hubbard Hamiltonian while having measurement access to only some sites on the boundary of the lattice. We present an algorithm that uses the experimentally routine transmission and two-photon correlation functions, measured at the boundary, to extract the Hamiltonian parameters at the standard quantum limit. Furthermore, by building on quantum enhanced spectroscopy protocols that, we show that with the additional ability to switch on and off the on-site repulsion in the simulator, we can sense the Hamiltonian parameters beyond the standard quantum limit.
翻訳日:2023-10-25 01:10:29 公開日:2023-10-22
# 多種非教師付き異常検出のための階層型ベクトル量子化トランス

Hierarchical Vector Quantized Transformer for Multi-class Unsupervised Anomaly Detection ( http://arxiv.org/abs/2310.14228v1 )

ライセンス: Link先を確認
Ruiying Lu, YuJie Wu, Long Tian, Dongsheng Wang, Bo Chen, Xiyang Liu, Ruimin Hu(参考訳) 教師なし画像異常検出(UAD)は、正常サンプルの堅牢かつ識別的な表現を学習することを目的としている。 クラスごとに異なるソリューションは、高価な計算と限定的な汎用性をもたらすが、本論文では、複数のクラスのための統一フレームワークの構築に焦点を当てる。 このような困難な状況下では、連続的な遅延表現仮定を持つ一般的な再構成ベースのネットワークは、通常と異常の両方のサンプルがよく回収され、区別が難しい「識別的ショートカット」問題に常に悩まされる。 そこで本研究では,階層型ベクトル量子化プロトタイプ指向トランスを確率的枠組みで提案する。 まず、連続表現を学ぶ代わりに、典型的な正規パターンを離散的な象徴的なプロトタイプとして保存し、モデルが近道に落ちるのを防ぐためにベクトル量子化の重要性を確認する。 ベクトル量子化された象徴的プロトタイプは、異常なデータポイントが通常のデータポイントに反転するようにトランスフォーマーに統合され、第2に、コードブックの崩壊問題を緩和し、フライル正規パターンを補足するための、必要な階層的フレームワークについて検討する。 第3に,プロトタイプを制御し,異常スコアを階層的に評価するために,プロトタイプ指向の最適輸送法を提案する。 MVTec-ADおよびVisAデータセットに基づいて評価することにより、我々のモデルは最先端の代替品を超え、良好な解釈性を有する。 コードはhttps://github.com/ruiyinglu/hvq-transで入手できる。

Unsupervised image Anomaly Detection (UAD) aims to learn robust and discriminative representations of normal samples. While separate solutions per class endow expensive computation and limited generalizability, this paper focuses on building a unified framework for multiple classes. Under such a challenging setting, popular reconstruction-based networks with continuous latent representation assumption always suffer from the "identical shortcut" issue, where both normal and abnormal samples can be well recovered and difficult to distinguish. To address this pivotal issue, we propose a hierarchical vector quantized prototype-oriented Transformer under a probabilistic framework. First, instead of learning the continuous representations, we preserve the typical normal patterns as discrete iconic prototypes, and confirm the importance of Vector Quantization in preventing the model from falling into the shortcut. The vector quantized iconic prototype is integrated into the Transformer for reconstruction, such that the abnormal data point is flipped to a normal data point.Second, we investigate an exquisite hierarchical framework to relieve the codebook collapse issue and replenish frail normal patterns. Third, a prototype-oriented optimal transport method is proposed to better regulate the prototypes and hierarchically evaluate the abnormal score. By evaluating on MVTec-AD and VisA datasets, our model surpasses the state-of-the-art alternatives and possesses good interpretability. The code is available at https://github.com/RuiyingLu/HVQ-Trans.
翻訳日:2023-10-25 01:05:21 公開日:2023-10-22
# 分布外検出のための深層アンサンブルの再検討--ロスランドスケープの観点から

Revisiting Deep Ensemble for Out-of-Distribution Detection: A Loss Landscape Perspective ( http://arxiv.org/abs/2310.14227v1 )

ライセンス: Link先を確認
Kun Fang, Qinghua Tao, Xiaolin Huang and Jie Yang(参考訳) In-Distribution Data(InD)からOoDサンプルを検出する既存のOoD検出手法は、主にDeep Neural Networks(DNN)の機能、ロジット、勾配の違いを探索する。 本研究では,OoD検出における損失景観とモードアンサンブルの新しい視点を提案する。 DNNの最適化では、パラメータ空間やモードに多くの局所最適化が存在する。 興味深いことに、これらの独立モードは、すべてindデータ(トレーニングとテストデータ)で低損失領域に達するが、oodデータではかなり異なるロスランドスケープをもたらす。 このような観察は、ロスランドスケープからood検出を調べるための新しい視点を提供し、さらにこれらのモードをまたいでood検出性能が著しく変動することを示唆している。 例えば、RopFeatメソッドのFPR値は5つのモードで46.58%から84.70%まで変化し、独立モード間で不確実な検出性能評価を示す。 モード間におけるOoD損失ランドスケープの多様化により,モードアンサンブルによるOoD検出の深層アンサンブル法が再検討され,性能が向上し,ばらつきを低減したOoD検出器が有用となった。 様々なood検出器とネットワーク構造をカバーする広範囲な実験は、モード間で高いばらつきを示し、ood検出の促進におけるモードアンサンブルの優位性を検証する。 我々は、この研究がOoD損失ランドスケープの独立モードやOoD検出器の信頼性の高い評価の観点から注目されることを期待している。

Existing Out-of-Distribution (OoD) detection methods address to detect OoD samples from In-Distribution data (InD) mainly by exploring differences in features, logits and gradients in Deep Neural Networks (DNNs). We in this work propose a new perspective upon loss landscape and mode ensemble to investigate OoD detection. In the optimization of DNNs, there exist many local optima in the parameter space, or namely modes. Interestingly, we observe that these independent modes, which all reach low-loss regions with InD data (training and test data), yet yield significantly different loss landscapes with OoD data. Such an observation provides a novel view to investigate the OoD detection from the loss landscape and further suggests significantly fluctuating OoD detection performance across these modes. For instance, FPR values of the RankFeat method can range from 46.58% to 84.70% among 5 modes, showing uncertain detection performance evaluations across independent modes. Motivated by such diversities on OoD loss landscape across modes, we revisit the deep ensemble method for OoD detection through mode ensemble, leading to improved performance and benefiting the OoD detector with reduced variances. Extensive experiments covering varied OoD detectors and network structures illustrate high variances across modes and also validate the superiority of mode ensemble in boosting OoD detection. We hope this work could attract attention in the view of independent modes in the OoD loss landscape and more reliable evaluations on OoD detectors.
翻訳日:2023-10-25 01:04:54 公開日:2023-10-22
# マルチモダリティ画像のための低レベルcuesを用いたマルチストリームセルセグメンテーション

Multi-stream Cell Segmentation with Low-level Cues for Multi-modality Images ( http://arxiv.org/abs/2310.14226v1 )

ライセンス: Link先を確認
Wei Lou and Xinyi Yu and Chenyu Liu and Xiang Wan and Guanbin Li and Siqi Liu and Haofeng Li(参考訳) マルチモーダル顕微鏡画像のための細胞セグメンテーションは、これらの画像の複雑なテクスチャ、パターン、細胞形状のために依然として課題である。 この問題に対処するために,まず,低レベルの画像特性に基づいて顕微鏡画像にラベルを付ける自動セル分類パイプラインを開発し,カテゴリラベルに基づいて分類モデルを訓練する。 その後、対応するカテゴリの画像を用いて、カテゴリごとに個別のセグメンテーションモデルを訓練する。 さらに,2種類のセグメンテーションモデルを,丸みを帯びた形状と不規則な形状のセルに展開する。 さらに、効率的で強力なバックボーンモデルを用いて、セグメンテーションモデルの効率を向上させる。 提案手法は,NeurIPS 2022セルセグメンテーションチャレンジのチューニングセットに基づいて,F1スコア0.8795を達成し,全ケースのランニング時間は許容時間内である。

Cell segmentation for multi-modal microscopy images remains a challenge due to the complex textures, patterns, and cell shapes in these images. To tackle the problem, we first develop an automatic cell classification pipeline to label the microscopy images based on their low-level image characteristics, and then train a classification model based on the category labels. Afterward, we train a separate segmentation model for each category using the images in the corresponding category. Besides, we further deploy two types of segmentation models to segment cells with roundish and irregular shapes respectively. Moreover, an efficient and powerful backbone model is utilized to enhance the efficiency of our segmentation model. Evaluated on the Tuning Set of NeurIPS 2022 Cell Segmentation Challenge, our method achieves an F1-score of 0.8795 and the running time for all cases is within the time tolerance.
翻訳日:2023-10-25 01:04:22 公開日:2023-10-22
# 感情認識タスクのための一般大言語モデルのカスタマイズ

Customising General Large Language Models for Specialised Emotion Recognition Tasks ( http://arxiv.org/abs/2310.14225v1 )

ライセンス: Link先を確認
Liyizhe Peng, Zixing Zhang, Tao Pang, Jing Han, Huan Zhao, Hao Chen, Bj\"orn W. Schuller(参考訳) 大規模言語モデル(LLM)の出現は、過去1年間で大きな注目を集めています。 これまでの研究では、他のタスクだけでなく、正確性、普遍性、説明性、堅牢性、少数/ゼロショット学習などの観点からも、LLMの驚くべき性能を示している。 LLMの能力を活用することは、必然的に感情認識にとって重要な解決策となる。 この目的のために我々は,LLMが言語的感情認識においてどのように機能するかを,より包括的に検討する。 具体的には、一般に普及しているLLM -- Chat General Language Modelを例示し、2つの異なるモーダル適応手法、すなわちディープ・プロンプト・チューニングと低ランク適応を用いてターゲットにカスタマイズする。 6つの広く使われているデータセットで得られた実験結果から、適応されたLLMは他の最先端の深層モデルよりも容易に優れた性能を発揮することが示された。 このことは、感情認識の分野におけるLSMの強い伝達性と実現可能性を示している。

The advent of large language models (LLMs) has gained tremendous attention over the past year. Previous studies have shown the astonishing performance of LLMs not only in other tasks but also in emotion recognition in terms of accuracy, universality, explanation, robustness, few/zero-shot learning, and others. Leveraging the capability of LLMs inevitably becomes an essential solution for emotion recognition. To this end, we further comprehensively investigate how LLMs perform in linguistic emotion recognition if we concentrate on this specific task. Specifically, we exemplify a publicly available and widely used LLM -- Chat General Language Model, and customise it for our target by using two different modal adaptation techniques, i.e., deep prompt tuning and low-rank adaptation. The experimental results obtained on six widely used datasets present that the adapted LLM can easily outperform other state-of-the-art but specialised deep models. This indicates the strong transferability and feasibility of LLMs in the field of emotion recognition.
翻訳日:2023-10-25 01:04:06 公開日:2023-10-22
# ワン・フォー・オール:単一スタイルGANによるユニバーサルドメイン翻訳を目指して

One-for-All: Towards Universal Domain Translation with a Single StyleGAN ( http://arxiv.org/abs/2310.14222v1 )

ライセンス: Link先を確認
Yong Du, Jiahui Zhan, Shengfeng He, Xinzhe Li, Junyu Dong, Sheng Chen, and Ming-Hsuan Yang(参考訳) 本稿では,限られた訓練データと有意な視覚差の条件下で,視覚的に異なる領域間の表現を変換するための新しい翻訳モデルUniTranslatorを提案する。 このアプローチの背景にある主な考え方は、CLIPのドメイン中立機能をブリッジ機構として活用しつつ、ソースとターゲット両方の領域の埋め込みから抽象的でドメインに依存しないセマンティクスを抽出するために別個のモジュールを活用することです。 これらの抽象意味論とターゲット固有の意味論を融合させることで、CLIP空間に変換された埋め込みをもたらす。 クリップとスタイルガンの異なる世界のギャップを埋めるため、新しい非線形マッパーであるクリップ2pマッパーを紹介する。 CLIP埋め込みを利用することで、このモジュールはP空間の潜伏分布を近似するように調整され、2つの空間間のコネクタとして効果的に機能する。 提案するユニトランスレータは多用途で、異なる視覚領域で視覚的に困難なシナリオであっても、スタイル混合、スタイライゼーション、翻訳など様々なタスクを実行することができる。 特に、unitranslatorは、ドメインの関連性、多様性、画質向上を示す高品質な翻訳を生成する。 UniTranslatorは、既存の汎用モデルの性能を超越し、代表タスクの特殊モデルに対してよく機能する。 ソースコードとトレーニングされたモデルは一般公開される予定だ。

In this paper, we propose a novel translation model, UniTranslator, for transforming representations between visually distinct domains under conditions of limited training data and significant visual differences. The main idea behind our approach is leveraging the domain-neutral capabilities of CLIP as a bridging mechanism, while utilizing a separate module to extract abstract, domain-agnostic semantics from the embeddings of both the source and target realms. Fusing these abstract semantics with target-specific semantics results in a transformed embedding within the CLIP space. To bridge the gap between the disparate worlds of CLIP and StyleGAN, we introduce a new non-linear mapper, the CLIP2P mapper. Utilizing CLIP embeddings, this module is tailored to approximate the latent distribution in the P space, effectively acting as a connector between these two spaces. The proposed UniTranslator is versatile and capable of performing various tasks, including style mixing, stylization, and translations, even in visually challenging scenarios across different visual domains. Notably, UniTranslator generates high-quality translations that showcase domain relevance, diversity, and improved image quality. UniTranslator surpasses the performance of existing general-purpose models and performs well against specialized models in representative tasks. The source code and trained models will be released to the public.
翻訳日:2023-10-25 01:03:47 公開日:2023-10-22
# 微小物体検出におけるアンチエイリアシングの重要性

The Importance of Anti-Aliasing in Tiny Object Detection ( http://arxiv.org/abs/2310.14221v1 )

ライセンス: Link先を確認
Jinlai Ning and Michael Spratling(参考訳) 小さな物体検出は、多くの重要な現実世界のシナリオで小さな物体が頻繁に出現するため、研究コミュニティでかなりの注目を集めている。 しかし、オブジェクト検出アーキテクチャのバックボーンとして使用される畳み込みニューラルネットワーク(CNN)は、通常、ダウンサンプリング操作中にナイキストのサンプリング定理を無視し、エイリアス化と性能低下をもたらす。 これは、非常に少ないピクセルを占有し、高い空間周波数特性を持つ小さなオブジェクトにとって、特に問題となる可能性が高い。 本稿では,小さな物体検出に対するアンチエイリアスに既存のWaveCNetを適用した。 WaveCNetは、CNNの標準的なダウンサンプリングプロセスをWavelet Pooling(WaveletPool)レイヤに置き換え、エイリアスを効果的に抑制することでエイリアスに対処する。 元のWaveCNetを変更してWaveletPoolをResNetの残りのブロックの経路で一貫した方法で適用します。 また,バックボーンの底面重みのあるバージョンも提案し,小型物体検出の性能を向上するとともに,必要なパラメータをほぼ半分に減らした。 tinyperson、wideface、dotaデータセットの実験結果は、小さなオブジェクト検出におけるアンチエイリアスの重要性と、3つのデータセットすべてで新たな最先端結果を達成するための提案手法の有効性を示している。 コードと実験結果はhttps://github.com/freshn/Anti-aliasing-Tiny-Object-Detection.gitで公開されている。

Tiny object detection has gained considerable attention in the research community owing to the frequent occurrence of tiny objects in numerous critical real-world scenarios. However, convolutional neural networks (CNNs) used as the backbone for object detection architectures typically neglect Nyquist's sampling theorem during down-sampling operations, resulting in aliasing and degraded performance. This is likely to be a particular issue for tiny objects that occupy very few pixels and therefore have high spatial frequency features. This paper applied an existing approach WaveCNet for anti-aliasing to tiny object detection. WaveCNet addresses aliasing by replacing standard down-sampling processes in CNNs with Wavelet Pooling (WaveletPool) layers, effectively suppressing aliasing. We modify the original WaveCNet to apply WaveletPool in a consistent way in both pathways of the residual blocks in ResNets. Additionally, we also propose a bottom-heavy version of the backbone, which further improves the performance of tiny object detection while also reducing the required number of parameters by almost half. Experimental results on the TinyPerson, WiderFace, and DOTA datasets demonstrate the importance of anti-aliasing in tiny object detection and the effectiveness of the proposed method which achieves new state-of-the-art results on all three datasets. Codes and experiment results are released at https://github.com/freshn/Anti-aliasing-Tiny-Object-Detection.git.
翻訳日:2023-10-25 01:03:25 公開日:2023-10-22
# UniMAP:Universal SMILES-Graph表現学習

UniMAP: Universal SMILES-Graph Representation Learning ( http://arxiv.org/abs/2310.14216v1 )

ライセンス: Link先を確認
Shikun Feng, Lixin Yang, Weiying Ma, Yanyan Lan(参考訳) 分子表現学習は多くの薬物関連用途において基礎となる。 既存の分子プレトレーニングモデルのほとんどは、笑顔またはグラフ表現のような単一の分子モダリティの使用に制限がある。 両方のモダリティを効果的に活用するには、微妙な配列/グラフの相違が反対の分子特性をもたらすため、SMILESとグラフの間の微細な「意味論」を捉えることが重要であると論じる。 本論文では,UniMAPという汎用SMILEグラフ表現学習モデルを提案する。 まず、埋め込み層を用いて、SMILESとグラフのトークンとノード/エッジ表現を得る。 その後、多層変圧器を用いて深いクロスモダリティ融合を行う。 特に、Multi-Level Cross-Modality Masking (CMM)、SMILES-Graph Matching (SGM)、Fragment-Level Alignment (FLA)、Domain Knowledge Learning (DKL)の4種類の事前学習タスクがUniMAP向けに設計されている。 このように、グローバル(すなわちSGMとDKL)とローカル(すなわちCMMとFLA)のアライメントが統合され、包括的な相互モダリティ融合が達成される。 我々は, 分子特性予測, 薬物標的親和性予測, 薬物と薬物の相互作用など, 下流課題のユニマップを評価する。 実験の結果,unimapは最先端の事前学習手法よりも優れており,マルチモダリティ統合の効果を示すために学習表現を視覚化した。

Molecular representation learning is fundamental for many drug related applications. Most existing molecular pre-training models are limited in using single molecular modality, either SMILES or graph representation. To effectively leverage both modalities, we argue that it is critical to capture the fine-grained 'semantics' between SMILES and graph, because subtle sequence/graph differences may lead to contrary molecular properties. In this paper, we propose a universal SMILE-graph representation learning model, namely UniMAP. Firstly, an embedding layer is employed to obtain the token and node/edge representation in SMILES and graph, respectively. A multi-layer Transformer is then utilized to conduct deep cross-modality fusion. Specially, four kinds of pre-training tasks are designed for UniMAP, including Multi-Level Cross-Modality Masking (CMM), SMILES-Graph Matching (SGM), Fragment-Level Alignment (FLA), and Domain Knowledge Learning (DKL). In this way, both global (i.e. SGM and DKL) and local (i.e. CMM and FLA) alignments are integrated to achieve comprehensive cross-modality fusion. We evaluate UniMAP on various downstream tasks, i.e. molecular property prediction, drug-target affinity prediction and drug-drug interaction. Experimental results show that UniMAP outperforms current state-of-the-art pre-training methods.We also visualize the learned representations to demonstrate the effect of multi-modality integration.
翻訳日:2023-10-25 01:02:58 公開日:2023-10-22
# アイテム-Graph2vec:協調フィルタリングのためのアイテム共起グラフ埋め込みを用いた効率的かつ効果的なアプローチ

Item-Graph2vec: a Efficient and Effective Approach using Item Co-occurrence Graph Embedding for Collaborative Filtering ( http://arxiv.org/abs/2310.14215v1 )

ライセンス: Link先を確認
Ruilin Yuan and Leya Li and Yuanzhe Cai(参考訳) 現在, Item2vecのような人工ニューラルネットワークに基づく協調フィルタリングアルゴリズムが普及しており, 現代のレコメンデータシステムに広く応用されている。 しかし、これらのアプローチは、非常に長い訓練期間があるため、大規模アイテムベースレコメンデーションシステムには適用されない。 大規模データセットを扱う際の、現在のアルゴリズムが訓練時間コストが高く、安定性が低いという欠点を克服するために、項目グラフ埋め込みアルゴリズムitem-graph2vecについて述べる。 このアルゴリズムは、ユーザのショッピングリストをアイテム共起グラフに変換し、この共起グラフ上でランダムに移動してアイテムシーケンスを取得し、最後にシーケンスサンプルを介してアイテムベクトルを訓練する。 我々は,アイテムのサイズが安定しているため,学習コーパスの増加に伴い,アイテム共起グラフのサイズと密度がわずかに変化することを仮定する。 そのため、Item-Graph2vecは大規模データセット上で安定したランタイムを持ち、トレーニングコーパスの成長に伴い、そのパフォーマンス上の優位性はますます明確になる。 実世界のデータセットで実施された大規模な実験では、ランダムウォークサンプリングによる誤差が小さく、アイテム-Graph2vecは2つのデータセットの効率を3倍に向上することが示された。

Current item-item collaborative filtering algorithms based on artificial neural network, such as Item2vec, have become ubiquitous and are widely applied in the modern recommender system. However, these approaches do not apply to the large-scale item-based recommendation system because of their extremely long training time. To overcome the shortcoming that current algorithms have high training time costs and poor stability when dealing with large-scale data sets, the item graph embedding algorithm Item-Graph2vec is described here. This algorithm transforms the users' shopping list into a item co-occurrence graph, obtains item sequences through randomly travelling on this co-occurrence graph and finally trains item vectors through sequence samples. We posit that because of the stable size of item, the size and density of the item co-occurrence graph change slightly with the increase in the training corpus. Therefore, Item-Graph2vec has a stable runtime on the large scale data set, and its performance advantage becomes more and more obvious with the growth of the training corpus. Extensive experiments conducted on real-world data sets demonstrate that Item-Graph2vec outperforms Item2vec by 3 times in terms of efficiency on douban data set, while the error generated by the random walk sampling is small.
翻訳日:2023-10-25 01:02:28 公開日:2023-10-22
# transy-net:リモートセンシング画像の変更検出のための完全トランスフォーマネットワークの学習

TransY-Net:Learning Fully Transformer Networks for Change Detection of Remote Sensing Images ( http://arxiv.org/abs/2310.14214v1 )

ライセンス: Link先を確認
Tianyu Yan and Zifu Wan and Pingping Zhang and Gong Cheng and Huchuan Lu(参考訳) リモートセンシングの分野では、変更検出(cd)は、変化した領域を2相画像から同一場所に識別し、ローカライズすることを目的としている。 近年、深層学習の進歩によって大きな進歩を遂げている。 しかし、現在の方法では、抽出された視覚特徴の限られた表現能力のため、一般に不完全なCD領域と不規則なCD境界が提供される。 そこで本研究では,リモートセンシング画像CDのためのトランスフォーマーベースの新しい学習フレームワークであるTransY-Netを提案する。 より具体的には、提案フレームワークは、まず、長距離依存性モデリングにおけるTransformerの利点を利用する。 より差別的なグローバルレベルの特徴を学び、完全なCD領域を得るのに役立つ。 次に,トランスフォーマーの多層視覚特徴を集約して特徴強調を行う新しいピラミッド構造を提案する。 プログレッシブ・アテンション・モジュール(PAM)でグラフトされたピラミッド構造は、空間的およびチャネル的注意により、追加の依存性で特徴表現能力を向上させることができる。 最後に、フレームワーク全体をより良くトレーニングするために、複数の境界認識損失関数を持つ深い教師付き学習を利用する。 広汎な実験により,提案手法は4つの光学式および2つのSAR画像CDベンチマークにおいて,新しい最先端性能を実現することを示した。 ソースコードはhttps://github.com/Drchip61/TransYNetで公開されている。

In the remote sensing field, Change Detection (CD) aims to identify and localize the changed regions from dual-phase images over the same places. Recently, it has achieved great progress with the advances of deep learning. However, current methods generally deliver incomplete CD regions and irregular CD boundaries due to the limited representation ability of the extracted visual features. To relieve these issues, in this work we propose a novel Transformer-based learning framework named TransY-Net for remote sensing image CD, which improves the feature extraction from a global view and combines multi-level visual features in a pyramid manner. More specifically, the proposed framework first utilizes the advantages of Transformers in long-range dependency modeling. It can help to learn more discriminative global-level features and obtain complete CD regions. Then, we introduce a novel pyramid structure to aggregate multi-level visual features from Transformers for feature enhancement. The pyramid structure grafted with a Progressive Attention Module (PAM) can improve the feature representation ability with additional inter-dependencies through spatial and channel attentions. Finally, to better train the whole framework, we utilize the deeply-supervised learning with multiple boundary-aware loss functions. Extensive experiments demonstrate that our proposed method achieves a new state-of-the-art performance on four optical and two SAR image CD benchmarks. The source code is released at https://github.com/Drchip61/TransYNet.
翻訳日:2023-10-25 01:02:05 公開日:2023-10-22
# LUNA:大規模言語モデルのためのモデルベースユニバーサル分析フレームワーク

LUNA: A Model-Based Universal Analysis Framework for Large Language Models ( http://arxiv.org/abs/2310.14211v1 )

ライセンス: Link先を確認
Da Song, Xuan Xie, Jiayang Song, Derui Zhu, Yuheng Huang, Felix Juefei-Xu, Lei Ma(参考訳) この10年間、人工知能(AI)は大きな成功を収め、幅広い学術分野や産業分野で利用されてきた。 最近では、LLMはAIを新たなレベルへと押し上げ、特にソフトウェア工学や自然言語処理といった分野において、より多様なアプリケーションやインテリジェンスを持つ産業ドメインを可能にしている。 しかし, LLM の信頼性に関する懸念や問題点は, LLM の普及が現実に大きく妨げられるような問題を適切に解決することなく, 既に多くの注目を集めている。 自己認識機構,極めて大規模なモデルスケール,自己回帰生成スキーマなどのLLMの特徴は,CNNやRNNに基づく古典的AIソフトウェアと異なり,品質解析における新たな課題が提示されている。 現在まで、緊急の産業需要にもかかわらず、llmの普遍的かつ体系的な分析技術は不足している。 このギャップを埋めるために、我々は初期の探索研究を開始し、汎用的で拡張可能なLLMの普遍的分析フレームワークLUNAを提案し、人間の解釈可能な方法で複数の品質の観点からLLMの多元的分析を可能にする。 特に,我々はまず,所望の信頼度の観点からのデータを活用し,様々な抽象モデル構築手法によって強化された補助分析資産として抽象モデルを構築する。 抽象モデルの品質を評価するために,抽象モデルレベルと意味論レベルの両方を対象として,多くの評価指標を収集し,定義する。 次に、信頼性の観点からllm w.r.tの満足度であるセマンティクスが、セマンティクスで抽象モデルに縛られ、強化され、多様な目的のためにより詳細な分析アプリケーションを可能にする。

Over the past decade, Artificial Intelligence (AI) has had great success recently and is being used in a wide range of academic and industrial fields. More recently, LLMs have made rapid advancements that have propelled AI to a new level, enabling even more diverse applications and industrial domains with intelligence, particularly in areas like software engineering and natural language processing. Nevertheless, a number of emerging trustworthiness concerns and issues exhibited in LLMs have already recently received much attention, without properly solving which the widespread adoption of LLMs could be greatly hindered in practice. The distinctive characteristics of LLMs, such as the self-attention mechanism, extremely large model scale, and autoregressive generation schema, differ from classic AI software based on CNNs and RNNs and present new challenges for quality analysis. Up to the present, it still lacks universal and systematic analysis techniques for LLMs despite the urgent industrial demand. Towards bridging this gap, we initiate an early exploratory study and propose a universal analysis framework for LLMs, LUNA, designed to be general and extensible, to enable versatile analysis of LLMs from multiple quality perspectives in a human-interpretable manner. In particular, we first leverage the data from desired trustworthiness perspectives to construct an abstract model as an auxiliary analysis asset, which is empowered by various abstract model construction methods. To assess the quality of the abstract model, we collect and define a number of evaluation metrics, aiming at both abstract model level and the semantics level. Then, the semantics, which is the degree of satisfaction of the LLM w.r.t. the trustworthiness perspective, is bound to and enriches the abstract model with semantics, which enables more detailed analysis applications for diverse purposes.
翻訳日:2023-10-25 01:01:44 公開日:2023-10-22
# CT-GAT:トランスファービリティに基づくクロスタスク生成逆アタック

CT-GAT: Cross-Task Generative Adversarial Attack based on Transferability ( http://arxiv.org/abs/2310.14265v1 )

ライセンス: Link先を確認
Minxuan Lv, Chengwei Dai, Kun Li, Wei Zhou, Songlin Hu(参考訳) ニューラルネットワークモデルは敵の例に対して脆弱であり、敵の移動可能性はさらに敵の攻撃のリスクを高める。 移動可能性に基づく現在の手法は、しばしば代替モデルに依存しており、訓練データの有効性や犠牲者モデルの構造的詳細のため、現実のシナリオでは非現実的でコストがかかる。 本稿では,様々なタスクにまたがる移動可能な特徴を抽出し,逆行例を直接構築する新しい手法を提案する。 我々の重要な洞察は、敵の移動性は異なるタスクにまたがって拡張できるということです。 具体的には、複数のタスクから収集した逆サンプルデータを用いて、CT-GATというシーケンス対シーケンス生成モデルを訓練し、様々なタスクに対する逆例を生成する。 10個の異なるデータセットに対して実験を行い,本手法が低コストで優れた攻撃性能を実現することを示す。

Neural network models are vulnerable to adversarial examples, and adversarial transferability further increases the risk of adversarial attacks. Current methods based on transferability often rely on substitute models, which can be impractical and costly in real-world scenarios due to the unavailability of training data and the victim model's structural details. In this paper, we propose a novel approach that directly constructs adversarial examples by extracting transferable features across various tasks. Our key insight is that adversarial transferability can extend across different tasks. Specifically, we train a sequence-to-sequence generative model named CT-GAT using adversarial sample data collected from multiple tasks to acquire universal adversarial features and generate adversarial examples for different tasks. We conduct experiments on ten distinct datasets, and the results demonstrate that our method achieves superior attack performance with small cost.
翻訳日:2023-10-25 00:52:36 公開日:2023-10-22
# 測定統計の非古典性に対する厳密な不等式

Tight inequalities for nonclassicality of measurement statistics ( http://arxiv.org/abs/2310.14263v1 )

ライセンス: Link先を確認
V. S. Kovtoniuk, E. V. Stolyarov, O. V. Kliushnichenko, A. A. Semenov(参考訳) 量子光学では、測光統計(例えば、測光統計)は、古典的な放射場の統計的混合で再生できない場合、非古典的とみなされる。 我々はそのような非古典主義に必要かつ十分な条件を定式化した。 この条件は、古典的な電磁放射に関連する確率の凸集合を強く拘束する不等式によって与えられる。 これらの不等式の全集合と部分集合の分析形式は、写実的な測光と非平衡ホモダイン検出の重要なケースで得られる。 例えば、位相印加されたコヒーレント状態の光計数統計について考察する。 共通の直観とは対照的に、ここで開発された分析は、実験的に最小限の資源で裏付けられるこれらの統計の異なる非古典的性質を明らかにする。

In quantum optics, measurement statistics -- for example, photocounting statistics -- are considered nonclassical if they cannot be reproduced with statistical mixtures of classical radiation fields. We have formulated a necessary and sufficient condition for such nonclassicality. This condition is given by a set of inequalities that tightly bound the convex set of probabilities associated with classical electromagnetic radiation. Analytical forms for full sets and subsets of these inequalities are obtained for important cases of realistic photocounting measurements and unbalanced homodyne detection. As an example, we consider photocounting statistics of phase-squeezed coherent states. Contrary to a common intuition, the analysis developed here reveals distinct nonclassical properties of these statistics that can be experimentally corroborated with minimal resources.
翻訳日:2023-10-25 00:52:20 公開日:2023-10-22
# Pseudo-Parallelデータによる教師なし機械翻訳の高速化

Boosting Unsupervised Machine Translation with Pseudo-Parallel Data ( http://arxiv.org/abs/2310.14262v1 )

ライセンス: Link先を確認
Ivana Kvapil\'ikov\'a and Ond\v{r}ej Bojar(参考訳) ディープラーニングと大規模言語モデリングの最近の進歩にもかかわらず、低リソース言語の機械翻訳(MT)の課題は依然として課題である。 ニューラルMTシステムは、翻訳リソースを使わずに教師なしの方法で訓練することができるが、特に真の低リソース条件下では、品質が遅れている。 本稿では,単言語コーパスから得られた擬似並列文ペアと単言語コーパスから逆訳された合成文ペアによる学習戦略を提案する。 異なるトレーニングスケジュールで実験を行い,バックトランザクショナルデータのみをトレーニングしたベースラインに対して,最大14.5 bleu点(ウクライナ語では14.5 bleu点)の改善を達成した。

Even with the latest developments in deep learning and large-scale language modeling, the task of machine translation (MT) of low-resource languages remains a challenge. Neural MT systems can be trained in an unsupervised way without any translation resources but the quality lags behind, especially in truly low-resource conditions. We propose a training strategy that relies on pseudo-parallel sentence pairs mined from monolingual corpora in addition to synthetic sentence pairs back-translated from monolingual corpora. We experiment with different training schedules and reach an improvement of up to 14.5 BLEU points (English to Ukrainian) over a baseline trained on back-translated data only.
翻訳日:2023-10-25 00:52:09 公開日:2023-10-22
# BLP-2023タスク2におけるRSM-NLP:Bangla Sentiment Analysis using Weighted and Majority Voted Fine-Tuned Transformers

RSM-NLP at BLP-2023 Task 2: Bangla Sentiment Analysis using Weighted and Majority Voted Fine-Tuned Transformers ( http://arxiv.org/abs/2310.14261v1 )

ライセンス: Link先を確認
Pratinav Seth, Rashi Goel, Komal Mathur and Swetha Vemulapalli(参考訳) 本稿では,BLP Workshop - Sentiment Analysis of Bangla Social Media PostsのShared Task 2における投稿に対するアプローチについて述べる。 センチメント分析(Sentiment Analysis)は、デジタル時代の行動研究分野である。 オンラインソーシャルメディアサイトやサービスの急速な成長とテキストデータの量の増加により、自動感性分析の応用が増加している。 しかし、この領域の研究の大部分は英語に基づいている。 世界で6番目に広く話されている言語であるにもかかわらず、バングラ語ではほとんど行われていない。 本課題は,文章に表される感情が肯定的か否定的か中立かを判断することで,ソーシャルメディアコンテンツの極性を特定しつつ,Bangla Sentiment Analysisの研究を促進することである。 提案手法は、下流タスクにおける多言語および事前訓練されたBERTモデルの実験と微調整と、個別のベースラインモデルスコアよりも優れたMajority Voting and Weightedアンサンブルモデルを用いて構成する。 本システムでは,マルチクラス分類タスクでは0.711点,共有タスクではリーダーボードでは10位となった。 私たちのコードはhttps://github.com/ptnv-s/RSM-NLP-BLP-Task2で利用可能です。

This paper describes our approach to submissions made at Shared Task 2 at BLP Workshop - Sentiment Analysis of Bangla Social Media Posts. Sentiment Analysis is an action research area in the digital age. With the rapid and constant growth of online social media sites and services and the increasing amount of textual data, the application of automatic Sentiment Analysis is on the rise. However, most of the research in this domain is based on the English language. Despite being the world's sixth most widely spoken language, little work has been done in Bangla. This task aims to promote work on Bangla Sentiment Analysis while identifying the polarity of social media content by determining whether the sentiment expressed in the text is Positive, Negative, or Neutral. Our approach consists of experimenting and finetuning various multilingual and pre-trained BERT-based models on our downstream tasks and using a Majority Voting and Weighted ensemble model that outperforms individual baseline model scores. Our system scored 0.711 for the multiclass classification task and scored 10th place among the participants on the leaderboard for the shared task. Our code is available at https://github.com/ptnv-s/RSM-NLP-BLP-Task2 .
翻訳日:2023-10-25 00:51:59 公開日:2023-10-22
# 静的から動的へ:大規模言語モデルのための連続学習フレームワーク

From Static to Dynamic: A Continual Learning Framework for Large Language Models ( http://arxiv.org/abs/2310.14248v1 )

ライセンス: Link先を確認
Mingzhe Du, Anh Tuan Luu, Bin Ji, See-kiong Ng(参考訳) 大きな言語モデル(LLM)の膨大な数のパラメータは、それらに顕著な能力を与え、様々な自然言語処理タスクに優れる。 しかし、この複雑さはまた、LSMを訓練しにくくし、新たな知識を継続的に同化する能力を阻害し、出力の不正確性を引き起こす可能性がある。 そこで本稿では,llms用に設計された新しい連続学習フレームワークdynamindを提案する。 DynaMindはメモリ機構を取り入れて新しい知識とモジュラー演算子を同化し、モデル推論プロセスと新たな知識の同化を図り、LLMの出力の精度を向上させる。 ベンチマーク実験は、これらの課題を克服するDynaMindの有効性を実証している。 DynaMindのコードとデモはGitHubで公開されている。

The vast number of parameters in large language models (LLMs) endows them with remarkable capabilities, allowing them to excel in a variety of natural language processing tasks. However, this complexity also presents challenges, making LLMs difficult to train and inhibiting their ability to continuously assimilate new knowledge, which may lead to inaccuracies in their outputs. To mitigate these issues, this paper presents DynaMind, a novel continual learning framework designed for LLMs. DynaMind incorporates memory mechanisms to assimilate new knowledge and modular operators to enhance the model inference process with the newly assimilated knowledge, consequently improving the accuracies of LLMs' outputs. Benchmark experiments demonstrate DynaMind's effectiveness in overcoming these challenges. The code and demo of DynaMind are available on GitHub: https://github.com/Elfsong/DynaMind.
翻訳日:2023-10-25 00:51:37 公開日:2023-10-22
# スコアマッチングによる非線形モデルの因果的発見のためのショートカット

Shortcuts for causal discovery of nonlinear models by score matching ( http://arxiv.org/abs/2310.14246v1 )

ライセンス: Link先を確認
Francesco Montagna, Nicoletta Noceti, Lorenzo Rosasco, Francesco Locatello(参考訳) 因果発見の分野におけるシミュレーションデータの利用は、注釈付き実データの不足のためにユビキタスである。 近年、Reisachら2021は、シミュレーション線形データにおけるパターンの出現を強調し、カジュアルな方向の限界分散が増大している。 実験のアブレーションとして、Montagnaら 2023 は、スコアベクトル $\nabla \log p_{\mathbf{X}}$ の分散に対して、同様のパターンが非線形モデルに現れることを発見し、ScoreSortアルゴリズムを導入した。 本研究では,非線形付加雑音モデルのスコアソータビリティパターンを正式に定義し,特徴付ける。 非線形加法的雑音モデルと重なり合う同定可能な(バイバリエートな)因果関係モデルのクラスを定義する。 ScoreSortの統計的効率性は,従来の最先端のスコアマッチング法と比較して理論的に証明し,文献において最も一般的な合成ベンチマークのスコアソート性を実証的に示す。 以上より,(1)非線形因果関係発見手法の評価における重要な限界としてのデータの多様性の欠如,(2)問題クラス内で異なる設定を徹底的にテストすることの重要性,(3)因果関係発見における統計的性質の分析の重要性,(3)モデルの識別可能性条件の定義に研究が制限されることが多い。

The use of simulated data in the field of causal discovery is ubiquitous due to the scarcity of annotated real data. Recently, Reisach et al., 2021 highlighted the emergence of patterns in simulated linear data, which displays increasing marginal variance in the casual direction. As an ablation in their experiments, Montagna et al., 2023 found that similar patterns may emerge in nonlinear models for the variance of the score vector $\nabla \log p_{\mathbf{X}}$, and introduced the ScoreSort algorithm. In this work, we formally define and characterize this score-sortability pattern of nonlinear additive noise models. We find that it defines a class of identifiable (bivariate) causal models overlapping with nonlinear additive noise models. We theoretically demonstrate the advantages of ScoreSort in terms of statistical efficiency compared to prior state-of-the-art score matching-based methods and empirically show the score-sortability of the most common synthetic benchmarks in the literature. Our findings remark (1) the lack of diversity in the data as an important limitation in the evaluation of nonlinear causal discovery approaches, (2) the importance of thoroughly testing different settings within a problem class, and (3) the importance of analyzing statistical properties in causal discovery, where research is often limited to defining identifiability conditions of the model.
翻訳日:2023-10-25 00:51:23 公開日:2023-10-22
# 極端に悪いキャビティレーザー

An extremely bad-cavity laser ( http://arxiv.org/abs/2310.14240v1 )

ライセンス: Link先を確認
Jia Zhang, Tiantian Shi, Jianxiang Miao, Deshui Yu, Jingbiao Chen(参考訳) バッドキャビティ・レシエーションの遅延は、レーザー周波数のキャビティ長変動に対する感度の低下による精度測定と周波数干渉学に有望な応用がある。 これまで、関連する研究は主に、共振線幅が空洞の自由スペクトル範囲に比べて十分に狭くなるほど高い精細さを持つ従来のキャビティに焦点が当てられてきた。 しかし, 2 の限界に近い細さのキャビティからの出力は実験的には得られていない。 ここでは, 極端に悪いキャビティレーザーを実演し, キャビティの微細化を制限する物理機構を分析し, 精細化が2.01に達する最悪のレーザーキャビティについて報告する。 光学キャビティはゼロに近い反射率を持ち、弱い光フィードバックのみを提供する。 レーザーパワーは数十$\mu$Wで、スペクトル線幅はゲイン帯域の1000倍以上の数kHzに達する。 さらに、キャビティプルの測定により、連続波レーザーにおいて達成された最低値である0.0148の引力係数が明らかにされる。 我々の発見は、光時計、キャビティqed、連続波超ラジアントレーザー、量子多体物理学における将来の発見を誘発する可能性のある、将来の超安定レーザーに対する前例のない革新的な展望を明らかにした。

Lasing in the bad-cavity regime has promising applications in precision measurement and frequency metrology due to the reduced sensitivity of the laser frequency to cavity length fluctuations. Thus far, relevant studies have been mainly focused on conventional cavities whose finesse is high enough that the resonance linewidth is sufficiently narrow compared to the cavity's free spectral range, though still in the bad-cavity regime. However, lasing output from the cavity whose finesse is close to the limit of 2 has never been experimentally accessed. Here, we demonstrate an extremely bad-cavity laser, analyze the physical mechanisms limiting cavity finesse, and report on the worst ever laser cavity with finesse reaching 2.01. The optical cavity has a reflectance close to zero and only provides a weak optical feedback. The laser power can be as high as tens of $\mu$W and the spectral linewidth reaches a few kHz, over one thousand times narrower than the gain bandwidth. In addition, the measurement of cavity pulling reveals a pulling coefficient of 0.0148, the lowest value ever achieved for a continuous wave laser. Our findings open up an unprecedentedly innovative perspective for future new ultra-stable lasers, which could possibly trigger the future discoveries in optical clocks, cavity QED, continuous wave superradiant laser, and explorations of quantum manybody physics.
翻訳日:2023-10-25 00:50:58 公開日:2023-10-22
# 深層学習と光学的フローを用いた視覚障害者の指導システム

Guidance system for Visually Impaired Persons using Deep Learning and Optical flow ( http://arxiv.org/abs/2310.14239v1 )

ライセンス: Link先を確認
Shwetang Dubey, Alok Ranjan Sahoo and Pavan Chakraborty(参考訳) 視覚障害者は、道路を歩いている間、周囲について知ることは困難です。 彼らによって使われる杖は、スティックの近辺の障害物に関する情報しか与えない。 さらに、静的または非常に遅いペースの環境では有効である。 そこで,本稿では,交通量の多い街路を案内する手法を提案する。 このようなシステムを構築するためには、接近するオブジェクトとそのアプローチの方向性を知ることが非常に重要です。 この目的を達成するために,映像から受信した画像フレームを中央,左,右の3つの部分に分けられ,接近対象の接近方向を知る方法を開発した。 オブジェクト検出はYOLOv3を使って行われる。 ルーカスカナデの光学フロー推定法は光学フロー推定に、深さネットは深さ推定に使用される。 深度情報、物体運動軌跡、対象カテゴリ情報を用いて、モデルは人に必要な情報/警告を提供する。 このモデルは実世界でテストされ、その効果を示している。

Visually impaired persons find it difficult to know about their surroundings while walking on a road. Walking sticks used by them can only give them information about the obstacles in the stick's proximity. Moreover, it is mostly effective in static or very slow-paced environments. Hence, this paper introduces a method to guide them in a busy street. To create such a system it is very important to know about the approaching object and its direction of approach. To achieve this objective we created a method in which the image frame received from the video is divided into three parts i.e. center, left, and right to know the direction of approach of the approaching object. Object detection is done using YOLOv3. Lucas Kanade's optical flow estimation method is used for the optical flow estimation and Depth-net is used for depth estimation. Using the depth information, object motion trajectory, and object category information, the model provides necessary information/warning to the person. This model has been tested in the real world to show its effectiveness.
翻訳日:2023-10-25 00:50:33 公開日:2023-10-22
# アフィン畳み込みネットワークを用いた高品質3次元顔再建

High-Quality 3D Face Reconstruction with Affine Convolutional Networks ( http://arxiv.org/abs/2310.14237v1 )

ライセンス: Link先を確認
Zhiqian Lin, Jiangke Lin, Lincheng Li, Yi Yuan, Zhengxia Zou(参考訳) 畳み込みエンコーダ・デコーダアーキテクチャと3DMMパラメータ化に基づく最近の研究は、単一入力画像からの標準ビュー再構成に大きな可能性を示している。 従来のcnnアーキテクチャは、入力ピクセルと出力ピクセル間の空間対応を利用する利点がある。 しかし、3次元顔再構成では、入力画像(例えば顔)と標準/UV出力との空間的ずれにより、特徴符号化/復号処理は非常に困難である。 本稿では,この問題を解決するために,cnnによる入力・出力画像の空間的非対応処理と高精細な品質出力の同時処理を可能にする,新しいネットワークアーキテクチャであるアフィン畳み込みネットワークを提案する。 本手法では,アフィン畳み込み層から特徴写像の空間的位置毎にアフィン変換行列を学習する。 さらに, テクスチャ表現のための拡散マップ, 幾何学表現のための位置マップ, 現実世界のより複雑な照明条件を回復するための光マップなど, 多成分のuv空間における3次元人間の頭部を表現する。 すべてのコンポーネントは手動のアノテーションなしでトレーニングできる。 提案手法はパラメトリックフリーであり,512×512ピクセルの解像度で高品質な紫外線マップを生成することができる。 論文が受け入れられたら、私たちのコードはリリースされます。

Recent works based on convolutional encoder-decoder architecture and 3DMM parameterization have shown great potential for canonical view reconstruction from a single input image. Conventional CNN architectures benefit from exploiting the spatial correspondence between the input and output pixels. However, in 3D face reconstruction, the spatial misalignment between the input image (e.g. face) and the canonical/UV output makes the feature encoding-decoding process quite challenging. In this paper, to tackle this problem, we propose a new network architecture, namely the Affine Convolution Networks, which enables CNN based approaches to handle spatially non-corresponding input and output images and maintain high-fidelity quality output at the same time. In our method, an affine transformation matrix is learned from the affine convolution layer for each spatial location of the feature maps. In addition, we represent 3D human heads in UV space with multiple components, including diffuse maps for texture representation, position maps for geometry representation, and light maps for recovering more complex lighting conditions in the real world. All the components can be trained without any manual annotations. Our method is parametric-free and can generate high-quality UV maps at resolution of 512 x 512 pixels, while previous approaches normally generate 256 x 256 pixels or smaller. Our code will be released once the paper got accepted.
翻訳日:2023-10-25 00:50:19 公開日:2023-10-22
# 深層アクティブラーニングとその医用画像解析への応用に関する総合的調査

A comprehensive survey on deep active learning and its applications in medical image analysis ( http://arxiv.org/abs/2310.14230v1 )

ライセンス: Link先を確認
Haoran Wanga, Qiuye Jin, Shiman Li, Siyu Liu, Manning Wang, Zhijian Song(参考訳) 深層学習は医用画像解析で広く成功し、大規模の専門家による医用画像データセットの需要が高まっている。 しかし、医用画像に注釈をつける高コストは、この分野での深層学習の発展を著しく妨げている。 アノテーションのコストを削減するため、アクティブラーニングはアノテーションの最も有用なサンプルを選択し、できるだけ少ないラベル付きサンプルで高性能モデルを訓練することを目的としている。 本稿では,情報化とサンプリング戦略の評価を含む,アクティブラーニングの中核的手法について概説する。 今回我々は,アクティブラーニングとラベル効率の高い他の手法,例えば半教師付き学習,自己教師付き学習などとの統合に関する詳細な概要を初めて提示する。 また、医用画像分析に特化しているアクティブな学習作業についても強調する。 最後に、我々は、アクティブラーニングとその医療画像解析への応用の今後の動向と課題について展望を提供する。

Deep learning has achieved widespread success in medical image analysis, leading to an increasing demand for large-scale expert-annotated medical image datasets. Yet, the high cost of annotating medical images severely hampers the development of deep learning in this field. To reduce annotation costs, active learning aims to select the most informative samples for annotation and train high-performance models with as few labeled samples as possible. In this survey, we review the core methods of active learning, including the evaluation of informativeness and sampling strategy. For the first time, we provide a detailed summary of the integration of active learning with other label-efficient techniques, such as semi-supervised, self-supervised learning, and so on. Additionally, we also highlight active learning works that are specifically tailored to medical image analysis. In the end, we offer our perspectives on the future trends and challenges of active learning and its applications in medical image analysis.
翻訳日:2023-10-25 00:49:57 公開日:2023-10-22
# 言語モデルアンアライメント:隠れたハームとバイアスを抽出するパラメトリックなレッドチーム

Language Model Unalignment: Parametric Red-Teaming to Expose Hidden Harms and Biases ( http://arxiv.org/abs/2310.14303v1 )

ライセンス: Link先を確認
Rishabh Bhardwaj, Soujanya Poria(参考訳) red-teamingは大規模言語モデル(llm)の有害性を評価する手段として広く採用されている。 これは、モデルの安全動作をジェイルブレイクして、クエリの有害性を無視した有用なエージェントとして機能させることを目的としている。 既存の手法は主に、敵対的プロンプト、低リソースプロンプト、文脈化されたプロンプトといった入力テキストベースのレッドチームに基づいており、安全な振る舞いを回避している。 ガードレールを通過させることで、安全訓練によって新たに導入された未処理または未処理のモデルに隠された有害な情報やバイアスが明らかになる。 しかし、攻撃成功率の低さと特定のモデルへの適用性から、プロンプトベースの攻撃はそのような診断を提供しない。 本稿では,LLMの安全性研究,すなわちUnalignmentによるパラメトリックレッドチームについて,新たな視点を示す。 単に(指示)モデルパラメータをチューニングして、モデルの振舞いに深く根付いていないモデルガードレールを壊す。 最大100のサンプルを使用したアンアライメントは、一般的にCHATGPTと呼ばれるものから、2つのセーフティベンチマークデータセットで有害なクエリに対して88%の成功率で応答する時点まで、大幅にバイパスすることができる。 VICUNA-7BやLAMA-2-CHAT 7Bや13Bといったオープンソースのモデルでは、攻撃成功率は91%以上である。 バイアス評価では、unalignmentは、モデルの応答が強くバイアスされ、時間の64%が意見を呈するchatgptやllama- 2-chatのような安全アライメントモデルに固有のバイアスを露呈する。

Red-teaming has been a widely adopted way to evaluate the harmfulness of Large Language Models (LLMs). It aims to jailbreak a model's safety behavior to make it act as a helpful agent disregarding the harmfulness of the query. Existing methods are primarily based on input text-based red-teaming such as adversarial prompts, low-resource prompts, or contextualized prompts to condition the model in a way to bypass its safe behavior. Bypassing the guardrails uncovers hidden harmful information and biases in the model that are left untreated or newly introduced by its safety training. However, prompt-based attacks fail to provide such a diagnosis owing to their low attack success rate, and applicability to specific models. In this paper, we present a new perspective on LLM safety research i.e., parametric red-teaming through Unalignment. It simply (instruction) tunes the model parameters to break model guardrails that are not deeply rooted in the model's behavior. Unalignment using as few as 100 examples can significantly bypass commonly referred to as CHATGPT, to the point where it responds with an 88% success rate to harmful queries on two safety benchmark datasets. On open-source models such as VICUNA-7B and LLAMA-2-CHAT 7B AND 13B, it shows an attack success rate of more than 91%. On bias evaluations, Unalignment exposes inherent biases in safety-aligned models such as CHATGPT and LLAMA- 2-CHAT where the model's responses are strongly biased and opinionated 64% of the time.
翻訳日:2023-10-25 00:44:42 公開日:2023-10-22
# マルチモーダル空間データに基づくインフラディジタル化の鍵技術に関する研究

Research on Key Technologies of Infrastructure Digitalization based on Multimodal Spatial Data ( http://arxiv.org/abs/2310.14296v1 )

ライセンス: Link先を確認
Zhanyuan Tian, Tianrui Zhu, Zerui Tian, Zhen Dong(参考訳) NASAが2010年にデジタルツインの概念を提唱して以来、多くの産業がデジタル開発のダイナミックな目標を掲げており、輸送産業もその中に入っている。 ますます多くの企業がこの処女の土地に足を踏み入れ、デジタルツイン輸送産業は急速に成長し、徐々に完全な科学研究システムを形成している。 しかし、ほとんど成熟したフレームワークでは、解決しなければならない多くの抜け穴の問題がまだ残っている。 点雲情報を用いた道路網の構築において,レーザスキャナーで収集した点雲の特徴を要約し,特徴点を接地点や格子空隙として誤定するなどのネットワーク構築の潜在的な問題を分析する。 そこで本研究では,画像ピラミッドをモデルとしたポイントクラウドピラミッドの構築,仮想グリッドの拡大,地上クラウド抽出のためのCSFの適用,PTD(Progressive density-based filter)アルゴリズムを用いた道路ネットワークモデルの構築など,関連文献をレビューし,対象とするソリューションを提案する。 道路標識検出の課題として,エッジ検出による情報密度の向上,低強度点の除去によるデータ品質の向上,paddleocrとdrknetを用いた道路テキスト認識の90%の精度向上等により,地上点クラウドにおけるリモートセンシングデータを最適化する。 リアルタイムディジタルツイントラヒックでは,MPR-GANのバックボーンを2次元特徴量生成用として,SuperGlueを2次元特徴量マッチング用としてP2PRNネットワークを設計し,マッチング最適化点に従って視点をレンダリングし,複数イテレーションの後にマルチモーダルマッチングタスクを完了し,道路カメラの位置を10{\deg}と15mの精度で計算した。

Since NASA put forward the concept of the digital twin in 2010, many industries have put forward the dynamic goal of digital development, and the transportation industry is also among them. With more and more companies laying out on this virgin land, the digital twin transportation industry has grown rapidly and gradually formed a complete scientific research system. However, under the largely mature framework, there are still many loophole problems that need to be solved. In the process of constructing a road network with point cloud information, we summarize several major features of the point cloud collected by laser scanners and analyze the potential problems of constructing the network, such as misjudging the feature points as ground points and grid voids. On this basis, we reviewed relevant literature and proposed targeted solutions, such as building a point cloud pyramid modeled after the image pyramid, expanding the virtual grid, etc., applying CSF for ground-point cloud extraction, and constructing a road network model using the PTD (progressive density-based filter) algorithm. For the problem of road sign detection, we optimize the remote sensing data in the ground point cloud by enhancing the information density using edge detection, improving the data quality by removing the low intensity points, and achieving 90% accuracy of road text recognition using PaddleOCR and Densenet. As for the real-time digital twin traffic, we design the P2PRN network using the backbone of MPR-GAN for 2D feature generation and SuperGlue for 2D feature matching, rendering the viewpoints according to the matching optimization points, completing the multimodal matching task after several iterations, and successfully calculating the road camera position with 10{\deg} and 15m accuracy.
翻訳日:2023-10-25 00:44:09 公開日:2023-10-22
# Deep MDP: マルチオブジェクト追跡のためのモジュールフレームワーク

Deep MDP: A Modular Framework for Multi-Object Tracking ( http://arxiv.org/abs/2310.14294v1 )

ライセンス: Link先を確認
Abhineet Singh(参考訳) 本稿では,Multi-Object Tracking (MOT) のための高速かつモジュール化されたフレームワークを提案する。 様々な機能コンポーネントを、特定のアプリケーションに適したカスタムデザインの代替品に置き換えるように設計されている。 統合オブジェクト検出、セグメンテーション、MOT、半自動ラベリングを備えた対話型GUIも提供される。 パフォーマンス面では新たな基盤を壊さないが、Deep MDPには大きなコードベースがあり、コミュニティが新しいアイデアを試したり、簡単に使いやすく、どんなMOTアプリケーションにも適応できるシステムを持つことに役立ちます。 Deep MDPはhttps://github.com/abhineet123/deep_mdp.comで入手できる。

This paper presents a fast and modular framework for Multi-Object Tracking (MOT) based on the Markov descision process (MDP) tracking-by-detection paradigm. It is designed to allow its various functional components to be replaced by custom-designed alternatives to suit a given application. An interactive GUI with integrated object detection, segmentation, MOT and semi-automated labeling is also provided to help make it easier to get started with this framework. Though not breaking new ground in terms of performance, Deep MDP has a large code-base that should be useful for the community to try out new ideas or simply to have an easy-to-use and easy-to-adapt system for any MOT application. Deep MDP is available at https://github.com/abhineet123/deep_mdp.
翻訳日:2023-10-25 00:43:34 公開日:2023-10-22
# 時間差学習における有限サンプル解析

Finite-Sample Analysis of the Temporal Difference Learning ( http://arxiv.org/abs/2310.14286v1 )

ライセンス: Link先を確認
Sergey Samsonov, Daniil Tiapkin, Alexey Naumov, Eric Moulines(参考訳) 本稿では,割引マルコフ決定過程における政策評価のための線形関数近似を用いた時間差法(td)の性能向上のための鋭い境界を求める問題を考える。 本稿では,Polyak-Rupperttail averagingと組み合わせた,普遍的かつインスタンスに依存しないステップサイズを持つ単純なアルゴリズムが,ほぼ最適分散とバイアス項を得るのに十分であることを示す。 それぞれのサンプル複雑性境界も提供します。 提案手法は, 線形確率近似のための洗練された誤差境界と, TD型再帰から生じるランダム行列の積に対する新しい安定性結果に基づいている。

In this paper we consider the problem of obtaining sharp bounds for the performance of temporal difference (TD) methods with linear functional approximation for policy evaluation in discounted Markov Decision Processes. We show that a simple algorithm with a universal and instance-independent step size together with Polyak-Ruppert tail averaging is sufficient to obtain near-optimal variance and bias terms. We also provide the respective sample complexity bounds. Our proof technique is based on refined error bounds for linear stochastic approximation together with the novel stability result for the product of random matrices that arise from the TD-type recurrence.
翻訳日:2023-10-25 00:43:21 公開日:2023-10-22
# 無調波リプキン-メシュコフ-グリックモデルにおける励起量子相転移と仕事分布のエントロピー

Excited stated quantum phase transitions and the entropy of the work distribution in the anharmonic Lipkin-Meshkov-Glick model ( http://arxiv.org/abs/2310.14285v1 )

ライセンス: Link先を確認
Haiting Zhang, Yifan Qian, Zhen-Xia Niu, and Qian Wang(参考訳) 励起状態の量子相転移(esqpts)の意義と特性を研究することで、量子多体系で観測される様々な現象を理解することが可能となり、この研究では、量子ワーク分布のエントロピーによって、アンハーモニックリプキン・メシュコフ・グリック(lmg)モデルにおけるesqptsの影響と特性を考察する。 作業分布のエントロピーは,作業分布の複雑さを計測し,非平衡作業統計を解析するための貴重なツールとして振る舞うとともに,作業分布のエントロピーがモデル内の基礎となるESQPTの健全なシグネチャを捉えていることを示し,特に,最大エントロピーのスケーリング挙動を詳細に分析した結果,ESQPTの証人として機能することが確認された。 さらに、作業分布のエントロピーがエネルギー空間におけるESQPTの特徴を明らかにし、それらの臨界エネルギーを決定するのに使用できることを示す。 本研究は, 量子多体系における様々な相転移の研究における作業分布のエントロピーの有用性を示すとともに, ESQPTのシグネチャを実験的に探索するための有望な方法を開くものである。

Studying the implications and characterizations of the excited state quantum phase transitions (ESQPTs) would enable us to understand various phenomena observed in quantum many body systems.In this work, we delve into the affects and characterizations of the ESQPTs in the anharmonic Lipkin-Meshkov-Glick (LMG) model by means of the entropy of the quantum work distribution. The entropy of the work distribution measures the complexity of the work distribution and behaves as a valuable tool for analyzing nonequilibrium work statistics.We show that the entropy of the work distribution captures salient signatures of the underlying ESQPTs in the model.In particular, a detailed analyses of the scaling behavior of the maximal entropy verifies thatit acts as a witness of the ESQPTs. We further demonstrate that the entropy of the work distribution also reveals the features of the ESQPTs in the energy space and can be used to determine their critical energies. Our results provide further evidence of the usefulness of the entropy of the work distribution for investigating various phase transitions in quantum many body systems and open up a promising way for experimentally exploring the signatures of ESQPTs.
翻訳日:2023-10-25 00:43:11 公開日:2023-10-22
# NERetrieve: 次世代エンティティ認識と検索のためのデータセット

NERetrieve: Dataset for Next Generation Named Entity Recognition and Retrieval ( http://arxiv.org/abs/2310.14282v1 )

ライセンス: Link先を確認
Uri Katz, Matan Vetzler, Amir DN Cohen, Yoav Goldberg(参考訳) テキスト中のエンティティを認識することは、多くの情報検索シナリオにおいて中心的なニーズであり、実際に名前付きエンティティ認識(NER)は、広く採用されているNLPタスクとそれに対応するNLP技術の最も成功した例の1つである。 大規模言語モデル(LLMs)の最近の進歩は、伝統的に専用モデルで扱われたNERタスクに対して、しばしば専用のモデルの能力にマッチまたは超える効果的なソリューション(これも)を提供するように見える。 NERは解決すべき問題か? LLMが提供する能力は、NER研究の終わりではなく、むしろエキサイティングな始まりである。 NERを次のレベルに引き上げることを可能にし、より有用で、より困難な亜種に取り組むことができる。 我々は、NERタスクの3つの変種と、それらをサポートするデータセットを示す。 ひとつは、よりきめ細かい -- および交叉型 - エンティティ型への動きです。 2つめは、エンティティタイプのラベルに基づいて、これらのきめ細かい型をゼロショット認識して抽出する動きです。 第3の、そして最も難しいのは、クエリがゼロショットエンティティ型であり、期待される結果が、これらのタイプのエンティティと対応するスパンを含む、大きな事前インデックスされたコーパスからのすべての文である、認識設定から新しい検索設定への移行である。 これらのすべてが解決されるには程遠いことを示しています。 我々は,これら3つの目標すべてを対象とした研究を容易にするために,500のエンティティタイプをカバーする400万段落の大規模銀アノテートコーパスを提供する。

Recognizing entities in texts is a central need in many information-seeking scenarios, and indeed, Named Entity Recognition (NER) is arguably one of the most successful examples of a widely adopted NLP task and corresponding NLP technology. Recent advances in large language models (LLMs) appear to provide effective solutions (also) for NER tasks that were traditionally handled with dedicated models, often matching or surpassing the abilities of the dedicated models. Should NER be considered a solved problem? We argue to the contrary: the capabilities provided by LLMs are not the end of NER research, but rather an exciting beginning. They allow taking NER to the next level, tackling increasingly more useful, and increasingly more challenging, variants. We present three variants of the NER task, together with a dataset to support them. The first is a move towards more fine-grained -- and intersectional -- entity types. The second is a move towards zero-shot recognition and extraction of these fine-grained types based on entity-type labels. The third, and most challenging, is the move from the recognition setup to a novel retrieval setup, where the query is a zero-shot entity type, and the expected result is all the sentences from a large, pre-indexed corpus that contain entities of these types, and their corresponding spans. We show that all of these are far from being solved. We provide a large, silver-annotated corpus of 4 million paragraphs covering 500 entity types, to facilitate research towards all of these three goals.
翻訳日:2023-10-25 00:42:44 公開日:2023-10-22
# 音声-テクスト間文脈表現の学習による会話音声認識

Conversational Speech Recognition by Learning Audio-textual Cross-modal Contextual Representation ( http://arxiv.org/abs/2310.14278v1 )

ライセンス: Link先を確認
Kun Wei, Bei Li, Hang Lv, Quan Lu, Ning Jiang, Lei Xie(参考訳) 会話設定における自動音声認識(ASR)は、前の会話のターンから関連するコンテキスト情報を抽出するなど、ユニークな課題を提示する。 無関係な内容、エラーの伝播、冗長性のため、既存の手法はより長く効果的なコンテキストを抽出するのに苦労する。 この問題に対処するために,コンバータエンコーダデコーダモデルを拡張した新しい会話型ASRシステムを提案する。 提案手法は,事前学習された音声とテキストモデルを専用エンコーダとモーダルレベルマスク入力で結合したクロスモーダル抽出器を利用する。 これにより、明示的な誤り伝播なしに、よりリッチな歴史的音声コンテキストを抽出することができる。 また,条件付き潜在変動モジュールを取り入れ,役割選好やトピックコヒーレンスといった会話レベルの属性を学習する。 このデコーダにクロスモーダル表現と会話表現の両方を導入することで,従来のコンフォーマーモデルと比較して,マンダリンの会話データセットHKUSTとMagicData-RAMCの相対精度を8.8%,23%向上させることができた。

Automatic Speech Recognition (ASR) in conversational settings presents unique challenges, including extracting relevant contextual information from previous conversational turns. Due to irrelevant content, error propagation, and redundancy, existing methods struggle to extract longer and more effective contexts. To address this issue, we introduce a novel Conversational ASR system, extending the Conformer encoder-decoder model with cross-modal conversational representation. Our approach leverages a cross-modal extractor that combines pre-trained speech and text models through a specialized encoder and a modal-level mask input. This enables the extraction of richer historical speech context without explicit error propagation. We also incorporate conditional latent variational modules to learn conversational level attributes such as role preference and topic coherence. By introducing both cross-modal and conversational representations into the decoder, our model retains context over longer sentences without information loss, achieving relative accuracy improvements of 8.8% and 23% on Mandarin conversation datasets HKUST and MagicData-RAMC, respectively, compared to the standard Conformer model.
翻訳日:2023-10-25 00:42:19 公開日:2023-10-22
# 連続的意味セグメンテーションに関する調査:理論、挑戦、方法、および応用

A Survey on Continual Semantic Segmentation: Theory, Challenge, Method and Application ( http://arxiv.org/abs/2310.14277v1 )

ライセンス: Link先を確認
Bo Yuan, Danpei Zhao(参考訳) 継続的学習は、漸進的学習または生涯学習としても知られ、ディープラーニングとAIシステムの最前線にある。 クローズセットでの片道トレーニングの障害を突破し、オープンセット条件での継続的適応学習を可能にする。 近年、連続学習は、特に分類、検出、セグメンテーションタスクをカバーするコンピュータビジョンにおいて、様々な分野で研究され、応用されてきた。 連続的セマンティックセグメンテーション(CSS)は、密集した予測特異性によって困難で複雑で波及的なタスクとなる。 本稿では,問題定式化,主要な課題,普遍データセット,ネオテリック理論,多元的応用に関する総合的な調査を行うために,cssのレビューを行う。 具体的には、問題定義と主要な課題を明らかにすることから始める。 関連するアプローチの詳細な調査に基づいて、現在のcssモデルを、 \textit{data-replay} と \textit{data-free} の2つのメインブランチに分類した。 各ブランチでは、関連するデータセットの質的比較と定量的再現に続いて、対応するアプローチは類似性に基づいてクラスタ化され、徹底的に分析される。 さらに、多様なアプリケーションシナリオと開発傾向を持つ4つのCSS特長も導入しています。 さらに、代表参照、評価結果、再現を含むCSSのベンチマークを開発し、~\url{https://github.com/YBIO/SurveyCSS}で利用可能である。 我々は,この調査が,生涯学習分野の発展への基準的かつ刺激的な貢献でありつつ,関連する分野に価値ある視点を提供することができることを願っている。

Continual learning, also known as incremental learning or life-long learning, stands at the forefront of deep learning and AI systems. It breaks through the obstacle of one-way training on close sets and enables continuous adaptive learning on open-set conditions. In the recent decade, continual learning has been explored and applied in multiple fields especially in computer vision covering classification, detection and segmentation tasks. Continual semantic segmentation (CSS), of which the dense prediction peculiarity makes it a challenging, intricate and burgeoning task. In this paper, we present a review of CSS, committing to building a comprehensive survey on problem formulations, primary challenges, universal datasets, neoteric theories and multifarious applications. Concretely, we begin by elucidating the problem definitions and primary challenges. Based on an in-depth investigation of relevant approaches, we sort out and categorize current CSS models into two main branches including \textit{data-replay} and \textit{data-free} sets. In each branch, the corresponding approaches are similarity-based clustered and thoroughly analyzed, following qualitative comparison and quantitative reproductions on relevant datasets. Besides, we also introduce four CSS specialities with diverse application scenarios and development tendencies. Furthermore, we develop a benchmark for CSS encompassing representative references, evaluation results and reproductions, which is available at~\url{https://github.com/YBIO/SurveyCSS}. We hope this survey can serve as a reference-worthy and stimulating contribution to the advancement of the life-long learning field, while also providing valuable perspectives for related fields.
翻訳日:2023-10-25 00:41:56 公開日:2023-10-22
# 逆ダイナミクス表現を用いたロバスト視覚模倣学習

Robust Visual Imitation Learning with Inverse Dynamics Representations ( http://arxiv.org/abs/2310.14274v1 )

ライセンス: Link先を確認
Siyuan Li, Xun Wang, Rongchang Zuo, Kewu Sun, Lingfei Cui, Jishiyu Ding, Peng Liu, Zhe Ma(参考訳) イミテーション学習(IL)は、複雑な逐次決定問題の解決にかなりの成功を収めた。 しかし、現在のil法は、主に学習ポリシーの環境が専門家データセットを収集する環境と同じであると仮定している。 したがって、これらの手法は、特に高次元画像観察における課題に対して、学習環境と専門家環境の差がわずかである場合に機能しない可能性がある。 しかし,現実のシナリオでは,対象とする学習環境において,専門家の軌跡を正確に収集する機会は稀である。 この課題に対処するために,我々は,エキスパート環境と学習環境を整合させる逆ダイナミクス状態表現学習目標を開発するための,新しいロバストな模倣学習手法を提案する。 抽象状態表現を用いて,行動データと専門家データとの類似度を,要素別だけでなく軌道レベルからも徹底的に測定する効果的な報酬関数を設計する。 様々な視覚的摂動および多様な視覚的制御タスクにおいて,提案手法の評価を行う。 私たちのアプローチは、ほとんどの環境でほぼ熟練したパフォーマンスを達成でき、最先端のvisual ilメソッドと堅牢なilメソッドを大幅に上回っています。

Imitation learning (IL) has achieved considerable success in solving complex sequential decision-making problems. However, current IL methods mainly assume that the environment for learning policies is the same as the environment for collecting expert datasets. Therefore, these methods may fail to work when there are slight differences between the learning and expert environments, especially for challenging problems with high-dimensional image observations. However, in real-world scenarios, it is rare to have the chance to collect expert trajectories precisely in the target learning environment. To address this challenge, we propose a novel robust imitation learning approach, where we develop an inverse dynamics state representation learning objective to align the expert environment and the learning environment. With the abstract state representation, we design an effective reward function, which thoroughly measures the similarity between behavior data and expert data not only element-wise, but also from the trajectory level. We conduct extensive experiments to evaluate the proposed approach under various visual perturbations and in diverse visual control tasks. Our approach can achieve a near-expert performance in most environments, and significantly outperforms the state-of-the-art visual IL methods and robust IL methods.
翻訳日:2023-10-25 00:41:28 公開日:2023-10-22
# 前潜在的アプローチ:正確に、準完全かつ合理的に拡張された可解量子系への統一的アプローチ

Prepotential Approach: a unified approach to exactly, quasi-exactly, and rationally extended solvable quantal systems ( http://arxiv.org/abs/2310.14272v1 )

ライセンス: Link先を確認
Choon-Lin Ho(参考訳) 一次元シュリンガー方程式の正確な解法と準コンパクト解法の両方を扱うために、前ポテンシャルアプローチと呼ばれる単純で統一的な方法の簡単な概要を述べる。 これは前ポテンシャルとベーテ・アンサッツ方程式に基づいている。 完全可解系に対する超対称法や準可解問題に対するリー代数的アプローチとは異なり、このアプローチは系の基盤となる対称性の知識を一切必要としない。 準エクササイズと正確な解法の両方を同じ足場で扱う。 このアプローチでは、システムは2つの多項式とベーテ・アンザッツ方程式の集合の選択によって完全に定義される。 ポテンシャル、変数の変化、および固有関数と固有値は同じプロセスで決定される。 実エネルギーを持つエルミートおよび非エルミートハミルトンのいくつかのパラダイム的な例によるアプローチを説明する。 準正規モードと呼ばれる複素エネルギーを持つエルミート系も提示される。 新たに発見された有理拡張モデルへのアプローチの拡張について概説する。

We give a brief overview of a simple and unified way, called the prepotential approach, to treat both exact and quasi-exact solvabilities of the one-dimensional Schr\"odinger equation. It is based on the prepotential together with Bethe ansatz equations. Unlike the the supersymmetric method for the exactly-solvable systems and the Lie-algebraic approach for the quasi-exactly solvable problems, this approach does not require any knowledge of the underlying symmetry of the system. It treats both quasi-exact and exact solvabilities on the same footing. In this approach the system is completely defined by the choice of two polynomials and a set of Bethe ansatz equations. The potential, the change of variables as well as the eigenfunctions and eigenvalues are determined in the same process. We illustrate the approach by several paradigmatic examples of Hermitian and non-Hermitian Hamiltonians with real energies. Hermitian systems with complex energies, called the quasinormal modes, are also presented. Extension of the approach to the newly discovered rationally extended models is briefly discussed.
翻訳日:2023-10-25 00:41:08 公開日:2023-10-22
# オープンドメイン知識を用いた対話のためのソーシャルコモンセンス型検索クエリ生成

Social Commonsense-Guided Search Query Generation for Open-Domain Knowledge-Powered Conversations ( http://arxiv.org/abs/2310.14340v1 )

ライセンス: Link先を確認
Revanth Gangi Reddy, Hao Bai, Wentao Yao, Sharath Chandra Etagi Suresh, Heng Ji, ChengXiang Zhai(参考訳) オープンドメインダイアログは、情報的会話を保持するための関連する知識を得るのに役立つ検索クエリを生成する。 しかし、ユーザが受動的で明確な要求や要求を表現していない場合、どの情報を取得するかを決定するのは困難である。 そこで本研究では,ソーシャル・コモンセンスに導かれるインターネット検索クエリの生成に焦点をあてた新しいアプローチを提案する。 具体的には、コモンセンスダイアログシステムを活用し、会話トピックに関連する関係を確立することにより、クエリ生成をガイドする。 提案フレームワークは,トピックトラッキング,コモンセンス応答生成,命令駆動クエリ生成を統合したパッシブユーザインタラクションに対応する。 広範な評価を通じて,提案手法は明示的な対話情報のみに依存する既存のクエリ生成手法の限界を克服し,より関連性が高く,具体的かつ説得力のある検索クエリを生成し,結果的により魅力的な応答をもたらすことを示す。

Open-domain dialog involves generating search queries that help obtain relevant knowledge for holding informative conversations. However, it can be challenging to determine what information to retrieve when the user is passive and does not express a clear need or request. To tackle this issue, we present a novel approach that focuses on generating internet search queries that are guided by social commonsense. Specifically, we leverage a commonsense dialog system to establish connections related to the conversation topic, which subsequently guides our query generation. Our proposed framework addresses passive user interactions by integrating topic tracking, commonsense response generation and instruction-driven query generation. Through extensive evaluations, we show that our approach overcomes limitations of existing query generation techniques that rely solely on explicit dialog information, and produces search queries that are more relevant, specific, and compelling, ultimately resulting in more engaging responses.
翻訳日:2023-10-25 00:33:29 公開日:2023-10-22
# ChaosからClarityへ: クレーム正規化からFact-Checkingの強化

From Chaos to Clarity: Claim Normalization to Empower Fact-Checking ( http://arxiv.org/abs/2310.14338v1 )

ライセンス: Link先を確認
Megha Sundriyal, Tanmoy Chakraborty, Preslav Nakov(参考訳) ソーシャルメディアプラットフォームの普及に伴い、ユーザーは誤解を招くクレームを含む記事を含む膨大な情報にさらされる。 しかし、これらの投稿に内在する広汎なノイズは、検証を必要とする正確かつ顕著な主張を特定する上での課題となっている。 このようなポストからコアアサーションを抽出するのは困難で時間を要する。 我々は,複雑で騒々しいソーシャルメディア投稿を,より単純で理解しやすい形式に分解することを目的とした,Craim Normalization(別名ClaumNorm)という新しいタスクを導入する。 我々は,人間の推論過程を模倣し,思考の連鎖とクレームのチェック価値を推定し,複雑なクレームを理解するための先駆的手法であるcacnを提案する。 さらに,大規模言語モデルの強力なインコンテキスト学習能力を活用して,クレーム正規化プロセスの指導と改善を行う。 提案モデルの有効性を評価するために,ソーシャルメディア投稿の6kインスタンスをそれぞれ正規化したクレームと合わせて,包括的実世界のデータセットである clan を丁寧にコンパイルする。 実験により、CACNは様々な評価尺度でいくつかの基準線を上回っていることが示された。 厳密なエラー解析は、CACNの能力と落とし穴を検証する。

With the proliferation of social media platforms, users are exposed to vast information, including posts containing misleading claims. However, the pervasive noise inherent in these posts presents a challenge in identifying precise and prominent claims that require verification. Extracting the core assertions from such posts is arduous and time-consuming. We introduce a novel task called Claim Normalization (aka ClaimNorm) that aims to decompose complex and noisy social media posts into more straightforward and understandable forms, termed normalized claims. We propose CACN, a pioneering approach that leverages chain-of-thought and claim check-worthiness estimation, mimicking human reasoning processes, to comprehend intricate claims. Moreover, we capitalize on large language models' powerful in-context learning abilities to provide guidance and improve the claim normalization process. To evaluate the effectiveness of our proposed model, we meticulously compile a comprehensive real-world dataset, CLAN, comprising more than 6k instances of social media posts alongside their respective normalized claims. Experimentation demonstrates that CACN outperforms several baselines across various evaluation measures. A rigorous error analysis validates CACN's capabilities and pitfalls.
翻訳日:2023-10-25 00:33:01 公開日:2023-10-22
# PPFL:不均一人口のための個人化フェデレーション学習フレームワーク

PPFL: A Personalized Federated Learning Framework for Heterogeneous Population ( http://arxiv.org/abs/2310.14337v1 )

ライセンス: Link先を確認
Hao Di, Yi Yang, Haishan Ye, Xiangyu Chang(参考訳) パーソナライゼーションは個人の好みを特徴づけることを目的としており、多くの分野に広く適用されている。 しかし、従来のパーソナライズされた手法は集中的に動作し、個々の情報をプールする際の生データを公開する可能性がある。 本稿では,プライバシを考慮し,ppfl(population personal federated learning)と呼ばれる連合学習のパラダイムの中で,柔軟かつ解釈可能なパーソナライズフレームワークを開発した。 異種集団の基本的な特徴を捉えるために標準モデルを活用し、クライアントの嗜好を明らかにするために会員ベクトルを用いることにより、これらの特徴に対するクライアントのさまざまな嗜好としての不均一性をモデル化し、既存のパーソナライズド・フェデレート・ラーニング(PFL)手法に欠けるクライアント特性に関する重要な洞察を提供する。 さらに,本手法とPFL法の主な3分野であるマルチタスクPFL,クラスタリングPFL,疎結合PFLの関係について検討し,PPFLの利点を実証する。 PPFL(非凸制約最適化問題)を解決するために,新しいランダムブロック座標降下アルゴリズムを提案し,収束性を示す。 本研究は,病理・実践両方のデータセットを用いて実験を行い,PPFLの有効性を検証した。

Personalization aims to characterize individual preferences and is widely applied across many fields. However, conventional personalized methods operate in a centralized manner and potentially expose the raw data when pooling individual information. In this paper, with privacy considerations, we develop a flexible and interpretable personalized framework within the paradigm of Federated Learning, called PPFL (Population Personalized Federated Learning). By leveraging canonical models to capture fundamental characteristics among the heterogeneous population and employing membership vectors to reveal clients' preferences, it models the heterogeneity as clients' varying preferences for these characteristics and provides substantial insights into client characteristics, which is lacking in existing Personalized Federated Learning (PFL) methods. Furthermore, we explore the relationship between our method and three main branches of PFL methods: multi-task PFL, clustered FL, and decoupling PFL, and demonstrate the advantages of PPFL. To solve PPFL (a non-convex constrained optimization problem), we propose a novel random block coordinate descent algorithm and present the convergence property. We conduct experiments on both pathological and practical datasets, and the results validate the effectiveness of PPFL.
翻訳日:2023-10-25 00:32:31 公開日:2023-10-22
# スケーラブルなデータ表現と分類のための学習解釈可能なルール

Learning Interpretable Rules for Scalable Data Representation and Classification ( http://arxiv.org/abs/2310.14336v1 )

ライセンス: Link先を確認
Zhuo Wang, Wei Zhang, Ning Liu, Jianyong Wang(参考訳) 規則に基づくモデル、例えば決定木は、透明な内部構造と優れたモデル表現性のために高いモデル解釈性を必要とするシナリオで広く使われている。 しかし、ルールベースのモデルは、特に大きなデータセットでは、個々のパラメータや構造のために最適化が難しい。 アンサンブルメソッドとファジィ/ソフトルールは一般的にパフォーマンスを改善するために使用されるが、モデルの解釈性を犠牲にしている。 スケーラビリティと解釈性の両方を得るために,データ表現と分類のための解釈不能なルールを自動的に学習する,ルールベース表現学習器(rrl)という新しい分類器を提案する。 非微分可能rrlを効果的に訓練するために、連続空間に投影し、勾配降下を用いて離散モデルを直接最適化できる勾配グラフトと呼ばれる新しい訓練方法を提案する。 論理アクティベーション関数の新たな設計は、RRLのスケーラビリティを高め、エンドツーエンドで連続的な特徴を識別できるようにするためにも考案されている。 10個の小さなデータセットと4つの大きなデータセットの探索実験により、RRLは競争的解釈可能なアプローチよりも優れており、異なるシナリオにおける分類精度とモデルの複雑さのトレードオフを得るために容易に調整できることを示した。 私たちのコードは以下の通りです。

Rule-based models, e.g., decision trees, are widely used in scenarios demanding high model interpretability for their transparent inner structures and good model expressivity. However, rule-based models are hard to optimize, especially on large data sets, due to their discrete parameters and structures. Ensemble methods and fuzzy/soft rules are commonly used to improve performance, but they sacrifice the model interpretability. To obtain both good scalability and interpretability, we propose a new classifier, named Rule-based Representation Learner (RRL), that automatically learns interpretable non-fuzzy rules for data representation and classification. To train the non-differentiable RRL effectively, we project it to a continuous space and propose a novel training method, called Gradient Grafting, that can directly optimize the discrete model using gradient descent. A novel design of logical activation functions is also devised to increase the scalability of RRL and enable it to discretize the continuous features end-to-end. Exhaustive experiments on ten small and four large data sets show that RRL outperforms the competitive interpretable approaches and can be easily adjusted to obtain a trade-off between classification accuracy and model complexity for different scenarios. Our code is available at: https://github.com/12wang3/rrl.
翻訳日:2023-10-25 00:32:06 公開日:2023-10-22
# difair:性知識とバイアスの不連続評価のためのベンチマーク

DiFair: A Benchmark for Disentangled Assessment of Gender Knowledge and Bias ( http://arxiv.org/abs/2310.14329v1 )

ライセンス: Link先を確認
Mahdi Zakizadeh, Kaveh Eskandari Miandoab, Mohammad Taher Pilehvar(参考訳) 事前訓練された言語モデルでよく見られる性別バイアスを軽減するために、数多くの脱バイアス技術が提案されている。 これらはしばしば、予測においてモデルが性中立である範囲をチェックするデータセットで評価される。 重要なこととして、この評価プロトコルは、バイアス軽減が有意義な性別知識に与える影響を見逃している。 このギャップを埋めるために,マスク付き言語モデリングの目的に基づいた手作業によるデータセットであるdifairを提案する。 DiFairは、モデルの偏りの振る舞いを定量化するだけでなく、有用な性別知識が保存されているかどうかをチェックする、統一された計量、性差スコアを導入することを可能にする。 私たちはDiFairを,広く使用されている言語モデルやデバイアス手法のベンチマークとして使用しています。 実験結果は、既存のジェンダーバイアスに関するこれまでの知見を裏付けると同時に、デバイアス技術はジェンダーバイアスの問題を改善するが、この改善は通常、モデルの有用なジェンダー知識を下げる価格によってもたらされる。

Numerous debiasing techniques have been proposed to mitigate the gender bias that is prevalent in pretrained language models. These are often evaluated on datasets that check the extent to which the model is gender-neutral in its predictions. Importantly, this evaluation protocol overlooks the possible adverse impact of bias mitigation on useful gender knowledge. To fill this gap, we propose DiFair, a manually curated dataset based on masked language modeling objectives. DiFair allows us to introduce a unified metric, gender invariance score, that not only quantifies a model's biased behavior, but also checks if useful gender knowledge is preserved. We use DiFair as a benchmark for a number of widely-used pretained language models and debiasing techniques. Experimental results corroborate previous findings on the existing gender biases, while also demonstrating that although debiasing techniques ameliorate the issue of gender bias, this improvement usually comes at the price of lowering useful gender knowledge of the model.
翻訳日:2023-10-25 00:31:22 公開日:2023-10-22
# 古典的学習器を用いたPKEとFHEのための量子鍵リース

Quantum Key Leasing for PKE and FHE with a Classical Lessor ( http://arxiv.org/abs/2310.14328v1 )

ライセンス: Link先を確認
Orestis Chardouvelis, Vipul Goyal, Aayush Jain, Jiahui Liu(参考訳) 本稿では,Agarwal et. al. Eurocrypt' 23, Ananth et. al. TCC' 23 としても知られるセキュアな鍵リースの問題について,前身のAnanth et. al. TCC' 23 のセキュリティ概念の強化について考察する。 アル ユーロ暗号21号。 この問題の目的は、量子情報の不可解な性質を利用して、レセプタが古典的な機能を評価するために再利用可能な量子鍵をリースできるようにすることである。 その後、レセプタは、レセプタに、確実に鍵を削除するように要求し、レセプタは、評価する能力を完全に奪われる。 本研究では、標準格子仮定から(古典的)公開鍵、準同型暗号スキームの復号鍵をリースする安全な鍵リーススキームを構築する。 プロトコル全体は、古典的なリース者(クライアント)とquantum lessee(サーバ)の間の古典的な通信のみを使用します。 ※ 標準的な仮定を仮定すると、我々のセキュリティ定義では、全ての計算上の有界量子敵は、有効な古典的削除証明書を同時に提供できず、暗号文を区別することができない。 私たちのセキュリティは、誤りを仮定して学ぶことの難しさに依存しています。 このスキームは,上記の2つの性質を満足する標準仮定に基づく最初のスキームである。

In this work, we consider the problem of secure key leasing, also known as revocable cryptography (Agarwal et. al. Eurocrypt' 23, Ananth et. al. TCC' 23), as a strengthened security notion of its predecessor put forward in Ananth et. al. Eurocrypt' 21. This problem aims to leverage unclonable nature of quantum information to allow a lessor to lease a quantum key with reusability for evaluating a classical functionality. Later, the lessor can request the lessee to provably delete the key and then the lessee will be completely deprived of the capability to evaluate. In this work, we construct a secure key leasing scheme to lease a decryption key of a (classical) public-key, homomorphic encryption scheme from standard lattice assumptions. We achieve strong form of security where: * The entire protocol uses only classical communication between a classical leaser (client) and a quantum lessee (server). * Assuming standard assumptions, our security definition ensures that every computationally bounded quantum adversary could not simultaneously provide a valid classical deletion certificate and yet distinguish ciphertexts. Our security relies on the hardness of learning with errors assumption. Our scheme is the first scheme to be based on a standard assumption and satisfying the two properties above.
翻訳日:2023-10-25 00:31:05 公開日:2023-10-22
# CLMSM:手続きテキストによる事前学習のためのマルチタスク学習フレームワーク

CLMSM: A Multi-Task Learning Framework for Pre-training on Procedural Text ( http://arxiv.org/abs/2310.14326v1 )

ライセンス: Link先を確認
Abhilash Nandy, Manav Nitin Kapadnis, Pawan Goyal, Niloy Ganguly(参考訳) 本稿では,プロセスレシピの多種多様な集合から学習する,ドメイン固有かつ継続的な事前学習フレームワークであるclmsmを提案する。 CLMSMは2つの目的を最適化するためにマルチタスク学習フレームワークを使用する。 a) 手続きにおける実体間の細かな差異を学ぶためのハードトリプレットを用いた対比学習 b) 手続きの段階的文脈を学ぶための新しいマスクステップモデリングの目的 CLMSMは3つのデータセット上の2つのプロシージャ間で動作を調整し、その中の1つは事前学習データセットに適合しないオープンドメインデータセットである。 CLMSMはレシピ(ドメイン内)のベースラインを上回るだけでなく、オープンドメインの手続き的NLPタスクにも一般化可能であることを示す。

In this paper, we propose CLMSM, a domain-specific, continual pre-training framework, that learns from a large set of procedural recipes. CLMSM uses a Multi-Task Learning Framework to optimize two objectives - a) Contrastive Learning using hard triplets to learn fine-grained differences across entities in the procedures, and b) a novel Mask-Step Modelling objective to learn step-wise context of a procedure. We test the performance of CLMSM on the downstream tasks of tracking entities and aligning actions between two procedures on three datasets, one of which is an open-domain dataset not conforming with the pre-training dataset. We show that CLMSM not only outperforms baselines on recipes (in-domain) but is also able to generalize to open-domain procedural NLP tasks.
翻訳日:2023-10-25 00:30:37 公開日:2023-10-22
# Coreference-Driven Contextual Analysis によるハーモフルエロティックコンテンツ検出に向けて

Towards Harmful Erotic Content Detection through Coreference-Driven Contextual Analysis ( http://arxiv.org/abs/2310.14325v1 )

ライセンス: Link先を確認
Inez Okulska and Emilia Wi\'snios(参考訳) 成人コンテンツ検出はいまだに自動化にとって大きな課題である。 既存の分類器は主にエロティックテキストと非エロティックテキストの区別に焦点を当てている。 しかし、潜在的被害を評価する上では、よりニュアンスを必要とすることが多い。 残念ながら、この性質の内容は、潜在的に有害な性質のため、生成モデルの範囲を超えている。 倫理的な制限により、大きな言語モデル(llm)は有害なエロティックを分析、分類することを禁止している。 データが乏しく困難であるような場合、大規模なモデルではなく、そのようなテキストの構造を徹底的に分析することで、有効な解決策が得られます。 特に、有害なエロティックな物語は、無害な物語に似ているが、通常、その有害な性質を物語の非性的な部分に隠された文脈情報を通して明らかにする。 本稿では,エロティックコンテンツ中の有害な文脈的手がかりを特定するために,コア参照解決を利用したニューラルネットワークとルールベースのコンテキスト認識システムを提案する。 プロのモデレーターと共同でデータセットをコンパイルし、有害なエロティックコンテンツと有害なエロティックコンテンツを区別できる分類器を開発した。 ポーランド語のテキストでテストしたハイブリッドモデルは、期待できる精度84%、リコール率80%を示している。 RoBERTaとLongformerに基づくモデルでは、コア参照連鎖を明示的に用いていないため、有害なエアロティックスとして検出する際のコア参照分解能の重要性が強調された。 このアプローチはまた、視覚的説明可能性の向上、予測評価におけるモデレーターのサポート、有害なコンテンツに対処するための必要なアクションを取る可能性も提供する。

Adult content detection still poses a great challenge for automation. Existing classifiers primarily focus on distinguishing between erotic and non-erotic texts. However, they often need more nuance in assessing the potential harm. Unfortunately, the content of this nature falls beyond the reach of generative models due to its potentially harmful nature. Ethical restrictions prohibit large language models (LLMs) from analyzing and classifying harmful erotics, let alone generating them to create synthetic datasets for other neural models. In such instances where data is scarce and challenging, a thorough analysis of the structure of such texts rather than a large model may offer a viable solution. Especially given that harmful erotic narratives, despite appearing similar to harmless ones, usually reveal their harmful nature first through contextual information hidden in the non-sexual parts of the narrative. This paper introduces a hybrid neural and rule-based context-aware system that leverages coreference resolution to identify harmful contextual cues in erotic content. Collaborating with professional moderators, we compiled a dataset and developed a classifier capable of distinguishing harmful from non-harmful erotic content. Our hybrid model, tested on Polish text, demonstrates a promising accuracy of 84% and a recall of 80%. Models based on RoBERTa and Longformer without explicit usage of coreference chains achieved significantly weaker results, underscoring the importance of coreference resolution in detecting such nuanced content as harmful erotics. This approach also offers the potential for enhanced visual explainability, supporting moderators in evaluating predictions and taking necessary actions to address harmful content.
翻訳日:2023-10-25 00:30:24 公開日:2023-10-22
# 射影および非射影依存性木に対する4および7ビットラベリング

4 and 7-bit Labeling for Projective and Non-Projective Dependency Trees ( http://arxiv.org/abs/2310.14319v1 )

ライセンス: Link先を確認
Carlos G\'omez-Rodr\'iguez, Diego Roca, David Vilares(参考訳) 我々は,任意の射影依存木を4ビットラベルの列として表現できるシーケンスラベリングとして解析用エンコーディングを導入する。 各単語のラベルのビットは、(1)が右依存か左依存か、(2)それが親の最も外側(左/右)に依存しているか、(3)左の子供がいるか、(4)適切な子供がいるかを表す。 これは木からラベルへのインジェクションマッピングを提供し、線形時間内にエンコードおよびデコードできることを示す。 次に、余剰の弧面を表す7ビット拡張を定義し、その被覆をほぼ完全な非射影性(99.9%以上の経験的弧被覆)に拡張する。 その結果、7ビットエンコーディングの精度は,従来最良であったシーケンスラベリングエンコーディングよりも大幅に向上することがわかった。

We introduce an encoding for parsing as sequence labeling that can represent any projective dependency tree as a sequence of 4-bit labels, one per word. The bits in each word's label represent (1) whether it is a right or left dependent, (2) whether it is the outermost (left/right) dependent of its parent, (3) whether it has any left children and (4) whether it has any right children. We show that this provides an injective mapping from trees to labels that can be encoded and decoded in linear time. We then define a 7-bit extension that represents an extra plane of arcs, extending the coverage to almost full non-projectivity (over 99.9% empirical arc coverage). Results on a set of diverse treebanks show that our 7-bit encoding obtains substantial accuracy gains over the previously best-performing sequence labeling encodings.
翻訳日:2023-10-25 00:29:55 公開日:2023-10-22
# プライバシーリスク指標を用いたニューラルテキストの衛生 : 実証分析

Neural Text Sanitization with Privacy Risk Indicators: An Empirical Analysis ( http://arxiv.org/abs/2310.14312v1 )

ライセンス: Link先を確認
Anthi Papadopoulou, Pierre Lison, Mark Anderson, Lilja {\O}vrelid, Ildik\'o Pil\'an(参考訳) テキスト・サニタイズ(英: text sanitization)とは、文書を改ざんして個人識別子(直接的または間接的)のすべての発生を隠蔽し、その中に言及される個人のアイデンティティを隠すこと。 本稿では,最近発表された2つのデータセット (text anonymization benchmark (pil\'an et al., 2022) とwikipediaの伝記集 (papadopoulou et al., 2022) について,テキストのサニタイズに対する2段階のアプローチを検討し,その経験的パフォーマンスの詳細な分析を行う。 テキストのサニタイズプロセスは、識別可能な個人情報を表現するテキストスパンを決定するプライバシ指向のエンティティ認識器から始まります。 このプライバシ指向エンティティ認識器は、wikidataから抽出された人物関連用語を人口するガゼットと、標準名称のエンティティ認識モデルとを組み合わせることで訓練される。 テキストサニタイズプロセスの第2ステップは、検出された各テキストスパンに関連するプライバシーリスクを、分離または他のテキストスパンと組み合わせて評価することである。 本稿では,言語モデルの確率,テキストスパン分類,シーケンスラベリング,摂動,web検索に基づいて,再同定リスクの5つの指標を示す。 我々は、各プライバシー指標の対比分析を行い、その利点と限界、特に利用可能なラベル付きデータとの関連を強調する。

Text sanitization is the task of redacting a document to mask all occurrences of (direct or indirect) personal identifiers, with the goal of concealing the identity of the individual(s) referred in it. In this paper, we consider a two-step approach to text sanitization and provide a detailed analysis of its empirical performance on two recently published datasets: the Text Anonymization Benchmark (Pil\'an et al., 2022) and a collection of Wikipedia biographies (Papadopoulou et al., 2022). The text sanitization process starts with a privacy-oriented entity recognizer that seeks to determine the text spans expressing identifiable personal information. This privacy-oriented entity recognizer is trained by combining a standard named entity recognition model with a gazetteer populated by person-related terms extracted from Wikidata. The second step of the text sanitization process consists in assessing the privacy risk associated with each detected text span, either isolated or in combination with other text spans. We present five distinct indicators of the re-identification risk, respectively based on language model probabilities, text span classification, sequence labelling, perturbations, and web search. We provide a contrastive analysis of each privacy indicator and highlight their benefits and limitations, notably in relation to the available labeled data.
翻訳日:2023-10-25 00:29:39 公開日:2023-10-22
# AI Fact-checking and AI Authority in Health-related Inquiry Sets

Right, No Matter Why: AI Fact-checking and AI Authority in Health-related Inquiry Settings ( http://arxiv.org/abs/2310.14358v1 )

ライセンス: Link先を確認
Elena Sergeeva, Anastasia Sergeeva, Huiyun Tang, Kerstin Bongard-Blanchy, Peter Szolovits(参考訳) 専門家のアドバイステイクに関する以前の研究によると、人間は2つの矛盾した行動を示す。一方、人々は専門家の意見を過大評価する傾向にあり、他方では、アドバイス自体が明らかに間違っているとしても、他人のアドバイスを軽視する傾向にある。 本研究では,健康関連文の真偽を異なる「製品品質」設定で評価する際に,利用者のAI対応行動の探索的評価を行う。 AIはステートメントが偽/真であると信じている”というだけに制限されたフィードバックでさえ、半数以上の人がステートメントの正確性評価をAIの提案に移行しているのです。 アドバイスの異なるタイプは受け入れ率に影響を与えるが、提案を受けることによる影響は提案型効果よりも大きいことが多い。

Previous research on expert advice-taking shows that humans exhibit two contradictory behaviors: on the one hand, people tend to overvalue their own opinions undervaluing the expert opinion, and on the other, people often defer to other people's advice even if the advice itself is rather obviously wrong. In our study, we conduct an exploratory evaluation of users' AI-advice accepting behavior when evaluating the truthfulness of a health-related statement in different "advice quality" settings. We find that even feedback that is confined to just stating that "the AI thinks that the statement is false/true" results in more than half of people moving their statement veracity assessment towards the AI suggestion. The different types of advice given influence the acceptance rates, but the sheer effect of getting a suggestion is often bigger than the suggestion-type effect.
翻訳日:2023-10-25 00:23:27 公開日:2023-10-22
# 文化的・言語的多様性が視覚表現を改善する

Cultural and Linguistic Diversity Improves Visual Representations ( http://arxiv.org/abs/2310.14356v1 )

ライセンス: Link先を確認
Andre Ye, Sebastin Santy, Jena D. Hwang, Amy X. Zhang, Ranjay Krishna(参考訳) コンピュータビジョンは知覚を客観的に扱うことが多く、この仮定はデータセットの収集やモデルを訓練する方法に反映される。 例えば、異なる言語における画像記述は、典型的には同じ意味的内容の翻訳であると仮定される。 しかし、異文化心理学や言語学の研究は、個人が文化的背景や話す言語によって視覚的に異なることを示している。 本稿では,データセットとモデル生成キャプションの両方において,言語間の意味コンテンツの有意な差異を示す。 モノリンガルとは対照的に、データが多言語である場合、シーングラフ、埋め込み、言語複雑性によって測定される平均的な意味的カバレッジは高い。 例えば、多言語キャプションは、平均21.8%以上のオブジェクト、24.5%以上のリレーション、27.1%以上の属性を持つ。 さらに、異なる言語のコンテンツで訓練されたモデルは、それらの言語のテストデータに対して最善を尽くす一方、多言語コンテンツで訓練されたモデルは、すべての評価データ合成に対して一貫して良好に機能する。 我々の研究は、多様な知覚モードが画像理解をいかに改善できるかを示す。

Computer vision often treats perception as objective, and this assumption gets reflected in the way that datasets are collected and models are trained. For instance, image descriptions in different languages are typically assumed to be translations of the same semantic content. However, work in cross-cultural psychology and linguistics has shown that individuals differ in their visual perception depending on their cultural background and the language they speak. In this paper, we demonstrate significant differences in semantic content across languages in both dataset and model-produced captions. When data is multilingual as opposed to monolingual, captions have higher semantic coverage on average, as measured by scene graph, embedding, and linguistic complexity. For example, multilingual captions have on average 21.8% more objects, 24.5% more relations, and 27.1% more attributes than a set of monolingual captions. Moreover, models trained on content from different languages perform best against test data from those languages, while those trained on multilingual content perform consistently well across all evaluation data compositions. Our research provides implications for how diverse modes of perception can improve image understanding.
翻訳日:2023-10-25 00:23:12 公開日:2023-10-22
# 宇宙用ライダーを用いた大規模建築物のグローバル生産

A global product of fine-scale urban building height based on spaceborne lidar ( http://arxiv.org/abs/2310.14355v1 )

ライセンス: Link先を確認
Xiao Ma, Guang Zheng, Chi Xu, L. Monika Moskal, Peng Gong, Qinghua Guo, Huabing Huang, Xuecao Li, Yong Pang, Cheng Wang, Huan Xie, Bailang Yu, Bo Zhao, Yuyu Zhou(参考訳) 国連の持続可能な開発目標(sdgs)を達成するには、世界の人口の半分が都市に住んでいるため、広い範囲と高い精度で都市環境を特徴付けることがこれまで以上に重要である。 基本的な3次元都市構造としての都市ビルの高さは、広く応用されている。 しかし、現在に至るまで、空間分解能の細かい近年の都市ビルの高さのデータセットの作成は困難な課題である。 本稿では,2020年頃にGEDIの宇宙用ライダー機器とリモートセンシング画像(Landsat-8,Sentinel-2,Sentinel-1)と地形データとを組み合わせて,都市ビルの高さを150mの微細グリッドサイズで表した最新のグローバル製品を提供する。 その結果,GEDIデータに基づく高さ推定法は,基準データと比較してピアソン r の 0.78 と RMSE の 3.67 m で有効であることが判明した。 マッピング積はまた、基準データ(ピアソンの r = 0.71, RMSE = 4.60 m)との強い相関で示されるような優れた性能を示した。 現在存在する製品と比較すると,地球規模の建築高マップは,GEDIサンプルを入力として更新する際の空間的不均一性や柔軟性について,高い空間分解能(150m)を提供する能力を持っている。 この研究は、気候、環境、生態学、社会科学を含む多くの分野における将来の都市研究を促進する。

Characterizing urban environments with broad coverages and high precision is more important than ever for achieving the UN's Sustainable Development Goals (SDGs) as half of the world's populations are living in cities. Urban building height as a fundamental 3D urban structural feature has far-reaching applications. However, so far, producing readily available datasets of recent urban building heights with fine spatial resolutions and global coverages remains a challenging task. Here, we provide an up-to-date global product of urban building heights based on a fine grid size of 150 m around 2020 by combining the spaceborne lidar instrument of GEDI and multi-sourced data including remotely sensed images (i.e., Landsat-8, Sentinel-2, and Sentinel-1) and topographic data. Our results revealed that the estimated method of building height samples based on the GEDI data was effective with 0.78 of Pearson's r and 3.67 m of RMSE in comparison to the reference data. The mapping product also demonstrated good performance as indicated by its strong correlation with the reference data (i.e., Pearson's r = 0.71, RMSE = 4.60 m). Compared with the currently existing products, our global urban building height map holds the ability to provide a higher spatial resolution (i.e., 150 m) with a great level of inherent details about the spatial heterogeneity and flexibility of updating using the GEDI samples as inputs. This work will boost future urban studies across many fields including climate, environmental, ecological, and social sciences.
翻訳日:2023-10-25 00:22:54 公開日:2023-10-22
# フレアフリーイメージに向けて:調査

Toward Flare-Free Images: A Survey ( http://arxiv.org/abs/2310.14354v1 )

ライセンス: Link先を確認
Yousef Kotp, Marwan Torki(参考訳) レンズフレアは一般的な画像アーティファクトであり、カメラを向ける強い光源のため、画質が著しく低下し、コンピュータビジョンシステムの性能に影響を及ぼす。 この調査は、レンズフレアの多面的領域を包括的に概観し、その基礎となる物理、要因、種類、特性に影響を及ぼす。 フレア形成の複雑な光学系に分解し、内部反射、散乱、回折、およびカメラレンズシステム内の分散といった要因から生じる。 様々なフレアのカテゴリが研究され、散乱、反射、グラア、オーブ、スターバーストタイプがある。 形状,色,局在などの重要な特性を解析する。 光源属性、レンズ機能、カメラの設定、シーンコンテンツにまたがる、フレアの外観に影響を与える多くの要因について論じる。 この調査は、ハードウェア最適化戦略、古典的な画像処理技術、ディープラーニングを用いた学習手法など、フレア除去のための幅広い手法を幅広くカバーしている。 トレーニングや評価のために作成された先駆的なフレアデータセットだけでなく、その作成方法も記述している。 PSNR、SSIM、LPIPSなどの一般的なパフォーマンス指標を探索する。 flareの複雑でデータ依存の特徴によって生じる課題を強調する。 この調査は、フレア除去研究のベストプラクティス、限界、将来の方向性に関する洞察を提供する。 最先端をレビューすることで、フレア現象の本質的な複雑さと既存の解の能力の深い理解が可能になる。 これにより、レンズフレアアーティファクトの処理や、さまざまなアプリケーションにおける視覚的品質向上のための、新たなイノベーションを通知し、刺激することができる。

Lens flare is a common image artifact that can significantly degrade image quality and affect the performance of computer vision systems due to a strong light source pointing at the camera. This survey provides a comprehensive overview of the multifaceted domain of lens flare, encompassing its underlying physics, influencing factors, types, and characteristics. It delves into the complex optics of flare formation, arising from factors like internal reflection, scattering, diffraction, and dispersion within the camera lens system. The diverse categories of flare are explored, including scattering, reflective, glare, orb, and starburst types. Key properties such as shape, color, and localization are analyzed. The numerous factors impacting flare appearance are discussed, spanning light source attributes, lens features, camera settings, and scene content. The survey extensively covers the wide range of methods proposed for flare removal, including hardware optimization strategies, classical image processing techniques, and learning-based methods using deep learning. It not only describes pioneering flare datasets created for training and evaluation purposes but also how they were created. Commonly employed performance metrics such as PSNR, SSIM, and LPIPS are explored. Challenges posed by flare's complex and data-dependent characteristics are highlighted. The survey provides insights into best practices, limitations, and promising future directions for flare removal research. Reviewing the state-of-the-art enables an in-depth understanding of the inherent complexities of the flare phenomenon and the capabilities of existing solutions. This can inform and inspire new innovations for handling lens flare artifacts and improving visual quality across various applications.
翻訳日:2023-10-25 00:22:27 公開日:2023-10-22
# depaint:ピークおよび平均制約を考慮した分散型安全マルチエージェント強化学習アルゴリズム

DePAint: A Decentralized Safe Multi-Agent Reinforcement Learning Algorithm considering Peak and Average Constraints ( http://arxiv.org/abs/2310.14348v1 )

ライセンス: Link先を確認
Raheeb Hassan, K.M. Shadman Wadith, Md. Mamun or Rashid, Md. Mosaddek Khan(参考訳) 安全なマルチエージェント強化学習の分野は、ドローンの配達や車両の自動化など、さまざまな分野に応用される可能性があるが、まだ明らかになっていない。 特定の制約を考慮しながら報酬を最大化する最適なポリシーを学ぶためのトレーニングエージェントは、特にトレーニングプロセス中にエージェントを調整する中央コントローラを持つことが不可能なシナリオでは困難である。 本稿では,各エージェントの安全制約を満たしながら,その累積報酬の合計を最大化するために,エージェントが隣人と通信する分散環境でのマルチエージェント政策最適化の問題に対処する。 我々はピークと平均の両方の制約を考える。 このシナリオでは、エージェントをコーディネートする中央コントローラはなく、報酬と制約は各エージェントがローカル/プライベートにのみ知っている。 本稿では、分散制約付きマルチエージェントマルコフ決定問題として問題を定式化し、モーメントに基づく分散ポリシー勾配法DePaintを提案する。 私たちの知る限りでは、ピーク値と平均値の両方の制約を考慮した、プライバシを保存、完全に分散したマルチエージェント強化学習アルゴリズムはこれが初めてです。 また,様々なシナリオにおけるアルゴリズムの理論的解析と経験的評価を行い,同様の制約を考慮した集中型アルゴリズムと比較した。

The field of safe multi-agent reinforcement learning, despite its potential applications in various domains such as drone delivery and vehicle automation, remains relatively unexplored. Training agents to learn optimal policies that maximize rewards while considering specific constraints can be challenging, particularly in scenarios where having a central controller to coordinate the agents during the training process is not feasible. In this paper, we address the problem of multi-agent policy optimization in a decentralized setting, where agents communicate with their neighbors to maximize the sum of their cumulative rewards while also satisfying each agent's safety constraints. We consider both peak and average constraints. In this scenario, there is no central controller coordinating the agents and both the rewards and constraints are only known to each agent locally/privately. We formulate the problem as a decentralized constrained multi-agent Markov Decision Problem and propose a momentum-based decentralized policy gradient method, DePAint, to solve it. To the best of our knowledge, this is the first privacy-preserving fully decentralized multi-agent reinforcement learning algorithm that considers both peak and average constraints. We also provide theoretical analysis and empirical evaluation of our algorithm in various scenarios and compare its performance to centralized algorithms that consider similar constraints.
翻訳日:2023-10-25 00:22:00 公開日:2023-10-22
# the law and nlp: bridging disciplinary disconnects

The Law and NLP: Bridging Disciplinary Disconnects ( http://arxiv.org/abs/2310.14346v1 )

ライセンス: Link先を確認
Robert Mahari, Dominik Stammbach, Elliott Ash, Alex 'Sandy' Pentland(参考訳) 法律実務は本質的に言語の構造に根ざしているが、法律実務家や学者は自然言語処理(NLP)のツールを採用するのが遅い。 同時に、法制度は司法危機に遭遇しており、NLPによって部分的に緩和される可能性がある。 本稿では,法的実践におけるNLPの取り込みの遅さが,法律コミュニティのニーズとNLP研究者の焦点との切り離しによって悪化していることを論じる。 法的なNLP文献の最近の傾向を概観すると、法的なNLPコミュニティと法的なアカデミックの重複は限定的である。 我々の解釈では、最も一般的な法的NLPタスクのいくつかは、法的実践者のニーズに対応できない。 我々は、学際的断線を橋渡しすることを約束する法的なNLPタスクの例を論じ、未調査のままの法的なNLP研究の興味深い領域を強調する。

Legal practice is intrinsically rooted in the fabric of language, yet legal practitioners and scholars have been slow to adopt tools from natural language processing (NLP). At the same time, the legal system is experiencing an access to justice crisis, which could be partially alleviated with NLP. In this position paper, we argue that the slow uptake of NLP in legal practice is exacerbated by a disconnect between the needs of the legal community and the focus of NLP researchers. In a review of recent trends in the legal NLP literature, we find limited overlap between the legal NLP community and legal academia. Our interpretation is that some of the most popular legal NLP tasks fail to address the needs of legal practitioners. We discuss examples of legal NLP tasks that promise to bridge disciplinary disconnects and highlight interesting areas for legal NLP research that remain underexplored.
翻訳日:2023-10-25 00:21:39 公開日:2023-10-22
# 運動中の量子ウォーク探索

Quantum Walk Search in Motion ( http://arxiv.org/abs/2310.14345v1 )

ライセンス: Link先を確認
Himanshu Sahu and Kallol Sen(参考訳) 量子ウォーク探索アルゴリズム(quantum walk search algorithm)は、グラフ内の固定されたノードを探索するために設計された。 しかし、複数のマークノードが存在する場合、従来の検索アルゴリズムでは、マークノードを同時に増幅する能力や、マークノード間の正しい時系列順序を特定する能力が欠けている。 この制限に対処するために、マークされたノードに付加的な量子状態を導入することにより、アルゴリズムの拡張の可能性を探る。 ラベルはマークされたノードの同時増幅の曖昧さを解消する。 さらに、ラベル状態と時系列順序を関連付けることで、2次元表面上で動く粒子を追跡するアルゴリズムを拡張することができる。 本アルゴリズムは粒子の軌道を効率的に探索し,提案する量子回路によって支援される。 このコンセプトは、リアルタイムオブジェクトトラッキングからネットワーク管理やルーティングまで、さまざまなアプリケーションに対して約束されている。

In quantum computing, the quantum walk search algorithm is designed for locating fixed marked nodes within a graph. However, when multiple marked nodes exist, the conventional search algorithm lacks the capacity to simultaneously amplify the marked nodes as well as identify the correct chronological ordering between the marked nodes, if any. To address this limitation, we explore a potential extension of the algorithm by introducing additional quantum states to label the marked nodes. The labels resolve the ambiguity of simultaneous amplification of the marked nodes. Additionally, by associating the label states with a chronological ordering, we can extend the algorithm to track a moving particle on a two-dimensional surface. Our algorithm efficiently searches for the trajectory of the particle and is supported by a proposed quantum circuit. This concept holds promise for a range of applications, from real-time object tracking to network management and routing.
翻訳日:2023-10-25 00:21:21 公開日:2023-10-22
# 前に何があるの? 逆問題に対する学習型近位ネットワーク

What's in a Prior? Learned Proximal Networks for Inverse Problems ( http://arxiv.org/abs/2310.14344v1 )

ライセンス: Link先を確認
Zhenghan Fang, Sam Buchanan, Jeremias Sulam(参考訳) 近位作用素は逆問題においてユビキタスであり、一般にアルゴリズム戦略の一部として現れる。 現代のディープラーニングモデルは、プラグアンドプレイやディープアンロールのフレームワークのように、近距離演算子にゆるやかに類似したこれらのタスクにも耐えられてきた。 一般のディープネットワークが任意の関数の近位演算子を表すことは保証されておらず、ネットワークが近似した近位演算子を提供するような関数のキャラクタリゼーションも存在しない。 これは反復的スキームの収束を困難にさせるだけでなく、より根本的には、これらのネットワークが学習したトレーニングデータの分析を複雑にする。 本稿では,学習型近位ネットワーク(lpn)を開発し,データ駆動型非凸正規化器に正確な近位演算子を提供することを証明し,近位マッチングと呼ばれる新たなトレーニング戦略が真のデータ分布のログ優先の回復を促進することを示す。 そのような LPN は、収束保証付き一般逆問題に使用できる一般、教師なし、表現的近位作用素を提供する。 我々は,これらのモデルが最先端のパフォーマンスをもたらすだけでなく,データから得られた先行結果の窓口を提供することを示す。

Proximal operators are ubiquitous in inverse problems, commonly appearing as part of algorithmic strategies to regularize problems that are otherwise ill-posed. Modern deep learning models have been brought to bear for these tasks too, as in the framework of plug-and-play or deep unrolling, where they loosely resemble proximal operators. Yet, something essential is lost in employing these purely data-driven approaches: there is no guarantee that a general deep network represents the proximal operator of any function, nor is there any characterization of the function for which the network might provide some approximate proximal. This not only makes guaranteeing convergence of iterative schemes challenging but, more fundamentally, complicates the analysis of what has been learned by these networks about their training data. Herein we provide a framework to develop learned proximal networks (LPN), prove that they provide exact proximal operators for a data-driven nonconvex regularizer, and show how a new training strategy, dubbed proximal matching, provably promotes the recovery of the log-prior of the true data distribution. Such LPN provide general, unsupervised, expressive proximal operators that can be used for general inverse problems with convergence guarantees. We illustrate our results in a series of cases of increasing complexity, demonstrating that these models not only result in state-of-the-art performance, but provide a window into the resulting priors learned from data.
翻訳日:2023-10-25 00:21:10 公開日:2023-10-22
# copd患者の在宅肺リハビリテーション支援技術pulmobell

PulmoBell: Home-based Pulmonary Rehabilitation Assistive Technology for People with COPD ( http://arxiv.org/abs/2310.14342v1 )

ライセンス: Link先を確認
Yuanxiang Ma, Andreas Polydorides, Jitesh Joshi, Youngjun Cho(参考訳) 慢性閉塞性肺疾患(COPD)は致命的であり,重篤な症状のため生存が困難である。 肺再生 (PR) は, COPD を安定的に維持する手段の1つである。 しかし、英国におけるPRの実施は、患者が直面している環境と個人の障壁により、プログラムの取り込み、定着、完成を妨げているため、困難である。 さらに、PR後の運動能力の増大は、必ずしも身体活動(PA)に変換されるわけではなく、残念ながら、PR以前の運動能力に戻すことができる。 現在の遠隔リハビリテーション法は,これらのアクセシビリティ問題に対処する上で限界があり,患者の日常生活におけるPAの促進を通じてPR成果の持続性を高めるための遠隔リハビリテーションの有効性について明確な結論は得られない。 本研究は,家庭内におけるprの促進とpa維持の促進を目的として,センサベース支援製品の新規な設計を提案する。 異なるレベルの忠実度を持つプロトタイプが提示され、続いて将来の研究方向の評価計画が提示される。

Chronic Obstructive Pulmonary Disease (COPD) can be fatal and is challenging to live with due to its severe symptoms. Pulmonary rehabilitation (PR) is one of the managements means to maintain COPD in a stable status. However, implementation of PR in the UK has been challenging due to the environmental and personal barriers faced by patients, which hinder their uptake, adherence, and completion of the programmes. Moreover, increased exercise capacity following PR does not always translate into physical activity (PA) and unfortunately, can lead back to exercise capacity seen prior to PR. Current alternative solutions using telerehabilitation methods have limitations on addressing these accessibility problems, and no clear conclusion can be drawn on the efficacy of telerehabilitation in enhancing the sustainability of PR outcomes via promoting PA in patients' everyday life. In this work, the authors propose a novel design of sensor-based assistive product with the aim of facilitating PR and promoting PA maintenance in a home-based setting. Prototypes of different levels of fidelity are presented, followed by an evaluation plan for future research directions.
翻訳日:2023-10-25 00:20:46 公開日:2023-10-22
# 多変量時系列予測のためのピラミッド隠れマルコフモデル

Pyramidal Hidden Markov Model For Multivariate Time Series Forecasting ( http://arxiv.org/abs/2310.14341v1 )

ライセンス: Link先を確認
YeXin Huang(参考訳) 隠れマルコフモデル(HMM)は、現在の値と過去の値に基づいて時系列の将来値を予測することができ、様々な種類の時系列を扱うための強力なアルゴリズムである。 多くの研究が先進的手法を用いてHMMの改良を探求し、様々なHMMの開発に繋がった。 これらの研究は、他の高度なアルゴリズムと比較してHMMの競争力の増大を示しているが、その性能に多段階確率的状態を導入することの重要性と影響を認識しているものは少ない。 本研究では,複数段階の確率的状態をキャプチャできるPraamidal Hidden Markov Model (PHMM)を提案する。 当初、多段階HMMは、短い多段階確率状態の抽出のために設計されている。 次に、ピラミッドのような積み重ねを利用して長い多段階確率状態を適応的に同定するPHMMに基づく新しい時系列予測構造を提案する。 これら2つのスキームを使用することで,非定常データやノイズデータを効果的に処理できると同時に,より正確で包括的な予測のための長期的な依存関係を確立することができる。 多変量時系列データセットの実験結果は、時系列予測における競合相手と比較して提案したPHMMの優れた性能を確実に実証している。

The Hidden Markov Model (HMM) can predict the future value of a time series based on its current and previous values, making it a powerful algorithm for handling various types of time series. Numerous studies have explored the improvement of HMM using advanced techniques, leading to the development of several variations of HMM. Despite these studies indicating the increased competitiveness of HMM compared to other advanced algorithms, few have recognized the significance and impact of incorporating multistep stochastic states into its performance. In this work, we propose a Pyramidal Hidden Markov Model (PHMM) that can capture multiple multistep stochastic states. Initially, a multistep HMM is designed for extracting short multistep stochastic states. Next, a novel time series forecasting structure is proposed based on PHMM, which utilizes pyramid-like stacking to adaptively identify long multistep stochastic states. By employing these two schemes, our model can effectively handle non-stationary and noisy data, while also establishing long-term dependencies for more accurate and comprehensive forecasting. The experimental results on diverse multivariate time series datasets convincingly demonstrate the superior performance of our proposed PHMM compared to its competitive peers in time series forecasting.
翻訳日:2023-10-25 00:20:28 公開日:2023-10-22
# オープンドメインQAのためのマージと検索知識

Merging Generated and Retrieved Knowledge for Open-Domain QA ( http://arxiv.org/abs/2310.14393v1 )

ライセンス: Link先を確認
Yunxiang Zhang, Muhammad Khalifa, Lajanugen Logeswaran, Moontae Lee, Honglak Lee, Lu Wang(参考訳) オープンドメイン質問応答(QA)システムは、しばしば検索モジュールで構築される。 しかし、あるソースからパスを取得することは知識の不足に悩まされることが知られている。 あるいは、大規模言語モデル(LLM)にパラメトリックな知識に基づいてコンテキストパスを生成するように促すことにより、QA性能が向上することが示されている。 しかし、LLMは取得した知識と矛盾するコンテンツを「幻滅させる」傾向がある。 両情報源が支持する回答が正しい可能性が高いという直感に基づいて,より優れたオープンドメインQAフレームワークのための互換性指向の知識統合であるCOMBOを提案し,その2つの情報源を効果的に活用する。 具体的には, 銀適合ラベルを学習した識別器に基づいて, LLM生成パスを抽出したパスと互換性のあるペアにマッチングする。 次に、Fusion-in-Decoderベースのリーダーモデルがパスペアを処理して最終回答に到達する。 実験の結果、COMBOは4つのテスト済みオープンドメインQAベンチマークのうち3つで競合ベースラインを上回っている。 さらに分析した結果,本手法は知識衝突の程度が高いシナリオにおいて有効性を示す。

Open-domain question answering (QA) systems are often built with retrieval modules. However, retrieving passages from a given source is known to suffer from insufficient knowledge coverage. Alternatively, prompting large language models (LLMs) to generate contextual passages based on their parametric knowledge has been shown to improve QA performance. Yet, LLMs tend to "hallucinate" content that conflicts with the retrieved knowledge. Based on the intuition that answers supported by both sources are more likely to be correct, we propose COMBO, a Compatibility-Oriented knowledge Merging for Better Open-domain QA framework, to effectively leverage the two sources of information. Concretely, we match LLM-generated passages with retrieved counterparts into compatible pairs, based on discriminators trained with silver compatibility labels. Then a Fusion-in-Decoder-based reader model handles passage pairs to arrive at the final answer. Experiments show that COMBO outperforms competitive baselines on three out of four tested open-domain QA benchmarks. Further analysis reveals that our proposed framework demonstrates greater efficacy in scenarios with a higher degree of knowledge conflicts.
翻訳日:2023-10-25 00:12:14 公開日:2023-10-22
# クロスドメインHAR:人間活動認識のためのショットトランスファー学習

Cross-Domain HAR: Few Shot Transfer Learning for Human Activity Recognition ( http://arxiv.org/abs/2310.14390v1 )

ライセンス: Link先を確認
Megha Thukral, Harish Haresamudram and Thomas Ploetz(参考訳) IMU(Integrated Inertial Measurement Unit)を備えたスマートフォンやスマートウォッチのユビキタス利用により、人間の活動を簡単に把握できる。 しかし、センサーに基づく人間活動認識(HAR)の特定の応用においては、論理的課題と膨らんだコストにより、特にそのようなデータの地上の真理アノテーションは困難であり、データセットの規模と多様性が制限される。 トランスファーラーニング(Transfer Learning)、すなわち、公開されているラベル付きデータセットを活用して、ターゲットドメインから限られたラベル付きデータを使用して微調整できる有用な表現を学習することで、現代のHARシステムの性能問題を緩和することができる。 しかし、ソースとターゲットの条件の違いが大きすぎる場合や、ターゲットのアプリケーションドメインからのサンプルが少ない場合は失敗する可能性がある。 本稿では,HARデータセットを有効な転送学習に利用するための経済的なアプローチを提案する。 本稿では,教師が学習する自己学習パラダイムに則り,ラベル情報に制限のある活動をより効果的に認識する,新たな伝達学習フレームワークであるCross-Domain HARを紹介する。 センサーの位置やアクティビティの種類など、ソースドメインとターゲットドメイン間の概念的なギャップを埋める。 様々なベンチマークデータセットに対する広範囲な実験的評価を通じて,本手法の有効性を実証した。 また、フレームワークの個々のコンポーネントが下流のパフォーマンスにどのように影響するかを詳細に分析する。

The ubiquitous availability of smartphones and smartwatches with integrated inertial measurement units (IMUs) enables straightforward capturing of human activities. For specific applications of sensor based human activity recognition (HAR), however, logistical challenges and burgeoning costs render especially the ground truth annotation of such data a difficult endeavor, resulting in limited scale and diversity of datasets. Transfer learning, i.e., leveraging publicly available labeled datasets to first learn useful representations that can then be fine-tuned using limited amounts of labeled data from a target domain, can alleviate some of the performance issues of contemporary HAR systems. Yet they can fail when the differences between source and target conditions are too large and/ or only few samples from a target application domain are available, each of which are typical challenges in real-world human activity recognition scenarios. In this paper, we present an approach for economic use of publicly available labeled HAR datasets for effective transfer learning. We introduce a novel transfer learning framework, Cross-Domain HAR, which follows the teacher-student self-training paradigm to more effectively recognize activities with very limited label information. It bridges conceptual gaps between source and target domains, including sensor locations and type of activities. Through our extensive experimental evaluation on a range of benchmark datasets, we demonstrate the effectiveness of our approach for practically relevant few shot activity recognition scenarios. We also present a detailed analysis into how the individual components of our framework affect downstream performance.
翻訳日:2023-10-25 00:11:56 公開日:2023-10-22
# 大規模言語モデルによる感情の主観的認知評価

Evaluating Subjective Cognitive Appraisals of Emotions from Large Language Models ( http://arxiv.org/abs/2310.14389v1 )

ライセンス: Link先を確認
Hongli Zhan, Desmond C. Ong, Junyi Jessy Li(参考訳) 私たちが経験する感情は複雑なプロセスを伴う。生理的な側面に加えて、心理学の研究は、人々が自身の価値観に従って状況を主観的に評価する認知的評価を研究してきた(scherer, 2005)。 したがって、同じ状況は、しばしば異なる感情的な経験をもたらす。 感情の検出は確立された課題であるが、認知的評価の自動予測は今のところ非常に限定的な作業である。 CovidET-Appraisalsは、Redditの241の投稿で、それぞれが自然言語の理論的根拠を持つ24の評価次元を評価する、これまでで最も包括的なデータセットである。 covidet-appraisalsは、大規模な言語モデルの能力(幅広いnlpタスクをこなす)を評価し、認知的評価を自動的に評価し、説明するための理想的なテストベッドを提供する。 最高のモデルではパフォーマンスがよいが、オープンソースのLLMはこのタスクに不足しており、感情的にインテリジェントなモデルの開発において新たな課題が提示されている。 私たちはデータセットをhttps://github.com/honglizhan/covidet-appraisals-publicにリリースします。

The emotions we experience involve complex processes; besides physiological aspects, research in psychology has studied cognitive appraisals where people assess their situations subjectively, according to their own values (Scherer, 2005). Thus, the same situation can often result in different emotional experiences. While the detection of emotion is a well-established task, there is very limited work so far on the automatic prediction of cognitive appraisals. This work fills the gap by presenting CovidET-Appraisals, the most comprehensive dataset to-date that assesses 24 appraisal dimensions, each with a natural language rationale, across 241 Reddit posts. CovidET-Appraisals presents an ideal testbed to evaluate the ability of large language models -- excelling at a wide range of NLP tasks -- to automatically assess and explain cognitive appraisals. We found that while the best models are performant, open-sourced LLMs fall short at this task, presenting a new challenge in the future development of emotionally intelligent models. We release our dataset at https://github.com/honglizhan/CovidET-Appraisals-Public.
翻訳日:2023-10-25 00:11:31 公開日:2023-10-22
# オブジェクト中心の3次元表現を用いた一般化操作ポリシーの学習

Learning Generalizable Manipulation Policies with Object-Centric 3D Representations ( http://arxiv.org/abs/2310.14386v1 )

ライセンス: Link先を確認
Yifeng Zhu, Zhenyu Jiang, Peter Stone, Yuke Zhu(参考訳) GROOTは,オブジェクト中心および3次元先行するロバストポリシーを学習するための模倣学習手法である。 GROOTは、ビジョンベースの操作のための初期訓練条件を超えて一般化するポリシーを構築する。 背景の変化やカメラビューに対して堅牢なオブジェクト中心の3D表現を構築し、トランスフォーマーベースのポリシーを使用してこれらの表現を推論する。 さらに,テスト時に新しいオブジェクトにポリシーを一般化できるセグメンテーション対応モデルを導入する。 総合実験により,シミュレーション環境と実環境の知覚変動に対するgrootポリシーのロバスト性を検証する。 GROOTのパフォーマンスは、背景の変化、カメラ視点シフト、新しいオブジェクトインスタンスの存在に対する一般化に優れており、最先端のエンドツーエンド学習手法とオブジェクト提案に基づくアプローチはどちらも不足している。 我々はまた,実ロボットのgrootポリシーを広範囲に評価し,設定の微妙な変化下での有効性を実証した。 さらなるビデオとモデルの詳細は、付録とプロジェクトのWebサイト(source)で見ることができる。

We introduce GROOT, an imitation learning method for learning robust policies with object-centric and 3D priors. GROOT builds policies that generalize beyond their initial training conditions for vision-based manipulation. It constructs object-centric 3D representations that are robust toward background changes and camera views and reason over these representations using a transformer-based policy. Furthermore, we introduce a segmentation correspondence model that allows policies to generalize to new objects at test time. Through comprehensive experiments, we validate the robustness of GROOT policies against perceptual variations in simulated and real-world environments. GROOT's performance excels in generalization over background changes, camera viewpoint shifts, and the presence of new object instances, whereas both state-of-the-art end-to-end learning methods and object proposal-based approaches fall short. We also extensively evaluate GROOT policies on real robots, where we demonstrate the efficacy under very wild changes in setup. More videos and model details can be found in the appendix and the project website: https://ut-austin-rpl.github.io/GROOT .
翻訳日:2023-10-25 00:11:12 公開日:2023-10-22
# ARCOQ:アラビア語のクローズドな質問データセット

ARCOQ: Arabic Closest Opposite Questions Dataset ( http://arxiv.org/abs/2310.14384v1 )

ライセンス: Link先を確認
Sandra Rizkallah, Amir F. Atiya, and Samir Shaheen(参考訳) 本稿では,アラビア語における最も近い疑問のデータセットを提案する。 データセットは、アラビア語で最初の種類のデータセットである。 無調症検出の側面におけるシステム評価には有益である。 この構造は、英語に対する最も近い反対の質問データセットである研究記録試験(GRE)に類似している。 導入されたデータセットは500の質問で構成され、それぞれがクエリワードを含み、最も近い逆は候補単語のセットの中から決定する必要がある。 各質問は正しい回答に関連付けられている。 データセットの標準分割を開発とテストセットに分割することに加えて、データセットをパブリックに公開します。 さらに本論文は,導入したデータセット上での異なるアラビア語単語埋め込みモデルの性能ベンチマークを提供する。

This paper presents a dataset for closest opposite questions in Arabic language. The dataset is the first of its kind for the Arabic language. It is beneficial for the assessment of systems on the aspect of antonymy detection. The structure is similar to that of the Graduate Record Examination (GRE) closest opposite questions dataset for the English language. The introduced dataset consists of 500 questions, each contains a query word for which the closest opposite needs to be determined from among a set of candidate words. Each question is also associated with the correct answer. We publish the dataset publicly in addition to providing standard splits of the dataset into development and test sets. Moreover, the paper provides a benchmark for the performance of different Arabic word embedding models on the introduced dataset.
翻訳日:2023-10-25 00:10:51 公開日:2023-10-22
# OV-VG:Open-Vocabulary Visual Groundingのベンチマーク

OV-VG: A Benchmark for Open-Vocabulary Visual Grounding ( http://arxiv.org/abs/2310.14374v1 )

ライセンス: Link先を確認
Chunlei Wang, Wenquan Feng, Xiangtai Li, Guangliang Cheng, Shuchang Lyu, Binghao Liu, Lijiang Chen and Qi Zhao(参考訳) オープンボキャブラリー学習は最先端の研究分野として登場し、特に視覚ベースの基礎モデルが広く採用されている。 その主な目的は、定義済みの語彙に包含されない新しい概念を理解することである。 この取り組みの1つの重要な側面は視覚的な接地であり、対応する言語記述に基づいて画像内の特定の領域を特定することを伴う。 現在の基礎モデルは様々な視覚言語タスクに優れていますが、オープン語彙のビジュアルグラウンドに特化しているモデルはありません。 この研究は、新規で挑戦的なOVタスク、すなわちOpen-Vocabulary Visual GroundingとOpen-Vocabulary Phrase Localizationを導入している。 包括的な目的は、言語記述と新しいオブジェクトのローカライゼーションの関連を確立することである。 そこで我々は,7,272 OV-VG 画像と1,000 OV-PL 画像を含む包括的なアノテートベンチマークをキュレートした。 これらの課題に対処するために、既存のオープン語彙オブジェクト検出、VG、フレーズローカライゼーションフレームワークに根ざした様々なベースライン方法論を探索した。 驚いたことに、最先端の手法が様々なシナリオでしばしば失敗することを発見した。 その結果、テキスト画像クエリ選択と言語ガイド機能注意という、2つの重要なコンポーネントを統合する新しいフレームワークを開発した。 これらのモジュールは、新しいカテゴリの認識を促進し、視覚情報と言語情報の整合性を高めるように設計されている。 OV-VG タスク全体にわたってSOTA 性能を継続的に達成するフレームワークの有効性を示す。 さらに、アブレーション研究は、我々の革新的なモデルの有効性のさらなる証拠を提供する。 コードとデータセットはhttps://github.com/cv516Buaa/OV-VGで公開されている。

Open-vocabulary learning has emerged as a cutting-edge research area, particularly in light of the widespread adoption of vision-based foundational models. Its primary objective is to comprehend novel concepts that are not encompassed within a predefined vocabulary. One key facet of this endeavor is Visual Grounding, which entails locating a specific region within an image based on a corresponding language description. While current foundational models excel at various visual language tasks, there's a noticeable absence of models specifically tailored for open-vocabulary visual grounding. This research endeavor introduces novel and challenging OV tasks, namely Open-Vocabulary Visual Grounding and Open-Vocabulary Phrase Localization. The overarching aim is to establish connections between language descriptions and the localization of novel objects. To facilitate this, we have curated a comprehensive annotated benchmark, encompassing 7,272 OV-VG images and 1,000 OV-PL images. In our pursuit of addressing these challenges, we delved into various baseline methodologies rooted in existing open-vocabulary object detection, VG, and phrase localization frameworks. Surprisingly, we discovered that state-of-the-art methods often falter in diverse scenarios. Consequently, we developed a novel framework that integrates two critical components: Text-Image Query Selection and Language-Guided Feature Attention. These modules are designed to bolster the recognition of novel categories and enhance the alignment between visual and linguistic information. Extensive experiments demonstrate the efficacy of our proposed framework, which consistently attains SOTA performance across the OV-VG task. Additionally, ablation studies provide further evidence of the effectiveness of our innovative models. Codes and datasets will be made publicly available at https://github.com/cv516Buaa/OV-VG.
翻訳日:2023-10-25 00:10:43 公開日:2023-10-22
# mope: 言語モデルに対するモデル摂動ベースのプライバシー攻撃

MoPe: Model Perturbation-based Privacy Attacks on Language Models ( http://arxiv.org/abs/2310.14369v1 )

ライセンス: Link先を確認
Marvin Li, Jason Wang, Jeffrey Wang, Seth Neel(参考訳) 最近の研究によると、Large Language Models (LLM) はトレーニングデータに存在する機密情報を意図せずに漏洩させることができる。 本稿では,事前学習された言語モデルのトレーニングデータに含まれるテキストが,モデルパラメータへのホワイトボックスアクセスを与えられた場合に,信頼度の高いモデル摂動(MoPe)を提案する。 mope はパラメータ空間のモデルにノイズを加え、与えられた点 $x$ における対数類似度の低下を測定する。 70ドルから12ドルまでの言語モデル全体で、MoPeは既存の損失ベースの攻撃よりも効果的であり、近年では摂動ベースの手法が提案されている。 また,攻撃成功におけるトレーニングポイントオーダーとモデルサイズの役割についても検討し,実際にヘッセンの痕跡を正確に近似した実証実験を行った。 以上の結果から,抽出可能性を決定するには点の喪失だけでは不十分であることが示唆された。 これは、記憶や未学習の証拠としてポイントの喪失を使用する先行作品に疑問を投げかける。

Recent work has shown that Large Language Models (LLMs) can unintentionally leak sensitive information present in their training data. In this paper, we present Model Perturbations (MoPe), a new method to identify with high confidence if a given text is in the training data of a pre-trained language model, given white-box access to the models parameters. MoPe adds noise to the model in parameter space and measures the drop in log-likelihood at a given point $x$, a statistic we show approximates the trace of the Hessian matrix with respect to model parameters. Across language models ranging from $70$M to $12$B parameters, we show that MoPe is more effective than existing loss-based attacks and recently proposed perturbation-based methods. We also examine the role of training point order and model size in attack success, and empirically demonstrate that MoPe accurately approximate the trace of the Hessian in practice. Our results show that the loss of a point alone is insufficient to determine extractability -- there are training points we can recover using our method that have average loss. This casts some doubt on prior works that use the loss of a point as evidence of memorization or unlearning.
翻訳日:2023-10-25 00:10:14 公開日:2023-10-22
# バイエンコーダに基づく種正規化 -- ペアワイズな文章のランク付け

Bi-Encoders based Species Normalization -- Pairwise Sentence Learning to Rank ( http://arxiv.org/abs/2310.14366v1 )

ライセンス: Link先を確認
Zainab Awan, Tim Kahlke, Peter Ralph and Paul Kennedy(参考訳) モチベーション(Motivation: Biomedical Name-entity normalization)とは、生物の様々な分野にまたがるデータ統合を容易にするために、生物医学的な実体と異なるデータベース識別子を結びつけることである。 既存の生物医学的実体正規化システムは辞書、手動で作成した規則、語彙的または形態的特徴のような質の高い代表的特徴に大きく依存している。 しかし、近年の研究では、辞書、手作業による規則、特徴への依存を減らすためにニューラルネットワークベースのモデルの使用が研究されている。 これらの進歩にもかかわらず、十分な大規模なトレーニングデータセットがないため、これらのモデルのパフォーマンスはまだ限られている。 これらのモデルは、小さなトレーニングコーパスに過度に適合する傾向があり、以前は目に見えないエンティティに直面すると一般化が不十分であり、ルールや特徴の再設計を必要とする。 コントリビューション: 名前付きエンティティ正規化のための新しい深層学習手法を提案し, 問題をランク付けするペアワイズ学習として扱う。 提案手法では,広く使用されている情報検索アルゴリズムBest Matching 25を用いて候補概念を生成し,次にエンコーダ(BERT)から双方向エンコーダ表現を適用して候補リストを再ランクする。 特に、我々のアプローチは機能エンジニアリングやルール作成の必要性を排除しています。 種実体型に関する実験を行い,linnaeusとs800バイオメディカルコーパスを用いた最先端技術に対する評価を行った。 提案手法は,既存のncbi分類法を超越する手法である。 私たちの知る限りでは、文献に種正規化のためのニューラルネットワークベースのアプローチは存在しません。

Motivation: Biomedical named-entity normalization involves connecting biomedical entities with distinct database identifiers in order to facilitate data integration across various fields of biology. Existing systems for biomedical named entity normalization heavily rely on dictionaries, manually created rules, and high-quality representative features such as lexical or morphological characteristics. However, recent research has investigated the use of neural network-based models to reduce dependence on dictionaries, manually crafted rules, and features. Despite these advancements, the performance of these models is still limited due to the lack of sufficiently large training datasets. These models have a tendency to overfit small training corpora and exhibit poor generalization when faced with previously unseen entities, necessitating the redesign of rules and features. Contribution: We present a novel deep learning approach for named entity normalization, treating it as a pair-wise learning to rank problem. Our method utilizes the widely-used information retrieval algorithm Best Matching 25 to generate candidate concepts, followed by the application of bi-directional encoder representation from the encoder (BERT) to re-rank the candidate list. Notably, our approach eliminates the need for feature-engineering or rule creation. We conduct experiments on species entity types and evaluate our method against state-of-the-art techniques using LINNAEUS and S800 biomedical corpora. Our proposed approach surpasses existing methods in linking entities to the NCBI taxonomy. To the best of our knowledge, there is no existing neural network-based approach for species normalization in the literature.
翻訳日:2023-10-25 00:09:54 公開日:2023-10-22
# 単眼内視鏡画像による洞解剖のDense 3D再構成の定量的評価

A Quantitative Evaluation of Dense 3D Reconstruction of Sinus Anatomy from Monocular Endoscopic Video ( http://arxiv.org/abs/2310.14364v1 )

ライセンス: Link先を確認
Jan Emily Mangulabnan, Roger D. Soberanis-Mukul, Timo Teufel, Isabela Hern\'andez, Jonas Winter, Manish Sahu, Jose L. Porras, S. Swaroop Vedula, Masaru Ishii, Gregory Hager, Russell H. Taylor, Mathias Unberath(参考訳) 内視鏡的画像から正確な3D再構成を生成することは,副鼻腔解剖と手術成績の経時的放射線フリー解析に有望な道である。 運動型アルゴリズムを用いた相対カメラポーズの検索と単眼深度推定の融合により, 視覚的に快適な3次元解剖学的構造を創る手法がいくつか提案されている。 しかしながら、基礎となるアルゴリズムと内視鏡的シーンの複雑な特性のため、再構成パイプラインは不調か予期しないほど失敗する可能性がある。 さらに、医療データを取得することで、これらのモデルの定量的なベンチマーク、障害ケースの理解、正確性に寄与する重要なコンポーネントの特定に困難が生じる。 そこで本研究では, 光学追跡法と高分解能ct法を併用した内視鏡像を用いて, 副鼻腔再建術の自己教師ありアプローチの定量的解析を行った。 以上の結果より, 得られた再建は解剖学的に高い一致を示し, 再建とCTのセグメンテーションの間に平均0.91mmの誤差が生じることがわかった。 しかし,内視鏡の追跡とナビゲーションに関連するポイント・ツー・ポイントマッチングのシナリオでは,平均目標登録誤差が6.58mmであった。 提案手法では,この誤差にポーズと深さ推定の不正確さが等しく寄与し,より短い軌跡を持つ局所的に一貫したシーケンスがより正確な再構成をもたらすことを確認した。 これらの結果は、相対カメラのポーズと解剖学による推定深度とのグローバルな整合性を達成することが重要であることを示唆している。 これにより、パイプラインのすべてのコンポーネント間の適切な相乗効果を確保でき、この革新的な技術の臨床応用を促進することができる。

Generating accurate 3D reconstructions from endoscopic video is a promising avenue for longitudinal radiation-free analysis of sinus anatomy and surgical outcomes. Several methods for monocular reconstruction have been proposed, yielding visually pleasant 3D anatomical structures by retrieving relative camera poses with structure-from-motion-type algorithms and fusion of monocular depth estimates. However, due to the complex properties of the underlying algorithms and endoscopic scenes, the reconstruction pipeline may perform poorly or fail unexpectedly. Further, acquiring medical data conveys additional challenges, presenting difficulties in quantitatively benchmarking these models, understanding failure cases, and identifying critical components that contribute to their precision. In this work, we perform a quantitative analysis of a self-supervised approach for sinus reconstruction using endoscopic sequences paired with optical tracking and high-resolution computed tomography acquired from nine ex-vivo specimens. Our results show that the generated reconstructions are in high agreement with the anatomy, yielding an average point-to-mesh error of 0.91 mm between reconstructions and CT segmentations. However, in a point-to-point matching scenario, relevant for endoscope tracking and navigation, we found average target registration errors of 6.58 mm. We identified that pose and depth estimation inaccuracies contribute equally to this error and that locally consistent sequences with shorter trajectories generate more accurate reconstructions. These results suggest that achieving global consistency between relative camera poses and estimated depths with the anatomy is essential. In doing so, we can ensure proper synergy between all components of the pipeline for improved reconstructions that will facilitate clinical application of this innovative technology.
翻訳日:2023-10-25 00:09:29 公開日:2023-10-22
# chatgptはジオコーディングのためのゲームチェンジャーか - ジオコーディングアドレス解析テクニックのベンチマーク

Is ChatGPT a game changer for geocoding -- a benchmark for geocoding address parsing techniques ( http://arxiv.org/abs/2310.14360v1 )

ライセンス: Link先を確認
Zhengcong Yin, Diya Li, Daniel W. Goldberg(参考訳) トポニーミー認識を含む様々なタスクにおけるGPTモデルの顕著な成功は、ジオコーディングアドレス解析タスクにおけるGPT-3モデルの性能を評価する動機となる。 そこで本研究では,実運用中のジオコーディングシステムの実際の入力ログからマイニングした人間の入力パターンに基づいて合成された低品質アドレス記述のベンチマークデータセットを提案する。 このデータセットには21の異なる入力エラーとバリエーションがあり、米国50州とワシントンD.C.の通りから一意に選択された239,000以上のアドレス記録が含まれており、トレーニング、検証、テストセットとして使用される3つのサブセットで構成されている。 そこで我々は,GPT-3モデルを用いてアドレス成分抽出の性能をトレーニングし,その性能をトランスフォーマモデルとLSTMモデルと対比する。 評価結果から,両方向LSTM-CRFモデルは,これらのトランスモデルとGPT-3モデルよりも優れた性能を示した。 トランスフォーマーベースのモデルは、双方向LSTM-CRFモデルと非常によく似た結果を示す。 GPT-3モデルは性能に追随するが、いくつかの例でアドレス解析タスクのポテンシャルを示し、追加の微調整による改善の余地を示す。 このベンチマークのコードとデータをオープンソースにして、研究者が将来のモデル開発に利用したり、ドキュメントジオコーディングのような同様のタスクを評価するために拡張したりできるようにします。

The remarkable success of GPT models across various tasks, including toponymy recognition motivates us to assess the performance of the GPT-3 model in the geocoding address parsing task. To ensure that the evaluation more accurately mirrors performance in real-world scenarios with diverse user input qualities and resolve the pressing need for a 'gold standard' evaluation dataset for geocoding systems, we introduce a benchmark dataset of low-quality address descriptions synthesized based on human input patterns mining from actual input logs of a geocoding system in production. This dataset has 21 different input errors and variations; contains over 239,000 address records that are uniquely selected from streets across all U.S. 50 states and D.C.; and consists of three subsets to be used as training, validation, and testing sets. Building on this, we train and gauge the performance of the GPT-3 model in extracting address components, contrasting its performance with transformer-based and LSTM-based models. The evaluation results indicate that Bidirectional LSTM-CRF model has achieved the best performance over these transformer-based models and GPT-3 model. Transformer-based models demonstrate very comparable results compared to the Bidirectional LSTM-CRF model. The GPT-3 model, though trailing in performance, showcases potential in the address parsing task with few-shot examples, exhibiting room for improvement with additional fine-tuning. We open source the code and data of this presented benchmark so that researchers can utilize it for future model development or extend it to evaluate similar tasks, such as document geocoding.
翻訳日:2023-10-25 00:08:58 公開日:2023-10-22
# ConViViT - 人間の活動認識のための畳み込みと因子化された自己認識を組み合わせたディープニューラルネットワーク

ConViViT -- A Deep Neural Network Combining Convolutions and Factorized Self-Attention for Human Activity Recognition ( http://arxiv.org/abs/2310.14416v1 )

ライセンス: Link先を確認
Rachid Reda Dokkar, Faten Chaieb, Hassen Drira and Arezki Aberkane(参考訳) Transformerアーキテクチャは、長距離依存の一般化とキャプチャ能力のため、コンピュータビジョンタスクにおいて大きな人気を集めている。 この特徴はビデオから時空間トークンを生成するのに適している。 一方、畳み込みは画像や動画を処理するための基本的なバックボーンとなり、小さな地域内の情報を効率的に集約し、ビデオの空間的次元を記述する空間的トークンを作成する。 CNNベースのアーキテクチャと純粋なトランスフォーマーアーキテクチャの両方が研究者によって広く研究され、利用されているが、これらの2つのバックボーンの効果的な組み合わせは、活動認識の分野では同等の注目を集めていない。 本研究では,RGBビデオを用いた行動認識のためのハイブリッドアーキテクチャにおいて,CNNとトランスフォーマーの長所を生かした新しい手法を提案する。 具体的には,cnnネットワークを用いて128チャンネルのビデオを生成し,その動作を背景から効果的に分離することを提案する。 その後、cnnモジュールの出力は、時空間トークンを抽出するためにトランスに供給され、分類の目的で使用される。 我々のアーキテクチャは, HMDB51, UCF101, ETRI-Activity3Dで90.05 \%, 99.6\%, 95.09\%のSOTA結果を得た。

The Transformer architecture has gained significant popularity in computer vision tasks due to its capacity to generalize and capture long-range dependencies. This characteristic makes it well-suited for generating spatiotemporal tokens from videos. On the other hand, convolutions serve as the fundamental backbone for processing images and videos, as they efficiently aggregate information within small local neighborhoods to create spatial tokens that describe the spatial dimension of a video. While both CNN-based architectures and pure transformer architectures are extensively studied and utilized by researchers, the effective combination of these two backbones has not received comparable attention in the field of activity recognition. In this research, we propose a novel approach that leverages the strengths of both CNNs and Transformers in an hybrid architecture for performing activity recognition using RGB videos. Specifically, we suggest employing a CNN network to enhance the video representation by generating a 128-channel video that effectively separates the human performing the activity from the background. Subsequently, the output of the CNN module is fed into a transformer to extract spatiotemporal tokens, which are then used for classification purposes. Our architecture has achieved new SOTA results with 90.05 \%, 99.6\%, and 95.09\% on HMDB51, UCF101, and ETRI-Activity3D respectively.
翻訳日:2023-10-25 00:02:40 公開日:2023-10-22
# 自律走行・インテリジェント交通システムにおける視覚言語モデル

Vision Language Models in Autonomous Driving and Intelligent Transportation Systems ( http://arxiv.org/abs/2310.14414v1 )

ライセンス: Link先を確認
Xingcheng Zhou, Mingyu Liu, Bare Luka Zagar, Ekim Yurtsever, Alois C. Knoll(参考訳) 自律運転(AD)とインテリジェントトランスポーテーションシステム(ITS)の分野における視覚言語モデル(VLM)の適用は、その卓越した性能と大規模言語モデル(LLM)を活用する能力により、広く注目を集めている。 言語データを統合することで、車両や交通システムは現実世界の環境を深く理解し、運転の安全性と効率を向上させることができる。 本研究では,この領域における言語モデルの発展について,現在のモデルとデータセットを包括的に調査する。 さらに,応用の可能性や研究の方向性についても検討する。 最後に,課題と研究のギャップを徹底的に議論する。 本研究の目的は,AD と ITS における VLM の現状と今後の動向を研究者に提供することである。

The applications of Vision-Language Models (VLMs) in the fields of Autonomous Driving (AD) and Intelligent Transportation Systems (ITS) have attracted widespread attention due to their outstanding performance and the ability to leverage Large Language Models (LLMs). By integrating language data, the vehicles, and transportation systems are able to deeply understand real-world environments, improving driving safety and efficiency. In this work, we present a comprehensive survey of the advances in language models in this domain, encompassing current models and datasets. Additionally, we explore the potential applications and emerging research directions. Finally, we thoroughly discuss the challenges and research gap. The paper aims to provide researchers with the current work and future trends of VLMs in AD and ITS.
翻訳日:2023-10-25 00:02:16 公開日:2023-10-22
# データ拡張: Answer Set Programmingを取り入れたインダクティブ・インダクティブ・インダクティブ・アプローチ

Data Augmentation: a Combined Inductive-Deductive Approach featuring Answer Set Programming ( http://arxiv.org/abs/2310.14413v1 )

ライセンス: Link先を確認
Pierangela Bruno, Francesco Calimeri, Cinzia Marte and Simona Perri(参考訳) 例えば、医学や医療の分野では、いくつかのアプリケーションは適切な画像の巨大なデータセットを構築する必要があるが、そのような画像の取得は、しばしば異なる理由(例えば、アクセシビリティ、コスト、病理学に関連した変数)のために困難であり、制限され、通常は不均衡なデータセットを引き起こす。 したがって、高度なデータ拡張技術による写真リアル画像の合成の必要性が重要となる。 本稿では,この問題に対するハイブリッドな帰納的帰納的アプローチを提案する。特に,限定された実ラベル付き画像から,ドメイン知識と特定のデシダータの両方から生じる制約を満たすことを保証した,新しい画像の構造を宣言的に指定するための論理プログラムを利用する。 得られたラベル付き画像はDeep Learningに基づいて専用プロセスを実行し、生成されたラベルに準拠した写真リアル画像を作成する。

Although the availability of a large amount of data is usually given for granted, there are relevant scenarios where this is not the case; for instance, in the biomedical/healthcare domain, some applications require to build huge datasets of proper images, but the acquisition of such images is often hard for different reasons (e.g., accessibility, costs, pathology-related variability), thus causing limited and usually imbalanced datasets. Hence, the need for synthesizing photo-realistic images via advanced Data Augmentation techniques is crucial. In this paper we propose a hybrid inductive-deductive approach to the problem; in particular, starting from a limited set of real labeled images, the proposed framework makes use of logic programs for declaratively specifying the structure of new images, that is guaranteed to comply with both a set of constraints coming from the domain knowledge and some specific desiderata. The resulting labeled images undergo a dedicated process based on Deep Learning in charge of creating photo-realistic images that comply with the generated label.
翻訳日:2023-10-25 00:02:03 公開日:2023-10-22
# 固体イオン輸送のための新しい準粒子法

A Novel Quasiparticle Method for Solid State Ion Transport ( http://arxiv.org/abs/2310.14405v1 )

ライセンス: Link先を確認
Jiaming Hu(参考訳) 固体電子工学と結晶格子振動で大きな成功を収めた準粒子法を固体イオン輸送の研究に応用した。 従来の固体イオン系と短距離イオンイオン反発を準粒子量子系にマッピングするための一般的なレシピが提案され、そこでは一般的な固体イオン問題を研究するための単純な密結合モデルが設定されている。 誘導されるイオン固有状態と輸送は、自然に結合した挙動を組み込むことができる。 イオン伝導性に及ぼす移動イオンドーピングの影響をイオン-イオンクーロン相互作用の平均場式で明らかにし,超イオン伝導機構を明らかにする。 同様のトリックはイオン電子干渉に由来するオンサーガー輸送の研究にも応用される。 いわゆる高エントロピー機構(high-entropy mechanism)も研究され、格子乱れや多点パーコレーションがイオン伝導度を増加させる効果を示す。 本手法は固体イオン輸送の理解と研究のための新しい枠組みを提供することが期待される。

The quasiparticle method, which has achieved a great success in solid state electronics and crystal lattice vibration, is adopted to study the solid state ion transport. A general recipe is put forward to map the classical solid state ion system together with the short-range ion-ion repulsion to a quasiparticle quantum system based on which simple tight-binding models are set up to study popular solid state ionic issues. The derived ionic eigen-states and transport can naturally incorporate the concerted behavior. The influence of mobile ion doping to ionic conductivity is investigated by an explicit mean-field expression of ion-ion Coulomb interaction to reveal the mechanism of super-ionic conduction. Similar trick is also applied to study the the Onsager transport originated from ion-electron interference. The so called high-entropy mechanism is also explored where the lattice random distorsion and multi-site percolation exhibit positive influence to increase ionic conductivity. Our method is expected to provide a novel framework to understand and study the solid state ion transport.
翻訳日:2023-10-25 00:01:44 公開日:2023-10-22
# 利己的だが賢明な:混合動機的人間-エージェント間相互作用におけるエージェントパーソナリティの影響の調査

Be Selfish, But Wisely: Investigating the Impact of Agent Personality in Mixed-Motive Human-Agent Interactions ( http://arxiv.org/abs/2310.14404v1 )

ライセンス: Link先を確認
Kushal Chawla, Ian Wu, Yu Rong, Gale M. Lucas, Jonathan Gratch(参考訳) 対話システムを設計する自然な方法は、人間と人間の対話データを模倣するように設計された模擬ユーザと対話することで、パフォーマンスを最大化するエージェントを訓練することである。 この手順は先行研究で採用されているが、基本的に欠陥のあるシステムとなり、交渉における妥協の価値を学習できず、しばしば合意を得られず(つまり、契約なしで立ち去るパートナー)、最終的にモデル全体のパフォーマンスを損なうことが判明した。 本研究は,本, 帽子, ボールに関する多問題交渉であるDealOrNoDealタスクの文脈で, この観察を考察する。 経済学からの交渉理論を基礎として,多様な人格を持つエージェントをデザインし,そのパフォーマンスを人間のパートナーと分析する方法を2つの新しい方法で修正した。 どちらの手法も有望性を示すが、自尊心のあるエージェントは、自己と交渉相手の両方に価値を生み出すことを暗黙的に学習することで、自身のパフォーマンスを最大化し、歩行を回避し、他の変種よりも優れている。 我々は,交渉対話システムの成功の意義と,これらのシステムを今後どのように設計すべきかを考察する。

A natural way to design a negotiation dialogue system is via self-play RL: train an agent that learns to maximize its performance by interacting with a simulated user that has been designed to imitate human-human dialogue data. Although this procedure has been adopted in prior work, we find that it results in a fundamentally flawed system that fails to learn the value of compromise in a negotiation, which can often lead to no agreements (i.e., the partner walking away without a deal), ultimately hurting the model's overall performance. We investigate this observation in the context of the DealOrNoDeal task, a multi-issue negotiation over books, hats, and balls. Grounded in negotiation theory from Economics, we modify the training procedure in two novel ways to design agents with diverse personalities and analyze their performance with human partners. We find that although both techniques show promise, a selfish agent, which maximizes its own performance while also avoiding walkaways, performs superior to other variants by implicitly learning to generate value for both itself and the negotiation partner. We discuss the implications of our findings for what it means to be a successful negotiation dialogue system and how these systems should be designed in the future.
翻訳日:2023-10-25 00:01:26 公開日:2023-10-22
# O3D:大規模言語モデルを用いた逐次決定処理のためのオフラインデータ駆動探索と蒸留

O3D: Offline Data-driven Discovery and Distillation for Sequential Decision-Making with Large Language Models ( http://arxiv.org/abs/2310.14403v1 )

ライセンス: Link先を確認
Yuchen Xiao, Yanchao Sun, Mengda Xu, Udari Madhushani, Jared Vann, Deepeka Garg, Sumitra Ganesh(参考訳) 大規模言語モデル(LLM)の最近の進歩は、逐次意思決定問題を解決する上で有望な性能を示した。 プロンプト(インコンテキストラーニング)で提供される少数の例を模倣することで、LLMエージェントは外部環境と対話し、追加のトレーニングなしでタスクを完了させることができる。 しかし、このような少数の例は複雑で長い水平タスクの高品質な解を生成するには不十分であるが、限られた文脈長はより大規模な実演を消費することができない。 そこで本研究では,大規模なオフラインデータ(例えば人間との対話ログ)を利用して,LLMエージェントのテキスト内学習性能を向上させるオフライン学習フレームワークを提案する。 テキストベースのアプローチとコードベースのアプローチの両方で,LSMによるポリシーを正式に定義する。 次に、細調整なしでLCMによるポリシーを改善するために、オフラインデータ駆動型ディスカバリー・蒸留(O3D)フレームワークを導入する。 O3Dは、再利用可能なスキルを自動的に発見し、オフラインインタラクションデータに基づいて複数のタスクにまたがる一般化可能な知識を蒸留し、下流タスクを解く能力を向上させる。 2つの対話型意思決定ベンチマーク(ALFWorldとWebShop)による実証的な結果から、O3Dはオフラインの発見と蒸留プロセスを通じてLCMの意思決定能力を顕著に向上し、テキストベースのポリティクスとコードベースのポリティクスの両方で、様々なLCMのベースラインを一貫して上回ることを示した。

Recent advancements in large language models (LLMs) have exhibited promising performance in solving sequential decision-making problems. By imitating few-shot examples provided in the prompts (i.e., in-context learning), an LLM agent can interact with an external environment and complete given tasks without additional training. However, such few-shot examples are often insufficient to generate high-quality solutions for complex and long-horizon tasks, while the limited context length cannot consume larger-scale demonstrations. To this end, we propose an offline learning framework that utilizes offline data at scale (e.g, logs of human interactions) to facilitate the in-context learning performance of LLM agents. We formally define LLM-powered policies with both text-based approaches and code-based approaches. We then introduce an Offline Data-driven Discovery and Distillation (O3D) framework to improve LLM-powered policies without finetuning. O3D automatically discovers reusable skills and distills generalizable knowledge across multiple tasks based on offline interaction data, advancing the capability of solving downstream tasks. Empirical results under two interactive decision-making benchmarks (ALFWorld and WebShop) demonstrate that O3D can notably enhance the decision-making capabilities of LLMs through the offline discovery and distillation process, and consistently outperform baselines across various LLMs with both text-based-policy and code-based-policy.
翻訳日:2023-10-25 00:01:02 公開日:2023-10-22
# グラッピング支援の意義

Value of Assistance for Grasping ( http://arxiv.org/abs/2310.14402v1 )

ライセンス: Link先を確認
Mohammad Masarwy, Yuval Goshen, David Dovrat and Sarah Keren(参考訳) 多くの現実的な環境では、ロボットは正確なポーズを知らずに物体をつかむタスクを負う。 その代わりに、ロボットはポーズの確率的推定に依存して、把握を試みる方法を決定する。 我々は,ロボットが把握を成功させる能力に対して,特定の観察が期待する効果を評価するために,新しいVOA(Value of Assistance)尺度を提供する。 したがって、VOAは、センシングアクションが把握タスクに最も有益である決定を支持する。 シミュレーションと実世界のロボット環境における評価を行った。

In many realistic settings, a robot is tasked with grasping an object without knowing its exact pose. Instead, the robot relies on a probabilistic estimation of the pose to decide how to attempt the grasp. We offer a novel Value of Assistance (VOA) measure for assessing the expected effect a specific observation will have on the robot's ability to successfully complete the grasp. Thus, VOA supports the decision of which sensing action would be most beneficial to the grasping task. We evaluate our suggested measures in both simulated and real-world robotic settings.
翻訳日:2023-10-25 00:00:38 公開日:2023-10-22
# マスク付き生成画像変換器のパイトーチ再生

A Pytorch Reproduction of Masked Generative Image Transformer ( http://arxiv.org/abs/2310.14400v1 )

ライセンス: Link先を確認
Victor Besnier and Mickael Chen(参考訳) 本稿では,PyTorch を用いた MaskGIT: Masked Generative Image Transformer の再現について述べる。 このアプローチはマスク付き双方向トランスフォーマーアーキテクチャを利用することで、512 x 512の解像度画像に対してわずか数ステップ(8〜16ステップ)のイメージ生成を可能にする。 厳密な実験と最適化により,本論文の成果と密接に一致した結果を得た。 報告された7.32のFIDとレプリケーションを一致させ、ImageNetの解像度512 x 512で同様のハイパーパラメータを持つ7.59を得る。 さらに,若干のハイパーパラメータの微調整による公式実装の改善を行い,FIDの7.26を達成した。 256 x 256ピクセルの解像度では、元の6.18ピクセルと比較して6.80倍になります。 Masked Generative Modelsのさらなる研究を促進し、再現性を促進するため、私たちはhttps://github.com/valeoai/MaskGIT-pytorch/でコードと事前学習したウェイトを公開しました。

In this technical report, we present a reproduction of MaskGIT: Masked Generative Image Transformer, using PyTorch. The approach involves leveraging a masked bidirectional transformer architecture, enabling image generation with only few steps (8~16 steps) for 512 x 512 resolution images, i.e., ~64x faster than an auto-regressive approach. Through rigorous experimentation and optimization, we achieved results that closely align with the findings presented in the original paper. We match the reported FID of 7.32 with our replication and obtain 7.59 with similar hyperparameters on ImageNet at resolution 512 x 512. Moreover, we improve over the official implementation with some minor hyperparameter tweaking, achieving FID of 7.26. At the lower resolution of 256 x 256 pixels, our reimplementation scores 6.80, in comparison to the original paper's 6.18. To promote further research on Masked Generative Models and facilitate their reproducibility, we released our code and pre-trained weights openly at https://github.com/valeoai/MaskGIT-pytorch/
翻訳日:2023-10-25 00:00:30 公開日:2023-10-22
# ロボットのためのシミュレーションなし強化学習フレームワークによるバッグの学習

Learning to bag with a simulation-free reinforcement learning framework for robots ( http://arxiv.org/abs/2310.14398v1 )

ライセンス: Link先を確認
Francisco Munguia-Galeano, Jihong Zhu, Juan David Hern\'andez, Ze Ji(参考訳) バグングは、人間が日常的に行う重要なスキルです。 しかし、バッグのような変形可能な物体はロボットが操作するのに複雑である。 本稿では,ロボットが袋詰めを学習できる効率的な学習フレームワークを提案する。 このフレームワークの目新しさは、シミュレーションに頼らずに袋詰めを行う能力である。 本研究で導入した強化学習アルゴリズムにより,一組のコンパクトな状態表現に基づいて,バッグの最適な把握点を求めることができる。 このフレームワークは一連のプリミティブアクションを使用し、タスクを5つのステートで表現する。 実験では,バッジ作業の折り畳み作業と折り畳み作業の開始にあたり,実世界で約3時間のトレーニングを行った後,その成功率が60%,80%に達した。 最後に,その一般化性を評価するために,さらに2つの異なる大きさの袋でトレーニングモデルをテストした。

Bagging is an essential skill that humans perform in their daily activities. However, deformable objects, such as bags, are complex for robots to manipulate. This paper presents an efficient learning-based framework that enables robots to learn bagging. The novelty of this framework is its ability to perform bagging without relying on simulations. The learning process is accomplished through a reinforcement learning algorithm introduced in this work, designed to find the best grasping points of the bag based on a set of compact state representations. The framework utilizes a set of primitive actions and represents the task in five states. In our experiments, the framework reaches a 60 % and 80 % of success rate after around three hours of training in the real world when starting the bagging task from folded and unfolded, respectively. Finally, we test the trained model with two more bags of different sizes to evaluate its generalizability.
翻訳日:2023-10-25 00:00:11 公開日:2023-10-22
# 正則化軸索を持つボルツマン機械による普遍表現

Universal representation by Boltzmann machines with Regularised Axons ( http://arxiv.org/abs/2310.14395v1 )

ライセンス: Link先を確認
Przemys{\l}aw R. Grzybowski, Antoni Jankiewicz, Eloy Pi\~nol, David Cirauqui, Dorota H. Grzybowska, Pawe{\l} M. Petrykowski, Miguel \'Angel Garc\'ia-March, Maciej Lewenstein, Gorka Mu\~noz-Gil, Alejandro Pozas-Kerstjens(参考訳) ボルツマンマシンは、十分に隠れているニューロンを与えられた可視ニューロンの値に対して任意の確率分布を表現することができることが広く知られている。 しかし、サンプリング、つまりトレーニング -- これらのモデルは数値的に困難である。 近年,Boltzmann マシンの接続を正規化して,モデルのエネルギー環境を制御し,効率的なサンプリングとトレーニングを行う方法を提案する。 ここでは、そのような正規化ボルツマン機械が任意の分布を表現することができることを正式に証明する。 これは、エネルギーローカルミニマの数を制御することで、簡単な \emph{guided}サンプリングとトレーニングを可能にする。 さらに,正規化ボルツマンマシンが指数関数的に多数の相互関係のある可視パターンを完全検索で保存できることを明示的に示し,それらを密結合メモリネットワークに接続する。

It is widely known that Boltzmann machines are capable of representing arbitrary probability distributions over the values of their visible neurons, given enough hidden ones. However, sampling -- and thus training -- these models can be numerically hard. Recently we proposed a regularisation of the connections of Boltzmann machines, in order to control the energy landscape of the model, paving a way for efficient sampling and training. Here we formally prove that such regularised Boltzmann machines preserve the ability to represent arbitrary distributions. This is in conjunction with controlling the number of energy local minima, thus enabling easy \emph{guided} sampling and training. Furthermore, we explicitly show that regularised Boltzmann machines can store exponentially many arbitrarily correlated visible patterns with perfect retrieval, and we connect them to the Dense Associative Memory networks.
翻訳日:2023-10-24 23:59:57 公開日:2023-10-22
# TATA: Topic-Agnostic および Topic-Aware 埋め込みによるスタンス検出

TATA: Stance Detection via Topic-Agnostic and Topic-Aware Embeddings ( http://arxiv.org/abs/2310.14450v1 )

ライセンス: Link先を確認
Hans W. A. Hanley, Zakir Durumeric(参考訳) スタンス検出はインターネット上で異なる態度や信念を理解する上で重要である。 しかし、ある話題に対する節のスタンスがその話題に大きく依存していることを考えると、目に見えないトピックを一般化するスタンス検出モデルの構築は困難である。 本研究は,トピック認識/TAGとトピック認識/TAW埋め込みを下流姿勢検出に用いるために,コントラスト学習と,さまざまなトピックをカバーする未ラベルのニュース記事データセットを使用することを提案する。 これらの埋め込みをフルTATAモデルに組み合わせることで、いくつかのパブリックスタンス検出データセット(Zero-shot VASTデータセットの0.771$F_1$-score)で最先端のパフォーマンスを実現しています。 コードとデータはhttps://github.com/hanshanley/tataでリリースします。

Stance detection is important for understanding different attitudes and beliefs on the Internet. However, given that a passage's stance toward a given topic is often highly dependent on that topic, building a stance detection model that generalizes to unseen topics is difficult. In this work, we propose using contrastive learning as well as an unlabeled dataset of news articles that cover a variety of different topics to train topic-agnostic/TAG and topic-aware/TAW embeddings for use in downstream stance detection. Combining these embeddings in our full TATA model, we achieve state-of-the-art performance across several public stance detection datasets (0.771 $F_1$-score on the Zero-shot VAST dataset). We release our code and data at https://github.com/hanshanley/tata.
翻訳日:2023-10-24 23:51:48 公開日:2023-10-22
# フェアネスを考慮した最適グラフフィルタの設計

Fairness-aware Optimal Graph Filter Design ( http://arxiv.org/abs/2310.14432v1 )

ライセンス: Link先を確認
O. Deniz Kose, Yanning Shen, Gonzalo Mateos(参考訳) グラフは、金融市場やソーシャルネットワークなど、複雑な現実世界の相互接続システムを表現するために使用できる数学的ツールである。 そのため、グラフ上の機械学習(ml)が注目されている。 しかし、ml over graphsは、バイアス付きグラフ構造に対する情報集約によって、さまざまな意思決定問題において、既存の未表示グループに対するバイアスを増幅することが示されている。 この課題に直面した我々は,グラフ信号処理からの洞察を借りて,グラフベース学習におけるバイアス緩和の問題を新たに検討する。 私たちのアイデアは、mlパイプライン内に事前設計されたグラフフィルタを導入することで、新しい教師なしバイアス測度、すなわち機密属性と基盤となるグラフ接続との相関を低減することです。 グラフスペクトル領域における凸問題として,これらのフィルタの最適設計が可能であることを示す。 また,線形計画法(lp)問題を理論バイアス解析により定式化し,閉形式解を求め,より効率的なフェアネス認識グラフフィルタを実現する。 最後に、入力グラフサイズに依存しない自由度を持つ設計の場合、多項式グラフ畳み込みフィルタの族上のバイアス計量を最小化する。 我々の最適フィルタ設計は、有利なフェアネス・ユーティリティ・複雑さトレードオフを探索するための相補的な強度を提供する。 性能評価のために,実世界ネットワーク上でノード分類実験を行った。 本研究の結果から,提案フレームワークは,最先端の公正意識ベースラインと比較して,同等の実用性とともに公正度対策に寄与することが示唆された。

Graphs are mathematical tools that can be used to represent complex real-world interconnected systems, such as financial markets and social networks. Hence, machine learning (ML) over graphs has attracted significant attention recently. However, it has been demonstrated that ML over graphs amplifies the already existing bias towards certain under-represented groups in various decision-making problems due to the information aggregation over biased graph structures. Faced with this challenge, here we take a fresh look at the problem of bias mitigation in graph-based learning by borrowing insights from graph signal processing. Our idea is to introduce predesigned graph filters within an ML pipeline to reduce a novel unsupervised bias measure, namely the correlation between sensitive attributes and the underlying graph connectivity. We show that the optimal design of said filters can be cast as a convex problem in the graph spectral domain. We also formulate a linear programming (LP) problem informed by a theoretical bias analysis, which attains a closed-form solution and leads to a more efficient fairness-aware graph filter. Finally, for a design whose degrees of freedom are independent of the input graph size, we minimize the bias metric over the family of polynomial graph convolutional filters. Our optimal filter designs offer complementary strengths to explore favorable fairness-utility-complexity tradeoffs. For performance evaluation, we conduct extensive and reproducible node classification experiments over real-world networks. Our results show that the proposed framework leads to better fairness measures together with similar utility compared to state-of-the-art fairness-aware baselines.
翻訳日:2023-10-24 23:51:34 公開日:2023-10-22
# ゲーミフィケーションのユーザタイプと学習スタイルに基づくクラスタリング

Clustering Students Based on Gamification User Types and Learning Styles ( http://arxiv.org/abs/2310.14430v1 )

ライセンス: Link先を確認
Emre Arslan, Atilla \"Ozkaymak, Nesrin \"Ozdener D\"onmez(参考訳) 本研究の目的は,データに複数のスケールがある場合に手動で行うことができないクラスタリングにおいて,生徒を新たな視点でグループ化することを目的とした,ゲーミフィケーションのユーザタイプと学習スタイルに基づいて生徒をクラスタリングすることである。 使用されたデータはトルコ国立大学に入学した251人の学生から成っている。 学生をグループ化する際、K平均アルゴリズムはクラスタリングアルゴリズムとして利用されてきた。 ゲーミフィケーションユーザタイプと生徒の学習スタイルを決定するために,ゲーミフィケーションユーザタイプヘキサド尺度とGrasha-Riechmann学習スタイル尺度がそれぞれ使用されている。 シルエット係数はクラスタリング品質尺度として利用される。 アルゴリズムをいくつかの方法で適合させた後、最も高いシルエット係数は0.12であり、結果は中性だが満足できない。 統計処理とデータの視覚化はすべてPythonプログラミング言語を使って行われた。

The aim of this study is clustering students according to their gamification user types and learning styles with the purpose of providing instructors with a new perspective of grouping students in case of clustering which cannot be done by hand when there are multiple scales in data. The data used consists of 251 students who were enrolled at a Turkish state university. When grouping students, K-means algorithm has been utilized as clustering algorithm. As for determining the gamification user types and learning styles of students, Gamification User Type Hexad Scale and Grasha-Riechmann Student Learning Style Scale have been used respectively. Silhouette coefficient is utilized as clustering quality measure. After fitting the algorithm in several ways, highest Silhouette coefficient obtained was 0.12 meaning that results are neutral but not satisfactory. All the statistical operations and data visualizations were made using Python programming language.
翻訳日:2023-10-24 23:51:09 公開日:2023-10-22
# セキュリティ分類タスクにおけるデータセット拡張のためのテキスト生成

Text generation for dataset augmentation in security classification tasks ( http://arxiv.org/abs/2310.14429v1 )

ライセンス: Link先を確認
Alexander P. Welsh and Matthew Edwards(参考訳) コンピュータシステムや通信における悪意のあるコンテンツを検出するために設計されたセキュリティ分類器は、不十分なトレーニングデータを提供すると性能が低下する可能性がある。 セキュリティ領域では、しばしば負の(良性の)クラスのサンプルを見つけるのが簡単であり、効果的な分類器を訓練するために正の(悪質な)クラスの十分なサンプルを見つけるのが困難である。 本研究では,複数のセキュリティ関連テキスト分類タスクにおいて,このデータギャップを埋める自然言語テキスト生成器の適用性を評価する。 本稿では,この目的のために,前例のない言語モデルの微調整手法を多用し,特にトレーニングセットにおける不釣り合いなクラス不均衡の影響について考察する。 攻撃的言語検出, 不正検出, SMSスパム検出のために設計された3つの最先端分類器を用いて評価した結果, GPT-3データ拡張戦略で訓練されたモデルは, 拡張なしで訓練されたモデルと, すでに使用されている基本データ拡張戦略で訓練されたモデルの両方より優れていることがわかった。 特に,GPT-3データ拡張戦略の有意なメリットは,既知の正のクラスサンプルに厳格な制限がある場合にある。

Security classifiers, designed to detect malicious content in computer systems and communications, can underperform when provided with insufficient training data. In the security domain, it is often easy to find samples of the negative (benign) class, and challenging to find enough samples of the positive (malicious) class to train an effective classifier. This study evaluates the application of natural language text generators to fill this data gap in multiple security-related text classification tasks. We describe a variety of previously-unexamined language-model fine-tuning approaches for this purpose and consider in particular the impact of disproportionate class-imbalances in the training set. Across our evaluation using three state-of-the-art classifiers designed for offensive language detection, review fraud detection, and SMS spam detection, we find that models trained with GPT-3 data augmentation strategies outperform both models trained without augmentation and models trained using basic data augmentation strategies already in common usage. In particular, we find substantial benefits for GPT-3 data augmentation strategies in situations with severe limitations on known positive-class samples.
翻訳日:2023-10-24 23:50:54 公開日:2023-10-22
# どのプロンプトが違うのか? 効率的な人間llm評価のためのデータ優先化

Which Prompts Make The Difference? Data Prioritization For Efficient Human LLM Evaluation ( http://arxiv.org/abs/2310.14424v1 )

ライセンス: Link先を確認
Meriem Boubdir, Edward Kim, Beyza Ermis, Marzieh Fadaee, Sara Hooker(参考訳) 人間の評価は、大きな言語モデルの評価、言語的なニュアンスの取得、ユーザの好みの反映にますます重要になっている。 しかし、この種のアノテーションプロセスのリソース集約性は、大きな課題を引き起こします。 モデルを最も効果的に区別するデータインスタンスの優先順位付けによって、ループ内のフィードバックを最小限にすることは可能か? 提案手法は,要求されるアノテーションの数を最小限に抑え,時間とコストを節約し,頑健な性能評価を確実にすることで,人的評価の効率を高めるものである。 提案手法は広く用いられているモデルファミリに対して有効であり,優先度の高いインスタンスの上位20%に着目した場合のランダムサンプルと比較して,不決定性(tie)結果のインスタンスを最大54%削減する。 この人的努力の潜在的な削減は、我々のアプローチを将来の大規模言語モデル評価における貴重な戦略として位置づけている。

Human evaluation is increasingly critical for assessing large language models, capturing linguistic nuances, and reflecting user preferences more accurately than traditional automated metrics. However, the resource-intensive nature of this type of annotation process poses significant challenges. The key question driving our work: "is it feasible to minimize human-in-the-loop feedback by prioritizing data instances which most effectively distinguish between models?" We evaluate several metric-based methods and find that these metrics enhance the efficiency of human evaluations by minimizing the number of required annotations, thus saving time and cost, while ensuring a robust performance evaluation. We show that our method is effective across widely used model families, reducing instances of indecisive (or "tie") outcomes by up to 54% compared to a random sample when focusing on the top-20 percentile of prioritized instances. This potential reduction in required human effort positions our approach as a valuable strategy in future large language model evaluations.
翻訳日:2023-10-24 23:50:32 公開日:2023-10-22
# 分散ディープラーニングのための擬似同期ルール

A Quadratic Synchronization Rule for Distributed Deep Learning ( http://arxiv.org/abs/2310.14423v1 )

ライセンス: Link先を確認
Xinran Gu, Kaifeng Lyu, Sanjeev Arora, Jingzhao Zhang, Longbo Huang(参考訳) データ並列性を備えた分散ディープラーニングでは、トレーニングの各ステップでの勾配の同期は、特に多数のノードが協力して大規模なモデルをトレーニングする場合、大きな通信オーバーヘッドを引き起こす可能性がある。 Local SGDのような局所勾配法は、労働者が他人と同期することなく$H$のステップでローカルに計算できるので、通信頻度が減少する。 最近の研究では、$H$は通信コストの最適化効率を交換するためのハイパーパラメータと見なされているが、適切な$H$を設定することで一般化の改善につながることが示されている。 しかし、適切な$h$を選択することは難しい。 この研究は、Quadratic Synchronization Rule (QSR) と名付けられた、$H$を学習率$\eta$崩壊として$\frac{1}{\eta^2}$に比例して動的に$H$を設定することを提案する。 ResNet と ViT の大規模なイメージネット実験により、QSR を用いた局所勾配法は、他の同期戦略よりもテスト精度を一貫して向上することが示された。 標準的なデータ並列トレーニングと比較して、qsrは、vit-bのローカルadamwが16.7時間から20.2時間、または8.6時間から5.5時間までのトレーニング時間を削減し、同時に1.16\%$または$0.84\%$のtop-1検証精度を達成することができる。

In distributed deep learning with data parallelism, synchronizing gradients at each training step can cause a huge communication overhead, especially when many nodes work together to train large models. Local gradient methods, such as Local SGD, address this issue by allowing workers to compute locally for $H$ steps without synchronizing with others, hence reducing communication frequency. While $H$ has been viewed as a hyperparameter to trade optimization efficiency for communication cost, recent research indicates that setting a proper $H$ value can lead to generalization improvement. Yet, selecting a proper $H$ is elusive. This work proposes a theory-grounded method for determining $H$, named the Quadratic Synchronization Rule (QSR), which recommends dynamically setting $H$ in proportion to $\frac{1}{\eta^2}$ as the learning rate $\eta$ decays over time. Extensive ImageNet experiments on ResNet and ViT show that local gradient methods with QSR consistently improve the test accuracy over other synchronization strategies. Compared with the standard data parallel training, QSR enables Local AdamW on ViT-B to cut the training time on 16 or 64 GPUs down from 26.7 to 20.2 hours or from 8.6 to 5.5 hours and, at the same time, achieves $1.16\%$ or $0.84\%$ higher top-1 validation accuracy.
翻訳日:2023-10-24 23:50:16 公開日:2023-10-22
# 大規模言語モデルは過大評価される

Large Language Models are biased to overestimate profoundness ( http://arxiv.org/abs/2310.14422v1 )

ライセンス: Link先を確認
Eugenio Herrera-Berg, Tom\'as Vergara Browne, Pablo Le\'on-Villagr\'a, Marc-Llu\'is Vives, Cristian Buc Calderon(参考訳) GPT-4のような大規模言語モデル(LLM)による自然言語処理の最近の進歩は、人工知能にアプローチすることを示唆している。 しかし、LLMが人間に類似した推論能力を持っているかどうかはまだ議論が続いている。 本研究は,gpt-4 と他の様々な llm を評価し,ムンタン,モチベーション,疑似生成文の深みを判断する。 その結果, LLM と人間の間には, 文の種類やプロンプト技術によらず, 文間の有意な相関関係が認められた。 しかし、LLM は Tk-インストラクトを除いて、非感覚的ステートメントの深度を体系的に過大評価する。 数発の学習のプロンプトは、チェーン・オブ・シークレットのプロンプトとは対照的に、LLMの格付けを人間に近づける。 さらに、この研究は、人間のフィードバック(rlhf)からの強化学習によって引き起こされる潜在的なバイアスに対する洞察を与え、文の深みを過大評価するバイアスの増加を誘発する。

Recent advancements in natural language processing by large language models (LLMs), such as GPT-4, have been suggested to approach Artificial General Intelligence. And yet, it is still under dispute whether LLMs possess similar reasoning abilities to humans. This study evaluates GPT-4 and various other LLMs in judging the profoundness of mundane, motivational, and pseudo-profound statements. We found a significant statement-to-statement correlation between the LLMs and humans, irrespective of the type of statements and the prompting technique used. However, LLMs systematically overestimate the profoundness of nonsensical statements, with the exception of Tk-instruct, which uniquely underestimates the profoundness of statements. Only few-shot learning prompts, as opposed to chain-of-thought prompting, draw LLMs ratings closer to humans. Furthermore, this work provides insights into the potential biases induced by Reinforcement Learning from Human Feedback (RLHF), inducing an increase in the bias to overestimate the profoundness of statements.
翻訳日:2023-10-24 23:49:43 公開日:2023-10-22
# Monte Carlo Thought Search:触媒設計における複雑な科学的推論のための大規模言語モデルクエリ

Monte Carlo Thought Search: Large Language Model Querying for Complex Scientific Reasoning in Catalyst Design ( http://arxiv.org/abs/2310.14420v1 )

ライセンス: Link先を確認
Henry W. Sprueill, Carl Edwards, Mariefel V. Olarte, Udishnu Sanyal, Heng Ji, Sutanay Choudhury(参考訳) 新規触媒の発見には、複数の化学的性質と結果として生じるトレードオフを含む複雑な推論が必要である。 大規模言語モデル(LLM)は、複雑な命令に従う能力と高品質な推論を通じて化学の新たな能力を実証しているが、LLMを用いたゴール駆動組合せ探索は詳細は明らかにされていない。 そこで本研究では,モンテカルロ木探索に基づくアプローチを提案する。 2つの新しい推論データセットを紹介します 1)計算化学シミュレーションのキュレーション 2)新規な化学変換過程を推理するための触媒研究者による多様な質問。 ベストベースラインを25.8 %改善し、新しい洞察で科学者の推論と発見プロセスを強化することができることを発見した。

Discovering novel catalysts requires complex reasoning involving multiple chemical properties and resultant trade-offs, leading to a combinatorial growth in the search space. While large language models (LLM) have demonstrated novel capabilities for chemistry through complex instruction following capabilities and high quality reasoning, a goal-driven combinatorial search using LLMs has not been explored in detail. In this work, we present a Monte Carlo Tree Search-based approach that improves beyond state-of-the-art chain-of-thought prompting variants to augment scientific reasoning. We introduce two new reasoning datasets: 1) a curation of computational chemistry simulations, and 2) diverse questions written by catalysis researchers for reasoning about novel chemical conversion processes. We improve over the best baseline by 25.8\% and find that our approach can augment scientist's reasoning and discovery process with novel insights.
翻訳日:2023-10-24 23:49:01 公開日:2023-10-22
# ReFER: 説明規則化のためのエンドツーエンドのRationale抽出フレームワーク

REFER: An End-to-end Rationale Extraction Framework for Explanation Regularization ( http://arxiv.org/abs/2310.14418v1 )

ライセンス: Link先を確認
Mohammad Reza Ghasemi Madani, Pasquale Minervini(参考訳) 説明可能な自然言語処理において,人間による注釈付きテキスト説明の重要性が高まっている。 Rationale extractは、タスクモデルの性能を損なうことなく、予測に最も大きな影響を及ぼした入力を強調することにより、忠実(すなわちモデルの振る舞いを反映する)かつ、人間に説得力のある説明を提供することを目的としている。 近年の研究では,課題予測精度と忠実度を協調的に最適化する作業モデルについて,人間のハイライトによる妥当性の最適化に主眼を置いている。 本稿では,理性抽出プロセスを通じてバックプロパゲーションを可能にする,微分可能な理性抽出器を用いたフレームワークREFERを提案する。 タスクモデルと合理化抽出器を共同で訓練することにより,学習中の人間のハイライトが与える影響を分析した。 実験では,in-distributionデータとout-of-distributionデータの両方において,信頼性,信頼性,ダウンストリームタスクの正確性の観点から有意に優れた結果が得られることを示す。 e-snli と cos-e の両方において、我々の最良の設定は、それぞれ 11% と 3% の基準値よりも、複合正規化相対ゲインの点でより良い結果をもたらす。

Human-annotated textual explanations are becoming increasingly important in Explainable Natural Language Processing. Rationale extraction aims to provide faithful (i.e., reflective of the behavior of the model) and plausible (i.e., convincing to humans) explanations by highlighting the inputs that had the largest impact on the prediction without compromising the performance of the task model. In recent works, the focus of training rationale extractors was primarily on optimizing for plausibility using human highlights, while the task model was trained on jointly optimizing for task predictive accuracy and faithfulness. We propose REFER, a framework that employs a differentiable rationale extractor that allows to back-propagate through the rationale extraction process. We analyze the impact of using human highlights during training by jointly training the task model and the rationale extractor. In our experiments, REFER yields significantly better results in terms of faithfulness, plausibility, and downstream task accuracy on both in-distribution and out-of-distribution data. On both e-SNLI and CoS-E, our best setting produces better results in terms of composite normalized relative gain than the previous baselines by 11% and 3%, respectively.
翻訳日:2023-10-24 23:48:41 公開日:2023-10-22
# 高度なAIによる社会規模リスク評価のための国際コンソーシアム

An International Consortium for Evaluations of Societal-Scale Risks from Advanced AI ( http://arxiv.org/abs/2310.14455v1 )

ライセンス: Link先を確認
Ross Gruetzemacher, Alan Chan, Kevin Frazier, Christy Manning, \v{S}t\v{e}p\'an Los, James Fox, Jos\'e Hern\'andez-Orallo, John Burden, Matija Franklin, Cl\'iodhna N\'i Ghuidhir, Mark Bailey, Toby Pilditch, Kyle Kilian(参考訳) AIの高度な進歩とフロンティアAIシステム(AI能力フロンティアの境界を推し進める先進的なAIシステム)からのリスクを踏まえると、AIガバナンスと規制スキームの作成と実装は優先順位付けと実質的な投資に値する。 しかし現状は維持不可能であり、率直に言って危険である。 規制のギャップにより、AIラボは最小限の監視で研究、開発、デプロイメント活動を行うことができた。 これに対し、フロンティアAIシステムの開発と展開のリスクを評価する手段として、フロンティアAIシステム評価が提案されている。 しかし、AIリスク評価エコシステムは、評価者の多様性の制限、努力の最適部分配分、逆インセンティブなど、大きな調整課題に直面している。 本稿では,AI開発者とサードパーティのAIリスク評価者の両方からなる,AIリスク評価のための国際コンソーシアムの形でのソリューションを提案する。 このようなコンソーシアムは、責任あるスケーリングポリシーの管理や評価に基づくリスク対応の調整など、先進的なAIから社会規模のリスクを緩和する国際的な取り組みにおいて重要な役割を果たす可能性がある。 本稿では、現在の評価エコシステムとその欠点を議論し、先進的なaiリスク評価のための国際コンソーシアムを提案し、その実施に関する課題を議論し、以前の国際機関から学べる教訓と国際aiガバナンス機関の既存の提案について議論し、最後に、コンソーシアムの設立を進めるための具体的な手順を推奨する。 (i)利害関係者からのフィードバック (ii)追加調査を行う (iii)利害関係者のためのワークショップを実施します。 (iv)フィードバックを分析し、最終提案を作成する。 (v)募金、及び (vi)コンソーシアムを作成する。

Given rapid progress toward advanced AI and risks from frontier AI systems (advanced AI systems pushing the boundaries of the AI capabilities frontier), the creation and implementation of AI governance and regulatory schemes deserves prioritization and substantial investment. However, the status quo is untenable and, frankly, dangerous. A regulatory gap has permitted AI labs to conduct research, development, and deployment activities with minimal oversight. In response, frontier AI system evaluations have been proposed as a way of assessing risks from the development and deployment of frontier AI systems. Yet, the budding AI risk evaluation ecosystem faces significant coordination challenges, such as a limited diversity of evaluators, suboptimal allocation of effort, and perverse incentives. This paper proposes a solution in the form of an international consortium for AI risk evaluations, comprising both AI developers and third-party AI risk evaluators. Such a consortium could play a critical role in international efforts to mitigate societal-scale risks from advanced AI, including in managing responsible scaling policies and coordinated evaluation-based risk response. In this paper, we discuss the current evaluation ecosystem and its shortcomings, propose an international consortium for advanced AI risk evaluations, discuss issues regarding its implementation, discuss lessons that can be learnt from previous international institutions and existing proposals for international AI governance institutions, and, finally, we recommend concrete steps to advance the establishment of the proposed consortium: (i) solicit feedback from stakeholders, (ii) conduct additional research, (iii) conduct a workshop(s) for stakeholders, (iv) analyze feedback and create final proposal, (v) solicit funding, and (vi) create a consortium.
翻訳日:2023-10-24 23:43:53 公開日:2023-10-22
# 物体検出のためのグリッドアンカー付きスクリッピング特徴ピラミッドネットワーク

Skipped Feature Pyramid Network with Grid Anchor for Object Detection ( http://arxiv.org/abs/2310.14453v1 )

ライセンス: Link先を確認
Li Pengfei, Wei Wei, Yan Yu, Zhu Rong, Zhou Liguo(参考訳) 近年,CNNに基づく物体検出法は大きな進歩を遂げている。 CNNの古典的な構造は、プールや他の再スケール操作のためにピラミッドのような特徴マップを生成する。 特徴ピラミッドの異なるレベルの特徴マップは、異なるスケールのオブジェクトを検出するために使用される。 より正確なオブジェクト検出では、最も解像度が低く、最も強いセマンティクスを含む最高レベルの機能は、上位にスケールされ、下位レベルの機能と接続され、下位レベルの機能におけるセマンティクスを強化する。 しかし、古典的な機能接続モードは、低レベルの機能と上のすべての機能を組み合わせることで、セマンティクスの劣化をもたらす可能性がある。 本稿では,特徴ピラミッドの各レベルにおいて,より強固なセマンティクスを得るためのスキップ接続を提案する。 提案手法では,低レベル機能は高レベルな特徴とのみ接続するので,各レベルが固定スケールの物体を検出する責任を負うのがより合理的である。 さらに,境界ボックス回帰のためのアンカー生成を単純化し,オブジェクト検出の精度をさらに向上させる。 MS COCOとWider Faceの実験は、我々の手法が最先端の手法よりも優れていることを示した。

CNN-based object detection methods have achieved significant progress in recent years. The classic structures of CNNs produce pyramid-like feature maps due to the pooling or other re-scale operations. The feature maps in different levels of the feature pyramid are used to detect objects with different scales. For more accurate object detection, the highest-level feature, which has the lowest resolution and contains the strongest semantics, is up-scaled and connected with the lower-level features to enhance the semantics in the lower-level features. However, the classic mode of feature connection combines the feature of lower-level with all the features above it, which may result in semantics degradation. In this paper, we propose a skipped connection to obtain stronger semantics at each level of the feature pyramid. In our method, the lower-level feature only connects with the feature at the highest level, making it more reasonable that each level is responsible for detecting objects with fixed scales. In addition, we simplify the generation of anchor for bounding box regression, which can further improve the accuracy of object detection. The experiments on the MS COCO and Wider Face demonstrate that our method outperforms the state-of-the-art methods.
翻訳日:2023-10-24 23:43:22 公開日:2023-10-22
# 機械翻訳へのドメイン用語の統合: 大きな言語モデルを活用する

Domain Terminology Integration into Machine Translation: Leveraging Large Language Models ( http://arxiv.org/abs/2310.14451v1 )

ライセンス: Link先を確認
Yasmin Moslem, Gianfranco Romani, Mahdi Molaei, Rejwanul Haque, John D. Kelleher, Andy Way(参考訳) 本稿では,WMT 2023 におけるドイツ語-英語(DE-EN),英語-チェコ語(EN-CS),中国語-英語(ZH-EN)言語対に対する提案手法について述べる。 この課題は、技術用語を正確に翻訳し、究極的には専門分野におけるコミュニケーションと理解を強化するシステムを開発するよう、参加者に挑戦することで機械翻訳(MT)を進めることを目的としている。 そこで,本研究では,合成バイリンガル用語に基づくデータ生成と,mtモデルによって生成された後編集翻訳の2つの目的に対して,大言語モデル(llm)を用いた実験を行う。 当社のシステムは4段階のプロセスを採用しています。 i) LLMを用いて提供される用語に基づいてバイリンガル合成データを生成する。 (II) 汎用エンコーダデコーダMTモデルに、第1ステップで生成された用語に基づく合成データと、元の汎用トレーニングデータのランダムなサンプルデータとを混合して微調整する。 (iii)微調整mtモデルによる翻訳の生成、 (iv)最後に、用語を含まない翻訳の語尾制約付き自動後編集にllmを利用する。 その結果,提案手法が事前承認された語句の翻訳への統合を改善する効果が示された。 ブラインドデータセットの翻訳に含まれる用語の数は、一般的なモデルで平均36.67%から、プロセスの終了までに平均72.88%まで増加する。 言い換えれば、成功した用語の使用率は3つの言語ペアのほぼ2倍になる。

This paper discusses the methods that we used for our submissions to the WMT 2023 Terminology Shared Task for German-to-English (DE-EN), English-to-Czech (EN-CS), and Chinese-to-English (ZH-EN) language pairs. The task aims to advance machine translation (MT) by challenging participants to develop systems that accurately translate technical terms, ultimately enhancing communication and understanding in specialised domains. To this end, we conduct experiments that utilise large language models (LLMs) for two purposes: generating synthetic bilingual terminology-based data, and post-editing translations generated by an MT model through incorporating pre-approved terms. Our system employs a four-step process: (i) using an LLM to generate bilingual synthetic data based on the provided terminology, (ii) fine-tuning a generic encoder-decoder MT model, with a mix of the terminology-based synthetic data generated in the first step and a randomly sampled portion of the original generic training data, (iii) generating translations with the fine-tuned MT model, and (iv) finally, leveraging an LLM for terminology-constrained automatic post-editing of the translations that do not include the required terms. The results demonstrate the effectiveness of our proposed approach in improving the integration of pre-approved terms into translations. The number of terms incorporated into the translations of the blind dataset increases from an average of 36.67% with the generic model to an average of 72.88% by the end of the process. In other words, successful utilisation of terms nearly doubles across the three language pairs.
翻訳日:2023-10-24 23:42:47 公開日:2023-10-22
# デザインの臭いとソフトウェアエンジニアリングの課題の関係に関する質的分析

Qualitative analysis of the relationship between design smells and software engineering challenges ( http://arxiv.org/abs/2310.14449v1 )

ライセンス: Link先を確認
Asif Imran and Tevfik Kosar(参考訳) ソフトウェア設計の負債は、現在の設計欠陥の修正の試みを解明し、ソフトウェアのコストと時間に対するそれらの影響を研究することを目的としている。 デザインの臭いはデザインの負債を引き起こす重要な原因です。 デザインの臭いがデザインの負債に与える影響は、現在の文献では主に考慮されているが、ソフトウェアエンジニアリングのベストプラクティスに従わないためにデザインの臭いが引き起こされるには、より多くの調査が必要である。 本研究は,大量のソースコードを解析することにより,Javaソフトウェアの設計臭い検出に使用するツールを提供する。 具体的には、オープンソースjavaソフトウェアの409,539行(loc)と17,760クラスのファイルを分析します。 その結果, 81.01\%から93.43\%の精度が得られた。 ツールのアウトプットに基づいて、検出された設計の臭いの原因を"不規則なチームミーティング"と"スコープクリープ"という2つのソフトウェアエンジニアリング課題に関連付ける研究を行った。 その結果、得られた情報はソフトウェアエンジニアに設計修復アクションに必要なステップを取るための洞察を与える。

Software design debt aims to elucidate the rectification attempts of the present design flaws and studies the influence of those to the cost and time of the software. Design smells are a key cause of incurring design debt. Although the impact of design smells on design debt have been predominantly considered in current literature, how design smells are caused due to not following software engineering best practices require more exploration. This research provides a tool which is used for design smell detection in Java software by analyzing large volume of source codes. More specifically, 409,539 Lines of Code (LoC) and 17,760 class files of open source Java software are analyzed here. Obtained results show desirable precision values ranging from 81.01\% to 93.43\%. Based on the output of the tool, a study is conducted to relate the cause of the detected design smells to two software engineering challenges namely "irregular team meetings" and "scope creep". As a result, the gained information will provide insight to the software engineers to take necessary steps of design remediation actions.
翻訳日:2023-10-24 23:42:03 公開日:2023-10-22
# URegM: オープンソースクラウドにおけるソフトウェアの臭いをリファクタリングするためのリソース消費の統一予測モデル

URegM: a unified prediction model of resource consumption for refactoring software smells in open source cloud ( http://arxiv.org/abs/2310.14444v1 )

ライセンス: Link先を確認
Asif Imran and Tevfik Kosar(参考訳) 低コストで迅速なプロビジョニング機能により、クラウドは複雑な科学アプリケーションを立ち上げるための望ましいプラットフォームになった。 しかし、クラウド上で実行されるアプリケーションのリソースを最適化することに注力しており、クラウドコンピューティング内部プロセスのリソース利用の最適化に重点が置かれているため、クラウドサービスプロバイダにとってリソース利用の最適化は重要な課題である。 コードのリファクタリングは、ソフトウェアコードのメンテナンスと理解の改善に関連しています。 しかし、クラウドのリファクタリングソースコードの影響を分析し、そのクラウドリソース利用への影響を調べるには、さらなる分析が必要である。 本稿では,コード臭いリファクタリングがクラウドリソース利用に与える影響を予測するフレームワークであるunified regression modelling (uregm)を提案する。 我々は、複雑な科学的応用をワークロードとして、実生活のクラウド環境でテストする。 その結果、URegMはコードの臭いのリファクタリングによるリソース消費を正確に予測できることがわかった。 これにより、クラウドサービスプロバイダは、コードの臭いがリソース消費に与える影響に関する高度な知識を持つことができ、リソースのプロビジョニングとコードのリファクタリングをより効果的に計画できる。

The low cost and rapid provisioning capabilities have made the cloud a desirable platform to launch complex scientific applications. However, resource utilization optimization is a significant challenge for cloud service providers, since the earlier focus is provided on optimizing resources for the applications that run on the cloud, with a low emphasis being provided on optimizing resource utilization of the cloud computing internal processes. Code refactoring has been associated with improving the maintenance and understanding of software code. However, analyzing the impact of the refactoring source code of the cloud and studying its impact on cloud resource usage require further analysis. In this paper, we propose a framework called Unified Regression Modelling (URegM) which predicts the impact of code smell refactoring on cloud resource usage. We test our experiments in a real-life cloud environment using a complex scientific application as a workload. Results show that URegM is capable of accurately predicting resource consumption due to code smell refactoring. This will permit cloud service providers with advanced knowledge about the impact of refactoring code smells on resource consumption, thus allowing them to plan their resource provisioning and code refactoring more effectively.
翻訳日:2023-10-24 23:41:27 公開日:2023-10-22
# EDGE++: EDGEのトレーニングとサンプリングの改善

EDGE++: Improved Training and Sampling of EDGE ( http://arxiv.org/abs/2310.14441v1 )

ライセンス: Link先を確認
Mingyang Wu, Xiaohui Chen, Liping Liu(参考訳) 最近、netgan、cell、 variational graph autoencoderなどのディープニューラルネットワークモデルが進歩しているが、大きなグラフを生成する上でキーグラフ統計を複製する上での限界に直面している。 拡散に基づく手法は有望な代替手段として登場したが、そのほとんどは計算効率と生成性能に課題を呈している。 EDGEは大規模ネットワークのモデリングに有効であるが、現在のデノナイジングアプローチは非効率であり、しばしばその生成過程における無駄な計算資源と潜在的なミスマッチにつながる。 本稿では,これらの問題に対処するためのEDGEモデルの改良を提案する。 具体的には、各時刻におけるアクティブノード数を最適化し、メモリ消費を大幅に削減する等級別ノイズスケジュールを導入する。 さらに、生成過程を微調整し、合成されたネットワークと真のネットワークの類似性をよりよく制御できる改良されたサンプリング方式を提案する。 実験の結果,提案手法は効率を向上させるだけでなく,生成したグラフの精度も向上し,グラフ生成タスクに堅牢でスケーラブルなソリューションを提供することがわかった。

Recently developed deep neural models like NetGAN, CELL, and Variational Graph Autoencoders have made progress but face limitations in replicating key graph statistics on generating large graphs. Diffusion-based methods have emerged as promising alternatives, however, most of them present challenges in computational efficiency and generative performance. EDGE is effective at modeling large networks, but its current denoising approach can be inefficient, often leading to wasted computational resources and potential mismatches in its generation process. In this paper, we propose enhancements to the EDGE model to address these issues. Specifically, we introduce a degree-specific noise schedule that optimizes the number of active nodes at each timestep, significantly reducing memory consumption. Additionally, we present an improved sampling scheme that fine-tunes the generative process, allowing for better control over the similarity between the synthesized and the true network. Our experimental results demonstrate that the proposed modifications not only improve the efficiency but also enhance the accuracy of the generated graphs, offering a robust and scalable solution for graph generation tasks.
翻訳日:2023-10-24 23:41:09 公開日:2023-10-22
# モバイルARの深さ推定 - 課題と展望 - 拡張バージョン

Mobile AR Depth Estimation: Challenges & Prospects -- Extended Version ( http://arxiv.org/abs/2310.14437v1 )

ライセンス: Link先を確認
Ashkan Ganj, Yiqin Zhao, Hang Su, Tian Guo(参考訳) 距離深度推定はモバイル拡張現実(AR)において重要な役割を果たす。 正確な計量深度で、オブジェクト配置や閉塞検出などのより現実的なユーザインタラクションを実現することができる。 LiDARのような特殊なハードウェアはその約束を証明しているが、制限された可用性、すなわち選択されたハイエンドモバイルデバイスのみ、および環境に対する範囲や感度といったパフォーマンス上の制限は、より理想的ではない。 一方、単眼深度の推定は、ユビキタスなモバイルカメラのみに依存しているため、モバイルarにとって有望な代替手段となる。 本稿では,モバイルarにおける正確な距離深度推定を実現するための課題と機会について検討する。 新たに導入されたデータセット(arkitscenes)上で,最先端の4つの深さ推定モデルをテストし,ハードウェア,データ,モデル関連の3つの課題を特定した。 さらに,本研究は今後の課題を探究し,解決する上で有望な方向性を提供する。 これらの方向は (i)モバイルデバイスのカメラや他のセンサから、より多くのハードウェア関連情報を使用すること。 (ii)実世界のarシナリオを反映した高品質なデータ取得 (iii)新しい情報を利用するためのモデルアーキテクチャを設計すること。

Metric depth estimation plays an important role in mobile augmented reality (AR). With accurate metric depth, we can achieve more realistic user interactions such as object placement and occlusion detection. While specialized hardware like LiDAR demonstrates its promise, its restricted availability, i.e., only on selected high-end mobile devices, and performance limitations such as range and sensitivity to the environment, make it less ideal. Monocular depth estimation, on the other hand, relies solely on mobile cameras, which are ubiquitous, making it a promising alternative for mobile AR. In this paper, we investigate the challenges and opportunities of achieving accurate metric depth estimation in mobile AR. We tested four different state-of-the-art monocular depth estimation models on a newly introduced dataset (ARKitScenes) and identified three types of challenges: hard-ware, data, and model related challenges. Furthermore, our research provides promising future directions to explore and solve those challenges. These directions include (i) using more hardware-related information from the mobile device's camera and other available sensors, (ii) capturing high-quality data to reflect real-world AR scenarios, and (iii) designing a model architecture to utilize the new information.
翻訳日:2023-10-24 23:40:27 公開日:2023-10-22
# 半構造ドメインにおける検索付加鎖

Retrieval-Augmented Chain-of-Thought in Semi-structured Domains ( http://arxiv.org/abs/2310.14435v1 )

ライセンス: Link先を確認
Vaibhav Mavi and Abulhair Saparov and Chen Zhao(参考訳) 既存の質問応答(QA)システムを法律や財務といった専門分野に適用することは、ドメインの専門知識を必要とする課題を提示します。 大規模言語モデル(llm)は印象的な言語理解と文脈内学習能力を示しているが、非常に長い入力/コンテキストを扱うことができないことはよく知られている。 これらの領域に固有のタスクは、大きなバックグラウンド知識を必要とするため、既存のLLMが処理できる最大長を超える場合が多い。 本研究は,法律および財務データの半構造化特性を活用し,関連文脈を効率的に検索し,ドメイン特化QAにおけるLLMの利用を可能にすることを目的とする。 結果として得られたシステムは、現代のモデルよりも優れており、また、今後の研究のためにLLMを法的および財政的なNLPシステムに統合することを奨励している。

Applying existing question answering (QA) systems to specialized domains like law and finance presents challenges that necessitate domain expertise. Although large language models (LLMs) have shown impressive language comprehension and in-context learning capabilities, their inability to handle very long inputs/contexts is well known. Tasks specific to these domains need significant background knowledge, leading to contexts that can often exceed the maximum length that existing LLMs can process. This study explores leveraging the semi-structured nature of legal and financial data to efficiently retrieve relevant context, enabling the use of LLMs for domain-specialized QA. The resulting system outperforms contemporary models and also provides useful explanations for the answers, encouraging the integration of LLMs into legal and financial NLP systems for future research.
翻訳日:2023-10-24 23:40:09 公開日:2023-10-22
# ソフトウェアにおけるセキュリティ設計に対する開発者とマネージャの見方

Investigate how developers and managers view security design in software ( http://arxiv.org/abs/2310.14433v1 )

ライセンス: Link先を確認
Asif Imran(参考訳) ソフトウェアセキュリティ要件は、伝統的にソフトウェアの非機能属性とみなされてきた。 しかし、より多くのソフトウェアがオンラインサービスを提供し始めたため、ファイアウォールやその他のハードウェアを使ってソフトウェアをセキュアにするための既存のメカニズムは適用性を失っている。 同時に、現在の世界の状況下では、ソフトウェアに対するサイバー攻撃の増加はますます増加している。 その結果,ソフトウェアの設計におけるセキュリティ要件を考慮することが重要である。 ソフトウェアにおけるセキュリティを設計するには、ソフトウェアの開発者とマネージャの視点を得ることが重要である。 また,セキュリティに関する視点が一致しているか,異なるかを評価することも重要である。 このコミュニケーションを特定のモデルで行うことで、開発者やマネージャはセキュリティ設計に対する疑念を排除し、ソフトウェアにセキュリティを構築する効果的な戦略を採用することができます。 本稿では,セキュリティ設計に対する開発者とマネージャの見解について分析した。 私たちは7人の開発者と2人のマネージャのチームに対してインタビューを行い、彼は2つのチームで実際のソフトウェアプロダクトを開発しました。 我々は,マルウェアによる攻撃が成功した理由に関する見解を入手し,セキュリティについて考慮すべき重要な側面について勧告した。 彼らのフィードバックに基づいて、オープンエンドのレスポンスを4つのコードにコーディングしました。

Software security requirements have been traditionally considered as a non-functional attribute of the software. However, as more software started to provide services online, existing mechanisms of using firewalls and other hardware to secure software have lost their applicability. At the same time, under the current world circumstances, the increase of cyber-attacks on software is ever increasing. As a result, it is important to consider the security requirements of software during its design. To design security in the software, it is important to obtain the views of the developers and managers of the software. Also, it is important to evaluate if their viewpoints match or differ regarding the security. Conducting this communication through a specific model will enable the developers and managers to eliminate any doubts on security design and adopt an effective strategy to build security into the software. In this paper, we analyzed the viewpoints of developers and managers regarding their views on security design. We interviewed a team of 7 developers and 2 managers, who worked in two teams to build a real-life software product that was recently compromised by a cyber-attack. We obtained their views on the reasons for the successful attack by the malware and took their recommendations on the important aspects to consider regarding security. Based on their feedback, we coded their open-ended responses into 4 codes, which we recommended using for other real-life software as well.
翻訳日:2023-10-24 23:39:54 公開日:2023-10-22
# 拡散モデルを用いた密度推定のための生成モデルの教師付き学習

Diffusion-Model-Assisted Supervised Learning of Generative Models for Density Estimation ( http://arxiv.org/abs/2310.14458v1 )

ライセンス: Link先を確認
Yanfang Liu, Minglei Yang, Zezhong Zhang, Feng Bao, Yanzhao Cao, Guannan Zhang(参考訳) 本稿では,密度推定のための学習モデルの教師付き学習フレームワークを提案する。 生成逆数ネットワーク、正規化フロー、変分自動エンコーダを含む生成モデルは、通常、ラベル付きデータが訓練に利用できないため、教師なし学習モデルとみなされる。 生成モデルの成功にもかかわらず、教師なしのトレーニング、例えば可逆的アーキテクチャの要件、勾配の消滅、不安定なトレーニングなど、いくつかの問題がある。 生成モデルにおける教師あり学習を可能にするために,スコアベース拡散モデルを用いてラベル付きデータを生成する。 ニューラルネットワークでスコア関数を学習する既存の拡散モデルとは異なり、トレーニング不要スコア推定法を開発した。 このアプローチは、逆時間確率微分方程式(SDE)に対応する通常の微分方程式(ODE)の解法において、任意の時空間位置でスコア関数を直接近似するために、ミニバッチベースのモンテカルロ推定器を用いる。 このアプローチは、ニューラルネットワークトレーニングにおいて、高精度かつ相当な時間節約を提供する。 ラベル付きデータを生成すると、単純な完全接続ニューラルネットワークをトレーニングして、教師ありの方法で生成モデルを学ぶことができます。 既存の正規化フローモデルと比較して,本手法では可逆ニューラルネットワークを用いる必要はなく,ヤコビ行列の計算を回避できる。 既存の拡散モデルと比較して,新しいサンプルを生成するために逆時間SDEを解く必要はない。 その結果、サンプリング効率が大幅に向上する。 UCIレポジトリの実際のデータだけでなく、2Dデータセットのセットにも適用することで、本手法の性能を実証する。

We present a supervised learning framework of training generative models for density estimation. Generative models, including generative adversarial networks, normalizing flows, variational auto-encoders, are usually considered as unsupervised learning models, because labeled data are usually unavailable for training. Despite the success of the generative models, there are several issues with the unsupervised training, e.g., requirement of reversible architectures, vanishing gradients, and training instability. To enable supervised learning in generative models, we utilize the score-based diffusion model to generate labeled data. Unlike existing diffusion models that train neural networks to learn the score function, we develop a training-free score estimation method. This approach uses mini-batch-based Monte Carlo estimators to directly approximate the score function at any spatial-temporal location in solving an ordinary differential equation (ODE), corresponding to the reverse-time stochastic differential equation (SDE). This approach can offer both high accuracy and substantial time savings in neural network training. Once the labeled data are generated, we can train a simple fully connected neural network to learn the generative model in the supervised manner. Compared with existing normalizing flow models, our method does not require to use reversible neural networks and avoids the computation of the Jacobian matrix. Compared with existing diffusion models, our method does not need to solve the reverse-time SDE to generate new samples. As a result, the sampling efficiency is significantly improved. We demonstrate the performance of our method by applying it to a set of 2D datasets as well as real data from the UCI repository.
翻訳日:2023-10-24 23:29:00 公開日:2023-10-22
# 希少確率定量化のための一般化確率重み付き最適サンプリングアルゴリズム

A generalized likelihood-weighted optimal sampling algorithm for rare-event probability quantification ( http://arxiv.org/abs/2310.14457v1 )

ライセンス: Link先を確認
Xianliang Gong, Yulin Pan(参考訳) そこで本研究では,入力対応答(itr)システムのレアイベント統計を,入力確率と高価な機能評価で効率的に定量化する,逐次サンプリングのための新しい獲得関数を提案する。 我々の買収は、当初同じ目的で設計され、その後他の多くのアプリケーションに拡張された可能性重み付き(LW)買収の一般化である。 提案手法の改良は, 従来のLW獲得の2つの弱点を対象とし, 対処できる2つのパラメータを持つ一般化形式によるものである。(1) 希少応答に関連する入力空間がサンプリングにおいて十分にストレスを受けていないこと, (2) シュロゲートモデル(サンプルから生成される)が真の ItR 関数から大きく逸脱する可能性があること, 特に複雑な ItR 関数と限られたサンプル数の場合。 さらに,モンテカルロにおける離散的な獲得関数の最適化手法を開発し,そのような問題に対する既存手法と比較して,桁違いの高速化を実現する。 従来のLW買収に対する新たな買収の優れたパフォーマンスは、元のLW買収の有効性を示すために設計されたケースを含む、いくつかのテストケースで実証された。 本手法を工学例に適用し,ランダムな海における船舶の異例のロールモーション統計を定量化した。

In this work, we introduce a new acquisition function for sequential sampling to efficiently quantify rare-event statistics of an input-to-response (ItR) system with given input probability and expensive function evaluations. Our acquisition is a generalization of the likelihood-weighted (LW) acquisition that was initially designed for the same purpose and then extended to many other applications. The improvement in our acquisition comes from the generalized form with two additional parameters, by varying which one can target and address two weaknesses of the original LW acquisition: (1) that the input space associated with rare-event responses is not sufficiently stressed in sampling; (2) that the surrogate model (generated from samples) may have significant deviation from the true ItR function, especially for cases with complex ItR function and limited number of samples. In addition, we develop a critical procedure in Monte-Carlo discrete optimization of the acquisition function, which achieves orders of magnitude acceleration compared to existing approaches for such type of problems. The superior performance of our new acquisition to the original LW acquisition is demonstrated in a number of test cases, including some cases that were designed to show the effectiveness of the original LW acquisition. We finally apply our method to an engineering example to quantify the rare-event roll-motion statistics of a ship in a random sea.
翻訳日:2023-10-24 23:28:34 公開日:2023-10-22
# 分散・転送学習によるエッジでのモバイルトラフィック予測

Mobile Traffic Prediction at the Edge through Distributed and Transfer Learning ( http://arxiv.org/abs/2310.14456v1 )

ライセンス: Link先を確認
Alfredo Petrella, Marco Miozzo, Paolo Dini(参考訳) トラフィック予測は、モバイルネットワークをスマートに最適化するための重要なタスクの1つだ。 このトピックにおける研究は、異なるネットワーク要素からデータを収集することで、中央集権的な方法で予測を行うことに集中している。 これは、データ転送と処理に相当量のエネルギーを必要とする。 本研究では,エッジ上で得られたデータセットを大規模計測キャンペーンを通じて活用するエッジコンピューティングに基づく新しい予測フレームワークを提案する。 2つの主要なディープラーニングアーキテクチャは、畳み込みニューラルネットワーク(CNN)とリカレントニューラルネットワーク(RNN)に基づいて設計され、異なるトレーニング条件下でテストされる。 さらに、必要な計算資源を削減しつつ、モデルの性能を向上させるために知識伝達学習(KTL)技術を用いる。 シミュレーションの結果,CNNアーキテクチャはRNNよりも優れていた。 必要なトレーニングエネルギーの推定を行い、それぞれCNNとRNNの60%と90%のモデルのエネルギーフットプリントを削減できるKTL能力を強調した。 最後に、2つの最先端説明可能な人工知能技術を用いて、導出学習モデルを解釈する。

Traffic prediction represents one of the crucial tasks for smartly optimizing the mobile network. The research in this topic concentrated in making predictions in a centralized fashion, i.e., by collecting data from the different network elements. This translates to a considerable amount of energy for data transmission and processing. In this work, we propose a novel prediction framework based on edge computing which uses datasets obtained on the edge through a large measurement campaign. Two main Deep Learning architectures are designed, based on Convolutional Neural Networks (CNNs) and Recurrent Neural Networks (RNNs), and tested under different training conditions. In addition, Knowledge Transfer Learning (KTL) techniques are employed to improve the performance of the models while reducing the required computational resources. Simulation results show that the CNN architectures outperform the RNNs. An estimation for the needed training energy is provided, highlighting KTL ability to reduce the energy footprint of the models of 60% and 90% for CNNs and RNNs, respectively. Finally, two cutting-edge explainable Artificial Intelligence techniques are employed to interpret the derived learning models.
翻訳日:2023-10-24 23:28:09 公開日:2023-10-22
# 知識グラフリンク予測のための検索・読み出しフレームワーク

A Retrieve-and-Read Framework for Knowledge Graph Link Prediction ( http://arxiv.org/abs/2212.09724v3 )

ライセンス: Link先を確認
Vardaan Pahuja, Boshi Wang, Hugo Latapie, Jayanth Srinivasa, Yu Su(参考訳) 知識グラフ(KG)リンク予測は、KGの既存の事実に基づいて新しい事実を推測することを目的としている。 近年の研究では、グラフニューラルネットワーク(GNN)によるノードのグラフ近傍の利用は、単にクエリ情報を使用するよりも有用な情報を提供することが示された。 KGリンク予測のための従来のGNNは、KG全体の標準メッセージパスパラダイムに従い、過剰な計算、ノード表現の過度な平滑化、表現力の制限につながる。 大規模では、推論のためにKG全体から有用な情報を集めるのに計算コストがかかる。 既存のkgリンク予測フレームワークの限界に対処するために,まずクエリの関連するサブグラフコンテキストを検索し,そのコンテキストとクエリを高いキャパシティリーダと共同で理由付けする,新たな検索・読み取りフレームワークを提案する。 そこで我々は,新しいフレームワークのインスタンス化の一環として,グラフベースの注目構造とクエリとコンテキスト間の相互アテンションを組み込んだTransformerベースのGNNをリーダとして提案する。 このシンプルで効果的な設計により、モデルはクエリに関連する適切なコンテキスト情報に集中することができる。 2つの標準KGリンク予測データセットの実験的結果は,提案手法の競合性能を示す。 さらに,この分析は,フレームワーク内で改良されたレトリバーを設計する上で有用な洞察を与える。

Knowledge graph (KG) link prediction aims to infer new facts based on existing facts in the KG. Recent studies have shown that using the graph neighborhood of a node via graph neural networks (GNNs) provides more useful information compared to just using the query information. Conventional GNNs for KG link prediction follow the standard message-passing paradigm on the entire KG, which leads to superfluous computation, over-smoothing of node representations, and also limits their expressive power. On a large scale, it becomes computationally expensive to aggregate useful information from the entire KG for inference. To address the limitations of existing KG link prediction frameworks, we propose a novel retrieve-and-read framework, which first retrieves a relevant subgraph context for the query and then jointly reasons over the context and the query with a high-capacity reader. As part of our exemplar instantiation for the new framework, we propose a novel Transformer-based GNN as the reader, which incorporates graph-based attention structure and cross-attention between query and context for deep fusion. This simple yet effective design enables the model to focus on salient context information relevant to the query. Empirical results on two standard KG link prediction datasets demonstrate the competitive performance of the proposed method. Furthermore, our analysis yields valuable insights for designing improved retrievers within the framework.
翻訳日:2023-10-24 13:57:08 公開日:2023-10-22
# AgentTuning: LLMの汎用エージェント能力の実現

AgentTuning: Enabling Generalized Agent Abilities for LLMs ( http://arxiv.org/abs/2310.12823v2 )

ライセンス: Link先を確認
Aohan Zeng, Mingdao Liu, Rui Lu, Bowen Wang, Xiao Liu, Yuxiao Dong, Jie Tang(参考訳) 様々なタスクにおいて優れた性能を持つオープンな大規模言語モデル(LLM)は、LLMの開発を大幅に進歩させた。 しかし、ChatGPTやGPT-4のような商用モデルでは、現実世界の複雑なタスクに取り組むエージェントとして機能する。 これらのエージェントタスクは、計画、記憶、ツール利用に責任を持つ中心的なコントローラとしてLLMを使用し、良好な性能を達成するために、きめ細かいプロンプト法と堅牢なLLMの両方を必要とする。 特定のエージェントタスクを完了させるために多くのプロンプト法が提案されているが、LLM自体のエージェント能力を改善することに注力する研究は、その一般的な能力を損なうことなくなされている。 本研究では,LLMの汎用能力を維持しつつ,LLMのエージェント能力を向上させる簡易かつ汎用的な手法であるAgentTuningを提案する。 我々は,高品質な対話軌跡を含む軽量な命令チューニングデータセットであるAgentInstructを構築した。 agentinstructと一般ドメインからのオープンソースインストラクションを組み合わせることで,ハイブリッドなインストラクションチューニング戦略を採用している。 AgentTuningはLlama 2シリーズのインストラクション・チューニングに使われ、AgentLMとなった。 評価の結果,AgentTuningは汎用能力を損なうことなくLLMのエージェント機能を実現できることがわかった。 AgentLM-70B は GPT-3.5-turbo に匹敵し、汎用エージェント機能を示す。 Agent Instruct と AgentLM-7B, 13B, 70B のモデルを https://github.com/THUDM/AgentTuning でオープンソース化しました。

Open large language models (LLMs) with great performance in various tasks have significantly advanced the development of LLMs. However, they are far inferior to commercial models such as ChatGPT and GPT-4 when acting as agents to tackle complex tasks in the real world. These agent tasks employ LLMs as the central controller responsible for planning, memorization, and tool utilization, necessitating both fine-grained prompting methods and robust LLMs to achieve satisfactory performance. Though many prompting methods have been proposed to complete particular agent tasks, there is lack of research focusing on improving the agent capabilities of LLMs themselves without compromising their general abilities. In this work, we present AgentTuning, a simple and general method to enhance the agent abilities of LLMs while maintaining their general LLM capabilities. We construct AgentInstruct, a lightweight instruction-tuning dataset containing high-quality interaction trajectories. We employ a hybrid instruction-tuning strategy by combining AgentInstruct with open-source instructions from general domains. AgentTuning is used to instruction-tune the Llama 2 series, resulting in AgentLM. Our evaluations show that AgentTuning enables LLMs' agent capabilities without compromising general abilities. The AgentLM-70B is comparable to GPT-3.5-turbo on unseen agent tasks, demonstrating generalized agent capabilities. We open source the AgentInstruct and AgentLM-7B, 13B, and 70B models at https://github.com/THUDM/AgentTuning, serving open and powerful alternatives to commercial LLMs for agent tasks.
翻訳日:2023-10-24 11:34:35 公開日:2023-10-22
# グラフニューラルネットワークにおける協調的ミニバッチング

Cooperative Minibatching in Graph Neural Networks ( http://arxiv.org/abs/2310.12403v2 )

ライセンス: Link先を確認
Muhammed Fatih Balin, Dominique LaSalle, \"Umit V. \c{C}ataly\"urek(参考訳) グラフニューラルネットワーク(gnn)を大規模にトレーニングするには、重要な計算リソースが必要であり、そのプロセスは高度にデータ集約的である。 リソース要求を減らす最も効果的な方法の1つは、グラフサンプリングと組み合わせたミニバッチトレーニングである。 gnnには、ミニバッチの項目が重複するデータを持つユニークな特性がある。 しかし、一般的に実装されているIndependent Minibatchingアプローチでは、各処理要素(PE)が独自のミニバッチをプロセスに割り当てる。 これは、スケーリングの主なボトルネックである近傍爆発現象(nep)を増幅する。 複数PE設定におけるNEPの効果を低減するため,協調最小化という新しい手法を提案する。 このアプローチでは,サンプリングされたサブグラフのサイズがバッチサイズの凹関数であるという事実を活かし,バッチサイズの増加に伴って種頂点当たりの作業量を大幅に削減する。 したがって、グローバルバッチサイズが同一であっても、より小さなミニバッチを別々に処理するのではなく、大きなミニバッチを単一のプロセッサとして動作させるための高速インターコネクトを備えたプロセッサが望ましい。 また, 連続したミニバッチを生成することで, 連続実行において同じ現象を利用する方法を示す。 実験により, モデル収束を損なうことなく, この依存性を増大させることにより, 頂点埋め込みの帯域幅を最大4倍に抑えることができた。 提案手法を組み合わせることで,単一ノードマルチGPUシステム上でのIndependent Minibatchよりも最大64%の高速化を実現した。

Significant computational resources are required to train Graph Neural Networks (GNNs) at a large scale, and the process is highly data-intensive. One of the most effective ways to reduce resource requirements is minibatch training coupled with graph sampling. GNNs have the unique property that items in a minibatch have overlapping data. However, the commonly implemented Independent Minibatching approach assigns each Processing Element (PE) its own minibatch to process, leading to duplicated computations and input data access across PEs. This amplifies the Neighborhood Explosion Phenomenon (NEP), which is the main bottleneck limiting scaling. To reduce the effects of NEP in the multi-PE setting, we propose a new approach called Cooperative Minibatching. Our approach capitalizes on the fact that the size of the sampled subgraph is a concave function of the batch size, leading to significant reductions in the amount of work per seed vertex as batch sizes increase. Hence, it is favorable for processors equipped with a fast interconnect to work on a large minibatch together as a single larger processor, instead of working on separate smaller minibatches, even though global batch size is identical. We also show how to take advantage of the same phenomenon in serial execution by generating dependent consecutive minibatches. Our experimental evaluations show up to 4x bandwidth savings for fetching vertex embeddings, by simply increasing this dependency without harming model convergence. Combining our proposed approaches, we achieve up to 64% speedup over Independent Minibatching on single-node multi-GPU systems.
翻訳日:2023-10-24 11:32:48 公開日:2023-10-22
# ディスコナンスからインサイトへ:事例アウトカム分類のための集合住宅の解体

From Dissonance to Insights: Dissecting Disagreements in Rationale Construction for Case Outcome Classification ( http://arxiv.org/abs/2310.11878v3 )

ライセンス: Link先を確認
Shanshan Xu, Santosh T.Y.S.S, Oana Ichim, Isabella Risini, Barbara Plank, Matthias Grabmair(参考訳) 法的NLPでは、ケースアウトカム分類(COC)は正確であるだけでなく、信頼性と説明性も必要である。 説明可能なCOCの既存の作業は、単一の専門家によるアノテーションに限定されている。 しかし、弁護士が事件事実の評価に異議を唱えることも知られている。 そこで我々は,国際人権法領域の専門家2人から得られたechr1の合理的な変動に関する新たなデータセットを収集し,弱い合意を遵守する。 それらの不一致を調査し,coc固有のサブカテゴリを補う2段階のタスク非依存分類法を構築した。 我々の知る限り、これは人間のラベルの変化に焦点を当てた法的NLPにおける最初の研究である。 異なる分類群を定量的に評価し,cocメタデータの粒度やノイズを考慮し,法的な文脈を過小に特定することによる不一致が主な原因であることを見出した。 さらに、RAVE上でのSOTA COCモデルの妥当性を評価し、モデルと専門家間の限定的な合意を観察する。 総じて,本事例のケーススタディでは,法的nlpにおけるベンチマークデータセット作成におけるhhertoの不正確さが明らかにされている。

In legal NLP, Case Outcome Classification (COC) must not only be accurate but also trustworthy and explainable. Existing work in explainable COC has been limited to annotations by a single expert. However, it is well-known that lawyers may disagree in their assessment of case facts. We hence collect a novel dataset RAVE: Rationale Variation in ECHR1, which is obtained from two experts in the domain of international human rights law, for whom we observe weak agreement. We study their disagreements and build a two-level task-independent taxonomy, supplemented with COC-specific subcategories. To our knowledge, this is the first work in the legal NLP that focuses on human label variation. We quantitatively assess different taxonomy categories and find that disagreements mainly stem from underspecification of the legal context, which poses challenges given the typically limited granularity and noise in COC metadata. We further assess the explainablility of SOTA COC models on RAVE and observe limited agreement between models and experts. Overall, our case study reveals hitherto underappreciated complexities in creating benchmark datasets in legal NLP that revolve around identifying aspects of a case's facts supposedly relevant to its outcome.
翻訳日:2023-10-24 11:32:21 公開日:2023-10-22
# vechr:欧州人権裁判所における脆弱性タイプの説明可能かつロバストな分類のためのデータセット

VECHR: A Dataset for Explainable and Robust Classification of Vulnerability Type in the European Court of Human Rights ( http://arxiv.org/abs/2310.11368v3 )

ライセンス: Link先を確認
Shanshan Xu, Leon Staufer, Santosh T.Y.S.S, Oana Ichim, Corina Heri, Matthias Grabmair(参考訳) 脆弱性を認識することは,対象とするサポートの理解と実装において極めて重要である。 これは欧州人権裁判所(ECtHR)において特に重要であり、裁判所は条約の基準を実際の個人のニーズに適合させ、それによって効果的な人権保護を確保する。 しかし、脆弱性の概念はECtHRではいまだ解明されておらず、これまでのNLP研究では対応していない。 そこで本研究では,脆弱性型分類と説明的根拠からなる,新たな専門家によるマルチラベルデータセットであるVECHRを提案する。 予測可能性と説明可能性の両方の観点から,VECHRの最先端モデルの性能をベンチマークする。 結果は,予測性能が低く,モデルと専門家の合意が限られているタスクの難易度を示す。 さらに,out-of-domain(ood)データを扱う際のモデルのロバスト性を分析し,全体の性能を観測する。 私たちのデータセットは、パフォーマンス、説明可能性、堅牢性に関する大きな改善の余地を提供するユニークな課題をもたらします。

Recognizing vulnerability is crucial for understanding and implementing targeted support to empower individuals in need. This is especially important at the European Court of Human Rights (ECtHR), where the court adapts Convention standards to meet actual individual needs and thus ensures effective human rights protection. However, the concept of vulnerability remains elusive at the ECtHR and no prior NLP research has dealt with it. To enable future research in this area, we present VECHR, a novel expert-annotated multi-label dataset comprising of vulnerability type classification and explanation rationale. We benchmark the performance of state-of-the-art models on VECHR from both prediction and explainability perspectives. Our results demonstrate the challenging nature of the task with lower prediction performance and limited agreement between models and experts. Further, we analyze the robustness of these models in dealing with out-of-domain (OOD) data and observe overall limited performance. Our dataset poses unique challenges offering significant room for improvement regarding performance, explainability, and robustness.
翻訳日:2023-10-24 11:31:25 公開日:2023-10-22
# 事前学習されたマスキング言語モデルにおける社会的バイアスとタスクパフォーマンスの予測因子分析

A Predictive Factor Analysis of Social Biases and Task-Performance in Pretrained Masked Language Models ( http://arxiv.org/abs/2310.12936v2 )

ライセンス: Link先を確認
Yi Zhou, Jose Camacho-Collados, Danushka Bollegala(参考訳) 様々な社会的バイアスが事前訓練されたマスケッド言語モデル(MLM)によって報告されている。 しかしながら、そのモデルサイズ、トレーニングデータのサイズ、トレーニング対象、事前トレーニングデータのサンプル化されたドメイン、トークン化、プリトレーニングされたコーパスに存在する言語など、複数の下位要素がmlmに関連付けられ、いくつかの名称が与えられる。 MLMが学習した社会的偏見にどのような影響があるのかは、まだ不明である。 モデルファクターとMLMが学習した社会的バイアスとモデル下流タスク性能の関係を検討するため,モデルのサイズ,トレーニング目標,トークン化方法,データドメインのトレーニング,言語を対象とする39の事前学習MLMを総合的に調査した。 我々の結果は、トークン化やモデル目的など、以前の文献で無視される重要な要素に光を当てた。

Various types of social biases have been reported with pretrained Masked Language Models (MLMs) in prior work. However, multiple underlying factors are associated with an MLM such as its model size, size of the training data, training objectives, the domain from which pretraining data is sampled, tokenization, and languages present in the pretrained corpora, to name a few. It remains unclear as to which of those factors influence social biases that are learned by MLMs. To study the relationship between model factors and the social biases learned by an MLM, as well as the downstream task performance of the model, we conduct a comprehensive study over 39 pretrained MLMs covering different model sizes, training objectives, tokenization methods, training data domains and languages. Our results shed light on important factors often neglected in prior literature, such as tokenization or model objectives.
翻訳日:2023-10-24 11:23:18 公開日:2023-10-22