このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20231021となっている論文です。

PDF登録状況(公開日: 20231021)

TitleAuthorsAbstract論文公表日・翻訳日
# コスト制約を伴わない二方向ワイアタップチャネルの非適応符号化

Non-Adaptive Coding for Two-Way Wiretap Channel with or without Cost Constraints ( http://arxiv.org/abs/2310.13881v1 )

ライセンス: Link先を確認
Masahito Hayashi, Yanling Chen, (参考訳) 本稿では,2方向ワイヤタップチャネル (TW-WC) と外部盗聴器の秘密化結果について,強い秘密化基準の下で検討する。 非適応符号化を用いることで、情報漏洩と復号エラー確率を分析し、強い結合および個別の秘密制約の下でTW-WCの秘密容量領域の内部境界を導出する。 コスト制約のないTW-WCでは、秘密とエラー指数の両方が簡潔でコンパクトな条件付きR'enyi相互情報によって特徴づけられる。 また、いくつかの特別なケースでは秘密容量領域と合計容量領域が確立され、適応がいくつかのケースでは役に立たないことや、非適応的な符号化によって達成できる最大総和レートが証明される。 コスト制約のあるTW-WCでは、コスト制約のピークを考慮し、定数合成符号を用いて機密性を拡張する。 そこで我々は,一般離散メモリレスTW-WCの秘密容量領域に内部境界を生じさせるR'enyi相互情報の修正により,秘密度と誤り指数の両方を特徴付ける。 本手法は,エンコーダの条件分布に基づいて事前ノイズ処理を行った場合でも動作し,他のマルチユーザ通信シナリオに容易に拡張できる。

This paper studies the secrecy results for the two-way wiretap channel (TW-WC) with an external eavesdropper under a strong secrecy metric. Employing non-adaptive coding, we analyze the information leakage and the decoding error probability, and derive inner bounds on the secrecy capacity regions for the TW-WC under strong joint and individual secrecy constraints. For the TW-WC without cost constraint, both the secrecy and error exponents could be characterized by the conditional R\'enyi mutual information in a concise and compact form. And, some special cases secrecy capacity region and sum-rate capacity results are established, demonstrating that adaption is useless in some cases or the maximum sum-rate that could be achieved by non-adaptive coding. For the TW-WC with cost constraint, we consider the peak cost constraint and extend our secrecy results by using the constant composition codes. Accordingly, we characterize both the secrecy and error exponents by a modification of R\'enyi mutual information, which yields inner bounds on the secrecy capacity regions for the general discrete memoryless TW-WC with cost constraint. Our method works even when a pre-noisy processing is employed based on a conditional distribution in the encoder and can be easily extended to other multi-user communication scenarios.
翻訳日:2024-03-19 01:44:24 公開日:2023-10-21
# VOICE-ZEUS:単純な音声操作によるZoomのE2EE検出静的メディアとテキストコミュニケーションの模倣

VOICE-ZEUS: Impersonating Zoom's E2EE-Protected Static Media and Textual Communications via Simple Voice Manipulations ( http://arxiv.org/abs/2310.13894v1 )

ライセンス: Link先を確認
Mashari Alatawi, Nitesh Saxena, (参考訳) 認証儀式は,エンド・ツー・エンド・エンド・暗号化(E2EE)アプリケーションでメッセージを交換する前に,ユーザの身元確認において重要な役割を担っている。 認証されると、E2EEアプリのその後の通信は認証儀式によって提供される保護の恩恵を受ける。 しかし、Zoomアプリケーションにおける認証手順の現在の実装は、偽造攻撃に非常に敏感な潜在的な脆弱性を導入している。 この脆弱性の存在はE2EEの完全性を損なう可能性がある。 本稿では,攻撃者が悪意のある参加者である場合と,攻撃者がZoomのサーバインフラストラクチャとクラウドプロバイダを制御する悪意のあるZoomサーバである場合の2つの攻撃シナリオについて,この脆弱性を検証・評価する。 本研究の目的は,静的メディアおよびテキスト通信における偽造攻撃の可能性に着目し,Zoom認証の儀式を包括的に検討することである。 Zoom E2EE会議に対する新たなセッションインジェクション攻撃をシミュレートし、単純な音声操作に対するシステムの感受性を評価する。 シミュレーション実験により、Zoomの認証儀式は、悪意のある参加者と悪意のあるZoomサーバによってVOICE-ZEUS攻撃と呼ばれる単純な音声操作に対して脆弱であることが示された。 このVOICE-ZEUS攻撃では、攻撃者は、被害者が話していた予め記録された数字を並べ替えることで、被害者の声に指紋を生成する。 攻撃者が桁のスニペットを記録・並べ替えて、将来のZoomミーティングを損なう新たなセキュリティコードを生成する方法を示す。 Zoomでは,不正行為を防止するため,グループ認証の儀式において,より強力なセキュリティ対策が必要であると結論付けている。

The authentication ceremony plays a crucial role in verifying the identities of users before exchanging messages in end-to-end encryption (E2EE) applications, thus preventing impersonation and man-in-the-middle (MitM) attacks. Once authenticated, the subsequent communications in E2EE apps benefit from the protection provided by the authentication ceremony. However, the current implementation of the authentication ceremony in the Zoom application introduces a potential vulnerability that can make it highly susceptible to impersonation attacks. The existence of this vulnerability may undermine the integrity of E2EE, posing a potential security risk when E2EE becomes a mandatory feature in the Zoom application. In this paper, we examine and evaluate this vulnerability in two attack scenarios, one where the attacker is a malicious participant and another where the attacker is a malicious Zoom server with control over Zoom's server infrastructure and cloud providers. Our study aims to comprehensively examine the Zoom authentication ceremony, with a specific focus on the potential for impersonation attacks in static media and textual communications. We simulate a new session injection attack on Zoom E2EE meetings to evaluate the system's susceptibility to simple voice manipulations. Our simulation experiments show that Zoom's authentication ceremony is vulnerable to a simple voice manipulation, called a VOICE-ZEUS attack, by malicious participants and the malicious Zoom server. In this VOICE-ZEUS attack, an attacker creates a fingerprint in a victim's voice by reordering previously recorded digits spoken by the victim. We show how an attacker can record and reorder snippets of digits to generate a new security code that compromises a future Zoom meeting. We conclude that stronger security measures are necessary during the group authentication ceremony in Zoom to prevent impersonation attacks.
翻訳日:2024-03-19 01:44:24 公開日:2023-10-21
# 解答の私的証明

Private Proof of Solvency ( http://arxiv.org/abs/2310.13900v1 )

ライセンス: Link先を確認
Hamid Bateni, Keyvan Kambakhsh, (参考訳) Private Proof of Solvencyは、中央集権暗号通貨取引所や企業保護プロバイダなどの暗号保護プロバイダに対して、セキュアで効率的かつプライバシ保護の手段を提供する、解決の領域における画期的なソリューションである。 当社のアプローチは、すべてのブロックチェーンの固有の状態概念を活用して、zkpのような暗号技術のパイオニアとして、トランザクションやアドレス、あるいは負債の総量を明らかにすることなく、企業のリザーブを証明します。

The Private Proof of Solvency is a groundbreaking solution in the realm of Proof of Solvency, offering a secure, efficient, and privacy-preserving method for crypto custody providers such as centralized cryptocurrency exchanges or enterprise custody providers. By leveraging the inherent state concept of every blockchain and pioneering cryptographic techniques like zkp, our approach ensures businesses can prove their reserves without revealing their transactions, addresses, or the total amount of liabilities.
翻訳日:2024-03-19 01:44:24 公開日:2023-10-21
# IoTランドスケープにおけるスムース数メッセージ認証コード

Smooth Number Message Authentication Code in the IoT Landscape ( http://arxiv.org/abs/2310.13954v1 )

ライセンス: Link先を確認
Eduard-Matei Constantinescu, Mohammed Elhajj, Luca Mariot, (参考訳) 本稿では,軽量IoTデバイスにおけるSmooth Number Message Authentication Code(SNMAC)を提案する。 この提案は、暗号分野におけるスムーズな数値の使用に基づいており、様々なアルゴリズムやセキュリティ構成体のセキュリティとパフォーマンスを改善するために、どのように使用できるのかを調査している。 文献によると、現在のIoTソリューションは実現可能で有望だが、スムーズな数値の使用の可能性を探る必要がある。 この方法論は、設計、実装、結果評価を含むいくつかのプロセスを含む。 このアルゴリズムを導入した後、SNMACソリューションの実験的な性能分析について詳細に説明し、実世界のシナリオでその効率性を示す。 さらに、提案するSNMACアルゴリズムのセキュリティ面についても検討し、IoT環境内のセキュアな通信を確保するための堅牢性と適用性に関する貴重な洞察を提供する。

This paper presents the Smooth Number Message Authentication Code (SNMAC) for the context of lightweight IoT devices. The proposal is based on the use of smooth numbers in the field of cryptography, and investigates how one can use them to improve the security and performance of various algorithms or security constructs. The literature findings suggest that current IoT solutions are viable and promising, yet they should explore the potential usage of smooth numbers. The methodology involves several processes, including the design, implementation, and results evaluation. After introducing the algorithm, provides a detailed account of the experimental performance analysis of the SNMAC solution, showcasing its efficiency in real-world scenarios. Furthermore, the paper also explores the security aspects of the proposed SNMAC algorithm, offering valuable insights into its robustness and applicability for ensuring secure communication within IoT environments.
翻訳日:2024-03-19 01:44:24 公開日:2023-10-21
# 経路数とカッツ中心性に対する局所微分プライバシー

Local Differential Privacy for Number of Paths and Katz Centrality ( http://arxiv.org/abs/2310.14000v1 )

ライセンス: Link先を確認
Louis Betzer, Vorapong Suppakitpaisarn, Quentin Hillebrand, (参考訳) 本稿では,局所微分プライバシ(LDP)に基づく経路数とカッツ中心性(Katz centrality)のパブリッシュアルゴリズムを提案する。 様々な研究が既にLPPの下でサブグラフカウントアルゴリズムを導入しているが、それらは主に最大5ノードのサブグラフに集中している。 これをより大きな部分グラフに拡張する際の課題は、LPPの下での出版物において、サブグラフのサイズが増加するにつれて、ノイズの累積的および指数的増加である。 この問題に対処するために、グラフ内の各ノードから始まるパスの数をアルゴリズムでパブリッシュし、すべてのノードのKatz集中性をパブリッシュするアルゴリズムを提案する。 このアルゴリズムは複数ラウンドの通信とクリッピング技術を採用している。 我々の理論的および実験的評価は、我々のアルゴリズムが許容されるバイアスとばらつきを示しており、クリッピングをバイパスするアルゴリズムよりもかなり少ないことを示している。 さらに、我々のKatz集中度推定は、最大90%のノードを、最も高いKatz集中度でリコールすることができる。

In this paper, we give an algorithm to publish the number of paths and Katz centrality under the local differential privacy (LDP), providing a thorough theoretical analysis. Although various works have already introduced subgraph counting algorithms under LDP, they have primarily concentrated on subgraphs of up to five nodes. The challenge in extending this to larger subgraphs is the cumulative and exponential growth of noise as the subgraph size increases in any publication under LDP. We address this issue by proposing an algorithm to publish the number of paths that start at every node in the graph, leading to an algorithm that publishes the Katz centrality of all nodes. This algorithm employs multiple rounds of communication and the clipping technique. Both our theoretical and experimental assessments indicate that our algorithm exhibits acceptable bias and variance, considerably less than an algorithm that bypasses clipping. Furthermore, our Katz centrality estimation is able to recall up to 90% of the nodes with the highest Katz centrality.
翻訳日:2024-03-19 01:44:24 公開日:2023-10-21
# メタバース指向協調型深層学習のためのロバスト逆検出-不活性化法

A Robust Adversary Detection-Deactivation Method for Metaverse-oriented Collaborative Deep Learning ( http://arxiv.org/abs/2401.01895v1 )

ライセンス: Link先を確認
Pengfei Li, Zhibo Zhang, Ameena S. Al-Sumaiti, Naoufel Werghi, and Chan Yeob Yeun(参考訳) Metaverseは、大量のリアルタイムインタラクションをサポートするオンラインプラットフォームに現実世界を移行できるデジタル状況を作ることをトレンドにしている。 事前訓練された人工知能(AI)モデルは、メタバースを支援する能力の増大を実証し、無視できない遅延に優れた応答を達成し、今日では、多くの大規模モデルは、協調ディープラーニング(CDL)と呼ばれる方法で、様々な参加者によって協調的に訓練されている。 しかし、いくつかのセキュリティ上の弱点は、CDLトレーニングプロセスの安全性を脅かす可能性がある。 CDLでは、悪意のある参加者は、主要な無実の参加者の中に隠れて、モデルのパフォーマンスを損なうために偽のパラメータを静かにアップロードしたり、ダウンロードされたパラメータを悪用してジェネレーティブ・アドバイサル・ネットワーク(GAN)を構築して、他人の個人情報を違法に取得したりすることができる。 そこで本研究では,これらの脆弱性を補うために,潜在的に悪意のある参加者へのアクセスを制限し,隔離し,gan攻撃を隔離し,無効にする手法を提案する。 また,Multiview CDLのケースで詳細な保護分析を行い,提案プロトコルはヒューリスティックな手法による有害アクセスを効果的に防止し,ファイヤーウォールを組み込んだ1つの低コストブランチのみを用いて,受信した勾配を迅速にチェックすることで既存のモデルを保護することができることを示した。

Metaverse is trending to create a digital circumstance that can transfer the real world to an online platform supported by large quantities of real-time interactions. Pre-trained Artificial Intelligence (AI) models are demonstrating their increasing capability in aiding the metaverse to achieve an excellent response with negligible delay, and nowadays, many large models are collaboratively trained by various participants in a manner named collaborative deep learning (CDL). However, several security weaknesses can threaten the safety of the CDL training process, which might result in fatal attacks to either the pre-trained large model or the local sensitive data sets possessed by an individual entity. In CDL, malicious participants can hide within the major innocent and silently uploads deceptive parameters to degenerate the model performance, or they can abuse the downloaded parameters to construct a Generative Adversarial Network (GAN) to acquire the private information of others illegally. To compensate for these vulnerabilities, this paper proposes an adversary detection-deactivation method, which can limit and isolate the access of potential malicious participants, quarantine and disable the GAN-attack or harmful backpropagation of received threatening gradients. A detailed protection analysis has been conducted on a Multiview CDL case, and results show that the protocol can effectively prevent harmful access by heuristic manner analysis and can protect the existing model by swiftly checking received gradients using only one low-cost branch with an embedded firewall.
翻訳日:2024-01-15 09:55:25 公開日:2023-10-21
# 推論による群衆の道徳判断を生成するAITA

AITA Generating Moral Judgements of the Crowd with Reasoning ( http://arxiv.org/abs/2310.18336v1 )

ライセンス: Link先を確認
Osama Bsher and Ameer Sabri(参考訳) 道徳は人間の行動と倫理の基本的な側面であり、お互いとの相互作用や周りの世界に影響を与える。 道徳的ジレンマに直面した場合、明確な道徳的判断を下す能力は曇ることがある。 個人的偏見、感情、状況的要因など多くの要因により、人々が最善の行動方針を決定することは困難である。 AmITheAsshole(AITA)のサブレディットは、ソーシャルメディアプラットフォームRedditのフォーラムで、人々が自分のプレジケーションに対して明瞭さと客観性を得るのを助ける。 フォーラムでは、人々が人生で直面している道徳的ジレンマに関する逸話を投稿し、彼らの行動の検証やコミュニティから状況をナビゲートする方法に関するアドバイスを求めます。 各ポストにおける行動の道徳性は、コミュニティの集団的意見に基づいて、主に「Not The Asshole」(NTA)と「You Are The Asshole」(YTA)の2つのラベルに分類される。 このプロジェクトの目的は、aita subredditをデータセットとして使う、モラルジレンマのあるストーリーに対するモラル推論によるコメントの生成である。 過去の文献では、投稿をラベルに分類している(alhassan et al., 2022)が、コメントの生成は新奇で挑戦的な作業である。 各状況における複雑な社会的・倫理的考察を理解する。 この課題に対処するために、我々はaitaコミュニティの規範と価値に合致した一貫性のあるコメントを生成することを目標として、フォーラムの膨大なデータを活用する。 この取り組みでは,人間と同じように道徳的判断を行う能力について,最先端のseq2seqテキスト生成モデルを評価し,最終的にポスターに対する明確な道徳的態度とアドバイスを提供する簡潔なコメントを作成した。

Morality is a fundamental aspect of human behavior and ethics, influencing how we interact with each other and the world around us. When faced with a moral dilemma, a person's ability to make clear moral judgments can be clouded. Due to many factors such as personal biases, emotions and situational factors people can find it difficult to decide their best course of action. The AmITheAsshole (AITA) subreddit is a forum on the social media platform Reddit that helps people get clarity and objectivity on their predicaments. In the forum people post anecdotes about moral dilemmas they are facing in their lives, seeking validation for their actions or advice on how to navigate the situation from the community. The morality of the actions in each post is classified based on the collective opinion of the community into mainly two labels, "Not The Asshole" (NTA) and "You Are The Asshole" (YTA). This project aims to generate comments with moral reasoning for stories with moral dilemmas using the AITA subreddit as a dataset. While past literature has explored the classification of posts into labels (Alhassan et al., 2022), the generation of comments remains a novel and challenging task. It involves understanding the complex social and ethical considerations in each situation. To address this challenge, we will leverage the vast amount of data on the forum with the goal of generating coherent comments that align with the norms and values of the AITA community. In this endeavor, we aim to evaluate state-of-the-art seq2seq text generation models for their ability to make moral judgments similarly to humans, ultimately producing concise comments providing clear moral stances and advice for the poster.
翻訳日:2023-11-05 14:08:51 公開日:2023-10-21
# MOELoRA:マルチタスク医療応用のためのMOE-based Parameter Efficient Fine-Tuning Method

MOELoRA: An MOE-based Parameter Efficient Fine-Tuning Method for Multi-task Medical Applications ( http://arxiv.org/abs/2310.18339v1 )

ライセンス: Link先を確認
Qidong Liu, Xian Wu, Xiangyu Zhao, Yuanshao Zhu, Derong Xu, Feng Tian, Yefeng Zheng(参考訳) 近年の大規模言語モデル(llm)の分野の急増は、多くの領域で大きな注目を集めている。 LLMをWebベースの医療システムのような特定のドメインに調整するには、ドメイン知識による微調整が必要である。 しかし、医療応用のための微調整LDM中に2つの問題が発生する。 ひとつはタスクの多様性の問題であり、現実世界の医療シナリオには多くの異なるタスクがある。 この多様性は、データ不均衡とシーソー問題により、しばしば最適以下の微調整をもたらす。 加えて、高コストの微調整は禁止され、LLMの適用を妨げる。 LLMの大量のパラメータは、微調整中に膨大な時間と計算消費をもたらすが、正当化は困難である。 これら2つの課題を同時に解決するために,MOELoRAと呼ばれるマルチタスク医療応用のためのパラメータ効率の高い微調整フレームワークを提案する。 このフレームワークはマルチタスク学習におけるMOEとパラメータ効率の良い微調整のためのLoRAの両方の利点を活かすことを目的としている。 moeとloraを統合するために、訓練可能なパラメータとして複数の専門家を考案し、各専門家は、少数の訓練可能なパラメータを維持するために、一対の低ランク行列で構成される。 さらに,すべてのMOELoRAレイヤに対して,各専門家のコントリビューションを制御し,様々なタスクに対して異なるパラメータを生成するタスクモチベーションゲート関数を提案する。 提案手法の有効性と実用性を検証するため,公開マルチタスク中国医療データセットを用いた包括的実験を行った。 実験の結果, MOELoRAは既存のパラメータ効率の高い微調整法よりも優れていた。 この実装は、実験の簡便な再現のためにオンラインで利用可能である。

The recent surge in the field of Large Language Models (LLMs) has gained significant attention in numerous domains. In order to tailor an LLM to a specific domain such as a web-based healthcare system, fine-tuning with domain knowledge is necessary. However, two issues arise during fine-tuning LLMs for medical applications. The first is the problem of task variety, where there are numerous distinct tasks in real-world medical scenarios. This diversity often results in suboptimal fine-tuning due to data imbalance and seesawing problems. Additionally, the high cost of fine-tuning can be prohibitive, impeding the application of LLMs. The large number of parameters in LLMs results in enormous time and computational consumption during fine-tuning, which is difficult to justify. To address these two issues simultaneously, we propose a novel parameter-efficient fine-tuning framework for multi-task medical applications called MOELoRA. The framework aims to capitalize on the benefits of both MOE for multi-task learning and LoRA for parameter-efficient fine-tuning. To unify MOE and LoRA, we devise multiple experts as the trainable parameters, where each expert consists of a pair of low-rank matrices to maintain a small number of trainable parameters. Additionally, we propose a task-motivated gate function for all MOELoRA layers that can regulate the contributions of each expert and generate distinct parameters for various tasks. To validate the effectiveness and practicality of the proposed method, we conducted comprehensive experiments on a public multi-task Chinese medical dataset. The experimental results demonstrate that MOELoRA outperforms existing parameter-efficient fine-tuning methods. The implementation is available online for convenient reproduction of our experiments.
翻訳日:2023-11-05 13:52:01 公開日:2023-10-21
# 大規模言語モデルのコーディネートに微調整された小言語モデルは複雑な推論を改善する

Small Language Models Fine-tuned to Coordinate Larger Language Models improve Complex Reasoning ( http://arxiv.org/abs/2310.18338v1 )

ライセンス: Link先を確認
Gurusha Juneja, Subhabrata Dutta, Soumen Chakrabarti, Sunny Manchanda, Tanmoy Chakraborty(参考訳) 大きな言語モデル(LLM)は、チェーン・オブ・シント(CoT)の生成を促し、素晴らしい推論能力を示します。 複雑で多段階の推論問題への迅速な分解の試みは、LLMが同時に分解し解決する能力に依存している。 重大な欠点は、基礎的なLLMは一般に微調整には利用できないことであり、適応が計算的に禁止されていることである。 問題分解とソリューション生成は別個のキャパレイトであり、1つのモノリシックなllmよりも別個のモジュールで対処する方がよいと確信している(そして実証する)。 我々は,分解生成器を用いて複雑な問題を,より少ない推論ステップを必要とする部分問題に分解するdaslamを紹介する。 これらの下位問題は解法によって解かれる。 比較的小さな (13B パラメータ) LM を分解生成器として使用し、政策勾配最適化を用いて(ブラックボックスとして無視される) LM と相互作用し、サブプロブレムを通して誘導する。 複数の異なる推論データセットの評価により,提案手法では1750億のパラメータLM(text-davinci-003)が,その大容量の後継であるGPT-4と比較して,競争力や性能を向上できることがわかった。 さらに,DaSLaMはスケールの関数としての解の能力に制限されないことを示し,例えば,様々な大きさの解のLMは,解の非依存分解技術による大幅な性能向上をもたらすことを示した。 排他的アブレーション研究は、非常に大きな分解器LLMよりもモジュラー微調整技術が優れていることを示す。

Large Language Models (LLMs) prompted to generate chain-of-thought (CoT) exhibit impressive reasoning capabilities. Recent attempts at prompt decomposition toward solving complex, multi-step reasoning problems depend on the ability of the LLM to simultaneously decompose and solve the problem. A significant disadvantage is that foundational LLMs are typically not available for fine-tuning, making adaptation computationally prohibitive. We believe (and demonstrate) that problem decomposition and solution generation are distinct capabilites, better addressed in separate modules, than by one monolithic LLM. We introduce DaSLaM, which uses a decomposition generator to decompose complex problems into subproblems that require fewer reasoning steps. These subproblems are answered by a solver. We use a relatively small (13B parameters) LM as the decomposition generator, which we train using policy gradient optimization to interact with a solver LM (regarded as black-box) and guide it through subproblems, thereby rendering our method solver-agnostic. Evaluation on multiple different reasoning datasets reveal that with our method, a 175 billion parameter LM (text-davinci-003) can produce competitive or even better performance, compared to its orders-of-magnitude larger successor, GPT-4. Additionally, we show that DaSLaM is not limited by the solver's capabilities as a function of scale; e.g., solver LMs with diverse sizes give significant performance improvement with our solver-agnostic decomposition technique. Exhaustive ablation studies evince the superiority of our modular finetuning technique over exorbitantly large decomposer LLMs, based on prompting alone.
翻訳日:2023-11-05 13:51:38 公開日:2023-10-21
# 科学データのためのオートエンコーダベースエラーバウンド圧縮の検討

Exploring Autoencoder-based Error-bounded Compression for Scientific Data ( http://arxiv.org/abs/2105.11730v7 )

ライセンス: Link先を確認
Jinyang Liu, Sheng Di, Kai Zhao, Sian Jin, Dingwen Tao, Xin Liang, Zizhong Chen, Franck Cappello(参考訳) シミュレーションやインスツルメンテーションデータ取得中に大量のデータが生成された今日の科学プロジェクトの成功には、エラーバウンドのロスイット圧縮が不可欠のテクニックになりつつある。 データサイズを大幅に削減できるだけでなく、ユーザ指定のエラー境界に基づいて圧縮エラーを制御することもできる。 オートエンコーダ (AE) モデルは画像圧縮に広く用いられているが、AEベースの圧縮アプローチはほとんどエラーバウンド機能をサポートしていない。 この問題に対処するために,convolutional autoencoderを使用して,科学的データに対するエラーバウンド損失圧縮を改善する。 1) 様々なオートエンコーダモデルの特徴を詳細に検討し, szモデルを用いて誤差境界付きオートエンコーダベースのフレームワークを開発した。 2)本設計したaeベースエラーバウンド圧縮フレームワークのメインステージの圧縮品質を最適化し,ブロックサイズと潜在サイズを微調整するとともに,潜在ベクトルの圧縮効率を最適化する。 3) 5つの実世界科学データセットを用いて提案手法を評価し,他の6つの関連作品と比較した。 実験の結果, コンプレッサの圧縮性能は, コンプレッサの圧縮性能に比較して非常に高いことがわかった。 絶対的な言い方をすれば、圧縮比が高い場合、SZ2.1やZFPと比較して、圧縮品質(圧縮比が100%から800%向上している)がはるかに良い。

Error-bounded lossy compression is becoming an indispensable technique for the success of today's scientific projects with vast volumes of data produced during simulations or instrument data acquisitions. Not only can it significantly reduce data size, but it also can control the compression errors based on user-specified error bounds. Autoencoder (AE) models have been widely used in image compression, but few AE-based compression approaches support error-bounding features, which are highly required by scientific applications. To address this issue, we explore using convolutional autoencoders to improve error-bounded lossy compression for scientific data, with the following three key contributions. (1) We provide an in-depth investigation of the characteristics of various autoencoder models and develop an error-bounded autoencoder-based framework in terms of the SZ model. (2) We optimize the compression quality for the main stages in our designed AE-based error-bounded compression framework, fine-tuning the block sizes and latent sizes and also optimizing the compression efficiency of latent vectors. (3) We evaluate our proposed solution using five real-world scientific datasets and compare them with six other related works. Experiments show that our solution exhibits a very competitive compression quality among all the compressors in our tests. In absolute terms, it can obtain a much better compression quality (100% ~ 800% improvement in compression ratio with the same data distortion) compared with SZ2.1 and ZFP in cases with a high compression ratio.
翻訳日:2023-10-28 07:27:32 公開日:2023-10-21
# 深層・強化学習の境界制御問題への応用

Application of deep and reinforcement learning to boundary control problems ( http://arxiv.org/abs/2310.15191v1 )

ライセンス: Link先を確認
Zenin Easa Panthakkalakath, Juraj Kardo\v{s}, Olaf Schenk(参考訳) 境界制御問題は、流体力学、構造工学、伝熱最適化を含む多くの科学領域における非凸最適化と制御問題である。 目的は、支配方程式に忠実な囲い領域が所望の状態値を達成するようなドメイン境界に対する最適値を見つけることである。 伝統的に、内部点法(IPM)のような非線形最適化法は、そのような問題を解決するために用いられる。 このプロジェクトは、境界制御問題を解決するためにディープラーニングと強化学習を使用する可能性を探る。 我々は,空間的ニューラルネットワークを用いて適切な初期推定を行う反復最適化戦略の枠組みに固執し,時空間的ニューラルネットワークは方針勾配を用いて反復最適化アルゴリズムを学習する。 文献で定式化された問題から生成される合成データは、トレーニング、テスト、検証に使用される。 数値実験により,提案手法は既存の解法の速度と精度に匹敵することを示す。 予備的な結果では、51\%のケースで、最先端の非線形IPMであるIPOPTよりもコストが低い。 提案手法における浮動小数点演算の総数はIPOPTと類似している。 さらに、局所最小値への収束を避けるため、情報付き初期推定法とオプティマイザ法における学習運動量様の挙動を組み込んだ。

The boundary control problem is a non-convex optimization and control problem in many scientific domains, including fluid mechanics, structural engineering, and heat transfer optimization. The aim is to find the optimal values for the domain boundaries such that the enclosed domain adhering to the governing equations attains the desired state values. Traditionally, non-linear optimization methods, such as the Interior-Point method (IPM), are used to solve such problems. This project explores the possibilities of using deep learning and reinforcement learning to solve boundary control problems. We adhere to the framework of iterative optimization strategies, employing a spatial neural network to construct well-informed initial guesses, and a spatio-temporal neural network learns the iterative optimization algorithm using policy gradients. Synthetic data, generated from the problems formulated in the literature, is used for training, testing and validation. The numerical experiments indicate that the proposed method can rival the speed and accuracy of existing solvers. In our preliminary results, the network attains costs lower than IPOPT, a state-of-the-art non-linear IPM, in 51\% cases. The overall number of floating point operations in the proposed method is similar to that of IPOPT. Additionally, the informed initial guess method and the learned momentum-like behaviour in the optimizer method are incorporated to avoid convergence to local minima.
翻訳日:2023-10-25 22:44:29 公開日:2023-10-21
# hdhuman: スパースビューからの高品質な人間のノベルビューレンダリング

HDhuman: High-quality Human Novel-view Rendering from Sparse Views ( http://arxiv.org/abs/2201.08158v3 )

ライセンス: Link先を確認
Tiansong Zhou, Jing Huang, Tao Yu, Ruizhi Shao, Kun Li(参考訳) 本稿では,カメラビューのスパースセットを用いて,複雑なテクスチャパターンの衣服を着る人間のパフォーマーの斬新なビューレンダリングの課題に対処することを目的とする。 最近の作品では、比較的均一なテクスチャを持つ人間のレンダリング品質が、比較的スパースビューを用いて達成されているが、入力ビューで観察される高周波の幾何学的詳細を復元できないため、複雑なテクスチャパターンを扱う場合、レンダリング品質は限られている。 そこで本研究では,高画質な人物再構成・レンダリングを実現するために,画素整列型空間変換器を備えた人間再構成ネットワークと,幾何学誘導型画素機能統合を用いたレンダリングネットワークを提案する。 設計した画素整合空間変換器は、入力ビュー間の相関を計算し、高周波のディテールでヒューマンリコンストラクション結果を生成する。 表面再構成結果に基づいて、幾何誘導型画素視認性推論により、マルチビュー機能統合のためのガイダンスが提供され、レンダリングネットワークは、新しいビューで2k解像度で高品質な画像をレンダリングできる。 異なるシーンの独立したネットワークを常にトレーニングしたり、微調整したりする必要のある従来のニューラルレンダリングとは異なり、本手法は、新しい主題に一般化できる汎用フレームワークである。 実験の結果,本手法は,合成データと実世界のデータの両方において,従来の汎用的あるいは特定の手法よりも優れていることがわかった。

In this paper, we aim to address the challenge of novel view rendering of human performers who wear clothes with complex texture patterns using a sparse set of camera views. Although some recent works have achieved remarkable rendering quality on humans with relatively uniform textures using sparse views, the rendering quality remains limited when dealing with complex texture patterns as they are unable to recover the high-frequency geometry details that are observed in the input views. To this end, we propose HDhuman, which uses a human reconstruction network with a pixel-aligned spatial transformer and a rendering network with geometry-guided pixel-wise feature integration to achieve high-quality human reconstruction and rendering. The designed pixel-aligned spatial transformer calculates the correlations between the input views and generates human reconstruction results with high-frequency details. Based on the surface reconstruction results, the geometry-guided pixel-wise visibility reasoning provides guidance for multi-view feature integration, enabling the rendering network to render high-quality images at 2k resolution on novel views. Unlike previous neural rendering works that always need to train or fine-tune an independent network for a different scene, our method is a general framework that is able to generalize to novel subjects. Experiments show that our approach outperforms all the prior generic or specific methods on both synthetic data and real-world data.
翻訳日:2023-10-25 15:28:43 公開日:2023-10-21
# MLMOD: LAMMPSにおけるデータ駆動モデリングのための機械学習手法

MLMOD: Machine Learning Methods for Data-Driven Modeling in LAMMPS ( http://arxiv.org/abs/2107.14362v2 )

ライセンス: Link先を確認
Paul J. Atzberger(参考訳) MLMODは機械学習アプローチとモデルをLAMMPSのマイクロスケール力学と分子動力学のシミュレーションに組み込むソフトウェアパッケージである。 最近の機械学習アプローチは、実験データと高忠実度シミュレーションからシステム動作の学習表現に有望なデータ駆動型アプローチを提供する。 このパッケージは学習とデータ駆動モデルの使用をファシリケートする (i)より大きい時空間スケールでのシステムのダイナミクス (ii)システムコンポーネント間の相互作用 (iii)より粗い自由度を与える特徴、 (iv)システムの振る舞いを特徴付ける新規な利害関係の特徴。 MLMODはLAMMPSでフックを提供する i) ダイナミックなモデリングとタイムステップの統合。 (ii)相互作用のモデル化、及び (iii)システムの状態を特徴付ける利息の量を計算すること。 このパッケージは、ニューラルネットワーク、ガウス過程回帰、カーネルモデル、その他のアプローチを含む一般的なモデルクラスによる機械学習メソッドの使用を可能にする。 ここでは、C++/Pythonパッケージのプロトタイプ、目的、使用例について論じる。 パッケージは現在、メソケールおよび分子動力学シミュレーションパッケージLAMMPSとPyTorchと統合されている。 関連論文、サンプル、アップデート、その他の情報はhttps://github.com/atzberg/mlmodおよびhttp://atzberger.org/を参照。

MLMOD is a software package for incorporating machine learning approaches and models into simulations of microscale mechanics and molecular dynamics in LAMMPS. Recent machine learning approaches provide promising data-driven approaches for learning representations for system behaviors from experimental data and high fidelity simulations. The package faciliates learning and using data-driven models for (i) dynamics of the system at larger spatial-temporal scales (ii) interactions between system components, (iii) features yielding coarser degrees of freedom, and (iv) features for new quantities of interest characterizing system behaviors. MLMOD provides hooks in LAMMPS for (i) modeling dynamics and time-step integration, (ii) modeling interactions, and (iii) computing quantities of interest characterizing system states. The package allows for use of machine learning methods with general model classes including Neural Networks, Gaussian Process Regression, Kernel Models, and other approaches. Here we discuss our prototype C++/Python package, aims, and example usage. The package is integrated currently with the mesocale and molecular dynamics simulation package LAMMPS and PyTorch. For related papers, examples, updates, and additional information see https://github.com/atzberg/mlmod and http://atzberger.org/.
翻訳日:2023-10-25 15:27:26 公開日:2023-10-21
# 複合pcfgsの実証的研究

An Empirical Study of Compound PCFGs ( http://arxiv.org/abs/2103.02298v2 )

ライセンス: Link先を確認
Yanpeng Zhao, Ivan Titov(参考訳) 複合確率的文脈自由文法 (C-PCFGs) は、最近、教師なし句構造文法誘導のための新しい最先端技術を確立した。 しかし,チャートに基づく表現と推論の空間的・時間的複雑さから,c-pcfgsを包括的に検討することは困難である。 本研究では,C-PCFGを高速に実装して,~\citet{kim-etal-2019-compound}の評価を補完する。 まず、英語のツリーバンク上でC-PCFGを分析して非難する。 以上の結果から,(1)C-PCFGはデータ効率が高く,文長・構成長に一般化可能であること,(2)C-PCFGは文レベルの情報を利用して事前規則の確率を生成することが示唆された。 さらに,C-PCFGの多言語評価を行う。 実験の結果,c-pcfgsの最良の構成は,必ずしも形態素豊かな言語に一般化するとは限らない。

Compound probabilistic context-free grammars (C-PCFGs) have recently established a new state of the art for unsupervised phrase-structure grammar induction. However, due to the high space and time complexities of chart-based representation and inference, it is difficult to investigate C-PCFGs comprehensively. In this work, we rely on a fast implementation of C-PCFGs to conduct an evaluation complementary to that of~\citet{kim-etal-2019-compound}. We start by analyzing and ablating C-PCFGs on English treebanks. Our findings suggest that (1) C-PCFGs are data-efficient and can generalize to unseen sentence/constituent lengths; and (2) C-PCFGs make the best use of sentence-level information in generating preterminal rule probabilities. We further conduct a multilingual evaluation of C-PCFGs. The experimental results show that the best configurations of C-PCFGs, which are tuned on English, do not always generalize to morphology-rich languages.
翻訳日:2023-10-25 15:27:11 公開日:2023-10-21
# SAM: 放射線画像における画素単位の解剖学的埋め込みの自己教師型学習

SAM: Self-supervised Learning of Pixel-wise Anatomical Embeddings in Radiological Images ( http://arxiv.org/abs/2012.02383v3 )

ライセンス: Link先を確認
Ke Yan, Jinzheng Cai, Dakai Jin, Shun Miao, Dazhou Guo, Adam P. Harrison, Youbao Tang, Jing Xiao, Jingjing Lu, Le Lu(参考訳) CT(Computed tomography)やX線などの放射線画像は、固有の構造を持つ解剖学を反映している。 様々な画像にまたがる同じ解剖学的構造を確実に特定できることは、医用画像解析の基本的な課題である。 原則として、このタスクにランドマーク検出やセマンティックセグメンテーションを使用することは可能だが、うまく機能するためには、各解剖学的構造とサブ構造に対する大量のラベル付きデータが必要である。 より普遍的なアプローチは、ラベルのない画像から本質的な構造を学ぶだろう。 我々は,自制解剖学eMbedding (SAM) と呼ばれるアプローチを導入する。 SAMは、解剖学的位置または身体部分を記述する各画像ピクセルに対してセマンティック埋め込みを生成する。 このような埋め込みを生成するために,画素レベルのコントラスト学習フレームワークを提案する。 粗大な戦略により、グローバルとローカルの両方の解剖情報が符号化される。 負のサンプル選択戦略は埋め込みの判別性を高めるために設計されている。 SAMを使用すると、テンプレート画像に任意の関心点をラベル付けし、簡単な近接探索によって他の画像の同じ身体部分を見つけることができる。 2次元および3次元画像モダリティを持つ複数のタスクにおいてSAMの有効性を示す。 19のランドマークを持つ胸部CTデータセットでは、SAMは広く使われている登録アルゴリズムより優れており、推論には0.23秒しかかからない。 2つのx線データセットでは、1つのラベル付きテンプレートイメージを持つsamが、50のラベル付きイメージでトレーニングされた教師付きメソッドを上回っている。 また,CTの全身追跡病変マッチングにもSAMを適用し,91%の精度を得た。 SAMは画像登録の改善やCNNウェイトの初期化にも利用できる。

Radiological images such as computed tomography (CT) and X-rays render anatomy with intrinsic structures. Being able to reliably locate the same anatomical structure across varying images is a fundamental task in medical image analysis. In principle it is possible to use landmark detection or semantic segmentation for this task, but to work well these require large numbers of labeled data for each anatomical structure and sub-structure of interest. A more universal approach would learn the intrinsic structure from unlabeled images. We introduce such an approach, called Self-supervised Anatomical eMbedding (SAM). SAM generates semantic embeddings for each image pixel that describes its anatomical location or body part. To produce such embeddings, we propose a pixel-level contrastive learning framework. A coarse-to-fine strategy ensures both global and local anatomical information are encoded. Negative sample selection strategies are designed to enhance the embedding's discriminability. Using SAM, one can label any point of interest on a template image and then locate the same body part in other images by simple nearest neighbor searching. We demonstrate the effectiveness of SAM in multiple tasks with 2D and 3D image modalities. On a chest CT dataset with 19 landmarks, SAM outperforms widely-used registration algorithms while only taking 0.23 seconds for inference. On two X-ray datasets, SAM, with only one labeled template image, surpasses supervised methods trained on 50 labeled images. We also apply SAM on whole-body follow-up lesion matching in CT and obtain an accuracy of 91%. SAM can also be applied for improving image registration and initializing CNN weights.
翻訳日:2023-10-25 15:26:52 公開日:2023-10-21
# 一般化イジングマシンによる量子干渉のエミュレート

Emulating Quantum Interference with Generalized Ising Machines ( http://arxiv.org/abs/2007.07379v2 )

ライセンス: Link先を確認
Shuvro Chowdhury, Kerem Y. Camsari and Supriyo Datta(参考訳) 本稿では,量子ゲート列を2つの値 0 と 1 のうちの1つを取る確率的 p-ビットのネットワークにマッピングするための,完全かつ一般的な手順を提案する。 最初の$n$ p-bits は入力 qubits を表し、他の p-bits は連続したゲーティング操作の後に qubits を表す。 この構造をボルツマン機械(boltzmann machine)と見ることができ、状態はそれぞれ、量子ビットの初期構成から最終的な構成に至るファインマン経路を表す。 そのような経路はそれぞれ複素振幅$\psi$を持ち、複素エネルギーに関連付けることができる。 このエネルギーの真の部分は、通常の方法でファインマン経路のサンプルを生成するために用いられるが、虚部はサンプルを正のボルツマン機械とは異なり、複雑な実体として扱うことによって説明される。 量子ゲートはしばしば純粋に想像上のエネルギー関数を持ち、全ての構成が同じ確率を持ち、サンプリング技術を利用することができない。 しかし、エネルギー関数の真の部分を導入するのに適切な変換を利用できるなら、ギブスサンプリングのような強力なサンプリングアルゴリズムを使って、はるかに少ないサンプルで許容可能な結果を得ることができ、そしておそらく$nd$で指数スケーリングを逃れることができる。 このアルゴリズムアクセラレーションは、大量の並列処理、パイプライニング、クロックレス混合信号演算を組み合わせることで、アルゴリズムにマッチする回路やアーキテクチャをコード署名することで、毎秒に非常に多くのサンプルを得ることができるイジングマシンのような専用ハードウェアアクセラレーターで補うことができる。 任意の量子回路を複雑なエネルギー関数を持つボルツマン機械にマッピングする結果は、確率的資源を持つ量子回路のシミュレーション可能性の境界を押し上げ、それらをnicq時代の量子コンピュータと比較するのに役立つ。

The primary objective of this paper is to present an exact and general procedure for mapping any sequence of quantum gates onto a network of probabilistic p-bits which can take on one of two values 0 and 1. The first $n$ p-bits represent the input qubits, while the other p-bits represent the qubits after the application of successive gating operations. We can view this structure as a Boltzmann machine whose states each represent a Feynman path leading from an initial configuration of qubits to a final configuration. Each such path has a complex amplitude $\psi$ which can be associated with a complex energy. The real part of this energy can be used to generate samples of Feynman paths in the usual way, while the imaginary part is accounted for by treating the samples as complex entities, unlike ordinary Boltzmann machines where samples are positive. Quantum gates often have purely imaginary energy functions for which all configurations have the same probability and one cannot take advantage of sampling techniques. However, if we can use suitable transformations to introduce a real part in the energy function then powerful sampling algorithms like Gibbs sampling can be harnessed to get acceptable results with far fewer samples and perhaps even escape the exponential scaling with $nd$. This algorithmic acceleration can then be supplemented with special-purpose hardware accelerators like Ising Machines which can obtain a very large number of samples per second through a combination of massive parallelism, pipelining, and clockless mixed-signal operation made possible by codesigning circuits and architectures to match the algorithm. Our results for mapping an arbitrary quantum circuit to a Boltzmann machine with a complex energy function should help push the boundaries of the simulability of quantum circuits with probabilistic resources and compare them with NISQ-era quantum computers.
翻訳日:2023-10-25 15:26:26 公開日:2023-10-21
# きめ細かいシーングラフ生成のための階層的メモリ学習

Hierarchical Memory Learning for Fine-Grained Scene Graph Generation ( http://arxiv.org/abs/2203.06907v5 )

ライセンス: Link先を確認
Youming Deng, Yansheng Li, Yongjun Zhang, Xiang Xiang, Jian Wang, Jingdong Chen, Jiayi Ma(参考訳) シーングラフ生成(SGG)に関しては、クラウドソースラベリングによるデータセットに粗い述語と微妙な述語が混在しており、ロングテール問題も顕著である。 このようなトリッキーな状況から、多くの既存のSGG法は述語を等しく扱い、混合粒度述語の下でモデルを学習し、比較的粗い予測をもたらす。 本稿では,人間の階層的メモリ学習プロセスに類似した,単純から複雑にモデルを学ぶための新しい階層的メモリ学習(hml)フレームワークを提案する。 粗い述語と細かい述語を自律的に分割した後、モデルはまず粗い述語で訓練され、その後細かい述語を学ぶ。 この階層的な学習パターンを実現するために,新しい概念再構成(CR)とモデル再構成(MR)の制約を用いて,HMLフレームワークを初めて定式化する。 HMLフレームワークは、様々なSGGモデルを改善するための1つの最適化戦略として捉えることができ、SGGベンチマーク(すなわち、Visual Genome)で大幅な改善が達成できることに注意する必要がある。

As far as Scene Graph Generation (SGG), coarse and fine predicates mix in the dataset due to the crowd-sourced labeling, and the long-tail problem is also pronounced. Given this tricky situation, many existing SGG methods treat the predicates equally and learn the model under the supervision of mixed-granularity predicates in one stage, leading to relatively coarse predictions. In order to alleviate the negative impact of the suboptimum mixed-granularity annotation and long-tail effect problems, this paper proposes a novel Hierarchical Memory Learning (HML) framework to learn the model from simple to complex, which is similar to the human beings' hierarchical memory learning process. After the autonomous partition of coarse and fine predicates, the model is first trained on the coarse predicates and then learns the fine predicates. In order to realize this hierarchical learning pattern, this paper, for the first time, formulates the HML framework using the new Concept Reconstruction (CR) and Model Reconstruction (MR) constraints. It is worth noticing that the HML framework can be taken as one general optimization strategy to improve various SGG models, and significant improvement can be achieved on the SGG benchmark (i.e., Visual Genome).
翻訳日:2023-10-25 15:17:40 公開日:2023-10-21
# 確率的ブロックモデルにおける不均衡コミュニティの回復と欠陥オラクルによるクラスタリングへの応用

Recovering Unbalanced Communities in the Stochastic Block Model With Application to Clustering with a Faulty Oracle ( http://arxiv.org/abs/2202.08522v3 )

ライセンス: Link先を確認
Chandra Sekhar Mukherjee, Pan Peng and Jiapeng Zhang(参考訳) 確率ブロックモデル(SBM)は,ネットワークにおけるグラフクラスタリングやコミュニティ検出の基本的なモデルである。 過去10年間で大きな注目を集めており、バランスの取れた場合、すなわち全てのクラスターが大きければ、十分に研究されている。 しかし、不均衡なコミュニティとのSBMの理解(おそらく実際はより関連性が高い)は依然として限られている。 本稿では,SBMのコミュニティを様々な大きさのコミュニティで復元するための,SVDに基づく簡単なアルゴリズムを提案する。 我々は, Ailon, Chen, Xu (ICML 2013; JMLR 2015) の結果として, クラスタのサイズが低下しないような大きな間隔が存在するという仮定を排除し, 下位クラスタ数に対するリカバリ可能なクラスタのサイズ依存性を取り除くことにより, 改善を行った。 さらに理論的な改善を実験的比較で補う。 植込み傾き予想の下では、確率パラメータが定数である場合、我々のアルゴリズムによって復元できるクラスタのサイズはほぼ最適である(多対数因子まで)。 副産物として、グラフに$\Omega(n)$の小さなクラスタが存在する場合でも、$\tilde{\Omega}({\sqrt{n}})$より大きいすべてのクラスタを検出することができる、欠陥オラクルモデルにおけるサブ線形クエリの複雑さを持つ効率的なクラスタリングアルゴリズムを得る。 対照的に、クエリのサブ線形数を使用する従来の効率的なアルゴリズムは、$\tilde{\Omega}(n^{2/5})$小クラスタがある場合、大きなクラスタを復元できない。

The stochastic block model (SBM) is a fundamental model for studying graph clustering or community detection in networks. It has received great attention in the last decade and the balanced case, i.e., assuming all clusters have large size, has been well studied. However, our understanding of SBM with unbalanced communities (arguably, more relevant in practice) is still limited. In this paper, we provide a simple SVD-based algorithm for recovering the communities in the SBM with communities of varying sizes. We improve upon a result of Ailon, Chen and Xu [ICML 2013; JMLR 2015] by removing the assumption that there is a large interval such that the sizes of clusters do not fall in, and also remove the dependency of the size of the recoverable clusters on the number of underlying clusters. We further complement our theoretical improvements with experimental comparisons. Under the planted clique conjecture, the size of the clusters that can be recovered by our algorithm is nearly optimal (up to poly-logarithmic factors) when the probability parameters are constant. As a byproduct, we obtain an efficient clustering algorithm with sublinear query complexity in a faulty oracle model, which is capable of detecting all clusters larger than $\tilde{\Omega}({\sqrt{n}})$, even in the presence of $\Omega(n)$ small clusters in the graph. In contrast, previous efficient algorithms that use a sublinear number of queries are incapable of recovering any large clusters if there are more than $\tilde{\Omega}(n^{2/5})$ small clusters.
翻訳日:2023-10-25 15:16:20 公開日:2023-10-21
# ニューラルネットワークにおける最適経路探索とタスク依存学習の組み合わせ

Combining optimal path search with task-dependent learning in a neural network ( http://arxiv.org/abs/2201.11104v5 )

ライセンス: Link先を確認
Tomas Kulvicius, Minija Tamosiunaite and Florentin W\"org\"otter(参考訳) 連結グラフの最適経路を見つけるには、グラフの端を移動する際の最小の総コストを決定する必要がある。 この問題は、通常すべてのエッジに対してコストが予め定義された古典的なアルゴリズムによって解決できる。 従来の計画手法は、通常、あるタスクの要求に従う適応的な方法でコストを変更したい場合、使用できない。 ここでは、コスト値をシナプス重みに変換することで、経路探索問題のニューラルネットワーク表現を定義できることを示し、ネットワーク学習機構を用いたオンラインウェイト適応を可能にする。 このネットワークの最初のアクティビティ値から始めると、このネットワークにおけるアクティビティの伝播は、ベルマン・フォードのアルゴリズムで見られるのと同じ解をもたらす。 ニューラルネットワークはBellman-Fordと同じアルゴリズムの複雑さを持ち、さらに、ネットワーク学習機構(例えばHebbian Learning)が、ネットワーク内の重みを手作業に応じて強化できることを示すことができる。 障害のある環境でのナビゲーションの学習や,特定の経路ノードのシーケンスに従う学習によってこれを実証する。 したがって、この表現された新しいアルゴリズムは、経路拡張(学習による)が自然な方法で経路発見と直接結合される、異なるタイプのアプリケーションを開くことができる。

Finding optimal paths in connected graphs requires determining the smallest total cost for traveling along the graph's edges. This problem can be solved by several classical algorithms where, usually, costs are predefined for all edges. Conventional planning methods can, thus, normally not be used when wanting to change costs in an adaptive way following the requirements of some task. Here we show that one can define a neural network representation of path finding problems by transforming cost values into synaptic weights, which allows for online weight adaptation using network learning mechanisms. When starting with an initial activity value of one, activity propagation in this network will lead to solutions, which are identical to those found by the Bellman-Ford algorithm. The neural network has the same algorithmic complexity as Bellman-Ford and, in addition, we can show that network learning mechanisms (such as Hebbian learning) can adapt the weights in the network augmenting the resulting paths according to some task at hand. We demonstrate this by learning to navigate in an environment with obstacles as well as by learning to follow certain sequences of path nodes. Hence, the here-presented novel algorithm may open up a different regime of applications where path-augmentation (by learning) is directly coupled with path finding in a natural way.
翻訳日:2023-10-25 15:14:30 公開日:2023-10-21
# 関節リウマチモデルマウスの免疫状態決定のための特徴選択アルゴリズムの利用

Employing Feature Selection Algorithms to Determine the Immune State of a Mouse Model of Rheumatoid Arthritis ( http://arxiv.org/abs/2207.05882v2 )

ライセンス: Link先を確認
Brendon K. Colbert, Joslyn L. Mangal, Aleksandr Talitckii, Abhinav P. Acharya and Matthew M. Peet(参考訳) 免疫応答は、体が抗原が自己であるか否かを判断するダイナミックなプロセスである。 この動的プロセスの状態は、この意思決定プロセスを構成する炎症性および規制的なアクターの相対的バランスと人口によって定義される。 関節リウマチ(ra)などに対する免疫療法の目標は、免疫状態の偏りを調節因子に委ねることであり、反応中の自己免疫経路を遮断することである。 免疫療法にはいくつかの既知のアプローチがあるが、治療の有効性は、この介入がこの状態の進化をどのように変化させるかに依存する。 残念ながら、このプロセスはプロセスのダイナミクスによって決定されるだけでなく、介入時のシステムの状態によって決定される。 このような状態を特定するために、RA(コラーゲン誘発関節炎)免疫療法のマウスモデルを検討し、最近開発されたCIAの免疫療法で治療したマウスのT細胞マーカーおよび集団の高次元データを収集し、このデータの低次元サブセットを選択するために特徴選択アルゴリズムを用いて、免疫療法の効果とともにT細胞マーカーと集団の完全なセットを予測できる。

The immune response is a dynamic process by which the body determines whether an antigen is self or nonself. The state of this dynamic process is defined by the relative balance and population of inflammatory and regulatory actors which comprise this decision making process. The goal of immunotherapy as applied to, e.g. Rheumatoid Arthritis (RA), then, is to bias the immune state in favor of the regulatory actors - thereby shutting down autoimmune pathways in the response. While there are several known approaches to immunotherapy, the effectiveness of the therapy will depend on how this intervention alters the evolution of this state. Unfortunately, this process is determined not only by the dynamics of the process, but the state of the system at the time of intervention - a state which is difficult if not impossible to determine prior to application of the therapy. To identify such states we consider a mouse model of RA (Collagen-Induced Arthritis (CIA)) immunotherapy; collect high dimensional data on T cell markers and populations of mice after treatment with a recently developed immunotherapy for CIA; and use feature selection algorithms in order to select a lower dimensional subset of this data which can be used to predict both the full set of T cell markers and populations, along with the efficacy of immunotherapy treatment.
翻訳日:2023-10-25 15:08:47 公開日:2023-10-21
# 五角形の対測定面符号

A Pair Measurement Surface Code on Pentagons ( http://arxiv.org/abs/2206.12780v2 )

ライセンス: Link先を確認
Craig Gidney(参考訳) 本稿では,カイロ・ペンタゴナル・タイリングの端面に沿ってペアの測定を行う2体パリティ測定(ペア計測)に表面コードをコンパイルする方法を提案する。 この回路は、四体安定度測定(6ではなく5)あたりのペア測定を減らし、安定度測定(10ではなく6)あたりのタイムステップを減らし、Chaoらによる先行作業を改善する。 モンテカルロサンプリングを用いて、これらの改良により、対の計測値である$\approx 0.2\%$ から$\approx 0.4\%$ へのコンパイル時の表面コードのしきい値が向上し、teraquopのフットプリントが$0.1\%$の物理ゲートエラーレートで$\approx6000$ qubits から $\approx3000$ qubits に向上することを示した。 しかし,Chao et al の構成におけるテラクアップのフットプリントは,物理誤差率が減少するにつれて,私のものよりも早く向上し,物理的ゲートエラーレートが $\approx 0.03\%$ (私の建設における双方向フックエラーのため) より優れていることも示している。 私はまた、平面ハニカムコードと比較し、この作業が表面コードとハニカムコードの間のギャップを著しく減少させる(ペアの計測にコンパイルする場合)が、ハニカムコードは依然として効率的であることを示している(ただし、テラクロップのフットプリントは$0.1\%$で$\approx 1000$である)。

In this paper, I present a way to compile the surface code into two-body parity measurements ("pair measurements"), where the pair measurements run along the edges of a Cairo pentagonal tiling. The resulting circuit improves on prior work by Chao et al. by using fewer pair measurements per four-body stabilizer measurement (5 instead of 6) and fewer time steps per round of stabilizer measurement (6 instead of 10). Using Monte Carlo sampling, I show that these improvements increase the threshold of the surface code when compiling into pair measurements from $\approx 0.2\%$ to $\approx 0.4\%$, and also that they improve the teraquop footprint at a $0.1\%$ physical gate error rate from $\approx6000$ qubits to $\approx3000$ qubits. However, I also show that the teraquop footprint of Chao et al's construction improves more quickly than mine as physical error rate decreases, and is likely better below a physical gate error rate of $\approx 0.03\%$ (due to bidirectional hook errors in my construction). I also compare to the planar honeycomb code, showing that although this work does noticeably reduce the gap between the surface code and the honeycomb code (when compiling into pair measurements), the honeycomb code is still more efficient (threshold $\approx 0.8\%$, teraquop footprint at $0.1\%$ of $\approx 1000$).
翻訳日:2023-10-25 15:07:15 公開日:2023-10-21
# PreBit -- Twitter FinBERT組み込みによるBitcoinの極端な価格変動予測のためのマルチモーダルモデル

PreBit -- A multimodal model with Twitter FinBERT embeddings for extreme price movement prediction of Bitcoin ( http://arxiv.org/abs/2206.00648v2 )

ライセンス: Link先を確認
Yanzhao Zou, Dorien Herremans(参考訳) Bitcoinは、その人気がますます高まっているが、その起源以来、極端な価格変動を見せている。 このボラティリティと分散的な性質により、bitcoinは従来の資産に比べて投機的取引に非常に主観的になる。 本稿では,極端な価格変動を予測するマルチモーダルモデルを提案する。 このモデルは、さまざまな関連資産、技術的指標、およびTwitterコンテンツとして入力される。 詳細な研究では、bitcoinに関するソーシャルメディアの議論が、極端な価格変動に対して予測力を持っているかどうかを探っている。 2015年から2021年にかけて,‘Bitcoin’というキーワードを含む1日5000ツイートのデータセットが収集された。 PreBitと呼ばれるこのデータセットはオンラインで公開されている。 当社のハイブリッドモデルでは,金融レキシコンに事前学習された文レベルのfinbert埋め込みを使用して,ツイートの全内容をキャプチャし,理解可能な方法でモデルにフィードします。 これらの埋め込みを畳み込みニューラルネットワークと組み合わせることで、市場の動きを予測するモデルを構築しました。 最後のマルチモーダルアンサンブルモデルには、このNLPモデルと、ロウソクスティックデータ、技術的指標、関連資産価格に基づくモデルが含まれる。 アブレーション研究では,個々のモダリティの寄与について検討する。 最後に,予測しきい値を変化させたモデル予測に基づく取引戦略の提案とバックテストを行い,'ホールド'や移動平均戦略よりもリスクを低減した収益性のある取引戦略の構築に使用できることを示す。

Bitcoin, with its ever-growing popularity, has demonstrated extreme price volatility since its origin. This volatility, together with its decentralised nature, make Bitcoin highly subjective to speculative trading as compared to more traditional assets. In this paper, we propose a multimodal model for predicting extreme price fluctuations. This model takes as input a variety of correlated assets, technical indicators, as well as Twitter content. In an in-depth study, we explore whether social media discussions from the general public on Bitcoin have predictive power for extreme price movements. A dataset of 5,000 tweets per day containing the keyword `Bitcoin' was collected from 2015 to 2021. This dataset, called PreBit, is made available online. In our hybrid model, we use sentence-level FinBERT embeddings, pretrained on financial lexicons, so as to capture the full contents of the tweets and feed it to the model in an understandable way. By combining these embeddings with a Convolutional Neural Network, we built a predictive model for significant market movements. The final multimodal ensemble model includes this NLP model together with a model based on candlestick data, technical indicators and correlated asset prices. In an ablation study, we explore the contribution of the individual modalities. Finally, we propose and backtest a trading strategy based on the predictions of our models with varying prediction threshold and show that it can used to build a profitable trading strategy with a reduced risk over a `hold' or moving average strategy.
翻訳日:2023-10-25 15:06:40 公開日:2023-10-21
# 隣接近傍のコントラスト学習を用いた音声系列埋め込み

Speech Sequence Embeddings using Nearest Neighbors Contrastive Learning ( http://arxiv.org/abs/2204.05148v2 )

ライセンス: Link先を確認
Robin Algayres, Adel Nabli, Benoit Sagot, Emmanuel Dupoux(参考訳) 我々は、データ強化k-Nearest Neighbors探索から正のサンプルを得る、教師なしのコントラスト学習目標を用いて、訓練可能な単純なニューラルエンコーダアーキテクチャを導入する。 最近の自己教師付き音声表現の上に構築された場合、この手法は反復的に適用でき、2つのタスク(音声のランダムシーケンスのクエリバイサンプル、音声項発見)で評価される競合sseが得られる。 両方のタスクにおいて、我々の手法は5つの異なる言語にまたがって最先端の言語を押し付けます。 最後に、librispeechデータセットのクエリバイサンプルタスクのベンチマークを確立し、フィールドの将来的な改善を監視する。

We introduce a simple neural encoder architecture that can be trained using an unsupervised contrastive learning objective which gets its positive samples from data-augmented k-Nearest Neighbors search. We show that when built on top of recent self-supervised audio representations, this method can be applied iteratively and yield competitive SSE as evaluated on two tasks: query-by-example of random sequences of speech, and spoken term discovery. On both tasks our method pushes the state-of-the-art by a significant margin across 5 different languages. Finally, we establish a benchmark on a query-by-example task on the LibriSpeech dataset to monitor future improvements in the field.
翻訳日:2023-10-25 15:05:39 公開日:2023-10-21
# EVA2.0: 大規模事前学習によるオープンドメイン中国語対話システムの検討

EVA2.0: Investigating Open-Domain Chinese Dialogue Systems with Large-Scale Pre-Training ( http://arxiv.org/abs/2203.09313v3 )

ライセンス: Link先を確認
Yuxian Gu, Jiaxin Wen, Hao Sun, Yi Song, Pei Ke, Chujie Zheng, Zheng Zhang, Jianzhu Yao, Lei Liu, Xiaoyan Zhu, Minlie Huang(参考訳) 大規模事前学習はオープンドメイン対話システムの構築において顕著な性能を示した。 しかし、従来の研究は主に、特に中国のシナリオにおいて、強力な人間のようなチャットボットに向けた重要な要素の議論を無視して、リリースされた対話モデルの会話性能の提示と評価に重点を置いていた。 本稿では,データ品質管理,モデルアーキテクチャ設計,トレーニングアプローチ,デコード戦略など,未検討の要素を調査するための広範な実験を行う。 提案するEVA2.0は,280億のパラメータを持つ,大規模で事前訓練されたオープンドメインの中国語対話モデルである。 自動および人的評価は、EVA2.0が他のオープンソースよりも大幅に優れていることを示している。 また,本研究の限界について,いくつかの障害事例を提示し,大規模中国オープンドメイン対話システムに関する今後の研究の方向性を述べる。

Large-scale pre-training has shown remarkable performance in building open-domain dialogue systems. However, previous works mainly focus on showing and evaluating the conversational performance of the released dialogue model, ignoring the discussion of some key factors towards a powerful human-like chatbot, especially in Chinese scenarios. In this paper, we conduct extensive experiments to investigate these under-explored factors, including data quality control, model architecture designs, training approaches, and decoding strategies. We propose EVA2.0, a large-scale pre-trained open-domain Chinese dialogue model with 2.8 billion parameters, and will make our models and codes publicly available. Automatic and human evaluations show that EVA2.0 significantly outperforms other open-source counterparts. We also discuss the limitations of this work by presenting some failure cases and pose some future research directions on large-scale Chinese open-domain dialogue systems.
翻訳日:2023-10-25 15:05:24 公開日:2023-10-21
# aphmm:高速かつエネルギー効率の高いゲノム解析のためのプロファイル隠れマルコフモデル

ApHMM: Accelerating Profile Hidden Markov Models for Fast and Energy-Efficient Genome Analysis ( http://arxiv.org/abs/2207.09765v2 )

ライセンス: Link先を確認
Can Firtina, Kamlesh Pillai, Gurpreet S. Kalsi, Bharathwaj Suresh, Damla Senol Cali, Jeremie Kim, Taha Shahroodi, Meryem Banu Cavlak, Joel Lindegger, Mohammed Alser, Juan G\'omez Luna, Sreenivas Subramoney, Onur Mutlu(参考訳) プロファイル隠れマルコフモデル(pHMM)は、DNAやタンパク質配列などの生物学的配列間の類似性を識別するために、様々なバイオインフォマティクス応用に広く用いられている。 pHMMでは、シーケンスはグラフ構造として表現される。 これらの確率はその後、シーケンスとpHMMグラフの類似点を計算するために使用される。 Baum-Welchアルゴリズムは、それらの確率を利用して類似度スコアを最適化し、計算する。 しかし、Baum-Welchアルゴリズムは計算集約的であり、既存のソリューションはpHMMを固定したソフトウェアのみまたはハードウェアのみのアプローチを提供する。 pHMMに対するBaum-Welchアルゴリズムの主な非効率性に対処するために、フレキシブルで高性能でエネルギー効率のよいHW/SW共同設計の緊急ニーズを特定する。 ApHMMは,pHMMに対するBaum-Welchアルゴリズムに関連する計算オーバーヘッドとエネルギーオーバーヘッドを大幅に削減する,最初のフレキシブル・アクセラレーション・フレームワークである。 ApHMMはBaum-Welchアルゴリズムの主要な非効率性に取り組む 1)様々なpHMM設計に対応するフレキシブルハードウェアの設計。 2) オンチップメモリによる予測可能なデータ依存パターンのメモリ化手法 3)ハードウェアベースのフィルタを用いて、無視可能な計算を迅速にフィルタリングし、 4)冗長計算の最小化。 ApHMMはBaum-WelchアルゴリズムのCPU、GPU、FPGAの実装と比較して15.55x - 260.03x, 1.83x - 5.34x, 27.97xの大幅な高速化を実現している。 ApHMMは3つの主要なバイオインフォマティクスアプリケーションで最先端のCPU実装より優れている。 1)エラー訂正 2)タンパク質ファミリー探索、及び 3) それぞれ1.29x - 59.94x, 1.03x1.75x, 1.03x - 1.95xの多重配列アライメントを行い,64.24x - 115.46x, 1.75x, 1.96xのエネルギー効率を向上した。

Profile hidden Markov models (pHMMs) are widely employed in various bioinformatics applications to identify similarities between biological sequences, such as DNA or protein sequences. In pHMMs, sequences are represented as graph structures. These probabilities are subsequently used to compute the similarity score between a sequence and a pHMM graph. The Baum-Welch algorithm, a prevalent and highly accurate method, utilizes these probabilities to optimize and compute similarity scores. However, the Baum-Welch algorithm is computationally intensive, and existing solutions offer either software-only or hardware-only approaches with fixed pHMM designs. We identify an urgent need for a flexible, high-performance, and energy-efficient HW/SW co-design to address the major inefficiencies in the Baum-Welch algorithm for pHMMs. We introduce ApHMM, the first flexible acceleration framework designed to significantly reduce both computational and energy overheads associated with the Baum-Welch algorithm for pHMMs. ApHMM tackles the major inefficiencies in the Baum-Welch algorithm by 1) designing flexible hardware to accommodate various pHMM designs, 2) exploiting predictable data dependency patterns through on-chip memory with memoization techniques, 3) rapidly filtering out negligible computations using a hardware-based filter, and 4) minimizing redundant computations. ApHMM achieves substantial speedups of 15.55x - 260.03x, 1.83x - 5.34x, and 27.97x when compared to CPU, GPU, and FPGA implementations of the Baum-Welch algorithm, respectively. ApHMM outperforms state-of-the-art CPU implementations in three key bioinformatics applications: 1) error correction, 2) protein family search, and 3) multiple sequence alignment, by 1.29x - 59.94x, 1.03x - 1.75x, and 1.03x - 1.95x, respectively, while improving their energy efficiency by 64.24x - 115.46x, 1.75x, 1.96x.
翻訳日:2023-10-25 14:55:26 公開日:2023-10-21
# BVI-VFI:ビデオフレーム補間のためのビデオ品質データベース

BVI-VFI: A Video Quality Database for Video Frame Interpolation ( http://arxiv.org/abs/2210.00823v3 )

ライセンス: Link先を確認
Duolikun Danier, Fan Zhang, David Bull(参考訳) ビデオフレーム補間(VFI)は、ビデオ処理の基本的な研究テーマであり、現在、研究コミュニティ全体で注目を集めている。 より高度なvfiアルゴリズムの開発は広範囲に研究されているが、人間が補間コンテンツの品質をどのように知覚するか、そして既存の客観的品質評価手法が知覚品質を測定する際にどのように機能するかについてはほとんど理解されていない。 この研究ギャップを狭めるためにBVI-VFIという新しいビデオ品質データベースを開発した。このデータベースは5つの一般的なVFIアルゴリズムを適用した540の歪みシーケンスを、様々な空間解像度とフレームレートで36の多様なソースビデオに適用することで生成する。 被験者189名を対象に大規模な主観的研究を行い,これらのビデオの品質評価を10,800件以上収集した。 収集した主観的スコアに基づいて,VFIアルゴリズムとフレームレートが補間ビデオの知覚品質に与える影響をさらに分析した。 さらに,新しいデータベース上での33の古典的,最先端の客観的画像/映像品質指標の性能をベンチマークし,より正確なVFIの品質評価手法の緊急要件を実証した。 この分野のさらなる研究を促進するため、BVI-VFIをhttps://github.com/danier97/BVI-VFI-databaseで公開しました。

Video frame interpolation (VFI) is a fundamental research topic in video processing, which is currently attracting increased attention across the research community. While the development of more advanced VFI algorithms has been extensively researched, there remains little understanding of how humans perceive the quality of interpolated content and how well existing objective quality assessment methods perform when measuring the perceived quality. In order to narrow this research gap, we have developed a new video quality database named BVI-VFI, which contains 540 distorted sequences generated by applying five commonly used VFI algorithms to 36 diverse source videos with various spatial resolutions and frame rates. We collected more than 10,800 quality ratings for these videos through a large scale subjective study involving 189 human subjects. Based on the collected subjective scores, we further analysed the influence of VFI algorithms and frame rates on the perceptual quality of interpolated videos. Moreover, we benchmarked the performance of 33 classic and state-of-the-art objective image/video quality metrics on the new database, and demonstrated the urgent requirement for more accurate bespoke quality assessment methods for VFI. To facilitate further research in this area, we have made BVI-VFI publicly available at https://github.com/danier97/BVI-VFI-database.
翻訳日:2023-10-25 14:46:30 公開日:2023-10-21
# 人間とaiの相互作用から祝福する: コングラウンド環境における超強化学習

Blessing from Human-AI Interaction: Super Reinforcement Learning in Confounded Environments ( http://arxiv.org/abs/2209.15448v2 )

ライセンス: Link先を確認
Jiayi Wang, Zhengling Qi, Chengchun Shi(参考訳) 社会全体でAIが普及するにつれて、それぞれの強みを活用しリスクを軽減する人間とAIシステムを統合する効果的な方法が重要になっている。 本稿では,データ駆動逐次意思決定における人間-aiインタラクションを活用したスーパー強化学習のパラダイムを提案する。 このアプローチは、意思決定者(人間またはAI)のための政策学習において、より強力なオラクルを達成するための入力として、AIまたは人間からの観察されたアクションを利用する。 未測定のコンファウンディングを伴う意思決定プロセスでは、過去のエージェントによるアクションは、未開示の情報に対する貴重な洞察を提供することができる。 方針探索のためのこの情報を新規かつ正当な方法で含むことにより、提案されたスーパー強化学習は、標準の最適方針と行動の双方(例えば過去のエージェントの行動)を上回ることが保証されるスーパーポリシーをもたらす。 私たちはこの強力な神託を、人間とAIの相互作用から祝福している。 さらに、バッチデータを用いた超ポリティシーの探索において、未測定の共起の問題に対処するため、非パラメトリックおよび因果的識別が多数確立される。 これらの新たな識別結果に基づいて,超ポリティカル学習アルゴリズムを開発し,有限サンプル後悔保証などの理論的性質を体系的に研究する。 最後に,本提案の有効性をシミュレーションと実世界の応用により示す。

As AI becomes more prevalent throughout society, effective methods of integrating humans and AI systems that leverage their respective strengths and mitigate risk have become an important priority. In this paper, we introduce the paradigm of super reinforcement learning that takes advantage of Human-AI interaction for data driven sequential decision making. This approach utilizes the observed action, either from AI or humans, as input for achieving a stronger oracle in policy learning for the decision maker (humans or AI). In the decision process with unmeasured confounding, the actions taken by past agents can offer valuable insights into undisclosed information. By including this information for the policy search in a novel and legitimate manner, the proposed super reinforcement learning will yield a super-policy that is guaranteed to outperform both the standard optimal policy and the behavior one (e.g., past agents' actions). We call this stronger oracle a blessing from human-AI interaction. Furthermore, to address the issue of unmeasured confounding in finding super-policies using the batch data, a number of nonparametric and causal identifications are established. Building upon on these novel identification results, we develop several super-policy learning algorithms and systematically study their theoretical properties such as finite-sample regret guarantee. Finally, we illustrate the effectiveness of our proposal through extensive simulations and real-world applications.
翻訳日:2023-10-25 14:46:07 公開日:2023-10-21
# 連合学習における内部回避攻撃の特徴

Characterizing Internal Evasion Attacks in Federated Learning ( http://arxiv.org/abs/2209.08412v3 )

ライセンス: Link先を確認
Taejin Kim, Shubhranshu Singh, Nikhil Madaan and Carlee Joe-Wong(参考訳) フェデレートされた学習により、分散システム内のクライアントは、機械学習モデルの共同トレーニングが可能になる。 しかし、クライアントのモデルは、トレーニングおよびテストフェーズにおける攻撃に対して脆弱である。 本稿では,他のクライアントを騙すために,テスト時に回避攻撃を行う「内部回避攻撃」を行う敵クライアントの問題に対処する。 例えば、敵はスパムフィルタや、フェデレート学習で訓練されたレコメンデーションシステムを騙して金銭的利益を得る。 相手クライアントは、クライアント間で重み情報を共有するため、連合学習環境において被害者モデルに関する広範な情報を有する。 我々は,このような内部回避攻撃の伝達性を,異なる学習法で特徴付け,クライアントデータの類似度に応じてモデル精度とロバスト性とのトレードオフを解析した。 フェデレーション学習環境における敵の訓練防御は,内部攻撃に対する限定的な改善しか示さない。 しかしながら、敵意トレーニングと個人化された連合学習フレームワークを組み合わせることで、敵意トレーニングに比べて相対的な内部攻撃の堅牢性が60%向上し、限られたシステムリソース下ではうまく機能する。

Federated learning allows for clients in a distributed system to jointly train a machine learning model. However, clients' models are vulnerable to attacks during the training and testing phases. In this paper, we address the issue of adversarial clients performing "internal evasion attacks": crafting evasion attacks at test time to deceive other clients. For example, adversaries may aim to deceive spam filters and recommendation systems trained with federated learning for monetary gain. The adversarial clients have extensive information about the victim model in a federated learning setting, as weight information is shared amongst clients. We are the first to characterize the transferability of such internal evasion attacks for different learning methods and analyze the trade-off between model accuracy and robustness depending on the degree of similarities in client data. We show that adversarial training defenses in the federated learning setting only display limited improvements against internal attacks. However, combining adversarial training with personalized federated learning frameworks increases relative internal attack robustness by 60% compared to federated adversarial training and performs well under limited system resources.
翻訳日:2023-10-25 14:45:02 公開日:2023-10-21
# 臨床テキストマイニングのためのクロスドメイン事前学習言語モデルについて:データ制約ファインチューニングでどのように機能するか?

On Cross-Domain Pre-Trained Language Models for Clinical Text Mining: How Do They Perform on Data-Constrained Fine-Tuning? ( http://arxiv.org/abs/2210.12770v3 )

ライセンス: Link先を確認
Samuel Belkadi and Lifeng Han and Yuping Wu and Valerio Antonini and Goran Nenadic(参考訳) 一般または関連するドメインデータから特定のドメインやタスクに、新しいタスクで利用可能な限られた量のリソースを使って事前訓練する大規模言語モデル(LLM)は、NLPフィールドで一般的なプラクティスである。 本研究では,この仮定を再検討し,臨床NLP,特に薬物とその関連属性に対する名義認識について検討する。 我々は,BERTベース,BioBERT,クリニカルBERTなど,スクラッチから学習したTransformerモデルと細調整BERTベースのLLMを比較した。 また,これらのモデルと拡張モデルの連続学習のためのCRF層との比較についても検討した。 我々はモデル開発と評価にn2c2-2018共有タスクデータを使用する。 実験の結果は 1) CRF層は,すべてのニューラルモデルに違いを生じさせる。 2) マクロ平均F1を用いたBIO制限スパンレベル評価では、微調整LDMはスコア0.83+を達成したが、TransformerCRFモデルはスクラッチから学習し、同等の性能を示す0.78以上を得た。 3) 重み付き平均F1を用いたBIO限界スパンレベル評価では, モデル(ClinicalBERT-CRF, BERT-CRF, TransformerCRF)のスコアギャップはさらに小さい (97.59\%, 97.44\%, 96.84\%)。 4)データ分散(sambd)を改善するためのダウンサンプリングを用いた効率的なトレーニングにより、モデル学習のデータはさらに削減されるが、フルセットモデルのトレーニングよりも0.02ポイント低い結果が得られる。 ソースコードを含む私たちのモデルは、 \url{https://github.com/HECTA-UoM/TransformerCRF}でホストされます。

Fine-tuning Large Language Models (LLMs) pre-trained from general or related domain data to a specific domain and task using a limited amount of resources available in the new task has been a popular practice in NLP fields. In this work, we re-visit this assumption, and carry out investigation in clinical NLP, specifically named-entity recognition on Drugs and their related Attributes. We compare Transformer models that are learned from scratch to fine-tuning BERT-based LLMs including BERT-base, BioBERT, and ClinicalBERT. We also investigate the comparison of such models and their extended models with a CRF layer for continuous learning. We use n2c2-2018 shared task data for model development and evaluations. The experimental outcomes show that 1) the CRF layer makes a difference for all neural models; 2) on BIO-strict span level evaluation using macro-average F1, while the fine-tuned LLMs achieved scores 0.83+, the TransformerCRF model learned from scratch achieved 0.78+ demonstrating comparable performances but using much less cost, e.g. 39.80\% less training parameters; 3) on BIO-strict span level evaluation using weighted-average F1, the score gaps are even smaller (97.59\%, 97.44\%, 96.84\%) for models (ClinicalBERT-CRF, BERT-CRF, TransformerCRF). 4) efficient training using down-sampling for better data-distribution (SamBD) further reduced the data for model learning but producing similar outcomes around 0.02 points lower than the full set model training. Our models including source codes will be hosted at \url{https://github.com/HECTA-UoM/TransformerCRF}
翻訳日:2023-10-25 14:36:32 公開日:2023-10-21
# 時間的行動セグメンテーション : 現代技術の分析

Temporal Action Segmentation: An Analysis of Modern Techniques ( http://arxiv.org/abs/2210.10352v5 )

ライセンス: Link先を確認
Guodong Ding, Fadime Sener, and Angela Yao(参考訳) ビデオ中の時間的アクションセグメンテーション(TAS)は、複数のアクションクラスを持つ数分ビデオ内のビデオフレームを密に識別することを目的としている。 長距離ビデオ理解タスクとして、研究者は拡張した手法群を開発し、様々なベンチマークを用いてその性能を調査した。 近年のTAS技術の急速な発展にもかかわらず、これらの分野では体系的な調査は行われていない。 本調査は,最も重要な貢献と傾向を分析し,要約する。 特に,まずタスク定義,共通ベンチマーク,監督の種類,一般的な評価尺度について検討した。 さらに,本研究で広く研究されているフレーム表現と時間モデリングの2つの重要な手法を体系的に検討した。 次に、既存のTAS研究を監督レベルによって分類し、いくつかの研究ギャップを特定し、強調することで調査を終了する。 さらに、我々はTASリソースのリストをキュレートし、https://github.com/nus-cvml/awesome-temporal-action-segmentation.comで入手できる。

Temporal action segmentation (TAS) in videos aims at densely identifying video frames in minutes-long videos with multiple action classes. As a long-range video understanding task, researchers have developed an extended collection of methods and examined their performance using various benchmarks. Despite the rapid growth of TAS techniques in recent years, no systematic survey has been conducted in these sectors. This survey analyzes and summarizes the most significant contributions and trends. In particular, we first examine the task definition, common benchmarks, types of supervision, and prevalent evaluation measures. In addition, we systematically investigate two essential techniques of this topic, i.e., frame representation and temporal modeling, which have been studied extensively in the literature. We then conduct a thorough review of existing TAS works categorized by their levels of supervision and conclude our survey by identifying and emphasizing several research gaps. In addition, we have curated a list of TAS resources, which is available at https://github.com/nus-cvml/awesome-temporal-action-segmentation.
翻訳日:2023-10-25 14:34:58 公開日:2023-10-21
# 一定メモリによるImageNet-1Kへのデータセット蒸留のスケールアップ

Scaling Up Dataset Distillation to ImageNet-1K with Constant Memory ( http://arxiv.org/abs/2211.10586v3 )

ライセンス: Link先を確認
Justin Cui, Ruochen Wang, Si Si, Cho-Jui Hsieh(参考訳) データセット蒸留法(dataset distillation method)は、大規模なデータセットを小さな合成サンプルに圧縮することを目的としている。 最近提案された手法のうち、MTT(Matching Training Trajectories)は、バックプロパゲーションによるアンロール勾配計算を行う際の大きなメモリ要件のため、ImageNet-1kデータセットへのスケーリングが困難でありながら、CIFAR-10/100における最先端のパフォーマンスを達成する。 意外なことに、トラジェクトリー整合損失の勾配を一定のGPUメモリ要件で正確に計算する手順が存在する(無回転ステップの数に関係している)。 これにより、提案手法は6倍のメモリ削減でImageNet-1Kに容易にスケールできるが、実行時のオーバーヘッドは元のNTTよりも2%程度しか発生しない。 さらに,合成画像にソフトラベルを割り当てることは,より多くのカテゴリ(例えば1,000)にスケールする場合のパフォーマンスに不可欠であり,大規模データセットにおけるモデルトレーニングトラジェクタの整合性が向上した,新しいソフトラベルバージョンの軌道マッチングを提案する。 提案アルゴリズムは,ImageNet-1K の以前の SOTA を超低 IPC (Images Per Class) で上回るだけでなく,ImageNet-1K で50 IPC までのスケールアップを可能にする。 我々の方法(TESLA)は27.9%の精度で、先行技術よりも18.2%の差がある。

Dataset distillation methods aim to compress a large dataset into a small set of synthetic samples, such that when being trained on, competitive performances can be achieved compared to regular training on the entire dataset. Among recently proposed methods, Matching Training Trajectories (MTT) achieves state-of-the-art performance on CIFAR-10/100, while having difficulty scaling to ImageNet-1k dataset due to the large memory requirement when performing unrolled gradient computation through back-propagation. Surprisingly, we show that there exists a procedure to exactly calculate the gradient of the trajectory matching loss with constant GPU memory requirement (irrelevant to the number of unrolled steps). With this finding, the proposed memory-efficient trajectory matching method can easily scale to ImageNet-1K with 6x memory reduction while introducing only around 2% runtime overhead than original MTT. Further, we find that assigning soft labels for synthetic images is crucial for the performance when scaling to larger number of categories (e.g., 1,000) and propose a novel soft label version of trajectory matching that facilities better aligning of model training trajectories on large datasets. The proposed algorithm not only surpasses previous SOTA on ImageNet-1K under extremely low IPCs (Images Per Class), but also for the first time enables us to scale up to 50 IPCs on ImageNet-1K. Our method (TESLA) achieves 27.9% testing accuracy, a remarkable +18.2% margin over prior arts.
翻訳日:2023-10-25 14:28:11 公開日:2023-10-21
# 障害のあるモニターフリーフェルミオン

Disordered monitored free fermions ( http://arxiv.org/abs/2211.02534v3 )

ライセンス: Link先を確認
Marcin Szyniszewski, Oliver Lunt, Arijeet Pal(参考訳) ユニタリ進化における量子情報のスクランブルは、定常状態における絡みを抑制する実空間における量子力学的波動関数のピン化によって妨げられる。 監視された自由フェルミオンモデルでは、定常状態は対数的に絡み合った臨界状態から領域法則への移行を行う。 しかし、障害はアンダーソン局在に繋がる可能性がある。 連続モニタリングによるランダム電位自由フェルミオンについて検討し,測定誘起相と局所化相の相互作用について検討する。 臨界相は有限障害まで安定であり、臨界性はベレジンスキー・コステリッツ・チューレス普遍性と一致していることを示す。 さらに、監視は局在を壊し、弱い散逸における領域ロー位相は単粒子波動関数のパワーロー減衰を示す。 我々の研究は、量子ドットアレイとナノワイヤの電子系におけるこの新しい相転移を探索し、絡み合った状態の量子制御を可能にします。

Scrambling of quantum information in unitary evolution can be hindered due to measurements and localization, which pin quantum mechanical wavefunctions in real space suppressing entanglement in the steady state. In monitored free-fermionic models, the steady state undergoes an entanglement transition from a logarithmically entangled critical state to area-law. However, disorder can lead to Anderson localization. We investigate free fermions in a random potential with continuous monitoring, which enables us to probe the interplay between measurement-induced and localized phases. We show that the critical phase is stable up to a finite disorder and the criticality is consistent with the Berezinskii-Kosterlitz-Thouless universality. Furthermore, monitoring destroys localization, and the area-law phase at weak dissipation exhibits power-law decay of single-particle wave functions. Our work opens the avenue to probe this novel phase transition in electronic systems of quantum dot arrays and nanowires, and allow quantum control of entangled states.
翻訳日:2023-10-25 14:26:23 公開日:2023-10-21
# DiSTRICT: Retriever Driven In-Context Tuningによる対話状態追跡

DiSTRICT: Dialogue State Tracking with Retriever Driven In-Context Tuning ( http://arxiv.org/abs/2212.02851v2 )

ライセンス: Link先を確認
Praveen Venkateswaran, Evelyn Duesterwald, Vatche Isahagian(参考訳) タスク指向会話システムの主要なコンポーネントである対話状態追跡(DST)は、進行中の対話において予め定義されたスロットの値を決定することによって、ユーザの意図を表現する。 既存のアプローチでは、手作りのテンプレートと追加のスロット情報を使って微調整を行い、大きな事前学習言語モデルと対話コンテキストからスロット値を抽出する。 効果的なプロンプトを設計するには、重要な手作業とドメイン知識が必要であり、新しいドメインとタスクへのこれらのアプローチの一般化可能性を制限する。 本研究では,手作りのテンプレートを使わずにモデルを微調整するために,与えられた対話に対して高度に関連するトレーニング例を取得するdstのための,汎用的なインコンテキストチューニング手法である districtを提案する。 MultiWOZベンチマークデータセットによる実験によると、DiSTRICTは、はるかに小さなモデルを使用して、さまざまなゼロショットおよび少数ショット設定における既存のアプローチよりも優れており、リソースの可用性が制限された実世界のデプロイメントにおいて重要なアドバンテージを提供する。

Dialogue State Tracking (DST), a key component of task-oriented conversation systems, represents user intentions by determining the values of pre-defined slots in an ongoing dialogue. Existing approaches use hand-crafted templates and additional slot information to fine-tune and prompt large pre-trained language models and elicit slot values from the dialogue context. Significant manual effort and domain knowledge is required to design effective prompts, limiting the generalizability of these approaches to new domains and tasks. In this work, we propose DiSTRICT, a generalizable in-context tuning approach for DST that retrieves highly relevant training examples for a given dialogue to fine-tune the model without any hand-crafted templates. Experiments with the MultiWOZ benchmark datasets show that DiSTRICT outperforms existing approaches in various zero-shot and few-shot settings using a much smaller model, thereby providing an important advantage for real-world deployments that often have limited resource availability.
翻訳日:2023-10-25 14:16:38 公開日:2023-10-21
# 後悔・最適協調的非stastic multi-armed banditsについて

On Regret-optimal Cooperative Nonstochastic Multi-armed Bandits ( http://arxiv.org/abs/2211.17154v3 )

ライセンス: Link先を確認
Jialin Yi and Milan Vojnovi\'c(参考訳) 我々は,遅延を伴う通信ネットワークを介して協調するエージェントによる,非確率的マルチエージェントマルチアームバンディット問題を考える。 すべてのエージェントに対する個人の後悔に対する限界は低い。 適切な正規化器と通信プロトコルを用いて、協調的マルチエージェント \emph{follow-the-regularized-leader} (FTRL) アルゴリズムは、通信グラフ内のエージェントの次数に対して腕の数が十分大きい場合に、下限の値に一致する個々の後悔上限を持つことを示す。 また、エッジ遅延パラメータによるスケーリングに関して、適切な正規化器を持つFTRLアルゴリズムが最適であることを示す。 提案手法が提案するアルゴリズムを上回った場合を数値実験で検証し,実例を示す。

We consider the nonstochastic multi-agent multi-armed bandit problem with agents collaborating via a communication network with delays. We show a lower bound for individual regret of all agents. We show that with suitable regularizers and communication protocols, a collaborative multi-agent \emph{follow-the-regularized-leader} (FTRL) algorithm has an individual regret upper bound that matches the lower bound up to a constant factor when the number of arms is large enough relative to degrees of agents in the communication graph. We also show that an FTRL algorithm with a suitable regularizer is regret optimal with respect to the scaling with the edge-delay parameter. We present numerical experiments validating our theoretical results and demonstrate cases when our algorithms outperform previously proposed algorithms.
翻訳日:2023-10-25 14:16:01 公開日:2023-10-21
# scirepeval: 科学文書表現のためのマルチフォーマットベンチマーク

SciRepEval: A Multi-Format Benchmark for Scientific Document Representations ( http://arxiv.org/abs/2211.13308v3 )

ライセンス: Link先を確認
Amanpreet Singh, Mike D'Arcy, Arman Cohan, Doug Downey, Sergey Feldman(参考訳) 科学的文書の学習表現は、さらに微調整することなく、下流タスクの貴重な入力機能として機能する。 しかし、これらの表現を評価するための既存のベンチマークは、関連するタスクの多様性を捉えていない。 そこで本研究では,科学文書表現の学習と評価のための最初の総合ベンチマークであるscirepevalを紹介する。 それは24の挑戦的で現実的なタスクを含み、そのうち8つは新しいもので、分類、回帰、ランキング、検索の4つの形式がある。 次に、このベンチマークを用いて、科学的文書表現モデルの一般化能力の研究と改善を行う。 SPECTERやSciNCLのような最先端のモデルがタスクフォーマットをまたいで一般化するのにいかに苦労しているかを示す。 しかし、ドキュメントごとに複数の埋め込みを学習する新しいアプローチは、それぞれ異なるフォーマットに合わせて、パフォーマンスを向上させることができる。 タスク形式固有の制御コードとアダプタを実験し、既存の単一埋め込み状態よりも2ポイント以上優れています。 SPECTER2と呼ばれる、コミュニティが利用して構築するためのマルチフォーマットモデル群をリリースする。

Learned representations of scientific documents can serve as valuable input features for downstream tasks without further fine-tuning. However, existing benchmarks for evaluating these representations fail to capture the diversity of relevant tasks. In response, we introduce SciRepEval, the first comprehensive benchmark for training and evaluating scientific document representations. It includes 24 challenging and realistic tasks, 8 of which are new, across four formats: classification, regression, ranking and search. We then use this benchmark to study and improve the generalization ability of scientific document representation models. We show how state-of-the-art models like SPECTER and SciNCL struggle to generalize across the task formats, and that simple multi-task training fails to improve them. However, a new approach that learns multiple embeddings per document, each tailored to a different format, can improve performance. We experiment with task-format-specific control codes and adapters and find they outperform the existing single-embedding state-of-the-art by over 2 points absolute. We release the resulting family of multi-format models, called SPECTER2, for the community to use and build on.
翻訳日:2023-10-25 14:14:23 公開日:2023-10-21
# ロバストな単一量子ビット量子ゲートのセグメンテッド複合設計

Segmented Composite Design of Robust Single-Qubit Quantum Gates ( http://arxiv.org/abs/2301.00253v2 )

ライセンス: Link先を確認
Ido Kaplan, Muhammad Erew, Yonatan Piasetzky, Moshe Goldstein, Yaron Oz, Haim Suchowski(参考訳) 誤り緩和スキームと誤り訂正符号は、過去数十年にわたって量子情報処理研究における多くの取り組みの中心となっている。 提案手法のほとんどが雑音に対して摂動的であり、決定論的系統的誤りを仮定しているが、完全な雑音と誤差分布を考慮した問題の研究はまだ少ない。 本研究では,システム内の物理ノイズと誤差の完全な分布を考慮に入れた複合セグメント設計に基づく,ロバストな単一量子ユニタリゲートの誤差軽減手法を提案する。 これら頑健なセグメントゲートを構築するための2つの最適化アプローチを提供する: 摂動的および非摂動的であり、すべてのエラーに対処する。 デュアルレール指向性カプラ実現のためのフォトニクス領域における本手法を実証する。 基本的単一キュービットのユニタリ演算のための3次元複合設計は、現実的な誤差分布の桁違いの誤差を低減し、この2つのアプローチが小さな誤差に対して互換性があることを示す。 これは現代の誤り訂正符号のオーバーヘッドを大幅に削減することが示されている。 我々の方法はかなり一般的であり、量子情報処理ユニットの他の実現にも適用できる。

Error mitigation schemes and error-correcting codes have been the center of much effort in quantum information processing research over the last few decades. While most of the successful proposed schemes for error mitigation are perturbative in the noise and assume deterministic systematic errors, studies of the problem considering the full noise and errors distribution are still scarce. In this work, we introduce an error mitigation scheme for robust single-qubit unitary gates based on composite segmented design, which accounts for the full distribution of the physical noise and errors in the system. We provide two optimization approaches to construct these robust segmented gates: perturbative and non-perturbative, that addresses all orders of errors. We demonstrate our scheme in the photonics realm for the dual-rail directional couplers realization. We show that the 3-segmented composite design for the fundamental single-qubits unitary operations reduces the error by an order of magnitude for a realistic distribution of errors, and that the two approaches are compatible for small errors. This is shown to significantly reduce the overhead of modern error correction codes. Our methods are rather general and can be applied to other realizations of quantum information processing units.
翻訳日:2023-10-25 14:06:42 公開日:2023-10-21
# 境界散逸スピン鎖におけるスケールフリー非エルミタンスキン効果

Scale-free non-Hermitian skin effect in a boundary-dissipated spin chain ( http://arxiv.org/abs/2301.11896v3 )

ライセンス: Link先を確認
He-Ran Wang, Bo Li, Fei Song, Zhong Wang(参考訳) PT対称非エルミート境界場を持つ開XXZスピン鎖について検討する。 座標bethe ansatzを用いて, 相互作用によるスケールフリーな非エルミティアン皮膚効果を見いだした。 PT破壊相における定常状態と基底状態を構築し、熱力学限界における固有エネルギーの式を得る。 マルチボディのスケールフリー状態と境界弦状態の差を調査し, 等方点における2つの状態の遷移について検討した。 結果を検証するための実験的なスキームについても論じる。

We study the open XXZ spin chain with a PT-symmetric non-Hermitian boundary field. We find an interaction-induced scale-free non-Hermitian skin effect by using the coordinate Bethe ansatz. The steady state and the ground state in the PT broken phase are constructed, and the formulas of their eigen-energies in the thermodynamic limit are obtained. The differences between the many-body scale-free states and the boundary string states are explored, and the transition between the two at isotropic point is investigated. We also discuss an experimental scheme to verify our results.
翻訳日:2023-10-25 13:55:48 公開日:2023-10-21
# 二重敵対的フェデレーションバンド

Doubly Adversarial Federated Bandits ( http://arxiv.org/abs/2301.09223v2 )

ライセンス: Link先を確認
Jialin Yi and Milan Vojnovi\'c(参考訳) 本稿では,複数のエージェントが通信ネットワークを介して協調する,非確率的フェデレーション型多武装バンディット問題について検討する。 腕の喪失は、各時間ステップだけでなく、各エージェントに対しても、各アームの喪失を特定する、不可解な敵によって割り当てられる。 この設定では、異なるエージェントは同じ時間ステップで同じアームを選択するが、異なるフィードバックを観察する。 それぞれのエージェントの目標は、すべてのエージェントの平均累積損失が最も低い、エージェント間のコミュニケーションを必要とする後見の世界で最高のアームを見つけることである。 エージェントが全情報フィードバックやバンディットフィードバックにアクセスできる場合、異なる設定下でのフェデレーションバンディットアルゴリズムに対して、残念な低限度を提供する。 バンディットフィードバック設定のために,federated banditアルゴリズムfeedexp3を提案する。 我々のアルゴリズムは、Cesa-Bianchi et al. (2016): FEDEXP3は、選択された腕のアイデンティティやエージェント間の損失シーケンスを交換することなく、サブ線形後悔を保証できる。 また、理論結果を検証するアルゴリズムの数値評価を行い、合成データと実世界データセットの有効性を実証する。

We study a new non-stochastic federated multi-armed bandit problem with multiple agents collaborating via a communication network. The losses of the arms are assigned by an oblivious adversary that specifies the loss of each arm not only for each time step but also for each agent, which we call ``doubly adversarial". In this setting, different agents may choose the same arm in the same time step but observe different feedback. The goal of each agent is to find a globally best arm in hindsight that has the lowest cumulative loss averaged over all agents, which necessities the communication among agents. We provide regret lower bounds for any federated bandit algorithm under different settings, when agents have access to full-information feedback, or the bandit feedback. For the bandit feedback setting, we propose a near-optimal federated bandit algorithm called FEDEXP3. Our algorithm gives a positive answer to an open question proposed in Cesa-Bianchi et al. (2016): FEDEXP3 can guarantee a sub-linear regret without exchanging sequences of selected arm identities or loss sequences among agents. We also provide numerical evaluations of our algorithm to validate our theoretical results and demonstrate its effectiveness on synthetic and real-world datasets
翻訳日:2023-10-25 13:55:01 公開日:2023-10-21
# 任意の関数のフーリエ近似をロードするための線形深さ量子回路

Linear-depth quantum circuits for loading Fourier approximations of arbitrary functions ( http://arxiv.org/abs/2302.03888v2 )

ライセンス: Link先を確認
Mudassir Moosa, Thomas W. Watts, Yiyou Chen, Abhijat Sarma, Peter L. McMahon(参考訳) 関数を高い忠実度で量子コンピュータに効率的にロードする能力は、多くの量子アルゴリズムにとって不可欠である。 線形深度量子回路を用いて多次元フーリエ系列を正確にエンコードする量子状態を作成するためのフーリエ級数ローダ(FSL)法を提案する。 FSL法は、$D$次元フーリエ級数で指定された$D$次元関数の$$Dn}$ポイント均一離散化を符号化する$Dn$)量子状態を作成する。 自由パラメータ $m < n$ は関数を表すために使われるフーリエ係数 $2^{d(m+1)}$ の数を決定する。 FSL法は、最大で2(n-2)+\lceil \log_{2}(n-m) \rceil + 2^{D(m+1)+2} -2D(m+1)$という深さの量子回路を用いており、これはフーリエ係数の数で線型であり、ロード関数の離散化が指数的に多くの(2^{Dn}$)ポイントを超越しているにもかかわらず、キュービット(Dn$)の数で線型である。 与えられたフーリエ級数に対するFSL回路を決定するために,ランタイム$O(2^{3D(m+1)})$の古典的コンパイルアルゴリズムを提案する。 FSL法は、有限項のフーリエ級数によってよく近似される複素数値関数の高精度なロードを可能にする。 ノイズレス量子回路シミュレーションの結果を,FSL法が連続1D関数をロードする能力,不連続1D関数をそれぞれ10〜6$未満の20量子ビット,10〜3$未満の不連続1D関数に記述した。 また, 量子量子コンピュータにおけるfsl法の実用性を示すために, 量子量子コンピュータ上で行った実験を提示することにより, 3量子ビット上での複素数値関数の忠実度が 95\%$ 以上の複素数値関数と, 古典的フィデリティが $\approx 99\%$ の6量子ビットの様々な 1d 実数値関数, 古典的忠実度が $\approx 94\%$ の 10 量子ビット上の 2d 関数と, 古典的忠実度が $\approx 94\%$ の 2d 関数にロードした。

The ability to efficiently load functions on quantum computers with high fidelity is essential for many quantum algorithms. We introduce the Fourier Series Loader (FSL) method for preparing quantum states that exactly encode multi-dimensional Fourier series using linear-depth quantum circuits. The FSL method prepares a ($Dn$)-qubit state encoding the $2^{Dn}$-point uniform discretization of a $D$-dimensional function specified by a $D$-dimensional Fourier series. A free parameter $m < n$ determines the number of Fourier coefficients, $2^{D(m+1)}$, used to represent the function. The FSL method uses a quantum circuit of depth at most $2(n-2)+\lceil \log_{2}(n-m) \rceil + 2^{D(m+1)+2} -2D(m+1)$, which is linear in the number of Fourier coefficients, and linear in the number of qubits ($Dn$) despite the fact that the loaded function's discretization is over exponentially many ($2^{Dn}$) points. We present a classical compilation algorithm with runtime $O(2^{3D(m+1)})$ to determine the FSL circuit for a given Fourier series. The FSL method allows for the highly accurate loading of complex-valued functions that are well-approximated by a Fourier series with finitely many terms. We report results from noiseless quantum circuit simulations, illustrating the capability of the FSL method to load various continuous 1D functions, and a discontinuous 1D function, on 20 qubits with infidelities of less than $10^{-6}$ and $10^{-3}$, respectively. We also demonstrate the practicality of the FSL method for near-term quantum computers by presenting experiments performed on the Quantinuum H$1$-$1$ and H$1$-$2$ trapped-ion quantum computers: we loaded a complex-valued function on 3 qubits with a fidelity of over $95\%$, as well as various 1D real-valued functions on up to 6 qubits with classical fidelities $\approx 99\%$, and a 2D function on 10 qubits with a classical fidelity $\approx 94\%$.
翻訳日:2023-10-25 13:48:01 公開日:2023-10-21
# 幾何変形スナップショットを用いた血流シミュレーションのためのデータ駆動低次モデル

Data-driven reduced-order modelling for blood flow simulations with geometry-informed snapshots ( http://arxiv.org/abs/2302.11006v3 )

ライセンス: Link先を確認
Dongwei Ye, Valeria Krzhizhanovskaya, Alfons G. Hoekstra(参考訳) パラメトリックな還元次モデリングは、多値シナリオの計算効率を改善するために、あるいはリアルタイムシミュレーションを実行するために、しばしば血行力学シミュレーションの代理的な手法として機能する。 しかし、この方法のスナップショットは、物理的パラメータの単純なプロセスである同じ離散化から収集する必要があるが、特に、患者固有のジオメトリのような、非パラメータ化とユニークな形状を持つ領域において、幾何学的問題では困難になる。 本研究では,類似する異なる領域における血流シミュレーションの効率的な予測のために,データ駆動サーロゲートモデルを提案する。 提案したサロゲートモデルでは群表面の登録を利用してそれらの形状とそれに対応する公式を基準領域と原領域の間に構築された微分同相写像によって幾何学的インフォームドスナップショットにパラメータ化する。 その後、適切な直交分解を用いて幾何学的パラメータの非侵入的還元次数モデルを構築し、形状の圧縮幾何学的パラメータに基づく還元次モデルの還元係数を予測するために放射状基底関数補間器を訓練する。 狭窄と分岐を流れる血液の2つの例を提示し、分析する。 提案するサーロゲートモデルは,血行動態予測の精度と効率を示し,複雑な患者特有のシナリオに対するリアルタイムシミュレーションや不確実性定量化への可能性を示す。

Parametric reduced-order modelling often serves as a surrogate method for hemodynamics simulations to improve the computational efficiency in many-query scenarios or to perform real-time simulations. However, the snapshots of the method require to be collected from the same discretisation, which is a straightforward process for physical parameters, but becomes challenging for geometrical problems, especially for those domains featuring unparameterised and unique shapes, e.g. patient-specific geometries. In this work, a data-driven surrogate model is proposed for the efficient prediction of blood flow simulations on similar but distinct domains. The proposed surrogate model leverages group surface registration to parameterise those shapes and formulates corresponding hemodynamics information into geometry-informed snapshots by the diffeomorphisms constructed between a reference domain and original domains. A non-intrusive reduced-order model for geometrical parameters is subsequently constructed using proper orthogonal decomposition, and a radial basis function interpolator is trained for predicting the reduced coefficients of the reduced-order model based on compressed geometrical parameters of the shape. Two examples of blood flowing through a stenosis and a bifurcation are presented and analysed. The proposed surrogate model demonstrates its accuracy and efficiency in hemodynamics prediction and shows its potential application toward real-time simulation or uncertainty quantification for complex patient-specific scenarios.
翻訳日:2023-10-25 13:35:34 公開日:2023-10-21
# 全員のためのアジャイルテキスト分類器を目指して

Towards Agile Text Classifiers for Everyone ( http://arxiv.org/abs/2302.06541v2 )

ライセンス: Link先を確認
Maximilian Mozes, Jessica Hoffmann, Katrin Tomanek, Muhamed Kouate, Nithum Thain, Ann Yuan, Tolga Bolukbasi, Lucas Dixon(参考訳) テキストベースの安全分類器はコンテンツのモデレーションに広く使われており、デジタルアシスタントやチャットボットの安全性に対する懸念が高まっている。 しかし、異なるポリシーは異なる分類器を必要とし、安全ポリシー自体はイテレーションと適応から改善される。 本稿では、アジャイルテキスト分類の手法を紹介し、特定のポリシーのために迅速に開発できる小さなターゲットデータセットを用いて分類器を訓練する。 安全関連の3つのドメインから7つのデータセットを15のアノテーションスキームで実験した結果、重要な発見が得られました。 これにより、特に安全なオンライン談話をサポートするモデルにおいて、テキスト分類のパラダイムシフトが可能になると論じている。 数百万のサンプルを収集して、数ヶ月や数年にわたって普遍的な安全分類器を作成しようとするのではなく、個人や小さな組織によって作成された小さなデータセットを使って分類器をチューニングし、特定のユースケースに合わせて調整し、一日のタイムスパンで繰り返し適用することができる。

Text-based safety classifiers are widely used for content moderation and increasingly to tune generative language model behavior - a topic of growing concern for the safety of digital assistants and chatbots. However, different policies require different classifiers, and safety policies themselves improve from iteration and adaptation. This paper introduces and evaluates methods for agile text classification, whereby classifiers are trained using small, targeted datasets that can be quickly developed for a particular policy. Experimenting with 7 datasets from three safety-related domains, comprising 15 annotation schemes, led to our key finding: prompt-tuning large language models, like PaLM 62B, with a labeled dataset of as few as 80 examples can achieve state-of-the-art performance. We argue that this enables a paradigm shift for text classification, especially for models supporting safer online discourse. Instead of collecting millions of examples to attempt to create universal safety classifiers over months or years, classifiers could be tuned using small datasets, created by individuals or small organizations, tailored for specific use cases, and iterated on and adapted in the time-span of a day.
翻訳日:2023-10-25 13:33:26 公開日:2023-10-21
# 大型の言語モデルは、あまり良くない情報エクストラクタだが、ハードサンプルのための良いリランカだ!

Large Language Model Is Not a Good Few-shot Information Extractor, but a Good Reranker for Hard Samples! ( http://arxiv.org/abs/2303.08559v2 )

ライセンス: Link先を確認
Yubo Ma, Yixin Cao, YongChing Hong, Aixin Sun(参考訳) 大きな言語モデル(LLM)は、様々なタスクにおいて顕著な進歩を遂げています。 しかし、LLMが情報抽出(IE)タスクの競合的な数ショットソルバであるかどうかは未解決の問題である。 本研究は,この問題に対する完全な回答の提供を目的としている。 4つのieタスクにまたがる9つのデータセットに関する広範な実験を通じて、現在の高度なllmは、ほとんどの設定で微調整されたslmと比較して、性能、レイテンシ、および予算要件が一貫して劣っていることを実証する。 したがって,LLMは一般的には実効的な少数ショット情報抽出器ではない。 それでも、適切なプロンプト戦略により、LSMはSLMを効果的に補完し、SLMが抱える挑戦的なサンプルに取り組むことができる。 さらに,LLM と SLM の長所を結合する適応型フィルタ-then-rerank パラダイムを提案する。 このパラダイムでは、slmはフィルタとして、llmはリランクとして機能する。 SLMによって特定される難しいサンプルのごく一部をLCMにリランクさせるように促すことで、我々の予備的システムは、様々なIEタスクにおける有望な改善(2.4%のF1ゲイン)を、許容時間とコストの投資で継続的に達成する。

Large Language Models (LLMs) have made remarkable strides in various tasks. Whether LLMs are competitive few-shot solvers for information extraction (IE) tasks, however, remains an open problem. In this work, we aim to provide a thorough answer to this question. Through extensive experiments on nine datasets across four IE tasks, we demonstrate that current advanced LLMs consistently exhibit inferior performance, higher latency, and increased budget requirements compared to fine-tuned SLMs under most settings. Therefore, we conclude that LLMs are not effective few-shot information extractors in general. Nonetheless, we illustrate that with appropriate prompting strategies, LLMs can effectively complement SLMs and tackle challenging samples that SLMs struggle with. And moreover, we propose an adaptive filter-then-rerank paradigm to combine the strengths of LLMs and SLMs. In this paradigm, SLMs serve as filters and LLMs serve as rerankers. By prompting LLMs to rerank a small portion of difficult samples identified by SLMs, our preliminary system consistently achieves promising improvements (2.4% F1-gain on average) on various IE tasks, with an acceptable time and cost investment.
翻訳日:2023-10-25 13:26:03 公開日:2023-10-21
# 分布シフト下におけるカオスフェアネス:モデルウェイト摂動アプローチ

Chasing Fairness Under Distribution Shift: A Model Weight Perturbation Approach ( http://arxiv.org/abs/2303.03300v2 )

ライセンス: Link先を確認
Zhimeng Jiang, Xiaotian Han, Hongye Jin, Guanchu Wang, Rui Chen, Na Zou, Xia Hu(参考訳) 近年、機械学習の公平性が注目されている。 分散データに対するアルゴリズム的公平性を改善するフェアネス法は、分散シフト下ではうまく機能しない。 本稿では,まず,分布シフト,データの摂動,モデル重みの摂動との関係を理論的に示す。 その後、ソースデータセットの公平性や、センシティブ属性群毎のソースデータセットとターゲットデータセットとの予測差の低さを含む、ターゲットデータセットの公平性(すなわち、低人口比率)を保証するための十分な条件を分析した。 これらの十分な条件により,各属性群に対するモデル重量摂動球の最悪のケースを考慮し,ロバストフェアネス正則化(RFR)を提案する。 提案したRFRアルゴリズムが各種データセット間の合成および実分布シフトに与える影響を評価する。 実験結果から, RFRはいくつかのベースラインと比較して, 公平性と精度のトレードオフ性能が良好であることが示された。 ソースコードは \url{https://github.com/zhimengj0326/rfr_neurips23} で入手できる。

Fairness in machine learning has attracted increasing attention in recent years. The fairness methods improving algorithmic fairness for in-distribution data may not perform well under distribution shifts. In this paper, we first theoretically demonstrate the inherent connection between distribution shift, data perturbation, and model weight perturbation. Subsequently, we analyze the sufficient conditions to guarantee fairness (i.e., low demographic parity) for the target dataset, including fairness for the source dataset, and low prediction difference between the source and target datasets for each sensitive attribute group. Motivated by these sufficient conditions, we propose robust fairness regularization (RFR) by considering the worst case within the model weight perturbation ball for each sensitive attribute group. We evaluate the effectiveness of our proposed RFR algorithm on synthetic and real distribution shifts across various datasets. Experimental results demonstrate that RFR achieves better fairness-accuracy trade-off performance compared with several baselines. The source code is available at \url{https://github.com/zhimengj0326/RFR_NeurIPS23}.
翻訳日:2023-10-25 13:24:55 公開日:2023-10-21
# 元の単純さの復元:溶接木問題に対する簡潔かつ決定論的量子アルゴリズム

Recovering the original simplicity: succinct and deterministic quantum algorithm for the welded tree problem ( http://arxiv.org/abs/2304.08395v2 )

ライセンス: Link先を確認
Guanzhong Li and Lvzhou Li and Jingquan Luo(参考訳) この研究は、よく知られた溶接木問題の量子アルゴリズムを再検討し、最も単純な量子ウォークに基づく非常に簡潔な量子アルゴリズムを提案する。 自然に定義された量子ウォーク演算子を所定の時間だけ反復し、最後に、古典的なコンピュータ上で所定の時間を効率的に計算できるような測定を行う。 そして、アルゴリズムは正しい解を決定論的に返し、古典的アルゴリズムよりも指数的なスピードアップを達成する。 結果の意義は以下のとおりである。 (i)我々のアルゴリズムは、古典的アルゴリズムよりも2次的なスピードアップを達成できるだけでなく、最も単純な量子ウォークモデルのパワーも示している(Jeffery and Zur, STOC'2023)。 (ii)既存の手法では不可能であるゼロエラーを理論的に達成する。 したがって、決定論的(実演)量子とランダム化されたクエリの複雑度の間の指数関数的分離を示す数少ない例の1つとなり、量子力学は本質的に確率的であるため、ウェドツリー問題に対する指数的スピードアップを持つ決定論的量子アルゴリズムを持つことは不可能であるという人々の認識を変える可能性がある。

This work revisits quantum algorithms for the well-known welded tree problem, proposing a very succinct quantum algorithm based on the simplest coined quantum walks. It simply iterates the naturally defined coined quantum walk operator for a predetermined time and finally measure, where the predetermined time can be efficiently computed on classical computers. Then, the algorithm returns the correct answer deterministically, and achieves exponential speedups over any classical algorithm. The significance of the results may be seen as follows. (i) Our algorithm is rather simple compared with the one in (Jeffery and Zur, STOC'2023), which not only breaks the stereotype that coined quantum walks can only achieve quadratic speedups over classical algorithms, but also demonstrates the power of the simplest quantum walk model. (ii) Our algorithm theoretically achieves zero-error, which is not possible with existing methods. Thus, it becomes one of the few examples that exhibit exponential separation between deterministic (exact) quantum and randomized query complexities, which may also change people's perception that since quantum mechanics is inherently probabilistic, it impossible to have a deterministic quantum algorithm with exponential speedups for the weled tree problem.
翻訳日:2023-10-25 13:06:15 公開日:2023-10-21
# Zenseact Open Dataset: 自動運転のための大規模かつ多様なマルチモーダルデータセット

Zenseact Open Dataset: A large-scale and diverse multimodal dataset for autonomous driving ( http://arxiv.org/abs/2305.02008v2 )

ライセンス: Link先を確認
Mina Alibeigi, William Ljungbergh, Adam Tonderski, Georg Hess, Adam Lilja, Carl Lindstrom, Daria Motorniuk, Junsheng Fu, Jenny Widahl, and Christoffer Petersson(参考訳) 既存の自律運転(ad)のためのデータセットは、360{\deg}の知覚と時間的推論に重点を置きながら、多様性と長距離能力に欠けることが多い。 このギャップに対処するため、欧州各国で2年以上にわたって収集された大規模で多様なマルチモーダルデータセットであるzenseact open dataset (zod)を紹介し、既存のデータセットの9倍の範囲をカバーする。 ZODは、2Dおよび3Dオブジェクト(最大245m)の詳細なキーフレームアノテーション、ロードインスタンス/セマンティックセグメンテーション、トラフィックサイン認識、道路分類など、同等のデータセットの中で最高範囲と解像度のセンサーを備えている。 このユニークな組み合わせは、長距離認識とマルチタスク学習のブレークスルーを促進するだろうと考えています。 データセットはフレーム、シーケンス、ドライブで構成されており、データの多様性と時空間学習、センサー融合、ローカライゼーション、マッピングの両方をサポートするように設計されている。 フレームは100kのキュレートされたカメラ画像と他の2秒間のセンサーデータで構成され、1473のシーケンスと29のドライブはそれぞれ20秒と数分のセンサースイートを含んでいる。 ZODは、パーミッシブライセンスの下でリリースされた唯一の大規模ADデータセットであり、研究と商業の両方が利用可能である。 詳細な情報はhttps://zod.zenseact.comで見ることができる。

Existing datasets for autonomous driving (AD) often lack diversity and long-range capabilities, focusing instead on 360{\deg} perception and temporal reasoning. To address this gap, we introduce Zenseact Open Dataset (ZOD), a large-scale and diverse multimodal dataset collected over two years in various European countries, covering an area 9x that of existing datasets. ZOD boasts the highest range and resolution sensors among comparable datasets, coupled with detailed keyframe annotations for 2D and 3D objects (up to 245m), road instance/semantic segmentation, traffic sign recognition, and road classification. We believe that this unique combination will facilitate breakthroughs in long-range perception and multi-task learning. The dataset is composed of Frames, Sequences, and Drives, designed to encompass both data diversity and support for spatio-temporal learning, sensor fusion, localization, and mapping. Frames consist of 100k curated camera images with two seconds of other supporting sensor data, while the 1473 Sequences and 29 Drives include the entire sensor suite for 20 seconds and a few minutes, respectively. ZOD is the only large-scale AD dataset released under a permissive license, allowing for both research and commercial use. More information, and an extensive devkit, can be found at https://zod.zenseact.com
翻訳日:2023-10-25 12:54:11 公開日:2023-10-21
# ポリシー勾配アルゴリズムは継続によって暗黙的に最適化する

Policy Gradient Algorithms Implicitly Optimize by Continuation ( http://arxiv.org/abs/2305.06851v3 )

ライセンス: Link先を確認
Adrien Bolland, Gilles Louppe, Damien Ernst(参考訳) 強化学習における直接ポリシー最適化は通常、確率勾配上昇によるポリシーパラメータを最適化するポリシー勾配アルゴリズムで解決される。 本稿では,これらのアルゴリズムの理論的解釈と正当化について述べる。 まず、継続フレームワークによる最適化において、直接ポリシー最適化を定式化する。 後者は非凸関数を最適化するためのフレームワークであり、連続体と呼ばれる対象関数列が局所的に最適化される。 第二に、アフィンガウス政策の最適化とエントロピー正規化の実行は、継続による決定主義政策の暗黙の最適化として解釈できることを示す。 これらの理論的な結果に基づき、政策段階的アルゴリズムの探索は、目の前の政策の回帰の継続を計算することと、政策の回帰を最大化するよりも、局所的な過度を避けるためにポリシーの分散が履歴に依存した機能であるべきだと論じる。

Direct policy optimization in reinforcement learning is usually solved with policy-gradient algorithms, which optimize policy parameters via stochastic gradient ascent. This paper provides a new theoretical interpretation and justification of these algorithms. First, we formulate direct policy optimization in the optimization by continuation framework. The latter is a framework for optimizing nonconvex functions where a sequence of surrogate objective functions, called continuations, are locally optimized. Second, we show that optimizing affine Gaussian policies and performing entropy regularization can be interpreted as implicitly optimizing deterministic policies by continuation. Based on these theoretical results, we argue that exploration in policy-gradient algorithms consists in computing a continuation of the return of the policy at hand, and that the variance of policies should be history-dependent functions adapted to avoid local extrema rather than to maximize the return of the policy.
翻訳日:2023-10-25 12:47:23 公開日:2023-10-21
# 粗粒度決定論と非ユニタリダイナミクスによる自発的局所化

Spontaneous localisation from a coarse-grained deterministic and non-unitary dynamics ( http://arxiv.org/abs/2305.06706v3 )

ライセンス: Link先を確認
Kartik Kakade, Avnish Singh and Tejinder P. Singh(参考訳) 波動関数の崩壊は、量子重ね合わせの原理と決定論的進化に反するように見える。 客観的崩壊モデルは、シュリンガー方程式に確率的非一意的かつノルム保存的な修正を加えることによって、この現象の動的説明を提案する。 本稿では,量子系が非単元的だがノルム保存的進化の下でどのように進化するかを問う。 適切な条件下では、量子線型重ね合わせが壊れる単純な2量子ビットモデルを用いて、システムは予測可能のいずれかの代替に駆動されることを示す。 この決定論的力学が粗粒度で低分解能で観測された場合、結果はボルン確率則に従ってランダムに現れる。 したがって, 客観的崩壊モデルにおいて, 非ユニタリティと確率性の役割に光を当てる。

Collapse of the wave function appears to violate the quantum superposition principle as well as deterministic evolution. Objective collapse models propose a dynamical explanation for this phenomenon, by making a stochastic non-unitary and norm-preserving modification to the Schr\"odinger equation. In the present article we ask how a quantum system evolves under a {\it deterministic} and non-unitary but norm-preserving evolution? We show using a simple two-qubit model that under suitable conditions, quantum linear superposition is broken, with the system predictably driven to one or the other alternatives. If this deterministic dynamics is coarse-grained and observed over a lower time resolution, the outcomes appear random while obeying the Born probability rule. Our analysis hence throws light on the distinct roles of non-unitarity and of stochasticity in objective collapse models.
翻訳日:2023-10-25 12:47:07 公開日:2023-10-21
# 善意を超えて:社会善のためのNLPの研究ランドスケープを報告

Beyond Good Intentions: Reporting the Research Landscape of NLP for Social Good ( http://arxiv.org/abs/2305.05471v3 )

ライセンス: Link先を確認
Fernando Gonzalez, Zhijing Jin, Bernhard Sch\"olkopf, Tom Hope, Mrinmaya Sachan, Rada Mihalcea(参考訳) 自然言語処理(NLP)の最近の進歩により、様々なユースケースにまたがって多数のアプリケーションが登場した。 NLP応用の多さの中で、NLP for Social Good (NLP4SG) の最近の取り組みに則って、多くの学術研究者は、社会に良い影響を与える仕事を行う動機がある。 しかし、研究者が今日の大きな社会問題にどのように取り組んでいるかは必ずしも明らかではない。 そこで本稿では,NLP4SG Papersという,NLP4SG論文を識別し,NLP4SGのランドスケープを特徴付ける3つの関連タスクを持つ科学データセットを紹介し,(1)社会問題に対処する論文の識別,(2)対応する国連持続開発目標(SDG)へのマッピング,(3)解決している課題と利用方法の特定を行う。 現状のNLPモデルを用いて、これらのタスクに対処し、ACLアンソロジー全体で使用することにより、研究者がNLP4SGの分野を概観する可視化ワークスペースを提供する。 私たちのウェブサイトはhttps://nlp4sg.vercel.app.comで入手できる。 私たちはデータをhttps://huggingface.co/datasets/feradauto/nlp4sgpapersとhttps://github.com/feradauto/nlp4sgでリリースした。

With the recent advances in natural language processing (NLP), a vast number of applications have emerged across various use cases. Among the plethora of NLP applications, many academic researchers are motivated to do work that has a positive social impact, in line with the recent initiatives of NLP for Social Good (NLP4SG). However, it is not always obvious to researchers how their research efforts are tackling today's big social problems. Thus, in this paper, we introduce NLP4SG Papers, a scientific dataset with three associated tasks that can help identify NLP4SG papers and characterize the NLP4SG landscape by: (1) identifying the papers that address a social problem, (2) mapping them to the corresponding UN Sustainable Development Goals (SDGs), and (3) identifying the task they are solving and the methods they are using. Using state-of-the-art NLP models, we address each of these tasks and use them on the entire ACL Anthology, resulting in a visualization workspace that gives researchers a comprehensive overview of the field of NLP4SG. Our website is available at https://nlp4sg.vercel.app. We released our data at https://huggingface.co/datasets/feradauto/NLP4SGPapers and code at https://github.com/feradauto/nlp4sg
翻訳日:2023-10-25 12:46:33 公開日:2023-10-21
# 結合行列変換による少数原子マルチモードディッケモデルの効率的なテンソルネットワークシミュレーション

Efficient tensor-network simulation for the few-atom multimode Dicke model via coupling-matrix transformation ( http://arxiv.org/abs/2305.03160v2 )

ライセンス: Link先を確認
Christopher J. Ryu, Dong-Yeop Na, Weng C. Chew, Erhan Kudeki(参考訳) 本稿では,結合行列変換を用いて,多原子多モード系に適用可能な連鎖マッピング手法の新たな一般化を提案する。 これは多モードディックモデルとマルチスピンボソンモデルのテンソルネットワークシミュレーションに非常に有用である。 このアプローチは、後者の結合形式を持つ同値なハミルトニアンを生成し、これをバンドハミルトニアンと呼び、その同値性をマルチモードのディック・ハミルトニアンに示す。 単一原子の場合、我々のアプローチはチェーンマッピング技術に還元されます。 数十のフィールドモードを考慮すると、超強結合系における2つの原子のテンソルネットワークシミュレーションが可能であることが判明した。 共振器に閉じ込められた一対の絡み合った原子を30の電磁モードと相互作用させることでこれを実証する。

We present a novel generalization of the chain mapping technique that applies to multi-atom, multimode systems by making use of coupling matrix transformations. This is extremely useful for tensor network simulations of multimode Dicke model and multi-spin-boson model because their coupling structures are altered from the star form to the chain form with near-neighbor interactions. Our approach produces an equivalent Hamiltonian with the latter coupling form, which we call the band Hamiltonian, and we demonstrate its equivalence to the multimode Dicke Hamiltonian. In the single atom case, our approach reduces to the chain mapping technique. When considering several tens of field modes, we have found that tensor network simulation of two atoms in the ultrastrong coupling regime is possible with our approach. We demonstrate this by considering a pair of entangled atoms confined in a cavity, interacting with thirty electromagnetic modes.
翻訳日:2023-10-25 12:45:30 公開日:2023-10-21
# ELSA -- 改良されたコライダーシミュレーションのための拡張潜在空間

ELSA -- Enhanced latent spaces for improved collider simulations ( http://arxiv.org/abs/2305.07696v2 )

ライセンス: Link先を確認
Benjamin Nachman, Ramon Winterhalder(参考訳) シミュレーションは衝突器物理学における推論において重要な役割を果たす。 シミュレーションチェーンの終了時の介入(重み付け)、シミュレーションチェーンの開始時の介入(前処理)、終了と開始の間の接続(相対空間の精細化)など、機械学習を用いたシミュレーションの精度向上のための様々なアプローチを検討する。 提案手法の具体例として, 正規化フローに基づくW+jets行列要素代理シミュレーションを用いる。 まず、データ空間の重みは機械学習分類器を用いて導出される。 次に、データ空間の重みを潜在空間に引き戻し、非重み付き例を生成し、ハミルトンモンテカルロを用いたラテント空間微細化(LASER)プロトコルを用いる。 別のアプローチとして、拡張正規化フローがあり、潜在空間と対象空間の異なる次元を可能にする。 これらの方法は、広く使われているRAMBO-on-dietマッピングの微調整であるハドロン衝突器における質量粒子の新しいおよび一般的な方法を含む、様々な前処理戦略のために研究されている。 修正されたシミュレーションは、幅広い位相空間にまたがる部分精度を達成することができる。

Simulations play a key role for inference in collider physics. We explore various approaches for enhancing the precision of simulations using machine learning, including interventions at the end of the simulation chain (reweighting), at the beginning of the simulation chain (pre-processing), and connections between the end and beginning (latent space refinement). To clearly illustrate our approaches, we use W+jets matrix element surrogate simulations based on normalizing flows as a prototypical example. First, weights in the data space are derived using machine learning classifiers. Then, we pull back the data-space weights to the latent space to produce unweighted examples and employ the Latent Space Refinement (LASER) protocol using Hamiltonian Monte Carlo. An alternative approach is an augmented normalizing flow, which allows for different dimensions in the latent and target spaces. These methods are studied for various pre-processing strategies, including a new and general method for massive particles at hadron colliders that is a tweak on the widely-used RAMBO-on-diet mapping. We find that modified simulations can achieve sub-percent precision across a wide range of phase space.
翻訳日:2023-10-25 12:34:16 公開日:2023-10-21
# Paxion: ビデオ言語基礎モデルにおけるアクション知識のパッチング

Paxion: Patching Action Knowledge in Video-Language Foundation Models ( http://arxiv.org/abs/2305.10683v4 )

ライセンス: Link先を確認
Zhenhailong Wang, Ansel Blume, Sha Li, Genglin Liu, Jaemin Cho, Zineng Tang, Mohit Bansal, Heng Ji(参考訳) 行動知識は、行動のテキスト的、視覚的、時間的側面を理解することを含む。 action dynamics benchmark (actionbench) では,マルチモーダルアライメント機能と時間的理解スキルをそれぞれ対象とするaction antonymとvideo reversalという,注意深く設計された2つのプロビングタスクについて紹介する。 最近のビデオ言語モデル(VidLM)の様々なベンチマークタスクにおける印象的なパフォーマンスにもかかわらず、我々の診断タスクは、アクション知識の驚くべき不足(ほぼランダムなパフォーマンス)を明らかにし、現在のモデルはアクション理解のショートカットとしてオブジェクト認識能力に依存していることを示唆している。 そこで本研究では,DVDM(Dis Discriminative Video Dynamics Modeling)の目的と合わせて,新しいフレームワークPaxionを提案する。 Paxionフレームワークは、Knowledge Patcherネットワークを使用して、新しいアクション知識とKnowledge Fuserコンポーネントをエンコードし、Pacherを凍結したVidLMに統合する。 アクション知識の学習に広く使われているビデオテキストコントラスト(vtc)ロスの制限により,知識パッカーの訓練にdvdm目標を導入する。 DVDMは、アクションテキストとビデオフレームの正しい順序の相関をエンコードするようにモデルを強制する。 広範な分析の結果,paxion と dvdm はともに動作知識理解のギャップ(約50%から80%)を効果的に満たし,オブジェクトと動作中心のダウンストリームタスクの両方において,パフォーマンスを維持あるいは改善できることがわかった。 コードとデータはhttps://github.com/MikeWangWZHL/Paxion.gitで公開されている。

Action knowledge involves the understanding of textual, visual, and temporal aspects of actions. We introduce the Action Dynamics Benchmark (ActionBench) containing two carefully designed probing tasks: Action Antonym and Video Reversal, which targets multimodal alignment capabilities and temporal understanding skills of the model, respectively. Despite recent video-language models' (VidLM) impressive performance on various benchmark tasks, our diagnostic tasks reveal their surprising deficiency (near-random performance) in action knowledge, suggesting that current models rely on object recognition abilities as a shortcut for action understanding. To remedy this, we propose a novel framework, Paxion, along with a new Discriminative Video Dynamics Modeling (DVDM) objective. The Paxion framework utilizes a Knowledge Patcher network to encode new action knowledge and a Knowledge Fuser component to integrate the Patcher into frozen VidLMs without compromising their existing capabilities. Due to limitations of the widely-used Video-Text Contrastive (VTC) loss for learning action knowledge, we introduce the DVDM objective to train the Knowledge Patcher. DVDM forces the model to encode the correlation between the action text and the correct ordering of video frames. Our extensive analyses show that Paxion and DVDM together effectively fill the gap in action knowledge understanding (~50% to 80%), while maintaining or improving performance on a wide spectrum of both object- and action-centric downstream tasks. The code and data will be made publicly available for research purposes at https://github.com/MikeWangWZHL/Paxion.git.
翻訳日:2023-10-25 12:25:46 公開日:2023-10-21
# 対称パラメトリック増幅器の$\mathcal{p}\mathcal{t}$-symmetricについて

On the $\mathcal{P}\mathcal{T}$-symmetric parametric amplifier ( http://arxiv.org/abs/2305.13336v2 )

ライセンス: Link先を確認
Pinaki Patra(参考訳) パラメトリック増幅器は、量子情報の機械運動への変換を含む測定の不可欠な部分である。 非崩壊パリティと時間反転(pt)対称性を持つ一般時間依存のpt対称パラメトリック振動子を理論的に研究した。 明示的な計量作用素を構成することにより、非エルミート pt-対称系を等価なエルミートハミルトン系に変換し、これは$\mathbb{l}^2$空間の利用可能なメカニズムを利用することができる。 この系に対する時間依存(TD) Schr\"{o}dinger 方程式はルイス=リースフェルド位相空間法(英語版)(LR)によって解かれる。 lr-不変作用素 (\hat{\mathcal{i}}$) の固有状態は、$\hat{\mathcal{i}}$ をその対角シンプレクティック同値形式 (群 $sp(2, \mathbb{r})$) に変換することによって得られる。 $\hat{\mathcal{I}}$ の固有状態に関連する動的および幾何学的な位相因子は明示的に記述される。 実験結果は,Wigner準確率分布の構築を通じて概説した。 さらに、TDパラメトリック増幅器の2つの空間分離された既成基底状態からなる系のウィグナー分布の時間変化をデモした。 ウィグナー分布の時間変化の図式を用いて, 位相空間の絡み合いは, 粒子がどこまで移動しても, 少なくとも猫の状態については, 時間に依存した状況でも保たれることを示した。 物理的に関係のある品質の正確な表現を求め、玩具モデルのために図示する。

Parametric amplifiers are an integral part of measurements involving the conversion of propagating quantum information to mechanical motion. General time-dependent PT-symmetric parametric oscillators for unbroken parity and time reversal (PT) symmetry regimes are studied theoretically. By constructing an explicit metric operator, we have transformed the non-Hermitian PT-symmetric system to an equivalent Hermitian Hamiltonian, which enables us to utilize the available mechanism of $\mathbb{L}^2$ space. The time-dependent (TD) Schr\"{o}dinger equation for the system is solved with the Lewis-Riesenfeld (LR) phase space method. The eigenstates of the LR-invariant operator ($\hat{\mathcal{I}}$) is obtained after transforming $\hat{\mathcal{I}}$ to its diagonal symplectic equivalent form (group $Sp(2, \mathbb{R})$). Both the dynamical and geometrical phase factors associated with the eigenstates of $\hat{\mathcal{I}}$ are explicitly written. The experimental pheasibility of our result is outlined through the construction of Wigner quasiprobability distribution. Moreover, we have demostrated the time variation of the Wigner distribution for the system consisting of two spatially separated prepared ground state of the TD-parametric amplifier. With graphical illustration of time variation of Wigner distributions, we show that the phase-space entanglement remains intact even for time-dependent situation, no matter how far the particles goes, at least for the cat-state under consideration. The exact expressions for the physically relevant qualities are obtained and illustrated for a toy model.
翻訳日:2023-10-25 12:16:12 公開日:2023-10-21
# 命令型言語モデルを用いたファウショットの自動分類

Automated Few-shot Classification with Instruction-Finetuned Language Models ( http://arxiv.org/abs/2305.12576v2 )

ライセンス: Link先を確認
Rami Aly, Xingjian Shi, Kaixiang Lin, Aston Zhang, Andrew Gordon Wilson(参考訳) 数少ない学習のための、特に成功したアプローチのクラスは、言語モデルとプロンプトを組み合わせる -- データサンプルを補完する手作りのタスク記述。 しかし、各タスクに対して手作業でプロンプトを設計するには、ドメインの知識とかなりの推測が必要となる。 分類タスクの文脈において,命令の微調整された言語モデルが著しく頑健性を示すことを観察し,その後,手作りのプロンプトの必要性をなくす簡単な手法であるaut-fewを提案する。 このアプローチは (i)指示調整知識ベースから適切なタスク命令を選択するプロンプト検索モジュール、及び (II)クロスバリデーションによる2つの異なる意味論的意味のあるクラス記述と選択機構の生成。 12ドル以上のデータセットは、分類タスクが8ドルを超えており、AuT-Fewが現在の最先端の数ショット学習方法より優れていることを示している。 さらに、AuT-FewはRAFT数ショットベンチマークでデータセット間で最高のランキング方法である。 特筆すべきは、これらの結果は、見当たらないタスクのタスク固有の手作りプロンプトなしで達成される。

A particularly successful class of approaches for few-shot learning combines language models with prompts -- hand-crafted task descriptions that complement data samples. However, designing prompts by hand for each task commonly requires domain knowledge and substantial guesswork. We observe, in the context of classification tasks, that instruction finetuned language models exhibit remarkable prompt robustness, and we subsequently propose a simple method to eliminate the need for handcrafted prompts, named AuT-Few. This approach consists of (i) a prompt retrieval module that selects suitable task instructions from the instruction-tuning knowledge base, and (ii) the generation of two distinct, semantically meaningful, class descriptions and a selection mechanism via cross-validation. Over $12$ datasets, spanning $8$ classification tasks, we show that AuT-Few outperforms current state-of-the-art few-shot learning methods. Moreover, AuT-Few is the best ranking method across datasets on the RAFT few-shot benchmark. Notably, these results are achieved without task-specific handcrafted prompts on unseen tasks.
翻訳日:2023-10-25 12:13:48 公開日:2023-10-21
# 大規模言語モデルによる編集操作予測によるシーケンス長の削減

Reducing Sequence Length by Predicting Edit Operations with Large Language Models ( http://arxiv.org/abs/2305.11862v2 )

ライセンス: Link先を確認
Masahiro Kaneko, Naoaki Okazaki(参考訳) 大規模言語モデル(LLM)は様々なタスクにおいて顕著な性能を示しており、大きな注目を集めている。 LLMは、文法的誤り訂正(GEC)や形式的スタイルの転送など、ほとんどのソーステキストのトークンが変更されないような局所的なシーケンス変換タスクにも使用される。 しかし、そのようなタスクで全てのターゲットトークンを生成するモデルは、入力テキストと出力テキストの違いがトレーニングデータに最小限であるため、必要な変更を加えることなく、入力テキストをそのままコピーする傾向にある。 計算コストは、Transformerでターゲットシーケンスの長さと2倍に増加するため、これは非効率である。 本稿では,ローカルシーケンス変換タスクのソーステキストに対する編集スパンの予測を提案する。 ソーステキストの位置と訂正されたトークンで編集スパンを表現することで、ターゲットシーケンスの長さと推論の計算コストを削減できる。 編集スパンの監督データにLLMの命令チューニングを適用する。 提案手法は,対象テキストの長さを最大21%削減しつつも,パラフレージング,形式スタイル転送,gec,テキスト簡易化という4つのタスクにおいて,ベースラインと同等の性能を実現することを示す。 さらに,提案手法によるタスク固有の微調整が4つのタスクにおいて最先端の性能を達成したことを報告する。

Large Language Models (LLMs) have demonstrated remarkable performance in various tasks and gained significant attention. LLMs are also used for local sequence transduction tasks, including grammatical error correction (GEC) and formality style transfer, where most tokens in a source text are kept unchanged. However, the models that generate all target tokens in such tasks have a tendency to simply copy the input text as is, without making needed changes, because the difference between input and output texts is minimal in the training data. This is also inefficient because the computational cost grows quadratically with the target sequence length with Transformer. This paper proposes predicting edit spans for the source text for local sequence transduction tasks. Representing an edit span with a position of the source text and corrected tokens, we can reduce the length of the target sequence and the computational cost for inference. We apply instruction tuning for LLMs on the supervision data of edit spans. Experiments show that the proposed method achieves comparable performance to the baseline in four tasks, paraphrasing, formality style transfer, GEC, and text simplification, despite reducing the length of the target text by as small as 21%. Furthermore, we report that the task-specific fine-tuning with the proposed method achieved state-of-the-art performance in the four tasks.
翻訳日:2023-10-25 12:12:45 公開日:2023-10-21
# 合成フィードバックによる大規模言語モデルの調整

Aligning Large Language Models through Synthetic Feedback ( http://arxiv.org/abs/2305.13735v2 )

ライセンス: Link先を確認
Sungdong Kim, Sanghwan Bae, Jamin Shin, Soyoung Kang, Donghyun Kwak, Kang Min Yoo, Minjoon Seo(参考訳) 大規模言語モデル(LLM)を人的価値に適応させることは、LLMの高度なステアリングを可能にするため、ますます重要になっている。 しかし、ChatGPTのようなプロプライエタリなLCMからの人間のデモンストレーションやフィードバック、蒸留が必要である。 本稿では,人間のアノテーションやプロプライエタリなllmに依存しない合成フィードバックを用いた新しいアライメント学習フレームワークを提案する。 まず,バニラLLMからの応答を様々なサイズとプロンプトと対比することにより,合成フィードバックによる報酬モデリング(RM)を行う。 そして、RMを用いて高品質なデモンストレーションをシミュレートし、教師付きポリシーを訓練し、強化学習でモデルをさらに最適化する。 得られたモデルであるAligned Language Model with Synthetic Training dataset (ALMoST)は、InstructGPTや人間による注釈付きデモンストレーションのアウトプットに基づいてトレーニングされた最近のオープンソースモデルよりも、アライメントベンチマークで優れている。 人間の評価では,我々のモデルはアルパカとドリー-v2にそれぞれ55.0%,58.5%が好まれる。 さらなる分析により, 合成フィードバックの有効性と重要性が実証された。 コードはhttps://github.com/naver-ai/almostで入手できる。

Aligning large language models (LLMs) to human values has become increasingly important as it enables sophisticated steering of LLMs. However, it requires significant human demonstrations and feedback or distillation from proprietary LLMs such as ChatGPT. In this work, we propose a novel alignment learning framework with synthetic feedback not dependent on extensive human annotations and proprietary LLMs. First, we perform reward modeling (RM) with synthetic feedback by contrasting responses from vanilla LLMs with various sizes and prompts. Then, we use the RM to simulate high-quality demonstrations to train a supervised policy and further optimize the model with reinforcement learning. Our resulting model, Aligned Language Model with Synthetic Training dataset (ALMoST), outperforms recent open-sourced models, which are trained on the outputs of InstructGPT or human-annotated demonstrations, in alignment benchmarks. In human evaluation, our model is preferred to Alpaca and Dolly-v2, 55.0% and 58.5% of the time, respectively. Further analyses demonstrate the efficacy and importance of synthetic feedback in our framework. The code is available at https://github.com/naver-ai/almost
翻訳日:2023-10-25 12:05:55 公開日:2023-10-21
# MAILEX: メールイベントと引数抽出

MAILEX: Email Event and Argument Extraction ( http://arxiv.org/abs/2305.13469v2 )

ライセンス: Link先を確認
Saurabh Srivastava, Gaurav Singh, Shou Matsumoto, Ali Raz, Paulo Costa, Joshua Poore, Ziyu Yao(参考訳) 本研究では,会話型メールスレッドからイベント抽出を行うための最初のデータセットであるMailExを紹介する。 そこで我々はまず,メール領域における10のイベントタイプと76の引数をカバーする新しい分類法を提案した。 最終データセットには1.5KのEメールスレッドと4KのEメールが含まれています。 課題を理解するため,我々は3つの手法,すなわち微調整されたシーケンスラベリング,微調整された生成抽出,数発のインコンテキスト学習を比較した。 その結果,メールイベント抽出の課題は,非連続的かつ共有的なトリガスパンの抽出,名前のないエンティティ引数の抽出,メール会話履歴のモデル化など,解決には程遠いことが判明した。 私たちの研究は、このドメイン固有のイベント抽出タスクのさらなる将来的な調査を示唆します。

In this work, we present the first dataset, MailEx, for performing event extraction from conversational email threads. To this end, we first proposed a new taxonomy covering 10 event types and 76 arguments in the email domain. Our final dataset includes 1.5K email threads and ~4K emails, which are annotated with totally ~8K event instances. To understand the task challenges, we conducted a series of experiments comparing three types of approaches, i.e., fine-tuned sequence labeling, fine-tuned generative extraction, and few-shot in-context learning. Our results showed that the task of email event extraction is far from being addressed, due to challenges lying in, e.g., extracting non-continuous, shared trigger spans, extracting non-named entity arguments, and modeling the email conversational history. Our work thus suggests more future investigations in this domain-specific event extraction task.
翻訳日:2023-10-25 12:04:07 公開日:2023-10-21
# CTQScorer: 機械翻訳のためのインコンテキスト例選択のための複数の特徴を組み合わせる

CTQScorer: Combining Multiple Features for In-context Example Selection for Machine Translation ( http://arxiv.org/abs/2305.14105v2 )

ライセンス: Link先を確認
Aswanth Kumar and Ratish Puduppully and Raj Dabre and Anoop Kunchukuttan(参考訳) 大規模な言語モデルでは、入力がいくつかの例(コンテキスト内学習)で促されると、機械翻訳で実行する能力が実証されている。 翻訳品質は、その品質や関連性など、選択された例の様々な特徴に依存するが、以前の研究は個々の特徴を独立して重視してきた。 本稿では, 異なる特徴を組み合わせ, サンプル選択に影響を及ぼす一般的なフレームワークを提案する。 我々は、翻訳品質を最大化するために、複数の特徴に基づいてサンプルを選択する回帰モデルCTQ Scorer (Contextual Translation Quality) を学習する。 複数の言語ペアと言語モデルにおいて、CTQ Scorerは、文献で報告されている強力な単一要素ベースラインと同様に、ランダム選択を著しく上回ることを示す。 また,強力なBM25検索ベースラインに対して平均2.5 COMET点以上の改善が見られた。

Large language models have demonstrated the capability to perform on machine translation when the input is prompted with a few examples (in-context learning). Translation quality depends on various features of the selected examples, such as their quality and relevance, but previous work has predominantly focused on individual features in isolation. In this paper, we propose a general framework for combining different features influencing example selection. We learn a regression model, CTQ Scorer (Contextual Translation Quality), that selects examples based on multiple features in order to maximize the translation quality. On multiple language pairs and language models, we show that CTQ Scorer helps significantly outperform random selection as well as strong single-factor baselines reported in the literature. We also see an improvement of over 2.5 COMET points on average with respect to a strong BM25 retrieval-based baseline.
翻訳日:2023-10-25 11:52:52 公開日:2023-10-21
# 呼吸音分類における音声スペクトログラムトランスフォーマを用いたパッチミックスコントラスト学習

Patch-Mix Contrastive Learning with Audio Spectrogram Transformer on Respiratory Sound Classification ( http://arxiv.org/abs/2305.14032v3 )

ライセンス: Link先を確認
Sangmin Bae, June-Woo Kim, Won-Yang Cho, Hyerim Baek, Soyoun Son, Byungjo Lee, Changwan Ha, Kyongpil Tae, Sungnyun Kim, Se-Young Yun(参考訳) 呼吸音は致命的な肺疾患の早期診断に重要な情報を含んでいる。 新型コロナウイルス(COVID-19)のパンデミック以降、電子聴診器に基づく非接触医療への関心が高まっている。 この目的のために、最先端の深層学習モデルが肺疾患の診断のために開発されたが、医療データの不足のため、依然として困難である。 本研究では,大規模視覚および音声データセットにおける事前学習モデルが呼吸音分類タスクに一般化できることを実証する。 さらに,Audio Spectrogram Transformer (AST) を用いて,異なるサンプル間のパッチをランダムに混合する,単純なPatch-Mix Augmentationを導入する。 さらに,潜在空間における混合表現を識別する新しいパッチ混合コントラスト学習を提案する。 提案手法はICBHIデータセット上での最先端性能を実現し,4.08%の改善により先行先行スコアを上回った。

Respiratory sound contains crucial information for the early diagnosis of fatal lung diseases. Since the COVID-19 pandemic, there has been a growing interest in contact-free medical care based on electronic stethoscopes. To this end, cutting-edge deep learning models have been developed to diagnose lung diseases; however, it is still challenging due to the scarcity of medical data. In this study, we demonstrate that the pretrained model on large-scale visual and audio datasets can be generalized to the respiratory sound classification task. In addition, we introduce a straightforward Patch-Mix augmentation, which randomly mixes patches between different samples, with Audio Spectrogram Transformer (AST). We further propose a novel and effective Patch-Mix Contrastive Learning to distinguish the mixed representations in the latent space. Our method achieves state-of-the-art performance on the ICBHI dataset, outperforming the prior leading score by an improvement of 4.08%.
翻訳日:2023-10-25 11:52:38 公開日:2023-10-21
# 連続分解能リモートセンシング画像変化検出

Continuous Cross-resolution Remote Sensing Image Change Detection ( http://arxiv.org/abs/2305.14722v2 )

ライセンス: Link先を確認
Hao Chen, Haotian Zhang, Keyan Chen, Chenyao Zhou, Song Chen, Zhengxia Zou, Zhenwei Shi(参考訳) 現代の監視型リモートセンシング (RS) 画像変化検出 (CD) のアプローチは、等分解能バイテンポラル画像に対してカスタマイズされる。 現実世界のアプリケーションは、空間解像度の異なるバイテンポラル画像に基づくクロスレゾリューション変化検出、別名cdの必要性を高める。 高分解能 (hr) 画像と低分解能 (lr) 画像との間の固定型バイテンポラル分解能差 (fixed bitemporal resolution difference, ratio) のトレーニングサンプルが与えられた場合、現在のクロス解像度法は一定の比率に適合するが、他の分解能差に適応しない。 連続的なクロスレゾリューションCDに向けて、様々な解像度差の合成サンプルから得られたHR結果を連続的に予測するモデルのスケール不変学習を提案する。 具体的には、HR画像とLR画像のギャップを減らすために、ランダムなダウンサンプル再構成により、HR画像のぼやけたバージョンを合成する。 座標クエリと対応する多レベル埋め込み特徴をmlpに供給してピクセル単位の予測をデコードするために座標に基づく表現を導入することにより、lr画像中のぼやけた物体を認識することができる。 さらに,空間分解能が局所的なテクスチャに主に影響を及ぼすことを考慮し,エンコーダの初期段階において,局所風下自己アテンションを用いてバイテンポラルな特徴を整列させる。 2つの合成および1つの実世界の異なる分解能CDデータセットに対する大規模な実験により、提案手法の有効性が検証された。 本手法は,3つのデータセットにおけるバニラcd法と2つのクロスレゾリューションcd法を,分布内と分布外の両方において有意に上回っている。 その結果,両時間分解能比の変動にかかわらず,比較的一貫したHR変化予測が得られることが示された。 私たちのコードは \url{https://github.com/justchenhao/SILI_CD} で利用可能です。

Most contemporary supervised Remote Sensing (RS) image Change Detection (CD) approaches are customized for equal-resolution bitemporal images. Real-world applications raise the need for cross-resolution change detection, aka, CD based on bitemporal images with different spatial resolutions. Given training samples of a fixed bitemporal resolution difference (ratio) between the high-resolution (HR) image and the low-resolution (LR) one, current cross-resolution methods may fit a certain ratio but lack adaptation to other resolution differences. Toward continuous cross-resolution CD, we propose scale-invariant learning to enforce the model consistently predicting HR results given synthesized samples of varying resolution differences. Concretely, we synthesize blurred versions of the HR image by random downsampled reconstructions to reduce the gap between HR and LR images. We introduce coordinate-based representations to decode per-pixel predictions by feeding the coordinate query and corresponding multi-level embedding features into an MLP that implicitly learns the shape of land cover changes, therefore benefiting recognizing blurred objects in the LR image. Moreover, considering that spatial resolution mainly affects the local textures, we apply local-window self-attention to align bitemporal features during the early stages of the encoder. Extensive experiments on two synthesized and one real-world different-resolution CD datasets verify the effectiveness of the proposed method. Our method significantly outperforms several vanilla CD methods and two cross-resolution CD methods on the three datasets both in in-distribution and out-of-distribution settings. The empirical results suggest that our method could yield relatively consistent HR change predictions regardless of varying bitemporal resolution ratios. Our code is available at \url{https://github.com/justchenhao/SILI_CD}.
翻訳日:2023-10-25 11:46:34 公開日:2023-10-21
# 画像キャプションの自動評価尺度におけるジェンダーバイアス

Gender Biases in Automatic Evaluation Metrics for Image Captioning ( http://arxiv.org/abs/2305.14711v2 )

ライセンス: Link先を確認
Haoyi Qiu, Zi-Yi Dou, Tianlu Wang, Asli Celikyilmaz, Nanyun Peng(参考訳) モデルに基づく評価指標(例えば、CLIPScoreとGPTScore)は、様々な言語生成タスクにおける人間の判断と十分な相関を示す。 しかし、フェアネスへの影響はほとんど未解明のままである。 事前訓練されたモデルは社会バイアスを不注意にエンコードできるため、評価目的にこれらのモデルを使用することでバイアスを不注意に持続し、増幅することができると広く認識されている。 例えば、評価基準は、画像が男性会計士のみを示す場合であっても、「男性が会計帳を計算している」というキャプションを「男性が会計帳を計算している」よりも好むことがある。 本稿では,画像キャプションタスクのためのモデルベース自動評価尺度における性別バイアスの体系的研究を行う。 まず、ステレオタイプのジェンダーアソシエーションに関連する職業、活動、および対象概念からなるデータセットをキュレートすることから始める。 そして、これらのバイアス付き指標を用いて、バイアス付き世代とバイアスなし世代を区別できないことや、強化学習による世代モデルへのバイアスの伝播など、負の結果を示す。 最後に,人間の判断との相関を損なうことなく,簡易かつ効果的な距離バイアス軽減手法を提案する。 我々のデータセットとフレームワークは、モデルに基づく評価指標の潜在的な害を理解し、より包括的な評価指標を開発するための将来の作業を促進する基盤を築いた。

Model-based evaluation metrics (e.g., CLIPScore and GPTScore) have demonstrated decent correlations with human judgments in various language generation tasks. However, their impact on fairness remains largely unexplored. It is widely recognized that pretrained models can inadvertently encode societal biases, thus employing these models for evaluation purposes may inadvertently perpetuate and amplify biases. For example, an evaluation metric may favor the caption "a woman is calculating an account book" over "a man is calculating an account book," even if the image only shows male accountants. In this paper, we conduct a systematic study of gender biases in model-based automatic evaluation metrics for image captioning tasks. We start by curating a dataset comprising profession, activity, and object concepts associated with stereotypical gender associations. Then, we demonstrate the negative consequences of using these biased metrics, including the inability to differentiate between biased and unbiased generations, as well as the propagation of biases to generation models through reinforcement learning. Finally, we present a simple and effective way to mitigate the metric bias without hurting the correlations with human judgments. Our dataset and framework lay the foundation for understanding the potential harm of model-based evaluation metrics, and facilitate future works to develop more inclusive evaluation metrics.
翻訳日:2023-10-25 11:46:00 公開日:2023-10-21
# ユニバーサル・セルフアダプティブ・プロンプティング

Universal Self-Adaptive Prompting ( http://arxiv.org/abs/2305.14926v2 )

ライセンス: Link先を確認
Xingchen Wan, Ruoxi Sun, Hootan Nakhost, Hanjun Dai, Julian Martin Eisenschlos, Sercan O. Arik, Tomas Pfister(参考訳) 現代の大規模言語モデル(LLM)の目印は、その印象的なゼロショットと少数ショットの能力であり、しばしばインコンテキスト学習(ICL)を通じてプロンプトによって引き起こされる。 しかしながら、llmにおけるゼロショット性能は、高いコベットと最も一般的なものであるにもかかわらず、ガイダンスの欠如と、地上ラベルが使用できない場合の一般的なタスクに既存の自動プロンプト設計手法を適用することの難しさにより、依然として弱い。 本研究では,ゼロショット学習に特化した自動プロンプト設計手法であるuniversal self-adaptive prompting (usp) を提案する。 普遍的なプロンプトを達成するため、USPは可能なNLPタスクを3つの可能なタスクタイプのうちの1つに分類し、対応するセレクタを使用して、最も適切なクエリとゼロショットモデル生成レスポンスを擬似デモとして選択し、ICLをゼロショット設定に完全に自動で一般化する。 我々は、PaLMとPaLM 2モデルを用いてUSPを評価し、標準のゼロショットベースラインよりもかなり強く、40以上の自然言語理解、自然言語生成、推論タスクにまたがる少数ショットベースラインに匹敵する性能を示す。

A hallmark of modern large language models (LLMs) is their impressive general zero-shot and few-shot abilities, often elicited through in-context learning (ICL) via prompting. However, while highly coveted and being the most general, zero-shot performances in LLMs are still typically weaker due to the lack of guidance and the difficulty of applying existing automatic prompt design methods in general tasks when ground-truth labels are unavailable. In this study, we address this by presenting Universal Self-Adaptive Prompting (USP), an automatic prompt design approach specifically tailored for zero-shot learning (while compatible with few-shot). Requiring only a small amount of unlabeled data and an inference-only LLM, USP is highly versatile: to achieve universal prompting, USP categorizes a possible NLP task into one of the three possible task types and then uses a corresponding selector to select the most suitable queries and zero-shot model-generated responses as pseudo-demonstrations, thereby generalizing ICL to the zero-shot setup in a fully automated way. We evaluate USP with PaLM and PaLM 2 models and demonstrate performances that are considerably stronger than standard zero-shot baselines and often comparable to or even superior to few-shot baselines across more than 40 natural language understanding, natural language generation, and reasoning tasks.
翻訳日:2023-10-25 11:33:58 公開日:2023-10-21
# GPTAraEval:アラビア語NLPにおけるChatGPTの総合評価

GPTAraEval: A Comprehensive Evaluation of ChatGPT on Arabic NLP ( http://arxiv.org/abs/2305.14976v2 )

ライセンス: Link先を確認
Md Tawkat Islam Khondaker, Abdul Waheed, El Moatez Billah Nagoudi, Muhammad Abdul-Mageed(参考訳) ChatGPTの出現は、特に多くのイングランドのベンチマークで優れた性能を誇示し、NLPの転換期を告げている。 しかし、多種多様な言語文脈におけるモデルの有効性は、ほとんど未知の領域のままである。 この研究は、ChatGPTの能力をアラビア語と方言の品種で評価することを中心に、この知識ギャップを埋めることを目的としている。 包括的研究により,60以上のデータセット上で44の言語理解と生成タスクを含むChatGPTの大規模自動および人為的評価を行う。 我々の知る限り、これはChatGPTがアラビアNLPに展開した最初の広範なパフォーマンス分析である。 以上の結果から,ChatGPTは英語における顕著な性能にもかかわらず,アラビア語を微調整した小型モデルでは一貫して上回っていることが示唆された。 さらに,チャットgpt と gpt-4 の現代標準アラビア語 (msa) と方言アラビア語 (da) の比較を行った。 人的評価の代替手段としてGPT-4を用いることの有用性をさらに探求し、確認する一方で、ChatGPTの限界を浮き彫りにする研究団体が加わった。

ChatGPT's emergence heralds a transformative phase in NLP, particularly demonstrated through its excellent performance on many English benchmarks. However, the model's efficacy across diverse linguistic contexts remains largely uncharted territory. This work aims to bridge this knowledge gap, with a primary focus on assessing ChatGPT's capabilities on Arabic languages and dialectal varieties. Our comprehensive study conducts a large-scale automated and human evaluation of ChatGPT, encompassing 44 distinct language understanding and generation tasks on over 60 different datasets. To our knowledge, this marks the first extensive performance analysis of ChatGPT's deployment in Arabic NLP. Our findings indicate that, despite its remarkable performance in English, ChatGPT is consistently surpassed by smaller models that have undergone finetuning on Arabic. We further undertake a meticulous comparison of ChatGPT and GPT-4's Modern Standard Arabic (MSA) and Dialectal Arabic (DA), unveiling the relative shortcomings of both models in handling Arabic dialects compared to MSA. Although we further explore and confirm the utility of employing GPT-4 as a potential alternative for human evaluation, our work adds to a growing body of research underscoring the limitations of ChatGPT.
翻訳日:2023-10-25 11:14:45 公開日:2023-10-21
# 確率分割を超えて - セマンティックアウェアグループによるニューラルネットワークの校正

Beyond Probability Partitions: Calibrating Neural Networks with Semantic Aware Grouping ( http://arxiv.org/abs/2306.04985v2 )

ライセンス: Link先を確認
Jia-Qi Yang, De-Chuan Zhan, Le Gan(参考訳) 研究によると、ディープネットワークは予測に対して過度に楽観的であり、予測エラーを過小評価する傾向がある。 データの性質が限られているため、既存の研究ではデータのビン化とキャリブレーションエラーの評価のためにモデル予測確率に基づく様々な方法を提案している。 本研究では,分割校正誤差(partitioned calibration error, pce)と呼ばれる,より一般化した校正誤差の定義を提案する。 入力空間分割は、単に予測確率のパーティショニングを超えて拡張でき、入力に直接関連するパーティショニングを含めることができることを示唆する。 セマンティックな分割関数を通して、モデルの精度とキャリブレーションの関係が分割関数の粒度にあることを示す。 これは、校正された正確なモデルをトレーニングするための分割基準の重要性を強調します。 上記の分析を検証するために,深層モデル特徴量に基づく意味認識グループ化関数と,データ空間をサブセットに分割するロジットを共同で学習する手法を提案する。 その後、サブセット毎に個別の校正関数が学習される。 実験の結果,複数のデータセットとネットワークアーキテクチャで性能が大幅に向上し,キャリブレーションにおけるパーティショニング機能の重要性が浮き彫りになった。

Research has shown that deep networks tend to be overly optimistic about their predictions, leading to an underestimation of prediction errors. Due to the limited nature of data, existing studies have proposed various methods based on model prediction probabilities to bin the data and evaluate calibration error. We propose a more generalized definition of calibration error called Partitioned Calibration Error (PCE), revealing that the key difference among these calibration error metrics lies in how the data space is partitioned. We put forth an intuitive proposition that an accurate model should be calibrated across any partition, suggesting that the input space partitioning can extend beyond just the partitioning of prediction probabilities, and include partitions directly related to the input. Through semantic-related partitioning functions, we demonstrate that the relationship between model accuracy and calibration lies in the granularity of the partitioning function. This highlights the importance of partitioning criteria for training a calibrated and accurate model. To validate the aforementioned analysis, we propose a method that involves jointly learning a semantic aware grouping function based on deep model features and logits to partition the data space into subsets. Subsequently, a separate calibration function is learned for each subset. Experimental results demonstrate that our approach achieves significant performance improvements across multiple datasets and network architectures, thus highlighting the importance of the partitioning function for calibration.
翻訳日:2023-10-25 08:52:33 公開日:2023-10-21
# L2正規化による簡易・高品質分布検出の探索

Exploring Simple, High Quality Out-of-Distribution Detection with L2 Normalization ( http://arxiv.org/abs/2306.04072v3 )

ライセンス: Link先を確認
Jarrod Haas, William Yolland, Bernhard Rabus(参考訳) 特徴空間上のL2正規化 - 追加のトレーニング戦略、ハイパーパラメータ、特殊損失関数、画像拡張を必要としない非常に単純な手法 - は、より高度な手法で要求されるトレーニング時間(ResNet18で60時間、ResNet50で100時間)のごく一部で、アウト・オブ・ディストリビューション(OoD)検出の競合結果を生成することができる。 我々は,ce損失最小化によって課される神経崩壊(nc)の制約から特徴ノルムを分離する手法を理論的に経験的に示す。 このデカップリングは、標準的なCEロストレーニングシステムよりも機能レベルの情報を保存し、IDノルムと近OODまたは遠OODノルムとの分離性を高める。 我々の目標は、ハイパーパラメータチューニングや特別なトレーニング体制といった外部要因に依存しない、OoD検出に対する基本的なモデルベースのアプローチに対する洞察を提供することです。 我々は、L2正規化が標準アーキテクチャの選択として考慮すべき大きなメリットの集合を提供することを提案する。

We demonstrate that L2 normalization over feature space--an extremely simple method requiring no additional training strategies, hyperparameters, specialized loss functions or image augmentation--can produce competitive results for Out-of-Distribution (OoD) detection with a fraction of the training time (60 epochs with ResNet18, 100 epochs with ResNet50) required by more sophisticated methods. We show theoretically and empirically that our simple method decouples feature norms from the Neural Collapse (NC) constraints imposed by CE loss minimization. This decoupling preserves more feature-level information than a standard CE loss training regime, and allows greater separability between ID norms and near-OoD or far-OoD norms. Our goal is to provide insight toward fundamental, model-based approaches to OoD detection, with less reliance on external factors such as hyperparameter tuning or specialized training regimes. We suggest that L2 normalization provides a collection of benefits large enough to warrant consideration as a standard architecture choice.
翻訳日:2023-10-25 08:51:33 公開日:2023-10-21
# 疎観測環境におけるマルチエージェント強化学習による逆探索と追跡

Adversarial Search and Tracking with Multiagent Reinforcement Learning in Sparsely Observable Environment ( http://arxiv.org/abs/2306.11301v2 )

ライセンス: Link先を確認
Zixuan Wu, Sean Ye, Manisha Natarajan, Letian Chen, Rohan Paleja, Matthew C. Gombolay(参考訳) 本研究では,動的検索エージェントのチームが協調して,敵対的かつ回避的なエージェントを追跡しなければならないs&t問題について検討する。 不均質な検索チームは、大きな検索空間内で、限られた数の過去の敵のトラジェクタにのみアクセスすることができる。 この問題は, モデルベース探索・強化学習(RL)手法の両手法において, 探索エージェントのスパース検出に繋がる大規模な空間において, 反抗的かつ詐欺的回避行動を示すため, 課題となる。 この課題に対処するために,学習可能なフィルタリングモデルから推定逆位置を利用するMARL(Multi-Agent RL)フレームワークを提案する。 MARLアーキテクチャはすべてのベースラインを上回り,検出率を46%向上させることができることを示す。

We study a search and tracking (S&T) problem where a team of dynamic search agents must collaborate to track an adversarial, evasive agent. The heterogeneous search team may only have access to a limited number of past adversary trajectories within a large search space. This problem is challenging for both model-based searching and reinforcement learning (RL) methods since the adversary exhibits reactionary and deceptive evasive behaviors in a large space leading to sparse detections for the search agents. To address this challenge, we propose a novel Multi-Agent RL (MARL) framework that leverages the estimated adversary location from our learnable filtering model. We show that our MARL architecture can outperform all baselines and achieves a 46% increase in detection rate.
翻訳日:2023-10-25 08:43:12 公開日:2023-10-21
# マルチシドレコメンデーションにおける補間項目とユーザフェアネス

Interpolating Item and User Fairness in Multi-Sided Recommendations ( http://arxiv.org/abs/2306.10050v2 )

ライセンス: Link先を確認
Qinyi Chen, Jason Cheuk Nam Liang, Negin Golrezaei, Djallel Bouneffouf(参考訳) 今日のオンラインプラットフォームは、ユーザのエンゲージメントを高め、収益を上げるためのアルゴリズムレコメンデーションに大きく依存しています。 しかし、このようなアルゴリズムによる推奨は、プラットフォーム、アイテム(セラー)、ユーザ(顧客)など、さまざまな利害関係者に影響を及ぼす可能性がある。 このような多面体プラットフォームでは、適切な中間層を見つけることは複雑な運用上の課題となる。 そこで我々は,プラットフォーム収益を最大化するだけでなく,アイテムやユーザの観点からの公平性を考慮した,新たなフェアリコメンデーションフレームワークであるIssue(FAIR)を定式化した。 私たちのフレームワークの特徴は柔軟性にあります -- プラットフォームが適切なアイテム/ユーザフェアネスの定義を指定したり、他の利害関係者に対してフェアネスを確保するために支払う"公正さの価格"を決定することができます。 さらに,プラットフォームがユーザデータを学習し,同時に適切なレコメンデーションを生成する必要がある動的オンライン環境における問題(fair)についても検討する。 この新たな課題に直面して、学習と公正なレコメンデーションの実行を効果的にバランスさせる、FORMと呼ばれる低レベルのオンラインレコメンデーションアルゴリズムを考案する。 当社の理論的分析では,フォームが,アイテムとユーザの両方に対して望ましい公平性を確保しつつ,プラットフォームの収益を巧みに維持していることを確認します。 最後に,実世界データに対するいくつかのケーススタディを通して,本手法の有効性を示す。

Today's online platforms rely heavily on algorithmic recommendations to bolster user engagement and drive revenue. However, such algorithmic recommendations can impact diverse stakeholders involved, namely the platform, items (seller), and users (customers), each with their unique objectives. In such multi-sided platforms, finding an appropriate middle ground becomes a complex operational challenge. Motivated by this, we formulate a novel fair recommendation framework, called Problem (FAIR), that not only maximizes the platform's revenue, but also accommodates varying fairness considerations from the perspectives of items and users. Our framework's distinguishing trait lies in its flexibility -- it allows the platform to specify any definitions of item/user fairness that are deemed appropriate, as well as decide the "price of fairness" it is willing to pay to ensure fairness for other stakeholders. We further examine Problem (FAIR) in a dynamic online setting, where the platform needs to learn user data and generate fair recommendations simultaneously in real time, which are two tasks that are often at odds. In face of this additional challenge, we devise a low-regret online recommendation algorithm, called FORM, that effectively balances the act of learning and performing fair recommendation. Our theoretical analysis confirms that FORM proficiently maintains the platform's revenue, while ensuring desired levels of fairness for both items and users. Finally, we demonstrate the efficacy of our framework and method via several case studies on real-world data.
翻訳日:2023-10-25 08:42:28 公開日:2023-10-21
# マルチロボットネットワークにおけるノード軌跡からグラフを識別する学習

Learning to Identify Graphs from Node Trajectories in Multi-Robot Networks ( http://arxiv.org/abs/2307.04374v2 )

ライセンス: Link先を確認
Eduardo Sebastian, Thai Duong, Nikolay Atanasov, Eduardo Montijano, Carlos Sagues(参考訳) グラフ識別問題は、状態/機能軌跡が与えられたネットワーク内のノード間の相互作用を発見することである。 ノードの振る舞いが未知の相互作用モデルによって他のすべてのノードに結合されるため、この問題は難しい。 さらに、高次元および非線形状態軌道は、2つのノードが接続されているかどうかを識別することが困難である。 現在の解法は、グラフトポロジとノードの動的挙動に関する事前の知識に依存しているため、他のネットワーク構成への一般化が不十分である。 これらの課題に対処するために,我々は新しい学習ベースアプローチを提案する。 (i)グローバル収束保証によりグラフトポロジーを効率的に解明する強凸プログラム (ii) 元の状態軌跡を特徴空間に埋め込むことを学習し、最適化プログラムに適した正規化子を予測するセルフアテンションエンコーダ。 他の研究とは対照的に,本手法ではノード数,接続性,状態トラジェクトリの点で,新しい構成の未確認ネットワークのグラフトポロジを識別することができる。 マルチロボット生成および群れ処理におけるグラフ同定におけるアプローチの有効性を示す。

The graph identification problem consists of discovering the interactions among nodes in a network given their state/feature trajectories. This problem is challenging because the behavior of a node is coupled to all the other nodes by the unknown interaction model. Besides, high-dimensional and nonlinear state trajectories make it difficult to identify if two nodes are connected. Current solutions rely on prior knowledge of the graph topology and the dynamic behavior of the nodes, and hence, have poor generalization to other network configurations. To address these issues, we propose a novel learning-based approach that combines (i) a strongly convex program that efficiently uncovers graph topologies with global convergence guarantees and (ii) a self-attention encoder that learns to embed the original state trajectories into a feature space and predicts appropriate regularizers for the optimization program. In contrast to other works, our approach can identify the graph topology of unseen networks with new configurations in terms of number of nodes, connectivity or state trajectories. We demonstrate the effectiveness of our approach in identifying graphs in multi-robot formation and flocking tasks.
翻訳日:2023-10-25 08:32:16 公開日:2023-10-21
# ソーシャルメディアから判断文書を用いた犯罪タイプ分類

Classifying Crime Types using Judgment Documents from Social Media ( http://arxiv.org/abs/2306.17020v2 )

ライセンス: Link先を確認
Haoxuan Xu, Zeyu He, Mengfan Shen, Songning Lai, Ziqiang Han and Yifan Peng(参考訳) 犯罪行為事実に基づく犯罪種別決定の課題は、社会科学において非常に重要かつ有意義な課題となっている。 しかし今は、犯罪そのものの性質から、データサンプルそのものが均等に分散している、という問題に直面している。 同時に、司法分野のデータセットは公開されておらず、直接トレーニングのために大規模なデータセットを作成することは実用的ではない。 本稿では,NLP処理手法を用いてこの問題を解決するための新しいトレーニングモデルを提案する。 まず,新たなサンプル生成により不均一なデータセット分布の欠陥のバランスをとることができる犯罪事実データプリプロセッシングモジュール(cfdpm)を提案する。 次に、事前トレーニングデータセットとして大規模なオープンソースデータセット(CAIL-big)と、ファインチューニングのために自分自身で収集した小さなデータセットを使用します。 同時に、動的マスキングによる改良されたバートモデルを用いてモデルを改善する。 実験により,提案手法が現在のデータセットにおいて最先端の結果が得られることを示す。 同時に,モジュールCFDPMの有効性が実験によって証明された。 本稿では,犯罪行為などの社会科学テキストの分類に有用な方法論について述べる。 公開ベンチマークに関する広範囲な実験により,提案手法が新たな最先端結果が得られることが示された。

The task of determining crime types based on criminal behavior facts has become a very important and meaningful task in social science. But the problem facing the field now is that the data samples themselves are unevenly distributed, due to the nature of the crime itself. At the same time, data sets in the judicial field are less publicly available, and it is not practical to produce large data sets for direct training. This article proposes a new training model to solve this problem through NLP processing methods. We first propose a Crime Fact Data Preprocessing Module (CFDPM), which can balance the defects of uneven data set distribution by generating new samples. Then we use a large open source dataset (CAIL-big) as our pretraining dataset and a small dataset collected by ourselves for Fine-tuning, giving it good generalization ability to unfamiliar small datasets. At the same time, we use the improved Bert model with dynamic masking to improve the model. Experiments show that the proposed method achieves state-of-the-art results on the present dataset. At the same time, the effectiveness of module CFDPM is proved by experiments. This article provides a valuable methodology contribution for classifying social science texts such as criminal behaviors. Extensive experiments on public benchmarks show that the proposed method achieves new state-of-the-art results.
翻訳日:2023-10-25 08:31:58 公開日:2023-10-21
# Pixel-Lesion-Patient Network を用いた肝腫瘍検診と診断

Liver Tumor Screening and Diagnosis in CT with Pixel-Lesion-Patient Network ( http://arxiv.org/abs/2307.08268v2 )

ライセンス: Link先を確認
Ke Yan, Xiaoli Yin, Yingda Xia, Fakai Wang, Shu Wang, Yuan Gao, Jiawen Yao, Chunli Li, Xiaoyu Bai, Jingren Zhou, Ling Zhang, Le Lu, Yu Shi(参考訳) 肝腫瘍の分節化と分類はコンピュータ診断における重要な課題である。 非造影CT (non-contrast Computed tomography) における肝腫瘍検診と予備診断, ダイナミック造影CTにおける鑑別診断の3つの課題に対処することを目的とする。 Pixel-Lesion-pAtient Network (PLAN) と呼ばれる新しいフレームワークが提案されている。 マスクトランスフォーマーを使用して、アンカークエリの改善と前景のサンプリング損失による各病変の分割と分類を行う。 また、グローバル情報を効果的に集約し、患者レベルの診断を予測するイメージワイド分類器も備えている。 939人の腫瘍患者と810人の健常者を含む大規模多相データセットを収集する。 8種類の腫瘍例4010は広範囲に注釈が付されている。 非コントラスト腫瘍スクリーニングタスクでは、95%と96%の患者レベルの感度と特異性を達成する。 造影ctでは,病変レベルの検出精度,リコール,分類精度は92%,89%,86%であり,広く用いられているcnnおよびトランスフォーマよりも優れていた。 また,250症例のホールドアウトについて,読者調査を行った。 PLANは高齢者の放射線科医と同等であり,臨床的意義を示した。

Liver tumor segmentation and classification are important tasks in computer aided diagnosis. We aim to address three problems: liver tumor screening and preliminary diagnosis in non-contrast computed tomography (CT), and differential diagnosis in dynamic contrast-enhanced CT. A novel framework named Pixel-Lesion-pAtient Network (PLAN) is proposed. It uses a mask transformer to jointly segment and classify each lesion with improved anchor queries and a foreground-enhanced sampling loss. It also has an image-wise classifier to effectively aggregate global information and predict patient-level diagnosis. A large-scale multi-phase dataset is collected containing 939 tumor patients and 810 normal subjects. 4010 tumor instances of eight types are extensively annotated. On the non-contrast tumor screening task, PLAN achieves 95% and 96% in patient-level sensitivity and specificity. On contrast-enhanced CT, our lesion-level detection precision, recall, and classification accuracy are 92%, 89%, and 86%, outperforming widely used CNN and transformers for lesion segmentation. We also conduct a reader study on a holdout set of 250 cases. PLAN is on par with a senior human radiologist, showing the clinical significance of our results.
翻訳日:2023-10-25 08:23:08 公開日:2023-10-21
# LPN:数ショット分類のための言語誘導型プロトタイプネットワーク

LPN: Language-guided Prototypical Network for few-shot classification ( http://arxiv.org/abs/2307.01515v3 )

ライセンス: Link先を確認
Kaihui Cheng, Chule Yang, Xiao Liu, Naiyang Guan, Zhiyuan Wang(参考訳) 少数ショット分類は、制限されたラベル付き例で新しいタスクに適応することを目的としている。 アクセス可能なデータを完全に利用するために、最近の手法では、クエリとサポートイメージの類似性、およびメタトレーニングと事前トレーニング戦略による高次元特徴の適切な測定方法が検討されている。 しかし、マルチモダリティ情報の可能性はほとんど検討されていないため、少数ショット分類に有望な改善をもたらす可能性がある。 本稿では,2つの並列分岐による視覚と言語モダリティの相補性を活用し,分類器の改良を目的とした言語誘導型プロトタイプネットワーク(LPN)を提案する。 具体的には,視覚タスクに限られたサンプルで言語モダリティを導入するために,事前学習されたテキストエンコーダを活用して,従来の画像エンコーダで画像を処理すると同時に,クラス名から直接クラスレベルのテキスト特徴を抽出する。 次に,クラスレベルの特徴を視覚的特徴と整合させることで,各画像に対応するテキスト特徴を得るための言語誘導デコーダを提案する。 さらに,クラスレベルの機能とプロトタイプを用いて,テキストブランチ内でロバストなプロトタイプを生成して追跡測定を行う,洗練されたプロトタイプ型ヘッドを構築する。 さらに、クラスレベルの機能を活用して、視覚的機能を調整し、より多くのクラス関連視覚的機能をキャプチャします。 最後に、視覚とテキストのログを集約し、単一のモダリティの偏差を校正し、全体的なパフォーマンスを向上させる。 大規模な実験は、ベンチマークデータセットの最先端手法に対するLPNの競争力を示す。

Few-shot classification aims to adapt to new tasks with limited labeled examples. To fully use the accessible data, recent methods explore suitable measures for the similarity between the query and support images and better high-dimensional features with meta-training and pre-training strategies. However, the potential of multi-modality information has barely been explored, which may bring promising improvement for few-shot classification. In this paper, we propose a Language-guided Prototypical Network (LPN) for few-shot classification, which leverages the complementarity of vision and language modalities via two parallel branches to improve the classifier. Concretely, to introduce language modality with limited samples in the visual task, we leverage a pre-trained text encoder to extract class-level text features directly from class names while processing images with a conventional image encoder. Then, we introduce a language-guided decoder to obtain text features corresponding to each image by aligning class-level features with visual features. Additionally, we utilize class-level features and prototypes to build a refined prototypical head, which generates robust prototypes in the text branch for follow-up measurement. Furthermore, we leverage the class-level features to align the visual features, capturing more class-relevant visual features. Finally, we aggregate the visual and text logits to calibrate the deviation of a single modality, enhancing the overall performance. Extensive experiments demonstrate the competitiveness of LPN against state-of-the-art methods on benchmark datasets.
翻訳日:2023-10-25 08:20:32 公開日:2023-10-21
# 資源制約下における従属プロセスのオンラインモデリングとモニタリング

Online Modeling and Monitoring of Dependent Processes under Resource Constraints ( http://arxiv.org/abs/2307.14208v2 )

ライセンス: Link先を確認
Tanapol Kosolwattana, Huazheng Wang, Ying Lin(参考訳) 多数の動的プロセスの適応的モニタリングは、多くの医療・工学システムにおいて限られた資源の下で異常事象をタイムリーに検出するために重要である。 リスクベースの疾患スクリーニングや条件ベースのプロセス監視などがその例だ。 しかし、既存の適応モニタリングモデルはプロセス間の依存関係を無視したり、プロセスモデリングの不確実性を見落としたりする。 健康状態の悪いプロセスを正確に監視し、不確実性低減のための情報を積極的に収集する最適なモニタリング戦略を設計するため、新しいオンライン協調学習法を提案する。 提案手法は,限られた資源下での依存プロセスの活用と探索を最適に行うために,協調学習に基づくアッパー信頼境界(CL-UCB)アルゴリズムを設計する。 提案手法の有効性は, 理論解析, シミュレーション研究, およびアルツハイマー病における適応認知モニタリングの実証研究を通じて実証された。

Adaptive monitoring of a large population of dynamic processes is critical for the timely detection of abnormal events under limited resources in many healthcare and engineering systems. Examples include the risk-based disease screening and condition-based process monitoring. However, existing adaptive monitoring models either ignore the dependency among processes or overlook the uncertainty in process modeling. To design an optimal monitoring strategy that accurately monitors the processes with poor health conditions and actively collects information for uncertainty reduction, a novel online collaborative learning method is proposed in this study. The proposed method designs a collaborative learning-based upper confidence bound (CL-UCB) algorithm to optimally balance the exploitation and exploration of dependent processes under limited resources. Efficiency of the proposed method is demonstrated through theoretical analysis, simulation studies and an empirical study of adaptive cognitive monitoring in Alzheimer's disease.
翻訳日:2023-10-25 08:12:19 公開日:2023-10-21
# 数十億のパラメータを持つ大規模言語モデル学習のための最適化ネットワークアーキテクチャ

Optimized Network Architectures for Large Language Model Training with Billions of Parameters ( http://arxiv.org/abs/2307.12169v2 )

ライセンス: Link先を確認
Weiyang Wang, Manya Ghobadi, Kayvon Shakeri, Ying Zhang, Naader Hasani(参考訳) 本稿では,Large Language Models (LLMs) をトレーニングするためのネットワークを構築するための,確立されたパラダイムに挑戦する。 LLM は,GPU の小さなグループだけが,その内部で高い帯域幅の通信を必要とするようなユニークな通信パターンを示し,ほぼ最適トレーニング性能を実現する。 これらのGPUグループ全体で、通信は重要でなく、疎外であり、均一である。 LLMの通信要求によく似た新しいネットワークアーキテクチャを提案する。 我々のアーキテクチャは、クラスタをHBドメインと呼ばれる非ブロッキングな高帯域相互接続と相互接続するGPUの集合に分割する。 HBドメイン全体では、ネットワークはGPUと通信要求のみを接続する。 我々は、このネットワークを「レールのみ」接続と呼び、LLMトレーニングの性能を損なうことなく、最先端のクロースネットワークと比較して、提案アーキテクチャがネットワークコストを最大75%削減することを示す。

This paper challenges the well-established paradigm for building any-to-any networks for training Large Language Models (LLMs). We show that LLMs exhibit a unique communication pattern where only small groups of GPUs require high-bandwidth any-to-any communication within them, to achieve near-optimal training performance. Across these groups of GPUs, the communication is insignificant, sparse, and homogeneous. We propose a new network architecture that closely resembles the communication requirement of LLMs. Our architecture partitions the cluster into sets of GPUs interconnected with non-blocking any-to-any high-bandwidth interconnects that we call HB domains. Across the HB domains, the network only connects GPUs with communication demands. We call this network a "rail-only" connection, and show that our proposed architecture reduces the network cost by up to 75% compared to the state-of-the-art any-to-any Clos networks without compromising the performance of LLM training.
翻訳日:2023-10-25 08:11:51 公開日:2023-10-21
# content-distortion consistencyを用いた無回帰ブラインド画像品質評価

Regression-free Blind Image Quality Assessment with Content-Distortion Consistency ( http://arxiv.org/abs/2307.09279v2 )

ライセンス: Link先を確認
Xiaoqi Wang, Jian Xiong, Hao Gao, and Weisi Lin(参考訳) 回帰ベースブラインド画像品質評価(iqa)モデルの最適化の目的は、トレーニングデータセット全体の平均予測誤差を最小化し、潜在的なトレーニングデータバイアスによるバイアス付きパラメータ推定を可能にすることである。 この問題を軽減するために,画像品質評価のための回帰フリーなフレームワークを提案する。 この手法は、人間の視覚系(HVS)が、同一の歪みによって損なわれる意味論的に類似した画像内容に対して、類似した知覚応答を示すという観察から導かれる。 提案手法は,2つの分類モジュール (意味分類 (SC) モジュールと歪み分類 (DC) モジュール) を通して, 階層的なk-nearest 隣人 (k-NN) アルゴリズムを構築する。 テスト画像とIQAデータベースが与えられた後、SCモジュールはテスト画像とセマンティックに類似した複数のプリスタン画像を検索する。 そして、DCモジュールは、各検索したプリスタン画像に対応する歪画像から歪み類似性に基づいてインスタンスを検索する。 最後に、検索したインスタンスの主観的なスコアを集計して品質予測を行う。 主観的品質スコアのトレーニングを伴わず、提案手法は、正・合成歪みIQAベンチマークにおける最先端の回帰に基づく手法と比較して、競合的かつ優れた性能を実現する。

The optimization objective of regression-based blind image quality assessment (IQA) models is to minimize the mean prediction error across the training dataset, which can lead to biased parameter estimation due to potential training data biases. To mitigate this issue, we propose a regression-free framework for image quality evaluation, which is based upon retrieving locally similar instances by incorporating semantic and distortion feature spaces. The approach is motivated by the observation that the human visual system (HVS) exhibits analogous perceptual responses to semantically similar image contents impaired by identical distortions, which we term as content-distortion consistency. The proposed method constructs a hierarchical k-nearest neighbor (k-NN) algorithm for instance retrieval through two classification modules: semantic classification (SC) module and distortion classification (DC) module. Given a test image and an IQA database, the SC module retrieves multiple pristine images semantically similar to the test image. The DC module then retrieves instances based on distortion similarity from the distorted images that correspond to each retrieved pristine image. Finally, quality prediction is obtained by aggregating the subjective scores of the retrieved instances. Without training on subjective quality scores, the proposed regression-free method achieves competitive, even superior performance compared to state-of-the-art regression-based methods on authentic and synthetic distortion IQA benchmarks.
翻訳日:2023-10-25 08:08:48 公開日:2023-10-21
# デコヒーレンス下における2量子超導体系の熱的局所量子不確かさ

Thermal local quantum uncertainty in a two-qubit-superconducting system under decoherence ( http://arxiv.org/abs/2308.03596v2 )

ライセンス: Link先を確認
M. R. Pourkarimi, S. Haddadi, M. Nashaat, K. V. Kulikov and Yu. M. Shukrinov(参考訳) 量子相関の尺度として局所量子不確実性(LQU)を考慮し、2量子超伝導系の熱的進化について検討した。 相互結合やジョセフソンエネルギーなどのハミルトンパラメータを操作することで熱LQUを増大させることができるが、特定の温度で突然遷移する。 さらに, 熱LQUに及ぼすデコヒーリングチャネルの影響について詳細な解析を行った。 この工学的応用における制御可能なlquは、量子コンピュータや量子電池の設計における超伝導電荷量子ビットの利点を明らかにすることができる。

By considering the local quantum uncertainty (LQU) as a measure of quantum correlations, the thermal evolution of a two-qubit-superconducting system is investigated. We show that the thermal LQU can be increased by manipulating the Hamiltonian parameters such as the mutual coupling and Josephson energies, however, it undergoes sudden transitions at specific temperatures. Furthermore, a detailed analysis is presented regarding the impact of decohering channels on thermal LQU. This controllable LQU in engineering applications can disclose the advantage enabled in the superconducting charge qubits for designing quantum computers and quantum batteries.
翻訳日:2023-10-25 08:01:56 公開日:2023-10-21
# EDFA波長依存性ゲインのモデル化のための自己Normalizing Neural Network, One Shot Transfer Learning

Self-Normalizing Neural Network, Enabling One Shot Transfer Learning for Modeling EDFA Wavelength Dependent Gain ( http://arxiv.org/abs/2308.02233v2 )

ライセンス: Link先を確認
Agastya Raj, Zehao Wang, Frank Slyne, Tingjun Chen, Dan Kilper, Marco Ruffini(参考訳) 本稿では,半教師付き自己正規化ニューラルネットワークに基づいて,複数のedfaの波長依存性利得をモデル化する新しいmlフレームワークを提案する。 オープンアイルランドおよびCOSMOSテストベッドにおける22のEDFA実験は、異なるアンプタイプで操作しても高精度なトランスファー学習を示す。

We present a novel ML framework for modeling the wavelength-dependent gain of multiple EDFAs, based on semi-supervised, self-normalizing neural networks, enabling one-shot transfer learning. Our experiments on 22 EDFAs in Open Ireland and COSMOS testbeds show high-accuracy transfer-learning even when operated across different amplifier types.
翻訳日:2023-10-25 08:01:18 公開日:2023-10-21
# モデル次数削減による量子回路の効率的なシミュレーション

Efficient Simulation of Quantum Circuits by Model Order Reduction ( http://arxiv.org/abs/2308.09510v4 )

ライセンス: Link先を確認
Antonio Jim\'enez-Pastor, Kim G. Larsen, Mirco Tribastone, Max Tschaikowski(参考訳) 古典的コンピュータ上での量子回路シミュレーションの効率的な手法は、量子ビット数で問題のサイズが指数関数的に増加するため、その解析に不可欠である。 ここでは,マルコフ連鎖や常微分方程式のような(古典的)確率的,決定論的システムで成功した確立された手法のクラスであるバイシミュレーションに基づく集計法について検討する。 フォワード制約ビシミュレーションは、関心の線型部分空間上に投影される量子計測を正確に保存する低次元モデルをもたらす。 後方制約ビシミュレーションは、回路入力を含む部分空間で有効である還元を与え、そこから回路結果を完全に復元することができる。 この2つの概念に関する双対性の結果を用いて、両ケースで最も粗い還元をもたらす制約ビシミュレーションを計算するアルゴリズムを提案する。 応用として、探索、最適化、分解のためのよく知られた量子アルゴリズムに対して、還元状態空間のサイズに関する理論的境界を提供する。 プロトタイプ実装を用いて,ベンチマークセットの大幅な削減を報告した。 さらに,制約バイシミュレーションは,決定ダイアグラムに基づく量子回路シミュレーションの最先端手法を補完することを示した。

Efficient methods for the simulation of quantum circuits on classic computers are crucial for their analysis due to the exponential growth of the problem size with the number of qubits. Here we study lumping methods based on bisimulation, an established class of techniques that has been proven successful for (classic) stochastic and deterministic systems such as Markov chains and ordinary differential equations. Forward constrained bisimulation yields a lower-dimensional model which exactly preserves quantum measurements projected on a linear subspace of interest. Backward constrained bisimulation gives a reduction that is valid on a subspace containing the circuit input, from which the circuit result can be fully recovered. We provide an algorithm to compute the constraint bisimulations yielding coarsest reductions in both cases, using a duality result relating the two notions. As applications, we provide theoretical bounds on the size of the reduced state space for well-known quantum algorithms for search, optimization, and factorization. Using a prototype implementation, we report significant reductions on a set of benchmarks. Furthermore, we show that constraint bisimulation complements state-of-the-art methods for the simulation of quantum circuits based on decision diagrams.
翻訳日:2023-10-25 07:50:35 公開日:2023-10-21
# MV-ROPE:ロバストカテゴリーレベルのオブジェクトマップとサイズ推定のためのマルチビュー制約

MV-ROPE: Multi-view Constraints for Robust Category-level Object Pose and Size Estimation ( http://arxiv.org/abs/2308.08856v2 )

ライセンス: Link先を確認
Jiaqi Yang, Yucong Chen, Xiangting Meng, Chenxin Yan, Min Li, Ran Cheng, Lige Liu, Tao Sun, Laurent Kneip(参考訳) RGBに基づくカテゴリレベルの6Dオブジェクトポーズとサイズ推定のための新しいフレームワークを提案する。 我々のアプローチは、RGB画像から抽出できる効率的で効果的なオブジェクト標準表現として機能する正規化オブジェクト座標空間(NOCS)の予測に依存する。 入力として追加の深度読影に大きく依存する従来のアプローチとは異なり、我々の斬新さは、移動カメラが環境を継続的に観察する現実的なシナリオでよく見られるマルチビュー情報を活用することである。 マルチビュー制約を導入することで,単眼高密度slamフレームワークから正確なカメラポーズと深度推定を実現することができる。 さらに、カメラの相対的なポーズに制約を組み込むことで、マルチビューオブジェクトのポーズに対してトリミング戦略とロバストポーズを適用でき、直接深度読影がなくてもカテゴリレベルのポーズをより正確かつ堅牢に推定することができる。 さらに,性能を大幅に向上させるnocs予測ネットワークを提案する。 実験の結果,提案手法の性能は,公開データセット列にまたがる最先端のRGB-D手法と同等であった。 さらに,自己収集データセット上で評価することで,本手法の一般化能力を示す。

We propose a novel framework for RGB-based category-level 6D object pose and size estimation. Our approach relies on the prediction of normalized object coordinate space (NOCS), which serves as an efficient and effective object canonical representation that can be extracted from RGB images. Unlike previous approaches that heavily relied on additional depth readings as input, our novelty lies in leveraging multi-view information, which is commonly available in practical scenarios where a moving camera continuously observes the environment. By introducing multi-view constraints, we can obtain accurate camera pose and depth estimation from a monocular dense SLAM framework. Additionally, by incorporating constraints on the camera relative pose, we can apply trimming strategies and robust pose averaging on the multi-view object poses, resulting in more accurate and robust estimations of category-level object poses even in the absence of direct depth readings. Furthermore, we introduce a novel NOCS prediction network that significantly improves performance. Our experimental results demonstrate the strong performance of our proposed method, even comparable to state-of-the-art RGB-D methods across public dataset sequences. Additionally, we showcase the generalization ability of our method by evaluating it on self-collected datasets.
翻訳日:2023-10-25 07:50:19 公開日:2023-10-21
# PDE-Refiner:ニューラルPDEソルバによる正確なロングロールアウトの実現

PDE-Refiner: Achieving Accurate Long Rollouts with Neural PDE Solvers ( http://arxiv.org/abs/2308.05732v2 )

ライセンス: Link先を確認
Phillip Lippe, Bastiaan S. Veeling, Paris Perdikaris, Richard E. Turner, Johannes Brandstetter(参考訳) 時間依存偏微分方程式(PDE)は、科学や工学においてユビキタスである。 近年,従来の解法では計算コストが高かったため,ディープニューラルネットワークに基づくサロゲートの関心が高まっている。 このようなニューラルネットワークPDEソルバの実用性は、長い時間的水平線上で正確で安定した予測を提供する能力に依存している。 そこで本研究では,PDEソリューションの高頻度に付随する非支配的空間周波数情報の無視を,安定かつ正確なロールアウト性能を制限する主要な落とし穴として,時間的ロールアウト戦略の大規模解析を行う。 PDE-Refiner(PDE-Refiner)は、多段階精製プロセスを通じて全ての周波数成分のより正確なモデリングを可能にする新しいモデルクラスである。 我々はPDE-Refinerを複雑な流体力学の挑戦的なベンチマークで検証し、ニューラル、数値、ハイブリッドなニューラル・数値アーキテクチャを含む最先端のモデルを一貫して上回る安定した正確なロールアウトを示す。 さらに,PDE-Refinerはスペクトルデータ拡張の新たな形態を暗黙的に誘導するため,データ効率を大幅に向上させることを示した。 最後に、PDE-Refinerの拡散モデルへの接続により、モデルの予測不確かさの正確かつ効率的な評価が可能となり、サロゲートが不正確なときに推定できる。

Time-dependent partial differential equations (PDEs) are ubiquitous in science and engineering. Recently, mostly due to the high computational cost of traditional solution techniques, deep neural network based surrogates have gained increased interest. The practical utility of such neural PDE solvers relies on their ability to provide accurate, stable predictions over long time horizons, which is a notoriously hard problem. In this work, we present a large-scale analysis of common temporal rollout strategies, identifying the neglect of non-dominant spatial frequency information, often associated with high frequencies in PDE solutions, as the primary pitfall limiting stable, accurate rollout performance. Based on these insights, we draw inspiration from recent advances in diffusion models to introduce PDE-Refiner; a novel model class that enables more accurate modeling of all frequency components via a multistep refinement process. We validate PDE-Refiner on challenging benchmarks of complex fluid dynamics, demonstrating stable and accurate rollouts that consistently outperform state-of-the-art models, including neural, numerical, and hybrid neural-numerical architectures. We further demonstrate that PDE-Refiner greatly enhances data efficiency, since the denoising objective implicitly induces a novel form of spectral data augmentation. Finally, PDE-Refiner's connection to diffusion models enables an accurate and efficient assessment of the model's predictive uncertainty, allowing us to estimate when the surrogate becomes inaccurate.
翻訳日:2023-10-25 07:49:15 公開日:2023-10-21
# SSLRec:レコメンデーションのための自己監督型学習フレームワーク

SSLRec: A Self-Supervised Learning Framework for Recommendation ( http://arxiv.org/abs/2308.05697v2 )

ライセンス: Link先を確認
Xubin Ren, Lianghao Xia, Yuhao Yang, Wei Wei, Tianle Wang, Xuheng Cai and Chao Huang(参考訳) 自己教師付き学習(SSL)は、リコメンデーションシステムにおいてスパースとノイズの多いデータによって引き起こされる課題に対処するソリューションとして、近年大きな関心を集めている。 さまざまなレコメンデーションシナリオ(グラフコラボレーティブフィルタリング、シーケンシャルレコメンデーション、ソーシャルレコメンデーション、KG-enhancedレコメンデーションなど)で最先端のパフォーマンスを提供するために設計されたSSLアルゴリズムが増えているが、異なるドメインにまたがってレコメンデーションアルゴリズムを統合する統一フレームワークはいまだに存在しない。 このようなフレームワークは、自己監督型レコメンデーションアルゴリズムの基盤となり、既存のメソッドの検証を統一し、新しいメソッドの設計を推進する。 このギャップに対処するため、SSLRecという、SSLに強化されたさまざまな推奨者を評価するための、標準化され、フレキシブルで包括的なフレームワークを提供する、新しいベンチマークプラットフォームを紹介します。 SSLRecフレームワークは、ユーザが最先端のモデルを簡単に評価できるモジュラーアーキテクチャと、特定のニーズでSSLレコメンデーションモデルを作成するのに役立つ完全なデータ拡張と自己教師型ツールキットを備えている。 さらにSSLRecは、一貫性と公正な設定で、さまざまなレコメンデーションモデルのトレーニングと評価のプロセスを簡素化する。 私たちのSSLRecプラットフォームは、さまざまなシナリオにわたる最先端のSSL強化レコメンデーションモデルを包括的にカバーしています。 実装されたSSLRecフレームワークは、ソースコードリポジトリhttps://github.com/HKUDS/SSLRecで利用可能です。

Self-supervised learning (SSL) has gained significant interest in recent years as a solution to address the challenges posed by sparse and noisy data in recommender systems. Despite the growing number of SSL algorithms designed to provide state-of-the-art performance in various recommendation scenarios (e.g., graph collaborative filtering, sequential recommendation, social recommendation, KG-enhanced recommendation), there is still a lack of unified frameworks that integrate recommendation algorithms across different domains. Such a framework could serve as the cornerstone for self-supervised recommendation algorithms, unifying the validation of existing methods and driving the design of new ones. To address this gap, we introduce SSLRec, a novel benchmark platform that provides a standardized, flexible, and comprehensive framework for evaluating various SSL-enhanced recommenders. The SSLRec framework features a modular architecture that allows users to easily evaluate state-of-the-art models and a complete set of data augmentation and self-supervised toolkits to help create SSL recommendation models with specific needs. Furthermore, SSLRec simplifies the process of training and evaluating different recommendation models with consistent and fair settings. Our SSLRec platform covers a comprehensive set of state-of-the-art SSL-enhanced recommendation models across different scenarios, enabling researchers to evaluate these cutting-edge models and drive further innovation in the field. Our implemented SSLRec framework is available at the source code repository https://github.com/HKUDS/SSLRec.
翻訳日:2023-10-25 07:48:50 公開日:2023-10-21
# 動的グラフ分類のための濾過面

Filtration Surfaces for Dynamic Graph Classification ( http://arxiv.org/abs/2309.03616v2 )

ライセンス: Link先を確認
Franz Srambical and Bastian Rieck(参考訳) 動的グラフを分類するための既存のアプローチは、グラフカーネルを時間領域にリフトするか、グラフニューラルネットワーク(GNN)を使用する。 しかし、現在のベースラインにはスケーラビリティの問題があり、ノードセットの変更を処理できない、あるいはエッジウェイト情報を考慮していない。 我々は,その制約を緩和する,スケーラブルでフレキシブルな新しい方法である濾過面を提案する。 本モデルの有効性を実験的に検証し,エッジウエイト情報に依存するデータセットの最先端ベースラインよりも濾過表面が優れていることを示す。 提案手法は完全にパラメータフリーか最大1つのパラメータを持つかのいずれかであり、同様にスケーラブルな手法では標準偏差が最低となる。

Existing approaches for classifying dynamic graphs either lift graph kernels to the temporal domain, or use graph neural networks (GNNs). However, current baselines have scalability issues, cannot handle a changing node set, or do not take edge weight information into account. We propose filtration surfaces, a novel method that is scalable and flexible, to alleviate said restrictions. We experimentally validate the efficacy of our model and show that filtration surfaces outperform previous state-of-the-art baselines on datasets that rely on edge weight information. Our method does so while being either completely parameter-free or having at most one parameter, and yielding the lowest overall standard deviation among similarly scalable methods.
翻訳日:2023-10-25 07:42:38 公開日:2023-10-21
# フィードフォワードは必要なものだけ

One Wide Feedforward is All You Need ( http://arxiv.org/abs/2309.01826v2 )

ライセンス: Link先を確認
Telmo Pessoa Pires, Ant\'onio V. Lopes, Yannick Assogba, Hendra Setiawan(参考訳) Transformerアーキテクチャには、AttentionとFeed Forward Network (FFN)の2つの非埋め込みコンポーネントがある。 注意は単語の位置に関係なく単語間の相互依存を捉え、ffnは非線形に各入力トークンを独立に変換する。 この研究では、ffnの役割を探求し、モデルのパラメータのかなりの部分を占めるにもかかわらず、非常に冗長であることを確認した。 具体的には、デコーダ層上のffnを除去し、エンコーダ全体で単一のffnを共有することで、少ない精度でパラメータ数を大幅に削減することができる。 最後に、このアーキテクチャを、共有FFNの隠れ次元を拡大し、元のTransformer Bigに対して精度とレイテンシの両方で大幅に向上させることにより、元のサイズまで拡張する。

The Transformer architecture has two main non-embedding components: Attention and the Feed Forward Network (FFN). Attention captures interdependencies between words regardless of their position, while the FFN non-linearly transforms each input token independently. In this work we explore the role of the FFN, and find that despite taking up a significant fraction of the model's parameters, it is highly redundant. Concretely, we are able to substantially reduce the number of parameters with only a modest drop in accuracy by removing the FFN on the decoder layers and sharing a single FFN across the encoder. Finally we scale this architecture back to its original size by increasing the hidden dimension of the shared FFN, achieving substantial gains in both accuracy and latency with respect to the original Transformer Big.
翻訳日:2023-10-25 07:42:02 公開日:2023-10-21
# グラフニューラルネットワークのオーバースカッシング: 総合的な調査

Over-Squashing in Graph Neural Networks: A Comprehensive survey ( http://arxiv.org/abs/2308.15568v4 )

ライセンス: Link先を確認
Singh Akansha(参考訳) グラフニューラルネットワーク(GNN)は、グラフ構造化データの機械学習に革命をもたらし、複雑な関係を効果的にキャプチャする。 相互接続されたノードを通じて情報を広めるが、長距離インタラクションは"over-squashing"として知られる課題に直面している。 この調査は、長距離情報の拡散が妨げられるグラフニューラルネットワーク(GNN)におけるオーバー・スカッシングの課題を掘り下げ、複雑な長距離通信に依存するタスクに影響を与える。 オーバースカッシングの原因、結果、緩和戦略を包括的に探求する。 グラフリワイリング、新しい正規化、スペクトル分析、曲率に基づく戦略など、さまざまな方法論が検討され、トレードオフと有効性に焦点が当てられている。 オーバー・スクワッシングとオーバー・スムーシングのような他のGNN制限との相互作用についても論じており、ノードやグラフレベルのタスクでこれらの問題に対処するために設計されたモデルの分類を提供している。 パフォーマンス評価のためのベンチマークデータセットも詳細であり、この調査はGNN分野の研究者や実践者にとって貴重なリソースである。

Graph Neural Networks (GNNs) revolutionize machine learning for graph-structured data, effectively capturing complex relationships. They disseminate information through interconnected nodes, but long-range interactions face challenges known as "over-squashing". This survey delves into the challenge of over-squashing in Graph Neural Networks (GNNs), where long-range information dissemination is hindered, impacting tasks reliant on intricate long-distance interactions. It comprehensively explores the causes, consequences, and mitigation strategies for over-squashing. Various methodologies are reviewed, including graph rewiring, novel normalization, spectral analysis, and curvature-based strategies, with a focus on their trade-offs and effectiveness. The survey also discusses the interplay between over-squashing and other GNN limitations, such as over-smoothing, and provides a taxonomy of models designed to address these issues in node and graph-level tasks. Benchmark datasets for performance evaluation are also detailed, making this survey a valuable resource for researchers and practitioners in the GNN field.
翻訳日:2023-10-25 07:41:48 公開日:2023-10-21
# さまざまなデータモダリティのためのAIGC(AI-Generated Content)の調査

AI-Generated Content (AIGC) for Various Data Modalities: A Survey ( http://arxiv.org/abs/2308.14177v4 )

ライセンス: Link先を確認
Lin Geng Foo, Hossein Rahmani, Jun Liu(参考訳) AIGCメソッドは、AIアルゴリズムを使用してテキスト、画像、ビデオ、3Dアセット、その他のメディアを生成することを目的としている。 幅広い応用と最近の研究の可能性を実証したAIGCの開発が近年注目を集めており、画像、ビデオ、テキスト、三次元形状(ボクセル、点雲、メッシュ、神経暗黙界など)、3Dシーン、3Dヒューマンアバター(体と頭)、3Dモーション、オーディオなど、さまざまなデータモダリティに対してAIGC手法が開発されている。 さらに、一方のモダリティにおいて条件入力を受け取り、他方のモダリティで出力を出力する生成手法として、相互モダリティAIGC法において多くの重要な発展があった。 例えば、様々なモダリティから画像、ビデオ、3D形状、3Dシーン、3Dアバター(体と頭)、3Dモーション(骨格とアバター)、オーディオモダリティなどがある。 本稿では,個別モダリティ法とクロスモダリティ法の両方を含む,異なるデータモダリティにまたがるaigc手法の包括的レビューを行い,各設定における様々な課題,代表的作業,最近の技術的方向性について述べる。 また,モダリティ全体の代表データセットを調査し,様々なモダリティの比較結果を示す。 さらに,今後の課題と今後の課題についても考察する。

AI-generated content (AIGC) methods aim to produce text, images, videos, 3D assets, and other media using AI algorithms. Due to its wide range of applications and the demonstrated potential of recent works, AIGC developments have been attracting lots of attention recently, and AIGC methods have been developed for various data modalities, such as image, video, text, 3D shape (as voxels, point clouds, meshes, and neural implicit fields), 3D scene, 3D human avatar (body and head), 3D motion, and audio -- each presenting different characteristics and challenges. Furthermore, there have also been many significant developments in cross-modality AIGC methods, where generative methods can receive conditioning input in one modality and produce outputs in another. Examples include going from various modalities to image, video, 3D shape, 3D scene, 3D avatar (body and head), 3D motion (skeleton and avatar), and audio modalities. In this paper, we provide a comprehensive review of AIGC methods across different data modalities, including both single-modality and cross-modality methods, highlighting the various challenges, representative works, and recent technical directions in each setting. We also survey the representative datasets throughout the modalities, and present comparative results for various modalities. Moreover, we also discuss the challenges and potential future research directions.
翻訳日:2023-10-25 07:41:13 公開日:2023-10-21
# 軽度注意機構を有するTransfer ResNetを用いた乳癌分類の強化

Enhancing Breast Cancer Classification Using Transfer ResNet with Lightweight Attention Mechanism ( http://arxiv.org/abs/2308.13150v4 )

ライセンス: Link先を確認
Suxing Liu(参考訳) 乳がん画像分類における深層学習の顕著な成果にもかかわらず、データ不均衡や解釈可能性といった課題は依然として存在し、医療専門家間のクロスドメイン知識と協調が必要である。 本研究では,データ不均衡や解釈可能性といった課題を効果的に解決する,ResNet50モジュールを用いた乳がん分類手法を提案する。 本モデルでは,事前学習したdeep resnet50と軽量なアテンション機構を融合させて,resnet50のレイヤ4にアテンションモジュールを埋め込み,完全接続層を2層追加することで分類を行う。 完全に接続されたネットワーク設計では、Leaky ReLU と ReLU のアクティベーション機能の両方を用いる。 病理組織学的データセットでは,従来のモデル,視覚変換器,大型モデルよりも精度,精度,リコール,F1スコア,GMeanが優れている。 特に、このモデルは、不均衡な乳癌データセットを扱う際に、大きな堅牢性と幅広い適用性を示す。 我々のモデルは40X、100X、200X、400Xの画像でテストされ、それぞれ98.5%、98.7%、97.9%、94.3%の精度を達成した。 損失と精度の詳細な分析とGrad-CAM分析を通じて、モデル性能を総合的に評価し、トレーニングプロセスの視点を得た。 トレーニングの後半段階では、検証された損失と精度は最小限に変化し、モデルが過度な適合を避け、優れた一般化能力を示すことを示す。 全体として,本研究は乳がん画像分類に有効な解決法である。

Despite the remarkable results of deep learning in breast cancer image classification, challenges such as data imbalance and interpretability still exist and require cross-domain knowledge and collaboration among medical experts. In this study, we propose a dual-activated lightweight attention ResNet50 module method-based breast cancer classification method that effectively addresses challenges such as data imbalance and interpretability. Our model fuses a pre-trained deep ResNet50 and a lightweight attention mechanism to accomplish classification by embedding an attention module in layer 4 of ResNet50 and adding two fully connected layers. For the fully connected network design, we employ both Leaky ReLU and ReLU activation functions. On medical histopathology datasets, our model outperforms conventional models, visual transformers, and large models in terms of precision, accuracy, recall, F1 score, and GMean. In particular, the model demonstrates significant robustness and broad applicability when dealing with the unbalanced breast cancer dataset. Our model is tested on 40X, 100X, 200X, and 400X images and achieves accuracies of 98.5%, 98.7%, 97.9%, and 94.3%, respectively. Through an in-depth analysis of loss and accuracy, as well as Grad-CAM analysis, we comprehensively assessed the model performance and gained perspective on its training process. In the later stages of training, the validated losses and accuracies change minimally, showing that the model avoids overfitting and exhibits good generalization ability. Overall, this study provides an effective solution for breast cancer image classification with practical applica
翻訳日:2023-10-25 07:40:46 公開日:2023-10-21
# 微細ICU患者の類似性分析とリスク予測のためのハイパーグラフ畳み込みネットワーク

Hypergraph Convolutional Networks for Fine-grained ICU Patient Similarity Analysis and Risk Prediction ( http://arxiv.org/abs/2308.12575v2 )

ライセンス: Link先を確認
Yuxi Liu, Zhenhao Zhang, Shaowen Qin, Flora D. Salim, Antonio Jimeno Yepes, Jun Shen, Jiang Bian(参考訳) 集中治療ユニット(ICU、Intensive Care Unit)は、重篤な患者を認め、継続的な監視と治療を提供する病院の最も重要な部分の1つである。 臨床意思決定における医療従事者を支援する様々な患者結果予測手法が試みられている。 既存の方法は、ディープニューラルネットワークを用いて隠れた特徴構造を捉える患者間の類似度を測定することに重点を置いている。 しかし、患者の特徴(診断符号など)や、下流臨床予測に対する因果的影響など、高次関係は無視されている。 本稿では,ハイパーグラフにおける診断符号間の非ペアワイズ関係を表現し,隠れた特徴構造を捉えることで,パーソナライズされた死亡リスク予測のための患者類似度を算出できる新しいハイパーグラフ畳み込みネットワークを提案する。 eICU共同研究データベースを用いた評価の結果,本手法は死亡リスク予測の最先端モデルよりも優れた性能を示した。 さらに,いくつかのケーススタディの結果から,モデル決定の有効性とロバスト性が示された。

The Intensive Care Unit (ICU) is one of the most important parts of a hospital, which admits critically ill patients and provides continuous monitoring and treatment. Various patient outcome prediction methods have been attempted to assist healthcare professionals in clinical decision-making. Existing methods focus on measuring the similarity between patients using deep neural networks to capture the hidden feature structures. However, the higher-order relationships are ignored, such as patient characteristics (e.g., diagnosis codes) and their causal effects on downstream clinical predictions. In this paper, we propose a novel Hypergraph Convolutional Network that allows the representation of non-pairwise relationships among diagnosis codes in a hypergraph to capture the hidden feature structures so that fine-grained patient similarity can be calculated for personalized mortality risk prediction. Evaluation using a publicly available eICU Collaborative Research Database indicates that our method achieves superior performance over the state-of-the-art models on mortality risk prediction. Moreover, the results of several case studies demonstrated the effectiveness and robustness of the model decisions.
翻訳日:2023-10-25 07:39:41 公開日:2023-10-21
# 照射された交互ねじれ多層グラフェン中の位相的フロッケフラットバンド

Topological Floquet Flat Bands in Irradiated Alternating Twist Multilayer Graphene ( http://arxiv.org/abs/2309.11685v2 )

ライセンス: Link先を確認
Yingyi Huang(参考訳) トポロジカルフロケ平坦帯の出現を,第1次魔法角付近で相対ねじれ角が$\pm\theta$と交互に変化する交互二重グラフェンで検討した。 この系は静的な場合、平らなバンドと急なディラック錐の両方を収容するが、円偏光レーザービームはモワール・ボアのK$ポイントでギャップを開き、非ゼロチャーン数を持つフロケ平らなバンドを作ることができる。 最近の格子緩和結果を考えると, トポロジカルフラットバンドはn=3, 4, 5$層における有効層間トンネルに対して十分に分離されている。 このような動的に生成されたトポロジカルフラットバンドは、実験で潜在的に観察され、チャーン絶縁体を実現するための実現可能な方法を提供する。

We study the appearance of topological Floquet flat bands in alternating-twist multilayer graphene, which has alternating relative twist angle $\pm\theta$ near the first magic angle. While the system hosts both flat bands and a steep Dirac cone in the static case, the circularly polarized laser beam can open a gap at the Moir\'{e} $K$ point and create Floquet flat bands carrying nonzero Chern numbers. Considering recent lattice-relaxation results, we find that the topological flat band is well-isolated for the effective interlayer tunneling in $n=3, 4, 5$ layers. Such dynamically produced topological flat bands are potentially observed in the experiment and thus provide a feasible way to realize the fractional Chern insulator.
翻訳日:2023-10-25 07:31:04 公開日:2023-10-21
# 大規模言語モデルを用いた機械翻訳の効果的曖昧化に向けて

Towards Effective Disambiguation for Machine Translation with Large Language Models ( http://arxiv.org/abs/2309.11668v2 )

ライセンス: Link先を確認
Vivek Iyer, Pinzhen Chen and Alexandra Birch(参考訳) 意味的曖昧さの解消は、機械翻訳の分野における中心的な課題として認識されてきた。 あいまいな文に対する翻訳性能のベンチマークに関する最近の研究は、従来のニューラルマシン翻訳(NMT)システムの限界を露呈している。 大規模言語モデル(LLM)は有望な代替として登場し、従来のNMTモデルに匹敵する性能を示しながら、ターゲット出力を制御する新しいパラダイムを導入している。 本稿では,「あいまいな文」を翻訳するllmの能力,すなわち高度に多義的な単語や希少な単語を含む文について検討する。 また,あいまいさを改善するための2つの方法を提案する。 a) 文脈内学習及び b) 注意深く調整された曖昧なデータセットの微調整。 実験の結果,deepl や nllb のような最先端のシステムでは,5つの言語方向のうち4つが一致した。 我々の研究は、機械翻訳中にLLMを効果的に適応してより良い曖昧化を行うための貴重な洞察を提供する。 キュレートされた曖昧なコーパスとリソースはhttps://data.statmt.org/ambiguous-europarl.comで公開しています。

Resolving semantic ambiguity has long been recognised as a central challenge in the field of Machine Translation. Recent work on benchmarking translation performance on ambiguous sentences has exposed the limitations of conventional Neural Machine Translation (NMT) systems, which fail to handle many such cases. Large language models (LLMs) have emerged as a promising alternative, demonstrating comparable performance to traditional NMT models while introducing new paradigms for controlling the target outputs. In this paper, we study the capabilities of LLMs to translate "ambiguous sentences" - i.e. those containing highly polysemous words and/or rare word senses. We also propose two ways to improve their disambiguation capabilities, through a) in-context learning and b) fine-tuning on carefully curated ambiguous datasets. Experiments show that our methods can match or outperform state-of-the-art systems such as DeepL and NLLB in four out of five language directions. Our research provides valuable insights into effectively adapting LLMs to become better disambiguators during Machine Translation. We release our curated disambiguation corpora and resources at https://data.statmt.org/ambiguous-europarl.
翻訳日:2023-10-25 07:30:49 公開日:2023-10-21
# 臨床テキスト要約:大規模言語モデルへの適応は人間の専門家を上回らせる

Clinical Text Summarization: Adapting Large Language Models Can Outperform Human Experts ( http://arxiv.org/abs/2309.07430v2 )

ライセンス: Link先を確認
Dave Van Veen, Cara Van Uden, Louis Blankemeier, Jean-Benoit Delbrouck, Asad Aali, Christian Bluethgen, Anuj Pareek, Malgorzata Polacin, William Collins, Neera Ahuja, Curtis P. Langlotz, Jason Hom, Sergios Gatidis, John Pauly, Akshay S. Chaudhari(参考訳) 膨大なテキストデータを精査し、重要な情報を要約することは、臨床医の時間の割り当てに多大な負担を課す。 大規模言語モデル(LLM)は自然言語処理(NLP)タスクにおいて大きな可能性を秘めているが、多種多様な臨床要約タスクに対する効果はまだ十分に実証されていない。 本研究は,8つのllmにドメイン適応法を適用し,6つのデータセットと4つの異なる臨床要約タスク(放射線検査,患者の質問,進捗記録,医師と患者との対話)にまたがる。 我々は,最近のllmの進歩が改善しない事例に加えて,モデルと適応手法のトレードオフを明らかにする。 さらに,10名の医師による臨床読影者を対象に,最良適応LSMの要約は,完全性と正確性の観点からヒトの要約より好ましいことを示す。 続く質的分析は、LLMと人間の専門家が直面する課題を強調します。 最後に,これらの指標が医師の嗜好とどのように一致しているかの理解を深めるため,従来の量的NLP指標と読者調査スコアを相関付ける。 我々の研究は、複数のタスクにわたる臨床テキスト要約において、llmが人間専門家を上回った最初の証拠である。 このことは、LSMを臨床ワークフローに組み込むことで、医師がパーソナライズされた患者のケアや、本質的に人間の医学的側面にもっと集中できるように、ドキュメントの負担を軽減することができることを意味している。

Sifting through vast textual data and summarizing key information imposes a substantial burden on how clinicians allocate their time. Although large language models (LLMs) have shown immense promise in natural language processing (NLP) tasks, their efficacy on a diverse range of clinical summarization tasks has not yet been rigorously demonstrated. In this work, we apply domain adaptation methods to eight LLMs, spanning six datasets and four distinct clinical summarization tasks: radiology reports, patient questions, progress notes, and doctor-patient dialogue. Our thorough quantitative assessment reveals trade-offs between models and adaptation methods in addition to instances where recent advances in LLMs may not improve results. Further, in a clinical reader study with ten physicians, we show that summaries from our best-adapted LLMs are preferable to human summaries in terms of completeness and correctness. Our ensuing qualitative analysis highlights challenges faced by both LLMs and human experts. Lastly, we correlate traditional quantitative NLP metrics with reader study scores to enhance our understanding of how these metrics align with physician preferences. Our research marks the first evidence of LLMs outperforming human experts in clinical text summarization across multiple tasks. This implies that integrating LLMs into clinical workflows could alleviate documentation burden, empowering clinicians to focus more on personalized patient care and the inherently human aspects of medicine.
翻訳日:2023-10-25 07:28:24 公開日:2023-10-21
# オフライン逆RLを用いたクエリ依存型プロンプト評価と最適化

Query-Dependent Prompt Evaluation and Optimization with Offline Inverse RL ( http://arxiv.org/abs/2309.06553v3 )

ライセンス: Link先を確認
Hao Sun, Alihan H\"uy\"uk, Mihaela van der Schaar(参考訳) 本研究では,ゼロショットプロンプト最適化により,Large Language Models (LLM) の算術的推論能力を向上させることを目的とする。 このような最適化において、以前見過ごされたクエリ依存の目的を特定し、迅速な最適化手法の成功と経済的設計を妨げる2つの課題を解明する。 第一の問題は、金の答えが利用できないときに推論中にプロンプトを評価する効果的な方法がないことである。 同時に、拡張的な自然言語をナビゲートするためのllmとのインタラクションを通じて学習することで、リソース集約性が証明される。 これに対処するために,オフラインの逆強化学習を利用して,オフラインでプロンプトするデモンストレーションデータから洞察を引き出すprompt-oirlを導入する。 このようなデータは、オープンアクセス可能なデータセット上でさまざまなプロンプトがベンチマークされるときに副産物として存在する。 Prompt-OIRLでは、オフライン報酬モデルを学習することで、クエリ依存のプロンプト最適化の目的を達成する。 このモデルは、llmにアクセスせずに任意のクエリ-promptペアを評価することができる。 その後、最適なプロンプトを推奨するためにベストオブN戦略が展開される。 提案手法の有効性と経済性を評価するために, LLM尺度と算術推論データセットを用いた実験を行った。

In this study, we aim to enhance the arithmetic reasoning ability of Large Language Models (LLMs) through zero-shot prompt optimization. We identify a previously overlooked objective of query dependency in such optimization and elucidate two ensuing challenges that impede the successful and economical design of prompt optimization techniques. One primary issue is the absence of an effective method to evaluate prompts during inference when the golden answer is unavailable. Concurrently, learning via interactions with the LLMs to navigate the expansive natural language prompting space proves to be resource-intensive. To address this, we introduce Prompt-OIRL, which harnesses offline inverse reinforcement learning to draw insights from offline prompting demonstration data. Such data exists as by-products when diverse prompts are benchmarked on open-accessible datasets. With Prompt-OIRL, the query-dependent prompt optimization objective is achieved by first learning an offline reward model. This model can evaluate any query-prompt pairs without accessing LLMs. Subsequently, a best-of-N strategy is deployed to recommend the optimal prompt. Our experimental evaluations across various LLM scales and arithmetic reasoning datasets underscore both the efficacy and economic viability of the proposed approach.
翻訳日:2023-10-25 07:27:58 公開日:2023-10-21
# 生オーディオ用コンブネットの不安定性

Instabilities in Convnets for Raw Audio ( http://arxiv.org/abs/2309.05855v2 )

ライセンス: Link先を確認
Daniel Haider, Vincent Lostanlen, Martin Ehler, Peter Balazs(参考訳) 波形ベースのディープラーニングがなぜ難しいのか? フィルタバンク設計のための畳み込みニューラルネットワーク (convnets) を訓練する試みは数多くあるが、手作りのベースラインを上回りしないことが多い。 これらのベースラインは線形時間不変系であり、広い受容場を持つ凸体によって近似することができる。 しかし、実際には勾配に基づく最適化は準最適近似をもたらす。 本稿では,この現象を初期化の観点から考察する。 ランダムなガウス重みを持つFIRフィルタバンクのエネルギー応答に対する大きな偏差の理論を示す。 その結果、大きなフィルタや局所的な周期的な入力信号では偏差が悪化し、どちらもオーディオ信号処理アプリケーションで典型的であることがわかった。 数値シミュレーションは我々の理論と一致し、畳み込み層の条件数は、離散ウェーブレット基底を連想させるフィルタの数と長さの間の対数スケーリング則に従うことを示唆している。

What makes waveform-based deep learning so hard? Despite numerous attempts at training convolutional neural networks (convnets) for filterbank design, they often fail to outperform hand-crafted baselines. These baselines are linear time-invariant systems: as such, they can be approximated by convnets with wide receptive fields. Yet, in practice, gradient-based optimization leads to suboptimal approximations. In our article, we approach this phenomenon from the perspective of initialization. We present a theory of large deviations for the energy response of FIR filterbanks with random Gaussian weights. We find that deviations worsen for large filters and locally periodic input signals, which are both typical for audio signal processing applications. Numerical simulations align with our theory and suggest that the condition number of a convolutional layer follows a logarithmic scaling law between the number and length of the filters, which is reminiscent of discrete wavelet bases.
翻訳日:2023-10-25 07:27:39 公開日:2023-10-21
# CoinRun: 目標の誤用を解決する

CoinRun: Solving Goal Misgeneralisation ( http://arxiv.org/abs/2309.16166v2 )

ライセンス: Link先を確認
Stuart Armstrong and Alexandre Maranh\~ao and Oliver Daniels-Koch and Patrick Leask and Rebecca Gorman(参考訳) 目標の非一般化は、aiアライメントにおける重要な課題である -- 強力な人工知能を使って、目標を人間の意図と人間のモラルに合わせること。 本稿では、ACE(Algorithm for Concept Extrapolation)エージェントが、ゴールの誤一般化における主要な標準課題の1つ、CoinRunチャレンジをいかに解決できるかを示す。 新しい環境では新たな報酬情報を使用しない。 これは、新規で批判的な状況でも、自律的なエージェントが人間の利益のためにどのように行動するかを示唆する。

Goal misgeneralisation is a key challenge in AI alignment -- the task of getting powerful Artificial Intelligences to align their goals with human intentions and human morality. In this paper, we show how the ACE (Algorithm for Concept Extrapolation) agent can solve one of the key standard challenges in goal misgeneralisation: the CoinRun challenge. It uses no new reward information in the new environment. This points to how autonomous agents could be trusted to act in human interests, even in novel and critical situations.
翻訳日:2023-10-25 07:21:59 公開日:2023-10-21
# 科学シミュレーションと設計を加速するニューラル演算子

Neural Operators for Accelerating Scientific Simulations and Design ( http://arxiv.org/abs/2309.15325v3 )

ライセンス: Link先を確認
Kamyar Azizzadenesheli, Nikola Kovachki, Zongyi Li, Miguel Liu-Schiaffini, Jean Kossaifi, Anima Anandkumar(参考訳) 科学的発見と工学的設計は、物理実験の時間とコストによって制限されており、主にドメインの深い専門知識を必要とする試行錯誤と直観によって選択されている。 数値シミュレーションは物理実験に代わるものであるが、既存の数値手法の計算要件のため、通常複雑な実世界領域では実現不可能である。 人工知能(AI)は、高速なデータ駆動サロゲートモデルを開発することによって、潜在的なパラダイムシフトを示す。 特に、ニューラル演算子として知られるAIフレームワークは、例えば時空間過程や偏微分方程式(PDE)など、連続領域上で定義された関数間の写像を学習するための原則化されたフレームワークを提供する。 トレーニング中に見つからない新しい場所で、すなわちゼロショット超解像を行うソリューションを外挿し、予測することができる。 ニューラル演算子は、計算流体力学、天気予報、物質モデリングなど、多くのアプリケーションで既存のシミュレータを拡張または置き換えることができるが、4-5桁高速である。 さらに、神経演算子は、より細かい解像度で強制される物理学やその他の領域の制約と統合でき、高忠実性ソリューションと良好な一般化を得ることができる。 ニューラル演算子は微分可能であるため、逆設計や他の逆問題に対するパラメータを直接最適化することができる。 ニューラルオペレーターは、シミュレーションと設計に対する変革的なアプローチを示し、迅速な研究と開発を可能にしていると信じている。

Scientific discovery and engineering design are currently limited by the time and cost of physical experiments, selected mostly through trial-and-error and intuition that require deep domain expertise. Numerical simulations present an alternative to physical experiments but are usually infeasible for complex real-world domains due to the computational requirements of existing numerical methods. Artificial intelligence (AI) presents a potential paradigm shift by developing fast data-driven surrogate models. In particular, an AI framework, known as neural operators, presents a principled framework for learning mappings between functions defined on continuous domains, e.g., spatiotemporal processes and partial differential equations (PDE). They can extrapolate and predict solutions at new locations unseen during training, i.e., perform zero-shot super-resolution. Neural operators can augment or even replace existing simulators in many applications, such as computational fluid dynamics, weather forecasting, and material modeling, while being 4-5 orders of magnitude faster. Further, neural operators can be integrated with physics and other domain constraints enforced at finer resolutions to obtain high-fidelity solutions and good generalization. Since neural operators are differentiable, they can directly optimize parameters for inverse design and other inverse problems. We believe that neural operators present a transformative approach to simulation and design, enabling rapid research and development.
翻訳日:2023-10-25 07:21:37 公開日:2023-10-21
# 十分かつ必要な原因の確率による不変学習

Invariant Learning via Probability of Sufficient and Necessary Causes ( http://arxiv.org/abs/2309.12559v3 )

ライセンス: Link先を確認
Mengyue Yang, Zhen Fang, Yonggang Zhang, Yali Du, Furui Liu, Jean-Francois Ton, Jun Wang(参考訳) アウト・オブ・ディストリビューション(OOD)の一般化は、一般にテスト分布が未知であり、トレーニングとは異なる、野生のモデルの学習には不可欠である。 因果関係から導かれる最近の手法は、OOD一般化の実現に大きな可能性を示している。 しかし、既存の方法は主に原因の不変性に焦点を合わせ、主に \textit{sufficiency} と \textit{necessity} の条件の性質を見下ろしている。 すなわち、必要だが不十分な原因(特徴)は分布シフトに不変であるが、正確さは必要ではない。 対照的に、十分な不必要な原因(機能)は特定のデータによく適合する傾向があるが、新しいドメインに適応するリスクがある。 十分かつ必要な原因に関する情報を収集するために、我々は、必要かつ十分な原因であるかどうかを示す古典的な概念、充足確率と必要原因(PNS)を用いる。 PNS と OOD の一般化を関連付けるために,我々は PNS リスクを提案し,高い PNS 値で表現を学習するアルゴリズムを定式化する。 PNSリスクの一般化性を理論的に分析し,実証する。 合成および実世界のベンチマーク実験により,提案手法の有効性が示された。 実装の詳細はgithubリポジトリにある。 https://github.com/ymy4323460/casn。

Out-of-distribution (OOD) generalization is indispensable for learning models in the wild, where testing distribution typically unknown and different from the training. Recent methods derived from causality have shown great potential in achieving OOD generalization. However, existing methods mainly focus on the invariance property of causes, while largely overlooking the property of \textit{sufficiency} and \textit{necessity} conditions. Namely, a necessary but insufficient cause (feature) is invariant to distribution shift, yet it may not have required accuracy. By contrast, a sufficient yet unnecessary cause (feature) tends to fit specific data well but may have a risk of adapting to a new domain. To capture the information of sufficient and necessary causes, we employ a classical concept, the probability of sufficiency and necessary causes (PNS), which indicates the probability of whether one is the necessary and sufficient cause. To associate PNS with OOD generalization, we propose PNS risk and formulate an algorithm to learn representation with a high PNS value. We theoretically analyze and prove the generalizability of the PNS risk. Experiments on both synthetic and real-world benchmarks demonstrate the effectiveness of the proposed method. The details of the implementation can be found at the GitHub repository: https://github.com/ymy4323460/CaSN.
翻訳日:2023-10-25 07:19:19 公開日:2023-10-21
# ブロックベースの量子化の再検討:サブ8ビットllm推論で重要なのは何か?

Revisiting Block-based Quantisation: What is Important for Sub-8-bit LLM Inference? ( http://arxiv.org/abs/2310.05079v2 )

ライセンス: Link先を確認
Cheng Zhang, Jianyi Cheng, Ilia Shumailov, George A. Constantinides, and Yiren Zhao(参考訳) 大規模言語モデル(LLM)の推論には膨大な計算とメモリ資源が必要である。 これらのコストを削減すべく、量子化は有望な解として統合されているが、既存のLLM量子化は主に8ビットに焦点を当てている。 本研究では, LLM層の統計的および学習特性について検討し, LLMの量子化のボトルネックを数値スケーリングオフセットとみなす。 これに対処するために、満員数にまたがるスケーリング係数を共有する一連のメソッドであるllmsに対して、ブロック量子化を適用する。 ブロック量子化は、計算経路で追加の処理をすることなく、演算の観点からのみ数値スケーリングオフセットを効率的に削減する。 ほぼロスレスで量子化された6ビットのLSMは、演算密度が高く、float32ベースラインよりも5\times$メモリ密度が高く、演算密度が2.5\times$、メモリ密度が1.2\times$で、データキャリブレーションや再学習は不要である。 我々はまた、活性化と重量分布のミスマッチ、最適微調整戦略、LLMの統計的性質に固有の低い量子化粒度を含む、サブ8ビットLSM量子化に関する洞察を共有した。 後者の2つのトリックは、下流タスクでほぼ無作為な4ビットLLMを可能にする。 私たちのコードはオープンソースです。

The inference of Large language models (LLMs) requires immense computation and memory resources. To curtail these costs, quantisation has merged as a promising solution, but existing LLM quantisation mainly focuses on 8-bit. In this work, we explore the statistical and learning properties of the LLM layer and attribute the bottleneck of LLM quantisation to numerical scaling offsets. To address this, we adapt block quantisations for LLMs, a family of methods that share scaling factors across packed numbers. Block quantisations efficiently reduce the numerical scaling offsets solely from an arithmetic perspective, without additional treatments in the computational path. Our nearly-lossless quantised 6-bit LLMs achieve a $19\times$ higher arithmetic density and $5\times$ memory density than the float32 baseline, surpassing the prior art 8-bit quantisation by $2.5\times$ in arithmetic density and $1.2\times$ in memory density, without requiring any data calibration or re-training. We also share our insights into sub-8-bit LLM quantisation, including the mismatch between activation and weight distributions, optimal fine-tuning strategies, and a lower quantisation granularity inherent in the statistical properties of LLMs. The latter two tricks enable nearly-lossless 4-bit LLMs on downstream tasks. Our code is open-sourced.
翻訳日:2023-10-25 07:02:02 公開日:2023-10-21
# 文脈内情報抽出のためのガイドライン学習

Guideline Learning for In-context Information Extraction ( http://arxiv.org/abs/2310.05066v2 )

ライセンス: Link先を確認
Chaoxu Pang, Yixuan Cao, Qiang Ding, Ping Luo(参考訳) 大規模言語モデル(llms)は、パラメータを最適化することなく、単にタスク命令といくつかの入出力例を条件付けするだけで、新しいタスクを実行することができる。 これをICL(In-Context Learning)と呼ぶ。 インコンテキスト情報抽出(IE)は近年,研究コミュニティで注目を集めている。 しかし、In-context IEのパフォーマンスは、一般的に最先端の教師付きエキスパートモデルよりも遅れている。 この欠点の主な理由は、未特定タスク記述である。 限られた長さのコンテキストは、複雑なIEタスク命令と様々なエッジケースを徹底的に表現するのに苦労し、ヒューマンとのタスク理解のミスアライメントにつながる。 本稿では,ガイドラインを反映的に学習し従うインコンテキストieのためのガイドライン学習(gl)フレームワークを提案する。 学習フレーズの間、GLはいくつかのエラーケースに基づいて一連のガイドラインを自動的に合成し、推論の間、GLはより良いICLのための有用なガイドラインを検索する。 さらに,GLの効率を向上させる自己整合性に基づく能動的学習手法を提案する。 イベント抽出と関係抽出の実験により,GLは文脈内IEの性能を大幅に向上できることが示された。

Large language models (LLMs) can perform a new task by merely conditioning on task instructions and a few input-output examples, without optimizing any parameters. This is called In-Context Learning (ICL). In-context Information Extraction (IE) has recently garnered attention in the research community. However, the performance of In-context IE generally lags behind the state-of-the-art supervised expert models. We highlight a key reason for this shortfall: underspecified task description. The limited-length context struggles to thoroughly express the intricate IE task instructions and various edge cases, leading to misalignment in task comprehension with humans. In this paper, we propose a Guideline Learning (GL) framework for In-context IE which reflectively learns and follows guidelines. During the learning phrase, GL automatically synthesizes a set of guidelines based on a few error cases, and during inference, GL retrieves helpful guidelines for better ICL. Moreover, we propose a self-consistency-based active learning method to enhance the efficiency of GL. Experiments on event extraction and relation extraction show that GL can significantly improve the performance of in-context IE.
翻訳日:2023-10-25 07:01:12 公開日:2023-10-21
# インドネシアの小学校試験に合格した大規模言語モデル:IndoMMLUの総合的な検証

Large Language Models Only Pass Primary School Exams in Indonesia: A Comprehensive Test on IndoMMLU ( http://arxiv.org/abs/2310.04928v2 )

ライセンス: Link先を確認
Fajri Koto and Nurul Aisyah and Haonan Li and Timothy Baldwin(参考訳) 大規模言語モデル(LLM)は大規模多言語テキストで事前訓練されることが多いが、その推論能力と実世界の知識は主に英語データセットに基づいて評価される。 英語以外のLLM能力を評価することはますます不可欠だが、適切なデータセットがないために妨げられている。 本研究では,インドネシアにおける初等学校から大学入学試験までの質問からなる,インドネシアの文化と言語に対する最初のマルチタスク言語理解ベンチマークであるIndoMMLUを紹介する。 専門職の教員を雇うことで,64の課題と教育レベルにまたがる14,981の質問が得られ,そのうち46%はインドネシア語の習熟度評価とインドネシアの9つの言語と文化の知識に焦点をあてた質問である。 GPT-3.5はインドネシアの初等教育の水準に留まり、インドネシアの言語や文化に関する知識は限られている。 BLOOMZやファルコンのような他の小型モデルは、より低いレベルで実行する。

Although large language models (LLMs) are often pre-trained on large-scale multilingual texts, their reasoning abilities and real-world knowledge are mainly evaluated based on English datasets. Assessing LLM capabilities beyond English is increasingly vital but hindered due to the lack of suitable datasets. In this work, we introduce IndoMMLU, the first multi-task language understanding benchmark for Indonesian culture and languages, which consists of questions from primary school to university entrance exams in Indonesia. By employing professional teachers, we obtain 14,981 questions across 64 tasks and education levels, with 46% of the questions focusing on assessing proficiency in the Indonesian language and knowledge of nine local languages and cultures in Indonesia. Our empirical evaluations show that GPT-3.5 only manages to pass the Indonesian primary school level, with limited knowledge of local Indonesian languages and culture. Other smaller models such as BLOOMZ and Falcon perform at even lower levels.
翻訳日:2023-10-25 07:00:27 公開日:2023-10-21
# LoFT:大規模言語モデルに対する敵対的攻撃の伝達性を改善するローカルプロキシファインニング

LoFT: Local Proxy Fine-tuning For Improving Transferability Of Adversarial Attacks Against Large Language Model ( http://arxiv.org/abs/2310.04445v2 )

ライセンス: Link先を確認
Muhammad Ahmed Shah, Roshan Sharma, Hira Dhamyal, Raphael Olivier, Ankit Shah, Joseph Konan, Dareen Alharthi, Hazim T Bukhari, Massa Baali, Soham Deshmukh, Michael Kuhlmann, Bhiksha Raj, Rita Singh(参考訳) 有害な応答を誘導するために,攻撃接尾辞に有害なクエリを付加することにより,LLMアライメントを回避できることが示されている。 特徴が不明なプライベートターゲットモデルに対する攻撃を行うため、パブリックモデルをプロキシとして使用し、パブリックプロキシからプライベートターゲットモデルへの攻撃を成功させる。 攻撃の成功率は、プロキシモデルがプライベートモデルにどの程度近いかに依存する。 我々は、攻撃が転送可能であるためには、プロキシが有害なクエリの近傍でターゲットモデルを近似できるなら十分である、と仮定する。 そこで本稿では, 有害なクエリのレキシコ・セマンティックな近傍に位置する類似クエリ上で, プロキシとターゲットモデルとのばらつきを低減するための, 微調整プロキシモデルである \emph{Local Fine-Tuning (LoFT)} を提案する。 まず、有害なクエリに対して類似したクエリを取得するために、プライベートなターゲットモデルを促す3つのアプローチを実証する。 次に、生成した類似クエリに対するターゲットモデルからの応答を抽出し、局所的な微調整のためのデータを得る。 そして,攻撃プロンプトを生成するために攻撃接尾辞を最適化し,攻撃の成功率に対する局所的微調整の影響を評価する。 実験により、プロキシモデルの局所的な微調整により攻撃伝達性が向上し、攻撃成功率を目標モデルのchatgpt、gpt-4、claudeでそれぞれ39\%$、$7\%$、$0.5\%$(絶対的)に向上することが示されている。

It has been shown that Large Language Model (LLM) alignments can be circumvented by appending specially crafted attack suffixes with harmful queries to elicit harmful responses. To conduct attacks against private target models whose characterization is unknown, public models can be used as proxies to fashion the attack, with successful attacks being transferred from public proxies to private target models. The success rate of attack depends on how closely the proxy model approximates the private model. We hypothesize that for attacks to be transferrable, it is sufficient if the proxy can approximate the target model in the neighborhood of the harmful query. Therefore, in this paper, we propose \emph{Local Fine-Tuning (LoFT)}, \textit{i.e.}, fine-tuning proxy models on similar queries that lie in the lexico-semantic neighborhood of harmful queries to decrease the divergence between the proxy and target models. First, we demonstrate three approaches to prompt private target models to obtain similar queries given harmful queries. Next, we obtain data for local fine-tuning by eliciting responses from target models for the generated similar queries. Then, we optimize attack suffixes to generate attack prompts and evaluate the impact of our local fine-tuning on the attack's success rate. Experiments show that local fine-tuning of proxy models improves attack transferability and increases attack success rate by $39\%$, $7\%$, and $0.5\%$ (absolute) on target models ChatGPT, GPT-4, and Claude respectively.
翻訳日:2023-10-25 07:00:08 公開日:2023-10-21
# 会話型健康エージェント:パーソナライズされたLLMエージェントフレームワーク

Conversational Health Agents: A Personalized LLM-Powered Agent Framework ( http://arxiv.org/abs/2310.02374v2 )

ライセンス: Link先を確認
Mahyar Abbasian, Iman Azimi, Amir M. Rahmani, Ramesh Jain(参考訳) conversational health agents(chas)は、共感的な会話に関わり、マルチモーダルデータを処理することによって、パーソナルヘルスケアサービスを強化するために設計された対話型システムである。 現在のCHA(特にLarge Language Models (LLMs))は会話に重点を置いているが、より包括的なエージェント機能を必要とすることが多い。 この制限には、ウェアラブル、ユビキタスデータ収集ソース、電子健康記録からの個人ユーザー健康データへのアクセス、最新のhealth insightsの統合、確立されたマルチモーダルデータ分析ツールとの接続が含まれる。 本稿では,chasがユーザの医療クエリに対してパーソナライズされた応答を生成するための,llmを活用したフレームワークを提案する。 このフレームワークは、医療データソースの統合、多言語およびマルチモーダル会話の実現、およびさまざまなユーザデータ分析ツールとのインタラクションにより、批判的思考、知識獲得、問題解決能力を提供する。 ストレスレベル推定を事例として,複雑な医療タスクの処理におけるフレームワークの習熟度を示し,エージェントの認知的・操作的能力を示す。

Conversational Health Agents (CHAs) are interactive systems designed to enhance personal healthcare services by engaging in empathetic conversations and processing multimodal data. While current CHAs, especially those utilizing Large Language Models (LLMs), primarily focus on conversation, they often need more comprehensive agent capabilities. This limitation includes accessing personal user health data from wearables, ubiquitous data collection sources, and electronic health records, integrating the latest published health insights, and connecting with established multimodal data analysis tools. In this paper, we propose an LLM-powered framework to empower CHAs to generate a personalized response for users' healthcare queries. This framework provides critical thinking, knowledge acquisition, and problem-solving abilities by integrating healthcare data sources, enabling multilingual and multimodal conversations, and interacting with various user data analysis tools. We illustrate the framework's proficiency in handling complex healthcare tasks via a case study on stress level estimation, showcasing the agent's cognitive and operational capabilities.
翻訳日:2023-10-25 06:58:56 公開日:2023-10-21
# 機能シフト調整による安定なバックドア浄化に向けて

Towards Stable Backdoor Purification through Feature Shift Tuning ( http://arxiv.org/abs/2310.01875v3 )

ライセンス: Link先を確認
Rui Min, Zeyu Qin, Li Shen, Minhao Cheng(参考訳) ディープニューラルネットワーク(dnn)は、少数のトレーニングサンプルを改ざんすることで、攻撃者がモデル動作を悪意を持って操作できるバックドア攻撃に対して脆弱であることが広く観察されている。 この脅威を軽減するために一連の防御手法が提案されているが、それらはトレーニングプロセスに複雑な修正を必要とするか、特定のモデルアーキテクチャに強く依存しているため、現実世界のアプリケーションへのデプロイが困難である。 そこで本稿では,多様な攻撃シナリオに対する包括的評価を通じて,最も一般的かつデプロイが容易なバックドア防御の1つである微調整から始める。 初期の実験を通して行われた観測によると、高毒性率の予測された防御効果とは対照的に、バニラチューニング手法は低毒性率のシナリオで完全に失敗する。 分析の結果,低中毒率ではバックドアとクリーンな特徴の絡み合いが,チューニングによる防御効果を損なうことが示された。 そのため、バックドアの浄化を改善するために、バックドアとクリーンな特徴を解体する必要がある。 これを解決するために,チューニングに基づくバックドア浄化手法であるFeature Shift Tuning (FST)を導入する。 具体的には、FSTは、もともと妥協された重みから分類器の重みを積極的に逸脱することで特徴シフトを奨励する。 大規模な実験により、FSTは異なる攻撃条件下で一貫した安定した性能を提供することが示された。 複雑なパラメータ調整がなければ、FSTはチューニングコストも大幅に低くなり、10エポックしか得られない。 私たちのコードはhttps://github.com/AISafety-HKUST/stable_backdoor_purificationで利用可能です。

It has been widely observed that deep neural networks (DNN) are vulnerable to backdoor attacks where attackers could manipulate the model behavior maliciously by tampering with a small set of training samples. Although a line of defense methods is proposed to mitigate this threat, they either require complicated modifications to the training process or heavily rely on the specific model architecture, which makes them hard to deploy into real-world applications. Therefore, in this paper, we instead start with fine-tuning, one of the most common and easy-to-deploy backdoor defenses, through comprehensive evaluations against diverse attack scenarios. Observations made through initial experiments show that in contrast to the promising defensive results on high poisoning rates, vanilla tuning methods completely fail at low poisoning rate scenarios. Our analysis shows that with the low poisoning rate, the entanglement between backdoor and clean features undermines the effect of tuning-based defenses. Therefore, it is necessary to disentangle the backdoor and clean features in order to improve backdoor purification. To address this, we introduce Feature Shift Tuning (FST), a method for tuning-based backdoor purification. Specifically, FST encourages feature shifts by actively deviating the classifier weights from the originally compromised weights. Extensive experiments demonstrate that our FST provides consistently stable performance under different attack settings. Without complex parameter adjustments, FST also achieves much lower tuning costs, only 10 epochs. Our codes are available at https://github.com/AISafety-HKUST/stable_backdoor_purification.
翻訳日:2023-10-25 06:58:32 公開日:2023-10-21
# 『二動物語』--弱い教師付きグラフに基づく構造化予測による#blacklivesmatterと#bluelivesmatter運動関連ツイートの視点の同定と比較

"A Tale of Two Movements": Identifying and Comparing Perspectives in #BlackLivesMatter and #BlueLivesMatter Movements-related Tweets using Weakly Supervised Graph-based Structured Prediction ( http://arxiv.org/abs/2310.07155v2 )

ライセンス: Link先を確認
Shamik Roy, Dan Goldwasser(参考訳) ソーシャルメディアは、オンライン社会運動の形成を促進することによって、社会変革の原動力となっている。 動きを駆動する視点とそれに反対する声を自動的に理解することは、注釈付きデータを得るのが難しいため難しい課題である。 我々は#BackLivesMatter関連ツイートの視点を明示的にモデル化する弱い教師付きグラフベースのアプローチを提案する。 提案手法は,データの社会的言語表現を利用する。 テキストを構造化された要素に分割してグラフに変換し、著者のソーシャルネットワークに接続し、その要素上で構造化された予測を行い、視点を識別する。 私たちのアプローチでは、ラベル付き例の小さなシードセットを使用します。 人工的なトレーニング例を生成するために大規模な言語モデルを用いて実験を行い、それらを手動のアノテーションと比較し、同等のパフォーマンスを実現する。 人間の注釈付きテストセットを用いて定量的および定性的な分析を行う。 我々のモデルはマルチタスクベースラインを大きなマージンで上回り、#BLMをサポートし、反対する視点をうまく特徴づける。

Social media has become a major driver of social change, by facilitating the formation of online social movements. Automatically understanding the perspectives driving the movement and the voices opposing it, is a challenging task as annotated data is difficult to obtain. We propose a weakly supervised graph-based approach that explicitly models perspectives in #BackLivesMatter-related tweets. Our proposed approach utilizes a social-linguistic representation of the data. We convert the text to a graph by breaking it into structured elements and connect it with the social network of authors, then structured prediction is done over the elements for identifying perspectives. Our approach uses a small seed set of labeled examples. We experiment with large language models for generating artificial training examples, compare them to manual annotation, and find that it achieves comparable performance. We perform quantitative and qualitative analyses using a human-annotated test set. Our model outperforms multitask baselines by a large margin, successfully characterizing the perspectives supporting and opposing #BLM.
翻訳日:2023-10-25 06:39:36 公開日:2023-10-21
# マルチタスク一貫性制約によるトランスフォーマティブ型マルチモーダル変化検出

Transformer-based Multimodal Change Detection with Multitask Consistency Constraints ( http://arxiv.org/abs/2310.09276v2 )

ライセンス: Link先を確認
Biyuan Liu, Huaixin Chen, Kun Li, Michael Ying Yang(参考訳) 変化検出は、経時的な反復を分析する上で、地球観測において基本的な役割を担っている。 しかし、近年の研究では、単一のモーダルアプローチに比べて実用的、技術的優位性を示すマルチモーダルデータの利用を無視している。 本研究は,デジタルサーフェスモデル(DSM)データと異なるタイミングで捉えた空中画像を利用して,2Dを超える変化を検出することに焦点を当てる。 我々は,現在の変化検出手法が,意味変化検出タスクと高さ変化検出タスクのマルチタスク競合に苦しむことを観察する。 この課題に対処するために,クロスアテンションによる多次元入力間の共有表現を学習する効率的なトランスフォーマーネットワークを提案する。 高さ変化しきい値化による擬似変化の獲得と、重複領域における意味変化と擬似変化の差異の最小化を含むマルチモーダル関係を確立するために、一貫性制約を採用する。 オランダの3都市を含むDSM-to-imageマルチモーダルデータセットが構築された。 クロス次元入力からのbeyond-2d変化検出のための新しい基盤を提供する。 提案手法は,5つの現状変化検出手法と比較して,意味的および高さ変化検出の観点から一貫したマルチタスク優位性を示す。 さらに、一貫性戦略は他の手法にシームレスに適応でき、有望な改善をもたらす。

Change detection plays a fundamental role in Earth observation for analyzing temporal iterations over time. However, recent studies have largely neglected the utilization of multimodal data that presents significant practical and technical advantages compared to single-modal approaches. This research focuses on leveraging digital surface model (DSM) data and aerial images captured at different times for detecting change beyond 2D. We observe that the current change detection methods struggle with the multitask conflicts between semantic and height change detection tasks. To address this challenge, we propose an efficient Transformer-based network that learns shared representation between cross-dimensional inputs through cross-attention. It adopts a consistency constraint to establish the multimodal relationship, which involves obtaining pseudo change through height change thresholding and minimizing the difference between semantic and pseudo change within their overlapping regions. A DSM-to-image multimodal dataset encompassing three cities in the Netherlands was constructed. It lays a new foundation for beyond-2D change detection from cross-dimensional inputs. Compared to five state-of-the-art change detection methods, our model demonstrates consistent multitask superiority in terms of semantic and height change detection. Furthermore, the consistency strategy can be seamlessly adapted to the other methods, yielding promising improvements.
翻訳日:2023-10-25 06:31:09 公開日:2023-10-21
# トポロジカル配位グラフェンジグザグナノリボンの位相相転移に関する相互情報と相関

Mutual information and correlations across topological phase transitions in topologically ordered graphene zigzag nanoribbons ( http://arxiv.org/abs/2310.08970v2 )

ライセンス: Link先を確認
In-Hwan Lee, Hoang-Anh Le, and S.-R. Eric Yang(参考訳) グラフェンジグザグナノリボンは、当初は位相秩序状態にあり、準位相秩序によって区別される交差相へと位相相転移する。 位相秩序相と交差相の両方の相互情報を計算し,以下の結果を明らかにした。 i) トポロジカル秩序相では, ジグザグリボンの反対側でA-キラリティー炭素線がB-キラリティー炭素線と強く絡み合う。 この絡み合いは持続するが、交叉相では弱まる。 (ii)上部ジグザグエッジは、リボンの反対側に異なるキラリティーの非エッジ線が絡み合っている。 3) 炭素線が重なり合うにつれて, 直線のキラリティーによらず, 絡み合いが増大する。 乱れのない対称性保護相では長距離の絡み合いは認められなかった。

Graphene zigzag nanoribbons, initially in a topologically ordered state, undergo a topological phase transition into crossover phases distinguished by quasi-topological order. We computed mutual information for both the topologically ordered phase and its crossover phases, revealing the following results: (i) In the topologically ordered phase, A-chirality carbon lines strongly entangle with B-chirality carbon lines on the opposite side of the zigzag ribbon. This entanglement persists but weakens in crossover phases. (ii) The upper zigzag edge entangles with non-edge lines of different chirality on the opposite side of the ribbon. (iii) Entanglement increases as more carbon lines are grouped together, regardless of the lines' chirality. No long-range entanglement was found in the symmetry-protected phase in the absence of disorder.
翻訳日:2023-10-25 06:30:20 公開日:2023-10-21
# SegLoc: セキュリティ検査X線画像のディエンス予測タスクのための視覚的自己教師型学習スキーム

SegLoc: Visual Self-supervised Learning Scheme for Dense Prediction Tasks of Security Inspection X-ray Images ( http://arxiv.org/abs/2310.08421v3 )

ライセンス: Link先を確認
Shervin Halat, Mohammad Rahmati, Ehsan Nazerfard(参考訳) 近年、人工知能の顕著な進歩は、ssl(self-supervised learning)方式の統合に起因している。 自然言語処理(NLP)における顕著な成果にもかかわらず、コンピュータビジョンにおけるSSLは、比較的軌道に留まることができなかった。 近年,既存のビジュアルSSLモデル上でのコントラスト学習の統合は大きな進歩を遂げており,教師付きSSLモデルよりも優れています。 それにもかかわらず、改善は主に分類タスクに限定された。さらに、実際のシナリオでビジュアルsslモデルを評価する研究はほとんどないが、大多数はクラス毎のポートレートイメージを含むデータセット、特にimagenetを検討した。 そこで本研究では,セキュリティ検査用X線画像の密集予測タスクについて検討し,提案したモデルのセグメンテーション・ローカライゼーション(SegLoc)を評価する。 インスタンスローカライゼーション(InsLoc)モデルに基づいて、我々のモデルはコントラスト学習の最も難しい欠点の1つ、すなわち、クエリ埋め込みの誤った負ペアに対処しました。 そのために,既存のラベル付きデータセット (pidray) からラベル付きデータセット (6ray;) のインスタンス,すなわちバックグラウンドとしてラベル付きデータセット (pidray) にラベル付きセグメントをカット・変換・ペーストし,前景としてラベル付きセグメントを合成する。 この課題に関して,本手法は,20~30回の事前学習エポックで異なるIoU値のARおよびAP測定値において,教師付き初期化の過小評価を行いながら,ランダム初期化法を3%~6%上回った。

Lately, remarkable advancements of artificial intelligence have been attributed to the integration of self-supervised learning (SSL) scheme. Despite impressive achievements within natural language processing (NLP), SSL in computer vision has not been able to stay on track comparatively. Recently, integration of contrastive learning on top of existing visual SSL models has established considerable progress, thereby being able to outperform supervised counterparts. Nevertheless, the improvements were mostly limited to classification tasks; moreover, few studies have evaluated visual SSL models in real-world scenarios, while the majority considered datasets containing class-wise portrait images, notably ImageNet. Thus, here, we have considered dense prediction tasks on security inspection x-ray images to evaluate our proposed model Segmentation Localization (SegLoc). Based upon the model Instance Localization (InsLoc), our model has managed to address one of the most challenging downsides of contrastive learning, i.e., false negative pairs of query embeddings. To do so, our pre-training dataset is synthesized by cutting, transforming, then pasting labeled segments, as foregrounds, from an already existing labeled dataset (PIDray) onto instances, as backgrounds, of an unlabeled dataset (SIXray;) further, we fully harness the labels through integration of the notion, one queue per class, into MoCo-v2 memory bank, avoiding false negative pairs. Regarding the task in question, our approach has outperformed random initialization method by 3% to 6%, while having underperformed supervised initialization, in AR and AP metrics at different IoU values for 20 to 30 pre-training epochs.
翻訳日:2023-10-25 06:28:39 公開日:2023-10-21
# 多言語言語モデルにおける事実知識の言語間一貫性

Cross-Lingual Consistency of Factual Knowledge in Multilingual Language Models ( http://arxiv.org/abs/2310.10378v3 )

ライセンス: Link先を確認
Jirui Qi, Raquel Fern\'andez, Arianna Bisazza(参考訳) 多言語の大規模事前学習言語モデル(plm)は、かなりの量の事実知識を蓄積していることが示されているが、言語間で大きな変化が見られる。 異なる言語背景を持つユーザが同じモデルから一貫したフィードバックを得るための究極の目標として,多言語PLMにおける事実知識の言語間整合性(CLC)について検討する。 そこで我々は,言語間の知識の整合性を評価するために,RankC(Rank-based Consistency)尺度を提案する。 この測定値を用いて、モデルレベルと言語ペアレベルの両方において、CLCの決定因子の詳細な分析を行う。 以上の結果から,モデルサイズが大きくなると,言語間一貫性は向上しないものの,実測精度は高まることが判明した。 最後に,モデル編集により新たな事実関連をPLMに挿入する場合に,LCCのケーススタディを行う。 英語に挿入された事実の小さなサンプルの結果から、新しい知識の断片が、高いランクCスコアを持つ言語にのみ伝達される明確なパターンが明らかとなった。

Multilingual large-scale Pretrained Language Models (PLMs) have been shown to store considerable amounts of factual knowledge, but large variations are observed across languages. With the ultimate goal of ensuring that users with different language backgrounds obtain consistent feedback from the same model, we study the cross-lingual consistency (CLC) of factual knowledge in various multilingual PLMs. To this end, we propose a Ranking-based Consistency (RankC) metric to evaluate knowledge consistency across languages independently from accuracy. Using this metric, we conduct an in-depth analysis of the determining factors for CLC, both at model level and at language-pair level. Among other results, we find that increasing model size leads to higher factual probing accuracy in most languages, but does not improve cross-lingual consistency. Finally, we conduct a case study on CLC when new factual associations are inserted in the PLMs via model editing. Results on a small sample of facts inserted in English reveal a clear pattern whereby the new piece of knowledge transfers only to languages with which English has a high RankC score.
翻訳日:2023-10-25 06:22:10 公開日:2023-10-21
# BiomedJourney:マルチモーダル患者からの指導学習によるバイオメディカル画像生成

BiomedJourney: Counterfactual Biomedical Image Generation by Instruction-Learning from Multimodal Patient Journeys ( http://arxiv.org/abs/2310.10765v3 )

ライセンス: Link先を確認
Yu Gu, Jianwei Yang, Naoto Usuyama, Chunyuan Li, Sheng Zhang, Matthew P. Lungren, Jianfeng Gao, Hoifung Poon(参考訳) InstructPix2Pixの例のように、自然言語による画像編集のためのインストラクション学習が急速に進歩している。 バイオメディシンでは, 因果構造と突発的相関とを区別し, 疾患進行モデルのための堅牢な画像解釈を容易にする, 反ファクト画像生成に適用することができる。 しかし、汎用的な画像編集モデルは生体医学領域に不適合であり、反事実的生体医学的画像生成は概ね過小評価されている。 本稿では,マルチモーダル患者からの指導学習によるバイオメディカル画像生成のための新しい手法であるBiomedJourneyを提案する。 異なる地点で2つの生体医用画像が撮影された場合,gpt-4を用いて対応する画像報告を処理し,疾患進展の自然言語記述を生成する。 得られたトリプル(優先画像、進行記述、新しい画像)は、反事実的生物医学的画像生成のための潜在拡散モデルを訓練するために使用される。 画像時系列データの相対的不足を考慮し,より豊富な単一画像レポートペア(ダミー先行画像を含む)を用いてデノナイジングネットワークを事前訓練し,次いで,デノナイジングネットワークを用いたトレーニングを継続する2段階カリキュラムを導入する。 標準MIMIC-CXRデータセットを用いた実験により,提案手法の可能性を実証した。 InstructPix2PixやRoentGenのような命令画像編集や医用画像生成において、BiomedJourneyは従来の最先端の手法を大幅に上回っている。 偽医療生成における今後の研究を促進するため,我々は,教育学習コードと事前学習モデルをリリースする予定である。

Rapid progress has been made in instruction-learning for image editing with natural-language instruction, as exemplified by InstructPix2Pix. In biomedicine, such methods can be applied to counterfactual image generation, which helps differentiate causal structure from spurious correlation and facilitate robust image interpretation for disease progression modeling. However, generic image-editing models are ill-suited for the biomedical domain, and counterfactual biomedical image generation is largely underexplored. In this paper, we present BiomedJourney, a novel method for counterfactual biomedical image generation by instruction-learning from multimodal patient journeys. Given a patient with two biomedical images taken at different time points, we use GPT-4 to process the corresponding imaging reports and generate a natural language description of disease progression. The resulting triples (prior image, progression description, new image) are then used to train a latent diffusion model for counterfactual biomedical image generation. Given the relative scarcity of image time series data, we introduce a two-stage curriculum that first pretrains the denoising network using the much more abundant single image-report pairs (with dummy prior image), and then continues training using the counterfactual triples. Experiments using the standard MIMIC-CXR dataset demonstrate the promise of our method. In a comprehensive battery of tests on counterfactual medical image generation, BiomedJourney substantially outperforms prior state-of-the-art methods in instruction image editing and medical image generation such as InstructPix2Pix and RoentGen. To facilitate future study in counterfactual medical generation, we plan to release our instruction-learning code and pretrained models.
翻訳日:2023-10-25 06:09:24 公開日:2023-10-21
# 測度に基づく量子ゲートテレポーテーションの要件としての対称性保護トポロジカル秩序

Symmetry protected topological order as a requirement for measurement-based quantum gate teleportation ( http://arxiv.org/abs/2310.10561v2 )

ライセンス: Link先を確認
Zhuohao Liu, Emma C. Johnson, and David L. Feder(参考訳) 相関空間における測定に基づく量子テレポーテーションのすべての既知の資源状態は、位相秩序を保護した対称性を持つが、これは十分か必要か? この研究は、1次元のキュービット状態の2つの族を負の質問に答えるために考慮する。 第一は結合次元 2 の行列生成状態の族であり、これはクラスター状態を含む特別な場合であり、大域的非オンサイト対称性によって保護され、決定論的にテレポートゲートが得られず、非退化エンタングルメントスペクトルによって特徴づけられる。 2つ目は結合次元 4 の状態であり、有限個のシングルキュービットゲートの決定論的普遍的テレポーテーションの資源であるが、対称性を持たない。

All known resource states for measurement-based quantum teleportation in correlation space possess symmetry protected topological order, but is this a sufficient or even necessary condition? This work considers two families of one-dimensional qubit states to answer this question in the negative. The first is a family of matrix-product states with bond dimension two that includes the cluster state as a special case, protected by a global non-onsite symmetry, which is unable to deterministically teleport gates and which is characterized by a non-degenerate entanglement spectrum. The second are states with bond dimension four that are a resource for deterministic universal teleportation of finite single-qubit gates, but which possess no symmetry.
翻訳日:2023-10-25 06:07:31 公開日:2023-10-21
# GNN集約プログラミング抽象化のアーキテクチャ的意味

Architectural Implications of GNN Aggregation Programming Abstractions ( http://arxiv.org/abs/2310.12184v2 )

ライセンス: Link先を確認
Yingjie Qi, Jianlei Yang, Ao Zhou, Tong Qiao and Chunming Hu(参考訳) グラフニューラルネットワーク(GNN)は、グラフデータから有用な表現を抽出する強力な能力のために、大きな人気を集めている。 効率的なGNN計算の必要性が増すにつれ、GNNアグリゲーションを最適化するために設計された様々なプログラミング抽象化が登場し、加速が促進された。 しかしながら、既存の抽象化に関する包括的な評価や分析は存在しないため、どのアプローチがよいかを明確に合意することはできません。 本稿では,gnnアグリゲーションのための既存のプログラミング抽象化を,データ構造と伝播方法の次元で分類する。 これらの抽象化を最先端のGNNライブラリ上に構築することにより、その性能と効率を詳細に比較し、分析に基づく今後のGNN加速に関する洞察を提供する。

Graph neural networks (GNNs) have gained significant popularity due to the powerful capability to extract useful representations from graph data. As the need for efficient GNN computation intensifies, a variety of programming abstractions designed for optimizing GNN Aggregation have emerged to facilitate acceleration. However, there is no comprehensive evaluation and analysis upon existing abstractions, thus no clear consensus on which approach is better. In this letter, we classify existing programming abstractions for GNN Aggregation by the dimension of data organization and propagation method. By constructing these abstractions on a state-of-the-art GNN library, we perform a thorough and detailed characterization study to compare their performance and efficiency, and provide several insights on future GNN acceleration based on our analysis.
翻訳日:2023-10-25 06:01:41 公開日:2023-10-21
# 高速多極型アテンション:長周期の分極型アテンション機構

Fast Multipole Attention: A Divide-and-Conquer Attention Mechanism for Long Sequences ( http://arxiv.org/abs/2310.11960v2 )

ライセンス: Link先を確認
Yanming Kang, Giang Tran, Hans De Sterck(参考訳) トランスフォーマーベースのモデルは、多くの分野で最先端のパフォーマンスを達成した。 しかし、入力長に対する自己着脱の二次的複雑さは、トランスフォーマベースのモデルを長い列に適用する可能性を妨げる。 これを解決するために、Fast Multipole Attentionという新しいアテンションメカニズムを提案する。これは、長さ$n$から$\mathcal{O}(n^2)$から$\mathcal{O}(n \log n)$または$O(n)$へのアテンションの時間とメモリの複雑さを減らし、グローバルな受容場を保持しながら、新しいアテンションメカニズムである。 階層的アプローチでは、クエリ、キー、値を$\mathcal{o}( \log n)$の分解レベルにグループ化する。 このように、互いに遠く離れたトークン間の相互作用は、効率的な階層的方法で低い解像度で考慮される。 Fast Multipole Attentionの全体的な複雑さは、クエリがダウンサンプリングされているかどうかによって、$\mathcal{O}(n)$または$\mathcal{O}(n \log n)$である。 この多値除算戦略は、n$-body 物理学と高速多重極法からの高速和法に触発されたものである。 自動回帰および双方向言語モデリングタスクの評価を行い、中規模データセット上での高速多極性注意モデルと他の効率的な注意モデルとの比較を行った。 高速マルチポールトランスフォーマーは,メモリサイズや精度において,他の効率的なトランスフォーマーよりもはるかに優れた性能を示す。 Fast Multipole Attentionメカニズムは、トレーニング中や長いシーケンスを生成する際に、完全なコンテキストを効率的で自然に階層的な方法で考慮し、はるかに大きなシーケンス長の言語モデルを強化する可能性がある。

Transformer-based models have achieved state-of-the-art performance in many areas. However, the quadratic complexity of self-attention with respect to the input length hinders the applicability of Transformer-based models to long sequences. To address this, we present Fast Multipole Attention, a new attention mechanism that uses a divide-and-conquer strategy to reduce the time and memory complexity of attention for sequences of length $n$ from $\mathcal{O}(n^2)$ to $\mathcal{O}(n \log n)$ or $O(n)$, while retaining a global receptive field. The hierarchical approach groups queries, keys, and values into $\mathcal{O}( \log n)$ levels of resolution, where groups at greater distances are increasingly larger in size and the weights to compute group quantities are learned. As such, the interaction between tokens far from each other is considered in lower resolution in an efficient hierarchical manner. The overall complexity of Fast Multipole Attention is $\mathcal{O}(n)$ or $\mathcal{O}(n \log n)$, depending on whether the queries are down-sampled or not. This multi-level divide-and-conquer strategy is inspired by fast summation methods from $n$-body physics and the Fast Multipole Method. We perform evaluation on autoregressive and bidirectional language modeling tasks and compare our Fast Multipole Attention model with other efficient attention variants on medium-size datasets. We find empirically that the Fast Multipole Transformer performs much better than other efficient transformers in terms of memory size and accuracy. The Fast Multipole Attention mechanism has the potential to empower large language models with much greater sequence lengths, taking the full context into account in an efficient, naturally hierarchical manner during training and when generating long sequences.
翻訳日:2023-10-25 06:00:14 公開日:2023-10-21
# 連帯学習におけるバックドア攻撃による非強固化

Adversarial Robustness Unhardening via Backdoor Attacks in Federated Learning ( http://arxiv.org/abs/2310.11594v2 )

ライセンス: Link先を確認
Taejin Kim, Jiarui Li, Shubhranshu Singh, Nikhil Madaan, Carlee Joe-Wong(参考訳) 今日のデータ駆動の状況では、ユーザプライバシの保護とデータの可能性の解放の微妙な均衡が最重要課題である。 データ共有を必要とせずにコラボレーティブなモデルトレーニングを可能にするfederated learningが、プライバシ中心のソリューションとして登場した。 この分散的なアプローチは、悪意のあるエンティティが不正なデータを注入する、特に毒殺やバックドア攻撃といったセキュリティ上の課題をもたらす。 本研究は, 当初, テスト時間回避攻撃を契機として, 連合学習における対人訓練とバックドア攻撃の交点を調査し, 対人ロバストネス・アンハードニング(ARU)を導入した。 ARUは、分散トレーニング中のモデルの堅牢性を意図的に損なうために、敵のサブセットによって使用される。 我々は,ARUの対人訓練への影響と,中毒やバックドア攻撃に対する既存の堅牢な防御効果を評価する実験実験を行った。 本研究は、ARUを現在の防衛対策に対抗させ、既存の防衛の限界を強調し、ARUに対する防衛を強化するための戦略を示唆するものである。

In today's data-driven landscape, the delicate equilibrium between safeguarding user privacy and unleashing data potential stands as a paramount concern. Federated learning, which enables collaborative model training without necessitating data sharing, has emerged as a privacy-centric solution. This decentralized approach brings forth security challenges, notably poisoning and backdoor attacks where malicious entities inject corrupted data. Our research, initially spurred by test-time evasion attacks, investigates the intersection of adversarial training and backdoor attacks within federated learning, introducing Adversarial Robustness Unhardening (ARU). ARU is employed by a subset of adversaries to intentionally undermine model robustness during decentralized training, rendering models susceptible to a broader range of evasion attacks. We present extensive empirical experiments evaluating ARU's impact on adversarial training and existing robust aggregation defenses against poisoning and backdoor attacks. Our findings inform strategies for enhancing ARU to counter current defensive measures and highlight the limitations of existing defenses, offering insights into bolstering defenses against ARU.
翻訳日:2023-10-25 05:59:31 公開日:2023-10-21
# VoxArabica:ロバストな方言対応アラビア語音声認識システム

VoxArabica: A Robust Dialect-Aware Arabic Speech Recognition System ( http://arxiv.org/abs/2310.11069v2 )

ライセンス: Link先を確認
Abdul Waheed, Bashar Talafha, Peter Suvellin, Abdelrahman Elmadney, Muhammad Abdul-Mageed(参考訳) アラビア語は複雑な言語であり、世界中で4億5000万以上の方言が話されている。 言語的多様性とバリエーションのため、アラビア語のための堅牢で一般化されたASRシステムを構築することは困難である。 本研究では、方言識別(DID)とアラビア語の自動音声認識(ASR)のためのVoxArabicaと呼ばれるシステムを開発し、デモすることで、このギャップに対処する。 我々は、アラビアDIDおよびASRタスクの教師付き設定において、HuBERT(DID)、Whisper、XLS-R(ASR)などの広範囲のモデルを訓練する。 我々のDIDモデルは、MSAに加えて17種類の方言を識別するように訓練されている。 MSA、エジプト、モロッコ、および混合データでASRモデルを微調整します。 さらに、ASRの残りの方言に対しては、ゼロショット設定でWhisperやMMSなどの様々なモデルを選択するオプションを提供する。 私たちはこれらのモデルを単一Webインターフェースに統合し、オーディオ記録、ファイルアップロード、モデル選択、誤出力のためのフラグを掲げるオプションなど様々な機能を提供します。 全体としては、VoxArabicaはアラビア研究に関する幅広い聴衆にとって有用であると考えています。 私たちのシステムは、現在https://cdce-206-12-100-168.ngrok.io/で動作しています。

Arabic is a complex language with many varieties and dialects spoken by over 450 millions all around the world. Due to the linguistic diversity and variations, it is challenging to build a robust and generalized ASR system for Arabic. In this work, we address this gap by developing and demoing a system, dubbed VoxArabica, for dialect identification (DID) as well as automatic speech recognition (ASR) of Arabic. We train a wide range of models such as HuBERT (DID), Whisper, and XLS-R (ASR) in a supervised setting for Arabic DID and ASR tasks. Our DID models are trained to identify 17 different dialects in addition to MSA. We finetune our ASR models on MSA, Egyptian, Moroccan, and mixed data. Additionally, for the remaining dialects in ASR, we provide the option to choose various models such as Whisper and MMS in a zero-shot setting. We integrate these models into a single web interface with diverse features such as audio recording, file upload, model selection, and the option to raise flags for incorrect outputs. Overall, we believe VoxArabica will be useful for a wide range of audiences concerned with Arabic research. Our system is currently running at https://cdce-206-12-100-168.ngrok.io/.
翻訳日:2023-10-25 05:58:35 公開日:2023-10-21
# 時変誘電体を用いた量子電磁力学

Quantum Electrodynamics with Time-varying Dielectrics ( http://arxiv.org/abs/2310.13878v1 )

ライセンス: Link先を確認
Ashwith Prabhu, Jennifer Parra-Contreras, Elizabeth A. Goldschmidt, Kanu Sinha(参考訳) 本稿では、時変光特性を持つ誘電体媒体の存在下での電磁場定量化の枠組みを提案する。 電磁環境と相互作用する物質場の集合体として誘電体の微視的モデルを考えると、動的に変化する光-物質結合が可能である。 結合した光物質自由度の正規モードを求め、対応する生成および消滅作用素が等時正準可換関係に従うことを示す。 これらの正常モードは、動的誘電体媒体近傍の量子エミッタと結合し、結果として生じる原子の放射特性が得られることを示す。 この結果は,多種多様な物理プラットフォームと時間スケールで実現可能な時間変化境界条件に関係している。

We present a framework for quantization of electromagnetic field in the presence of dielectric media with time-varying optical properties. Considering a microscopic model for the dielectric as a collection of matter fields interacting with the electromagnetic environment, we allow for the possibility of dynamically varying light-matter coupling. We obtain the normal modes of the coupled light-matter degrees of freedom, showing that the corresponding creation and annihilation operators obey equal-time canonical commutation relations. We show that these normal modes can consequently couple to quantum emitters in the vicinity of dynamic dielectric media, and the resulting radiative properties of atoms are thus obtained. Our results are pertinent to time-varying boundary conditions realizable across a wide range of state-of-the-art physical platforms and timescales.
翻訳日:2023-10-25 04:49:33 公開日:2023-10-21
# クロスチャネルアテンションを用いたリモートセンシング画像の物体検出のためのマルチモーダルトランス

Multimodal Transformer Using Cross-Channel attention for Object Detection in Remote Sensing Images ( http://arxiv.org/abs/2310.13876v1 )

ライセンス: Link先を確認
Bissmella Bahaduri, Zuheng Ming, Fangchen Feng, Anissa Mokraou(参考訳) リモートセンシング画像(RSI)における物体検出は、地球観測(EO)における多くの応用にとって重要な課題である。 一般的な物体検出とは異なり、RSIにおける物体検出には特別な課題がある。 1)RSIにおけるラベル付きデータの欠如と一般オブジェクト検出データセットとの比較 2)背景が広い高解像度画像で提示された小物体。 これらの課題に対処するため,オブジェクト検出のためのマルチソースリモートセンシングデータを探索するマルチモーダルトランスフォーマーを提案する。 異なるモダリティの不均一性を無視するチャネルワイド結合によるマルチモーダル入力を直接結合するのではなく、チャネル間アテンションモジュールを提案する。 このモジュールは異なるチャネル間の関係を学習し、初期段階で異なるモダリティを調整してコヒーレントなマルチモーダル入力を構築することができる。 また,固定次元を維持しつつ,非シフトブロックに畳み込み層を組み込んだスウィントランスに基づく新しいアーキテクチャを導入することで,精度と計算のトレードオフを良好に生み出すことができる。 広範な実験により、提案されたマルチモーダル融合モジュールとアーキテクチャの有効性が証明され、マルチモーダル空中画像への適用性が示された。

Object detection in Remote Sensing Images (RSI) is a critical task for numerous applications in Earth Observation (EO). Unlike general object detection, object detection in RSI has specific challenges: 1) the scarcity of labeled data in RSI compared to general object detection datasets, and 2) the small objects presented in a high-resolution image with a vast background. To address these challenges, we propose a multimodal transformer exploring multi-source remote sensing data for object detection. Instead of directly combining the multimodal input through a channel-wise concatenation, which ignores the heterogeneity of different modalities, we propose a cross-channel attention module. This module learns the relationship between different channels, enabling the construction of a coherent multimodal input by aligning the different modalities at the early stage. We also introduce a new architecture based on the Swin transformer that incorporates convolution layers in non-shifting blocks while maintaining fixed dimensions, allowing for the generation of fine-to-coarse representations with a favorable accuracy-computation trade-off. The extensive experiments prove the effectiveness of the proposed multimodal fusion module and architecture, demonstrating their applicability to multimodal aerial imagery.
翻訳日:2023-10-25 04:49:21 公開日:2023-10-21
# 核密度推定による類似度グラフの高速近似

Fast Approximation of Similarity Graphs with Kernel Density Estimation ( http://arxiv.org/abs/2310.13870v1 )

ライセンス: Link先を確認
Peter Macgregor and He Sun(参考訳) 類似性グラフを$X$のデータポイントから$\mathbb{R}^d$で構築することは、多くの現代的なクラスタリングアルゴリズムの最初のステップである。 しかし、類似性グラフの典型的な構成は、高時間複雑性を持ち、$|X|$ に対する二次空間依存性を持つ。 この制限に対処し、クラスタ構造を維持しつつ、完全連結な類似性グラフのスパース近似を構成する新しいアルゴリズムフレームワークを提案する。 提案アルゴリズムは,カーネル密度推定問題に基づいており,任意のカーネル関数に適用可能である。 設計したアルゴリズムと,Scikit-LernライブラリとFAISSライブラリのよく知られた実装を比較し,本手法が各種データセット上で両ライブラリの実装を著しく上回っていることを確認する。

Constructing a similarity graph from a set $X$ of data points in $\mathbb{R}^d$ is the first step of many modern clustering algorithms. However, typical constructions of a similarity graph have high time complexity, and a quadratic space dependency with respect to $|X|$. We address this limitation and present a new algorithmic framework that constructs a sparse approximation of the fully connected similarity graph while preserving its cluster structure. Our presented algorithm is based on the kernel density estimation problem, and is applicable for arbitrary kernel functions. We compare our designed algorithm with the well-known implementations from the scikit-learn library and the FAISS library, and find that our method significantly outperforms the implementation from both libraries on a variety of datasets.
翻訳日:2023-10-25 04:49:02 公開日:2023-10-21
# RECAP: Dynamic Disease Progression Reasoning による精密放射線学レポート作成に向けて

RECAP: Towards Precise Radiology Report Generation via Dynamic Disease Progression Reasoning ( http://arxiv.org/abs/2310.13864v1 )

ライセンス: Link先を確認
Wenjun Hou, Yi Cheng, Kaishuai Xu, Wenjie Li, Jiang Liu(参考訳) 放射線学レポート生成の自動化は、放射線学者の作業を大幅に軽減することができる。 これまでの研究は主に、疾患の重症度を決定する正確な特性(例えば、小さな胸水)を無視しながら、非常に簡潔な観察を実現することに重点を置いてきた。 不正確な属性が不正確な放射線学レポートにつながるため、正確な属性モデリングによる生成プロセスの強化が必要である。 また、患者の現在の状態(例えば、心臓の大きさは変化しない)を評価する上で重要な歴史的記録に含まれる時間的情報も無視されている。 これらの課題に対処するため,我々は,動的疾患進行推論を用いて正確な放射線診断レポートを生成するRECAPを提案する。 具体的には、RECAPは2つの連続したラジオグラフィーの観測と進行(時空間情報)を最初に予測する。 次に、各観察と進行の属性を正確に選択するために、疾患進行グラフと動的進行推論機構を考案したレポート作成のための履歴記録、時空間情報、放射線グラフを組み合わせる。 2つの公開データセットに対する大規模な実験は、我々のモデルの有効性を示す。

Automating radiology report generation can significantly alleviate radiologists' workloads. Previous research has primarily focused on realizing highly concise observations while neglecting the precise attributes that determine the severity of diseases (e.g., small pleural effusion). Since incorrect attributes will lead to imprecise radiology reports, strengthening the generation process with precise attribute modeling becomes necessary. Additionally, the temporal information contained in the historical records, which is crucial in evaluating a patient's current condition (e.g., heart size is unchanged), has also been largely disregarded. To address these issues, we propose RECAP, which generates precise and accurate radiology reports via dynamic disease progression reasoning. Specifically, RECAP first predicts the observations and progressions (i.e., spatiotemporal information) given two consecutive radiographs. It then combines the historical records, spatiotemporal information, and radiographs for report generation, where a disease progression graph and dynamic progression reasoning mechanism are devised to accurately select the attributes of each observation and progression. Extensive experiments on two publicly available datasets demonstrate the effectiveness of our model.
翻訳日:2023-10-25 04:48:48 公開日:2023-10-21
# バイアスと分散化によるロバスト分布最適化

Distributionally Robust Optimization with Bias and Variance Reduction ( http://arxiv.org/abs/2310.13863v1 )

ライセンス: Link先を確認
Ronak Mehta, Vincent Roulet, Krishna Pillutla, Zaid Harchaoui(参考訳) スペクトルリスクに基づく不確実性セットと$f$-divergenceペナルティを備えた分散ロバスト最適化(DRO)問題を考察する。 この定式化には、正規化条件値(cvar)や平均top-$k$損失など、一般的なリスクに敏感な学習目標が含まれている。 我々は,単一学習率ハイパーパラメータのチューニングのみを必要とする確率的勾配に基づくアルゴリズムであるprospecterを提案し,滑らかな正規化損失に対して線形収束を享受することを示す。 これは、複数のハイパーパラメータをチューニングするか、偏りのある勾配推定や不適切な正規化のために収束しない可能性がある以前のアルゴリズムとは対照的である。 実験により,確率勾配や確率的サドル点法などのベースラインよりも2~3$\times$早く分布シフトや,表領域,視覚領域,言語領域にまたがる公平性ベンチマークを収束させることができることを示す。

We consider the distributionally robust optimization (DRO) problem with spectral risk-based uncertainty set and $f$-divergence penalty. This formulation includes common risk-sensitive learning objectives such as regularized condition value-at-risk (CVaR) and average top-$k$ loss. We present Prospect, a stochastic gradient-based algorithm that only requires tuning a single learning rate hyperparameter, and prove that it enjoys linear convergence for smooth regularized losses. This contrasts with previous algorithms that either require tuning multiple hyperparameters or potentially fail to converge due to biased gradient estimates or inadequate regularization. Empirically, we show that Prospect can converge 2-3$\times$ faster than baselines such as stochastic gradient and stochastic saddle-point methods on distribution shift and fairness benchmarks spanning tabular, vision, and language domains.
翻訳日:2023-10-25 04:48:30 公開日:2023-10-21
# 教師なし顔アニメーションのための学習型モーションリファインメント

Learning Motion Refinement for Unsupervised Face Animation ( http://arxiv.org/abs/2310.13912v1 )

ライセンス: Link先を確認
Jiale Tao, Shuhang Gu, Wen Li, Lixin Duan(参考訳) 教師なし顔アニメーションは、運転映像からの動きを模倣して、ソース画像の出現に基づいて人間の顔ビデオを生成することを目的としている。 既存の手法では、通常、事前ベースの運動モデル(例えば、局所アフィン運動モデルや局所薄板-スプライン運動モデル)が採用されている。 粗い顔の動きを捉えることができるが、これらの方法がより細かい顔の動きをモデル化する能力に制限があるため、局所的な(唇や目など)小さな動きの周りでアーチファクトが観察されることがしばしばある。 本研究では,粗い動きと細かい動きを同時に学習する新しい教師なし顔アニメーション手法を考案する。 特に,局所的なアフィン運動モデルを利用して大域的な粗い顔の動きを学習する一方で,局所的なアフィン運動モデルを補うための新しい動き改善モジュールを設計する。 音源と駆動画像との密接な相関から、動きの精密化を学ぶ。 具体的には,まず,音源と駆動画像のキーポイント特徴に基づく構造相関ボリュームを構築する。 そして、低解像度から高解像度の小さな顔の動きを反復的に生成するモデルを訓練する。 学習された動き補正と粗い動きを組み合わせることで、新しい画像を生成する。 広範に使用されているベンチマーク実験により,本手法は最先端のベースラインで最高の結果が得られることを示した。

Unsupervised face animation aims to generate a human face video based on the appearance of a source image, mimicking the motion from a driving video. Existing methods typically adopted a prior-based motion model (e.g., the local affine motion model or the local thin-plate-spline motion model). While it is able to capture the coarse facial motion, artifacts can often be observed around the tiny motion in local areas (e.g., lips and eyes), due to the limited ability of these methods to model the finer facial motions. In this work, we design a new unsupervised face animation approach to learn simultaneously the coarse and finer motions. In particular, while exploiting the local affine motion model to learn the global coarse facial motion, we design a novel motion refinement module to compensate for the local affine motion model for modeling finer face motions in local areas. The motion refinement is learned from the dense correlation between the source and driving images. Specifically, we first construct a structure correlation volume based on the keypoint features of the source and driving images. Then, we train a model to generate the tiny facial motions iteratively from low to high resolution. The learned motion refinements are combined with the coarse motion to generate the new image. Extensive experiments on widely used benchmarks demonstrate that our method achieves the best results among state-of-the-art baselines.
翻訳日:2023-10-25 04:40:28 公開日:2023-10-21
# Gramian Angular Field Vision Transformerに基づく自動運転車の運転行動探索

Exploring Driving Behavior for Autonomous Vehicles Based on Gramian Angular Field Vision Transformer ( http://arxiv.org/abs/2310.13906v1 )

ライセンス: Link先を確認
Junwei You, Ying Chen, Zhuoyu Jiang, Zhangchi Liu, Zilin Huang, Yifeng Ding, Bin Ran(参考訳) 自動運転車の運転行動の効果的な分類は、AV運転障害の診断、自律運転アルゴリズムの強化、事故率の低減に重要な領域として現れる。 本稿では,av運転挙動解析のために設計されたgranian angular field vision transformer (gaf-vit)モデルを提案する。 提案するgaf-vitモデルは,gafトランスフォーマーモジュール,チャネルアテンションモジュール,マルチチャネルvitモジュールの3つのキーコンポーネントで構成されている。 これらのモジュールは、多変量行動の代表列を多チャンネル画像に変換し、行動分類に画像認識技術を用いる。 複数チャンネル画像にチャンネル注目機構を適用し、様々な運転行動特性の影響を識別する。 Waymo Open Dataset of trajectories 実験により,提案モデルが最先端性能を実現することを示す。 さらに、アブレーション研究はモデル内の個々のモジュールの有効性を効果的に実証する。

Effective classification of autonomous vehicle (AV) driving behavior emerges as a critical area for diagnosing AV operation faults, enhancing autonomous driving algorithms, and reducing accident rates. This paper presents the Gramian Angular Field Vision Transformer (GAF-ViT) model, designed to analyze AV driving behavior. The proposed GAF-ViT model consists of three key components: GAF Transformer Module, Channel Attention Module, and Multi-Channel ViT Module. These modules collectively convert representative sequences of multivariate behavior into multi-channel images and employ image recognition techniques for behavior classification. A channel attention mechanism is applied to multi-channel images to discern the impact of various driving behavior features. Experimental evaluation on the Waymo Open Dataset of trajectories demonstrates that the proposed model achieves state-of-the-art performance. Furthermore, an ablation study effectively substantiates the efficacy of individual modules within the model.
翻訳日:2023-10-25 04:40:04 公開日:2023-10-21
# 動的システムインサイトを用いた超パラメータ非依存DNNトレーニングに向けて

Towards Hyperparameter-Agnostic DNN Training via Dynamical System Insights ( http://arxiv.org/abs/2310.13901v1 )

ライセンス: Link先を確認
Carmel Fiscko, Aayushya Agarwal, Yihan Ruan, Soummya Kar, Larry Pileggi, and Bruno Sinopoli(参考訳) 本稿では、ディープニューラルネットワーク(DNN)、ECCO-DNNに特化した確率的一階最適化手法を提案する。 本手法は, 最適変数軌跡を動的システムとしてモデル化し, 軌道形状に基づいてステップサイズを適応的に選択する離散化アルゴリズムを開発する。 高速な連続的収束のための動的システムの設計と、数値積分とニューラルネットワークの構造に基づくステップサイズを適応的に選択する時間ステップアルゴリズムの開発である。 その結果、パフォーマンスはハイパーパラメータの変動に敏感であり、ADAM、SGD、RMSProp、AdaGradといった最先端のオプティマイザに匹敵するパフォーマンスを実現する。 我々は,ecco-dnnを用いたcifar-10とcifar-100を含むdnnモデルとデータセットのトレーニングにおいて,ecco-dnnの単一ハイパーパラメータを3桁変更できることを示した。 ECCO-DNNの感度は、ハイパーパラメータチューニングに必要なデータと計算を削減し、高速プロトタイピングや新しいデータセットの応用に有利である。 提案手法の有効性を検証するため,ECCO-DNNを用いて家庭用電力消費データセット上でLSTMアーキテクチャをトレーニングし,ハイパーパラメータを調整せずに最適平均2乗誤差を実現する。

We present a stochastic first-order optimization method specialized for deep neural networks (DNNs), ECCO-DNN. This method models the optimization variable trajectory as a dynamical system and develops a discretization algorithm that adaptively selects step sizes based on the trajectory's shape. This provides two key insights: designing the dynamical system for fast continuous-time convergence and developing a time-stepping algorithm to adaptively select step sizes based on principles of numerical integration and neural network structure. The result is an optimizer with performance that is insensitive to hyperparameter variations and that achieves comparable performance to state-of-the-art optimizers including ADAM, SGD, RMSProp, and AdaGrad. We demonstrate this in training DNN models and datasets, including CIFAR-10 and CIFAR-100 using ECCO-DNN and find that ECCO-DNN's single hyperparameter can be changed by three orders of magnitude without affecting the trained models' accuracies. ECCO-DNN's insensitivity reduces the data and computation needed for hyperparameter tuning, making it advantageous for rapid prototyping and for applications with new datasets. To validate the efficacy of our proposed optimizer, we train an LSTM architecture on a household power consumption dataset with ECCO-DNN and achieve an optimal mean-square-error without tuning hyperparameters.
翻訳日:2023-10-25 04:39:48 公開日:2023-10-21
# 仮面型ハードアテンション変換器とブールRASPがスターフリー言語を正確に認識する

Masked Hard-Attention Transformers and Boolean RASP Recognize Exactly the Star-Free Languages ( http://arxiv.org/abs/2310.13897v1 )

ライセンス: Link先を確認
Dana Angluin, David Chiang, and Andy Yang(参考訳) コンバータエンコーダ(すべての注意が正確に1つの位置に集中している)と厳密な将来のマスキング(各位置が左の位置に厳密にしか入らない)について検討し、これらのネットワークで認識される言語のクラスがまさにスターフリー言語であることを証明した。 位置埋め込みの追加は、認識された言語のクラスを他のよく研究されたクラスに増加させる。 これらの証明の主要なテクニックは、Boolean値に制限されたRASPの亜種であるBoolean RASPである。 スターフリー言語を通じて、トランスフォーマーを一階述語論理、時相論理、代数的オートマトン理論に関連付ける。

We consider transformer encoders with hard attention (in which all attention is focused on exactly one position) and strict future masking (in which each position only attends to positions strictly to its left), and prove that the class of languages recognized by these networks is exactly the star-free languages. Adding position embeddings increases the class of recognized languages to other well-studied classes. A key technique in these proofs is Boolean RASP, a variant of RASP that is restricted to Boolean values. Via the star-free languages, we relate transformers to first-order logic, temporal logic, and algebraic automata theory.
翻訳日:2023-10-25 04:39:22 公開日:2023-10-21
# RTSUM:マルチレベル・サリエンス・ビジュアライゼーションによるリレーショナルトリプルベース解釈可能な要約

RTSUM: Relation Triple-based Interpretable Summarization with Multi-level Salience Visualization ( http://arxiv.org/abs/2310.13895v1 )

ライセンス: Link先を確認
Seonglae Cho, Yonggi Cho, HoonJae Lee, Myungha Jang, Jinyoung Yeo, Dongha Lee(参考訳) 本稿では,関係三重項を要約の基本単位として利用する教師なし要約フレームワークRTSUMを提案する。 入力文書が与えられた後、rtsumは、まず、多レベルサリエンススコアによるサレント関係トリプルを選択し、その後、テキスト対テキスト言語モデルを用いて、選択された関係トリプルから簡潔な要約を生成する。 また、RTSUMに基づいて、解釈可能な要約ツールのWebデモを開発し、出力の要約を詳細に解釈する。 カスタマイズオプションのサポートにより、テキスト単位のsalienceを3つの異なるレベル(文、関係三重項、句)で視覚化する。 コードは公開されている。

In this paper, we present RTSUM, an unsupervised summarization framework that utilizes relation triples as the basic unit for summarization. Given an input document, RTSUM first selects salient relation triples via multi-level salience scoring and then generates a concise summary from the selected relation triples by using a text-to-text language model. On the basis of RTSUM, we also develop a web demo for an interpretable summarizing tool, providing fine-grained interpretations with the output summary. With support for customization options, our tool visualizes the salience for textual units at three distinct levels: sentences, relation triples, and phrases. The codes,are publicly available.
翻訳日:2023-10-25 04:39:08 公開日:2023-10-21
# 医学フェデレーション学習における隠れた敵対的脆弱性

The Hidden Adversarial Vulnerabilities of Medical Federated Learning ( http://arxiv.org/abs/2310.13893v1 )

ライセンス: Link先を確認
Erfan Darzi, Florian Dubost, Nanna. M. Sijtsema, P.M.A van Ooijen(参考訳) 本稿では,連合医療画像解析システムの敵攻撃に対する感受性について検討する。 先行するグローバルモデル更新からの勾配情報を利用することで、敵は攻撃の効率と転送可能性を高めることができる。 具体的には,一段階攻撃(例えば,fgsm)を適度に初期化することで,反復攻撃の効率を上回ることができるが,計算能力は低下することを示した。 我々の発見は、連邦医療環境におけるAIセキュリティの理解を再考する必要性を浮き彫りにしている。

In this paper, we delve into the susceptibility of federated medical image analysis systems to adversarial attacks. Our analysis uncovers a novel exploitation avenue: using gradient information from prior global model updates, adversaries can enhance the efficiency and transferability of their attacks. Specifically, we demonstrate that single-step attacks (e.g. FGSM), when aptly initialized, can outperform the efficiency of their iterative counterparts but with reduced computational demand. Our findings underscore the need to revisit our understanding of AI security in federated healthcare settings.
翻訳日:2023-10-25 04:38:54 公開日:2023-10-21
# 混合観測によるロバスト因果表現の特定

Specify Robust Causal Representation from Mixed Observations ( http://arxiv.org/abs/2310.13892v1 )

ライセンス: Link先を確認
Mengyue Yang, Xinyu Cai, Furui Liu, Weinan Zhang, Jun Wang(参考訳) 観察から純粋に学習表現は、予測モデルに有用である低次元のコンパクト表現を学ぶ問題に関係している。 内在的潜在因子は、いくつかのカジュアルな生成モデルに従うという仮説の下で、システム全体の十分な原因である因果表現を学習することで、機械学習モデルの堅牢性と一般化性能を向上させることができると論じる。 本稿では,仮説的因果グラフに基づいて,相互情報尺度を用いて学習手順を定式化し,観察データからそのような表現を学習する学習方法を開発した。 理論的および実験的に、学習因果表現で訓練されたモデルは、ベースラインと比較して敵攻撃や分布シフト下でより堅牢であることを示す。 追加資料はhttps://github.com/ymy $4323460 / \mathrm{CaRI} /$で入手できる。

Learning representations purely from observations concerns the problem of learning a low-dimensional, compact representation which is beneficial to prediction models. Under the hypothesis that the intrinsic latent factors follow some casual generative models, we argue that by learning a causal representation, which is the minimal sufficient causes of the whole system, we can improve the robustness and generalization performance of machine learning models. In this paper, we develop a learning method to learn such representation from observational data by regularizing the learning procedure with mutual information measures, according to the hypothetical factored causal graph. We theoretically and empirically show that the models trained with the learned causal representations are more robust under adversarial attacks and distribution shifts compared with baselines. The supplementary materials are available at https://github.com/ymy $4323460 / \mathrm{CaRI} /$.
翻訳日:2023-10-25 04:38:45 公開日:2023-10-21
# covidfakeexplainer:新型コロナウイルスの偽ニュースを検出する機械学習ベースのウェブアプリケーション

COVIDFakeExplainer: An Explainable Machine Learning based Web Application for Detecting COVID-19 Fake News ( http://arxiv.org/abs/2310.13890v1 )

ライセンス: Link先を確認
Dylan Warman and Muhammad Ashad Kabir(参考訳) 新型コロナウイルス(COVID-19)のパンデミックで拡大し、効果的な予防ツールの必要性が強調されている。 ディープラーニング技術を含む機械学習の活用は、偽ニュースと戦うことを約束する。 本稿では,偽ニュース検出の優れたモデルとしてBERTを確立し,一般大衆にアピールするためのツールとしての有用性を実証する。 我々はブラウザエクステンションを実装し、説明可能性を強化し、フェイクニュースのリアルタイム識別を可能にし、容易に解釈可能な説明を提供する。 これを実現するために、2つの公開データセットを使用し、7つの異なるデータ構成を作成し、3つの著名な機械学習アーキテクチャを評価しました。 包括的な実験により、BERTは新型コロナウイルス関連の偽ニュースを検出するのに極めて正確であることを確認した。 さらに、BERTモデルに説明可能性コンポーネントを統合し、AmazonのクラウドAPIホスティング(AWS)を通じてサービスとしてデプロイしました。 私たちは、webページからデータを選択、送信し、見返りに識別可能な分類を受けられるように、apiとインターフェースするブラウザ拡張機能を開発しました。 本稿では,フェイクニュース検出のための総合的なシステムの構築の可能性を強調し,社会に多大な利益をもたらすような実用的エンドツーエンドソリューションを提案する。

Fake news has emerged as a critical global issue, magnified by the COVID-19 pandemic, underscoring the need for effective preventive tools. Leveraging machine learning, including deep learning techniques, offers promise in combatting fake news. This paper goes beyond by establishing BERT as the superior model for fake news detection and demonstrates its utility as a tool to empower the general populace. We have implemented a browser extension, enhanced with explainability features, enabling real-time identification of fake news and delivering easily interpretable explanations. To achieve this, we have employed two publicly available datasets and created seven distinct data configurations to evaluate three prominent machine learning architectures. Our comprehensive experiments affirm BERT's exceptional accuracy in detecting COVID-19-related fake news. Furthermore, we have integrated an explainability component into the BERT model and deployed it as a service through Amazon's cloud API hosting (AWS). We have developed a browser extension that interfaces with the API, allowing users to select and transmit data from web pages, receiving an intelligible classification in return. This paper presents a practical end-to-end solution, highlighting the feasibility of constructing a holistic system for fake news detection, which can significantly benefit society.
翻訳日:2023-10-25 04:38:31 公開日:2023-10-21
# 事前学習による連続学習の汎用的枠組みに向けて

Towards a General Framework for Continual Learning with Pre-training ( http://arxiv.org/abs/2310.13888v1 )

ライセンス: Link先を確認
Liyuan Wang, Jingyi Xie, Xingxing Zhang, Hang Su, Jun Zhu(参考訳) 本研究は,人工知能システムが現実の力学に適応する上で有望な方向として現れる事前学習を用いて,逐次到着タスクの連続学習のための一般的な枠組みを提案する。 理論的観点から、その目的を、タスク内予測、タスク同一性推論、タスク適応予測を含む3つの階層的な構成要素に分解する。 次に,これらのコンポーネントをパラメーター効率の良い微調整(peft)技術と表現統計を用いて明示的に最適化する革新的な手法を提案する。 我々は、下流連続学習における我々のアプローチの優位性と一般性を実証的に実証し、上流連続学習におけるPEFT技術の適用性について検討する。 提案フレームワークの生物学的基盤と最近の神経科学の進歩についても論じる。

In this work, we present a general framework for continual learning of sequentially arrived tasks with the use of pre-training, which has emerged as a promising direction for artificial intelligence systems to accommodate real-world dynamics. From a theoretical perspective, we decompose its objective into three hierarchical components, including within-task prediction, task-identity inference, and task-adaptive prediction. Then we propose an innovative approach to explicitly optimize these components with parameter-efficient fine-tuning (PEFT) techniques and representation statistics. We empirically demonstrate the superiority and generality of our approach in downstream continual learning, and further explore the applicability of PEFT techniques in upstream continual learning. We also discuss the biological basis of the proposed framework with recent advances in neuroscience.
翻訳日:2023-10-25 04:38:11 公開日:2023-10-21
# 高次元設定における最適輸送に基づく非線形フィルタ

Optimal Transport-based Nonlinear Filtering in High-dimensional Settings ( http://arxiv.org/abs/2310.13886v1 )

ライセンス: Link先を確認
Mohammad Al-Jarrah, Niyizhen Jin, Bamdad Hosseini, Amirhossein Taghvaei(参考訳) 本稿では, 非線形フィルタリング, すなわち, 雑音のある部分的な観測履歴を与えられた確率力学系の状態の条件分布を計算する問題に対処する。 主な焦点は縮退確率や高次元状態を含むシナリオであり、従来のシーケンシャル・シーケンシャル・リサンプリング(SIR)粒子フィルタが重縮退問題に直面している。 提案手法は, 非線形フィルタリングの最適トランスポート解釈に基づいて構築され, シミュレーションに基づく確率自由なアルゴリズムにより, 状態の現在の分布から次のステップにおける分布への最適トランスポートマップを推定する。 この定式化により、ニューラルネットワークの近似パワーを利用して複雑なマルチモーダル分布をモデル化し、拡張性を高めるために確率的最適化アルゴリズムを活用できる。 本手法をSIR粒子フィルタとアンサンブルカルマンフィルタと比較し,サンプル効率,高次元拡張性,複雑・多モード分布の捕捉能力の観点から,本手法の優れた性能を実証した。

This paper addresses the problem of nonlinear filtering, i.e., computing the conditional distribution of the state of a stochastic dynamical system given a history of noisy partial observations. The primary focus is on scenarios involving degenerate likelihoods or high-dimensional states, where traditional sequential importance resampling (SIR) particle filters face the weight degeneracy issue. Our proposed method builds on an optimal transport interpretation of nonlinear filtering, leading to a simulation-based and likelihood-free algorithm that estimates the Brenier optimal transport map from the current distribution of the state to the distribution at the next time step. Our formulation allows us to harness the approximation power of neural networks to model complex and multi-modal distributions and employ stochastic optimization algorithms to enhance scalability. Extensive numerical experiments are presented that compare our method to the SIR particle filter and the ensemble Kalman filter, demonstrating the superior performance of our method in terms of sample efficiency, high-dimensional scalability, and the ability to capture complex and multi-modal distributions.
翻訳日:2023-10-25 04:37:58 公開日:2023-10-21
# ファジィNMS:NMSにおけるファジィ分類による3次元物体検出の改善

Fuzzy-NMS: Improving 3D Object Detection with Fuzzy Classification in NMS ( http://arxiv.org/abs/2310.13951v1 )

ライセンス: Link先を確認
Li Wang, Xinyu Zhang, Fachuan Zhao, Chuze Wu, Yichen Wang, Ziying Song, Lei Yang, Jun Li, Huaping Liu(参考訳) 非最大抑圧(NMS)は、多くの3Dオブジェクト検出フレームワークで、重複する候補境界ボックスを削除するために使われる重要な後処理モジュールである。 しかし、分類スコアの過度と適切なしきい値を決定することの難しさは、結果の精度に直接影響を与える。 これらの問題に対処するため、我々はファジィ学習をNMSに導入し、より詳細な候補境界ボックスフィルタリングを実現するためのファジィ-NMSモジュールを提案する。 提案したFuzzy-NMSモジュールは, 候補境界ボックスの体積とクラスタリング密度を結合し, ファジィ分類法で精製し, 適切な抑制閾値を最適化し, NMSプロセスの不確かさを低減する。 メインストリームのKITTIと大規模Waymo 3Dオブジェクト検出ベンチマークを用いて、適切な検証実験を行う。 これらの実験の結果, 提案するファジィnmsモジュールは, ポイントピラー, pv-rcnn, ia-ssdなど, 近年のnms系検出器の精度を著しく向上することが示された。 この効果は特に歩行者や自転車のような小さな物体に顕著である。 プラグアンドプレイモジュールとして、ファジィnmsは再トレーニングする必要がなく、推論時間の明らかな増加も生じない。

Non-maximum suppression (NMS) is an essential post-processing module used in many 3D object detection frameworks to remove overlapping candidate bounding boxes. However, an overreliance on classification scores and difficulties in determining appropriate thresholds can affect the resulting accuracy directly. To address these issues, we introduce fuzzy learning into NMS and propose a novel generalized Fuzzy-NMS module to achieve finer candidate bounding box filtering. The proposed Fuzzy-NMS module combines the volume and clustering density of candidate bounding boxes, refining them with a fuzzy classification method and optimizing the appropriate suppression thresholds to reduce uncertainty in the NMS process. Adequate validation experiments are conducted using the mainstream KITTI and large-scale Waymo 3D object detection benchmarks. The results of these tests demonstrate the proposed Fuzzy-NMS module can improve the accuracy of numerous recently NMS-based detectors significantly, including PointPillars, PV-RCNN, and IA-SSD, etc. This effect is particularly evident for small objects such as pedestrians and bicycles. As a plug-and-play module, Fuzzy-NMS does not need to be retrained and produces no obvious increases in inference time.
翻訳日:2023-10-25 04:30:19 公開日:2023-10-21
# 空間変換による知覚色空間の逆画像生成

Adversarial Image Generation by Spatial Transformation in Perceptual Colorspaces ( http://arxiv.org/abs/2310.13950v1 )

ライセンス: Link先を確認
Ayberk Aydin, Alptekin Temizel(参考訳) ディープニューラルネットワークは敵の摂動に弱いことが知られている。 これらの摂動の量は通常、$L_0$、$L_2$、$L_\infty$のような$L_p$メトリクスを使って定量化される。 しかしながら、測定された摂動が小さい場合でも、L_p$距離の計測値が人間の知覚を表わさないため、人間の観察者によって注目される傾向がある。 一方、人間は色空間の変化にあまり敏感ではない。 さらに、制約された近傍でのピクセルシフトに気づくことは困難である。 そこで本研究では,yc_{b}c_{r}$やcielab$といった知覚的な色空間の彩度チャネルとは独立に画素位置を変更することで,付加的な摂動やピクセル値を直接操作するのではなく,逆向きの例を作成する手法を提案する。 目標のホワイトボックス攻撃設定において,提案手法は高い信頼度で競争的騙し率を得ることができる。 実験結果から,提案手法は良性画像と逆生成画像との近似知覚距離の点で良好な結果が得られることがわかった。 ソースコードはhttps://github.com/ayberkydn/stadv-torchで公開されている。

Deep neural networks are known to be vulnerable to adversarial perturbations. The amount of these perturbations are generally quantified using $L_p$ metrics, such as $L_0$, $L_2$ and $L_\infty$. However, even when the measured perturbations are small, they tend to be noticeable by human observers since $L_p$ distance metrics are not representative of human perception. On the other hand, humans are less sensitive to changes in colorspace. In addition, pixel shifts in a constrained neighborhood are hard to notice. Motivated by these observations, we propose a method that creates adversarial examples by applying spatial transformations, which creates adversarial examples by changing the pixel locations independently to chrominance channels of perceptual colorspaces such as $YC_{b}C_{r}$ and $CIELAB$, instead of making an additive perturbation or manipulating pixel values directly. In a targeted white-box attack setting, the proposed method is able to obtain competitive fooling rates with very high confidence. The experimental evaluations show that the proposed method has favorable results in terms of approximate perceptual distance between benign and adversarially generated images. The source code is publicly available at https://github.com/ayberkydn/stadv-torch
翻訳日:2023-10-25 04:29:54 公開日:2023-10-21
# 確率的グラフモデルに対する近似的含意

Approximate Implication for Probabilistic Graphical Models ( http://arxiv.org/abs/2310.13942v1 )

ライセンス: Link先を確認
Batya Kenig(参考訳) 確率的グラフィカルモデル(pgms)のグラフィカル構造は、モデル分布に保持される条件付き独立性(ci)関係を表す。 グラフ内の各セパレータは、分布における条件独立関係を表し、新しい条件不依存が推測され、検証される車両となる。 グラフの分離の概念は、グラフが向き付けられたかどうか(すなわちベイズネットワーク)、あるいは無方向(すなわちマルコフネットワーク)に依存する。 PGMにおけるCIを導出するための現在のシステム・オブ・推論の前提は、PGMの構築に使用されるCIの集合が正確に保持されていることである。 実際には、データからPGMの構造を抽出するアルゴリズムは、分布に正確に保持されていない近似CIを発見する。 本稿では、このセットのエラーが、図形構造から読み取った推論CIにどのように伝播するかを問う。 より正確に言うと、それに関連するCIのセットがほぼ保持している場合に、推論CIにどのような保証ができますか? 最近、一般的な場合、そのような保証は提供されないことが示されている。 本研究では,この問題に対する新たな否定的かつ肯定的な結果を示す。 非向 pgm における分離子は必ずしも近似 cis を表すとは限らない。 すなわち、無向グラフの構造から推論されたCIに対して保証は提供されない。 我々は、有向グラフモデルで推定されるCIの集合に対してそのような保証が存在することを証明し、$d$-セパレーションアルゴリズムを近似CIを推定するための健全かつ完全なシステムとする。 また、辺縁および飽和cisから導かれる独立関係に対する改良された近似保証を確立する。

The graphical structure of Probabilistic Graphical Models (PGMs) represents the conditional independence (CI) relations that hold in the modeled distribution. Every separator in the graph represents a conditional independence relation in the distribution, making them the vehicle through which new conditional independencies are inferred and verified. The notion of separation in graphs depends on whether the graph is directed (i.e., a Bayesian Network), or undirected (i.e., a Markov Network). The premise of all current systems-of-inference for deriving CIs in PGMs, is that the set of CIs used for the construction of the PGM hold exactly. In practice, algorithms for extracting the structure of PGMs from data discover approximate CIs that do not hold exactly in the distribution. In this paper, we ask how the error in this set propagates to the inferred CIs read off the graphical structure. More precisely, what guarantee can we provide on the inferred CI when the set of CIs that entailed it hold only approximately? It has recently been shown that in the general case, no such guarantee can be provided. In this work, we prove new negative and positive results concerning this problem. We prove that separators in undirected PGMs do not necessarily represent approximate CIs. That is, no guarantee can be provided for CIs inferred from the structure of undirected graphs. We prove that such a guarantee exists for the set of CIs inferred in directed graphical models, making the $d$-separation algorithm a sound and complete system for inferring approximate CIs. We also establish improved approximation guarantees for independence relations derived from marginal and saturated CIs.
翻訳日:2023-10-25 04:29:30 公開日:2023-10-21
# 交通分類のための生成データ拡張に向けて

Toward Generative Data Augmentation for Traffic Classification ( http://arxiv.org/abs/2310.13935v1 )

ライセンス: Link先を確認
Chao Wang, Alessandro Finamore, Pietro Michiardi, Massimo Gallo, Dario Rossi(参考訳) Data Augmentation (DA) 合成サンプルによるトレーニングデータの拡張 - Computer Vision (CV) で大きく採用され、モデル性能が向上した。 逆に、daはトラフィック分類(tc)を含むネットワークユースケースではまだ普及していない。 本研究では,MIRAGE19データセットに適用した14個の手作りDAについて予備的検討を行った。 私たちの成果は i) DAが以前に調査されていない利益を享受できることを示し、 (ii) 生成モデルを用いたda設計の自動化に関する研究課題を提起する。

Data Augmentation (DA)-augmenting training data with synthetic samples-is wildly adopted in Computer Vision (CV) to improve models performance. Conversely, DA has not been yet popularized in networking use cases, including Traffic Classification (TC). In this work, we present a preliminary study of 14 hand-crafted DAs applied on the MIRAGE19 dataset. Our results (i) show that DA can reap benefits previously unexplored in TC and (ii) foster a research agenda on the use of generative models to automate DA design.
翻訳日:2023-10-25 04:29:04 公開日:2023-10-21
# インフォーマティブ外挿による分布外検出のための可変外周露法

Diversified Outlier Exposure for Out-of-Distribution Detection via Informative Extrapolation ( http://arxiv.org/abs/2310.13923v1 )

ライセンス: Link先を確認
Jianing Zhu, Geng Yu, Jiangchao Yao, Tongliang Liu, Gang Niu, Masashi Sugiyama, Bo Han(参考訳) Out-of-Distribution(OOD)検出は、現実のアプリケーションに信頼性の高い機械学習モデルをデプロイするために重要である。 最近のoutlier exposureの進歩は、情報的にサンプリングされた補助的なoutlierを持つ微調整モデルによるood検出の有望な結果を示している。 しかし, 従来の手法では, 収集した外れ値が十分に大きくなり, IDデータとOODデータの境界をカバーできると考えられていた。 本研究では,与えられた補助外乱に基づいて情報的外挿によるOOD検出を効果的に行うための,DivOE(Diversified Outlier Exposure)という新しいフレームワークを提案する。 具体的には、divoeは新しい学習目標を導入し、トレーニング中の補間のためにより有益な外れ値を明確に合成することで補助分布を多様化する。 マルチステップ最適化手法を利用して、外周露光の多くの変種と互換性のある、元のものを超える新しい外周を生成する。 提案するdivoeの有効性を特徴付けるために,広範な実験と解析が行われている。 コードはhttps://github.com/tmlr-group/DivOE.comで公開されている。

Out-of-distribution (OOD) detection is important for deploying reliable machine learning models on real-world applications. Recent advances in outlier exposure have shown promising results on OOD detection via fine-tuning model with informatively sampled auxiliary outliers. However, previous methods assume that the collected outliers can be sufficiently large and representative to cover the boundary between ID and OOD data, which might be impractical and challenging. In this work, we propose a novel framework, namely, Diversified Outlier Exposure (DivOE), for effective OOD detection via informative extrapolation based on the given auxiliary outliers. Specifically, DivOE introduces a new learning objective, which diversifies the auxiliary distribution by explicitly synthesizing more informative outliers for extrapolation during training. It leverages a multi-step optimization method to generate novel outliers beyond the original ones, which is compatible with many variants of outlier exposure. Extensive experiments and analyses have been conducted to characterize and demonstrate the effectiveness of the proposed DivOE. The code is publicly available at: https://github.com/tmlr-group/DivOE.
翻訳日:2023-10-25 04:28:56 公開日:2023-10-21
# 自律走行予測のための等変写像とエージェント形状

Equivariant Map and Agent Geometry for Autonomous Driving Motion Prediction ( http://arxiv.org/abs/2310.13922v1 )

ライセンス: Link先を確認
Yuping Wang, Jier Chen(参考訳) 自動運転では、ディープラーニングによるモーション予測が一般的なトピックである。 伝統的な運動予測方法論における重要なギャップは、ユークリッド幾何学的変換の下での等分散の確保と不変な相互作用関係の維持にある。 本研究では, 粒子と人間の運動予測モデルであるeqmotionと, 自律運転における文脈認識運動予測のためのエージェント同変高精細度(hd)マップ機能を統合することにより, 画期的な解法を提案する。 バックボーンとしてのEqMotionの使用は、動きの同値性と相互作用の不変性を厳格に保証することで、既存の方法から大きく離れている。 ここでの同値性は、出力運動は入力運動と同じユークリッド変換の下で等しく変換されなければならず、相互作用不変性は変換にもかかわらずエージェントが相互作用する方法を保ち続けることを意味する。 これらの性質により、ネットワークは任意のユークリッド変換に頑健になり、より正確な予測に寄与する。 さらに,ネットワーク全体の等価性を保ちながら,ネットワークの空間的理解を強化するために,HDマップを処理する同変法を提案する。 これらの技術を適用することで,軽量設計と効率的なデータ利用を維持しつつ,高い予測精度を実現することができる。

In autonomous driving, deep learning enabled motion prediction is a popular topic. A critical gap in traditional motion prediction methodologies lies in ensuring equivariance under Euclidean geometric transformations and maintaining invariant interaction relationships. This research introduces a groundbreaking solution by employing EqMotion, a theoretically geometric equivariant and interaction invariant motion prediction model for particles and humans, plus integrating agent-equivariant high-definition (HD) map features for context aware motion prediction in autonomous driving. The use of EqMotion as backbone marks a significant departure from existing methods by rigorously ensuring motion equivariance and interaction invariance. Equivariance here implies that an output motion must be equally transformed under the same Euclidean transformation as an input motion, while interaction invariance preserves the manner in which agents interact despite transformations. These properties make the network robust to arbitrary Euclidean transformations and contribute to more accurate prediction. In addition, we introduce an equivariant method to process the HD map to enrich the spatial understanding of the network while preserving the overall network equivariance property. By applying these technologies, our model is able to achieve high prediction accuracy while maintain a lightweight design and efficient data utilization.
翻訳日:2023-10-25 04:28:38 公開日:2023-10-21
# 二重jaynes-cummingsモデルにおける純原子と混合状態のキャビティ内の原子場系の異なる準位間の絡み合いダイナミクスに及ぼす熱光子と圧縮光子の影響

Effects of Thermal Photons and Squeezed Photons on Entanglement Dynamics Between Different Subsystems of Atom-Field System inside a Cavity with Atoms in a Pure and Mixed States in the Double Jaynes-Cummings Model ( http://arxiv.org/abs/2310.13918v1 )

ライセンス: Link先を確認
Koushik Mandal, Chandrashekar Radhakrishnan and M. V. Satyanarayana(参考訳) 本研究では、原子・原子・磁場・磁場サブシステム間の絡み合いのダイナミクスを二重Jaynes-Cummingsモデル(DJCM)を用いて研究した。 空洞内では、圧縮コヒーレント状態 (SCS) やグラウバー・ラフ状態 (G-L) などの放射線領域の異なる状態が選択されている。 原子状態については、ベル状態(純粋な状態)とヴェルナー状態(混合状態)が検討されている。 原子場系の絡み合いのダイナミクスを研究するために、ウーッターの収束と負性性を用いた。 両フィールドのダイナミクスの劇的かつ興味深い違いが観察される。 また、原子間のスピンスピンイジング相互作用と変形が絡み合いに及ぼす影響についても検討した。 イジング相互作用の追加により、興味深く非直観的な現象が観察される。 カー非線形性が絡み合いに及ぼす影響も、純粋な状態と混合状態の両方の原子について研究されている。

In this work, the entanglement dynamics between atom-atom, atom-field and field-field subsystems have been studied under the double Jaynes-Cummings model(DJCM). Inside the cavities, different states of the radiation field such as squeezed coherent states (SCS) and Glauber-Lachs (G-L) states have been chosen. For the atomic states, a Bell state (pure state) and a Werner state (mixed state) have been considered. To study the entanglement dynamics for the atom-field system, Wootter's concurrence and negativity have been used. Drastic and interesting differences between the dynamics of both fields are observed. The effects of spin-spin Ising interaction between the atoms and the effects of detuning on entanglement are also studied. Interesting and non-intuitive phenomena are observed due to the addition of Ising interaction. The effects of Kerr-nonlinearity on entanglement have also been investigated for atoms in both pure and mixed states.
翻訳日:2023-10-25 04:28:17 公開日:2023-10-21
# 気候変動下の南洋のダイナミクス:物理誘導機械学習による新しい知識

Southern Ocean Dynamics Under Climate Change: New Knowledge Through Physics-Guided Machine Learning ( http://arxiv.org/abs/2310.13916v1 )

ライセンス: Link先を確認
William Yik, Maike Sonnewald, Mariana C. A. Clare, Redouane Lguensat(参考訳) 南極圏極性海流のような複雑な海洋システムは、気候において重要な役割を担い、現在のモデルでは、気候変動下でのその強度と面積の変化を予測している。 しかし、これらの変化の根底にある物理過程は、複雑なモデルにおける海洋物理学の変化の特徴付けと追跡が難しいため、よく理解されていない。 南極圏の極性潮流の変化を理解するため,海洋レジーム(THOR)による地球規模の暖房の追跡手法をメソスケールの渦状気候モデルに拡張し,気象モデルから容易にアクセス可能なフィールドを用いて,同様の物理現象を特徴とする海洋の領域を同定する。 この目的のために、グリッドセルを動的レジームにクラスタ化し、ニューラルネットワークのアンサンブルをトレーニングし、これらのレジームを予測し、気候変動下で追跡します。 最後に,この新しい知識を活用して,レジームシフトのダイナミクスを解明する。 ここでは,南極の周極流とその太平洋-南極海溝との相互作用を事例として,中規模乱流を許容するこの高分解能版thorの意義を述べる。 この領域では、THORは風の応力の変化と水浴測定との相互作用によって引き起こされる気候変動による動的体制の変化を特に明らかにしている。 この知識を用いてさらなる探検を導くことで、南極圏の極性電流が強風下で北に移動するにつれ、水浴量計の動力学的な役割は弱まり、流れは強化される。

Complex ocean systems such as the Antarctic Circumpolar Current play key roles in the climate, and current models predict shifts in their strength and area under climate change. However, the physical processes underlying these changes are not well understood, in part due to the difficulty of characterizing and tracking changes in ocean physics in complex models. To understand changes in the Antarctic Circumpolar Current, we extend the method Tracking global Heating with Ocean Regimes (THOR) to a mesoscale eddy permitting climate model and identify regions of the ocean characterized by similar physics, called dynamical regimes, using readily accessible fields from climate models. To this end, we cluster grid cells into dynamical regimes and train an ensemble of neural networks to predict these regimes and track them under climate change. Finally, we leverage this new knowledge to elucidate the dynamics of regime shifts. Here we illustrate the value of this high-resolution version of THOR, which allows for mesoscale turbulence, with a case study of the Antarctic Circumpolar Current and its interactions with the Pacific-Antarctic Ridge. In this region, THOR specifically reveals a shift in dynamical regime under climate change driven by changes in wind stress and interactions with bathymetry. Using this knowledge to guide further exploration, we find that as the Antarctic Circumpolar Current shifts north under intensifying wind stress, the dominant dynamical role of bathymetry weakens and the flow strengthens.
翻訳日:2023-10-25 04:27:59 公開日:2023-10-21
# 価値、倫理、道徳は? NLP研究におけるモラル概念の利用について

Values, Ethics, Morals? On the Use of Moral Concepts in NLP Research ( http://arxiv.org/abs/2310.13915v1 )

ライセンス: Link先を確認
Karina Vida, Judith Simon, Anne Lauscher(参考訳) 言語技術が個人の生活に影響を及ぼすにつれ、最近の多くの研究がNLPの倫理的側面を調査している。 その他のトピックの中で、研究者は道徳の概念に注目し、例えば、道徳判断言語モデルが作るものを調べる。 しかし、これらの取り組みやその意味を裏付ける用語や理論についてはほとんど議論されていない。 この欠如は、作品の根底にある前提を隠蔽し、NLPにおける道徳に関する徹底的で目標とする科学的議論を妨げるため、非常に問題となる。 本研究では,この研究ギャップに対処する。 (a)哲学を起源とする倫理上の重要な概念の概観を提供する b) 哲学的基礎,用語,データに基づく道徳的NLPに関する既存の文献を体系的に調査する。 例えば、アプローチがどんな倫理理論に基づいているか、この決定がどのように正当化され、どのような意味を持つのかを分析します。 92の論文を調査した結果、例えば、ほとんどの論文は、使用する用語を明確に定義したり、哲学の定義に従わなかった。 最後に (c)この分野の今後の研究のために3つの推奨事項を提示する。 私たちの仕事は、言語技術における道徳に関するより情報があり、慎重に、健全な議論につながることを願っています。

With language technology increasingly affecting individuals' lives, many recent works have investigated the ethical aspects of NLP. Among other topics, researchers focused on the notion of morality, investigating, for example, which moral judgements language models make. However, there has been little to no discussion of the terminology and the theories underpinning those efforts and their implications. This lack is highly problematic, as it hides the works' underlying assumptions and hinders a thorough and targeted scientific debate of morality in NLP. In this work, we address this research gap by (a) providing an overview of some important ethical concepts stemming from philosophy and (b) systematically surveying the existing literature on moral NLP w.r.t. their philosophical foundation, terminology, and data basis. For instance, we analyse what ethical theory an approach is based on, how this decision is justified, and what implications it entails. Our findings surveying 92 papers show that, for instance, most papers neither provide a clear definition of the terms they use nor adhere to definitions from philosophy. Finally, (c) we give three recommendations for future research in the field. We hope our work will lead to a more informed, careful, and sound discussion of morality in language technology.
翻訳日:2023-10-25 04:27:15 公開日:2023-10-21
# タンパク質リガンド構造予測モデルの可能性を解き放つため, HelixDock を用いた大規模ドッキングコンフォーメーションの事前評価

Pre-Training on Large-Scale Generated Docking Conformations with HelixDock to Unlock the Potential of Protein-ligand Structure Prediction Models ( http://arxiv.org/abs/2310.13913v1 )

ライセンス: Link先を確認
Lihang Liu, Donglong He, Xianbin Ye, Shanzhuo Zhang, Xiaonan Zhang, Jingbo Zhou, Jun Li, Hua Chai, Fan Wang, Jingzhou He, Liang Zheng, Yonghui Li, Xiaomin Fang(参考訳) 薬物発見のための重要な計算ツールである分子ドッキングは、小さな分子(配位子)と標的タンパク質(受容体)の結合相互作用を予測する。 従来の物理ベースのドッキングツールは広く使われているが、コンフォメーションサンプリングの制限とスコアリング機能の不正確さのために精度の限界に直面している。 近年,ドッキング精度を高めるためにディープラーニング技術が採用されているが,訓練データが少ないため,その一般化が懸念されている。 他の領域における広範囲かつ多様なデータの成功を活かし、サイト固有の分子ドッキングのための新しいアプローチであるhelixdockを紹介する。 何十億もの結合ポーズが伝統的なドッキングツールによって生成され、様々なタンパク質標的や小さな分子を包含する。 ディープラーニングベースのドッキングモデルであるse(3)等価ネットワークは、この大規模データセットで事前学習され、少数の正確な受容体リガンド複雑な構造で微調整されます。 物理ベースおよびディープラーニングベースライン法の比較分析は、特に挑戦的なテストセットにおいて、HelixDockの優位性を強調している。 本研究は,事前学習した分子ドッキングモデルのスケーリング則を解明し,モデルパラメータと事前学習データ量の増加による一貫した改善を示す。 広範囲で多様な生成されたデータの力を損なうことは、AIによる薬物発見を前進させる約束である。

Molecular docking, a pivotal computational tool for drug discovery, predicts the binding interactions between small molecules (ligands) and target proteins (receptors). Conventional physics-based docking tools, though widely used, face limitations in precision due to restricted conformational sampling and imprecise scoring functions. Recent endeavors have employed deep learning techniques to enhance docking accuracy, but their generalization remains a concern due to limited training data. Leveraging the success of extensive and diverse data in other domains, we introduce HelixDock, a novel approach for site-specific molecular docking. Hundreds of millions of binding poses are generated by traditional docking tools, encompassing diverse protein targets and small molecules. Our deep learning-based docking model, a SE(3)-equivariant network, is pre-trained with this large-scale dataset and then fine-tuned with a small number of precise receptor-ligand complex structures. Comparative analyses against physics-based and deep learning-based baseline methods highlight HelixDock's superiority, especially on challenging test sets. Our study elucidates the scaling laws of the pre-trained molecular docking models, showcasing consistent improvements with increased model parameters and pre-train data quantities. Harnessing the power of extensive and diverse generated data holds promise for advancing AI-driven drug discovery.
翻訳日:2023-10-25 04:26:42 公開日:2023-10-21
# ジェネレーティブAIによる要件エンジニアリングの促進 - LLMの役割を評価する

Advancing Requirements Engineering through Generative AI: Assessing the Role of LLMs ( http://arxiv.org/abs/2310.13976v1 )

ライセンス: Link先を確認
Chetan Arora, John Grundy, Mohamed Abdelrazek(参考訳) 要件工学(Requirements Engineering, RE)は、ソフトウェア要件の推論、分析、仕様、検証を含むソフトウェア開発における重要なフェーズである。 REの重要性にもかかわらず、コミュニケーションの複雑さ、初期段階における不確実性、自動化サポートの不十分さなど、依然として困難なプロセスです。 近年,多言語モデル (LLM) は自然言語処理,コード生成,プログラム理解など,様々な分野において大きな可能性を秘めている。 本章では、要求関連タスクの効率性と精度の向上を目的とした、REプロセスの駆動におけるLLMの可能性について論じる。 本稿では,RE に LLM を用いた研究・開発における鍵となる方向性とSWOT 分析を提案し,要求の導出,分析,仕様,検証の可能性に焦点をあてる。 さらに,この文脈で予備評価を行った結果について述べる。

Requirements Engineering (RE) is a critical phase in software development including the elicitation, analysis, specification, and validation of software requirements. Despite the importance of RE, it remains a challenging process due to the complexities of communication, uncertainty in the early stages and inadequate automation support. In recent years, large-language models (LLMs) have shown significant promise in diverse domains, including natural language processing, code generation, and program understanding. This chapter explores the potential of LLMs in driving RE processes, aiming to improve the efficiency and accuracy of requirements-related tasks. We propose key directions and SWOT analysis for research and development in using LLMs for RE, focusing on the potential for requirements elicitation, analysis, specification, and validation. We further present the results from a preliminary evaluation, in this context.
翻訳日:2023-10-25 04:20:31 公開日:2023-10-21
# asbart: 加速されたソフトベイズ添加回帰木

ASBART:Accelerated Soft Bayes Additive Regression Trees ( http://arxiv.org/abs/2310.13975v1 )

ライセンス: Link先を確認
Hao Ran and Yang Bai(参考訳) ベイズ付加回帰木(BART)は非パラメトリック回帰モデルであり,その柔軟性と推定精度の高さから近年広く普及している。 BARTの変種であるSoft BARTは、既存のベイジアン・サマー・オブ・ツリー(英語版)モデルにおいて実用的にもヒート的にも改善する。 Soft BARTのボトルネックのひとつは、長いMCMCループでの速度が遅いことだ。 BARTと比較すると、デフォルト設定で計算を完了するために約20回以上使用される。 我々は,アクセラレーションソフトBART(ASBART)と呼ばれるBARTの変種を提案した。 シミュレーション研究により、新しい手法はSoft BARTの10倍の精度で高速であることが示されている。 私たちのコードはオープンソースで、https://github.com/richael008/xsbartで利用可能です。

Bayes additive regression trees(BART) is a nonparametric regression model which has gained wide-spread popularity in recent years due to its flexibility and high accuracy of estimation. Soft BART,one variation of BART,improves both practically and heoretically on existing Bayesian sum-of-trees models. One bottleneck for Soft BART is its slow speed in the long MCMC loop. Compared to BART,it use more than about 20 times to complete the calculation with the default setting. We proposed a variant of BART named accelerate Soft BART(ASBART). Simulation studies show that the new method is about 10 times faster than the Soft BART with comparable accuracy. Our code is open-source and available at https://github.com/richael008/XSBART.
翻訳日:2023-10-25 04:20:16 公開日:2023-10-21
# 発音自動評価 -一考察-

Automatic Pronunciation Assessment -- A Review ( http://arxiv.org/abs/2310.13974v1 )

ライセンス: Link先を確認
Yassine El Kheir, Ahmed Ali, and Shammur Absar Chowdhury(参考訳) 近年,コンピュータ支援発音訓練(CAPT)における発音評価とその応用は著しく進歩している。 過去数年間の言語処理とディープラーニングの急速な増加に伴い、改訂されたレビューが必要である。 本稿では,音韻と韻律の両方で発音評価を行う手法について検討する。 我々は、顕著な研究トレンドで見られる主な課題を分類し、既存の制限と利用可能なリソースを強調します。 続いて、残る課題と今後の作業の可能な方向性について議論する。

Pronunciation assessment and its application in computer-aided pronunciation training (CAPT) have seen impressive progress in recent years. With the rapid growth in language processing and deep learning over the past few years, there is a need for an updated review. In this paper, we review methods employed in pronunciation assessment for both phonemic and prosodic. We categorize the main challenges observed in prominent research trends, and highlight existing limitations, and available resources. This is followed by a discussion of the remaining challenges and possible directions for future work.
翻訳日:2023-10-25 04:20:03 公開日:2023-10-21
# 組成共変量を用いた分散線形回帰

Distributed Linear Regression with Compositional Covariates ( http://arxiv.org/abs/2310.13969v1 )

ライセンス: Link先を確認
Yue Chao, Lei Huang, Xuejun Ma(参考訳) 膨大なデータセットが利用可能になったことで、分散統計方法論の問題を解決し、そのようなデータセットの計算は、ビッグデータ分野においてますます重要になっている。 本稿では,大規模合成データにおける分散スパースペナル化線形ログコントラストモデルに着目した。 特に, 2つの異なる制約付き凸最適化問題を解くために, 集中型および分散型トポロジの下での2つの分散最適化手法が提案されている。 提案した2つのアルゴリズムは、alternating Direction Method of Multipliers (ADMM) と Coordinate Descent Method of Multipliers (CDMM, Lin et al., 2014 Biometrika) のフレームワークに基づいている。 分散トポロジでは,グループADMM(GADMM, Elgabli et al., 2020, Journal of Machine Learning Research)に基づいて,コミュニケーション効率の高い正規化推定を行う分散座標ワイド降下アルゴリズムを導入する。 対応するアルゴリズムの収束理論は、いくつかの規則性条件下で厳密に確立されている。 提案したアルゴリズムを評価するために,合成データと実データの両方に関する数値実験を行った。

With the availability of extraordinarily huge data sets, solving the problems of distributed statistical methodology and computing for such data sets has become increasingly crucial in the big data area. In this paper, we focus on the distributed sparse penalized linear log-contrast model in massive compositional data. In particular, two distributed optimization techniques under centralized and decentralized topologies are proposed for solving the two different constrained convex optimization problems. Both two proposed algorithms are based on the frameworks of Alternating Direction Method of Multipliers (ADMM) and Coordinate Descent Method of Multipliers(CDMM, Lin et al., 2014, Biometrika). It is worth emphasizing that, in the decentralized topology, we introduce a distributed coordinate-wise descent algorithm based on Group ADMM(GADMM, Elgabli et al., 2020, Journal of Machine Learning Research) for obtaining a communication-efficient regularized estimation. Correspondingly, the convergence theories of the proposed algorithms are rigorously established under some regularity conditions. Numerical experiments on both synthetic and real data are conducted to evaluate our proposed algorithms.
翻訳日:2023-10-25 04:19:56 公開日:2023-10-21
# カーネルベース非パラメトリック回帰のためのminimax最適伝達学習

Minimax Optimal Transfer Learning for Kernel-based Nonparametric Regression ( http://arxiv.org/abs/2310.13966v1 )

ライセンス: Link先を確認
Chao Wang, Caixing Wang, Xin He, and Xingdong Feng(参考訳) 近年,移動学習は機械学習コミュニティにおいて大きな注目を集めている。 対象研究における知識を活用して一般化性能を向上させる能力は、非常に魅力的である。 本稿では,再生核ヒルベルト空間上の非パラメトリック回帰の文脈における伝達学習問題について考察する。 目的は、実用性と理論的保証のギャップを埋めることである。 具体的には、転送可能なソースが知られているシナリオと、それらが未知であるシナリオの2つについて検討する。 既知の転送可能ソースの場合,カーネルリッジ回帰のみを用いた2段階のカーネルベース推定器を提案する。 未知の場合において、負のソースの影響を自動的に検出し緩和する効率的な集約アルゴリズムに基づく新しい手法を開発する。 本稿では,所望の推定器の統計特性を提供し,ミニマックス最適速度を定式化する。 合成データおよび実例に関する広範な数値実験を通じて,提案手法の有効性を検証し,本手法の有効性を実証する。

In recent years, transfer learning has garnered significant attention in the machine learning community. Its ability to leverage knowledge from related studies to improve generalization performance in a target study has made it highly appealing. This paper focuses on investigating the transfer learning problem within the context of nonparametric regression over a reproducing kernel Hilbert space. The aim is to bridge the gap between practical effectiveness and theoretical guarantees. We specifically consider two scenarios: one where the transferable sources are known and another where they are unknown. For the known transferable source case, we propose a two-step kernel-based estimator by solely using kernel ridge regression. For the unknown case, we develop a novel method based on an efficient aggregation algorithm, which can automatically detect and alleviate the effects of negative sources. This paper provides the statistical properties of the desired estimators and establishes the minimax optimal rate. Through extensive numerical experiments on synthetic data and real examples, we validate our theoretical findings and demonstrate the effectiveness of our proposed method.
翻訳日:2023-10-25 04:19:38 公開日:2023-10-21
# エンサンブルインストラクション: LMの不均一混合を用いた命令チューニングデータの生成

Ensemble-Instruct: Generating Instruction-Tuning Data with a Heterogeneous Mixture of LMs ( http://arxiv.org/abs/2310.13961v1 )

ライセンス: Link先を確認
Young-Suk Lee, Md Arafat Sultan, Yousef El-Kurdi, Tahira Naseem Asim Munawar, Radu Florian, Salim Roukos, Ram\'on Fernandez Astudillo(参考訳) データ生成にICL(In-context Learning)を用いることで、セルフインストラクション(Wang et al., 2023)や、それに続くAlpaca(Taori et al., 2023)のようなテクニックは、人間の監督力の少ない強力な会話エージェントを訓練することができる。 これらのアプローチの1つの制限は、プロプライエタリで非パブリックな非常に大きな言語モデル(約175Bパラメータ)に頼っていることである。 ここでは、より小さく(約10B-40Bパラメータ)、許容ライセンスを持つ言語モデルへのそのような手法の適用について検討する。 このようなサイズでは自己指示的アプローチは効果が低く,2つの主要なアイデアを浮き彫りにする新しいicl手法を提案する。 (a)ICLテンプレートの分類と単純化により、LMの迅速な学習が容易になる。 b)複数のLM出力を組立てて高品質な合成例を選択すること。 アルゴリズムは175のSelf-Instructのシードタスクを利用し、入力を必要とする命令には別個のパイプラインを使用する。 実験結果から,(1)提案手法は自己指示よりも高品質な命令調律データが得られる,(2)バニラ調と命令調律の両方の性能を有意なマージンで改善する,(3)より小さい命令調律のlmsはより大きな非調律の命令調律データよりも有用な出力を生成する,という結果が得られた。 私たちのコードベースはhttps://github.com/ibm/ensemble-instructで利用可能です。

Using in-context learning (ICL) for data generation, techniques such as Self-Instruct (Wang et al., 2023) or the follow-up Alpaca (Taori et al., 2023) can train strong conversational agents with only a small amount of human supervision. One limitation of these approaches is that they resort to very large language models (around 175B parameters) that are also proprietary and non-public. Here we explore the application of such techniques to language models that are much smaller (around 10B--40B parameters) and have permissive licenses. We find the Self-Instruct approach to be less effective at these sizes and propose new ICL methods that draw on two main ideas: (a) Categorization and simplification of the ICL templates to make prompt learning easier for the LM, and (b) Ensembling over multiple LM outputs to help select high-quality synthetic examples. Our algorithm leverages the 175 Self-Instruct seed tasks and employs separate pipelines for instructions that require an input and instructions that do not. Empirical investigations with different LMs show that: (1) Our proposed method yields higher-quality instruction tuning data than Self-Instruct, (2) It improves performances of both vanilla and instruction-tuned LMs by significant margins, and (3) Smaller instruction-tuned LMs generate more useful outputs than their larger un-tuned counterparts. Our codebase is available at https://github.com/IBM/ensemble-instruct.
翻訳日:2023-10-25 04:19:25 公開日:2023-10-21
# 言語的動機づけによる手話セグメンテーション

Linguistically Motivated Sign Language Segmentation ( http://arxiv.org/abs/2310.13960v1 )

ライセンス: Link先を確認
Amit Moryossef, Zifan Jiang, Mathias M\"uller, Sarah Ebling, Yoav Goldberg(参考訳) 手話セグメンテーションは手話処理システムにおいて重要なタスクである。 これは、サイン認識、転写、機械翻訳などの下流タスクを可能にする。 本研究では,個々の符号への分割と,複数の符号からなる大きな単位である \textit{phrases} への分割について考察する。 これら2つのタスクを協調的にモデル化する新しい手法を提案する。 本手法は手話コーパスに見られる言語的手がかりに動機づけられている。 我々は、主要なIOタグ付けスキームをBIOタグに置き換えて、継続的な署名を行う。 句境界において韻律が重要な役割を果たすことを考慮し,光フロー機能の利用について検討する。 また,手形と3次元手形正規化の広範囲な解析を行う。 署名境界のモデル化には,BIOタグの導入が必要である。 オプティカルフローによるプロソディの明示的にエンコーディングは、浅いモデルのセグメンテーションを改善するが、深いモデルではその貢献は無視できる。 モデル上における復号アルゴリズムの注意深いチューニングは、セグメンテーション品質をさらに向上させる。 最終モデルは、ゼロショット設定下であっても、異なる署名付き言語でドメイン外のビデオコンテンツに一般化されることを実証する。 光流と3次元ハンド正規化を含め、この文脈でモデルのロバスト性を高めることが観察される。

Sign language segmentation is a crucial task in sign language processing systems. It enables downstream tasks such as sign recognition, transcription, and machine translation. In this work, we consider two kinds of segmentation: segmentation into individual signs and segmentation into \textit{phrases}, larger units comprising several signs. We propose a novel approach to jointly model these two tasks. Our method is motivated by linguistic cues observed in sign language corpora. We replace the predominant IO tagging scheme with BIO tagging to account for continuous signing. Given that prosody plays a significant role in phrase boundaries, we explore the use of optical flow features. We also provide an extensive analysis of hand shapes and 3D hand normalization. We find that introducing BIO tagging is necessary to model sign boundaries. Explicitly encoding prosody by optical flow improves segmentation in shallow models, but its contribution is negligible in deeper models. Careful tuning of the decoding algorithm atop the models further improves the segmentation quality. We demonstrate that our final models generalize to out-of-domain video content in a different signed language, even under a zero-shot setting. We observe that including optical flow and 3D hand normalization enhances the robustness of the model in this context.
翻訳日:2023-10-25 04:18:56 公開日:2023-10-21
# クラスレベル勾配アライメントを持つ二識別器ドメイン対向ニューラルネットワーク

Bi-discriminator Domain Adversarial Neural Networks with Class-Level Gradient Alignment ( http://arxiv.org/abs/2310.13959v1 )

ライセンス: Link先を確認
Chuang Zhao, Hongke Zhao, Hengshu Zhu, Zhenya Huang, Nan Feng, Enhong Chen, Hui Xiong(参考訳) 教師なしドメイン適応は、注釈付きソースドメインから同じラベル空間を持つラベルなしターゲットドメインにリッチな知識を転送することを目的としている。 このネットワークは、ソースドメイン分布のサポート以外の対象ドメインサンプルを識別し、その分類を双方の識別器に一貫性を持たせるよう強制する。 有効であるにもかかわらず、分布外サンプルの無知の精度と過信推定は、さらなる性能改善を妨げる。 以上の課題に対処するために、クラスレベルの勾配アライメント、すなわちBACGを含む新しい二識別ドメイン対向ニューラルネットワークを提案する。 BACGは、領域分布の整合性を改善するために勾配信号と二階確率推定を利用する。 具体的には, 対象領域におけるサンプルの擬似ラベルを得るために最適化可能な最近傍アルゴリズムをまず設計し, クラスレベルで2つの判別器の後方勾配近似を強制する。 さらに,従来のソフトマックスに基づく最適化手法を多項ディリクレ階層モデルに変換し,クラス確率分布と標本の不確かさを推定し,分布外サンプルの誤推定を軽減し,高品質なクラスアライメントを保証する。 さらに,コントラスト学習に触発されて,少ない精度低下でトレーニングプロセスを大幅に短縮できるメモリバンクベースの変種,すなわちfast-bacgを開発した。 4つのベンチマークデータセットの大規模な実験と詳細な理論的解析により,アルゴリズムの有効性とロバスト性を検証した。

Unsupervised domain adaptation aims to transfer rich knowledge from the annotated source domain to the unlabeled target domain with the same label space. One prevalent solution is the bi-discriminator domain adversarial network, which strives to identify target domain samples outside the support of the source domain distribution and enforces their classification to be consistent on both discriminators. Despite being effective, agnostic accuracy and overconfident estimation for out-of-distribution samples hinder its further performance improvement. To address the above challenges, we propose a novel bi-discriminator domain adversarial neural network with class-level gradient alignment, i.e. BACG. BACG resorts to gradient signals and second-order probability estimation for better alignment of domain distributions. Specifically, for accuracy-awareness, we first design an optimizable nearest neighbor algorithm to obtain pseudo-labels of samples in the target domain, and then enforce the backward gradient approximation of the two discriminators at the class level. Furthermore, following evidential learning theory, we transform the traditional softmax-based optimization method into a Multinomial Dirichlet hierarchical model to infer the class probability distribution as well as samples uncertainty, thereby alleviating misestimation of out-of-distribution samples and guaranteeing high-quality classes alignment. In addition, inspired by contrastive learning, we develop a memory bank-based variant, i.e. Fast-BACG, which can greatly shorten the training process at the cost of a minor decrease in accuracy. Extensive experiments and detailed theoretical analysis on four benchmark data sets validate the effectiveness and robustness of our algorithm.
翻訳日:2023-10-25 04:18:39 公開日:2023-10-21
# 半監督左房MRI分割のための教師学習フレームワークの競争力

Competitive Ensembling Teacher-Student Framework for Semi-Supervised Left Atrium MRI Segmentation ( http://arxiv.org/abs/2310.13955v1 )

ライセンス: Link先を確認
Yuyan Shi, Yichi Zhang, Shasha Wang(参考訳) 半教師付き学習は、専門家から豊富なアノテーションを取得する必要性を効果的に軽減し、取得し易いラベル付きデータを活用するため、医療画像のセグメンテーションが大幅に進歩している。 既存の摂動型一貫性学習手法のうち、平均教師モデルは半教師付き医用画像分割の標準ベースラインとして機能する。 本稿では,3次元mr画像から左心房セグメンテーションの半教師化を行うための,単純かつ効率的で効率的な教師センシング学習フレームワークを提案する。 教師モデルと生徒モデル間の一方向の伝達と異なり,教師モデルの指導により異なる生徒モデルの協調学習手順を促進させ,競争学習とセンシング手順のための異なる学習ネットワークを動機付け,よりよいパフォーマンスを実現する。 提案手法を一般左心房(LA)データセット上で評価し,ラベルのないデータを効果的に活用し,既存の半教師付き手法よりも優れた性能を得る。

Semi-supervised learning has greatly advanced medical image segmentation since it effectively alleviates the need of acquiring abundant annotations from experts and utilizes unlabeled data which is much easier to acquire. Among existing perturbed consistency learning methods, mean-teacher model serves as a standard baseline for semi-supervised medical image segmentation. In this paper, we present a simple yet efficient competitive ensembling teacher student framework for semi-supervised for left atrium segmentation from 3D MR images, in which two student models with different task-level disturbances are introduced to learn mutually, while a competitive ensembling strategy is performed to ensemble more reliable information to teacher model. Different from the one-way transfer between teacher and student models, our framework facilitates the collaborative learning procedure of different student models with the guidance of teacher model and motivates different training networks for a competitive learning and ensembling procedure to achieve better performance. We evaluate our proposed method on the public Left Atrium (LA) dataset and it obtains impressive performance gains by exploiting the unlabeled data effectively and outperforms several existing semi-supervised methods.
翻訳日:2023-10-25 04:18:01 公開日:2023-10-21
# 対話型コンピュータ支援ソフトウェア要件適用に向けて

Towards dialogue based, computer aided software requirements elicitation ( http://arxiv.org/abs/2310.13953v1 )

ライセンス: Link先を確認
Vasiliy Seibert(参考訳) 自然言語仕様からモデルを抽出するためのいくつかのアプローチが提案されている。 これらのアプローチには固有の弱点があり、最初の問題を理解することは完璧であり、フィードバックの余地がないと仮定する。 本稿では,要件エンジニアと顧客間の実世界のコラボレーション設定に動機づけられ,対話ベース,コンピュータ支援ソフトウェア要件分析を目的としたインタラクション青写真を提案する。 単なるモデル抽出アプローチと比較して、この相互作用の青写真は個性、創造性、真の妥協を促進する。 一般的なアイデアを示すための簡易な実験が行われた。 本稿では,提案するインタラクションの青写真とともに,自然言語処理と生成型aiの進歩が,今後大きな進歩をもたらす可能性があることを論じる。 しかしそのためには、魔法のブラックボックスの期待から離れて、代わりに要求工学の特定不可能な部分である個人性を認識する対話ベースのアプローチに移行する必要がある。

Several approaches have been presented, which aim to extract models from natural language specifications. These approaches have inherent weaknesses for they assume an initial problem understanding that is perfect, and they leave no room for feedback. Motivated by real-world collaboration settings between requirements engineers and customers, this paper proposes an interaction blueprint that aims for dialogue based, computer aided software requirements analysis. Compared to mere model extraction approaches, this interaction blueprint encourages individuality, creativity and genuine compromise. A simplistic Experiment was conducted to showcase the general idea. This paper discusses the experiment as well as the proposed interaction blueprint and argues, that advancements in natural language processing and generative AI might lead to significant progress in a foreseeable future. However, for that, there is a need to move away from a magical black box expectation and instead moving towards a dialogue based approach that recognizes the individuality that is an undeniable part of requirements engineering.
翻訳日:2023-10-25 04:17:41 公開日:2023-10-21
# アンサンブルビジョン変換器を用いた眼科バイオマーカー検出 -IEEE SPS VIPカップ2023の勝利解-

Ophthalmic Biomarker Detection Using Ensembled Vision Transformers -- Winning Solution to IEEE SPS VIP Cup 2023 ( http://arxiv.org/abs/2310.14005v1 )

ライセンス: Link先を確認
H.A.Z. Sameen Shahgir, Khondker Salman Sayeed, Tanjeem Azwad Zaman, Md. Asif Haider, Sheikh Saifur Rahman Jony, M. Sohel Rahman(参考訳) 本稿では,IEEE SPS VIP Cup 2023: Ophthalmic Biomarker Detection competitionについて概説する。 このコンペの主な目的は,多種多様な患者から得られた光コヒーレンス断層撮影(oct)画像からバイオマーカーを同定することであった。 頑健な拡張と5倍のクロスバリデーションを用いて、MaxViTとEVA-02の2つのビジョントランスフォーマーモデルを訓練し、それらを推論時にアンサンブルした。 EVA-02の正常な注意機構と知識蒸留はグローバルな特徴の検出に有効であるのに対し,MaxViTの畳み込み層の利用は局所的な特徴の検出に適していると考えられる。 第1フェーズでは患者側のf1スコア0.814、vipカップ2023の第2フェーズと最終フェーズでは0.9527となり、次のベストソリューションよりも3.8%高かった。

This report outlines our approach in the IEEE SPS VIP Cup 2023: Ophthalmic Biomarker Detection competition. Our primary objective in this competition was to identify biomarkers from Optical Coherence Tomography (OCT) images obtained from a diverse range of patients. Using robust augmentations and 5-fold cross-validation, we trained two vision transformer-based models: MaxViT and EVA-02, and ensembled them at inference time. We find MaxViT's use of convolution layers followed by strided attention to be better suited for the detection of local features while EVA-02's use of normal attention mechanism and knowledge distillation is better for detecting global features. Ours was the best-performing solution in the competition, achieving a patient-wise F1 score of 0.814 in the first phase and 0.8527 in the second and final phase of VIP Cup 2023, scoring 3.8% higher than the next-best solution.
翻訳日:2023-10-25 04:09:13 公開日:2023-10-21
# 強いテキスト攻撃検知器を目指して

Toward Stronger Textual Attack Detectors ( http://arxiv.org/abs/2310.14001v1 )

ライセンス: Link先を確認
Pierre Colombo, Marine Picot, Nathan Noiry, Guillaume Staerman, Pablo Piantanida(参考訳) 利用可能なテキストの敵対攻撃の状況は増え続けており、深刻な脅威を生じさせ、NLPシステムの完全性に対する懸念を高めている。 しかし、悪意のある攻撃に対する防御の重大な問題はNLPコミュニティの注意を引いただけである。 それにもかかわらず、後者は堅牢で信頼性の高いシステムの開発に役立っている。 本稿は,この検索における2つの重要な貢献について述べる。 (i)テキストの敵対攻撃を検出する新しいフレームワークであるLAROUSSEを導入する。 2)STAKEOUTは,9つの攻撃方法,3つのデータセット,および2つの事前訓練済みモデルからなる新しいベンチマークである。 LAROUSSEは、教師なし、ハイパーパラメータなし、および非微分可能であるため、本番環境での使用の準備が整い、勾配ベースのメソッドから保護される。 我々は、LAROUSSEが従来の手法より優れていることを示す広範な数値実験を行い、検出率変動の興味深い要因を特定することができる。

The landscape of available textual adversarial attacks keeps growing, posing severe threats and raising concerns regarding the deep NLP system's integrity. However, the crucial problem of defending against malicious attacks has only drawn the attention of the NLP community. The latter is nonetheless instrumental in developing robust and trustworthy systems. This paper makes two important contributions in this line of search: (i) we introduce LAROUSSE, a new framework to detect textual adversarial attacks and (ii) we introduce STAKEOUT, a new benchmark composed of nine popular attack methods, three datasets, and two pre-trained models. LAROUSSE is ready-to-use in production as it is unsupervised, hyperparameter-free, and non-differentiable, protecting it against gradient-based methods. Our new benchmark STAKEOUT allows for a robust evaluation framework: we conduct extensive numerical experiments which demonstrate that LAROUSSE outperforms previous methods, and which allows to identify interesting factors of detection rate variations.
翻訳日:2023-10-25 04:08:54 公開日:2023-10-21
# APIに基づく埋め込みモデルにおけるテクスチュアル・ファウショット分類のためのトランスダクティブ学習

Transductive Learning for Textual Few-Shot Classification in API-based Embedding Models ( http://arxiv.org/abs/2310.13998v1 )

ライセンス: Link先を確認
Pierre Colombo, Victor Pellegrain, Malik Boudiaf, Victor Storchan, Myriam Tami, Ismail Ben Ayed, Celine Hudelot, Pablo Piantanida(参考訳) プロプライエタリでクローズドなapiは、自然言語処理にますます一般的になってきており、少ないショット分類を含む、自然言語処理の実用的な応用に影響を与えている。 少数ショット分類は、一握りのラベル付きデータで新しい分類タスクを実行するためにモデルを訓練することを含む。 本稿では3つの貢献について述べる。 まず,プリトレーニングモデルの組込みが,計算コストとデータプライバシーの制約のあるゲートapiを通じて提供されるシナリオを紹介する。 第二に、NLPコミュニティが見落としてきた学習パラダイムであるトランスダクティブ推論を提案する。 帰納的推論は、従来の帰納的学習とは異なり、ラベルなしデータの統計を活用する。 また,fisher-rao損失に基づくパラメータフリーのトランスダクティブ正規化子も導入した。 この方法はラベルのないデータを完全に活用し、サードパーティのAPIプロバイダとラベルを共有せず、将来の研究のベースラインとして機能する。 第3に、最大151のクラスを持つ4つの異なる言語におけるマルチクラス分類を含む8つのデータセットのベンチマークを改良した実験的設定とコンパイルを提案する。 提案手法は8つのバックボーンモデルを用いて評価し,1000エピソード以上のエピソディック評価を行い,標準帰納的設定よりも帰納的推論が優れていることを示した。

Proprietary and closed APIs are becoming increasingly common to process natural language, and are impacting the practical applications of natural language processing, including few-shot classification. Few-shot classification involves training a model to perform a new classification task with a handful of labeled data. This paper presents three contributions. First, we introduce a scenario where the embedding of a pre-trained model is served through a gated API with compute-cost and data-privacy constraints. Second, we propose a transductive inference, a learning paradigm that has been overlooked by the NLP community. Transductive inference, unlike traditional inductive learning, leverages the statistics of unlabeled data. We also introduce a new parameter-free transductive regularizer based on the Fisher-Rao loss, which can be used on top of the gated API embeddings. This method fully utilizes unlabeled data, does not share any label with the third-party API provider and could serve as a baseline for future research. Third, we propose an improved experimental setting and compile a benchmark of eight datasets involving multiclass classification in four different languages, with up to 151 classes. We evaluate our methods using eight backbone models, along with an episodic evaluation over 1,000 episodes, which demonstrate the superiority of transductive inference over the standard inductive setting.
翻訳日:2023-10-25 04:08:40 公開日:2023-10-21
# 人間の心をエミュレートする:高速・低速推論とフィルタ規則を用いたニューラルシンボリックリンク予測モデル

Emulating the Human Mind: A Neural-symbolic Link Prediction Model with Fast and Slow Reasoning and Filtered Rules ( http://arxiv.org/abs/2310.13996v1 )

ライセンス: Link先を確認
Mohammad Hossein Khojasteh, Najmeh Torabian, Ali Farjami, Saeid Hosseini, Behrouz Minaei-Bidgoli(参考訳) リンク予測は知識グラフ(KG)の不完全性問題に対処する上で重要な課題である。 以前のリンク予測モデルは、性能または説明能力のどちらかに関連する問題に苦しむ。 さらに、説明を生成できるモデルは、しばしば誤った経路や推論に苦しむため、正しい答えにつながる。 これらの課題に対処するために,我々は,「常識推論」と「思考,速さ,遅さ」という,人間の認知の2つの異なる側面に着想を得た,新しいニューラル・シンボリックモデルFaSt-FLiPを紹介した。 我々の目標は、リンク予測の強化のための論理モデルとニューラルモデルを組み合わせることである。 論理モデルが生成した誤った経路や規則に対処する上で,ルールを文に変換する半教師付き手法を提案する。 これらの文は、NLI(Natural Language Inference)モデルを用いて、誤った規則の評価と削除を受ける。 論理モデルとニューラルモデルを組み合わせるアプローチでは、まず論理モデルとニューラルモデルの両方から回答を得る。 これらの答えはその後、アルゴリズムの実装と新しいニューラルモデルアーキテクチャの両方を通じて実現された推論エンジンモジュールを使用して統合される。 モデルの有効性を検証するために,我々は一連の実験を行った。 その結果,リンク予測指標とより信頼性の高い説明の生成において,モデルの優れた性能を示すことができた。

Link prediction is an important task in addressing the incompleteness problem of knowledge graphs (KG). Previous link prediction models suffer from issues related to either performance or explanatory capability. Furthermore, models that are capable of generating explanations, often struggle with erroneous paths or reasoning leading to the correct answer. To address these challenges, we introduce a novel Neural-Symbolic model named FaSt-FLiP (stands for Fast and Slow Thinking with Filtered rules for Link Prediction task), inspired by two distinct aspects of human cognition: "commonsense reasoning" and "thinking, fast and slow." Our objective is to combine a logical and neural model for enhanced link prediction. To tackle the challenge of dealing with incorrect paths or rules generated by the logical model, we propose a semi-supervised method to convert rules into sentences. These sentences are then subjected to assessment and removal of incorrect rules using an NLI (Natural Language Inference) model. Our approach to combining logical and neural models involves first obtaining answers from both the logical and neural models. These answers are subsequently unified using an Inference Engine module, which has been realized through both algorithmic implementation and a novel neural model architecture. To validate the efficacy of our model, we conducted a series of experiments. The results demonstrate the superior performance of our model in both link prediction metrics and the generation of more reliable explanations.
翻訳日:2023-10-25 04:08:18 公開日:2023-10-21
# 大規模言語モデルを用いたバイリンガル語彙誘導について

On Bilingual Lexicon Induction with Large Language Models ( http://arxiv.org/abs/2310.13995v1 )

ライセンス: Link先を確認
Yaoyiran Li, Anna Korhonen, Ivan Vuli\'c(参考訳) バイリンガル辞書誘導(BLI)は、多言語NLPの中核的なタスクであり、依然として言語間単語表現の計算に大きく依存している。 NLPのLarge Language Models(LLMs)へのパラダイムシフトに着想を得て,両言語レキシコンの開発に向けた次世代LLMの可能性を検討する。 bliのための多言語llm(mllms)を迅速かつ微調整することは可能か、このアプローチは現在のbliアプローチとどのように比較し補完するか? この目的のために 体系的に研究し 1)非監督的BLIとゼロショットプロンプト 2)llmを微調整することなく,一組のシード翻訳ペアでプロンプトする数発のインコンテキスト 3) 小型LLMの標準BLI微調整 異なるサイズ(0.3Bから13Bパラメータ)の18個のオープンソーステキスト・テキスト・テキストmLLMを2つの標準BLIベンチマークで実験した。 私たちの仕事は、テキストからテキストへのmLLMの強力なBLI機能を示す最初のものです。 その結果,近辺からの文脈内サンプルによる撮影は,多くの言語ペアに対して,最先端のBLIスコアを新たに確立し,最高のパフォーマンスを得ることができた。 また,BLIと(m)LLMを併用した深部分析およびアブレーション研究も実施し,その限界についても考察した。

Bilingual Lexicon Induction (BLI) is a core task in multilingual NLP that still, to a large extent, relies on calculating cross-lingual word representations. Inspired by the global paradigm shift in NLP towards Large Language Models (LLMs), we examine the potential of the latest generation of LLMs for the development of bilingual lexicons. We ask the following research question: Is it possible to prompt and fine-tune multilingual LLMs (mLLMs) for BLI, and how does this approach compare against and complement current BLI approaches? To this end, we systematically study 1) zero-shot prompting for unsupervised BLI and 2) few-shot in-context prompting with a set of seed translation pairs, both without any LLM fine-tuning, as well as 3) standard BLI-oriented fine-tuning of smaller LLMs. We experiment with 18 open-source text-to-text mLLMs of different sizes (from 0.3B to 13B parameters) on two standard BLI benchmarks covering a range of typologically diverse languages. Our work is the first to demonstrate strong BLI capabilities of text-to-text mLLMs. The results reveal that few-shot prompting with in-context examples from nearest neighbours achieves the best performance, establishing new state-of-the-art BLI scores for many language pairs. We also conduct a series of in-depth analyses and ablation studies, providing more insights on BLI with (m)LLMs, also along with their limitations.
翻訳日:2023-10-25 04:07:55 公開日:2023-10-21
# 公平な分類のための新しい情報理論的客観表現

A Novel Information-Theoretic Objective to Disentangle Representations for Fair Classification ( http://arxiv.org/abs/2310.13990v1 )

ライセンス: Link先を確認
Pierre Colombo, Nathan Noiry, Guillaume Staerman, Pablo Piantanida(参考訳) 深層学習の追求する目的の1つは、複数の状況の観察から現実の抽象表現を学習するツールを提供することである。 より正確には、非絡み合った表現を抽出したいと考える。 (i)低次元,低次元 (ii)コンポーネントが独立であり、検討中のオブジェクトの本質を捉える概念に対応している(locatello et al., 2019b)。 この野心的なプロジェクトへの1つのステップは、事前に定義された(センシティブな)属性、例えば作家の性別や年齢に関して、絡み合った表現を学ぶことである。 このような絡み合った表現に対する主な応用の1つは、公正な分類である。 既存の手法では、クロスエントロピー目標とジエンタングルメント正規化器からなる損失で訓練されたニューラルネットワークの最終層を抽出する。 本研究では,この問題に対する情報理論的視点を取り入れ,正規化要因の新たなファミリーを動機付け,潜在表現と対象に適応する感性属性の相互情報を最小化する。 結果として生じる損失は、クリニックと呼ばれるパラメータフリーであり、トレーニングが容易で高速である。 クリニック損失は、2kニューラルネットワークのトレーニングによる広範囲な数値実験を通じて研究される。 提案手法は,従来の手法よりも高精度な異方性/正確性トレードオフを提供し,異方性損失によるトレーニングよりも一般化できることを実証する。

One of the pursued objectives of deep learning is to provide tools that learn abstract representations of reality from the observation of multiple contextual situations. More precisely, one wishes to extract disentangled representations which are (i) low dimensional and (ii) whose components are independent and correspond to concepts capturing the essence of the objects under consideration (Locatello et al., 2019b). One step towards this ambitious project consists in learning disentangled representations with respect to a predefined (sensitive) attribute, e.g., the gender or age of the writer. Perhaps one of the main application for such disentangled representations is fair classification. Existing methods extract the last layer of a neural network trained with a loss that is composed of a cross-entropy objective and a disentanglement regularizer. In this work, we adopt an information-theoretic view of this problem which motivates a novel family of regularizers that minimizes the mutual information between the latent representation and the sensitive attribute conditional to the target. The resulting set of losses, called CLINIC, is parameter free and thus, it is easier and faster to train. CLINIC losses are studied through extensive numerical experiments by training over 2k neural networks. We demonstrate that our methods offer a better disentanglement/accuracy trade-off than previous techniques, and generalize better than training with cross-entropy loss solely provided that the disentanglement task is not too constraining.
翻訳日:2023-10-25 04:07:31 公開日:2023-10-21
# GEMBA-MQM:GPT-4による翻訳誤差検出

GEMBA-MQM: Detecting Translation Quality Error Spans with GPT-4 ( http://arxiv.org/abs/2310.13988v1 )

ライセンス: Link先を確認
Tom Kocmi and Christian Federmann(参考訳) 本稿では,人間の参照翻訳を必要とせず,特に品質推定設定のために,翻訳品質エラーを検出するgptに基づく評価指標であるgemba-mqmについて述べる。 大きな言語モデル(LLM)のパワーに基づいて、GEMBA-MQMは固定された3ショットプロンプト技術を採用し、GPT-4モデルをクエリしてエラー品質の幅を示す。 従来の手法と比較して,本手法は言語に依存しないプロンプトを持つため,手動で新しい言語を準備する必要がなくなる。 予備的な結果は,GEMBA-MQMがシステムランキングの最先端の精度を実現していることを示しているが,学術研究で使用する場合,プロプライエタリなブラックボックスGPTモデルに依存しているため,他の手法よりも改善されていることを示すために注意が必要である。

This paper introduces GEMBA-MQM, a GPT-based evaluation metric designed to detect translation quality errors, specifically for the quality estimation setting without the need for human reference translations. Based on the power of large language models (LLM), GEMBA-MQM employs a fixed three-shot prompting technique, querying the GPT-4 model to mark error quality spans. Compared to previous works, our method has language-agnostic prompts, thus avoiding the need for manual prompt preparation for new languages. While preliminary results indicate that GEMBA-MQM achieves state-of-the-art accuracy for system ranking, we advise caution when using it in academic works to demonstrate improvements over other methods due to its dependence on the proprietary, black-box GPT model.
翻訳日:2023-10-25 04:07:07 公開日:2023-10-21
# HateRephrase:大規模言語モデルを用いたオンライン投稿におけるHate IntensityのゼロおよびFew-Shot削減

HateRephrase: Zero- and Few-Shot Reduction of Hate Intensity in Online Posts using Large Language Models ( http://arxiv.org/abs/2310.13985v1 )

ライセンス: Link先を確認
Vibhor Agarwal, Yu Chen, Nishanth Sastry(参考訳) 今日のデジタル時代には憎しみの言葉が広まりつつある。 ヘイトスピーチを検知したり、ヘイトフルな見解に対抗するためにカウンタースピーチを生成する研究が盛んに行われているが、ヘイトスピーチによる潜在的有害な社会的な結果を完全に排除することはできない。 本稿では,ポスト作成前のヘイトスピーチ内容の表現を,比較的シンプルかつ効果的に提案する手法について検討する。 大規模言語モデル(LLM)は,BART-Detoxのような最先端のベースラインよりも優れていることを示す。 我々は,LLaMA-1,LLaMA-2チャット,Vicuna,OpenAIのGPT-3.5などのオープンソースLLMに対して,タスク記述やヘイト定義,数発のデモ,チェーンオブ思想に基づく4つのプロンプトを開発した。 本稿では,生成したテキストの有効性を計測し,生成したテキストがヘイト強度を低減し,原文の意味意味を劇的に変えることなく,様々な評価指標を提案する。 数発のデモによるLCMは、オリジナルのテキストと似た意味を持つ許容可能な憎悪表現文を生成するのに最適であることがわかった。 全体として、GPT-3.5は、あらゆる種類のプロンプトに対して、ベースラインモデルとオープンソースモデルよりも優れています。 また, 人為的な評価を行い, GPT-3.5 による表現は, データセット中の人為的な接地的表現よりも優れていた。 また, LLMがなぜこの課題に満足して機能するのかを詳細に検討し, ギャップを理解するために故障解析を行う。

Hate speech has become pervasive in today's digital age. Although there has been considerable research to detect hate speech or generate counter speech to combat hateful views, these approaches still cannot completely eliminate the potential harmful societal consequences of hate speech -- hate speech, even when detected, can often not be taken down or is often not taken down enough; and hate speech unfortunately spreads quickly, often much faster than any generated counter speech. This paper investigates a relatively new yet simple and effective approach of suggesting a rephrasing of potential hate speech content even before the post is made. We show that Large Language Models (LLMs) perform well on this task, outperforming state-of-the-art baselines such as BART-Detox. We develop 4 different prompts based on task description, hate definition, few-shot demonstrations and chain-of-thoughts for comprehensive experiments and conduct experiments on open-source LLMs such as LLaMA-1, LLaMA-2 chat, Vicuna as well as OpenAI's GPT-3.5. We propose various evaluation metrics to measure the efficacy of the generated text and ensure the generated text has reduced hate intensity without drastically changing the semantic meaning of the original text. We find that LLMs with a few-shot demonstrations prompt work the best in generating acceptable hate-rephrased text with semantic meaning similar to the original text. Overall, we find that GPT-3.5 outperforms the baseline and open-source models for all the different kinds of prompts. We also perform human evaluations and interestingly, find that the rephrasings generated by GPT-3.5 outperform even the human-generated ground-truth rephrasings in the dataset. We also conduct detailed ablation studies to investigate why LLMs work satisfactorily on this task and conduct a failure analysis to understand the gaps.
翻訳日:2023-10-25 04:06:49 公開日:2023-10-21
# 不均一なモバイルエッジデバイス上でのフェデレーション学習のための生成AIの探索

Filling the Missing: Exploring Generative AI for Enhanced Federated Learning over Heterogeneous Mobile Edge Devices ( http://arxiv.org/abs/2310.13981v1 )

ライセンス: Link先を確認
Peichun Li, Hanwen Zhang, Yuan Wu, Liping Qian, Rong Yu, Dusit Niyato, Xuemin (Sherman) Shen(参考訳) モバイルエッジネットワーク上での分散人工知能(AI)モデルのトレーニングは、エッジデバイスのデータとリソースの不均一性によって大きな課題に直面している。 前者はグローバルモデルの収束率を低下させ、後者は機器の資源利用効率を低下させる。 本稿では,局所データの欠落部分(fimi)を埋めるというアイデアを活用し,これらの課題に対処するために,生成型aiによる連合学習を提案する。 具体的には、FIMIは、効率的なFLトレーニングを確保しつつ、データ不均一性を効果的に軽減する、リソース対応のデータ拡張方法であると考えることができる。 まず,学習データ量と学習性能の関係を定量化する。 次に,FIMI最適化問題を学習性能制約を考慮したデバイス側全体のエネルギー消費を最小化する目的で検討する。 分解に基づく解析とクロスエントロピー探索法を利用して、各デバイスに適切なAI合成データと資源利用ポリシーを割り当てたソリューションを導出する。 実験の結果、FIMIはデバイス側エネルギーの最大50%を節約でき、既存の方法と比較して、対象のグローバルなテスト精度を達成できることがわかった。 一方、FIMIは非独立分布(非IID)データの下で、収束した大域的精度を大幅に向上させることができる。

Distributed Artificial Intelligence (AI) model training over mobile edge networks encounters significant challenges due to the data and resource heterogeneity of edge devices. The former hampers the convergence rate of the global model, while the latter diminishes the devices' resource utilization efficiency. In this paper, we propose a generative AI-empowered federated learning to address these challenges by leveraging the idea of FIlling the MIssing (FIMI) portion of local data. Specifically, FIMI can be considered as a resource-aware data augmentation method that effectively mitigates the data heterogeneity while ensuring efficient FL training. We first quantify the relationship between the training data amount and the learning performance. We then study the FIMI optimization problem with the objective of minimizing the device-side overall energy consumption subject to required learning performance constraints. The decomposition-based analysis and the cross-entropy searching method are leveraged to derive the solution, where each device is assigned suitable AI-synthesized data and resource utilization policy. Experiment results demonstrate that FIMI can save up to 50% of the device-side energy to achieve the target global test accuracy in comparison with the existing methods. Meanwhile, FIMI can significantly enhance the converged global accuracy under the non-independently-and-identically distribution (non-IID) data.
翻訳日:2023-10-25 04:06:15 公開日:2023-10-21
# 連続的不変リスク最小化

Continual Invariant Risk Minimization ( http://arxiv.org/abs/2310.13977v1 )

ライセンス: Link先を確認
Francesco Alesiani, Shujian Yu and Mathias Niepert(参考訳) 経験的リスク最小化は、学習モデルが不変な特徴表現をキャプチャしない場合、目に見えない環境での一般化の振る舞いを損なう可能性がある。 不変リスク最小化(IRM)は環境不変表現を発見するための最近の提案である。 IRM は Arjovsky et al. (2019) によって導入され、Ahuja et al. (2020) によって拡張された。 IRMは、すべての環境が同時に学習システムに利用できると仮定する。 本研究は,ITMの概念を環境が連続的に観察されるシナリオに一般化する。 連続学習用に設計されたものを含む既存のアプローチでは、連続的に提示された環境にまたがる不変な特徴やモデルを特定することができない。 irmを変分ベイズおよびバイレベルな枠組みで拡張し、連続的不変リスク最小化への一般的なアプローチを作成する。 また,乗算器の交互方向法(admm)の変種を用いて最適化問題を解決する戦略について述べる。 複数のデータセットと複数のシーケンシャル環境を用いて,提案手法が先行手法よりも優れているか,あるいは競合していることを示す。

Empirical risk minimization can lead to poor generalization behavior on unseen environments if the learned model does not capture invariant feature representations. Invariant risk minimization (IRM) is a recent proposal for discovering environment-invariant representations. IRM was introduced by Arjovsky et al. (2019) and extended by Ahuja et al. (2020). IRM assumes that all environments are available to the learning system at the same time. With this work, we generalize the concept of IRM to scenarios where environments are observed sequentially. We show that existing approaches, including those designed for continual learning, fail to identify the invariant features and models across sequentially presented environments. We extend IRM under a variational Bayesian and bilevel framework, creating a general approach to continual invariant risk minimization. We also describe a strategy to solve the optimization problems using a variant of the alternating direction method of multiplier (ADMM). We show empirically using multiple datasets and with multiple sequential environments that the proposed methods outperform or is competitive with prior approaches.
翻訳日:2023-10-25 04:05:51 公開日:2023-10-21
# Tree Prompting: 微調整なしの効率的なタスク適応

Tree Prompting: Efficient Task Adaptation without Fine-Tuning ( http://arxiv.org/abs/2310.14034v1 )

ライセンス: Link先を確認
John X. Morris, Chandan Singh, Alexander M. Rush, Jianfeng Gao, Yuntian Deng(参考訳) 言語モデル(LM)は、それらを新しいタスクに適用するための主要なインターフェースである。 しかし、小さいLMでは、グラデーションベースの微調整に比べて精度が低い。 Tree Promptingは、プロンプトの意思決定ツリーを構築するプロンプトのアプローチで、複数のLMコールをリンクしてタスクを解決する。 推定時に、この木を用いて前の呼び出しの結果を効率よくルーティングすることによりLMへの呼び出しを決定する。 分類データセットの実験により、Tree Promptingは競合するメソッドよりも精度が向上し、微調整と競合することが示された。 また、モデルの意思決定プロセスの検査を可能にする木プロンプトの変種についても示す。

Prompting language models (LMs) is the main interface for applying them to new tasks. However, for smaller LMs, prompting provides low accuracy compared to gradient-based finetuning. Tree Prompting is an approach to prompting which builds a decision tree of prompts, linking multiple LM calls together to solve a task. At inference time, each call to the LM is determined by efficiently routing the outcome of the previous call using the tree. Experiments on classification datasets show that Tree Prompting improves accuracy over competing methods and is competitive with fine-tuning. We also show that variants of Tree Prompting allow inspection of a model's decision-making process.
翻訳日:2023-10-25 04:00:06 公開日:2023-10-21
# 国家支援プロパガンダwebサイトの分析--新しいデータセットと言語研究

Analysing State-Backed Propaganda Websites: a New Dataset and Linguistic Study ( http://arxiv.org/abs/2310.14032v1 )

ライセンス: Link先を確認
Freddy Heppell, Kalina Bontcheva, Carolina Scarton(参考訳) 本稿では、国が支援する偽情報共有サイトであるrrn.worldとwaronfakes(waronfakes.com)を分析し、アラビア語、中国語、英語、フランス語、ドイツ語、スペイン語のコンテンツを公開する。 コンテンツ取得手法を記述し、結果の多言語データセット上で、クロスサイト非教師なしトピッククラスタリングを行う。 また,webページの翻訳や話題の時間的,言語的,時間的分析を行い,虚偽の出版日を持つ記事を調査した。 14,053項目の新たなデータセットを公開し、各言語バージョンに注釈を付け、リンクや画像などのメタデータを追加します。 NLPコミュニティにおける本論文の主な貢献は、偽情報ネットワークの研究を可能にする新しいデータセットと、偽情報検出のためのNLPツールのトレーニングである。

This paper analyses two hitherto unstudied sites sharing state-backed disinformation, Reliable Recent News (rrn.world) and WarOnFakes (waronfakes.com), which publish content in Arabic, Chinese, English, French, German, and Spanish. We describe our content acquisition methodology and perform cross-site unsupervised topic clustering on the resulting multilingual dataset. We also perform linguistic and temporal analysis of the web page translations and topics over time, and investigate articles with false publication dates. We make publicly available this new dataset of 14,053 articles, annotated with each language version, and additional metadata such as links and images. The main contribution of this paper for the NLP community is in the novel dataset which enables studies of disinformation networks, and the training of NLP tools for disinformation detection.
翻訳日:2023-10-25 03:59:53 公開日:2023-10-21
# LLM-Prop: テキスト記述から結晶の物性と電子特性を予測する

LLM-Prop: Predicting Physical And Electronic Properties Of Crystalline Solids From Their Text Descriptions ( http://arxiv.org/abs/2310.14029v1 )

ライセンス: Link先を確認
Andre Niyongabo Rubungo, Craig Arnold, Barry P. Rand, Adji Bousso Dieng(参考訳) 結晶特性の予測は、結晶設計プロセスにおいて重要な役割を果たす。 最近の結晶特性予測手法は、グラフニューラルネットワーク(gnns)を用いた結晶構造モデリングに焦点を当てている。 GNNは強力だが、結晶内の原子と分子の間の複雑な相互作用を正確にモデル化することは難しい。 驚くべきことに、結晶テキスト記述からの結晶特性の予測は、テキストデータが提供する豊富な情報と表現力にもかかわらず、未検討である。 主な理由の1つは、このタスクのための公開データがないことである。 本稿では,結晶構造とその特性を記述したテキストを含むベンチマークデータセット(TextEdge)を開発し,公開する。 次に,大規模言語モデル(llms)の汎用学習能力を活用して,テキスト記述から結晶の物理的および電子的特性を予測する手法であるllm-propを提案する。 llm-propは、現在のgnnベースの結晶特性予測装置よりもバンドギャップ予測で約4%、バンドギャップが直接的か間接的かの分類で3%、単位セル容積予測で66%上回る。 LLM-Propは3倍のパラメータを持つにもかかわらず、ドメイン固有の事前訓練されたBERTモデルであるMatBERTよりも優れている。 実験結果から,gnnが空間群対称性やワイクホフサイトに関する情報を取り込み,正確な結晶特性の予測ができないことがわかった。

The prediction of crystal properties plays a crucial role in the crystal design process. Current methods for predicting crystal properties focus on modeling crystal structures using graph neural networks (GNNs). Although GNNs are powerful, accurately modeling the complex interactions between atoms and molecules within a crystal remains a challenge. Surprisingly, predicting crystal properties from crystal text descriptions is understudied, despite the rich information and expressiveness that text data offer. One of the main reasons is the lack of publicly available data for this task. In this paper, we develop and make public a benchmark dataset (called TextEdge) that contains text descriptions of crystal structures with their properties. We then propose LLM-Prop, a method that leverages the general-purpose learning capabilities of large language models (LLMs) to predict the physical and electronic properties of crystals from their text descriptions. LLM-Prop outperforms the current state-of-the-art GNN-based crystal property predictor by about 4% in predicting band gap, 3% in classifying whether the band gap is direct or indirect, and 66% in predicting unit cell volume. LLM-Prop also outperforms a finetuned MatBERT, a domain-specific pre-trained BERT model, despite having 3 times fewer parameters. Our empirical results may highlight the current inability of GNNs to capture information pertaining to space group symmetry and Wyckoff sites for accurate crystal property prediction.
翻訳日:2023-10-25 03:59:36 公開日:2023-10-21
# GASCOM:オンライン会話理解のためのグラフベースの注意意味文脈モデリング

GASCOM: Graph-based Attentive Semantic Context Modeling for Online Conversation Understanding ( http://arxiv.org/abs/2310.14028v1 )

ライセンス: Link先を確認
Vibhor Agarwal, Yu Chen, Nishanth Sastry(参考訳) オンライン会話理解は、多くの有用な応用(ヘイトスピーチ検出など)を持つ重要なNLP問題である。 しかし、オンラインの会話は通常、一連の投稿とそれらの投稿への返信に展開され、個々の投稿がツリーの上から意味的文脈を参照するツリー構造を形成する。 このようなセマンティックな相互参照は、1つのポスト自体を理解するのを難しくするが、会話ツリー全体をスケールすることは困難であるだけでなく、単一の会話が複数の異なるスレッドやポイントを持つ可能性があるため誤解を招くこともある。 本稿では,オンライン会話理解のためのグラフベースの注意文意味テキストモデリング(GASCOM)フレームワークを提案する。 具体的には、オンライン会話のグラフ構造と個々の投稿の意味情報の両方を利用して、会話全体から関連するコンテキストノードを取得する2つの新しいアルゴリズムを設計する。 さらに、異なる選択された文脈発話から異なるトークンに異なる注意を払うためのトークンレベルのマルチヘッドグラフアテンション機構を設計し、きめ細かい会話コンテキストモデリングを行う。 この意味的会話的文脈を用いて, 極性予測とヘイトスピーチ検出という2つのよく検討された問題を再検討した。 提案手法は両タスクの最先端手法を著しく上回り,極性予測ではマクロF1スコアが4.5%,ヘイトスピーチ検出では5%向上した。 GASCOMコンテキスト重みは解釈可能性を高める。

Online conversation understanding is an important yet challenging NLP problem which has many useful applications (e.g., hate speech detection). However, online conversations typically unfold over a series of posts and replies to those posts, forming a tree structure within which individual posts may refer to semantic context from higher up the tree. Such semantic cross-referencing makes it difficult to understand a single post by itself; yet considering the entire conversation tree is not only difficult to scale but can also be misleading as a single conversation may have several distinct threads or points, not all of which are relevant to the post being considered. In this paper, we propose a Graph-based Attentive Semantic COntext Modeling (GASCOM) framework for online conversation understanding. Specifically, we design two novel algorithms that utilise both the graph structure of the online conversation as well as the semantic information from individual posts for retrieving relevant context nodes from the whole conversation. We further design a token-level multi-head graph attention mechanism to pay different attentions to different tokens from different selected context utterances for fine-grained conversation context modeling. Using this semantic conversational context, we re-examine two well-studied problems: polarity prediction and hate speech detection. Our proposed framework significantly outperforms state-of-the-art methods on both tasks, improving macro-F1 scores by 4.5% for polarity prediction and by 5% for hate speech detection. The GASCOM context weights also enhance interpretability.
翻訳日:2023-10-25 03:59:08 公開日:2023-10-21
# カシミール効果は横電気エバネッセント波のドローモデルを無効にする

Casimir Effect Invalidates the Drude Model for Transverse Electric Evanescent Waves ( http://arxiv.org/abs/2310.14026v1 )

ライセンス: Link先を確認
Galina L. Klimchitskaya and Vladimir M. Mostepanenko(参考訳) 2つの金属板間のカシミール圧力を考察し、伝播波とエバネッセント波および電磁界の横磁極と横電偏波によって決定される4つの寄与を計算した。 プレート間分離の範囲は、ほぼ全ての圧力が導電電子の電磁応答に由来すると考えられている。 カシミール物理学において、この反応は、測定データとの矛盾をもたらす散逸ドロードモデルまたは実験的に一貫性があるが散逸のないプラズマモデルによって記述される。 その結果, 伝播波とエバネッセント波の両方によるカシミール圧力に対する全横磁力と, 伝播波のみによる横電力は, ドローモデルによって計算され, プラズマモデルを用いて得られた対応する結果とよく相関することがわかった。 結論は, ドリュードモデルを用いて得られた理論予測とカシミール力の精度測定との相違は, カシミール力自体の散逸によるものではなく, このモデルによる低周波電気的エバネッセント波に対する金属の応答の誤った記述から生じるものである。 ドリュート模型は、横方向の電気エバネッセント波の範囲で実験的な証拠を持たないことが示され、上記の結論はすべての利用可能な情報と一致している。 古典的電磁力学の枠組みで提案された横波の電気的エバネッセント波に対するドルーデモデルの代替実験について述べる。

We consider the Casimir pressure between two metallic plates and calculate the four contributions to it determined by the propagating and evanescent waves and by the transverse magnetic and transverse electric polarizations of the electromagnetic field. The range of interplate separations is considered where nearly the whole pressure has its origin in the electromagnetic response of conduction electrons. In the Casimir physics, this response is described either by the dissipative Drude model resulting in contradictions with the measurement data or by the experimentally consistent but dissipationless plasma model. It is shown that the total transverse magnetic contribution to the Casimir pressure due to both the propagating and evanescent waves and the transverse electric contribution due to only the propagating waves, computed by means of the Drude model, correlate well with the corresponding results obtained using the plasma model. The conclusion is made that a disagreement between the theoretical predictions obtained using the Drude model and precision measurements of the Casimir force is not caused by the account of dissipation in itself, but arises from an incorrect description of the response of metals to the low-frequency transverse electric evanescent waves by this model. It is demonstrated that the Drude model has no supporting experimental evidence in the range of transverse electric evanescent waves, so that the above conclusion is consistent with all available information. The alternative test of the Drude model for the transverse electric evanescent waves suggested in the framework of classical electrodynamics is discussed.
翻訳日:2023-10-25 03:58:44 公開日:2023-10-21
# 視覚単語の曖昧さ解消のための大規模言語モデルとマルチモーダル検索

Large Language Models and Multimodal Retrieval for Visual Word Sense Disambiguation ( http://arxiv.org/abs/2310.14025v1 )

ライセンス: Link先を確認
Anastasia Kritharoula, Maria Lymperaiou and Giorgos Stamou(参考訳) Visual Word Sense Disambiguation (VWSD) は、与えられたコンテキスト内で曖昧な単語の意味をよりよく表現する、一連の候補の間で画像を取得することを目的とした、新しい課題である。 本稿では,様々なアプローチを適用することで,この興味深い課題を明らかにするための大きな一歩を踏み出します。 VWSDは主にテキスト画像検索タスクであるため、マルチモーダル検索のための最新のトランスフォーマーベースの手法を検討する。 さらに,Large Language Models (LLMs) を知識ベースとして,与えられたフレーズの強化と,対象単語に関する曖昧さの解消に活用する。 また、VWSDをテキストからテキストへ変換し、画像から画像への検索を行い、質問応答(QA)を行い、関連するモデルの能力について検討する。 llmsの暗黙の知識を活用するために,説明可能な回答生成のガイドを促すチェーン・オブ・マインド(cot)実験を行った。 さらに、異なるモジュールを結合し、競争力のあるランキング結果を達成するために、learn to rank(ltr)モデルをトレーニングします。 VWSDに関する大規模な実験は、将来の方向性を効果的に推進するための貴重な洞察を示している。

Visual Word Sense Disambiguation (VWSD) is a novel challenging task with the goal of retrieving an image among a set of candidates, which better represents the meaning of an ambiguous word within a given context. In this paper, we make a substantial step towards unveiling this interesting task by applying a varying set of approaches. Since VWSD is primarily a text-image retrieval task, we explore the latest transformer-based methods for multimodal retrieval. Additionally, we utilize Large Language Models (LLMs) as knowledge bases to enhance the given phrases and resolve ambiguity related to the target word. We also study VWSD as a unimodal problem by converting to text-to-text and image-to-image retrieval, as well as question-answering (QA), to fully explore the capabilities of relevant models. To tap into the implicit knowledge of LLMs, we experiment with Chain-of-Thought (CoT) prompting to guide explainable answer generation. On top of all, we train a learn to rank (LTR) model in order to combine our different modules, achieving competitive ranking results. Extensive experiments on VWSD demonstrate valuable insights to effectively drive future directions.
翻訳日:2023-10-25 03:58:17 公開日:2023-10-21
# 一元系フェルミガス中の擬ギャップの観測と定量化

Observation and quantification of pseudogap in unitary Fermi gases ( http://arxiv.org/abs/2310.14024v1 )

ライセンス: Link先を確認
Xi Li, Shuai Wang, Xiang Luo, Yu-Yang Zhou, Ke Xie, Hong-Chi Shen, Yu-Zhao Nie, Qijin Chen, Hui Hu, Yu-Ao Chen, Xing-Can Yao and Jian-Wei Pan(参考訳) 擬ギャップの性質は、強い相互作用を持つ超伝導と超流動の心にある。 既知のペアリング相互作用により、一元性フェルミガスは、多体対から擬ギャップが生じるかどうかを検証する理想的なテストベッドを提供する。 本稿では, リチウム6原子の均一一元系フェルミガス中における長時間の対ゆらぎ駆動擬似ギャップの観測を, 最終状態効果の深刻な影響を伴わずに, 運動量分解マイクロ波分光法によるスペクトル関数の精密測定により行った。 超流動遷移の上に大きな擬似ギャップがある。 逆対寿命は熱的に活性化される指数的挙動を示し、顕微鏡的な仮想対の破れと組換え機構を明らかにする。 得られた大きなT-非依存の単一粒子散乱速度は、プランク限界のセットと同等である。 強い相互作用を持つフェルミガスの擬似ギャップを定量的に解析し,超流動前駆体としてのプリフォームペアリングの役割を強調した。

The nature of pseudogap lies at the heart of strongly-interacting superconductivity and superfluidity. With known pairing interactions, unitary Fermi gases provide an ideal testbed to verify whether a pseudogap can arise from many-body pairing. Here we report the observation of the long-sought pair-fluctuation-driven pseudogap in homogeneous unitary Fermi gases of lithium-6 atoms, by precisely measuring the spectral function through momentum-resolved microwave spectroscopy without the serious effects of final-state effect. We find a large pseudogap above the superfluid transition. The inverse pair lifetime exhibits a thermally-activated exponential behavior, uncovering the microscopic virtual pair breaking and recombination mechanism. The obtained large, T-independent single-particle scattering rate is comparable with that set by the Planckian limit. Our findings quantitatively characterize the pseudogap in strongly-interacting Fermi gases, highlighting the role of preformed pairing as a precursor to superfluidity.
翻訳日:2023-10-25 03:57:55 公開日:2023-10-21
# 1回だけ凝縮する: 凝縮データセットを刈り取るための2つのルール

You Only Condense Once: Two Rules for Pruning Condensed Datasets ( http://arxiv.org/abs/2310.14019v1 )

ライセンス: Link先を確認
Yang He, Lingao Xiao, Joey Tianyi Zhou(参考訳) データセットの凝縮は、特にオンデバイスシナリオにおいて、トレーニングデータセットのサイズを小さくすることで、トレーニング効率を向上させる重要なツールである。 しかし、これらのシナリオには2つの大きな課題があります。 1)デバイス上で利用可能な様々な計算資源は、予め定義された凝縮データセットとは異なるデータセットサイズを必要とする。 2) 限られた計算資源は、しばしば追加の凝縮過程の実行を妨げている。 これらの制限を克服するために、You Only Condense Once (YOCO)を紹介します。 1つの凝縮データセットに加えて、YOCOは2つの恥ずかしい単純なデータセットプルーニングルールである低LBPEスコアとバランスドコンストラクションを備えた、より小さな縮合データセットを生成する。 YOCOには2つの大きな利点がある。 1)データセットを柔軟にリサイズして様々な計算制約に適合させることができる。 2) 計算的に禁止される余分な凝縮プロセスは不要である。 実験では、ConvNet、ResNet、DenseNet、CIFAR-10、CIFAR-100、ImageNetなどのデータセットについて実験を行った。 例えば、我々の YOCO は CIFAR-10 上で 10 Images Per Class (IPC) と 6.98-8.89% と 6.31-23.92% の精度向上を達成した。 コードはhttps://github.com/he-y/you-only-condense-once.com/で入手できる。

Dataset condensation is a crucial tool for enhancing training efficiency by reducing the size of the training dataset, particularly in on-device scenarios. However, these scenarios have two significant challenges: 1) the varying computational resources available on the devices require a dataset size different from the pre-defined condensed dataset, and 2) the limited computational resources often preclude the possibility of conducting additional condensation processes. We introduce You Only Condense Once (YOCO) to overcome these limitations. On top of one condensed dataset, YOCO produces smaller condensed datasets with two embarrassingly simple dataset pruning rules: Low LBPE Score and Balanced Construction. YOCO offers two key advantages: 1) it can flexibly resize the dataset to fit varying computational constraints, and 2) it eliminates the need for extra condensation processes, which can be computationally prohibitive. Experiments validate our findings on networks including ConvNet, ResNet and DenseNet, and datasets including CIFAR-10, CIFAR-100 and ImageNet. For example, our YOCO surpassed various dataset condensation and dataset pruning methods on CIFAR-10 with ten Images Per Class (IPC), achieving 6.98-8.89% and 6.31-23.92% accuracy gains, respectively. The code is available at: https://github.com/he-y/you-only-condense-once.
翻訳日:2023-10-25 03:57:37 公開日:2023-10-21
# 対照的に、医療用時系列の階層的コントラストフレームワーク

Contrast Everything: A Hierarchical Contrastive Framework for Medical Time-Series ( http://arxiv.org/abs/2310.14017v1 )

ライセンス: Link先を確認
Yihe Wang, Yu Han, Haishuai Wang, Xiang Zhang(参考訳) コントラスト表現学習は、労働集約的、ドメイン特化的、希少な専門家アノテーションへの依存を軽減するため、医療時系列分析において重要である。 しかし、既存のコントラスト学習手法は主に1つのデータレベルに焦点を当てており、医療時系列の複雑な性質を完全に活用できない。 この問題に対処するために,医療時系列におけるデータコンピテンシーを生かした,革新的な階層型フレームワークCOMETを提案する。 我々の綿密に設計されたモデルは、観察、サンプル、トライアル、患者レベルという4つの潜在的なレベルからデータ一貫性を体系的にキャプチャする。 複数のレベルで対照的な損失を発生させることで、包括的なデータの一貫性を保ち、情報利用を自己管理的に最大化する効果的な表現を学習することができる。 患者に依存しない環境で実験を行う。 心筋梗塞の心電図信号やアルツハイマー病やパーキンソン病の脳波信号を含む3種類のデータセットを用いて6つの基準値と比較した。 その結果、COMETはすべてのベースラインを一貫して上回り、特に10%と1%のラベル付きデータセットで設定されている。 これらの結果は,医療時系列におけるコントラスト表現学習技術の進歩における我々の枠組みの意義を裏付けるものである。 ソースコードはhttps://github.com/DL4mHealth/COMETで入手できる。

Contrastive representation learning is crucial in medical time series analysis as it alleviates dependency on labor-intensive, domain-specific, and scarce expert annotations. However, existing contrastive learning methods primarily focus on one single data level, which fails to fully exploit the intricate nature of medical time series. To address this issue, we present COMET, an innovative hierarchical framework that leverages data consistencies at all inherent levels in medical time series. Our meticulously designed model systematically captures data consistency from four potential levels: observation, sample, trial, and patient levels. By developing contrastive loss at multiple levels, we can learn effective representations that preserve comprehensive data consistency, maximizing information utilization in a self-supervised manner. We conduct experiments in the challenging patient-independent setting. We compare COMET against six baselines using three diverse datasets, which include ECG signals for myocardial infarction and EEG signals for Alzheimer's and Parkinson's diseases. The results demonstrate that COMET consistently outperforms all baselines, particularly in setup with 10% and 1% labeled data fractions across all datasets. These results underscore the significant impact of our framework in advancing contrastive representation learning techniques for medical time series. The source code is available at https://github.com/DL4mHealth/COMET.
翻訳日:2023-10-25 03:57:15 公開日:2023-10-21
# 一つは、効率的なDRLのための単一ネットワーク内の様々な視点

One is More: Diverse Perspectives within a Single Network for Efficient DRL ( http://arxiv.org/abs/2310.14009v1 )

ライセンス: Link先を確認
Yiqin Tan, Ling Pan, Longbo Huang(参考訳) 深層強化学習は、価値関数とポリシーの近似にディープニューラルネットワークを活用することで、様々な領域で顕著なパフォーマンスを実現している。 しかし、ニューラルネットワークを使って値関数やポリシー関数を近似し、サンプル効率の低下や過度な適合といった課題に直面している。 本稿では,単一ネットワーク内で複数のサブネットワークを利用する新しい学習パラダイムであるOMNetを紹介し,多様な出力を効率的に提供する。 我々はomnetで初期化、トレーニング、サンプリングを含む体系的なパイプラインを提供する。 OMNetは、最小限の追加オーバーヘッドで、様々な深層強化学習アルゴリズムに容易に適用できる。 MuJoCoベンチマークで実施した総合評価の結果から,OMNetが性能と計算コストの効果的なバランスをとる能力が示された。

Deep reinforcement learning has achieved remarkable performance in various domains by leveraging deep neural networks for approximating value functions and policies. However, using neural networks to approximate value functions or policy functions still faces challenges, including low sample efficiency and overfitting. In this paper, we introduce OMNet, a novel learning paradigm utilizing multiple subnetworks within a single network, offering diverse outputs efficiently. We provide a systematic pipeline, including initialization, training, and sampling with OMNet. OMNet can be easily applied to various deep reinforcement learning algorithms with minimal additional overhead. Through comprehensive evaluations conducted on MuJoCo benchmark, our findings highlight OMNet's ability to strike an effective balance between performance and computational cost.
翻訳日:2023-10-25 03:56:55 公開日:2023-10-21
# 移動ロボットを用いた小売店舗における自動補正のための概念ベース異常検出

Concept-based Anomaly Detection in Retail Stores for Automatic Correction using Mobile Robots ( http://arxiv.org/abs/2310.14063v1 )

ライセンス: Link先を確認
Aditya Kapoor, Vartika Sengar, Nijil George, Vighnesh Vatsal, Jayavardhana Gubbi, Balamuralidhar P and Arpan Pal(参考訳) 在庫の追跡と品物の配置変更は、小売業環境において最も労働集約的な作業である。 これらのタスクに視覚ベースのテクニックを使用する試みはいくつかあるが、それらは主に、堅牢性とスケーラビリティに欠けるテクニックである、異常の検出に計画図のコンプライアンスを使用する。 さらに、既存のシステムは人間の介入に頼って検出後の修正行動を行う。 本稿では,視覚変換器(ViT)を用いた概念に基づく異常検出手法であるCo-ADを提案する。 自動エンコーダアーキテクチャを使用し、次に潜伏空間で異常検出を行う。 co-ad は rp2k データセットから引き出された小売オブジェクトの異常検出画像セットで 89.90% のピーク成功率を持つが、標準 vit オートエンコーダの最高性能ベースラインでは 80.81% である。 実用性を示すために,Co-ADでフラグ付けされた異常を自律的に修正するロボット移動操作パイプラインについて述べる。 この研究は最終的に、店舗経営における人間による介入を減らす自律的な移動ロボットソリューションの開発を目標としている。

Tracking of inventory and rearrangement of misplaced items are some of the most labor-intensive tasks in a retail environment. While there have been attempts at using vision-based techniques for these tasks, they mostly use planogram compliance for detection of any anomalies, a technique that has been found lacking in robustness and scalability. Moreover, existing systems rely on human intervention to perform corrective actions after detection. In this paper, we present Co-AD, a Concept-based Anomaly Detection approach using a Vision Transformer (ViT) that is able to flag misplaced objects without using a prior knowledge base such as a planogram. It uses an auto-encoder architecture followed by outlier detection in the latent space. Co-AD has a peak success rate of 89.90% on anomaly detection image sets of retail objects drawn from the RP2K dataset, compared to 80.81% on the best-performing baseline of a standard ViT auto-encoder. To demonstrate its utility, we describe a robotic mobile manipulation pipeline to autonomously correct the anomalies flagged by Co-AD. This work is ultimately aimed towards developing autonomous mobile robot solutions that reduce the need for human intervention in retail store management.
翻訳日:2023-10-25 02:14:19 公開日:2023-10-21
# 平衡モデルのニューラルタンジェントカーネルについて

On the Neural Tangent Kernel of Equilibrium Models ( http://arxiv.org/abs/2310.14062v1 )

ライセンス: Link先を確認
Zhili Feng and J.Zico Kolter(参考訳) 本研究は,重み付きネットワークの無限大極限をルートフィングによって直接計算する,実用的‘無限大’アーキテクチャであるdeq(deep equilibrium)モデルの神経接核(neural tangent kernel, ntk)について研究する。 完全連結ニューラルネットワークのntkは、その幅と深さが同時に無限大になりがちであるが、逆にdeqモデルは、その幅と深さが穏やかな条件下で同時に無限大となるにもかかわらず、決定論的ntkを享受している。 さらに、この決定論的NTKはルートフィンディングによって効率的に見つけることができる。

This work studies the neural tangent kernel (NTK) of the deep equilibrium (DEQ) model, a practical ``infinite-depth'' architecture which directly computes the infinite-depth limit of a weight-tied network via root-finding. Even though the NTK of a fully-connected neural network can be stochastic if its width and depth both tend to infinity simultaneously, we show that contrarily a DEQ model still enjoys a deterministic NTK despite its width and depth going to infinity at the same time under mild conditions. Moreover, this deterministic NTK can be found efficiently via root-finding.
翻訳日:2023-10-25 02:13:59 公開日:2023-10-21
# 否定できないオファー? Amazon Book Recommendationsの強迫性の動向

An Offer you Cannot Refuse? Trends in the Coerciveness of Amazon Book Recommendations ( http://arxiv.org/abs/2310.14060v1 )

ライセンス: Link先を確認
Jonathan H. Rystr{\o}m(参考訳) レコメンダシステムはコンテンツを推薦する上で有用なツールであるが、ユーザの好みに影響を及ぼすこともできる。 この影響に対する社会学的理論の1つは、企業がユーザーの好みに影響を与え、より予測しやすくなり、選好を変えるのを難しくすることで利益が上がるというものである。 本稿では,その理論を実証的に検証する。 私たちは、1998年から2018年にかけてAmazon Book Ratingsの大規模なデータセットを分析するために、ユーザが好みを変更するのがいかに難しいかを示すメトリックである‘textit{Barrier-to-Exit}’を使用します。 Barrier-to-Exitで好みを変えたユーザーを対象に分析を行った。 時間とともにバリア・トゥ・エグジットの成長を評価するために,ユーザやカテゴリに対してランダムな相互効果を持つ線形混合効果モデルを開発した。 調査の結果,バリア・トゥ・エグジットは時間とともに著しく成長し,利用者の嗜好を変えることが困難になったことが示唆された。 しかし,これらの発見には,サンプルバイアスやバリア・トゥ・エグジットに関する構成的妥当性など,統計学的・方法論的な問題点がいくつか含まれていることに注意が必要である。 我々は,アプローチの強みと限界とその意味について論じる。 さらに,「好みを変えることの難しさ」のような複雑な社会技術的概念に対して,文脈に敏感で一般化可能な尺度を作成することの課題を強調した。 選好操作の潜在的な脅威を抑制するためには、商業システムと非商業システムを比較するためのさらなる措置が必要である。

Recommender systems can be a helpful tool for recommending content but they can also influence users' preferences. One sociological theory for this influence is that companies are incentivised to influence preferences to make users easier to predict and thus more profitable by making it harder to change preferences. This paper seeks to test that theory empirically. We use \textit{Barrier-to-Exit}, a metric for how difficult it is for users to change preferences, to analyse a large dataset of Amazon Book Ratings from 1998 to 2018. We focus the analysis on users who have changed preferences according to Barrier-to-Exit. To assess the growth of Barrier-to-Exit over time, we developed a linear mixed-effects model with crossed random effects for users and categories. Our findings indicate a highly significant growth of Barrier-to-Exit over time, suggesting that it has become more difficult for the analysed subset of users to change their preferences. However, it should be noted that these findings come with several statistical and methodological caveats including sample bias and construct validity issues related to Barrier-to-Exit. We discuss the strengths and limitations of our approach and its implications. Additionally, we highlight the challenges of creating context-sensitive and generalisable measures for complex socio-technical concepts such as "difficulty to change preferences." We conclude with a call for further research: to curb the potential threats of preference manipulation, we need more measures that allow us to compare commercial as well as non-commercial systems.
翻訳日:2023-10-25 02:13:46 公開日:2023-10-21
# 正確性を超えて: Identity Chainを用いたコード大言語モデルの自己整合性を評価する

Beyond Accuracy: Evaluating Self-Consistency of Code Large Language Models with IdentityChain ( http://arxiv.org/abs/2310.14053v1 )

ライセンス: Link先を確認
Marcus J. Min, Yangruibo Ding, Luca Buratti, Saurabh Pujar, Gail Kaiser, Suman Jana, Baishakhi Ray(参考訳) Code Large Language Models (Code LLMs)は、現実のアプリケーションにますます採用されているため、それらを評価することが重要である。 個々のタスクに対するコードLLMの一般的な精度は広く評価されているが、それらのタスク間の自己整合性は見過ごされている。 直感的には、信頼できるモデルは、自身のコードで自然言語仕様を生成し、自身の仕様のためにコードを生成する場合に自己一貫性を持つべきである。 自己整合性を維持することの失敗は、自然言語とプログラミング言語の基礎となる共有意味論の理解の欠如を示し、したがってモデルの信頼性を損なう。 本稿では、まず、コードLLMの自己整合性を正式に定義し、その上で、モデルの自己整合性と一般精度を効果的かつ効率的に評価するフレームワーク、IdentityChainを設計する。 我々は,11個のコードLLMを研究し,自己整合性を保たないことを示す。 さらに、IdentityChainをモデルデバッギングツールとして使用して、IdentityChainを使用して現在のモデルで認識されている3つの大きな弱点を示すことで、コードLLMの弱点を明らかにすることができることを示す。 私たちのコードはhttps://github.com/marcusm117/identitychainで利用可能です。

Code Large Language Models (Code LLMs) are being increasingly employed in real-life applications, so evaluating them is critical. While the general accuracy of Code LLMs on individual tasks has been extensively evaluated, their self-consistency across different tasks is overlooked. Intuitively, a trustworthy model should be self-consistent when generating natural language specifications for its own code and generating code for its own specifications. Failure to preserve self-consistency reveals a lack of understanding of the shared semantics underlying natural language and programming language, and therefore undermines the trustworthiness of a model. In this paper, we first formally define the self-consistency of Code LLMs and then design a framework, IdentityChain, which effectively and efficiently evaluates the self-consistency and general accuracy of a model at the same time. We study eleven Code LLMs and show that they fail to preserve self-consistency, which is indeed a distinct aspect from general accuracy. Furthermore, we show that IdentityChain can be used as a model debugging tool to expose weaknesses of Code LLMs by demonstrating three major weaknesses that we identify in current models using IdentityChain. Our code is available at https://github.com/marcusm117/IdentityChain.
翻訳日:2023-10-25 02:13:21 公開日:2023-10-21
# ニューラルマシン翻訳における事前学習のための単語センサによるコードスイッチング

Code-Switching with Word Senses for Pretraining in Neural Machine Translation ( http://arxiv.org/abs/2310.14050v1 )

ライセンス: Link先を確認
Vivek Iyer, Edoardo Barba, Alexandra Birch, Jeff Z. Pan, Roberto Navigli(参考訳) 語彙の曖昧さはニューラルマシン翻訳(NMT)において重要かつ広範囲にわたる課題であり、多文語を扱うのに苦労する多くの最先端(SOTA)NMTシステム(Campolungo et al., 2022)がある。 nmtプリトレーニングパラダイム(pan et al., 2021; iyer et al., 2023)も同様で、単語感覚はノージングステージで無視され、結果として得られたモデルによって継承される事前学習データにおいて有害な感覚バイアスに導かれる。 本稿では,多言語nmtモデルにおける知識ベースからの単語認識情報を活用したエンドツーエンド学習手法wsp-nmt(word sense pretraining for neural machine translation for neural machine translation)を提案する。 実験の結果,全体の翻訳品質が大幅に向上した。 そして, 各種課題データや資源難読化シナリオにスケールするアプローチの堅牢性を示し, そして最後に, DiBiMTの曖昧化ベンチマークにおいて, きめ細かな精度向上を報告した。 本研究は、nmtのための多言語事前学習における単語感覚情報と構造化知識の統合のメリットと課題について、興味深い新しい知見を与える。

Lexical ambiguity is a significant and pervasive challenge in Neural Machine Translation (NMT), with many state-of-the-art (SOTA) NMT systems struggling to handle polysemous words (Campolungo et al., 2022). The same holds for the NMT pretraining paradigm of denoising synthetic "code-switched" text (Pan et al., 2021; Iyer et al., 2023), where word senses are ignored in the noising stage -- leading to harmful sense biases in the pretraining data that are subsequently inherited by the resulting models. In this work, we introduce Word Sense Pretraining for Neural Machine Translation (WSP-NMT) - an end-to-end approach for pretraining multilingual NMT models leveraging word sense-specific information from Knowledge Bases. Our experiments show significant improvements in overall translation quality. Then, we show the robustness of our approach to scale to various challenging data and resource-scarce scenarios and, finally, report fine-grained accuracy improvements on the DiBiMT disambiguation benchmark. Our studies yield interesting and novel insights into the merits and challenges of integrating word sense information and structured knowledge in multilingual pretraining for NMT.
翻訳日:2023-10-25 02:12:56 公開日:2023-10-21
# MeaeQ: 効率的なクエリによるマウントモデル抽出攻撃

MeaeQ: Mount Model Extraction Attacks with Efficient Queries ( http://arxiv.org/abs/2310.14047v1 )

ライセンス: Link先を確認
Chengwei Dai, Minxuan Lv, Kun Li, Wei Zhou(参考訳) 自然言語処理(NLP)におけるモデル抽出攻撃について検討し、攻撃者はオープンなアプリケーションプログラミングインタフェース(API)に繰り返し問い合わせることで、被害者モデルを盗もうとする。 最近の研究は、限定的な予算設定に焦点をあて、公開データソースにランダムサンプリングまたはアクティブラーニングベースのサンプリング戦略を採用する。 しかし、これらの手法は、タスクの関連性やデータの多様性に欠ける選択されたクエリをもたらすことが多く、クエリコストの低い満足な結果を達成するには限界がある。 本稿では,これらの問題に対処するための単純かつ効果的な手法であるmeaeq(model extraction attack with efficient query)を提案する。 具体的には、まずゼロショットシーケンス推論分類器とAPIサービス情報を組み合わせて、問題領域固有のデータセットの代わりに、公開テキストコーパスからタスク関連データをフィルタリングする。 さらに,クラスタリングに基づくデータ削減手法を用いて,攻撃のクエリとして代表データを取得する。 4つのベンチマークデータセットで行った広範囲な実験により、meeeqはベースラインよりも被害者モデルと高い機能的類似性を達成でき、クエリは少ない。 私たちのコードはhttps://github.com/c-w-d/meaeqで利用可能です。

We study model extraction attacks in natural language processing (NLP) where attackers aim to steal victim models by repeatedly querying the open Application Programming Interfaces (APIs). Recent works focus on limited-query budget settings and adopt random sampling or active learning-based sampling strategies on publicly available, unannotated data sources. However, these methods often result in selected queries that lack task relevance and data diversity, leading to limited success in achieving satisfactory results with low query costs. In this paper, we propose MeaeQ (Model extraction attack with efficient Queries), a straightforward yet effective method to address these issues. Specifically, we initially utilize a zero-shot sequence inference classifier, combined with API service information, to filter task-relevant data from a public text corpus instead of a problem domain-specific dataset. Furthermore, we employ a clustering-based data reduction technique to obtain representative data as queries for the attack. Extensive experiments conducted on four benchmark datasets demonstrate that MeaeQ achieves higher functional similarity to the victim model than baselines while requiring fewer queries. Our code is available at https://github.com/C-W-D/MeaeQ.
翻訳日:2023-10-25 02:12:32 公開日:2023-10-21
# トレーニング画像導出物:精度の向上とユニバーサルロバストネス

Training Image Derivatives: Increased Accuracy and Universal Robustness ( http://arxiv.org/abs/2310.14045v1 )

ライセンス: Link先を確認
Vsevolod I. Avrutskiy(参考訳) デリバティブトレーニングは、ニューラルネットワークの精度を改善するためのよく知られた方法である。 フォワードパスでは、出力値だけでなく、それらの導関数も計算され、それらの対象導関数からの偏差は、勾配に基づくアルゴリズムによって重み付けに対して最小化されたコスト関数に含まれる。 これまでのところ、この方法は比較的低次元のタスクに実装されている。 本研究では,画像解析の問題にアプローチを適用する。 我々はその画像に基づいて立方体の頂点を再構築する作業を検討する。 立方体の6自由度に関する導関数を訓練することにより、ノイズレス入力の25倍の精度が得られる。 デリバティブはまた、2種類のネットワーク脆弱性の観点から現在理解されているロバストネス問題に関する重要な洞察を提供する。 第1の型は出力を劇的に変更する小さな摂動であり、第2の型はネットワークが誤って無視する実質的な画像変化である。 従来の訓練方法はトレードオフをもたらすため、現在は矛盾する目標とみなされている。 第1のタイプはネットワークの勾配を通して解析できるが、第2のタイプは、オラクル代替品である入力の人間による評価を必要とする。 手前のタスクでは、最寄りのオラクルを定義することができ、デリバティブの知識により、テイラー級数に拡張できる。 これにより、両方の脆弱性を統一する一階のロバストネス分析を実行し、いかなるトレードオフも排除するロバストトレーニングを実行し、正確性とロバスト性はネットワーク容量によってのみ制限される。

Derivative training is a well-known method to improve the accuracy of neural networks. In the forward pass, not only the output values are computed, but also their derivatives, and their deviations from the target derivatives are included in the cost function, which is minimized with respect to the weights by a gradient-based algorithm. So far, this method has been implemented for relatively low-dimensional tasks. In this study, we apply the approach to the problem of image analysis. We consider the task of reconstructing the vertices of a cube based on its image. By training the derivatives with respect to the 6 degrees of freedom of the cube, we obtain 25 times more accurate results for noiseless inputs. The derivatives also provide important insights into the robustness problem, which is currently understood in terms of two types of network vulnerabilities. The first type is small perturbations that dramatically change the output, and the second type is substantial image changes that the network erroneously ignores. They are currently considered as conflicting goals, since conventional training methods produce a trade-off. The first type can be analyzed via the gradient of the network, but the second type requires human evaluation of the inputs, which is an oracle substitute. For the task at hand, the nearest neighbor oracle can be defined, and the knowledge of derivatives allows it to be expanded into Taylor series. This allows to perform the first-order robustness analysis that unifies both types of vulnerabilities, and to implement robust training that eliminates any trade-offs, so that accuracy and robustness are limited only by network capacity.
翻訳日:2023-10-25 02:12:11 公開日:2023-10-21
# ベクトル量子離散拡散モデルを用いたコンストラクタスタイルのシンボリック音楽生成

Composer Style-specific Symbolic Music Generation Using Vector Quantized Discrete Diffusion Models ( http://arxiv.org/abs/2310.14044v1 )

ライセンス: Link先を確認
Jincheng Zhang, Jingjing Tang, Charalampos Saitis, Gy\"orgy Fazekas(参考訳) 創発的拡散確率モデル(DDPM)は、画像や音声合成などの連続データを用いた様々な生成タスクで達成された有望な結果により、ますます活用されつつある。 それでも拡散モデルの成功は、離散的な象徴音楽に完全には拡張されていない。 本稿では,ベクトル量子化変分オートエンコーダ(VQ-VAE)と,シンボリック音楽生成のための離散拡散モデルを組み合わせることを提案する。 訓練されたVQ-VAEは、学習されたコードブック内の特定のエントリに対応するインデックスのシーケンスとしてシンボル音楽を表現することができる。 その後、離散拡散モデルを用いてvq-vaeの離散潜在空間をモデル化する。 拡散モデルは、VQ-VAEの復号器を用いて記号音楽に復号されるコードブックインデックスからなる中間音楽列を生成するように訓練される。 その結果,72.36%の精度で所定の条件を満たす対象の作曲家スタイルでシンボリック音楽を生成することができた。

Emerging Denoising Diffusion Probabilistic Models (DDPM) have become increasingly utilised because of promising results they have achieved in diverse generative tasks with continuous data, such as image and sound synthesis. Nonetheless, the success of diffusion models has not been fully extended to discrete symbolic music. We propose to combine a vector quantized variational autoencoder (VQ-VAE) and discrete diffusion models for the generation of symbolic music with desired composer styles. The trained VQ-VAE can represent symbolic music as a sequence of indexes that correspond to specific entries in a learned codebook. Subsequently, a discrete diffusion model is used to model the VQ-VAE's discrete latent space. The diffusion model is trained to generate intermediate music sequences consisting of codebook indexes, which are then decoded to symbolic music using the VQ-VAE's decoder. The results demonstrate our model can generate symbolic music with target composer styles that meet the given conditions with a high accuracy of 72.36%.
翻訳日:2023-10-25 02:11:46 公開日:2023-10-21
# 感情制御によるシンボリック音楽生成のための高速拡散GANモデル

Fast Diffusion GAN Model for Symbolic Music Generation Controlled by Emotions ( http://arxiv.org/abs/2310.14040v1 )

ライセンス: Link先を確認
Jincheng Zhang, Gy\"orgy Fazekas, Charalampos Saitis(参考訳) 拡散モデルは、画像や音声合成のような連続データを含む幅広い生成タスクに対して有望な結果を示している。 しかし、この新たな生成モデルは離散データには適さないが、反復サンプリングプロセスは計算コストがかかるため、拡散モデルを用いて離散的シンボリック音楽を生成する方法はほとんど進歩していない。 本研究では,生成型逆ネットワークと組み合わせた拡散モデルを提案する。 (i)対象感情に対する生成制御であるアルゴリズム音楽生成における課題の1つを軽減し、 (ii)シンボリック音楽生成に適用される拡散モデルの遅いサンプリング欠点を緩和する。 まず、訓練された変分オートエンコーダを用いて、感情ラベル付きシンボリック音楽データセットの埋め込みを取得し、それらを拡散モデルのトレーニングに使用した。 以上の結果から,所望の感情を持つシンボリック音楽を生成するための拡散モデルの有効性が示された。 我々のモデルは数桁の計算コスト向上を実現し、記号音楽生成の最先端拡散モデルで要求されるステップが数千の順序にある間は、ただ4つの時間ステップで認知できる。

Diffusion models have shown promising results for a wide range of generative tasks with continuous data, such as image and audio synthesis. However, little progress has been made on using diffusion models to generate discrete symbolic music because this new class of generative models are not well suited for discrete data while its iterative sampling process is computationally expensive. In this work, we propose a diffusion model combined with a Generative Adversarial Network, aiming to (i) alleviate one of the remaining challenges in algorithmic music generation which is the control of generation towards a target emotion, and (ii) mitigate the slow sampling drawback of diffusion models applied to symbolic music generation. We first used a trained Variational Autoencoder to obtain embeddings of a symbolic music dataset with emotion labels and then used those to train a diffusion model. Our results demonstrate the successful control of our diffusion model to generate symbolic music with a desired emotion. Our model achieves several orders of magnitude improvement in computational cost, requiring merely four time steps to denoise while the steps required by current state-of-the-art diffusion models for symbolic music generation is in the order of thousands.
翻訳日:2023-10-25 02:11:30 公開日:2023-10-21
# ニューラルネットワークトレーニングにおける離散ドリフトと平滑性規則化について

On discretisation drift and smoothness regularisation in neural network training ( http://arxiv.org/abs/2310.14036v1 )

ライセンス: Link先を確認
Mihaela Claudia Rosca(参考訳) 数学的な最適化として現実の問題をキャストし、勾配に基づく最適化を用いてディープニューラルネットワークをトレーニングすることで最適化に取り組むディープラーニングのレシピは、間違いなく実りあるものであることが証明されている。 しかし、なぜディープラーニングが機能するのかの背景にある理解は、その実用的重要性を後押ししている。 我々は、最適化とモデル正規化に焦点をあてて、ディープラーニングの理解を改善するためのステップを作ることを目指している。 まず,最も一般的なディープラーニング最適化アルゴリズムに基づいて,離散時間アルゴリズムである勾配降下(gd)について検討する。 GDの力学を理解することは、離散化ドリフトの存在、GDとしばしば研究される連続時間的勾配流(NGF)との数値積分誤差によって妨げられている。 GDを研究できるツールキットに追加するために、離散化ドリフトを考慮した新しい連続時間フローを導出する。 NGFとは異なり、これらの新しいフローは、教師付き学習や2人のプレイヤーゲームで観察されるトレーニング不安定性など、GDの学習速度固有の振る舞いを記述するために使用することができる。 次に,新しい学習率スケジュールと追加のハイパーパラメータを必要としない正規化器を構築することにより,連続時間からの洞察を不安定なgdダイナミクスのための緩和戦略に翻訳する。 最適化と同様に、滑らかさの規則化は、教師付き学習と生成的モデリングで広く使われる深層学習の成功の柱である。 個々の重要性にもかかわらず、滑らかさの正則化と最適化の相互作用はまだ検討されていない。 複数の深層学習領域におけるスムーズネス正則化は最適化に影響を及ぼし、強化学習にスムーズネス正則化を取り入れることで、最適化手法への適応を用いて回復できる性能向上につながることが判明した。

The deep learning recipe of casting real-world problems as mathematical optimisation and tackling the optimisation by training deep neural networks using gradient-based optimisation has undoubtedly proven to be a fruitful one. The understanding behind why deep learning works, however, has lagged behind its practical significance. We aim to make steps towards an improved understanding of deep learning with a focus on optimisation and model regularisation. We start by investigating gradient descent (GD), a discrete-time algorithm at the basis of most popular deep learning optimisation algorithms. Understanding the dynamics of GD has been hindered by the presence of discretisation drift, the numerical integration error between GD and its often studied continuous-time counterpart, the negative gradient flow (NGF). To add to the toolkit available to study GD, we derive novel continuous-time flows that account for discretisation drift. Unlike the NGF, these new flows can be used to describe learning rate specific behaviours of GD, such as training instabilities observed in supervised learning and two-player games. We then translate insights from continuous time into mitigation strategies for unstable GD dynamics, by constructing novel learning rate schedules and regularisers that do not require additional hyperparameters. Like optimisation, smoothness regularisation is another pillar of deep learning's success with wide use in supervised learning and generative modelling. Despite their individual significance, the interactions between smoothness regularisation and optimisation have yet to be explored. We find that smoothness regularisation affects optimisation across multiple deep learning domains, and that incorporating smoothness regularisation in reinforcement learning leads to a performance boost that can be recovered using adaptions to optimisation methods.
翻訳日:2023-10-25 02:11:11 公開日:2023-10-21
# 大規模言語モデルを用いた物理スキルの学習

Learning Reward for Physical Skills using Large Language Model ( http://arxiv.org/abs/2310.14092v1 )

ライセンス: Link先を確認
Yuwei Zeng, Yiqing Xu(参考訳) 身体的スキルに対する報酬関数の学習は、幅広いスキル、状態と行動空間の高次元、ニュアンスされた感覚フィードバックのために困難である。 これらのタスクの複雑さは、専門家による実証データを取得するのにコストと時間を要する。 大規模言語モデル(LLM)は、これらの報酬関数を学習するのに役立つ貴重なタスク関連の知識を含んでいる。 しかし、LLMの報酬関数の直接適用には、数値的不安定性や環境フィードバックを組み込むことができないといった制限がある。 本研究では,環境フィードバックを用いてLCMからタスク知識を抽出し,物理的スキルに対する効率的な報酬関数を作成することを目的とする。 我々のアプローチは2つの要素からなる。 まず LLM を用いて報酬関数の特徴とパラメータ化を提案する。 次に,提案する報酬関数のパラメータを反復的自己調整プロセスを通じて更新する。 特に、このプロセスは、新たな観測結果に基づいて、LLMと学習報酬関数のランキングの不整合を最小化する。 3つの物理スキル学習タスクでテストし,設計選択に対する効果的な支援を実証し,本手法の有効性を検証した。

Learning reward functions for physical skills are challenging due to the vast spectrum of skills, the high-dimensionality of state and action space, and nuanced sensory feedback. The complexity of these tasks makes acquiring expert demonstration data both costly and time-consuming. Large Language Models (LLMs) contain valuable task-related knowledge that can aid in learning these reward functions. However, the direct application of LLMs for proposing reward functions has its limitations such as numerical instability and inability to incorporate the environment feedback. We aim to extract task knowledge from LLMs using environment feedback to create efficient reward functions for physical skills. Our approach consists of two components. We first use the LLM to propose features and parameterization of the reward function. Next, we update the parameters of this proposed reward function through an iterative self-alignment process. In particular, this process minimizes the ranking inconsistency between the LLM and our learned reward functions based on the new observations. We validated our method by testing it on three simulated physical skill learning tasks, demonstrating effective support for our design choices.
翻訳日:2023-10-25 02:06:26 公開日:2023-10-21
# MedEval: 言語モデル評価のためのマルチレベル、マルチタスク、マルチドメイン医療ベンチマーク

MedEval: A Multi-Level, Multi-Task, and Multi-Domain Medical Benchmark for Language Model Evaluation ( http://arxiv.org/abs/2310.14088v1 )

ライセンス: Link先を確認
Zexue He, Yu Wang, An Yan, Yao Liu, Eric Y. Chang, Amilcare Gentili, Julian McAuley, Chun-Nan Hsu(参考訳) 医療のためのデータセットのキュレーションは、専門家による人間のアノテーションを必要とするため、しばしば制限される。 本稿では,医療用言語モデルの開発を容易にするために,マルチレベル,マルチタスク,マルチドメイン医療ベンチマークであるMedEvalを提案する。 MedEvalは包括的で、いくつかの医療システムからのデータからなり、8つの検査モダリティから35の人体領域にまたがる。 22,779の文と21,228のレポートを収集し、複数のレベルで専門家のアノテーションを提供し、データの詳細な使用可能性を提供し、幅広いタスクをサポートする。 さらに,医療におけるドメイン適応ベースラインから,汎用的な最先端言語モデル(ChatGPTなど)まで,ゼロショットおよび微調整設定下で10の汎用言語モデルとドメイン固有言語モデルを体系的に評価した。 評価の結果,異なるタスクにまたがる2つのカテゴリーの言語モデルの有効性が明らかとなった。 本研究は,医療分野における大規模言語モデル導入の強みと限界に関する貴重な知見を提供し,その実践的応用と今後の進歩を示すものである。

Curated datasets for healthcare are often limited due to the need of human annotations from experts. In this paper, we present MedEval, a multi-level, multi-task, and multi-domain medical benchmark to facilitate the development of language models for healthcare. MedEval is comprehensive and consists of data from several healthcare systems and spans 35 human body regions from 8 examination modalities. With 22,779 collected sentences and 21,228 reports, we provide expert annotations at multiple levels, offering a granular potential usage of the data and supporting a wide range of tasks. Moreover, we systematically evaluated 10 generic and domain-specific language models under zero-shot and finetuning settings, from domain-adapted baselines in healthcare to general-purposed state-of-the-art large language models (e.g., ChatGPT). Our evaluations reveal varying effectiveness of the two categories of language models across different tasks, from which we notice the importance of instruction tuning for few-shot usage of large language models. Our investigation paves the way toward benchmarking language models for healthcare and provides valuable insights into the strengths and limitations of adopting large language models in medical domains, informing their practical applications and future advancements.
翻訳日:2023-10-25 02:06:12 公開日:2023-10-21
# カーネルに基づく最適輸送のためのセミスムースニュートン法

A Specialized Semismooth Newton Method for Kernel-Based Optimal Transport ( http://arxiv.org/abs/2310.14087v1 )

ライセンス: Link先を確認
Tianyi Lin, Marco Cuturi and Michael I. Jordan(参考訳) カーネルベース最適輸送(OT)推定器は、サンプルからOT問題に対処するための代替的機能的推定手順を提供する。 近年の研究では、これらの推定器は高次元~\citep{Vacher-2021-Dimension}の確率測度を比較する際に、プラグイン(線形プログラミングに基づく)OT推定器よりも統計的に効率的であることが示唆されている。 残念なことに、この統計的な利点は非常に高い計算コストがかかる: 計算は短い段階のインテリアポイント法 (SSIPM) に依存しており、これは実際は大きな反復数を持つため、これらの推定器はすぐに難解なw.r.t.サンプルサイズ$n$になる。 これらの推定器をより大きな$n$にスケールするために、カーネルベースのot問題の非スムース不動点モデルを提案し、特殊なセミスムースニュートン(ssn)法によって効率的に解くことができることを示した。 我々はSSN法がO(1/\sqrt{k})$の大域収束率と標準正規性条件下での局所二次収束率を達成することを証明した。 合成データと実データの両方でSSIPMよりもかなり高速であることを示す。

Kernel-based optimal transport (OT) estimators offer an alternative, functional estimation procedure to address OT problems from samples. Recent works suggest that these estimators are more statistically efficient than plug-in (linear programming-based) OT estimators when comparing probability measures in high-dimensions~\citep{Vacher-2021-Dimension}. Unfortunately, that statistical benefit comes at a very steep computational price: because their computation relies on the short-step interior-point method (SSIPM), which comes with a large iteration count in practice, these estimators quickly become intractable w.r.t. sample size $n$. To scale these estimators to larger $n$, we propose a nonsmooth fixed-point model for the kernel-based OT problem, and show that it can be efficiently solved via a specialized semismooth Newton (SSN) method: We show, exploring the problem's structure, that the per-iteration cost of performing one SSN step can be significantly reduced in practice. We prove that our SSN method achieves a global convergence rate of $O(1/\sqrt{k})$, and a local quadratic convergence rate under standard regularity conditions. We show substantial speedups over SSIPM on both synthetic and real datasets.
翻訳日:2023-10-25 02:05:49 公開日:2023-10-21
# 量子測定のエントロピー部分順序付け

Entropic partial orderings of quantum measurements ( http://arxiv.org/abs/2310.14086v1 )

ライセンス: Link先を確認
Adam Teixid\'o-Bonfill, Joseph Schindler, Dominik \v{S}afr\'anek(参考訳) 量子測度空間上の4つの部分順序(POVMや正の演算子値測度)について検討し、測定の粗さ/微細さの4つの概念を記述する。 これらは(1)古典的後処理、(2)測定された相対エントロピー、(3)観測エントロピー、(4)POVMの線形関係によって誘導される部分順序である。 順序付けは意味の階層を形成し、例えば後処理の関係は他の全てを意味する。 この階層は一般のPOVMでは厳密であり、4つの順序がすべて厳密に等価でないことを示す例を示す。 射影測定に制限され、すべて等価である。 最後に、観察エントロピー等式 $s_m = s_n$ (全$\rho$) が成り立つのは、$m \equiv n$ が後処理同値であることであり、最初の3つの順序が同一の同値類を誘導することを示している。

We investigate four partial orderings on the space of quantum measurements (i.e on POVMs or positive operator valued measures), describing four notions of coarse/fine-ness of measurement. These are the partial orderings induced by: (1) classical post-processing, (2) measured relative entropy, (3) observational entropy, and (4) linear relation of POVMs. The orderings form a hierarchy of implication, where e.g. post-processing relation implies all the others. We show that this hierarchy is strict for general POVMs, with examples showing that all four orderings are strictly inequivalent. Restricted to projective measurements, all are equivalent. Finally we show that observational entropy equality $S_M = S_N$ (for all $\rho$) holds if and only if $M \equiv N$ are post-processing equivalent, which shows that the first three orderings induce identical equivalence classes.
翻訳日:2023-10-25 02:05:26 公開日:2023-10-21
# グラデーションフィードバックを伴う強単調,exp-concaveゲームにおける適応的,二重最適no-regret学習

Adaptive, Doubly Optimal No-Regret Learning in Strongly Monotone and Exp-Concave Games with Gradient Feedback ( http://arxiv.org/abs/2310.14085v1 )

ライセンス: Link先を確認
Michael I. Jordan, Tianyi Lin and Zhengyuan Zhou(参考訳) オンライン勾配降下(OGD)は、強い凸性や単調性仮定の下では2倍に最適であることがよく知られており、(1)強凸コスト関数に対して$\Theta(\log T)$の最適後悔を達成し、(2)強単調ゲームのマルチエージェント設定において、OGDを用いて、一意的なナッシュ均衡に$\Theta(\frac{1}{T})$の最適な速度で、結合作用の最終的な収束を得る。 これらの有限時間保証はその利点を強調するが、OGDは強い凸性/単調性パラメータを知る必要があるという欠点がある。 本稿では,これらのパラメータの事前知識を必要としない完全適応型OGDアルゴリズムである \textsf{AdaOGD} を設計する。 単一エージェント設定では、このアルゴリズムは強い凸性の下で$O(\log^2(T))$ regretを達成し、ログ係数まで最適である。 さらに、各エージェントが強い単調ゲームで \textsf{adaogd} を雇うと、ジョイントアクションはラストイテレートな意味で、$o(\frac{\log^3 t}{t})$で一意なnash平衡に収束し、再びログファクターまで最適となる。 従来のnewsvendor問題の学習版では、売上の減少により(ノイズの多い)グラデーションフィードバックのみを観察できる。 その結果、シングルリテラー設定とマルチリテラー設定の両方において、最初の実現可能でほぼ最適なアルゴリズムが得られる。 さらに、オンラインニュートンステップ(ons)アルゴリズムを用いて、exp-concaveコスト関数とゲームをより一般的な設定に拡張した。

Online gradient descent (OGD) is well known to be doubly optimal under strong convexity or monotonicity assumptions: (1) in the single-agent setting, it achieves an optimal regret of $\Theta(\log T)$ for strongly convex cost functions; and (2) in the multi-agent setting of strongly monotone games, with each agent employing OGD, we obtain last-iterate convergence of the joint action to a unique Nash equilibrium at an optimal rate of $\Theta(\frac{1}{T})$. While these finite-time guarantees highlight its merits, OGD has the drawback that it requires knowing the strong convexity/monotonicity parameters. In this paper, we design a fully adaptive OGD algorithm, \textsf{AdaOGD}, that does not require a priori knowledge of these parameters. In the single-agent setting, our algorithm achieves $O(\log^2(T))$ regret under strong convexity, which is optimal up to a log factor. Further, if each agent employs \textsf{AdaOGD} in strongly monotone games, the joint action converges in a last-iterate sense to a unique Nash equilibrium at a rate of $O(\frac{\log^3 T}{T})$, again optimal up to log factors. We illustrate our algorithms in a learning version of the classical newsvendor problem, where due to lost sales, only (noisy) gradient feedback can be observed. Our results immediately yield the first feasible and near-optimal algorithm for both the single-retailer and multi-retailer settings. We also extend our results to the more general setting of exp-concave cost functions and games, using the online Newton step (ONS) algorithm.
翻訳日:2023-10-25 02:05:06 公開日:2023-10-21
# グラフニューラルネットワークと応用線形代数

Graph Neural Networks and Applied Linear Algebra ( http://arxiv.org/abs/2310.14084v1 )

ライセンス: Link先を確認
Nicholas S. Moore and Eric C. Cyr and Peter Ohm and Christopher M. Siefert and Raymond S. Tuminaro(参考訳) スパース行列計算は科学計算においてユビキタスである。 最近の科学機械学習への関心から、スパース行列計算がニューラルネットワーク(NN)をどのように活用できるかを問うのは当然である。 残念なことに、多層パーセプトロン(MLP)ニューラルネットワークは一般的にグラフ計算やスパース行列計算では自然ではない。 問題は、mlpが固定サイズの入力を必要とするのに対して、科学的な応用は一般に任意の次元と幅広い非零パターン(あるいは行列グラフ頂点相互接続)を持つスパース行列を生成する。 畳み込みNNは、任意のスパース行列(例えば、非構造的メッシュ上の離散偏微分方程式から生じるような)に対して、全ての頂点が隣り合う同じ数の近傍を持つ行列グラフに対処することができる。 グラフニューラルネットワーク(GNN)はスパース行列に適したアプローチである。 GNNは、可変サイズの入力データを操作するアグリゲーション関数(例えば和)を定義し、固定出力サイズのデータを生成して、MPPを適用することができる。 本研究の目的は,数値線形代数オーディエンスのためのGNNの導入である。 具体例は、GNNを用いてどれだけの共通線型代数タスクを達成できるかを示すものである。 本研究では,行列ベクトル積,補間,緩和法,結合強度測定などの計算核を用いた反復的手法に注目した。 我々のGNNの例には、パラメータをa-prioriで決定するケースと、パラメータを学習しなければならないケースが含まれています。 本稿の目的は、計算科学者が機械学習の概念をスパース行列に関連付けられた計算タスクにどのように適用できるかを理解することである。 この理解は、古典的なスパース線形代数タスクのデータ駆動拡張を刺激することが期待されている。

Sparse matrix computations are ubiquitous in scientific computing. With the recent interest in scientific machine learning, it is natural to ask how sparse matrix computations can leverage neural networks (NN). Unfortunately, multi-layer perceptron (MLP) neural networks are typically not natural for either graph or sparse matrix computations. The issue lies with the fact that MLPs require fixed-sized inputs while scientific applications generally generate sparse matrices with arbitrary dimensions and a wide range of nonzero patterns (or matrix graph vertex interconnections). While convolutional NNs could possibly address matrix graphs where all vertices have the same number of nearest neighbors, a more general approach is needed for arbitrary sparse matrices, e.g. arising from discretized partial differential equations on unstructured meshes. Graph neural networks (GNNs) are one approach suitable to sparse matrices. GNNs define aggregation functions (e.g., summations) that operate on variable size input data to produce data of a fixed output size so that MLPs can be applied. The goal of this paper is to provide an introduction to GNNs for a numerical linear algebra audience. Concrete examples are provided to illustrate how many common linear algebra tasks can be accomplished using GNNs. We focus on iterative methods that employ computational kernels such as matrix-vector products, interpolation, relaxation methods, and strength-of-connection measures. Our GNN examples include cases where parameters are determined a-priori as well as cases where parameters must be learned. The intent with this article is to help computational scientists understand how GNNs can be used to adapt machine learning concepts to computational tasks associated with sparse matrices. It is hoped that this understanding will stimulate data-driven extensions of classical sparse linear algebra tasks.
翻訳日:2023-10-25 02:04:22 公開日:2023-10-21
# 効率的なCOVID19検出のための改良深層学習モデルの構築

Unleashing Modified Deep Learning Models in Efficient COVID19 Detection ( http://arxiv.org/abs/2310.14081v1 )

ライセンス: Link先を確認
Md Aminul Islam (1), Shabbir Ahmed Shuvo (2), Mohammad Abu Tareq Rony (3), M Raihan (4), Md Abu Sufian (5) ((1) Oxford Brookes University, UK, (2) Offenburg University of Applied Sciences, Germany, Noakhali Science and Technology University, Bangladesh (3), (4) Khulna University, Bangladesh (5) University of Leicester, UK)(参考訳) 新型コロナウイルス(COVID-19)のパンデミックは、世界的な人口に影響を与えている。 近年のDeep Learningのブレークスルーは、精度と迅速な検出のためのツールとして、COVID19の予測と予測を改善する可能性がある。 本研究は,8055例のCT画像サンプル,5427例,2628例を解析した。 9544人のx線サンプルには、4044人の新型コロナウイルス患者と5500人の非covid-19患者が含まれていた。 最も正確なモデルはMobileNet V3 (97.872%)、DenseNet201 (97.5677%)、GoogleNet Inception V1 (97.643%)である。 高い精度は、これらのモデルがMobileNetV3やDenseNet201にも高い精度で予測できることを示している。 誤差最適化とスケーラブルなバッチ正規化を組み合わせることで,精度,精度,リコールを総合的に比較し,予測モデルの改善を可能にする。 分析の結果,covid-19の予測と検出を進める上で,モデルのパフォーマンスとレジリエンスが向上し,深層学習が疾患処理をどのように改善できるかが示された。 私たちが提案する方法は、医療システム、政策立案者、研究者が新型コロナウイルスやその他の伝染病を減らすための教育的な決定を下すであろう。 ccsは、covid-19、ディープラーニング、画像処理キーワード、covid-19、deep learning、drknet201、mobilenet、resnet、drknet、googlenet、画像処理、疾病検出をコンセプトとしている。

The COVID19 pandemic, a unique and devastating respiratory disease outbreak, has affected global populations as the disease spreads rapidly. Recent Deep Learning breakthroughs may improve COVID19 prediction and forecasting as a tool of precise and fast detection, however, current methods are still being examined to achieve higher accuracy and precision. This study analyzed the collection contained 8055 CT image samples, 5427 of which were COVID cases and 2628 non COVID. The 9544 Xray samples included 4044 COVID patients and 5500 non COVID cases. The most accurate models are MobileNet V3 (97.872 percent), DenseNet201 (97.567 percent), and GoogleNet Inception V1 (97.643 percent). High accuracy indicates that these models can make many accurate predictions, as well as others, are also high for MobileNetV3 and DenseNet201. An extensive evaluation using accuracy, precision, and recall allows a comprehensive comparison to improve predictive models by combining loss optimization with scalable batch normalization in this study. Our analysis shows that these tactics improve model performance and resilience for advancing COVID19 prediction and detection and shows how Deep Learning can improve disease handling. The methods we suggest would strengthen healthcare systems, policymakers, and researchers to make educated decisions to reduce COVID19 and other contagious diseases. CCS CONCEPTS Covid,Deep Learning, Image Processing KEYWORDS Covid, Deep Learning, DenseNet201, MobileNet, ResNet, DenseNet, GoogleNet, Image Processing, Disease Detection.
翻訳日:2023-10-25 02:03:53 公開日:2023-10-21
# コピーする、コピーしない、という問題は、ニューラルネットワークシーケンシャルリコメンデータにおける出力ソフトマックス層の重大な問題である

To Copy, or not to Copy; That is a Critical Issue of the Output Softmax Layer in Neural Sequential Recommenders ( http://arxiv.org/abs/2310.14079v1 )

ライセンス: Link先を確認
Haw-Shiuan Chang, Nikhil Agarwal, Andrew McCallum(参考訳) 最近の研究では、既存のニューラルモデルでは逐次レコメンデーションタスクで繰り返し項目を処理するのが困難であることが示唆されている。 しかし、この困難に対する我々の理解はまだ限られている。 本研究では,単一隠れ状態埋め込みと静的アイテム埋め込みを出力ソフトマックス層に埋め込むことにより,この問題の根本原因を特定することにより,この分野を著しく前進させる。 具体的には、ソフトマックス層に埋め込まれたグローバルアイテムの類似性構造は、コピーがよい場合、単一の隠れ状態の埋め込みが新しいアイテムに近づくように強制する一方で、隠された状態が入力からアイテムに不適切に近づくように強制することがある。 この問題を緩和するために、最近提案されたSoftmax-CPRなどのソフトマックス代替案を逐次レコメンデーションタスクに適用し、新しいソフトマックスアーキテクチャが、いつコピーするか、いつ入力シーケンスからアイテムを除外するかを学ぶ際に、ニューラルエンコーダの能力を解き放つことを実証する。 SASRecとGRU4Recの出力ソフトマックス層に簡単な修正を加えるだけで、ソフトマックス-CPRは12のデータセットで一貫した改善を達成できる。 ほぼ同じモデルサイズで、私たちのベストメソッドは、5つのデータセットでGRU4Recの平均NDCG@10を10%(個別に4%-17%)改善するだけでなく、重複アイテムなしで7つのデータセットを24%(8%-39%)改善します!

Recent studies suggest that the existing neural models have difficulty handling repeated items in sequential recommendation tasks. However, our understanding of this difficulty is still limited. In this study, we substantially advance this field by identifying a major source of the problem: the single hidden state embedding and static item embeddings in the output softmax layer. Specifically, the similarity structure of the global item embeddings in the softmax layer sometimes forces the single hidden state embedding to be close to new items when copying is a better choice, while sometimes forcing the hidden state to be close to the items from the input inappropriately. To alleviate the problem, we adapt the recently-proposed softmax alternatives such as softmax-CPR to sequential recommendation tasks and demonstrate that the new softmax architectures unleash the capability of the neural encoder on learning when to copy and when to exclude the items from the input sequence. By only making some simple modifications on the output softmax layer for SASRec and GRU4Rec, softmax-CPR achieves consistent improvement in 12 datasets. With almost the same model size, our best method not only improves the average NDCG@10 of GRU4Rec in 5 datasets with duplicated items by 10% (4%-17% individually) but also improves 7 datasets without duplicated items by 24% (8%-39%)!
翻訳日:2023-10-25 02:03:18 公開日:2023-10-21
# アラビア画像領域変換のための畳み込み双方向変分オートエンコーダ

Convolutional Bidirectional Variational Autoencoder for Image Domain Translation of Dotted Arabic Expiration ( http://arxiv.org/abs/2310.14069v1 )

ライセンス: Link先を確認
Ahmed Zidane, Ghada Soliman(参考訳) THIS論文は,アラビア語の点滅期限を満了期限に再構成することにより,点滅期限のイメージ翻訳を訓練したエンコーダとデコーダのためのラダーボトムアップ畳み込み畳み込み双方向変分自動エンコーダ(LCBVAE)アーキテクチャを提案する。 また,2019年度から2027年度にかけての具体化画像を用いたカスタムcrnnモデルを訓練し,有効期限を抽出し,有効期限認識におけるlcbvaeのモデル性能を評価する。 次に、(lcbvae+crnn)のパイプラインを自動選別システムに統合し、有効期限を抽出し、製造段階でそれに従って製品を選別する。 さらに、商業者にとって時間がかかり非効率な有効期限のマニュアル入力を克服することができる。 点滅したアラビア語の有効期限日画像が得られなかったため、合成画像を生成するために、TTF(dot-matrix True Type Font)を作成した。 59902画像の非現実的な合成日程でモデルを訓練し、2019年から2027年までの3287画像のリアルな合成日程をyyy/mm/ddと表現した。 本研究では,画像翻訳のような下流移動学習タスクにおいて,サイズが1024まで大きくなると一般化し,潜在ボトルネック層の重要性を実証した。 提案手法は,LCBVAEアーキテクチャを用いて画像翻訳の精度97%を達成し,画像翻訳や再構成などの下流学習タスクを一般化した。

THIS paper proposes an approach of Ladder Bottom-up Convolutional Bidirectional Variational Autoencoder (LCBVAE) architecture for the encoder and decoder, which is trained on the image translation of the dotted Arabic expiration dates by reconstructing the Arabic dotted expiration dates into filled-in expiration dates. We employed a customized and adapted version of Convolutional Recurrent Neural Network CRNN model to meet our specific requirements and enhance its performance in our context, and then trained the custom CRNN model with the filled-in images from the year of 2019 to 2027 to extract the expiration dates and assess the model performance of LCBVAE on the expiration date recognition. The pipeline of (LCBVAE+CRNN) can be then integrated into an automated sorting systems for extracting the expiry dates and sorting the products accordingly during the manufacture stage. Additionally, it can overcome the manual entry of expiration dates that can be time-consuming and inefficient at the merchants. Due to the lack of the availability of the dotted Arabic expiration date images, we created an Arabic dot-matrix True Type Font (TTF) for the generation of the synthetic images. We trained the model with unrealistic synthetic dates of 59902 images and performed the testing on a realistic synthetic date of 3287 images from the year of 2019 to 2027, represented as yyyy/mm/dd. In our study, we demonstrated the significance of latent bottleneck layer with improving the generalization when the size is increased up to 1024 in downstream transfer learning tasks as for image translation. The proposed approach achieved an accuracy of 97% on the image translation with using the LCBVAE architecture that can be generalized for any downstream learning tasks as for image translation and reconstruction.
翻訳日:2023-10-25 02:02:48 公開日:2023-10-21
# 選択的畳み込みによる反事実予測

Counterfactual Prediction Under Selective Confounding ( http://arxiv.org/abs/2310.14064v1 )

ライセンス: Link先を確認
Sohaib Kiani, Jared Barton, Jon Sushinsky, Lynda Heimbach, Bo Luo(参考訳) 本研究は,2次治療の因果推論と,すべての共同創設者が知られていない場合の結果の解釈的因果推論を行うという課題に対処する。 共同設立者は治療と結果の両方に影響を及ぼす要因である。 私たちは、様々な現実世界のシナリオで因果推論を可能にするために、望ましい治療の下ですべての共同創設者を知ることの必要性を緩和します。 提案手法は, 異なる方針を持つ複数の意思決定者が関与する状況と, 整合性を確保するための初期決定後に再評価機構が存在する状況で機能するよう設計されている。 これらの仮定は、すべての治療の下ですべての共同ファウンダーが利用できることと比較して、より実践的である。 Selective Confounding の課題に対処するために, 二重処理サンプルの利用を提案する。 これらのサンプルは、回帰調整や二重ロバストといった2段階の手順を駆使して、反事実予測を学べる。 本研究では,合成および実世界の児童配置データを用いて,提案手法の有効性を実証的に証明する。 さらに,子どもの配置シナリオにおけるパフォーマンス評価に特化した3つの評価手法を提案する。 透明性と解釈性を強調し、意思決定者に価値のあるツールを提供することを目的としています。 この作業のソースコードリポジトリはhttps://github.com/sohaib730/CausalMLにある。

This research addresses the challenge of conducting interpretable causal inference between a binary treatment and its resulting outcome when not all confounders are known. Confounders are factors that have an influence on both the treatment and the outcome. We relax the requirement of knowing all confounders under desired treatment, which we refer to as Selective Confounding, to enable causal inference in diverse real-world scenarios. Our proposed scheme is designed to work in situations where multiple decision-makers with different policies are involved and where there is a re-evaluation mechanism after the initial decision to ensure consistency. These assumptions are more practical to fulfill compared to the availability of all confounders under all treatments. To tackle the issue of Selective Confounding, we propose the use of dual-treatment samples. These samples allow us to employ two-step procedures, such as Regression Adjustment or Doubly-Robust, to learn counterfactual predictors. We provide both theoretical error bounds and empirical evidence of the effectiveness of our proposed scheme using synthetic and real-world child placement data. Furthermore, we introduce three evaluation methods specifically tailored to assess the performance in child placement scenarios. By emphasizing transparency and interpretability, our approach aims to provide decision-makers with a valuable tool. The source code repository of this work is located at https://github.com/sohaib730/CausalML.
翻訳日:2023-10-25 02:02:17 公開日:2023-10-21
# 教育におけるメタバース活用の留意点 : TRI-Fフレームワーク

A Student-Dominant View of the Readiness to use Metaverse in Education: The TRI-F Framework ( http://arxiv.org/abs/2310.14111v1 )

ライセンス: Link先を確認
Malcolm Garbutt, Ilhaam Ismail, Calvineo Juries, Raeez Adams(参考訳) 本稿では,インフラと貧困の課題に直面する発展途上国の大学におけるメタバース教育への学生の対応について報告する。 コビッド19は、多くの大学が教育と監督にハイブリッドアプローチを採用することを強制した。 オンラインミーティング技術は一般的なものになっているが、対面ミーティングのつながりが欠如しており、Metaverseはソリューションとして推進されている。 我々は,学生がメタバース技術を利用するための準備のレベルについて疑問を呈する。 2次元仮想世界における指導経験に基づく学生の自己反射の主題分析により,メタバースを用いた適応性評価において,モチベーションとインヒビターを媒介する技術の適用のファシリテータを含むためのモデルの拡張が提案されている技術準備指数モデルの有用性が明らかになった。

This paper reports on students' readiness for using Metaverse for education in a university in a developing country facing infrastructure and poverty challenges. Covid-19 forced many universities to adopt a hybrid approach to teaching and supervision. While online meeting technologies have become commonplace, there is a lack of the connectedness of face-to-face meetings, for which Metaverse is promoted as a solution. We pose the question as to the level of readiness of students to use Metaverse technologies. Thematic analysis of students' self-reflections on their experience of supervision in a 2D virtual world revealed the usefulness of the technology readiness index model, from which an extension to the model was proposed to include facilitators for the application of the technology that may mediate the motivators and inhibitors when assessing readiness to use Metaverse in education settings.
翻訳日:2023-10-25 01:54:34 公開日:2023-10-21
# 雑音入力に直面するNLPモデルに対する制約出力空間の有限コンテキストインデックス化

Finite-context Indexing of Restricted Output Space for NLP Models Facing Noisy Input ( http://arxiv.org/abs/2310.14110v1 )

ライセンス: Link先を確認
Minh Nguyen, Nancy F. Chen(参考訳) NLPモデルはクリーンな入力を持つタスクに優れるが、ノイズの多い入力では正確ではない。 特に、人書きタイプミスや逆エンジニアリングによる現実的なミススペルのような文字レベルのノイズがテキストにしばしば現れ、NLPモデルを簡単にトリップすることができる。 文字レベルのノイズに対処する以前の解決策は、しばしば入力の内容を変更する(低忠実度)ため、クリーンな入力に対するモデルの精度を不注意に低下させる。 クリーン入力の性能を犠牲にすることなくノイズ入力におけるNLPモデル性能を向上させるアプローチであるFiRoを提案する。 FiRoは入力中の各トークンのノイズフリーフォームを推測することにより、入力テキストを正当性を保持しながらサニタイズする。 FiRo は有限コンテキストアグリゲーションを用いて文脈埋め込みを得るが、これは制限された出力空間内でノイズのない形式を見つけるのに使用される。 出力空間は、ノイズフリートークンをより正確に予測するために、予測可能な候補の小さなクラスタに制限される。 クラスタは小さいが、FiRoの効果的な語彙(全クラスタの単位)を拡大して入力内容の保存を改善することができる。 実験結果から,FiRoを用いたNLPモデルは,6つの分類タスクと1つのシークエンスラベリングタスクにおいて,ノイズの度合いでベースラインよりも優れていた。

NLP models excel on tasks with clean inputs, but are less accurate with noisy inputs. In particular, character-level noise such as human-written typos and adversarially-engineered realistic-looking misspellings often appears in text and can easily trip up NLP models. Prior solutions to address character-level noise often alter the content of the inputs (low fidelity), thus inadvertently lowering model accuracy on clean inputs. We proposed FiRo, an approach to boost NLP model performance on noisy inputs without sacrificing performance on clean inputs. FiRo sanitizes the input text while preserving its fidelity by inferring the noise-free form for each token in the input. FiRo uses finite-context aggregation to obtain contextual embeddings which is then used to find the noise-free form within a restricted output space. The output space is restricted to a small cluster of probable candidates in order to predict the noise-free tokens more accurately. Although the clusters are small, FiRo's effective vocabulary (union of all clusters) can be scaled up to better preserve the input content. Experimental results show NLP models that use FiRo outperforming baselines on six classification tasks and one sequence labeling task at various degrees of noise.
翻訳日:2023-10-25 01:54:19 公開日:2023-10-21
# CLIPがModel Zooのエキスパートに会い - Pseudo-Supervision for Visual Enhancement

CLIP meets Model Zoo Experts: Pseudo-Supervision for Visual Enhancement ( http://arxiv.org/abs/2310.14108v1 )

ライセンス: Link先を確認
Mohammadreza Salehi, Mehrdad Farajtabar, Maxwell Horton, Fartash Faghri, Hadi Pouransari, Raviteja Vemulapalli, Oncel Tuzel, Ali Farhadi, Mohammad Rastegari, Sachin Mehta(参考訳) Contrastive Language Image Pretraining (CLIP)は、視覚言語モデルを訓練するための標準手法である。 CLIPはスケーラブルで、高速で、画像分類タスクの分散シフトに対して堅牢だが、オブジェクトのローカライゼーション機能が欠けている。 本稿では,CLIPトレーニングをモデル動物園のタスク固有の視覚モデルで強化し,視覚的表現を改善することができるか? この目的に向けて、オープンソースのタスク固有のビジョンモデルを活用し、未修正でノイズの多い画像テキストデータセットのための擬似ラベルを生成する。 その後、画像とテキストペアのコントラストトレーニングに加えて、これらの擬似ラベルでクリップモデルをトレーニングします。 この単純な設定は、セグメンテーション、検出、深さ推定、表面標準推定を含む、異なる視覚タスクで最大16.3%の改善を示している。 重要なのは、これらの拡張はCLIPの既存の能力を損なうことなく達成されることだ。

Contrastive language image pretraining (CLIP) is a standard method for training vision-language models. While CLIP is scalable, promptable, and robust to distribution shifts on image classification tasks, it lacks object localization capabilities. This paper studies the following question: Can we augment CLIP training with task-specific vision models from model zoos to improve its visual representations? Towards this end, we leverage open-source task-specific vision models to generate pseudo-labels for an uncurated and noisy image-text dataset. Subsequently, we train CLIP models on these pseudo-labels in addition to the contrastive training on image and text pairs. This simple setup shows substantial improvements of up to 16.3% across different vision tasks, including segmentation, detection, depth estimation, and surface normal estimation. Importantly, these enhancements are achieved without compromising CLIP's existing capabilities, including its proficiency in promptable zero-shot classification.
翻訳日:2023-10-25 01:53:57 公開日:2023-10-21
# 視覚的接地PCFGの伝達性について

On the Transferability of Visually Grounded PCFGs ( http://arxiv.org/abs/2310.14107v1 )

ライセンス: Link先を確認
Yanpeng Zhao, Ivan Titov(参考訳) 近年,視覚的な文法誘導への関心が高まっている。 タスクのために様々なモデルが開発され、印象的なパフォーマンスを示しているが、トレーニングドメインとは異なるテキストドメインでは評価されていないため、視覚的なグラウンドによる改善が転送可能かどうかは不明である。 本研究は, このギャップを埋め, 伝達可能性の程度を評価することを目的とする。 まず、VC-PCFG(Visually-grounded Compound PCFG~\citep{zhao-titov-2020-visually})をテキストドメイン間で転送できるように拡張することから始めます。 モデルがソースドメインでトレーニングされ、ターゲットドメインに直接適用されるゼロショット転送学習設定を、これ以上のトレーニングなしで検討する。 トレーニングドメインに似たドメインのテキストへの視覚的接地変換を使用することのメリットは、リモートドメインへの転送に失敗することにあります。 さらに,本研究では,VC-PCFGの転送可能性において,ソースドメインとターゲットドメインとのレキシコンの重なりが最も重要な要因であることが判明した。

There has been a significant surge of interest in visually grounded grammar induction in recent times. While a variety of models have been developed for the task and have demonstrated impressive performance, they have not been evaluated on text domains that are different from the training domain, so it is unclear if the improvements brought by visual groundings are transferable. Our study aims to fill this gap and assess the degree of transferability. We start by extending VC-PCFG (short for Visually-grounded Compound PCFG~\citep{zhao-titov-2020-visually}) in such a way that it can transfer across text domains. We consider a zero-shot transfer learning setting where a model is trained on the source domain and is directly applied to target domains, without any further training. Our experimental results suggest that: the benefits from using visual groundings transfer to text in a domain similar to the training domain but fail to transfer to remote domains. Further, we conduct data and result analysis; we find that the lexicon overlap between the source domain and the target domain is the most important factor in the transferability of VC-PCFG.
翻訳日:2023-10-25 01:53:41 公開日:2023-10-21
# 休息状態機能コネクトームによるタスクコントラスト予測のゼロショット学習

Zero-shot Learning of Individualized Task Contrast Prediction from Resting-state Functional Connectomes ( http://arxiv.org/abs/2310.14105v1 )

ライセンス: Link先を確認
Minh Nguyen, Gia H. Ngo, Mert R. Sabuncu(参考訳) 被験者からの安静状態とタスク誘発fMRIの十分なペアが与えられた場合、機械学習モデルを用いて、安静状態機能MRI(rsfMRI)スキャンを用いて、主観的なタスク誘発活動を予測することができる。 しかし、RSfMRIスキャンは比較的容易に収集できるが、より複雑な実験設計や手順を必要とするため、十分なタスクfMRIスキャンを得るのは難しい。 したがって、ペアの少ないデータへの依存は、トレーニング中に見られるタスクのみに現在のテクニックの適用を制限する。 グループ平均コントラストを活用し,新規タスクのゼロショット予測を可能にすることで,この信頼度を低減できることを示す。 我々のアプローチはOPIC(Omni-Task Prediction of individual Contrasts)と呼ばれ、被験者のrsfMRI由来のコネクトームとグループ平均コントラストを入力として、被験者固有のコントラストの予測を生成する。 特殊入力を用いた大規模言語モデルのゼロショット学習と同様に、グループ平均コントラストの入力はOPICモデルを学習時に見つからない新しいタスクに一般化するためのガイドとなる。 実験結果から,新しいタスクに対するOPICの予測は,単純なグループ体験よりも優れているだけでなく,ドメイン内タスクのデータを用いてトレーニングされた最先端モデルのドメイン内予測と競合することが示された。

Given sufficient pairs of resting-state and task-evoked fMRI scans from subjects, it is possible to train ML models to predict subject-specific task-evoked activity using resting-state functional MRI (rsfMRI) scans. However, while rsfMRI scans are relatively easy to collect, obtaining sufficient task fMRI scans is much harder as it involves more complex experimental designs and procedures. Thus, the reliance on scarce paired data limits the application of current techniques to only tasks seen during training. We show that this reliance can be reduced by leveraging group-average contrasts, enabling zero-shot predictions for novel tasks. Our approach, named OPIC (short for Omni-Task Prediction of Individual Contrasts), takes as input a subject's rsfMRI-derived connectome and a group-average contrast, to produce a prediction of the subject-specific contrast. Similar to zero-shot learning in large language models using special inputs to obtain answers for novel natural language processing tasks, inputting group-average contrasts guides the OPIC model to generalize to novel tasks unseen in training. Experimental results show that OPIC's predictions for novel tasks are not only better than simple group-averages, but are also competitive with a state-of-the-art model's in-domain predictions that was trained using in-domain tasks' data.
翻訳日:2023-10-25 01:53:22 公開日:2023-10-21
# 産業応用指導のための教師の微調整モデル評価の再検討

Revisiting Instruction Fine-tuned Model Evaluation to Guide Industrial Applications ( http://arxiv.org/abs/2310.14103v1 )

ライセンス: Link先を確認
Manuel Faysse, Gautier Viaud, C\'eline Hudelot, Pierre Colombo(参考訳) Instruction Fine-Tuning (IFT) は、Large Language Models (LLMs) のゼロショット能力を強化する強力なパラダイムであるが、新しい評価基準を導き出す。 LLMをベースとしたメトリクスをこれらの要件に適合させることを示し、それらを活用してタスク特殊化戦略の調査を行い、実践的な産業環境で発生するトレードオフを定量化する。 この結果から,実世界のIFTモデル展開に対する実践者の実用的な洞察が得られた。

Instruction Fine-Tuning (IFT) is a powerful paradigm that strengthens the zero-shot capabilities of Large Language Models (LLMs), but in doing so induces new evaluation metric requirements. We show LLM-based metrics to be well adapted to these requirements, and leverage them to conduct an investigation of task-specialization strategies, quantifying the trade-offs that emerge in practical industrial settings. Our findings offer practitioners actionable insights for real-world IFT model deployment.
翻訳日:2023-10-25 01:52:55 公開日:2023-10-21
# 複素適応系における創発的「量子」理論について

On the Emergent "Quantum" Theory in Complex Adaptive Systems ( http://arxiv.org/abs/2310.14100v1 )

ライセンス: Link先を確認
Tristan Hubsch, Djordje Minic, Konstantin Nikolic and Sinisa Pajevic(参考訳) 複素適応系における創発的量子様理論の概念を探求し、特にロトカ・ボルテラ系におけるそのような創発的量子論(または「モック」量子論)の具体例を考察する。 一般に、古典系における量子力学の数学的形式化の可能性と、そのような手法を用いた場合の条件について検討する。 我々は、ハミルトン・ヤコビ(HJ)方程式を通した古典システムの標準的な記述から始まり、(モック)プランク定数$\mockbar$を持つ実効的なシュリンガー型方程式に還元する。 この条件は、状態に依存したいわゆる量子ポテンシャル vq は、hj方程式のいくつかの追加項によって取り消される。 我々は、この追加用語を「環境」に配慮した古典体系の結合を提供するものとして考慮する。 古典的なシステムは環境に微調整することでVQ項(少なくともおよそ)をキャンセルできると仮定する。 これは、生体システムのような(複雑な)適応システムにおいて安定で定常な状態を確立するメカニズムを提供するかもしれない。 この文脈では、モック量子力学の状態依存性を強調し、モック量子、状態依存、統計場理論という新しい概念を導入する。 また,本提案の流体力学定式化の乱流相に見られるモック量子から古典への遷移と同様に,量子から古典への普遍的特徴についても論じる。 このようにして、デコヒーレンスの概念を「量子乱流」の概念に再構成し、すなわち、量子と古典の遷移は流体力学におけるラミナーから乱流への遷移と類似して定義される。

We explore the concept of emergent quantum-like theory in complex adaptive systems, and examine in particular the concrete example of such an emergent (or "mock") quantum theory in the Lotka-Volterra system. In general, we investigate the possibility of implementing the mathematical formalism of quantum mechanics on classical systems, and what would be the conditions for using such an approach. We start from a standard description of a classical system via Hamilton-Jacobi (HJ) equation and reduce it to an effective Schr\"odinger-type equation, with a (mock) Planck constant $\mockbar$, which is system-dependent. The condition for this is that the so-called quantum potential VQ, which is state-dependent, is cancelled out by some additional term in the HJ equation. We consider this additional term to provide for the coupling of the classical system under consideration to the "environment." We assume that a classical system could cancel out the VQ term (at least approximately) by fine tuning to the environment. This might provide a mechanism for establishing a stable, stationary states in (complex) adaptive systems, such as biological systems. In this context we emphasize the state dependent nature of the mock quantum dynamics and we also introduce the new concept of the mock quantum, state dependent, statistical field theory. We also discuss some universal features of the quantum-to-classical as well as the mock-quantum-to-classical transition found in the turbulent phase of the hydrodynamic formulation of our proposal. In this way we reframe the concept of decoherence into the concept of "quantum turbulence," i.e. that the transition between quantum and classical could be defined in analogy to the transition from laminar to turbulent flow in hydrodynamics.
翻訳日:2023-10-25 01:52:46 公開日:2023-10-21
# 強化学習制御の安定化:全ての安定動作を最適化するモジュラーフレームワーク

Stabilizing reinforcement learning control: A modular framework for optimizing over all stable behavior ( http://arxiv.org/abs/2310.14098v1 )

ライセンス: Link先を確認
Nathan P. Lawrence, Philip D. Loewen, Shuyuan Wang, Michael G. Forbes, R. Bhushan Gopaluni(参考訳) 本稿では,深層強化学習の最適化駆動およびモデルフリーの利点と,youla-kuceraパラメータ化を用いた探索領域定義による安定性保証を組み合わせたフィードバック制御系設計のためのフレームワークを提案する。 近年の行動システムの発展により,データ駆動型内部モデルの構築が可能となり,入力出力探索データに基づくYoula-Kuceraパラメータ化の代替実現が可能となった。 多分独立した関心を持つので、ノイズの存在下でのデータ駆動モデルの安定性を定式化し分析する。 youla-kuceraアプローチは、コントローラ設計に安定した"パラメータ"を必要とする。 強化学習エージェントの訓練では、全ての安定線型作用素の集合は行列分解法により明示的に与えられる。 さらに、ニューラルネットワークを用いて非線形拡張を与え、パラメータ化された安定演算子の集合を表現することにより、標準ディープラーニングライブラリとのシームレスな統合を可能にする。 最後に、これらのアイデアがどのように固定構造コントローラのチューニングにも適用できるかを示す。

We propose a framework for the design of feedback controllers that combines the optimization-driven and model-free advantages of deep reinforcement learning with the stability guarantees provided by using the Youla-Kucera parameterization to define the search domain. Recent advances in behavioral systems allow us to construct a data-driven internal model; this enables an alternative realization of the Youla-Kucera parameterization based entirely on input-output exploration data. Perhaps of independent interest, we formulate and analyze the stability of such data-driven models in the presence of noise. The Youla-Kucera approach requires a stable "parameter" for controller design. For the training of reinforcement learning agents, the set of all stable linear operators is given explicitly through a matrix factorization approach. Moreover, a nonlinear extension is given using a neural network to express a parameterized set of stable operators, which enables seamless integration with standard deep learning libraries. Finally, we show how these ideas can also be applied to tune fixed-structure controllers.
翻訳日:2023-10-25 01:52:03 公開日:2023-10-21
# DispersioNET:畳み込みニューラルネットワークを用いたレイリー波多モード位相速度分散曲線のジョイントインバージョン

DispersioNET: Joint Inversion of Rayleigh-Wave Multimode Phase Velocity Dispersion Curves using Convolutional Neural Networks ( http://arxiv.org/abs/2310.14094v1 )

ライセンス: Link先を確認
Rohan Sharma, Divakar Vashisth and Bharath Shekar(参考訳) レイリー波の分散曲線は表面近傍の研究で広く使われ、主にせん断波(S波)速度分布に逆転している。 しかし、逆問題は不当、不均一、非線形である。 本稿では、畳み込みニューラルネットワーク(CNN)に基づくディープラーニングモデルであるDispersioNETを紹介し、レイリー波の基本と高次モード位相速度分散曲線の結合反転を行う。 DispersioNETはノイズフリーとノイズの多い分散曲線のデータセットでトレーニングされ、真の速度と密接に一致するS波速度プロファイルを予測する。 アーキテクチャは、深さを伴う速度の増加や中間低速度層などのS波速度プロファイルの変動に非依存であり、出力が層数に依存しないことを保証する。

Rayleigh wave dispersion curves have been widely used in near-surface studies, and are primarily inverted for the shear wave (S-wave) velocity profiles. However, the inverse problem is ill-posed, non-unique and nonlinear. Here, we introduce DispersioNET, a deep learning model based on convolution neural networks (CNN) to perform the joint inversion of Rayleigh wave fundamental and higher order mode phase velocity dispersion curves. DispersioNET is trained and tested on both noise-free and noisy dispersion curve datasets and predicts S-wave velocity profiles that match closely with the true velocities. The architecture is agnostic to variations in S-wave velocity profiles such as increasing velocity with depth and intermediate low-velocity layers, while also ensuring that the output remains independent of the number of layers.
翻訳日:2023-10-25 01:51:37 公開日:2023-10-21
# 列挙処理における孤児エンティティ割り当てのための知識グラフの活用

Leveraging Knowledge Graphs for Orphan Entity Allocation in Resume Processing ( http://arxiv.org/abs/2310.14093v1 )

ライセンス: Link先を確認
Aagam Bakliwal, Shubham Manish Gandhi, Yashodhara Haribhakta(参考訳) 重要な課題は、非構造化データ、特に履歴書の処理と分析による人材獲得と採用である。 本研究では,知識グラフを用いた履歴処理における孤児実体割当の新しい手法を提案する。 パイプラインには,アソシエーションマイニング,概念抽出,外部知識リンク,名前付きエンティティ認識,知識グラフ構築の技術が組み込まれている。 これらの技術を活用することで、履歴書内の孤児エンティティのバケット化を成功させることで、ジョブスクリーニングプロセスの自動化と効率の向上を図る。 これにより、候補者と役職のマッチングをより効果的にし、履歴スクリーニングプロセスを合理化し、候補とジョブのマッチングの精度を高めることができる。 このアプローチの例外的な有効性とレジリエンスは、広範な実験と評価を通じて強調され、コンポーネント障害が発生した場合のシームレスな処理と孤児のエンティティ割り当てのために、代替手段を頼りにすることができる。 知的情報抽出と表現を通じて貴重な洞察を生み出す知識グラフの能力,特に孤児の分類分野における特徴は,本研究の結果から強調される。

Significant challenges are posed in talent acquisition and recruitment by processing and analyzing unstructured data, particularly resumes. This research presents a novel approach for orphan entity allocation in resume processing using knowledge graphs. Techniques of association mining, concept extraction, external knowledge linking, named entity recognition, and knowledge graph construction are integrated into our pipeline. By leveraging these techniques, the aim is to automate and enhance the efficiency of the job screening process by successfully bucketing orphan entities within resumes. This allows for more effective matching between candidates and job positions, streamlining the resume screening process, and enhancing the accuracy of candidate-job matching. The approach's exceptional effectiveness and resilience are highlighted through extensive experimentation and evaluation, ensuring that alternative measures can be relied upon for seamless processing and orphan entity allocation in case of any component failure. The capabilities of knowledge graphs in generating valuable insights through intelligent information extraction and representation, specifically in the domain of categorizing orphan entities, are highlighted by the results of our research.
翻訳日:2023-10-25 01:51:13 公開日:2023-10-21
# 最適バッチ最適腕識別法

Optimal Batched Best Arm Identification ( http://arxiv.org/abs/2310.14129v1 )

ライセンス: Link先を確認
Tianyuan Jin, Yu Yang, Jing Tang, Xiaokui Xiao, Pan Xu(参考訳) バッチ化されたベストアーム識別(BBAI)問題について検討し、学習者のゴールは、ポリシーを可能な限り変更しながら最適なアームを特定することである。 特に、サンプルの複雑さ(アームプルの総数)とバッチの複雑さ(バッチの総数)を最小化しながら、いくつかの小さな定数$\delta>0$に対して、確率1-\delta$の最適なアームを見つけることを目指している。 3-batch best arm identification (tri-bbai)アルゴリズムを提案する。これは漸近的な設定($\delta\rightarrow 0$)で最適なサンプル複雑性を達成する最初のバッチアルゴリズムであり、最大3ドルのバッチでのみ実行される。 さらに,Tri-BBAIをベースとしたOpt-BBAIアルゴリズムを提案する。このアルゴリズムは,非漸近的条件(例えば$\delta>0$は任意に固定される)において,ほぼ最適に近いサンプルとバッチの複雑さを達成するアルゴリズムであり,Tri-BBAIと同じバッチとサンプルの複雑さを,$\delta$が0の傾向にある場合に楽しむ。 さらに、非漸近的な設定では、前回のバッチアルゴリズムの複雑さは、最善のアームが返される(少なくとも1-\delta$の確率を持つ)場合に、通常条件付けされる。 対照的に、Ops-BBAIの複雑さはそのようなイベントに依存しない。 これは、最高の腕が取り除かれているかどうかをチェックするために設計する新しい手順によって達成されます。

We study the batched best arm identification (BBAI) problem, where the learner's goal is to identify the best arm while switching the policy as less as possible. In particular, we aim to find the best arm with probability $1-\delta$ for some small constant $\delta>0$ while minimizing both the sample complexity (total number of arm pulls) and the batch complexity (total number of batches). We propose the three-batch best arm identification (Tri-BBAI) algorithm, which is the first batched algorithm that achieves the optimal sample complexity in the asymptotic setting (i.e., $\delta\rightarrow 0$) and runs only in at most $3$ batches. Based on Tri-BBAI, we further propose the almost optimal batched best arm identification (Opt-BBAI) algorithm, which is the first algorithm that achieves the near-optimal sample and batch complexity in the non-asymptotic setting (i.e., $\delta>0$ is arbitrarily fixed), while enjoying the same batch and sample complexity as Tri-BBAI when $\delta$ tends to zero. Moreover, in the non-asymptotic setting, the complexity of previous batch algorithms is usually conditioned on the event that the best arm is returned (with a probability of at least $1-\delta$), which is potentially unbounded in cases where a sub-optimal arm is returned. In contrast, the complexity of Opt-BBAI does not rely on such an event. This is achieved through a novel procedure that we design for checking whether the best arm is eliminated, which is of independent interest.
翻訳日:2023-10-25 01:44:13 公開日:2023-10-21
# ポイントを問う - オープンドメインのエンティティ中心の質問生成

Ask To The Point: Open-Domain Entity-Centric Question Generation ( http://arxiv.org/abs/2310.14126v1 )

ライセンス: Link先を確認
Yuxiang Liu, Jie Huang, Kevin Chen-Chuan Chang(参考訳) 本稿では,トピック特化学習,支援読解,ファクトチェックといった実世界の応用を動機とした,*entity-centric question generation* (ECQG) という新しいタスクを紹介する。 タスクはエンティティの観点から質問を生成することを目的としています。 本稿では,コンテントフォーカスと質問検証という2つの新しいモジュールを備えたPLMベースのフレームワークGenCONEを提案する。 コンテンツフォーカスモジュールはまず、焦点を「何を尋ねるか」としてドラフト質問を作成し、質問検証モジュールは、回答可能性を検証することによって、質問を洗練する。 また、このタスクをサポートするために、SQuADから大規模なオープンドメインデータセットを構築します。 我々はGenCONEが様々なベースラインを大幅に上回っており、2つのモジュールが高品質な質問を生成するのに有効で相補的であることを示した。

We introduce a new task called *entity-centric question generation* (ECQG), motivated by real-world applications such as topic-specific learning, assisted reading, and fact-checking. The task aims to generate questions from an entity perspective. To solve ECQG, we propose a coherent PLM-based framework GenCONE with two novel modules: content focusing and question verification. The content focusing module first identifies a focus as "what to ask" to form draft questions, and the question verification module refines the questions afterwards by verifying the answerability. We also construct a large-scale open-domain dataset from SQuAD to support this task. Our extensive experiments demonstrate that GenCONE significantly and consistently outperforms various baselines, and two modules are effective and complementary in generating high-quality questions.
翻訳日:2023-10-25 01:43:40 公開日:2023-10-21
# COGSの構造的一般化:スーパータグは(ほとんど)必要なすべてだ

Structural generalization in COGS: Supertagging is (almost) all you need ( http://arxiv.org/abs/2310.14124v1 )

ライセンス: Link先を確認
Alban Petit, Caio Corro, Fran\c{c}ois Yvon(参考訳) 多くの自然言語処理アプリケーションにおいて、ニューラルネットワークは分布外例の一般化に失敗している。 特に、最近のセマンティックパーシングデータセットは、合成一般化が必要な場合において、ニューラルネットワークの重要な制限を提示している。 本稿では,この問題を軽減するために,ニューラルネットワークを用いた意味解析フレームワークをいくつかの方法で拡張する。 特に,(1) 整数線形プログラムとして表現される値制約付きスーパータグの導入,(2) グラフ予測問題を最大マッチング問題に還元すること,(3) オーバーフィッティングを防止するための漸進的な早期停止トレーニング戦略の設計を提案する。 実験的に,本手法は構成的一般化の難解なベンチマークであるcogsデータセットにおける構造的一般化を必要とする例において,結果を大幅に改善する。 その結果,構造的制約が意味解析の一般化に重要であることを確認した。

In many Natural Language Processing applications, neural networks have been found to fail to generalize on out-of-distribution examples. In particular, several recent semantic parsing datasets have put forward important limitations of neural networks in cases where compositional generalization is required. In this work, we extend a neural graph-based semantic parsing framework in several ways to alleviate this issue. Notably, we propose: (1) the introduction of a supertagging step with valency constraints, expressed as an integer linear program; (2) a reduction of the graph prediction problem to the maximum matching problem; (3) the design of an incremental early-stopping training strategy to prevent overfitting. Experimentally, our approach significantly improves results on examples that require structural generalization in the COGS dataset, a known challenging benchmark for compositional generalization. Overall, our results confirm that structural constraints are important for generalization in semantic parsing.
翻訳日:2023-10-25 01:43:26 公開日:2023-10-21
# 複数のアフリカの言語にまたがる感性分析 : 最近のベンチマーク

Sentiment Analysis Across Multiple African Languages: A Current Benchmark ( http://arxiv.org/abs/2310.14120v1 )

ライセンス: Link先を確認
Saurav K. Aryal, Howard Prioleau, Surakshya Aryal(参考訳) 知覚分析はNLPの基本的で価値のある課題である。 しかし、データと技術的可用性の限界により、アフリカの言語の感情分析の研究は断片化され、不足している。 AfriSenti-SemEval Shared Task 12が17th International Workshop on Semantic Evaluationの一部として公開されたことで、14のアフリカの言語に関する注釈付き感情分析が利用可能になった。 12言語にまたがる最先端のトランスフォーマーモデルのベンチマークと比較を行い、1言語ごとのトレーニング性能と1言語ごとのトレーニング性能を比較した。 また、標準多言語モデルの性能と、非アフリカ語からアフリカ語への言語間表現の学習と伝達能力についても検討した。 その結果,低リソースモデリングの作業にもかかわらず,さらに多くのデータが言語ごとに優れたモデルを生成することがわかった。 アフリカの言語向けに開発されたモデルは、全てのタスクにおいて他のモデルよりも優れている。 さらに、評価されたモデルの言語ごとの評価には、1つのモデルに適したソリューションは存在しない。 さらに、サンプルサイズが小さい言語では、感情分類のための言語ごとの専用モデルよりも、より大きな多言語モデルの方が優れている可能性がある。

Sentiment analysis is a fundamental and valuable task in NLP. However, due to limitations in data and technological availability, research into sentiment analysis of African languages has been fragmented and lacking. With the recent release of the AfriSenti-SemEval Shared Task 12, hosted as a part of The 17th International Workshop on Semantic Evaluation, an annotated sentiment analysis of 14 African languages was made available. We benchmarked and compared current state-of-art transformer models across 12 languages and compared the performance of training one-model-per-language versus single-model-all-languages. We also evaluated the performance of standard multilingual models and their ability to learn and transfer cross-lingual representation from non-African to African languages. Our results show that despite work in low resource modeling, more data still produces better models on a per-language basis. Models explicitly developed for African languages outperform other models on all tasks. Additionally, no one-model-fits-all solution exists for a per-language evaluation of the models evaluated. Moreover, for some languages with a smaller sample size, a larger multilingual model may perform better than a dedicated per-language model for sentiment classification.
翻訳日:2023-10-25 01:43:11 公開日:2023-10-21
# きめ細かなパーミッションマネージャによるjavaのサプライチェーン脆弱性の防止

Preventing Supply Chain Vulnerabilities in Java with a Fine-Grained Permission Manager ( http://arxiv.org/abs/2310.14117v1 )

ライセンス: Link先を確認
Paschal C. Amusuo (1), Kyle A. Robinson (1), Santiago Torres-Arias (1), Laurent Simon (2) and James C. Davis (1) ((1) Purdue University, (2) Google)(参考訳) サードパーティパッケージの統合は、現代のソフトウェアエンジニアリングを加速するが、ソフトウェアサプライチェーンの脆弱性のリスクをもたらす。 アプリケーションの依存関係の脆弱性は世界中で利用されています。 これらのエクスプロイトは多くの場合、パッケージに存在する機能を活用するが、アプリケーションによっては不要である。 残念なことに、SELinuxやDockerコンテナ、Java Security Managerといった現在の世代のパーミッションマネージャは、大きすぎるため、これらの脆弱性を緩和するエンジニアやオペレーターを便利にサポートできない。 現在のアプローチでは、アプリケーションの粒度でのみ許可を提供し、悪用されたパッケージによって行われる不正な操作で安全なパッケージによって行われる正当な操作を集約する。 この戦略は現代の工学の実践を反映していない。 アプリケーションのサプライチェーン内の異なるパッケージによって取られたアクションを区別できるパーミッションマネージャが必要です。 本稿では,javaアプリケーションにおける最初の細粒度(サプライチェーン認識)パーミッションマネージャであるnext-jsmについて述べる。 Next-JSMはパッケージレベルの粒度でのパーミッション管理をサポートする。 next-jsmは3つの主要な課題に直面している: 既存のjvm上で動作し、アプリケーションやパッケージのソースコードにアクセスせず、多くのパッケージを持つアプリケーションのパフォーマンスオーバーヘッドを最小化し、オペレーターがより細かいパーミッションを管理するのを助ける。 バイトコードの書き直し、適切なデータ構造とアルゴリズム、そしてデフォルトのパーミッションを確立するための表現的なパーミッション表記と自動ツールによって、これらの課題に対処できることを示します。 我々の評価では、Next-JSMは評価した12のパッケージの脆弱性のうち11を軽減し、Dacapobenchベンチマークで平均2.72%のオーバーヘッドを発生させる。 質的に言えば、Next-JSMは(最近廃止されている)Java Security Manager(JSM)の欠点に対処するものです。

Integrating third-party packages accelerates modern software engineering, but introduces the risk of software supply chain vulnerabilities. Vulnerabilities in applications' dependencies are being exploited worldwide. Often, these exploits leverage features that are present in a package, yet unneeded by an application. Unfortunately, the current generation of permission managers, such as SELinux, Docker containers, and the Java Security Manager, are too coarse-grained to usefully support engineers and operators in mitigating these vulnerabilities. Current approaches offer permissions only at the application's granularity, lumping legitimate operations made by safe packages with illegitimate operations made by exploited packages. This strategy does not reflect modern engineering practice. we need a permission manager capable of distinguishing between actions taken by different packages in an application's supply chain. In this paper, we describe Next-JSM, the first fine-grained ("supply chain aware") permission manager for Java applications. Next-JSM supports permission management at package-level granularity. Next-JSM faces three key challenges: operating on existing JVMs and without access to application or package source code, minimizing performance overhead in applications with many packages, and helping operators manage finer-grained permissions. We show that these challenges can be addressed through bytecode rewriting; appropriate data structures and algorithms; and an expressive permission notation plus automated tooling to establish default permission. In our evaluation, we report that Next-JSM mitigates 11 of the 12 package vulnerabilities we evaluated and incurs an average 2.72% overhead on the Dacapobench benchmark. Qualitatively, we argue that Next-JSM addresses the shortcomings of the (recently deprecated) Java Security Manager (JSM).
翻訳日:2023-10-25 01:42:54 公開日:2023-10-21
# 量子通信用AlGaAsオン絶縁体マイクロコムの連続絡み合い分布

Continuous Entanglement Distribution from an AlGaAs-on-Insulator Microcomb for Quantum Communications ( http://arxiv.org/abs/2310.14112v1 )

ライセンス: Link先を確認
Trevor J. Steiner, Maximilian Shen, Joshua E. Castro, John E. Bowers, and Galan Moody(参考訳) ヒ素化ガリウムマイクロリング共振器を用いて、300$ nmの帯域幅と20セット以上の時間エネルギー絡み込みモードを持つ明るい量子光学マイクロコンプターを実証し、単純な市販の通信機器でスペクトル多重化を可能にした。 最大20ドル GHz/mW$^2$ 対生成率を示す2つの交叉光子対周波数モードの高速連続絡み合い分布を報告する。 エンタングルメント分布の例として,8kbpsの生鍵レートを持つ連続波タイムビン量子鍵分散プロトコルを実装し,チャネルのセキュリティを確保するために10$\%$の誤り率と十分な2光子可視性を維持した。 20ドルの周波数モードが多重化されると、100kbpsのエンタングルメントベースの鍵レートまたはマルチユーザー量子通信ネットワークの作成が推定される。 システム全体には110ドル未満のオンチップ光学電力が必要であり、量子通信の周波数モードの効率的な源を実証している。 原理の証明として、量子鍵はUCSBキャンパスの12kmの展開繊維に分散され、21kBの画像を$<9\%の誤差で送信するために使用される。

Using an aluminum gallium arsenide microring resonator, we demonstrate a bright quantum optical microcomb with $>300$ nm bandwidth and more than 20 sets of time-energy entangled modes, enabling spectral demultiplexing with simple, off-the-shelf commercial telecom components. We report high-rate continuous entanglement distribution for two sets of entangled-photon pair frequency modes exhibiting up to $20$ GHz/mW$^2$ pair generation rate. As an illustrative example of entanglement distribution, we perform a continuous-wave time-bin quantum key distribution protocol with 8 kbps raw key rates while maintaining less than 10$\%$ error rate and sufficient two-photon visibility to ensure security of the channel. When the $>$20 frequency modes are multiplexed, we estimate $>$100 kbps entanglement-based key rates or the creation of a multi-user quantum communications network. The entire system requires less than 110 $\mu$W of on-chip optical power, demonstrating an efficient source of entangled frequency modes for quantum communications. As a proof of principle, a quantum key is distributed across 12 km of deployed fiber on the UCSB campus and used to transmit a 21 kB image with $<9\%$ error.
翻訳日:2023-10-25 01:42:24 公開日:2023-10-21
# 法的判断予測の融合のための反トラスト学習と数値的エビデンス

Exploiting Contrastive Learning and Numerical Evidence for Confusing Legal Judgment Prediction ( http://arxiv.org/abs/2211.08238v3 )

ライセンス: Link先を確認
Leilei Gan, Baokui Li, Kun Kuang, Yating Zhang, Lei Wang, Luu Anh Tuan, Yi Yang, Fei Wu(参考訳) 判例の事実記述文を考えると、法律判断予測(ljp)は、訴訟の費用、法律記事およびペナルティ項を予測することを目的としている。 LJPの中核的な問題は、微妙なテキストの違いしか存在しない訴訟を区別する方法である。 従来の研究では、標準的なクロスエントロピー分類損失と異なる分類誤差を区別できず、刑期を予測するために事実記述の数字を無視している。 これらの問題に取り組むため,本研究では,まず,識別可能な表現を学習するためのmocoに基づく教師付きコントラスト学習を提案し,ljpの3つのサブタスクすべてに同時にメリットを与えるような,ポジティブなサンプルペアを構築するための最善の戦略を検討する。 第二に、ある事件の刑期を予測するために訴訟における数字を利用するために、事前訓練された数値モデルにより符号化された抽出された犯罪量による事実記述の表現をさらに強化する。 公的なベンチマーク実験により,提案手法は,特に紛らわしい訴訟において,新たな最先端の成果をもたらすことが示された。 アブレーション研究は各成分の有効性も示している。

Given the fact description text of a legal case, legal judgment prediction (LJP) aims to predict the case's charge, law article and penalty term. A core problem of LJP is how to distinguish confusing legal cases, where only subtle text differences exist. Previous studies fail to distinguish different classification errors with a standard cross-entropy classification loss, and ignore the numbers in the fact description for predicting the term of penalty. To tackle these issues, in this work, first, we propose a moco-based supervised contrastive learning to learn distinguishable representations, and explore the best strategy to construct positive example pairs to benefit all three subtasks of LJP simultaneously. Second, in order to exploit the numbers in legal cases for predicting the penalty terms of certain cases, we further enhance the representation of the fact description with extracted crime amounts which are encoded by a pre-trained numeracy model. Extensive experiments on public benchmarks show that the proposed method achieves new state-of-the-art results, especially on confusing legal cases. Ablation studies also demonstrate the effectiveness of each component.
翻訳日:2023-10-24 14:19:04 公開日:2023-10-21