このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20230603となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# ソフトウェアレジリエンスのためのプロセス内隔離の環境メリットの検討 Exploring the Environmental Benefits of In-Process Isolation for Software Resilience ( http://arxiv.org/abs/2306.02131v1 ) ライセンス: Link先を確認 | Merve G\"ulmez, Thomas Nyman, Christoph Baumann, Jan Tobias M\"uhlberg | (参考訳) メモリ関連のエラーは、ソフトウェア脆弱性の重要な原因である。
メモリセーフ言語の使用のような緩和技術は有望なソリューションだが、ソフトウェアのレジリエンスと可用性には対処しない。
本稿では,環境の持続可能性とセキュリティに寄与するメモリ攻撃に対するレジリエンスをソフトウェアに構築する手法を提案する。 Memory-related errors remain an important cause of software vulnerabilities. While mitigation techniques such as using memory-safe languages are promising solutions, these do not address software resilience and availability. In this paper, we propose a solution to build resilience against memory attacks into software, which contributes to environmental sustainability and security. | 翻訳日:2023-10-24 04:34:41 公開日:2023-06-03 |
# マイクロサービス論理結合の実証的証拠について
登録済みのレポート On the Empirical Evidence of Microservice Logical Coupling. A Registered Report ( http://arxiv.org/abs/2306.02036v1 ) ライセンス: Link先を確認 | Dario Amoroso d Aragona and Luca Pascarella and Andrea Janes and Valentina Lenarduzzi and Rafael Penaloza and Davide Taibi | (参考訳) 関連スポンサーコンテンツ [コンテキスト] 結合は、ソフトウェア技術者が複雑なソフトウェアシステムを開発している間に、広く議論されているメトリクスです。
それでも、マイクロサービス間の論理的結合を測定し、サービス間のインタラクションを分析することは、必ずしもアクセスできないログファイルの形式で実行時情報を要求するため、簡単ではない。
[目的と方法]本研究では、前回の研究で提示されたMicroservice Logical Coupling(MLC)メトリクスを実証的に検証することを目的とした研究の設計を提案する。
特に、マイクロサービスアーキテクチャを使って構築されたオープンソースシステム(OSS)を経験的に研究する予定です。
結果]本研究の結果は,MLC測定の有効性と妥当性の相関を図ることを目的としている。
そこで我々は,実証的な証拠を収集し,MLCメトリクスに関する主張を分析し,支援する方法論を開発する。
さらに,マイクロサービス間の論理結合の評価と理解において,その有用性を確立する。 [Context] Coupling is a widely discussed metric by software engineers while developing complex software systems, often referred to as a crucial factor and symptom of a poor or good design. Nevertheless, measuring the logical coupling among microservices and analyzing the interactions between services is non-trivial because it demands runtime information in the form of log files, which are not always accessible. [Objective and Method] In this work, we propose the design of a study aimed at empirically validating the Microservice Logical Coupling (MLC) metric presented in our previous study. In particular, we plan to empirically study Open Source Systems (OSS) built using a microservice architecture. [Results] The result of this work aims at corroborating the effectiveness and validity of the MLC metric. Thus, we will gather empirical evidence and develop a methodology to analyze and support the claims regarding the MLC metric. Furthermore, we establish its usefulness in evaluating and understanding the logical coupling among microservices. | 翻訳日:2023-10-24 04:34:34 公開日:2023-06-03 |
# トランスファー・ラーニングとアンサンブル・ラーニングによる糖尿病網膜症検出モデルの改良 An Improved Model for Diabetic Retinopathy Detection by using Transfer Learning and Ensemble Learning ( http://arxiv.org/abs/2308.05178v1 ) ライセンス: Link先を確認 | Md. Simul Hasan Talukder, Ajay Kirshno Sarkar, Sharmin Akter, Md. Nuhi-Alamin | (参考訳) 糖尿病網膜症(英: Diabetic Retinopathy, DR)は、血液中の高濃度糖によって引き起こされる眼疾患であり、網膜毛細血管が閉塞して出血し、網膜組織の損傷を引き起こす。
通常は盲目になる。
早期検出は、DRのリスクとその重症度を低下させるのに役立つ。
糖尿病網膜症の堅牢かつ正確な予測と検出は難しい課題である。
本稿では,糖尿病網膜症を検出する機械学習モデルを開発した。
resnet50, inceptionv3, xception, densenet121, vgg19, nasnetmobile, mobilenetv2, densnet169, densenet201などのプール層, 高密度層, 適切なドロップアウト層を, トランスファー・ラーニング (tl) アプローチで学習した。
オーバーフィッティングを減らすためにデータ拡張と正規化が行われた。
densenet121, densenet169の平均および重み付けアンサンブル, densenet201 tlアーキテクチャの転送学習モデルは,それぞれ100%の精度,最高精度,リコール,f-1スコア100%,100%,100%のそれぞれに寄与する。 Diabetic Retinopathy (DR) is an ocular condition caused by a sustained high level of sugar in the blood, which causes the retinal capillaries to block and bleed, causing retinal tissue damage. It usually results in blindness. Early detection can help in lowering the risk of DR and its severity. The robust and accurate prediction and detection of diabetic retinopathy is a challenging task. This paper develops a machine learning model for detecting Diabetic Retinopathy that is entirely accurate. Pre-trained models such as ResNet50, InceptionV3, Xception, DenseNet121, VGG19, NASNetMobile, MobileNetV2, DensNet169, and DenseNet201 with pooling layer, dense layer, and appropriate dropout layer at the bottom of them were carried out in transfer learning (TL) approach. Data augmentation and regularization was performed to reduce overfitting. Transfer Learning model of DenseNet121, Average and weighted ensemble of DenseNet169 and DenseNet201 TL architectures contribute individually the highest accuracy of 100%, the highest precision, recall, F-1 score of 100%, 100%, and 100%, respectively. | 翻訳日:2023-10-23 14:51:59 公開日:2023-06-03 |
# 断続的に観測可能な熱時間 Thermal time as an unsharp observable ( http://arxiv.org/abs/2306.13774v1 ) ライセンス: Link先を確認 | Jan van Neerven and Pierre Portal | (参考訳) 量子調和振動子に付随するconnes-rovelli熱時間は(非シャープな)観測可能、すなわち正の演算子値測度として記述できることを示す。
さらに, 1次元の自由質量非相対論的粒子と非可換積分により平衡状態が与えられる仮定的物理系への拡張についても述べる。 We show that the Connes-Rovelli thermal time associated with the quantum harmonic oscillator can be described as an (unsharp) observable, that is, as a positive operator valued measure. We furthermore present extensions of this result to the free massless relativistic particle in one dimension and to a hypothetical physical system whose equilibrium state is given by the noncommutative integral. | 翻訳日:2023-07-02 13:36:33 公開日:2023-06-03 |
# ChatGPTを用いた2段階プロンプティングによる教師なし人間活動認識 Unsupervised Human Activity Recognition through Two-stage Prompting with ChatGPT ( http://arxiv.org/abs/2306.02140v1 ) ライセンス: Link先を確認 | Qingxin Xia and Takuya Maekawa and Takahiro Hara | (参考訳) 動作中に日常的に使用する物体を記録できることの利点を提供するウェアラブルセンサ装置は、教師なしの人間活動認識(HAR)の実現を可能にする。
残念なことに、オブジェクトの使用順序を使用する以前の教師なしアプローチでは、通常は人間が手動で用意したアクティビティを適切に記述する必要がある。
代わりに、ChatGPTのLarge Language Model(LLM)に埋め込まれた知識を活用します。
オブジェクトのシーケンスはアクティビティのアイデンティティを強く特徴付けるため、ChatGPTはすでに既存のコンテキストからアクティビティとオブジェクトの関係を学習している可能性がある。
しかしながら、chatgptの以前のプロンプトエンジニアリングは、リストの各単語に割り当てられた同様の重み付けのため、単語のリスト(すなわちオブジェクトのシーケンス)を扱う際に限定的な一般化能力を示す。
本研究では,2段階のプロンプトエンジニアリングを提案し,まずChatGPTを誘導してオブジェクトに関連するアクティビティ記述を生成するとともに,類似したアクティビティを識別するための重要なオブジェクトを強調し,HARに役立つコンテキストを強化するためのアクティビティクラスと説明を出力する。
私たちの知る限りでは、chatgptを使って教師なしの方法でオブジェクトを使ってアクティビティを認識する最初の研究です。
3つのデータセットに対するアプローチを実施し,最先端のパフォーマンスを実証した。 Wearable sensor devices, which offer the advantage of recording daily objects used by a person while performing an activity, enable the feasibility of unsupervised Human Activity Recognition (HAR). Unfortunately, previous unsupervised approaches using the usage sequence of objects usually require a proper description of activities manually prepared by humans. Instead, we leverage the knowledge embedded in a Large Language Model (LLM) of ChatGPT. Because the sequence of objects robustly characterizes the activity identity, it is possible that ChatGPT already learned the association between activities and objects from existing contexts. However, previous prompt engineering for ChatGPT exhibits limited generalization ability when dealing with a list of words (i.e., sequence of objects) due to the similar weighting assigned to each word in the list. In this study, we propose a two-stage prompt engineering, which first guides ChatGPT to generate activity descriptions associated with objects while emphasizing important objects for distinguishing similar activities; then outputs activity classes and explanations for enhancing the contexts that are helpful for HAR. To the best of our knowledge, this is the first study that utilizes ChatGPT to recognize activities using objects in an unsupervised manner. We conducted our approach on three datasets and demonstrated the state-of-the-art performance. | 翻訳日:2023-06-18 13:16:22 公開日:2023-06-03 |
# chatgptを用いた臨床試験の充実 Utilizing ChatGPT to Enhance Clinical Trial Enrollment ( http://arxiv.org/abs/2306.02077v1 ) ライセンス: Link先を確認 | Georgios Peikos, Symeon Symeonidis, Pranav Kasela, Gabriella Pasi | (参考訳) 臨床試験は、新しい医療介入の有効性と医学研究の進歩を評価する上で重要な要素である。
したがって、患者のタイムリー登録は、遅滞や治験の早期終了を防ぐために不可欠である。
この文脈において、Electronic Health Records(EHR)は、資格のある参加者を特定し、登録するための貴重なツールとして登場した。
本研究では,大規模な言語モデルであるchatgptを用いて,非構造化臨床ノートから患者関連情報を抽出し,潜在的に有効な臨床試験を検索するための検索クエリを生成する自動アプローチを提案する。
2つのベンチマーク検索コレクションを用いた経験的評価では,複数の汎用プロンプトとタスク固有プロンプトを用いた場合と比較して検索性能が向上した。
特に、ChatGPT生成クエリは、検索性能において、人間生成クエリよりも優れています。
以上の結果から,ChatGPTを医療サービスの品質を確保し,患者への直接的なリスクを最小限に抑えつつ,臨床治験の増進に活用する可能性が示唆された。 Clinical trials are a critical component of evaluating the effectiveness of new medical interventions and driving advancements in medical research. Therefore, timely enrollment of patients is crucial to prevent delays or premature termination of trials. In this context, Electronic Health Records (EHRs) have emerged as a valuable tool for identifying and enrolling eligible participants. In this study, we propose an automated approach that leverages ChatGPT, a large language model, to extract patient-related information from unstructured clinical notes and generate search queries for retrieving potentially eligible clinical trials. Our empirical evaluation, conducted on two benchmark retrieval collections, shows improved retrieval performance compared to existing approaches when several general-purposed and task-specific prompts are used. Notably, ChatGPT-generated queries also outperform human-generated queries in terms of retrieval performance. These findings highlight the potential use of ChatGPT to enhance clinical trial enrollment while ensuring the quality of medical service and minimizing direct risks to patients. | 翻訳日:2023-06-18 13:16:03 公開日:2023-06-03 |
# テキスト・画像モデルにおける単語レベル記述によるバイアスの解析 Word-Level Explanations for Analyzing Bias in Text-to-Image Models ( http://arxiv.org/abs/2306.05500v1 ) ライセンス: Link先を確認 | Alexander Lin, Lucas Monteiro Paes, Sree Harsha Tanneru, Suraj Srinivas, Himabindu Lakkaraju | (参考訳) テキストから画像へのモデルは文(即ちプロンプト)を取り、この入力プロンプトに関連する画像を生成する。
これらのモデルは、受賞作品、ビデオ、さらには合成データセットなどを生み出している。
しかし、text-to-image(t2i)モデルは人種や性別に基づいてマイノリティを過小表現する画像を生成することができる。
本稿では,入力プロンプト中の単語が生成画像のバイアスの原因となるかを検討する。
本稿では,各単語のスコアをプロンプトで計算する手法を提案する。
本手法は, マスク付き言語モデルを用いて影響度を計算し, 除去によるemph{Explaining by remove}の原理に従う。
本研究では,安定拡散実験を行い,生成画像における社会ステレオタイプの再現性を示す。 Text-to-image models take a sentence (i.e., prompt) and generate images associated with this input prompt. These models have created award wining-art, videos, and even synthetic datasets. However, text-to-image (T2I) models can generate images that underrepresent minorities based on race and sex. This paper investigates which word in the input prompt is responsible for bias in generated images. We introduce a method for computing scores for each word in the prompt; these scores represent its influence on biases in the model's output. Our method follows the principle of \emph{explaining by removing}, leveraging masked language models to calculate the influence scores. We perform experiments on Stable Diffusion to demonstrate that our method identifies the replication of societal stereotypes in generated images. | 翻訳日:2023-06-18 13:09:04 公開日:2023-06-03 |
# JGAT:脳復号のための同時時空間グラフアテンションモデル JGAT: a joint spatio-temporal graph attention model for brain decoding ( http://arxiv.org/abs/2306.05286v1 ) ライセンス: Link先を確認 | Han Yi Chiu, Liang Zhao, Anqi Wu | (参考訳) 脳のニューラルネットのデコーディングは、様々なタイプの脳疾患や認知刺激をよく理解するための神経科学において興味深い話題となっている。
機能接続性(FC)や構造接続性(SC)といった様々な種類の接続をマルチモーダルイメージング技術から統合することで、補完的な情報を考慮に入れ、より優れた復号化能力を得ることができる。
しかし、FCとSCを統合する従来のアプローチは、脳神経ネットワークを過度に一般化する大きなチャンスとなる、ダイナミックなバリエーションを見落としている。
本稿では,マルチモーダル時間グラフアテンションネットワークフレームワークであるJoint kernel Graph Attention Network (JGAT)を提案する。
機能的磁気共鳴画像(fmri)と拡散強調画像(dwi)からのデータを統合し、同時に動的情報を保存する。
我々は、ヒトコネクトームプロジェクト(hcp)の7t fmriデータセットのうち3つと動物の神経記録から1つの4つの4つの独立したデータセットで、jgatと脳デコードタスクを行います。
さらに,注意スコア (as) とフレームスコア (fs) をモデルから計算し, 学習することにより, 有意な時間的セグメントを同定し, hcpデータセットの時間領域に沿って有意義な動的経路を構築することができる。
JGATモデルのコードに対するURLは、https://github.com/BRAINML-GT/JGATである。 The decoding of brain neural networks has been an intriguing topic in neuroscience for a well-rounded understanding of different types of brain disorders and cognitive stimuli. Integrating different types of connectivity, e.g., Functional Connectivity (FC) and Structural Connectivity (SC), from multi-modal imaging techniques can take their complementary information into account and therefore have the potential to get better decoding capability. However, traditional approaches for integrating FC and SC overlook the dynamical variations, which stand a great chance to over-generalize the brain neural network. In this paper, we propose a Joint kernel Graph Attention Network (JGAT), which is a new multi-modal temporal graph attention network framework. It integrates the data from functional Magnetic Resonance Images (fMRI) and Diffusion Weighted Imaging (DWI) while preserving the dynamic information at the same time. We conduct brain-decoding tasks with our JGAT on four independent datasets: three of 7T fMRI datasets from the Human Connectome Project (HCP) and one from animal neural recordings. Furthermore, with Attention Scores (AS) and Frame Scores (FS) computed and learned from the model, we can locate several informative temporal segments and build meaningful dynamical pathways along the temporal domain for the HCP datasets. The URL to the code of JGAT model: https://github.com/BRAINML-GT/JGAT. | 翻訳日:2023-06-11 13:17:31 公開日:2023-06-03 |
# サービスとしての量子コンピューティングのための参照アーキテクチャ A Reference Architecture for Quantum Computing as a Service ( http://arxiv.org/abs/2306.04578v1 ) ライセンス: Link先を確認 | Aakash Ahmad, Ahmed B. Altamimi, Jamal Aqib | (参考訳) 量子コンピュータ(QC)は、デジタル回路とモジュラーソフトウェアによって駆動される従来のシステムやプラットフォームを、量子力学の原理に基づいて動作するハードウェアとソフトウェアで置き換えることを目的としている。
量子力学に依存するqcは、量子回路(量子ゲートを操作する量子ビット)を利用して、従来のデジタルコンピューティングシステムよりも「量子計算超越性」を達成することができる。
現在、量子システムの大規模導入を妨げる問題は、古典的なコンピューティングやソフトウェア工学の課題と比較して、QCの構築、保守、および/またはプログラミングが複雑で根本的に異なるエンジニアリングパラダイムであるという事実に根ざしている。
量子サービス指向(quantum service orientation)は、サービスコンピューティングと量子ソフトウェア工学(quantum software engineering, QSE)の研究を相乗するソリューションであり、開発者とユーザが、ペイパーショットユーティリティコンピューティングモデルに基づいて量子ソフトウェアサービスを構築して利用できるようにする。
pay-per-shotモデルは量子処理ユニットでの命令の単一実行を表しており、ベンダー(例えばamazon braket)が量子システムを所有したり維持したりする必要のない企業や個人に対して、qcプラットフォーム、シミュレーター、ソフトウェアサービスなどを提供することができる。
この研究は貢献する
1)量子コンピューティングをサービスとして実現するためのリファレンスアーキテクチャの開発
2)アーキテクチャ上のユースケースとしての量子古典的分割パターンによるマイクロサービスの実装
3)22名の実践者からのフィードバックに基づいて基準アーキテクチャを評価する。
QSEの文脈では、量子コンピューティング・アズ・ア・サービス(QCaaS)を設計・実装する新たな未来的課題に取り組むために、再利用知識とベストプラクティスを促進するためにアーキテクチャ手法とサービス指向パターンを統合することに焦点を当てている。 Quantum computers (QCs) aim to disrupt the status-quo of computing -- replacing traditional systems and platforms that are driven by digital circuits and modular software -- with hardware and software that operates on the principle of quantum mechanics. QCs that rely on quantum mechanics can exploit quantum circuits (i.e., quantum bits for manipulating quantum gates) to achieve "quantum computational supremacy" over traditional, i.e., digital computing systems. Currently, the issues that impede mass-scale adoption of quantum systems are rooted in the fact that building, maintaining, and/or programming QCs is a complex and radically distinct engineering paradigm when compared to challenges of classical computing and software engineering. Quantum service orientation is seen as a solution that synergises the research on service computing and quantum software engineering (QSE) to allow developers and users to build and utilise quantum software services based on pay-per-shot utility computing model. The pay-per-shot model represents a single execution of instruction on quantum processing unit and it allows vendors (e.g., Amazon Braket) to offer their QC platforms, simulators, software services etc. to enterprises and individuals who do not need to own or maintain quantum systems. This research contributes by 1) developing a reference architecture for enabling quantum computing as a service, 2) implementing microservices with the quantum-classic split pattern as an architectural use-case, and 3) evaluating the reference architecture based on feedback by 22 practitioners. In the QSE context, the research focuses on unifying architectural methods and service-orientation patterns to promote reuse knowledge and best practices to tackle emerging and futuristic challenges of architecting and implementing Quantum Computing as a Service (QCaaS). | 翻訳日:2023-06-08 13:23:17 公開日:2023-06-03 |
# 修正ピンを用いたfokas-lenells方程式のデータ駆動局所波解 Data driven localized wave solution of the Fokas-Lenells equation using modified PINN ( http://arxiv.org/abs/2306.03105v1 ) ライセンス: Link先を確認 | Gautam Kumar Saharia, Sagardeep Talukdar, Riki Dutta and Sudipta Nandy | (参考訳) 物理情報ニューラルネットワーク(PINN)を用いて,Fokas-Lenells方程式のデータ駆動局所波解について検討した。
残留損失関数に制御パラメータを組み込むことにより,基礎的なPINNを改善する。
また、PINNを変更するための別の損失項として保存量を追加します。
修正PINNを用いて、フォカス・レネルス方程式のデータ駆動型明るいソリトンと暗いソリトン解を得る。
保存量情報損失関数は、予測解と正確なソリトン解の間の相対l2誤差の点でより精度が向上する。
本研究は,非線形光学および非線形物理学の他の分野における深層学習の応用を研究する上で有用であると期待する。
ソースコードはhttps://github.com/gautamksaharia/Fokas-Lenellsで入手できる。 We investigate data driven localized wave solutions of the Fokas-Lenells equation by using physics informed neural network(PINN). We improve basic PINN by incorporating control parameters into the residual loss function. We also add conserve quantity as another loss term to modify the PINN. Using modified PINN we obtain the data driven bright soliton and dark soliton solutions of Fokas-Lenells equation. Conserved quantities informed loss function achieve more accuracy in terms of relative L2 error between predicted and exact soliton solutions. We hope that the present investigation would be useful to study the applications of deep learning in nonlinear optics and other branches of nonlinear physics. Source codes are available at https://github.com/gautamksaharia/Fokas-Lenells | 翻訳日:2023-06-07 19:09:16 公開日:2023-06-03 |
# シミュレートされたエキスパート・パーソナライズによる指導シナリオ--認知作業を行うための驚くべき戦略 Guided scenarios with simulated expert personae: a remarkable strategy to perform cognitive work ( http://arxiv.org/abs/2306.03104v1 ) ライセンス: Link先を確認 | David Van Buren | (参考訳) 大きな言語モデル(LLM)は、人間の知識と文学の実質的なコーパスに基づいて訓練され、そのコーパスから大量の事実を扱う。
驚くべきことに、彼らはコーパス内で捕獲されたペルソナの行動を再現することもできます。
シミュレーションされたペルソナのチームを形成し、ステージを設定するコンテキストを提供し、穏やかなプロンプトを提供することで、専門家の振る舞いを導き出し、有意義な認知作業を行うことができる。
この戦略の威力は、llm応答の事実性を攻撃することと、量子光学において最近発表された結果を再現することの2つの例で示される。 Large language models (LLMs) trained on a substantial corpus of human knowledge and literature productively work with a large array of facts from that corpus. Surprisingly, they are also able to re-create the behaviors of personae that are captured within the corpus. By forming teams of simulated personae, supplying contexts that set the stage, and providing gentle prompts, one can move through scenarios that elicit expert behavior to perform meaningful cognitive work. The power of this strategy is demonstrated with two examples, one attacking factuality of LLM responses and the other reproducing a very recently published result in quantum optics. | 翻訳日:2023-06-07 19:09:03 公開日:2023-06-03 |
# オンラインタクシー配車システムにおける乗客起源推定モデルの提案 Proposing a Model for Predicting Passenger Origin-Destination in Online Taxi-Hailing Systems ( http://arxiv.org/abs/1910.08145v4 ) ライセンス: Link先を確認 | Pouria Golshanrad, Hamid Mahini, Behnam Bahrak | (参考訳) 交通計画、交通管理、発送最適化の重要性から、乗客の発着先を予測することが、インテリジェント交通システム管理にとって重要な要件となっている。
本研究では,特定の時間帯内における旅行の起源と目的地を予測するモデルを提案する。
有意義な移動フローを導出するために,始点と目的地のゾーンに対して最大クラスターサイズ制約を持つ4次元空間におけるk平均クラスタリングを用いる。
クラスタ数が多ければ,非負の行列分解を利用して,移動クラスタの数を削減できる。
さらに,各クラスタの移動数を予測するために,スタックリカレントニューラルネットワークモデルを実装した。
既存モデルとの比較により,提案モデルが1時間窓に対して5~7\%低平均絶対パーセンテージエラー(mape)を,30分窓に対して14\%低いmapeを達成できることが判明した。 Due to the significance of transportation planning, traffic management, and dispatch optimization, predicting passenger origin-destination has emerged as a crucial requirement for intelligent transportation systems management. In this study, we present a model designed to forecast the origin and destination of travels within a specified time window. To derive meaningful travel flows, we employ K-means clustering in a four-dimensional space with a maximum cluster size constraint for origin and destination zones. Given the large number of clusters, we utilize non-negative matrix factorization to reduce the number of travel clusters. Furthermore, we implement a stacked recurrent neural network model to predict the travel count in each cluster. A comparison of our results with existing models reveals that our proposed model achieves a 5-7\% lower mean absolute percentage error (MAPE) for 1-hour time windows and a 14\% lower MAPE for 30-minute time windows. | 翻訳日:2023-06-07 06:30:25 公開日:2023-06-03 |
# ガウス過程多フォールドクロスバリデーション残差の高速計算とその共分散 Fast calculation of Gaussian Process multiple-fold cross-validation residuals and their covariances ( http://arxiv.org/abs/2101.03108v3 ) ライセンス: Link先を確認 | David Ginsbourger and Cedric Sch\"arer | (参考訳) 高速ガウス過程の残余式を複数倍のクロスバリデーションに一般化し、単純および普遍クリギングフレームワークにおけるクロスバリデーション残余の共分散構造を明らかにする。
結果の共分散がモデル診断にどのように影響するかを説明する。
さらに, クロスバリデーションに基づくスケールパラメータ推定における残差の共分散を補正するノイズレス観測の場合, MLEに遡ることを示す。
また,疑似相似性と帰納法の違いが,残差共分散の会計にどのように影響するかを,より広い設定で強調する。
提案するクロスバリデーション残差の高速計算をnaive実装に対して実装し,ベンチマークを行った。
数値解析実験は、我々のアプローチが実現した精度と実質的なスピードアップを浮き彫りにする。
しかし、計算コストの主な要因に関する議論や数値ベンチマークによって支持されるように、折りたたみ数(例えば、同じサイズを共有する)が減少するにつれて、スピードアップは急激に減少する。
汚染局在テストケースへの応用は、群集化された観察を折りたたみでグループ化することで、モデル評価とパラメータ適合性を改善することができることを示している。
全体として,本研究の結果は,高速な多面的クロスバリデーションを実現し,モデル診断に直接的な影響をもたらし,ハイパーパラメータフィッティングや目標指向の折り畳み設計の将来的な分野への道を開いた。 We generalize fast Gaussian process leave-one-out formulae to multiple-fold cross-validation, highlighting in turn the covariance structure of cross-validation residuals in both Simple and Universal Kriging frameworks. We illustrate how resulting covariances affect model diagnostics. We further establish in the case of noiseless observations that correcting for covariances between residuals in cross-validation-based estimation of the scale parameter leads back to MLE. Also, we highlight in broader settings how differences between pseudo-likelihood and likelihood methods boil down to accounting or not for residual covariances. The proposed fast calculation of cross-validation residuals is implemented and benchmarked against a naive implementation. Numerical experiments highlight the accuracy and substantial speed-ups that our approach enables. However, as supported by a discussion on main drivers of computational costs and by a numerical benchmark, speed-ups steeply decline as the number of folds (say, all sharing the same size) decreases. An application to a contaminant localization test case illustrates that grouping clustered observations in folds may help improving model assessment and parameter fitting compared to Leave-One-Out. Overall, our results enable fast multiple-fold cross-validation, have direct consequences in model diagnostics, and pave the way to future work on hyperparameter fitting and on the promising field of goal-oriented fold design. | 翻訳日:2023-06-07 06:12:04 公開日:2023-06-03 |
# ペアワイズインタラクションの推定と活用によるノイズ-ロバストグラフ学習 Noise-robust Graph Learning by Estimating and Leveraging Pairwise Interactions ( http://arxiv.org/abs/2106.07451v2 ) ライセンス: Link先を確認 | Xuefeng Du, Tian Bian, Yu Rong, Bo Han, Tongliang Liu, Tingyang Xu, Wenbing Huang, Yixuan Li, Junzhou Huang | (参考訳) グラフニューラルネットワーク(gnns)に厳密なノイズの多いラベルの下でノードを正確に分類することを教えることは、現実世界のグラフ学習アプリケーションにおいて重要な問題であるが、現在未検討である。
ペアワイズ学習法は教師付きメトリック学習や教師なしコントラスト学習において有望であるが、ノード間の構造的ペアワイズ相互作用(pi)が豊富であり、ポイントワイズ法よりもラベルノイズ学習に有用である、ノイズグラフについてはあまり研究されていない。
本稿では,グラフ上のノイズノード分類のためのペアワイズフレームワークを提案することにより,ノイズノードクラスラベルからのポイントワイズ学習に加えて,PIを一次学習プロキシとして活用する。
提案するフレームワークであるPI-GNNは,(1)信頼度を考慮したPIラベル推定モデルであり,両者のノードが同一のノードラベルを共有しているかどうかを判断し,(2)頑健なノード分類のためのノード分類モデルを標準化するために,推定PIラベルを利用する分離学習手法である。
異なるデータセットとGNNアーキテクチャに関する大規模な実験は、PI-GNNの有効性を示し、最先端の手法よりも有望な改善をもたらす。
コードはhttps://github.com/tianbian95/pi-gnnで公開されている。 Teaching Graph Neural Networks (GNNs) to accurately classify nodes under severely noisy labels is an important problem in real-world graph learning applications, but is currently underexplored. Although pairwise training methods have demonstrated promise in supervised metric learning and unsupervised contrastive learning, they remain less studied on noisy graphs, where the structural pairwise interactions (PI) between nodes are abundant and thus might benefit label noise learning rather than the pointwise methods. This paper bridges the gap by proposing a pairwise framework for noisy node classification on graphs, which relies on the PI as a primary learning proxy in addition to the pointwise learning from the noisy node class labels. Our proposed framework PI-GNN contributes two novel components: (1) a confidence-aware PI estimation model that adaptively estimates the PI labels, which are defined as whether the two nodes share the same node labels, and (2) a decoupled training approach that leverages the estimated PI labels to regularize a node classification model for robust node classification. Extensive experiments on different datasets and GNN architectures demonstrate the effectiveness of PI-GNN, yielding a promising improvement over the state-of-the-art methods. Code is publicly available at https://github.com/TianBian95/pi-gnn. | 翻訳日:2023-06-07 06:00:26 公開日:2023-06-03 |
# 分散適応最近傍分類器:アルゴリズムと理論 Distributed Adaptive Nearest Neighbor Classifier: Algorithm and Theory ( http://arxiv.org/abs/2105.09788v2 ) ライセンス: Link先を確認 | Ruiqi Liu, Ganggang Xu, Zuofeng Shang | (参考訳) データが極端に大きい場合や、物理的に異なる場所に格納されている場合、分散隣人分類器(NN)は魅力的な分類ツールである。
本稿では,データ駆動の基準によって確率的に選択されるチューニングパラメータを,近隣住民の個数で表す分散適応型NN分類器を提案する。
最適チューニングパラメータを探索する際には早期停止規則が提案され、これは計算を高速化するだけでなく、提案アルゴリズムの有限サンプル性能も改善する。
分散適応nn分類器の過大リスクの収束率を,様々なサブサンプルサイズ組成で検討した。
特に,サブサンプルサイズが十分大きい場合には,提案する分類器がほぼ最適収束率を達成することを示す。
提案手法の有効性はシミュレーション研究や実世界のデータセットへの実証的な応用を通じて実証される。 When data is of an extraordinarily large size or physically stored in different locations, the distributed nearest neighbor (NN) classifier is an attractive tool for classification. We propose a novel distributed adaptive NN classifier for which the number of nearest neighbors is a tuning parameter stochastically chosen by a data-driven criterion. An early stopping rule is proposed when searching for the optimal tuning parameter, which not only speeds up the computation but also improves the finite sample performance of the proposed Algorithm. Convergence rate of excess risk of the distributed adaptive NN classifier is investigated under various sub-sample size compositions. In particular, we show that when the sub-sample sizes are sufficiently large, the proposed classifier achieves the nearly optimal convergence rate. Effectiveness of the proposed approach is demonstrated through simulation studies as well as an empirical application to a real-world dataset. | 翻訳日:2023-06-07 05:59:24 公開日:2023-06-03 |
# 概念活性化ベクトルを用いたレコメンダシステムにおけるソフト属性のパーソナライズされたセマンティクスの発見 Discovering Personalized Semantics for Soft Attributes in Recommender Systems using Concept Activation Vectors ( http://arxiv.org/abs/2202.02830v3 ) ライセンス: Link先を確認 | Christina G\"opfert and Alex Haig and Yinlam Chow and Chih-wei Hsu and Ivan Vendrov and Tyler Lu and Deepak Ramachandran and Hubert Pham and Mohammad Ghavamzadeh and Craig Boutilier | (参考訳) インタラクティブなレコメンダシステムは、従来のレコメンダシステム(クリック、アイテム消費、レーティングなど)が使用する原始的なユーザフィードバックの制限を克服するための有望なパラダイムとして登場した。
ユーザーはインテント、好み、制約、コンテキストをよりリッチな方法で表現でき、しばしば自然言語(対面検索や対話を含む)を使って表現することができる。
しかし、このフィードバックを使うための最も効果的な方法を見つけるには、さらなる研究が必要である。
課題の1つは、ユーザのセマンティックな意図を、望ましい項目を記述するためにしばしば使用されるオープンエンドの用語や属性から推測し、それを推奨結果を洗練するために使用することである。
最近開発された機械学習におけるモデル解釈可能性のアプローチである概念アクティベーションベクトル(CAV) [26] を活用して、そのような属性のセマンティクスをキャプチャし、レコメンデーションシステムのユーザの好みや振る舞いに結びつける表現を学習するフレームワークを開発する。
このアプローチの新たな特徴は,主観的属性と主観的属性(主観的度と感覚の両方)を区別し,主観的属性の感覚を異なるユーザと関連付ける能力である。
我々は,CAV表現がユーザの主観的セマンティクスを正確に解釈するだけでなく,インタラクティブな項目評定を通じてレコメンデーションを改善するためにも利用できることを示す。 Interactive recommender systems have emerged as a promising paradigm to overcome the limitations of the primitive user feedback used by traditional recommender systems (e.g., clicks, item consumption, ratings). They allow users to express intent, preferences, constraints, and contexts in a richer fashion, often using natural language (including faceted search and dialogue). Yet more research is needed to find the most effective ways to use this feedback. One challenge is inferring a user's semantic intent from the open-ended terms or attributes often used to describe a desired item, and using it to refine recommendation results. Leveraging concept activation vectors (CAVs) [26], a recently developed approach for model interpretability in machine learning, we develop a framework to learn a representation that captures the semantics of such attributes and connects them to user preferences and behaviors in recommender systems. One novel feature of our approach is its ability to distinguish objective and subjective attributes (both subjectivity of degree and of sense), and associate different senses of subjective attributes with different users. We demonstrate on both synthetic and real-world data sets that our CAV representation not only accurately interprets users' subjective semantics, but can also be used to improve recommendations through interactive item critiquing. | 翻訳日:2023-06-07 05:53:46 公開日:2023-06-03 |
# 計算コストの高い地質モデルのための代理支援分散Swarm最適化 Surrogate-assisted distributed swarm optimisation for computationally expensive geoscientific models ( http://arxiv.org/abs/2201.06843v2 ) ライセンス: Link先を確認 | Rohitash Chandra, Yash Vardhan Sharma | (参考訳) 進化的アルゴリズムは、勾配を得るのに困難であるモデル、例えば地質学的景観進化モデルに有利な勾配のない最適化を提供する。
しかし、そのようなモデルは計算コストが高く、並列コンピューティングの困難を伴う分散swarmベースの最適化さえある。
課題に対処するために,サロゲート支援最適化などの効率的な戦略を取り入れることができるが,サロゲートベースモデルトレーニングのためのプロセス間通信の実装は困難である。
本稿では,並列コンピューティングアーキテクチャ上での分散Swarm最適化において,サロゲートに基づく適合度評価を実装した。
筆者らはまず,一連のベンチマーク最適化問題に基づいてフレームワークをテストし,地形進化モデルを備えた地質学的モデルに適用する。
この結果は,ベンチマーク関数とバッドランド景観の進化モデルに対して非常に有望な結果を示す。
並列計算機環境におけるサロゲートを用いて最適化解の精度を維持しつつ計算時間を短縮する。
この論文の主な貢献は、将来古気候や地形の理解を深める上で役立つ地球科学的モデルへの代理に基づく最適化の適用である。 Evolutionary algorithms provide gradient-free optimisation which is beneficial for models that have difficulty in obtaining gradients; for instance, geoscientific landscape evolution models. However, such models are at times computationally expensive and even distributed swarm-based optimisation with parallel computing struggles. We can incorporate efficient strategies such as surrogate-assisted optimisation to address the challenges; however, implementing inter-process communication for surrogate-based model training is difficult. In this paper, we implement surrogate-based estimation of fitness evaluation in distributed swarm optimisation over a parallel computing architecture. We first test the framework on a set of benchmark optimisation problems and then apply it to a geoscientific model that features a landscape evolution model. Our results demonstrate very promising results for benchmark functions and the Badlands landscape evolution model. We obtain a reduction in computational time while retaining optimisation solution accuracy through the use of surrogates in a parallel computing environment. The major contribution of the paper is in the application of surrogate-based optimisation for geoscientific models which can in the future help in a better understanding of paleoclimate and geomorphology. | 翻訳日:2023-06-07 05:52:13 公開日:2023-06-03 |
# 超伝導オンチップブラックホールを用いたホーキング放射と曲面時空の量子シミュレーション Quantum simulation of Hawking radiation and curved spacetime with a superconducting on-chip black hole ( http://arxiv.org/abs/2111.11092v3 ) ライセンス: Link先を確認 | Yun-Hao Shi, Run-Qiu Yang, Zhongcheng Xiang, Zi-Yong Ge, Hao Li, Yong-Yi Wang, Kaixuan Huang, Ye Tian, Xiaohui Song, Dongning Zheng, Kai Xu, Rong-Gen Cai and Heng Fan | (参考訳) ホーキング放射は、ブラックホールの事象の地平線を横切る量子トンネルとして理解できるブラックホールの量子的特徴の1つであるが、天体物理学的なブラックホールのホーキング放射を直接観測することは極めて困難である。
本稿では,10個の超伝導トランスモン量子ビットの鎖と9個のトランスモン型チューナブルカップラを介する相互作用を用いて,アナログブラックホールのフェルミオン格子モデル型実現について報告する。
湾曲した時空における準粒子の量子ウォークはブラックホール近傍の重力効果を反映しており、ホーキング放射の挙動は地平線外の7量子ビットの状態トモグラフィーによって検証される。
さらに、曲線時空における絡み合いのダイナミクスを直接測定する。
この結果は、波長可変カプラを備えたプログラム可能な超伝導プロセッサを用いてブラックホールの関連機能を探求するより多くの関心を刺激するであろう。 Hawking radiation is one of the quantum features of a black hole that can be understood as a quantum tunneling across the event horizon of the black hole, but it is quite difficult to directly observe the Hawking radiation of an astrophysical black hole. Here, we report a fermionic lattice-model-type realization of an analogue black hole by using a chain of 10 superconducting transmon qubits with interactions mediated by 9 transmon-type tunable couplers. The quantum walks of quasi-particle in the curved spacetime reflect the gravitational effect near the black hole, resulting in the behaviour of stimulated Hawking radiation, which is verified by the state tomography measurement of all 7 qubits outside the horizon. In addition, the dynamics of entanglement in the curved spacetime is directly measured. Our results would stimulate more interests to explore the related features of black holes using the programmable superconducting processor with tunable couplers. | 翻訳日:2023-06-07 05:50:36 公開日:2023-06-03 |
# ラベル差分プライバシーはラベル推論攻撃を防ぐか? Does Label Differential Privacy Prevent Label Inference Attacks? ( http://arxiv.org/abs/2202.12968v2 ) ライセンス: Link先を確認 | Ruihan Wu, Jin Peng Zhou, Kilian Q. Weinberger and Chuan Guo | (参考訳) ラベル差分プライバシー(ラベルDP)は、パブリック機能と機密性の高いプライベートラベルを持つデータセット上で、プライベートMLモデルをトレーニングするための一般的なフレームワークである。
その厳格なプライバシー保証にもかかわらず、実際にはラベルDPがラベル推論攻撃(LIAs):ラベルDPで訓練されたモデルは、公開トレーニング機能で評価され、高い精度で保護されるように設計された非常にプライベートなラベルを評価できる。
本研究では,この現象はパラドックス的ではなく,ラベルDPはベイズ分類器を用いたトレーニングラベルの予測と比較して,LAAの利点を抑えるように設計されていると論じる。
label-dp $\epsilon=0$ この利点はゼロであるため、最適な攻撃はベイズ分類器に従って予測し、トレーニングラベルとは独立である。
label-dpが与える意味的保護を示し、特定のレベル以下のliaの脅威を制限するために$\varepsilon$を選択する方法のガイドラインを提供します。
最後に,本研究の結果が,合成データと実世界データの両方に対するシミュレーション攻撃の挙動を密接に捉えていることを示す。 Label differential privacy (label-DP) is a popular framework for training private ML models on datasets with public features and sensitive private labels. Despite its rigorous privacy guarantee, it has been observed that in practice label-DP does not preclude label inference attacks (LIAs): Models trained with label-DP can be evaluated on the public training features to recover, with high accuracy, the very private labels that it was designed to protect. In this work, we argue that this phenomenon is not paradoxical and that label-DP is designed to limit the advantage of an LIA adversary compared to predicting training labels using the Bayes classifier. At label-DP $\epsilon=0$ this advantage is zero, hence the optimal attack is to predict according to the Bayes classifier and is independent of the training labels. Our bound shows the semantic protection conferred by label-DP and gives guidelines on how to choose $\varepsilon$ to limit the threat of LIAs below a certain level. Finally, we empirically demonstrate that our result closely captures the behavior of simulated attacks on both synthetic and real world datasets. | 翻訳日:2023-06-07 05:41:20 公開日:2023-06-03 |
# 運動予測のための時空間グラフの学習制約付き動的相関 Learning Constrained Dynamic Correlations in Spatiotemporal Graphs for Motion Prediction ( http://arxiv.org/abs/2204.01297v5 ) ライセンス: Link先を確認 | Jiajun Fu, Fuxing Yang, Yonghao Dang, Xiaoli Liu, Jianqin Yin | (参考訳) 複雑な時空間的特徴モデリングのため、人間の運動予測は困難である。
グラフ畳み込みネットワーク(GCN)は、明示的な接続モデリングにおいてその優位性のために広く利用されている。
GCN内では、グラフ相関隣接行列が特徴集約を駆動し、予測運動特徴を抽出する鍵となる。
各フレームの時空間相関と各関節の時空間相関に時空間相関を分解する。
これらの相関を直接パラメータ化することは、すべてのフレームとすべての関節で共有される共通関係を表現するために冗長パラメータを導入する。
さらに、時空間グラフの隣接行列は、異なる動きサンプルに対して同じであり、サンプルワイド対応のばらつきを反映できない。
これら2つのボトルネックを克服するために、動的時空間分解GC(DSTD-GC)を提案する。
dstd-gcの鍵は、全てのフレーム/ジョイントで共有される空間的/時間的バニラ隣接行列として、共通の静的制約を明示的にパラメータ化し、調整モデリング関数で各フレーム/ジョイントの対応分散を動的に抽出する制約付き動的相関モデリングである。
各サンプルについて、共通の制約付き隣接行列は一般的な運動パターンを表すために固定され、抽出された分散は特定のパターン調整で行列を完備する。
一方、時空間グラフ上のGCを統一形式に数学的に再構成し、DSTD-GCが他のGCの制約を緩和し、表現能力を向上する。
DSTD-GCと事前知識を組み合わせることで、DSTD-GCNと呼ばれる強力な時空間GCNを提案し、SOTA法を$3.9\% \sim 8.7\%$と$5.0\% \sim 96.9\%$より少ないパラメータで上回る。 Human motion prediction is challenging due to the complex spatiotemporal feature modeling. Among all methods, graph convolution networks (GCNs) are extensively utilized because of their superiority in explicit connection modeling. Within a GCN, the graph correlation adjacency matrix drives feature aggregation and is the key to extracting predictive motion features. State-of-the-art methods decompose the spatiotemporal correlation into spatial correlations for each frame and temporal correlations for each joint. Directly parameterizing these correlations introduces redundant parameters to represent common relations shared by all frames and all joints. Besides, the spatiotemporal graph adjacency matrix is the same for different motion samples and cannot reflect sample-wise correspondence variances. To overcome these two bottlenecks, we propose dynamic spatiotemporal decompose GC (DSTD-GC), which only takes 28.6% parameters of the state-of-the-art GC. The key of DSTD-GC is constrained dynamic correlation modeling, which explicitly parameterizes the common static constraints as a spatial/temporal vanilla adjacency matrix shared by all frames/joints and dynamically extracts correspondence variances for each frame/joint with an adjustment modeling function. For each sample, the common constrained adjacency matrices are fixed to represent generic motion patterns, while the extracted variances complete the matrices with specific pattern adjustments. Meanwhile, we mathematically reformulate GCs on spatiotemporal graphs into a unified form and find that DSTD-GC relaxes certain constraints of other GC, which contributes to a better representation capability. By combining DSTD-GC with prior knowledge, we propose a powerful spatiotemporal GCN called DSTD-GCN, which outperforms SOTA methods by $3.9\% \sim 8.7\%$ in prediction accuracy with $55.0\% \sim 96.9\%$ fewer parameters. | 翻訳日:2023-06-07 05:32:21 公開日:2023-06-03 |
# グラフパターン抽出のための機械学習ソリューションに関する調査 A Survey on Machine Learning Solutions for Graph Pattern Extraction ( http://arxiv.org/abs/2204.01057v3 ) ライセンス: Link先を確認 | Kai Siong Yow and Ningyi Liao and Siqiang Luo and Reynold Cheng and Chenhao Ma and Xiaolin Han | (参考訳) サブグラフは、与えられたグラフの頂点と辺のサブセットを使用して構築される。
部分グラフに遺伝するグラフの性質は多数存在する。
したがって、異なるコミュニティの研究者は、通常のグラフ上の多くのサブグラフ問題の研究に多くの注意を払ってきた。
多くのアルゴリズムが部分グラフ問題の研究において提案され、あるグラフのパターンや構造を抽出するアプローチが一般的である。
ある種のグラフの複雑な構造と既存のフレームワークの全体的な性能向上のため、機械学習技術は近年、様々なサブグラフ問題に対処するために採用されている。
本稿では,機械学習手法を用いて取り組んだ5つの既知のサブグラフ問題の包括的レビューを行う。
これらは部分グラフ同型(カウントとマッチングの両方)、最大共通部分グラフ、コミュニティ検出、コミュニティ検索問題である。
提案手法について概説し,その設計と性能について検討する。
また,各問題に対する非学習型アルゴリズムについても検討し,簡単な議論を行う。
次に,この分野で有望な研究方向を提案し,同様の戦略を用いて関連する部分グラフ問題に取り組むことを期待する。
近年,機械学習技術の採用が著しい成長を遂げているため,本調査は関連研究コミュニティの参考となるだろうと考えている。 A subgraph is constructed by using a subset of vertices and edges of a given graph. There exist many graph properties that are hereditary for subgraphs. Hence, researchers from different communities have paid a great deal of attention in studying numerous subgraph problems, on top of the ordinary graph problems. Many algorithms are proposed in studying subgraph problems, where one common approach is by extracting the patterns and structures of a given graph. Due to the complex structures of certain types of graphs and to improve overall performances of the existing frameworks, machine learning techniques have recently been employed in dealing with various subgraph problems. In this article, we present a comprehensive review on five well known subgraph problems that have been tackled by using machine learning methods. They are subgraph isomorphism (both counting and matching), maximum common subgraph, community detection and community search problems. We provide an outline of each proposed method, and examine its designs and performances. We also explore non-learning-based algorithms for each problem and a brief discussion is given. We then suggest some promising research directions in this area, hoping that relevant subgraph problems can be tackled by using a similar strategy. Since there is a huge growth in employing machine learning techniques in recent years, we believe that this survey will serve as a good reference point to relevant research communities. | 翻訳日:2023-06-07 05:31:46 公開日:2023-06-03 |
# MMER:音声感情認識のためのマルチモーダルマルチタスク学習 MMER: Multimodal Multi-task Learning for Speech Emotion Recognition ( http://arxiv.org/abs/2203.16794v5 ) ライセンス: Link先を確認 | Sreyan Ghosh and Utkarsh Tyagi and S Ramaneswaran and Harshvardhan Srivastava and Dinesh Manocha | (参考訳) 本稿では,音声感情認識のためのマルチモーダルマルチタスク学習手法MMERを提案する。
MMERは、テキストと音響モダリティの早期融合と相互自己認識に基づく新しいマルチモーダルネットワークを活用し、音声発話から感情認識を学ぶための3つの新しい補助的タスクを解決する。
実際、MMERはすべてのベースラインを上回り、IEMOCAPベンチマークで最先端のパフォーマンスを達成する。
また,提案手法の有効性を証明するため,広範囲なアブレーション研究と結果分析を行った。 In this paper, we propose MMER, a novel Multimodal Multi-task learning approach for Speech Emotion Recognition. MMER leverages a novel multimodal network based on early-fusion and cross-modal self-attention between text and acoustic modalities and solves three novel auxiliary tasks for learning emotion recognition from spoken utterances. In practice, MMER outperforms all our baselines and achieves state-of-the-art performance on the IEMOCAP benchmark. Additionally, we conduct extensive ablation studies and results analysis to prove the effectiveness of our proposed approach. | 翻訳日:2023-06-07 05:31:28 公開日:2023-06-03 |
# 敵のCNNはどの程度説明できるのか? How explainable are adversarially-robust CNNs? ( http://arxiv.org/abs/2205.13042v2 ) ライセンス: Link先を確認 | Mehdi Nourelahi, Lars Kotthoff, Peijie Chen, Anh Nguyen | (参考訳) 既存の畳み込みニューラルネットワーク(cnns)の重要な3つの基準は、(1)テストセット精度、(2)分散精度、(3)説明可能性である。
これらの基準は独立して研究されているが、それらの関係は不明である。
例えば、ディストリビューション性能の強いCNNにも、より強力な説明性があるのでしょうか?
さらに、以前の機能重要度調査では、2-3の一般的なバニライメージネット訓練CNNの手法しか評価されておらず、これらの手法が他のアーキテクチャやトレーニングアルゴリズムのCNNにどのように一般化されるかは分かっていない。
ここでは,3つのトレーニングアルゴリズムと5つのCNNアーキテクチャからなる9つの特徴重要度法と12のImageNet学習CNNを用いて,3つの基準の関係を大規模に評価する。
ml実践者にとって重要な洞察とアドバイスがいくつかあります。
第一に、逆ロバストなcnnは、勾配に基づく帰属法(cam法や摂動法ではなく)で説明可能性スコアが高い。
第二に、advpropモデルはバニラモデルとロバストモデルの両方よりも精度が高いにもかかわらず、説明可能性に優れていない。
第3に、9つの特徴属性法のうち、GradCAMとRISEは一貫して最良の方法である。
第4に、cnnの信頼度スコア分布と強い相関があるため、挿入と削除はそれぞれバニラモデルとロバストモデルに偏りがある。
5つ目は、CNNが3つの基準の中で最高であるとは見つからなかったことですが、興味深いことに、CNNはより正確になるにつれて解釈するのが難しくなっています。 Three important criteria of existing convolutional neural networks (CNNs) are (1) test-set accuracy; (2) out-of-distribution accuracy; and (3) explainability. While these criteria have been studied independently, their relationship is unknown. For example, do CNNs that have a stronger out-of-distribution performance have also stronger explainability? Furthermore, most prior feature-importance studies only evaluate methods on 2-3 common vanilla ImageNet-trained CNNs, leaving it unknown how these methods generalize to CNNs of other architectures and training algorithms. Here, we perform the first, large-scale evaluation of the relations of the three criteria using 9 feature-importance methods and 12 ImageNet-trained CNNs that are of 3 training algorithms and 5 CNN architectures. We find several important insights and recommendations for ML practitioners. First, adversarially robust CNNs have a higher explainability score on gradient-based attribution methods (but not CAM-based or perturbation-based methods). Second, AdvProp models, despite being highly accurate more than both vanilla and robust models alone, are not superior in explainability. Third, among 9 feature attribution methods tested, GradCAM and RISE are consistently the best methods. Fourth, Insertion and Deletion are biased towards vanilla and robust models respectively, due to their strong correlation with the confidence score distributions of a CNN. Fifth, we did not find a single CNN to be the best in all three criteria, which interestingly suggests that CNNs are harder to interpret as they become more accurate. | 翻訳日:2023-06-07 05:23:56 公開日:2023-06-03 |
# Few-Taskメタラーニングのためのセットベースメタ補間 Set-based Meta-Interpolation for Few-Task Meta-Learning ( http://arxiv.org/abs/2205.09990v3 ) ライセンス: Link先を確認 | Seanie Lee, Bruno Andreis, Kenji Kawaguchi, Juho Lee, Sung Ju Hwang | (参考訳) メタラーニングアプローチは、関連するタスクからの知識を活用し、いくつかの例で与えられた新しいタスクに機械学習システムが適応することを可能にする。
しかし、メタテスト中に未確認タスクを一般化するためには、まだ多くのメタトレーニングタスクが必要であり、タスク構築の困難さやコストなど様々な理由から、少数のタスクしか持たない現実的な問題に重大なボトルネックをもたらす。
近年,メタ学習タスクの分布を高密度化するために,ドメイン固有の知識を用いてタスク拡張手法が提案されている。
しかし、そのようなドメイン固有の知識に依存すると、これらのメソッドは他のドメインには適用できない。
Manifold Mixupをベースとしたタスク拡張手法はドメインに依存しないが,非イメージ領域では有効ではない。
そこで,これらの制約に対処するために,表現型ニューラルセット関数を用いた2レベル最適化によるメタ学習タスクの分散化を行う,新しいドメイン非依存タスク拡張法であるメタ補間を提案する。
画像分類,分子特性予測,テキスト分類,音声認識などの領域にまたがる8つのデータセットに対するメタ補間の有効性を実証的に検証した。
実験により,Meta-Interpolationは関連するすべてのベースラインを一貫して上回ることを示す。
理論的には、タスクと集合関数の補間は一般化を改善するためにメタリーナーを正則化する。 Meta-learning approaches enable machine learning systems to adapt to new tasks given few examples by leveraging knowledge from related tasks. However, a large number of meta-training tasks are still required for generalization to unseen tasks during meta-testing, which introduces a critical bottleneck for real-world problems that come with only few tasks, due to various reasons including the difficulty and cost of constructing tasks. Recently, several task augmentation methods have been proposed to tackle this issue using domain-specific knowledge to design augmentation techniques to densify the meta-training task distribution. However, such reliance on domain-specific knowledge renders these methods inapplicable to other domains. While Manifold Mixup based task augmentation methods are domain-agnostic, we empirically find them ineffective on non-image domains. To tackle these limitations, we propose a novel domain-agnostic task augmentation method, Meta-Interpolation, which utilizes expressive neural set functions to densify the meta-training task distribution using bilevel optimization. We empirically validate the efficacy of Meta-Interpolation on eight datasets spanning across various domains such as image classification, molecule property prediction, text classification and speech recognition. Experimentally, we show that Meta-Interpolation consistently outperforms all the relevant baselines. Theoretically, we prove that task interpolation with the set function regularizes the meta-learner to improve generalization. | 翻訳日:2023-06-07 05:21:56 公開日:2023-06-03 |
# Score-based Out-of-distribution Generation による化学空間の探索 Exploring Chemical Space with Score-based Out-of-distribution Generation ( http://arxiv.org/abs/2206.07632v3 ) ライセンス: Link先を確認 | Seul Lee, Jaehyeong Jo, Sung Ju Hwang | (参考訳) 既存の分子生成モデルのよく知られている制限は、生成した分子がトレーニングセットの分子に非常によく似ていることである。
デノボの薬物発見にさらに優れた性質を持つ真に新しい分子を生成するためには、化学領域におけるより強力な探索が必要である。
そこで本研究では,超パラメータの簡単な制御により生成確率微分方程式 (sde) にout-of-distribution (ood) 制御を組み込んだスコアベースの拡散スキームである molecular out-of-distribution diffusion (mood) を提案する。
いくつかの新規分子は現実世界の薬物の基本的な要件を満たしていないため、ムードは、タンパク質-リガンド相互作用、薬物類似性、合成可能性などの標的特性に従って、逆時間拡散過程をhigh-scoring領域に導く特性予測器からの勾配を利用して条件付き生成を行う。
これにより、MOODは目に見えないが自明な分子を生成するのではなく、新規で有意義な分子を探すことができる。
実験により,ムードがトレーニング分布を超えた化学空間を探索し,既存の手法で検出した分子や,当初のトレーニングプールの0.01%を上回る分子を生成できることを検証した。
私たちのコードはhttps://github.com/seullee05/moodで利用可能です。 A well-known limitation of existing molecular generative models is that the generated molecules highly resemble those in the training set. To generate truly novel molecules that may have even better properties for de novo drug discovery, more powerful exploration in the chemical space is necessary. To this end, we propose Molecular Out-Of-distribution Diffusion(MOOD), a score-based diffusion scheme that incorporates out-of-distribution (OOD) control in the generative stochastic differential equation (SDE) with simple control of a hyperparameter, thus requires no additional costs. Since some novel molecules may not meet the basic requirements of real-world drugs, MOOD performs conditional generation by utilizing the gradients from a property predictor that guides the reverse-time diffusion process to high-scoring regions according to target properties such as protein-ligand interactions, drug-likeness, and synthesizability. This allows MOOD to search for novel and meaningful molecules rather than generating unseen yet trivial ones. We experimentally validate that MOOD is able to explore the chemical space beyond the training distribution, generating molecules that outscore ones found with existing methods, and even the top 0.01% of the original training pool. Our code is available at https://github.com/SeulLee05/MOOD. | 翻訳日:2023-06-07 05:15:32 公開日:2023-06-03 |
# ドット製品カーネル回帰のための高精度学習曲線と高階スケーリング限界 Precise Learning Curves and Higher-Order Scaling Limits for Dot Product Kernel Regression ( http://arxiv.org/abs/2205.14846v2 ) ライセンス: Link先を確認 | Lechao Xiao, Hong Hu, Theodor Misiakiewicz, Yue M. Lu, Jeffrey Pennington | (参考訳) 現代の機械学習モデルが計算フロンティアを推し進めるにつれ、異なるモデルとデータスケーリング体制の下で期待されるパフォーマンス改善の正確な見積もりを開発することがますます重要になっている。
現在、予測誤差がサンプル数に依存することを特徴付ける学習曲線の理論的な理解は、大きなサンプル漸近(m\to\infty$)または特定の単純なデータ分布に対して、サンプル数が次元(m\propto d$)と線形にスケールする高次元漸近(high-dimensional asymptotics)に制限されている。
本論文の主題である高階スケーリング関係$m\propto d^r$を含む,この2つの状態の間には広い溝がある。
本稿では, ドット積カーネルのカーネルリッジ回帰の問題に着目し, テスト誤差, バイアス, 分散の正確な式を, 定数が$m/d^r$である$m\to\infty$において, 球面から一様に描画したデータに対して提示する。
学習曲線のピークは、$m \approx d^r/r!
任意の整数$r$に対して$は、複数のサンプルワイド降下と複数のスケールでの非自明な振る舞いをもたらす。 As modern machine learning models continue to advance the computational frontier, it has become increasingly important to develop precise estimates for expected performance improvements under different model and data scaling regimes. Currently, theoretical understanding of the learning curves that characterize how the prediction error depends on the number of samples is restricted to either large-sample asymptotics ($m\to\infty$) or, for certain simple data distributions, to the high-dimensional asymptotics in which the number of samples scales linearly with the dimension ($m\propto d$). There is a wide gulf between these two regimes, including all higher-order scaling relations $m\propto d^r$, which are the subject of the present paper. We focus on the problem of kernel ridge regression for dot-product kernels and present precise formulas for the test error, bias, and variance, for data drawn uniformly from the sphere in the $r$th-order asymptotic scaling regime $m\to\infty$ with $m/d^r$ held constant. We observe a peak in the learning curve whenever $m \approx d^r/r!$ for any integer $r$, leading to multiple sample-wise descent and nontrivial behavior at multiple scales. | 翻訳日:2023-06-07 05:12:19 公開日:2023-06-03 |
# 多値処理ヘテロジニアス効果推定のためのメタラーナーの比較 Comparison of meta-learners for estimating multi-valued treatment heterogeneous effects ( http://arxiv.org/abs/2205.14714v3 ) ライセンス: Link先を確認 | Naoufal Acharki and Ramiro Lugo and Antoine Bertoncello and Josselin Garnier | (参考訳) 条件平均処理効果(CATE)の推定は、観測データによる因果推論における主な課題の1つである。
機械学習に基づくモデルに加えて、メタラーナーと呼ばれる非パラメトリック推定器が開発され、CATEを特定の教師付き学習手法による推定を抑えることの主な利点として評価されている。
しかし、単純拡張のいくつかの制限が現れるにつれて、この処理がバイナリでないと、このタスクはより複雑になる。
本稿では,多値処理の異種効果を推定するためのメタリーナーについて検討する。
異なるメタリーナーを考察し,その誤差上限を治療レベル数などの重要なパラメータの関数として理論的に解析し,naive拡張が必ずしも良好な結果をもたらすとは限らないことを示した。
治療数の増加とともに機能するメタラーナーの導入と議論を行う。
合成および半合成データセットを用いて,これらの手法の強みと弱みを実証的に確認する。 Conditional Average Treatment Effects (CATE) estimation is one of the main challenges in causal inference with observational data. In addition to Machine Learning based-models, nonparametric estimators called meta-learners have been developed to estimate the CATE with the main advantage of not restraining the estimation to a specific supervised learning method. This task becomes, however, more complicated when the treatment is not binary as some limitations of the naive extensions emerge. This paper looks into meta-learners for estimating the heterogeneous effects of multi-valued treatments. We consider different meta-learners, and we carry out a theoretical analysis of their error upper bounds as functions of important parameters such as the number of treatment levels, showing that the naive extensions do not always provide satisfactory results. We introduce and discuss meta-learners that perform well as the number of treatments increases. We empirically confirm the strengths and weaknesses of those methods with synthetic and semi-synthetic datasets. | 翻訳日:2023-06-07 05:11:53 公開日:2023-06-03 |
# メタ学習型ニューラルディファレンシャル方程式を用いた適応的非同期制御 Adaptive Asynchronous Control Using Meta-learned Neural Ordinary Differential Equations ( http://arxiv.org/abs/2207.12062v4 ) ライセンス: Link先を確認 | Achkan Salehi, Steffen R\"uhl, Stephane Doncieux | (参考訳) モデルに基づく強化学習と制御は、ロボット工学を含む様々な意思決定問題領域において大きな可能性を示している。
しかし、現実世界のロボットシステムは、その方法の適用性を制限する課題をしばしば提示する。
特に、多くの産業システムで共同で発生する2つの問題に留意する。
1)不規則/非同期観測と行動
2) あるエピソードから別のエピソード(例えば、様々なペイロード慣性特性)への環境ダイナミクスの劇的な変化。
本稿では,連続時間予測と制御のためのメタラーニング適応ダイナミクスモデルを用いて,それらの困難を克服する汎用フレームワークを提案する。
提案手法はタスク非依存であり, 直進的に新しいタスクに適応できる。
2つの異なるロボットシミュレーションと実際の産業用ロボットの評価を行った。 Model-based Reinforcement Learning and Control have demonstrated great potential in various sequential decision making problem domains, including in robotics settings. However, real-world robotics systems often present challenges that limit the applicability of those methods. In particular, we note two problems that jointly happen in many industrial systems: 1) Irregular/asynchronous observations and actions and 2) Dramatic changes in environment dynamics from an episode to another (e.g. varying payload inertial properties). We propose a general framework that overcomes those difficulties by meta-learning adaptive dynamics models for continuous-time prediction and control. The proposed approach is task-agnostic and can be adapted to new tasks in a straight-forward manner. We present evaluations in two different robot simulations and on a real industrial robot. | 翻訳日:2023-06-07 05:03:56 公開日:2023-06-03 |
# GLENet:ジェネレーティブラベルの不確実性推定による3Dオブジェクト検出器の強化 GLENet: Boosting 3D Object Detectors with Generative Label Uncertainty Estimation ( http://arxiv.org/abs/2207.02466v4 ) ライセンス: Link先を確認 | Yifan Zhang, Qijian Zhang, Zhiyu Zhu, Junhui Hou and Yixuan Yuan | (参考訳) 閉塞、信号欠落、手動アノテーションエラーによる3dバウンディングボックスの地中アノテーションに固有の曖昧さは、トレーニング中に深い3dオブジェクト検出器を混乱させ、検出精度を低下させる可能性がある。
しかし、既存の手法はそのような問題をある程度見落とし、ラベルを決定論的に扱う。
本稿では,対象物の境界ボックスの多様性としてラベルの不確かさ問題を定式化する。
次に,条件付き変分オートエンコーダから適応した生成フレームワーク glenet を提案する。一般的な3dオブジェクトと潜在変数を持つ潜在的接地バウンディングボックスとの1対1の関係をモデル化する。
GLENetが生成するラベルの不確実性はプラグアンドプレイモジュールであり、既存の深部3D検出器に便利に統合して確率的検出器を構築し、局所化の不確実性の学習を監督することができる。
また,推定定位不確かさを伴うiou-branchの訓練を指導するために,確率的検出器における不確実性認識品質推定器アーキテクチャを提案する。
提案手法を様々な人気ベース3D検出器に組み込んで,KITTIとWaymoのベンチマークデータセットで有意かつ一貫した性能向上を示す。
特に,提案したGLENet-VRは,全てのLiDARベースのアプローチを大きなマージンで上回り,挑戦的なKITTIテストセット上での単一モーダル手法の中で最上位となる。
ソースコードと事前トレーニングされたモデルは \url{https://github.com/eaphan/glenet} で公開されている。 The inherent ambiguity in ground-truth annotations of 3D bounding boxes, caused by occlusions, signal missing, or manual annotation errors, can confuse deep 3D object detectors during training, thus deteriorating detection accuracy. However, existing methods overlook such issues to some extent and treat the labels as deterministic. In this paper, we formulate the label uncertainty problem as the diversity of potentially plausible bounding boxes of objects. Then, we propose GLENet, a generative framework adapted from conditional variational autoencoders, to model the one-to-many relationship between a typical 3D object and its potential ground-truth bounding boxes with latent variables. The label uncertainty generated by GLENet is a plug-and-play module and can be conveniently integrated into existing deep 3D detectors to build probabilistic detectors and supervise the learning of the localization uncertainty. Besides, we propose an uncertainty-aware quality estimator architecture in probabilistic detectors to guide the training of the IoU-branch with predicted localization uncertainty. We incorporate the proposed methods into various popular base 3D detectors and demonstrate significant and consistent performance gains on both KITTI and Waymo benchmark datasets. Especially, the proposed GLENet-VR outperforms all published LiDAR-based approaches by a large margin and achieves the top rank among single-modal methods on the challenging KITTI test set. The source code and pre-trained models are publicly available at \url{https://github.com/Eaphan/GLENet}. | 翻訳日:2023-06-07 05:02:39 公開日:2023-06-03 |
# データとクライアントの不均一性によるコミュニケーション効率のよいフェデレーション学習 Communication-Efficient Federated Learning With Data and Client Heterogeneity ( http://arxiv.org/abs/2206.10032v3 ) ライセンス: Link先を確認 | Hossein Zakerinia, Shayan Talaei, Giorgi Nadiradze, Dan Alistarh | (参考訳) フェデレーション学習(fl)は、個々のノードがデータをローカルに保持しながら、機械学習モデルの大規模分散トレーニングを可能にする。
しかし、スケールでのflの実行には、1)ローカルノードデータ分布の不均質性、2)ノード計算速度の不均質性(同期性)、という、本質的に実践的な課題が伴う。
3) クライアントとサーバ間の通信量の制約。
本研究では,従来のfederated averaging(federated averaging, fedavg)アルゴリズムの最初の変種を提案する。
我々のアルゴリズムは、システムの緩和にもかかわらず、興味深いパラメータレジームにおいてfedavgに類似した収束を提供できることを示す厳密な分析を伴っている。
厳密なリーフベンチマークによる300ドルまでのノードのセットアップ実験の結果,本アルゴリズムは,事前量子化および非同期アプローチにより,標準フェデレーションタスクの高速収束を保証していることがわかった。 Federated Learning (FL) enables large-scale distributed training of machine learning models, while still allowing individual nodes to maintain data locally. However, executing FL at scale comes with inherent practical challenges: 1) heterogeneity of the local node data distributions, 2) heterogeneity of node computational speeds (asynchrony), but also 3) constraints in the amount of communication between the clients and the server. In this work, we present the first variant of the classic federated averaging (FedAvg) algorithm which, at the same time, supports data heterogeneity, partial client asynchrony, and communication compression. Our algorithm comes with a rigorous analysis showing that, in spite of these system relaxations, it can provide similar convergence to FedAvg in interesting parameter regimes. Experimental results in the rigorous LEAF benchmark on setups of up to $300$ nodes show that our algorithm ensures fast convergence for standard federated tasks, improving upon prior quantized and asynchronous approaches. | 翻訳日:2023-06-07 05:01:30 公開日:2023-06-03 |
# Archangel: 位置とメッセージメタデータを備えたハイブリッドUAVベースのヒューマン検出ベンチマーク Archangel: A Hybrid UAV-based Human Detection Benchmark with Position and Pose Metadata ( http://arxiv.org/abs/2209.00128v2 ) ライセンス: Link先を確認 | Yi-Ting Shen, Yaesop Lee, Heesung Kwon, Damon M. Conover, Shuvra S. Bhattacharyya, Nikolas Vale, Joshua D. Gray, G. Jeremy Leong, Kenneth Evensen, Frank Skirlo | (参考訳) 無人航空機(UAV)が捉えた画像の中で、人間のような物体を検出することを学ぶことは、通常、UAVの物体に対する位置によって引き起こされる大きな変動に悩まされる。
加えて、既存のUAVベースのベンチマークデータセットは適切なデータセットメタデータを提供していない。
本稿では,類似した想像条件とuav位置およびオブジェクトポーズメタデータでキャプチャされた,実および合成のサブセットからなる,最初のuavベースのオブジェクト検出データセットであるarchangelを紹介する。
モデル評価中にメタデータを活用するメリットを示すために、最先端のオブジェクト検出器を用いて、一連の実験を慎重に設計する。
さらに,モデル最適化における実データと合成データの両方に関する重要な知見を提示する。
最後に、archangelのメリット、限界、今後の方向性について議論し、より広範な機械学習コミュニティにその明確な価値を強調する。 Learning to detect objects, such as humans, in imagery captured by an unmanned aerial vehicle (UAV) usually suffers from tremendous variations caused by the UAV's position towards the objects. In addition, existing UAV-based benchmark datasets do not provide adequate dataset metadata, which is essential for precise model diagnosis and learning features invariant to those variations. In this paper, we introduce Archangel, the first UAV-based object detection dataset composed of real and synthetic subsets captured with similar imagining conditions and UAV position and object pose metadata. A series of experiments are carefully designed with a state-of-the-art object detector to demonstrate the benefits of leveraging the metadata during model evaluation. Moreover, several crucial insights involving both real and synthetic data during model optimization are presented. In the end, we discuss the advantages, limitations, and future directions regarding Archangel to highlight its distinct value for the broader machine learning community. | 翻訳日:2023-06-07 04:56:09 公開日:2023-06-03 |
# トポロジカル視点からの絡み合い分類 Entanglement Classification from a Topological Perspective ( http://arxiv.org/abs/2208.13901v3 ) ライセンス: Link先を確認 | Dmitry Melnikov | (参考訳) 絡み合いの分類は量子資源理論において重要な問題である。
本稿では、トポロジカル量子場理論(TQFT)の文脈におけるこの問題の埋め込みについて論じる。
このアプローチは、トポロジカル同値類の観点から、絡み合いパターンを分類することができる。
バイパーティイトの場合、SLOCC(Stochastic Local Operations and Classical Communication)に相当する分類は、単純な接続ダイアグラムのクラスに制限することで構成される。
このような図は、TQFTの量子状態を ``connectome' のブレイディングとタングリングまで特徴づける。
マルチパーティトの場合、同じ制限されたトポロジカル分類はSLOCCクラスの一部のみをキャプチャするが、特に3つのキュービットの W 絡み合いは見られない。
接続の非局所的ブレイディングはこの問題を解くことができるが、この場合有限の分類が試みられることはない。
不完全性にもかかわらず、コネクトーム分類は任意の個数と次元に直感的な一般化を持ち、非常に直感的な解釈を持ち、絡み合いの特定の性質の理解や新しい量子資源の設計に有用である。 Classification of entanglement is an important problem in Quantum Resource Theory. In this paper we discuss an embedding of this problem in the context of Topological Quantum Field Theories (TQFT). This approach allows classifying entanglement patterns in terms of topological equivalence classes. In the bipartite case a classification equivalent to the one by Stochastic Local Operations and Classical Communication (SLOCC) is constructed by restricting to a simple class of connectivity diagrams. Such diagrams characterize quantum states of TQFT up to braiding and tangling of the ``connectome.'' In the multipartite case the same restricted topological classification only captures a part of the SLOCC classes, in particular, it does not see the W entanglement of three qubits. Nonlocal braiding of connections may solve the problem, but no finite classification is attempted in this case. Despite incompleteness, the connectome classification has a straightforward generalization to any number and dimension of parties and has a very intuitive interpretation, which might be useful for understanding specific properties of entanglement and for design of new quantum resources. | 翻訳日:2023-06-07 04:55:54 公開日:2023-06-03 |
# テンソル製品とほぼ正規コードによるグラフ埋め込み Graph Embeddings via Tensor Products and Approximately Orthonormal Codes ( http://arxiv.org/abs/2208.10917v5 ) ライセンス: Link先を確認 | Frank Qiu | (参考訳) 本稿では,その豊かな表現能力を示す動的グラフ表現法を提案し,その理論的な性質をいくつか確立する。
我々の表現は超次元計算(HDC)におけるバインド・アンド・サム法に該当し、テンソル積がHDCで用いられる重ね合わせ原理を尊重する最も一般的な結合演算であることを示す。
また,グラフ操作の精度を維持するために,表現のサイズがエッジ数とどのようにスケールする必要があるかのメモリ対サイズ分析を含む,手法の挙動を特徴付ける正確な結果を確立する。
HDCのルーツに忠実に、グラフ表現を別の典型的なHDC表現であるHadamard-Rademacherスキームと比較し、これらのグラフ表現が同じメモリ容量のスケーリングを持つことを示す。
随伴行列へのリンクを確立し,本手法が随伴行列の擬直交一般化であることを示す。
これを踏まえ、我々は大きなスパースグラフの動的圧縮表現へのその応用について簡単に議論する。 We propose a dynamic graph representation method, showcasing its rich representational capacity and establishing some of its theoretical properties. Our representation falls under the bind-and-sum approach in hyperdimensional computing (HDC), and we show that the tensor product is the most general binding operation that respects the superposition principle employed in HDC. We also establish some precise results characterizing the behavior of our method, including a memory vs. size analysis of how our representation's size must scale with the number of edges in order to retain accurate graph operations. True to its HDC roots, we also compare our graph representation to another typical HDC representation, the Hadamard-Rademacher scheme, showing that these two graph representations have the same memory-capacity scaling. We establish a link to adjacency matrices, showing that our method is a pseudo-orthogonal generalization of adjacency matrices. In light of this, we briefly discuss its applications toward a dynamic compressed representation of large sparse graphs. | 翻訳日:2023-06-07 04:55:37 公開日:2023-06-03 |
# 静的構造から動的構造へ:グラフに基づくディープラーニングモデルによる結合親和性予測の改善 From Static to Dynamic Structures: Improving Binding Affinity Prediction with a Graph-Based Deep Learning Model ( http://arxiv.org/abs/2208.10230v3 ) ライセンス: Link先を確認 | Yaosen Min, Ye Wei, Peizhuo Wang, Xiaoting Wang, Han Li, Nian Wu, Stefan Bauer, Shuxin Zheng, Yu Shi, Yingheng Wang, Ji Wu, Dan Zhao and Jianyang Zeng | (参考訳) タンパク質-リガンド結合アフィニティの正確な予測は、構造に基づく薬物設計において必須の課題である。
近年の親和性予測におけるデータ駆動型手法の進歩にもかかわらず、その精度は限定的であり、部分的には静的結晶構造のみを利用するが、実際の結合親和性は一般にタンパク質と配位子の間の熱力学的アンサンブルによって描写される。
そのような熱力学的アンサンブルを近似する効果的な方法は分子動力学(MD)シミュレーションを使用することである。
そこで我々は,3,218種類のタンパク質-リガンド複合体を含むMDデータセットをキュレートし,さらにグラフベースのディープラーニングモデルであるDynaformerを開発した。
ダイナフォーマーはMD軌道からタンパク質-リガンド相互作用の幾何学的特徴を学習することにより、結合親和性を正確に予測することができた。
サイリコ実験では、我々のモデルはCASF-2016ベンチマークデータセット上で最先端のスコアとランキング能力を示し、報告された手法よりも優れていた。
さらに,Dynaformerを用いて熱ショック蛋白90(HSP90)の仮想スクリーニングを行い,20の候補を同定し,それらの結合親和性を実験的に検証した。
提案手法はより効率的で,新たに発見された足場を含む12個のヒット化合物(2つはサブマイクロモルの範囲内)を同定できる。
我々は、大規模mdデータセットとディープラーニングモデルとのこの新しいシナジーが、早期の薬物発見プロセスを加速するための新しい経路を提供することを期待している。 Accurate prediction of the protein-ligand binding affinities is an essential challenge in the structure-based drug design. Despite recent advance in data-driven methods in affinity prediction, their accuracy is still limited, partially because they only take advantage of static crystal structures while the actual binding affinities are generally depicted by the thermodynamic ensembles between proteins and ligands. One effective way to approximate such a thermodynamic ensemble is to use molecular dynamics (MD) simulation. Here, we curated an MD dataset containing 3,218 different protein-ligand complexes, and further developed Dynaformer, which is a graph-based deep learning model. Dynaformer was able to accurately predict the binding affinities by learning the geometric characteristics of the protein-ligand interactions from the MD trajectories. In silico experiments demonstrated that our model exhibits state-of-the-art scoring and ranking power on the CASF-2016 benchmark dataset, outperforming the methods hitherto reported. Moreover, we performed a virtual screening on the heat shock protein 90 (HSP90) using Dynaformer that identified 20 candidates and further experimentally validated their binding affinities. We demonstrated that our approach is more efficient, which can identify 12 hit compounds (two were in the submicromolar range), including several newly discovered scaffolds. We anticipate this new synergy between large-scale MD datasets and deep learning models will provide a new route toward accelerating the early drug discovery process. | 翻訳日:2023-06-07 04:55:18 公開日:2023-06-03 |
# 単視点3Dメッシュによる鮮やかなカテゴリの再構築 Single-view 3D Mesh Reconstruction for Seen and Unseen Categories ( http://arxiv.org/abs/2208.02676v2 ) ライセンス: Link先を確認 | Xianghui Yang, Guosheng Lin, Luping Zhou | (参考訳) シングルビューRGB画像から3次元形状を復元することを目的とした,基本的なコンピュータビジョンタスクである。
既存のディープラーニングに基づく再構築手法の多くは,同じカテゴリで訓練・評価されており,トレーニング中に見えない新しいカテゴリのオブジェクトを扱う場合,うまく動作しない。
本論では, 単一視点3次元メッシュ再構成に取り組み, 未知のカテゴリのモデル一般化について検討し, オブジェクトを文字通り再構成することを奨励する。
具体的には,エンド・ツー・エンドの2段階ネットワークであるgenmeshを提案する。
まず,複雑なイメージ・ツー・メッシュマッピングを,画像・ツー・ポイントマッピングとポイント・ツー・メッシュマッピングという,より単純な2つのマッピングに分解する。
次に,2次元および3次元特徴空間における局所特徴サンプリング戦略を考案し,オブジェクト間で共有される局所幾何をキャプチャし,モデルの一般化を促進する。
第3に、従来の点対点監視とは別に、表面生成過程を監督する多視点シルエット損失を導入し、さらなる正規化とオーバーフィッティング問題を緩和する。
実験結果から,本手法は様々なシナリオ,特に新規オブジェクトにおいて,ShapeNetとPix3Dの既存手法よりも優れた性能を示した。
プロジェクトリンクはhttps://github.com/wi-sc/genmesh。 Single-view 3D object reconstruction is a fundamental and challenging computer vision task that aims at recovering 3D shapes from single-view RGB images. Most existing deep learning based reconstruction methods are trained and evaluated on the same categories, and they cannot work well when handling objects from novel categories that are not seen during training. Focusing on this issue, this paper tackles Single-view 3D Mesh Reconstruction, to study the model generalization on unseen categories and encourage models to reconstruct objects literally. Specifically, we propose an end-to-end two-stage network, GenMesh, to break the category boundaries in reconstruction. Firstly, we factorize the complicated image-to-mesh mapping into two simpler mappings, i.e., image-to-point mapping and point-to-mesh mapping, while the latter is mainly a geometric problem and less dependent on object categories. Secondly, we devise a local feature sampling strategy in 2D and 3D feature spaces to capture the local geometry shared across objects to enhance model generalization. Thirdly, apart from the traditional point-to-point supervision, we introduce a multi-view silhouette loss to supervise the surface generation process, which provides additional regularization and further relieves the overfitting problem. The experimental results show that our method significantly outperforms the existing works on the ShapeNet and Pix3D under different scenarios and various metrics, especially for novel objects. The project link is https://github.com/Wi-sc/GenMesh. | 翻訳日:2023-06-07 04:54:32 公開日:2023-06-03 |
# D3Former: インクリメンタルラーニングのための脱バイアスデュアル蒸留変圧器 D3Former: Debiased Dual Distilled Transformer for Incremental Learning ( http://arxiv.org/abs/2208.00777v3 ) ライセンス: Link先を確認 | Abdelrahman Mohamed, Rushali Grandhe, K J Joseph, Salman Khan, Fahad Khan | (参考訳) クラスインクリメンタル学習(cil)の設定では、各学習段階において、クラスのグループがモデルに導入されます。
目標は、今まで観察されたすべてのクラスで統一モデルパフォーマンスを学習することである。
従来の分類環境における視覚変換器(ViT)の近年の人気を考えると,その継続的な学習行動を研究することが興味深い。
本研究では,Debiased Dual Distilled Transformer for CIL, $\textrm{D}^3\textrm{Former}$を開発した。
提案モデルでは,データ効率と拡張性を確保するために,ハイブリッドネスト型ViT設計を採用している。
最近の ViT ベースの CIL アプローチとは対照的に,我々の $\textrm{D}^3\textrm{Former}$ は,新しいタスクが学習されると動的にアーキテクチャを拡張せず,多数のインクリメンタルタスクに適している。
改善されたCILの振る舞いは、$\textrm{D}^3\textrm{Former}$の2つの基本的変更によるものである。
まず,段階的な学習を,新しいクラスからの大多数のサンプルが,古いクラスで利用可能な限られた例をはるかに上回っている,長期的分類問題として扱う。
マイノリティな古いクラスに対するバイアスを避けるため,ロジットを動的に調整し,古いタスクに関連する表現を維持することを強調することを提案する。
第2に,タスク間の学習が進むにつれて空間的注意マップの構成を維持することを提案する。
このことは、モデルを最も差別的な領域への注意を維持するよう制約することで、破滅的な忘れを減少させるのに役立つ。
$\textrm{D}^3\textrm{Former}$は、CIFAR-100、MNIST、SVHN、ImageNetデータセットのインクリメンタルバージョンで好ましい結果を得る。
コードはhttps://tinyurl.com/d3formerで入手できる。 In class incremental learning (CIL) setting, groups of classes are introduced to a model in each learning phase. The goal is to learn a unified model performant on all the classes observed so far. Given the recent popularity of Vision Transformers (ViTs) in conventional classification settings, an interesting question is to study their continual learning behaviour. In this work, we develop a Debiased Dual Distilled Transformer for CIL dubbed $\textrm{D}^3\textrm{Former}$. The proposed model leverages a hybrid nested ViT design to ensure data efficiency and scalability to small as well as large datasets. In contrast to a recent ViT based CIL approach, our $\textrm{D}^3\textrm{Former}$ does not dynamically expand its architecture when new tasks are learned and remains suitable for a large number of incremental tasks. The improved CIL behaviour of $\textrm{D}^3\textrm{Former}$ owes to two fundamental changes to the ViT design. First, we treat the incremental learning as a long-tail classification problem where the majority samples from new classes vastly outnumber the limited exemplars available for old classes. To avoid the bias against the minority old classes, we propose to dynamically adjust logits to emphasize on retaining the representations relevant to old tasks. Second, we propose to preserve the configuration of spatial attention maps as the learning progresses across tasks. This helps in reducing catastrophic forgetting by constraining the model to retain the attention on the most discriminative regions. $\textrm{D}^3\textrm{Former}$ obtains favorable results on incremental versions of CIFAR-100, MNIST, SVHN, and ImageNet datasets. Code is available at https://tinyurl.com/d3former | 翻訳日:2023-06-07 04:54:04 公開日:2023-06-03 |
# メタラーニングによるブラインド超解像の分解表現 Meta-Learning based Degradation Representation for Blind Super-Resolution ( http://arxiv.org/abs/2207.13963v2 ) ライセンス: Link先を確認 | Bin Xia, Yapeng Tian, Yulun Zhang, Yucheng Hang, Wenming Yang, Qingmin Liao | (参考訳) CNNベースの超解像法(SR)の最も多くは、分解が知られていると仮定する(\eg, bicubic)。
これらの手法は、劣化が仮定と異なる場合、深刻なパフォーマンス低下に苦しむ。
したがって、実際の劣化空間をカバーするために、複数の劣化の複雑な組み合わせでSRネットワークを訓練しようとするアプローチもある。
複数の未知の劣化に対応するために、明示的な劣化推定器を導入することでsr性能が実際に向上する。
しかしながら、従来の明示的劣化推定法は、通常、基底ぼけカーネルの監督によりガウスのぼけを予測し、推定誤差がsrの故障を引き起こす可能性がある。
したがって、暗黙の判別的劣化表現を抽出する方法を設計する必要がある。
そこで本研究では,メタラーニングネットワーク(MLN),デグラデーション抽出ネットワーク(DEN),領域デグラデーション認識SRネットワーク(RDAN)を含むメタラーニングベースのRegional Degradation Aware SR Network(MRDA)を提案する。
基礎的劣化の欠如に対処するため,MLNを用いて,数回の反復後に特定の複雑な劣化に迅速に適応し,暗黙的な劣化情報を抽出する。
その後、教師ネットワークmda$_{t}$がmlnにより抽出された劣化情報をsrにさらに活用するように設計される。
しかし、MLNは推論フェーズでは利用できないペア化低分解能(LR)と対応する高分解能(HR)画像を反復する必要がある。
そこで我々は,学生ネットワークがLR画像から教師と同じ暗黙的劣化表現(IDR)を直接抽出できるように,知識蒸留(KD)を採用する。 The most of CNN based super-resolution (SR) methods assume that the degradation is known (\eg, bicubic). These methods will suffer a severe performance drop when the degradation is different from their assumption. Therefore, some approaches attempt to train SR networks with the complex combination of multiple degradations to cover the real degradation space. To adapt to multiple unknown degradations, introducing an explicit degradation estimator can actually facilitate SR performance. However, previous explicit degradation estimation methods usually predict Gaussian blur with the supervision of groundtruth blur kernels, and estimation errors may lead to SR failure. Thus, it is necessary to design a method that can extract implicit discriminative degradation representation. To this end, we propose a Meta-Learning based Region Degradation Aware SR Network (MRDA), including Meta-Learning Network (MLN), Degradation Extraction Network (DEN), and Region Degradation Aware SR Network (RDAN). To handle the lack of groundtruth degradation, we use the MLN to rapidly adapt to the specific complex degradation after several iterations and extract implicit degradation information. Subsequently, a teacher network MRDA$_{T}$ is designed to further utilize the degradation information extracted by MLN for SR. However, MLN requires iterating on paired low-resolution (LR) and corresponding high-resolution (HR) images, which is unavailable in the inference phase. Therefore, we adopt knowledge distillation (KD) to make the student network learn to directly extract the same implicit degradation representation (IDR) as the teacher from LR images. | 翻訳日:2023-06-07 04:52:41 公開日:2023-06-03 |
# UCEpic:レコメンデーションにおける説明生成のためのアスペクト計画と語彙制約の統合 UCEpic: Unifying Aspect Planning and Lexical Constraints for Generating Explanations in Recommendation ( http://arxiv.org/abs/2209.13885v2 ) ライセンス: Link先を確認 | Jiacheng Li, Zhankui He, Jingbo Shang, Julian McAuley | (参考訳) 説明可能なレコメンデーションのためのパーソナライズされた自然言語生成は、レコメンデーションがユーザーの興味にマッチする理由を正当化する上で重要な役割を果たす。
既存のモデルは通常、アスペクト計画によって生成プロセスを制御する。
これらのアスペクトプランニング手法は有望な一方で、特定の情報を正しく生成するのに苦労しているため、生成された説明が納得できない。
本稿では,語彙制約の導入によって,上記の問題を緩和できると主張する。
アスペクト計画と語彙制約を挿入ベース生成方式で統一し,高品質なパーソナライズされたレコメンデーション結果の説明を生成するモデルであるUCEpicを提案する。
提案するロバスト挿入プロセスにより,テキスト生成品質と各種語彙制約に対するロバスト性を確保するために,非個人化テキスト生成装置を事前学習する。
そして,この挿入ベース生成の枠組みの下でパーソナライズされた説明を得るために,アスペクト計画とパーソナライズされた参照を挿入プロセスに組み込む手法を設計する。
したがって、UCEpicはアスペクト計画と語彙制約をひとつのフレームワークに統合し、異なる設定下でレコメンデーションの説明を生成する。
従来のレコメンデーション説明ジェネレータをアスペクトのみで制御するのに対して、UCEpicはキーフレーズから特定の情報を取り込んで、RateBeerやYelpといったデータセットのレコメンデーションのために生成された説明の多様性と情報性を大幅に改善する。 Personalized natural language generation for explainable recommendations plays a key role in justifying why a recommendation might match a user's interests. Existing models usually control the generation process by aspect planning. While promising, these aspect-planning methods struggle to generate specific information correctly, which prevents generated explanations from being convincing. In this paper, we claim that introducing lexical constraints can alleviate the above issues. We propose a model, UCEpic, that generates high-quality personalized explanations for recommendation results by unifying aspect planning and lexical constraints in an insertion-based generation manner. Methodologically, to ensure text generation quality and robustness to various lexical constraints, we pre-train a non-personalized text generator via our proposed robust insertion process. Then, to obtain personalized explanations under this framework of insertion-based generation, we design a method of incorporating aspect planning and personalized references into the insertion process. Hence, UCEpic unifies aspect planning and lexical constraints into one framework and generates explanations for recommendations under different settings. Compared to previous recommendation explanation generators controlled by only aspects, UCEpic incorporates specific information from keyphrases and then largely improves the diversity and informativeness of generated explanations for recommendations on datasets such as RateBeer and Yelp. | 翻訳日:2023-06-07 04:45:06 公開日:2023-06-03 |
# 部分エピソードからのgflownetsの学習による収束と安定性の向上 Learning GFlowNets from partial episodes for improved convergence and stability ( http://arxiv.org/abs/2209.12782v3 ) ライセンス: Link先を確認 | Kanika Madan, Jarrid Rector-Brooks, Maksym Korablyov, Emmanuel Bengio, Moksh Jain, Andrei Nica, Tom Bosc, Yoshua Bengio, Nikolay Malkin | (参考訳) 生成フローネットワーク(GFlowNets)は、非正規化対象密度の下で離散オブジェクトのシーケンシャルサンプリングを訓練するアルゴリズムのファミリーであり、様々な確率論的モデリングタスクに成功している。
GFlowNetsの既存のトレーニング目的は、状態または遷移に局所的であるか、あるいはサンプリング軌道全体にわたって報酬信号を伝達する。
これらの代替案は勾配バイアス分散トレードオフの対極を表現し、その有害な効果を緩和するためにこのトレードオフを利用する方法を提案する。
強化学習における td($\lambda$) アルゴリズムに着想を得て,様々な長さの部分的動作列から学習可能な gflownet トレーニング目標であるsubtrajectory balance あるいは subtb($\lambda$) を導入する。
subtb($\lambda$) は,従来研究されていた新しい環境におけるサンプル収束を加速し,動作シーケンスが長い環境でのgflownetのトレーニングを可能にする。
また,gflownetトレーニングにおけるバイアス分散トレードオフと減算バランスの利点を浮き彫りにして,確率的勾配ダイナミクスの比較分析を行った。 Generative flow networks (GFlowNets) are a family of algorithms for training a sequential sampler of discrete objects under an unnormalized target density and have been successfully used for various probabilistic modeling tasks. Existing training objectives for GFlowNets are either local to states or transitions, or propagate a reward signal over an entire sampling trajectory. We argue that these alternatives represent opposite ends of a gradient bias-variance tradeoff and propose a way to exploit this tradeoff to mitigate its harmful effects. Inspired by the TD($\lambda$) algorithm in reinforcement learning, we introduce subtrajectory balance or SubTB($\lambda$), a GFlowNet training objective that can learn from partial action subsequences of varying lengths. We show that SubTB($\lambda$) accelerates sampler convergence in previously studied and new environments and enables training GFlowNets in environments with longer action sequences and sparser reward landscapes than what was possible before. We also perform a comparative analysis of stochastic gradient dynamics, shedding light on the bias-variance tradeoff in GFlowNet training and the advantages of subtrajectory balance. | 翻訳日:2023-06-07 04:44:20 公開日:2023-06-03 |
# 線形勾配オーバーヘッドによるロバストな協調学習 Robust Collaborative Learning with Linear Gradient Overhead ( http://arxiv.org/abs/2209.10931v2 ) ライセンス: Link先を確認 | Sadegh Farhadkhani, Rachid Guerraoui, Nirupam Gupta, L\^e Nguy\^en Hoang, Rafael Pinot, John Stephan | (参考訳) 分散sgd(またはd-sgd)のような協調学習アルゴリズムは、ソフトウェアやハードウェアのバグ、有害なデータ、悪意のある行動などにより、所定のアルゴリズムから逸脱する可能性のある欠陥のあるマシンに対処しがちである。
このようなマシンへのd-sgdのロバスト性を高めるために多くの解決策が提案されているが、以前の研究は強い仮定(信頼されたサーバ、均質データ、特定のノイズモデル)や、d-sgdよりも数桁高い勾配計算コストを課している。
我々は,新しいアルゴリズムMoNNAを提案する。
(a)標準仮定の下で確実に頑健であること、及び
(b) 故障マシンの分数で線形な勾配計算オーバーヘッドがあり、これは厳密であると推測される。
基本的に、MoNNAは局所的な更新にはPolyakの局所勾配の運動量を使い、グローバルな混合にはNNAを使用する。
MoNNAの実装は比較的簡単だが、その分析はより困難であり、独立した関心を持つ可能性のある2つの重要な要素に依存している。
具体的には、非線形機械の非線形混合を解析するために、$(\alpha, \lambda)$-reductionの混合基準を導入し、運動量とモデルドリフトの間の張力を制御する方法を提案する。
画像分類実験によりこの理論を検証し, https://github.com/LPD-EPFL/robust-collaborative-learningでコードを利用できるようにした。 Collaborative learning algorithms, such as distributed SGD (or D-SGD), are prone to faulty machines that may deviate from their prescribed algorithm because of software or hardware bugs, poisoned data or malicious behaviors. While many solutions have been proposed to enhance the robustness of D-SGD to such machines, previous works either resort to strong assumptions (trusted server, homogeneous data, specific noise model) or impose a gradient computational cost that is several orders of magnitude higher than that of D-SGD. We present MoNNA, a new algorithm that (a) is provably robust under standard assumptions and (b) has a gradient computation overhead that is linear in the fraction of faulty machines, which is conjectured to be tight. Essentially, MoNNA uses Polyak's momentum of local gradients for local updates and nearest-neighbor averaging (NNA) for global mixing, respectively. While MoNNA is rather simple to implement, its analysis has been more challenging and relies on two key elements that may be of independent interest. Specifically, we introduce the mixing criterion of $(\alpha, \lambda)$-reduction to analyze the non-linear mixing of non-faulty machines, and present a way to control the tension between the momentum and the model drifts. We validate our theory by experiments on image classification and make our code available at https://github.com/LPD-EPFL/robust-collaborative-learning. | 翻訳日:2023-06-07 04:43:16 公開日:2023-06-03 |
# 助詞検索におけるクエリ書き換えのための一意な生成と深度検索 Unified Generative & Dense Retrieval for Query Rewriting in Sponsored Search ( http://arxiv.org/abs/2209.05861v2 ) ライセンス: Link先を確認 | Akash Kumar Mohankumar, Bhargav Dodla, Gururaj K, Amit Singh | (参考訳) スポンサー検索は検索エンジンにとって重要な収入源であり、広告主はユーザーがターゲットするキーワードや興味のある検索クエリを入札する。
しかし、クエリに関連するキーワードを見つけることは、大きくて動的なキーワード空間、曖昧なユーザ/アドバタイザの意図、さまざまな可能なトピックや言語のために難しい。
本研究では,オンラインクエリ書き換えにおける2つのパラダイムであるジェネレーティブ(NLG)とDense Retrieval(DR)を総合的に比較する。
両方の方法が相補的な利益をもたらすことを観察する。
その結果,2つの手法によって検索されたキーワードの約40%がユニークであり,他方が検索していないことが分かった。
両手法の強みを生かしたclover-unityを提案する。clover-unityは1つのモデルにおいて生成的および高密度な検索手法を統合する新しい手法である。
オフライン実験により, CLOVER-Unity の NLG と DR コンポーネントは, 個人で訓練した NLG と DR モデルに対して, 公開および内部ベンチマークで一貫した性能を示した。
さらに,CLOVER-Unityは2つのDRモデルとNLGモデルのアンサンブルよりも9.8%高いキーワード密度を実現し,計算コストをほぼ半分に削減した。
我々は140以上の国でmicrosoft bingで大規模なオンラインa/b実験を行い、ユーザーエンゲージメントの向上を実現し、クリック総数を0.89%増加させ、売上を1.27%増加させた。
このような統合モデルを本番環境にデプロイするための実践的な教訓と最適化のトリックも共有しています。 Sponsored search is a key revenue source for search engines, where advertisers bid on keywords to target users or search queries of interest. However, finding relevant keywords for a given query is challenging due to the large and dynamic keyword space, ambiguous user/advertiser intents, and diverse possible topics and languages. In this work, we present a comprehensive comparison between two paradigms for online query rewriting: Generative (NLG) and Dense Retrieval (DR) methods. We observe that both methods offer complementary benefits that are additive. As a result, we show that around 40% of the high-quality keywords retrieved by the two approaches are unique and not retrieved by the other. To leverage the strengths of both methods, we propose CLOVER-Unity, a novel approach that unifies generative and dense retrieval methods in one single model. Through offline experiments, we show that the NLG and DR components of CLOVER-Unity consistently outperform individually trained NLG and DR models on public and internal benchmarks. Furthermore, we show that CLOVER-Unity achieves 9.8% higher good keyword density than the ensemble of two separate DR and NLG models while reducing computational costs by almost half. We conduct extensive online A/B experiments on Microsoft Bing in 140+ countries and achieve improved user engagement, with an average increase in total clicks by 0.89% and increased revenue by 1.27%. We also share our practical lessons and optimization tricks for deploying such unified models in production. | 翻訳日:2023-06-07 04:41:47 公開日:2023-06-03 |
# 連続可変一方向・双方向テレポーテーションの性能定量化のための最適入力状態 Optimal input states for quantifying the performance of continuous-variable unidirectional and bidirectional teleportation ( http://arxiv.org/abs/2210.05007v2 ) ライセンス: Link先を確認 | Hemant K. Mishra, Samad Khabbazi Oskouei, and Mark M. Wilde | (参考訳) 連続可変(CV)テレポーテーションは量子情報科学の基本プロトコルである。
現実の条件下での理想的なテレポーテーションをシミュレートする実験が数多く行われている。
本稿では, cvの一方向および双方向テレポーテーションの性能を定量化するための最適入力状態を決定する解析的手法について述べる。
性能を定量化するために検討する指標は,理想的テレポーテーションと実験的実装との間のエネルギー制約のあるチャネル忠実度であり,これとともに,理想的なプロセスと実験的プロセスとを区別する最適な入力状態を決定することに注力する。
我々は、あるエネルギー制約の下では、一方向の最適入力状態と双方向のテレポーテーションがエネルギー制約を飽和させるツインフォック状態の有限絡み合わせ重ね合わせであることを証明する。
さらに、同じ制約の下では、最適状態が一意であること、すなわち、双対フォック状態の他の最適有限絡み合い重ね合わせは存在しないことも証明する。 Continuous-variable (CV) teleportation is a foundational protocol in quantum information science. A number of experiments have been designed to simulate ideal teleportation under realistic conditions. In this paper, we detail an analytical approach for determining optimal input states for quantifying the performance of CV unidirectional and bidirectional teleportation. The metric that we consider for quantifying performance is the energy-constrained channel fidelity between ideal teleportation and its experimental implementation, and along with this, our focus is on determining optimal input states for distinguishing the ideal process from the experimental one. We prove that, under certain energy constraints, the optimal input state in unidirectional, as well as bidirectional, teleportation is a finite entangled superposition of twin-Fock states saturating the energy constraint. Moreover, we also prove that, under the same constraints, the optimal states are unique; that is, there is no other optimal finite entangled superposition of twin-Fock states. | 翻訳日:2023-06-07 04:35:40 公開日:2023-06-03 |
# 非ラベル例に基づく分布シフト時のコンフォーメーション予測器の試験時間再校正 Test-time Recalibration of Conformal Predictors Under Distribution Shift Based on Unlabeled Examples ( http://arxiv.org/abs/2210.04166v2 ) ライセンス: Link先を確認 | Fatih Furkan Yilmaz and Reinhard Heckel | (参考訳) 現代の画像分類器は非常に正確であるが、予測は不確実性の推定を伴わない。
適合予測器は、その分類器の確率推定に基づいて、ユーザが特定した確率で正しいクラスを含む一連のクラスを計算して不確実性推定を提供する。
適合予測器は、キャリブレーションセットに基づいて、確率推定のためのカットオフ閾値をしばしば推定する。
適合予測器は、キャリブレーションセットがテストセットと同じ分布である場合にのみ信頼性を保証する。
したがって、新しい分布のために共形予測器を再調整する必要がある。
しかし、実際には新しいディストリビューションからのラベル付きデータはほとんど利用できず、キャリブレーションは実現不可能である。
本研究では,新しい分布のカットオフ閾値をラベルなしの例に基づいて予測する問題を考える。
ラベルのない例に基づいて校正を行う場合,一般に信頼性を保証することは不可能であるが,本研究では,分布シフトの特定のモデルに対して,自然な分布シフトの下で優れた不確実性推定を提供する手法を提案する。 Modern image classifiers are very accurate, but the predictions come without uncertainty estimates. Conformal predictors provide uncertainty estimates by computing a set of classes containing the correct class with a user-specified probability based on the classifier's probability estimates. To provide such sets, conformal predictors often estimate a cutoff threshold for the probability estimates based on a calibration set. Conformal predictors guarantee reliability only when the calibration set is from the same distribution as the test set. Therefore, conformal predictors need to be recalibrated for new distributions. However, in practice, labeled data from new distributions is rarely available, making calibration infeasible. In this work, we consider the problem of predicting the cutoff threshold for a new distribution based on unlabeled examples. While it is impossible in general to guarantee reliability when calibrating based on unlabeled examples, we propose a method that provides excellent uncertainty estimates under natural distribution shifts, and provably works for a specific model of a distribution shift. | 翻訳日:2023-06-07 04:34:47 公開日:2023-06-03 |
# 確率的個人的・公正な学習 Stochastic Differentially Private and Fair Learning ( http://arxiv.org/abs/2210.08781v2 ) ライセンス: Link先を確認 | Andrew Lowy, Devansh Gupta, Meisam Razaviyayn | (参考訳) 機械学習モデルは、高度な意思決定システムでますます使われている。
このようなアプリケーションでは、これらのモデルが特定の人種、性別、年齢といった特定の人口集団に対して差別されることがある。
これらのアプリケーションにおけるもうひとつの大きな懸念は、ユーザのプライバシ侵害である。
差別問題を緩和するために公正な学習アルゴリズムが開発されているが、これらのアルゴリズムは個人の健康や財務記録などの機密情報を漏洩することができる。
ディファレンシャルプライバシ(DP)の概念を利用することで、従来はプライベートかつフェアな学習アルゴリズムの開発を目標としていた。
しかし、dpフェアラーニングのための既存のアルゴリズムは、収束を保証されないか、アルゴリズムの各イテレーションで全データのバッチを必要とする。
本稿では,収束が保証されるフェアラーニングのための最初の確率的微分プライベートアルゴリズムを提案する。
ここで「確率的」という用語は、各イテレーションでデータのミニバッチ(すなわち確率的最適化)が使われても提案アルゴリズムが収束するという事実を指す。
われわれのフレームワークは、人口的平等や等化確率など、さまざまな公平性の概念を許容できるほど柔軟である。
さらに,本アルゴリズムは,複数の(非バイナリ)感度属性を持つ非バイナリ分類タスクに適用可能である。
収束解析の副産物として,非凸強凸min-max問題を解くdpアルゴリズムに対する最初の実用的保証を提供する。
数値実験により,提案アルゴリズムは最先端のベースラインよりも高い性能を示し,非バイナリターゲット/感度特性の大規模問題に適用可能であることが示された。 Machine learning models are increasingly used in high-stakes decision-making systems. In such applications, a major concern is that these models sometimes discriminate against certain demographic groups such as individuals with certain race, gender, or age. Another major concern in these applications is the violation of the privacy of users. While fair learning algorithms have been developed to mitigate discrimination issues, these algorithms can still leak sensitive information, such as individuals' health or financial records. Utilizing the notion of differential privacy (DP), prior works aimed at developing learning algorithms that are both private and fair. However, existing algorithms for DP fair learning are either not guaranteed to converge or require full batch of data in each iteration of the algorithm to converge. In this paper, we provide the first stochastic differentially private algorithm for fair learning that is guaranteed to converge. Here, the term "stochastic" refers to the fact that our proposed algorithm converges even when minibatches of data are used at each iteration (i.e. stochastic optimization). Our framework is flexible enough to permit different fairness notions, including demographic parity and equalized odds. In addition, our algorithm can be applied to non-binary classification tasks with multiple (non-binary) sensitive attributes. As a byproduct of our convergence analysis, we provide the first utility guarantee for a DP algorithm for solving nonconvex-strongly concave min-max problems. Our numerical experiments show that the proposed algorithm consistently offers significant performance gains over the state-of-the-art baselines, and can be applied to larger scale problems with non-binary target/sensitive attributes. | 翻訳日:2023-06-07 04:24:36 公開日:2023-06-03 |
# GANを用いたECG合成における統計的形状優先の活用 Leveraging Statistical Shape Priors in GAN-based ECG Synthesis ( http://arxiv.org/abs/2211.02626v2 ) ライセンス: Link先を確認 | Nour Neifar and Achraf Ben-Hamadou and Afef Mdhaffar and Mohamed Jmaiel and Bernd Freisleben | (参考訳) 緊急時の心電図(ECG)データ収集は困難であり、心電図データ生成は高度に不均衡な心電図トレーニングデータセットを扱うための効率的なソリューションとなる。
本稿では,GAN(Generative Adversarial Networks)と統計ECGデータモデリングを用いた新しいECG信号生成手法を提案する。
本手法では,ECG信号の複雑なダイナミックスに対処するため,ECGのダイナミックスに関する事前知識を活用して現実的な信号を合成する。
提案手法を検証するため,MIT-BIH不整脈データベースのECG信号を用いた実験を行った。
その結果,心電図信号の時間変化と振幅変化を2次元形状としてモデル化する手法は,最先端のganベースラインと比較してより現実的な信号を生成することがわかった。
提案手法は,ECG学習データセットの品質向上に重要な意味を持ち,最終的にはECG分類アルゴリズムの性能向上につながる可能性がある。
本研究は,心疾患の診断と治療に役立つ,より効率的かつ正確な心電図解析法の開発に寄与する。 Electrocardiogram (ECG) data collection during emergency situations is challenging, making ECG data generation an efficient solution for dealing with highly imbalanced ECG training datasets. In this paper, we propose a novel approach for ECG signal generation using Generative Adversarial Networks (GANs) and statistical ECG data modeling. Our approach leverages prior knowledge about ECG dynamics to synthesize realistic signals, addressing the complex dynamics of ECG signals. To validate our approach, we conducted experiments using ECG signals from the MIT-BIH arrhythmia database. Our results demonstrate that our approach, which models temporal and amplitude variations of ECG signals as 2-D shapes, generates more realistic signals compared to state-of-the-art GAN based generation baselines. Our proposed approach has significant implications for improving the quality of ECG training datasets, which can ultimately lead to better performance of ECG classification algorithms. This research contributes to the development of more efficient and accurate methods for ECG analysis, which can aid in the diagnosis and treatment of cardiac diseases. | 翻訳日:2023-06-07 04:16:57 公開日:2023-06-03 |
# FeDXL: 深部X-Risk最適化のための有望なフェデレーション学習 FeDXL: Provable Federated Learning for Deep X-Risk Optimization ( http://arxiv.org/abs/2210.14396v3 ) ライセンス: Link先を確認 | Zhishuai Guo, Rong Jin, Jiebo Luo, Tianbao Yang | (参考訳) 本稿では,既存のflアルゴリズムを適用できないx-risk群を最適化するための新しい連合学習(fl)問題に取り組む。
特に、目標は$\mathbb e_{z\sim s_1} f(\mathbb e_{z'\sim s_2} \ell(w; z, z'))$であり、2組のデータ $s_1, s_2$ が複数のマシンに分散されている場合、$\ell(\cdot)$ は入力データ対 $(z, z')$ と $f(\cdot)$ の予測出力にのみ依存する対損失である。
この問題は、AUROCの最大化とAUROCの最大化と構成損失の最大化といった機械学習において重要な応用がある。
Xリスクに対するFLアルゴリズムを設計する際の課題は、複数のマシンに対する目的の非分解性と異なるマシン間の相互依存性にある。
そこで本研究では, 局所モデルで計算される局所データと, パッシブ部が歴史的なモデルとサンプルに基づいて通信・計算される他の機械に依存した, アクティブ部分とパッシブ部分という2つのタイプで勾配成分を分解する能動パッシブ分解フレームワークを提案する。
本フレームワークでは,線形および非線形の$f$をそれぞれフェデレート平均とマージに基づいて処理するための2つの証明可能なFLアルゴリズム(FeDXL)を開発した。
本研究では,受動部品の遅延と局所モデルパラメータ間の相互依存性に対処する理論解析を開発し,局所勾配推定器の計算を行う。
繰り返しと通信の両複雑さを確立し、過去のサンプルとモデルを用いて受動部品を計算しても複雑さは劣化しないことを示す。
深部AUROCおよび部分AUROCの最大化のためのFeDXLの実証的研究を行い, それらの性能をいくつかのベースラインと比較した。 In this paper, we tackle a novel federated learning (FL) problem for optimizing a family of X-risks, to which no existing FL algorithms are applicable. In particular, the objective has the form of $\mathbb E_{z\sim S_1} f(\mathbb E_{z'\sim S_2} \ell(w; z, z'))$, where two sets of data $S_1, S_2$ are distributed over multiple machines, $\ell(\cdot)$ is a pairwise loss that only depends on the prediction outputs of the input data pairs $(z, z')$, and $f(\cdot)$ is possibly a non-linear non-convex function. This problem has important applications in machine learning, e.g., AUROC maximization with a pairwise loss, and partial AUROC maximization with a compositional loss. The challenges for designing an FL algorithm for X-risks lie in the non-decomposability of the objective over multiple machines and the interdependency between different machines. To this end, we propose an active-passive decomposition framework that decouples the gradient's components with two types, namely active parts and passive parts, where the active parts depend on local data that are computed with the local model and the passive parts depend on other machines that are communicated/computed based on historical models and samples. Under this framework, we develop two provable FL algorithms (FeDXL) for handling linear and nonlinear $f$, respectively, based on federated averaging and merging. We develop a novel theoretical analysis to combat the latency of the passive parts and the interdependency between the local model parameters and the involved data for computing local gradient estimators. We establish both iteration and communication complexities and show that using the historical samples and models for computing the passive parts do not degrade the complexities. We conduct empirical studies of FeDXL for deep AUROC and partial AUROC maximization, and demonstrate their performance compared with several baselines. | 翻訳日:2023-06-07 04:14:18 公開日:2023-06-03 |
# 医用画像解析のための拡散モデル:総合的調査 Diffusion Models for Medical Image Analysis: A Comprehensive Survey ( http://arxiv.org/abs/2211.07804v3 ) ライセンス: Link先を確認 | Amirhossein Kazerouni, Ehsan Khodapanah Aghdam, Moein Heidari, Reza Azad, Mohsen Fayyaz, Ilker Hacihaliloglu, Dorit Merhof | (参考訳) 生成モデルの一種である分母拡散モデルは、近年、様々なディープラーニング問題に多大な関心を集めている。
拡散確率モデルは、ガウス雑音を付加することにより入力データが徐々に数段にわたって摂動する前方拡散段階を定義し、その後拡散過程を逆転してノイズのないデータをノイズデータから取得する。
拡散モデルは、既知の計算負荷にもかかわらず、強いモードカバレッジと生成サンプルの品質で広く評価されている。
コンピュータビジョンの進歩に乗じて、医療画像の分野でも拡散モデルへの関心が高まっている。
本研究は, 医用画像解析の分野における拡散モデルの概要を明らかにすることを目的としている。
具体的には,拡散モデルと拡散確率モデル,雑音条件スコアネットワーク,確率微分方程式という3つの汎用拡散モデルフレームワークの背後にある固体理論的基礎と基本概念を紹介する。
そこで我々は,医療領域における拡散モデルの系統分類を提供し,その応用,画像のモダリティ,興味の組織,アルゴリズムに基づく多視点分類を提案する。
この目的のために,医療領域における拡散モデルの広範な応用について紹介する。
さらに,いくつかのアプローチの実用化事例を強調し,医療領域における拡散モデルの限界を議論し,この分野の要求を満たすためのいくつかの方向性を提案する。
最後に、利用可能なオープンソース実装に関する概要研究をhttps://github.com/amirhossein-kz/Awesome-Diffusion-Models-in-Medical-Imagingにまとめる。 Denoising diffusion models, a class of generative models, have garnered immense interest lately in various deep-learning problems. A diffusion probabilistic model defines a forward diffusion stage where the input data is gradually perturbed over several steps by adding Gaussian noise and then learns to reverse the diffusion process to retrieve the desired noise-free data from noisy data samples. Diffusion models are widely appreciated for their strong mode coverage and quality of the generated samples despite their known computational burdens. Capitalizing on the advances in computer vision, the field of medical imaging has also observed a growing interest in diffusion models. To help the researcher navigate this profusion, this survey intends to provide a comprehensive overview of diffusion models in the discipline of medical image analysis. Specifically, we introduce the solid theoretical foundation and fundamental concepts behind diffusion models and the three generic diffusion modelling frameworks: diffusion probabilistic models, noise-conditioned score networks, and stochastic differential equations. Then, we provide a systematic taxonomy of diffusion models in the medical domain and propose a multi-perspective categorization based on their application, imaging modality, organ of interest, and algorithms. To this end, we cover extensive applications of diffusion models in the medical domain. Furthermore, we emphasize the practical use case of some selected approaches, and then we discuss the limitations of the diffusion models in the medical domain and propose several directions to fulfill the demands of this field. Finally, we gather the overviewed studies with their available open-source implementations at https://github.com/amirhossein-kz/Awesome-Diffusion-Models-in-Medical-Imaging. | 翻訳日:2023-06-07 04:04:46 公開日:2023-06-03 |
# Cu(001)上のH2の活性化解離 : 量子トンネルの役割 Activated Dissociation of H2 on Cu(001): The Role of Quantum Tunneling ( http://arxiv.org/abs/2211.06157v3 ) ライセンス: Link先を確認 | Xiaofan Yu, Yangwu Tong, and Yong Yang | (参考訳) Cu(001)表面上のH2分子の活性化と解離が理論的に研究されている。
Cu(001)上のH2の解離の活性化障壁は、第一原理計算により、高さ0.59 eVと決定される。
基質CuからH2への電子移動は、活性化、H-H結合の破壊、Cu-H結合の形成において重要な役割を果たす。
結合破壊の臨界高度付近では、2つの定常状態が同定され、それぞれ分子状態と解離状態に対応する。
移動マトリクス法を用いて, 室温以下では有意な最小エネルギー経路(mep)に沿った解離過程における量子トンネルの役割を調べることができる。
所定の温度では、H2の翻訳運動と振動運動からのトンネルの寄与を解離過程のために定量化する。
幅広い温度範囲で、量子トンネル効果が解離の有効障壁と速度定数に及ぼす影響が明らかにされる。
熱平衡および非平衡(分子ビーム)条件に関連した推定エネルギーパラメータは、実験データに匹敵する。
低温領域では、古典状態から量子状態へのクロスオーバーが特定される。 The activation and dissociation of H2 molecules on Cu(001) surface is studied theoretically. The activation barrier for the dissociation of H2 on Cu(001) is determined by first-principles calculations to be ~ 0.59 eV in height. Electron transfer from the substrate Cu to H2 plays a key role in the activation, breaking of the H-H bond and the formation of the Cu-H bonds. At around the critical height of bond breaking, two stationary states are identified, which correspond respectively to the molecular and dissociative state. Using the transfer matrix method, we are able to study the role of quantum tunneling in the dissociation process along the minimum energy pathway (MEP), which is found to be significant at room temperature and below. At given temperatures, the tunneling contributions from the translational and vibrational motions of H2 are quantified for the dissociation process. Within a wide range of temperatures, the effects of quantum tunneling on the effective barriers of dissociation and the rate constants are revealed. The deduced energetic parameters associated with thermal equilibrium and non-equilibrium (molecular beam) conditions are comparable with experimental data. In the low-temperature region, crossover from classical to quantum regime is identified. | 翻訳日:2023-06-07 04:03:53 公開日:2023-06-03 |
# Z-ICL:擬似表現を用いたゼロショットインテクスト学習 Z-ICL: Zero-Shot In-Context Learning with Pseudo-Demonstrations ( http://arxiv.org/abs/2212.09865v2 ) ライセンス: Link先を確認 | Xinxi Lyu, Sewon Min, Iz Beltagy, Luke Zettlemoyer, Hannaneh Hajishirzi | (参考訳) 大規模な言語モデルはゼロショット学習と少数ショット学習の両方でトリガーできるが、デモが得られない場合のパフォーマンスは大幅に低下する。
本稿では,原文コーパスを用いて,与えられたテスト入力に対する擬似デモンストレーションを構築し,そのギャップを閉じる新しいゼロショット法であるz-iclを提案する。
具体的には、(1)コーパスから入力されたテストに最も近い隣人を見つけ、ランダムなタスクラベルとペアリングし、(2)結果のデモンストレーションからモデルを直接コピーする量を減らすための一連のテクニックを適用することで擬似装飾を構築する。
9つの分類データセットの評価から、Z-ICLは従来のゼロショット法よりも大幅に優れており、ラベル付きトレーニングデータとラベル付きトレーニングデータと同等であることがわかった。
全体として、Z-ICLは、モデルのゼロショット性能レベルをはるかに高く見積もっており、ゼロショット結果をさらに改善するより良い擬似デモを開発するための将来の取り組みを支援している。 Although large language models can be prompted for both zero- and few-shot learning, performance drops significantly when no demonstrations are available. In this paper, we introduce Z-ICL, a new zero-shot method that closes the gap by constructing pseudo-demonstrations for a given test input using a raw text corpus. Concretely, pseudo-demonstrations are constructed by (1) finding the nearest neighbors to the test input from the corpus and pairing them with random task labels, and (2) applying a set of techniques to reduce the amount of direct copying the model does from the resulting demonstrations. Evaluation on nine classification datasets shows that Z-ICL outperforms previous zero-shot methods by a significant margin, and is on par with in-context learning with labeled training data in the few-shot setting. Overall, Z-ICL provides a significantly higher estimate of the zero-shot performance levels of a model, and supports future efforts to develop better pseudo-demonstrations that further improve zero-shot results. | 翻訳日:2023-06-07 03:46:42 公開日:2023-06-03 |
# グラフ学習とその応用: ホロスティックな調査 Graph Learning and Its Applications: A Holistic Survey ( http://arxiv.org/abs/2212.08966v3 ) ライセンス: Link先を確認 | Shaopeng Wei, Yu Zhao, Xingyan Chen, Qing Li, Fuzhen Zhuang, Ji Liu, Gang Kou | (参考訳) グラフ学習は、ノード間の複雑な関係とグラフのトポロジ的構造を学習する試みである。
長年にわたり、グラフ学習はグラフ理論からグラフデータマイニングへと移行してきた。
表現学習の出現により、多様なシナリオにおいて顕著なパフォーマンスを達成した。
幅広い応用の見通しから、グラフ学習には注意が集まっている。
一部の研究者はグラフ学習に関する素晴らしい調査を達成しているが、関連する目的、方法、アプリケーションをより一貫性のある方法で結びつけることに失敗した。
その結果、グラフ学習の急速な拡大のために、現在の豊富なシナリオや課題を包含することはなかった。
特に、大規模言語モデルは近年、人間の生活に破壊的な影響を与えてきたが、構造化シナリオの相対的な弱点も示している。
これらのモデルをグラフ学習でより強力にする方法については、まだ疑問の余地がある。
グラフ学習に関するこれまでの調査とは違って,グラフ構造の観点から現在の成果を分析する総合的なレビューを行い,グラフ学習における最新の応用,トレンド,課題について論じる。
具体的には,分類法を提案し,グラフ学習の手法を要約する。
次に、メインストリームアプリケーションの詳細解明を行う。
最後に,今後の方向性を提案する。 Graph learning is a prevalent domain that endeavors to learn the intricate relationships among nodes and the topological structure of graphs. Over the years, graph learning has transcended from graph theory to graph data mining. With the advent of representation learning, it has attained remarkable performance in diverse scenarios. Owing to its extensive application prospects, graph learning attracts copious attention. While some researchers have accomplished impressive surveys on graph learning, they failed to connect related objectives, methods, and applications in a more coherent way. As a result, they did not encompass current ample scenarios and challenging problems due to the rapid expansion of graph learning. Particularly, large language models have recently had a disruptive effect on human life, but they also show relative weakness in structured scenarios. The question of how to make these models more powerful with graph learning remains open. Different from previous surveys on graph learning, we provide a holistic review that analyzes current works from the perspective of graph structure, and discusses the latest applications, trends, and challenges in graph learning. Specifically, we commence by proposing a taxonomy and then summarize the methods employed in graph learning. We then provide a detailed elucidation of mainstream applications. Finally, we propose future directions. | 翻訳日:2023-06-07 03:45:00 公開日:2023-06-03 |
# Evolve Path Tracer:暗号通貨における悪意アドレスの早期検出 Evolve Path Tracer: Early Detection of Malicious Addresses in Cryptocurrency ( http://arxiv.org/abs/2301.05412v3 ) ライセンス: Link先を確認 | Ling Cheng, Feida Zhu, Yong Wang, Ruicheng Liang, Huiwen Liu | (参考訳) 暗号通貨のブームが続く中、不正行為や関連する悪意のあるアドレスを検知する研究が盛んに進んでいる。
しかし、既存の研究の多くは、まだ完全な履歴機能や本格的なアドレストランザクションネットワークに依存しているため、早期の悪意のあるアドレス検出の要件を満たすことはできない。
悪意のあるアドレスの不正行為を早期に検出するために,evolve path tracerを提案する。evolve path encoder lstm,evolve path graph gcn,そして階層的サバイバル予測器である。
具体的には、一般的なアドレス機能に加えて、初期取引パターンを特徴付けるための資産移動経路と対応する経路グラフを提案する。
さらに,早期に取引パターンが急速に変化しているため,進化的構造設定の下で,資産移動経路と経路グラフをエンコードするEvolve Path Encoder LSTMとEvolve Path Graph GCNを提案する。
階層的生存予測器は、優れたスケーラビリティと高速な予測速度でアドレスのラベルを予測する。
Evolve Path Tracerの3つの現実の不正ビットコインデータセットに対する有効性と汎用性について検討する。
実験の結果,Evolve Path Tracerは最先端手法よりも優れていた。
拡張性実験は、動的予測設定下でモデルの適応性を示す。 With the ever-increasing boom of Cryptocurrency, detecting fraudulent behaviors and associated malicious addresses draws significant research effort. However, most existing studies still rely on the full history features or full-fledged address transaction networks, thus cannot meet the requirements of early malicious address detection, which is urgent but seldom discussed by existing studies. To detect fraud behaviors of malicious addresses in the early stage, we present Evolve Path Tracer, which consists of Evolve Path Encoder LSTM, Evolve Path Graph GCN, and Hierarchical Survival Predictor. Specifically, in addition to the general address features, we propose asset transfer paths and corresponding path graphs to characterize early transaction patterns. Further, since the transaction patterns are changing rapidly during the early stage, we propose Evolve Path Encoder LSTM and Evolve Path Graph GCN to encode asset transfer path and path graph under an evolving structure setting. Hierarchical Survival Predictor then predicts addresses' labels with nice scalability and faster prediction speed. We investigate the effectiveness and versatility of Evolve Path Tracer on three real-world illicit bitcoin datasets. Our experimental results demonstrate that Evolve Path Tracer outperforms the state-of-the-art methods. Extensive scalability experiments demonstrate the model's adaptivity under a dynamic prediction setting. | 翻訳日:2023-06-07 03:37:52 公開日:2023-06-03 |
# 有向パーコレーション遷移に近い量子軌道の自明性 Triviality of quantum trajectories close to a directed percolation transition ( http://arxiv.org/abs/2212.14026v2 ) ライセンス: Link先を確認 | Lorenzo Piroli, Yaodong Li, Romain Vasseur, Adam Nahum | (参考訳) 単体ゲート、射影測定、制御操作からなる量子回路について検討し、純粋な吸収状態に向けてシステムを操る。
2種類の相転移は、これらの制御操作の速度が増加するにつれて起こる: 測定誘起絡み合い遷移と、直接パーコレーション遷移が吸収状態に遷移する(ここでは積状態とする)。
本研究では、これらの遷移が総称的に異なることを示し、吸収状態遷移に達する前に量子軌道が絡み合うようになることを示し、それらの臨界特性を解析する。
各量子軌道における測定値が、非自明な時間進化が起こる初期時空グラフのサブグラフであるエフェクトテンソルネットワーク(ETN)を定義する単純なモデルのクラスを導入する。
ETNの絡み合い特性を解析することにより、絡み合いと吸収状態遷移は無限局所ヒルベルト空間次元の極限にのみ一致することを示す。
大規模システムサイズの数値シミュレーションを可能にするクリフォードモデルに焦点をあて、我々の予測を検証し、大きな局所ヒルベルト空間次元における2つの遷移の間の有限サイズ交叉について検討する。
エンタングルメント遷移はフィードバックのないハイブリッド回路と同じ固定点で制御されていることを示す。 We study quantum circuits consisting of unitary gates, projective measurements, and control operations that steer the system towards a pure absorbing state. Two types of phase transition occur as the rate of these control operations is increased: a measurement-induced entanglement transition, and a directed percolation transition into the absorbing state (taken here to be a product state). In this work we show analytically that these transitions are generically distinct, with the quantum trajectories becoming disentangled before the absorbing state transition is reached, and we analyze their critical properties. We introduce a simple class of models where the measurements in each quantum trajectory define an Effective Tensor Network (ETN) -- a subgraph of the initial spacetime graph where nontrivial time evolution takes place. By analyzing the entanglement properties of the ETN, we show that the entanglement and absorbing-state transitions coincide only in the limit of infinite local Hilbert-space dimension. Focusing on a Clifford model which allows numerical simulations for large system sizes, we verify our predictions and study the finite-size crossover between the two transitions at large local Hilbert space dimension. We give evidence that the entanglement transition is governed by the same fixed point as in hybrid circuits without feedback. | 翻訳日:2023-06-07 03:36:52 公開日:2023-06-03 |
# PDE逆問題解くニューラルネットワーク逆演算子 Neural Inverse Operators for Solving PDE Inverse Problems ( http://arxiv.org/abs/2301.11167v2 ) ライセンス: Link先を確認 | Roberto Molinaro, Yunan Yang, Bj\"orn Engquist, Siddhartha Mishra | (参考訳) PDEに対する逆問題の大規模なクラスは、作用素から関数への写像としてのみよく定義される。
既存のオペレータ学習フレームワークは関数を関数にマッピングし、データから逆マップを学習するために修正する必要がある。
本稿では,これらのPDE逆問題を解決するために,NIO(Neural Inverse Operators)と呼ばれる新しいアーキテクチャを提案する。
基礎となる数学的構造によって動機づけられたNIOは、作用素から関数への写像を近似するためのDeepONetsとFNOsの適切な構成に基づいている。
NIOがベースラインを著しく上回り、PDEの逆問題に対して堅牢かつ正確に解き、既存の直接最適化法やPDE制約最適化法よりも数桁高速であることを示すために、様々な実験を行った。 A large class of inverse problems for PDEs are only well-defined as mappings from operators to functions. Existing operator learning frameworks map functions to functions and need to be modified to learn inverse maps from data. We propose a novel architecture termed Neural Inverse Operators (NIOs) to solve these PDE inverse problems. Motivated by the underlying mathematical structure, NIO is based on a suitable composition of DeepONets and FNOs to approximate mappings from operators to functions. A variety of experiments are presented to demonstrate that NIOs significantly outperform baselines and solve PDE inverse problems robustly, accurately and are several orders of magnitude faster than existing direct and PDE-constrained optimization methods. | 翻訳日:2023-06-07 03:26:50 公開日:2023-06-03 |
# 深層強化学習における探索のための自己報酬の自動生成 Automatic Intrinsic Reward Shaping for Exploration in Deep Reinforcement Learning ( http://arxiv.org/abs/2301.10886v3 ) ライセンス: Link先を確認 | Mingqi Yuan, Bo Li, Xin Jin, Wenjun Zeng | (参考訳) 本稿では,強化学習(RL)における探索を強化するために,知的かつ適応的に高品質な固有報酬を提供する自動固有逆整形法を提案する。
より具体的には、AIRSは、推定されたタスクリターンに基づいて予め定義されたセットから、リアルタイムにシェーピング機能を選択し、信頼性の高い探索インセンティブを提供し、バイアスのある客観的問題を緩和する。
さらに,多様なインセンティブインセンティブアプローチの効率的かつ信頼性の高い実装を実現するためのインセンティブインセンティブインセンティブツールキットを開発した。
我々は、MiniGrid、Procgen、DeepMind Control Suiteといった様々なタスクでAIRSをテストする。
拡張シミュレーションは、airsがベンチマークスキームを上回ることができ、単純なアーキテクチャで優れたパフォーマンスを達成することを実証する。 We present AIRS: Automatic Intrinsic Reward Shaping that intelligently and adaptively provides high-quality intrinsic rewards to enhance exploration in reinforcement learning (RL). More specifically, AIRS selects shaping function from a predefined set based on the estimated task return in real-time, providing reliable exploration incentives and alleviating the biased objective problem. Moreover, we develop an intrinsic reward toolkit to provide efficient and reliable implementations of diverse intrinsic reward approaches. We test AIRS on various tasks of MiniGrid, Procgen, and DeepMind Control Suite. Extensive simulation demonstrates that AIRS can outperform the benchmarking schemes and achieve superior performance with simple architecture. | 翻訳日:2023-06-07 03:26:37 公開日:2023-06-03 |
# ExaRanker: Explanation-augmented Neural Ranker ExaRanker: Explanation-Augmented Neural Ranker ( http://arxiv.org/abs/2301.10521v2 ) ライセンス: Link先を確認 | Fernando Ferraretto, Thiago Laitz, Roberto Lotufo and Rodrigo Nogueira | (参考訳) 近年の研究では,大規模言語モデル(LLM)の導入により,回答を出力する前に説明文を生成することが,幅広い推論タスクのパフォーマンス向上に有効な戦略であることが示されている。
本稿では,神経ランカが説明の恩恵を受けていることを示す。
gpt-3.5 のような llm を使用して,説明付き検索データセットの強化とシーケンス・ツー・シーケンスのランク付けモデルのトレーニングを行い,与えられたクエリ・ドキュメントペアに対して関連ラベルと説明文を出力する。
ExaRankerと呼ばれる私たちのモデルは、数千の例で微調整され、合成説明は、説明なしで3倍の例で微調整されたモデルと同等に実行される。
さらに、exarankerモデルは、ランキング中に追加の計算コストを発生せず、オンデマンドで説明を要求できる。 Recent work has shown that inducing a large language model (LLM) to generate explanations prior to outputting an answer is an effective strategy to improve performance on a wide range of reasoning tasks. In this work, we show that neural rankers also benefit from explanations. We use LLMs such as GPT-3.5 to augment retrieval datasets with explanations and train a sequence-to-sequence ranking model to output a relevance label and an explanation for a given query-document pair. Our model, dubbed ExaRanker, finetuned on a few thousand examples with synthetic explanations performs on par with models finetuned on 3x more examples without explanations. Furthermore, the ExaRanker model incurs no additional computational cost during ranking and allows explanations to be requested on demand. | 翻訳日:2023-06-07 03:26:09 公開日:2023-06-03 |
# 幾何学的グラフニューラルネットワークの表現力について On the Expressive Power of Geometric Graph Neural Networks ( http://arxiv.org/abs/2301.09308v2 ) ライセンス: Link先を確認 | Chaitanya K. Joshi, Cristian Bodnar, Simon V. Mathis, Taco Cohen, Pietro Li\`o | (参考訳) グラフニューラルネットワーク(GNN)の表現力はWeisfeiler-Leman(WL)グラフ同型テストを通じて広く研究されている。
しかし、標準GNNとWLフレームワークは、生体分子、材料、その他の物理系などのユークリッド空間に埋め込まれた幾何学グラフには適用できない。
本研究では,幾何学的グラフを識別するための幾何版WLテスト(GWL)を提案し,その基礎となる物理対称性(置換,回転,反射,変換)を尊重する。
我々はGWLを用いて、幾何学グラフの区別の観点から、物理対称性に不変または同変である幾何学的GNNの表現力を特徴づける。
GWLは, 鍵設計選択が幾何的GNN表現性にどのように影響するかを解き明かす。(1) 不変層は, 1ホップの同一幾何グラフを区別できないため, 有限表現性を持つ; (2) 等変層は, 局所的に幾何学情報を伝播させることにより, グラフのより大きなクラスを区別する; (3) 高次テンソルとスカラー化により, 最大で強力な幾何的GNNを可能にする;(4) GWLの識別に基づく視点は普遍近似と等価である。
我々の結果を補う合成実験は \url{https://github.com/chaitjo/geometric-gnn-dojo} で利用可能である。 The expressive power of Graph Neural Networks (GNNs) has been studied extensively through the Weisfeiler-Leman (WL) graph isomorphism test. However, standard GNNs and the WL framework are inapplicable for geometric graphs embedded in Euclidean space, such as biomolecules, materials, and other physical systems. In this work, we propose a geometric version of the WL test (GWL) for discriminating geometric graphs while respecting the underlying physical symmetries: permutations, rotation, reflection, and translation. We use GWL to characterise the expressive power of geometric GNNs that are invariant or equivariant to physical symmetries in terms of distinguishing geometric graphs. GWL unpacks how key design choices influence geometric GNN expressivity: (1) Invariant layers have limited expressivity as they cannot distinguish one-hop identical geometric graphs; (2) Equivariant layers distinguish a larger class of graphs by propagating geometric information beyond local neighbourhoods; (3) Higher order tensors and scalarisation enable maximally powerful geometric GNNs; and (4) GWL's discrimination-based perspective is equivalent to universal approximation. Synthetic experiments supplementing our results are available at \url{https://github.com/chaitjo/geometric-gnn-dojo} | 翻訳日:2023-06-07 03:25:31 公開日:2023-06-03 |
# ブラウン運動を伴う量子力学の確率力学と統一 Stochastic Mechanics and the Unification of Quantum Mechanics with Brownian Motion ( http://arxiv.org/abs/2301.05467v3 ) ライセンス: Link先を確認 | Folkert Kuipers | (参考訳) ブラウン運動と量子力学を単一の数学的枠組みで統一する。
特に、平面上の1つのスピンレス粒子の非相対論的量子力学は、複素平面上で回転するウィーナー過程によって記述できることを示す。
次に、この理論を二階幾何学の枠組みを用いて多様体上の相対論的確率論に拡張する。
副生成物としては、ローレンツ多様体上の量子論の一貫した経路積分に基づく定式化は、アフィン接続への二次変動のカップリングによって生じるポアンケア(ガリアン)対称性のイト変形を必要とすることを示唆している。 We unify Brownian motion and quantum mechanics in a single mathematical framework. In particular, we show that non-relativistic quantum mechanics of a single spinless particle on a flat space can be described by a Wiener process that is rotated in the complex plane. We then extend this theory to relativistic stochastic theories on manifolds using the framework of second order geometry. As a byproduct, our results suggest that a consistent path integral based formulation of a quantum theory on a Lorentzian (Riemannian) manifold requires an Ito deformation of the Poincare (Galilean) symmetry, arising due to the coupling of the quadratic variation to the affine connection. | 翻訳日:2023-06-07 03:24:23 公開日:2023-06-03 |
# 反統一と一般化:調査 Anti-unification and Generalization: A Survey ( http://arxiv.org/abs/2302.00277v5 ) ライセンス: Link先を確認 | David M. Cerna and Temur Kutsia | (参考訳) 反統一 (AU) は帰納的推論に使用される一般化計算の基本的な演算である。
これは統一への双対演算であり、自動定理証明の基礎における演算である。
AIとその関連コミュニティからのAUへの関心は高まっているが、既存の作業の概念や調査に関する体系的な研究がなければ、既存のアプローチがカバーできるアプリケーション固有の手法の開発に頼っていることが多い。
我々は、AU研究とその応用に関する最初の調査と、現在および将来の開発を分類するための一般的なフレームワークを提供する。 Anti-unification (AU) is a fundamental operation for generalization computation used for inductive inference. It is the dual operation to unification, an operation at the foundation of automated theorem proving. Interest in AU from the AI and related communities is growing, but without a systematic study of the concept nor surveys of existing work, investigations often resort to developing application-specific methods that existing approaches may cover. We provide the first survey of AU research and its applications and a general framework for categorizing existing and future developments. | 翻訳日:2023-06-07 03:17:49 公開日:2023-06-03 |
# 弾性入力列を用いた適応計算 Adaptive Computation with Elastic Input Sequence ( http://arxiv.org/abs/2301.13195v2 ) ライセンス: Link先を確認 | Fuzhao Xue, Valerii Likhosherstov, Anurag Arnab, Neil Houlsby, Mostafa Dehghani, Yang You | (参考訳) 人間は、使用する情報の種類、採用する手順、問題解決に費やす時間に適応する能力を持っている。
しかしながら、ほとんどの標準ニューラルネットワークは、サンプルの性質や難易度に関わらず、固定関数型と計算予算を有する。
適応性は、これらのモデルの下流の使用に関する柔軟性を実践者に与えるだけでなく、ある種の困難な問題を解決するための強力な帰納的バイアスとしても役立つため、強力なパラダイムである。
本稿では,アダプティブテープトークンによるニューラルネットワークの動的計算を可能にする,adatapeと呼ばれる新しい手法を提案する。
AdaTapeは動的リード・アンド・ライトテープでアーキテクチャを装備することで弾性入力シーケンスを利用する。
具体的には、テープバンクから得られたテープトークンを用いて、入力データからトレーニング可能または導出可能な入力シーケンスを適応的に生成する。
本稿では,動的シーケンスの内容と長さを求めるための課題と要件について検討し,両目的を達成するための適応テープ読み取り(atr)アルゴリズムを提案する。
画像認識タスクの広範な実験を通して、AdaTapeは計算コストを維持しながら、より良い性能を実現することができることを示す。
さらなる研究を容易にするために、我々はhttps://github.com/google-research/scenicでコードをリリースした。 Humans have the ability to adapt the type of information they use, the procedure they employ, and the amount of time they spend when solving problems. However, most standard neural networks have a fixed function type and computation budget regardless of the sample's nature or difficulty. Adaptivity is a powerful paradigm as it not only imbues practitioners with flexibility pertaining to the downstream usage of these models but can also serve as a powerful inductive bias for solving certain challenging classes of problems. In this work, we introduce a new approach called AdaTape, which allows for dynamic computation in neural networks through adaptive tape tokens. AdaTape utilizes an elastic input sequence by equipping an architecture with a dynamic read-and-write tape. Specifically, we adaptively generate input sequences using tape tokens obtained from a tape bank which can be either trainable or derived from input data. We examine the challenges and requirements to obtain dynamic sequence content and length, and propose the Adaptive Tape Reading (ATR) algorithm to achieve both goals. Through extensive experiments on image recognition tasks, we show that AdaTape can achieve better performance while maintaining the computational cost. To facilitate further research, we have released code at https://github.com/google-research/scenic. | 翻訳日:2023-06-07 03:17:08 公開日:2023-06-03 |
# 利得変調ニューロンを有する神経集団における適応的白化 Adaptive whitening in neural populations with gain-modulating interneurons ( http://arxiv.org/abs/2301.11955v2 ) ライセンス: Link先を確認 | Lyndon R. Duong, David Lipshutz, David J. Heeger, Dmitri B. Chklovskii, Eero P. Simoncelli | (参考訳) 統計的な白化変換は多くの計算システムにおいて基本的な役割を担い、生物学的感覚システムにおいても重要な役割を果たす。
既存のアダプティブ・ホワイトニングのニューラル回路モデルはシナプス相互作用を変更することで機能するが、そのような修正は遅すぎて可逆的ではないように思える。
ゲイン変調に関する広範な神経科学文献に動機づけられ,個々のニューロンのゲインを調節することによってその応答を適応的に白化させる代替モデルを提案する。
新たなホワイトニングの目的から、過剰なプロジェクションセットの限界分散を調整することで、出力をホワイト化するオンラインアルゴリズムを導出する。
アルゴリズムを、固定されたシナプス重みと利得調節型インターニューラルンのリカレントニューラルネットワークにマッピングする。
我々は、利得の抑制により、不条件入力に対するネットワークの堅牢性が向上し、回路の一般化により、視覚系や聴覚系で見られるような畳み込み集団における局所的な白化が達成されることを示す。 Statistical whitening transformations play a fundamental role in many computational systems, and may also play an important role in biological sensory systems. Existing neural circuit models of adaptive whitening operate by modifying synaptic interactions; however, such modifications would seem both too slow and insufficiently reversible. Motivated by the extensive neuroscience literature on gain modulation, we propose an alternative model that adaptively whitens its responses by modulating the gains of individual neurons. Starting from a novel whitening objective, we derive an online algorithm that whitens its outputs by adjusting the marginal variances of an overcomplete set of projections. We map the algorithm onto a recurrent neural network with fixed synaptic weights and gain-modulating interneurons. We demonstrate numerically that sign-constraining the gains improves robustness of the network to ill-conditioned inputs, and a generalization of the circuit achieves a form of local whitening in convolutional populations, such as those found throughout the visual or auditory systems. | 翻訳日:2023-06-07 03:15:58 公開日:2023-06-03 |
# 教師なしモデルベースRLの予測可能なMDP抽象化 Predictable MDP Abstraction for Unsupervised Model-Based RL ( http://arxiv.org/abs/2302.03921v2 ) ライセンス: Link先を確認 | Seohong Park, Sergey Levine | (参考訳) モデルベース強化学習(RL)の重要な構成要素は、アクションの結果を予測するダイナミクスモデルである。
この予測モデルの誤差はモデルベースコントローラの性能を低下させ、複雑なマルコフ決定プロセス(MDP)は極めて難しい予測問題を示す。
この問題を緩和するために、予測可能なMDP抽象化(PMA)を提案し、元のMDP上で予測モデルをトレーニングする代わりに、予測可能かつ容易なモデルアクションのみを許容する学習アクション空間を持つ変換MDP上でモデルをトレーニングし、元の状態アクション空間をできるだけカバーする。
その結果、モデル学習はより簡単で正確になり、堅牢で安定したモデルベースの計画やモデルベースのrlが可能になる。
この変換は、ユーザがタスクを指定する前に、教師なしの方法で学習される。
ダウンストリームタスクは、追加の環境相互作用なしにゼロショットでモデルベースの制御で解決できる。
我々はPMAを理論的に解析し、PMAが様々なベンチマーク環境における教師なしモデルベースRLアプローチよりも大きな改善をもたらすことを実証した。
私たちのコードとビデオはhttps://seohong.me/projects/pma/で閲覧できます。 A key component of model-based reinforcement learning (RL) is a dynamics model that predicts the outcomes of actions. Errors in this predictive model can degrade the performance of model-based controllers, and complex Markov decision processes (MDPs) can present exceptionally difficult prediction problems. To mitigate this issue, we propose predictable MDP abstraction (PMA): instead of training a predictive model on the original MDP, we train a model on a transformed MDP with a learned action space that only permits predictable, easy-to-model actions, while covering the original state-action space as much as possible. As a result, model learning becomes easier and more accurate, which allows robust, stable model-based planning or model-based RL. This transformation is learned in an unsupervised manner, before any task is specified by the user. Downstream tasks can then be solved with model-based control in a zero-shot fashion, without additional environment interactions. We theoretically analyze PMA and empirically demonstrate that PMA leads to significant improvements over prior unsupervised model-based RL approaches in a range of benchmark environments. Our code and videos are available at https://seohong.me/projects/pma/ | 翻訳日:2023-06-07 03:07:46 公開日:2023-06-03 |
# DIFF2:非凸分散学習のための勾配差による微分プライベート最適化 DIFF2: Differential Private Optimization via Gradient Differences for Nonconvex Distributed Learning ( http://arxiv.org/abs/2302.03884v2 ) ライセンス: Link先を確認 | Tomoya Murata and Taiji Suzuki | (参考訳) 非凸滑らかな目的に対する微分プライベート最適化を考える。
以前の研究では、最もよく知られたユーティリティ境界は$\widetilde O(\sqrt{d}/(n\varepsilon_\mathrm{DP})$であり、これは二乗全勾配ノルムの観点で、差分プライベート勾配(DP-GD)によってインスタンスとして達成され、$n$はサンプルサイズ、$d$は問題次元、$\varepsilon_\mathrm{DP}$は差分プライバシーパラメータである。
そこで我々は,最もよく知られたユーティリティ境界を改善するために,勾配自体ではなく,通信された 'emph{gradient difference' に基づいて,おそらく非常に小さなばらつきを持つ微分プライベートグローバル勾配推定器を構成する, 'emph{DIFF2 (DIFFerential private optimization via gradient DIFFerences) と呼ばれる新しい微分プライベート最適化フレームワークを提案する。
勾配降下サブルーチンを持つ DIFF2 が $\widetilde O(d^{2/3}/(n\varepsilon_\mathrm{DP})^{4/3})$ の効用を達成することが示され、サンプルサイズ$n$ への依存の観点からすると、以前のものよりもかなり良い。
我々の知る限り、これは標準ユーティリティ $\widetilde O(\sqrt{d}/(n\varepsilon_\mathrm{DP})$ を非凸目的に対して改善する最初の基本的な結果である。
さらに、より計算的で効率的なサブルーチンがDIFF2と組み合わせられ、その理論的解析も与えられる。
数値実験によりDIFF2フレームワークの優位性を検証した。 Differential private optimization for nonconvex smooth objective is considered. In the previous work, the best known utility bound is $\widetilde O(\sqrt{d}/(n\varepsilon_\mathrm{DP}))$ in terms of the squared full gradient norm, which is achieved by Differential Private Gradient Descent (DP-GD) as an instance, where $n$ is the sample size, $d$ is the problem dimensionality and $\varepsilon_\mathrm{DP}$ is the differential privacy parameter. To improve the best known utility bound, we propose a new differential private optimization framework called \emph{DIFF2 (DIFFerential private optimization via gradient DIFFerences)} that constructs a differential private global gradient estimator with possibly quite small variance based on communicated \emph{gradient differences} rather than gradients themselves. It is shown that DIFF2 with a gradient descent subroutine achieves the utility of $\widetilde O(d^{2/3}/(n\varepsilon_\mathrm{DP})^{4/3})$, which can be significantly better than the previous one in terms of the dependence on the sample size $n$. To the best of our knowledge, this is the first fundamental result to improve the standard utility $\widetilde O(\sqrt{d}/(n\varepsilon_\mathrm{DP}))$ for nonconvex objectives. Additionally, a more computational and communication efficient subroutine is combined with DIFF2 and its theoretical analysis is also given. Numerical experiments are conducted to validate the superiority of DIFF2 framework. | 翻訳日:2023-06-07 03:07:25 公開日:2023-06-03 |
# 合成潜在変数モデル学習のためのGFlowNet-EM GFlowNet-EM for learning compositional latent variable models ( http://arxiv.org/abs/2302.06576v2 ) ライセンス: Link先を確認 | Edward J. Hu, Nikolay Malkin, Moksh Jain, Katie Everett, Alexandros Graikos, Yoshua Bengio | (参考訳) ラテント変数モデル(LVM)は、独立な構成ラテントを持つが、ラテントの構成が組み合わさったため、重要だが困難な設定である。
ラテントの後方のモデリングにおける重要なトレードオフは、表現性とトラクタブルな最適化である。
期待最大化(em)に基づくアルゴリズムでは、eステップは後方への制限付き近似なしでは、しばしば難解である。
本稿では,非正規化密度からサンプリングするアルゴリズムであるgflownetsの利用を提案する。
gflownetsを後部の潜伏体からサンプルするために訓練することで、その強みを離散構造上の複素分布に対する償却変分推論アルゴリズムとして活用する。
提案手法であるGFlowNet-EMは,非文脈自由文法帰納法の実験や,エンコーダに強制される条件付き独立性のない離散変分オートエンコーダ (VAE) を用いた画像に対する表現的LVMの訓練を可能にする。 Latent variable models (LVMs) with discrete compositional latents are an important but challenging setting due to a combinatorially large number of possible configurations of the latents. A key tradeoff in modeling the posteriors over latents is between expressivity and tractable optimization. For algorithms based on expectation-maximization (EM), the E-step is often intractable without restrictive approximations to the posterior. We propose the use of GFlowNets, algorithms for sampling from an unnormalized density by learning a stochastic policy for sequential construction of samples, for this intractable E-step. By training GFlowNets to sample from the posterior over latents, we take advantage of their strengths as amortized variational inference algorithms for complex distributions over discrete structures. Our approach, GFlowNet-EM, enables the training of expressive LVMs with discrete compositional latents, as shown by experiments on non-context-free grammar induction and on images using discrete variational autoencoders (VAEs) without conditional independence enforced in the encoder. | 翻訳日:2023-06-07 02:57:06 公開日:2023-06-03 |
# viewmaker networkを用いたマルチスペクトルコントラスト学習 Multispectral Contrastive Learning with Viewmaker Networks ( http://arxiv.org/abs/2302.05757v3 ) ライセンス: Link先を確認 | Jasmine Bayrooti, Noah Goodman, Alex Tamkin | (参考訳) 対照的な学習方法は、データポイントの類似した「ビュー」を識別する訓練モデルにより、様々な領域やモダリティに適用されている。
しかし、専門的な科学的モダリティは、各科学機器の良質な見方が複雑で時間を要するため、このパラダイムに挑戦する。
本稿では,様々なリモートセンシングデータセットにコントラスト学習アプローチを適用することに焦点を当てる。
最近提案されたビュー作成手法であるViewmaker Networkは、ドメイン知識や試行錯誤を伴わずに、この環境でビューを生成することを約束している。
下流の分類タスクで評価した場合,ビューメーカは4つのマルチスペクトルイメージング問題にそれぞれ異なるフォーマットで適用し,コントラスト学習のためのトリミング法とリフレクション法より優れることを示した。
このことは、ドメインに依存しない手法が対照的な学習を現実世界の科学領域に拡張する上で有効であることを示す。
ソースコードはhttps://github.com/jbayrooti/divmakerにある。 Contrastive learning methods have been applied to a range of domains and modalities by training models to identify similar "views" of data points. However, specialized scientific modalities pose a challenge for this paradigm, as identifying good views for each scientific instrument is complex and time-intensive. In this paper, we focus on applying contrastive learning approaches to a variety of remote sensing datasets. We show that Viewmaker networks, a recently proposed method for generating views, are promising for producing views in this setting without requiring extensive domain knowledge and trial and error. We apply Viewmaker to four multispectral imaging problems, each with a different format, finding that Viewmaker can outperform cropping- and reflection-based methods for contrastive learning in every case when evaluated on downstream classification tasks. This provides additional evidence that domain-agnostic methods can empower contrastive learning to scale to real-world scientific domains. Open source code can be found at https://github.com/jbayrooti/divmaker. | 翻訳日:2023-06-07 02:56:13 公開日:2023-06-03 |
# 制御可能性を考慮した教師なしスキル発見 Controllability-Aware Unsupervised Skill Discovery ( http://arxiv.org/abs/2302.05103v3 ) ライセンス: Link先を確認 | Seohong Park, Kimin Lee, Youngwoon Lee, Pieter Abbeel | (参考訳) インテリジェントエージェントの重要な能力の1つは、外部の監督なしに有用なスキルを発見する能力である。
しかし、現在の教師なしのスキル発見手法は、より複雑で挑戦的な行動を発見するインセンティブがないため、単純で分かりやすいスキルを取得することに限定されることが多い。
そこで本研究では,制御不能な複雑なスキルを積極的に探究する,教師なしスキル発見法である制御可能性認識スキル発見法(csd)を提案する。
CSDの鍵となるコンポーネントは制御可能性を考慮した距離関数であり、現在のスキルで達成が難しい状態遷移により大きな値を割り当てる。
距離を最大化するスキル発見と組み合わせることで、csdはトレーニングの過程で徐々に挑戦的なスキルを習得します。
ロボット操作と移動環境の6つの実験結果から,CSDは物体操作や移動スキルを含む多様な複雑なスキルを,監督なしで発見できることを示した。
ビデオとコードはhttps://seohong.me/projects/csd/で入手できる。 One of the key capabilities of intelligent agents is the ability to discover useful skills without external supervision. However, the current unsupervised skill discovery methods are often limited to acquiring simple, easy-to-learn skills due to the lack of incentives to discover more complex, challenging behaviors. We introduce a novel unsupervised skill discovery method, Controllability-aware Skill Discovery (CSD), which actively seeks complex, hard-to-control skills without supervision. The key component of CSD is a controllability-aware distance function, which assigns larger values to state transitions that are harder to achieve with the current skills. Combined with distance-maximizing skill discovery, CSD progressively learns more challenging skills over the course of training as our jointly trained distance function reduces rewards for easy-to-achieve skills. Our experimental results in six robotic manipulation and locomotion environments demonstrate that CSD can discover diverse complex skills including object manipulation and locomotion skills with no supervision, significantly outperforming prior unsupervised skill discovery methods. Videos and code are available at https://seohong.me/projects/csd/ | 翻訳日:2023-06-07 02:55:53 公開日:2023-06-03 |
# 位置依存有効質量を持つ半圧高調波振動子モデルのウィグナー関数 The Wigner function of a semiconfined harmonic oscillator model with a position-dependent effective mass ( http://arxiv.org/abs/2302.12673v4 ) ライセンス: Link先を確認 | S.M. Nagiyev, A.M. Jafarova and E.I. Jafarov | (参考訳) 量子調和振動子モデルにおけるウィグナー関数の観点から位相空間表現の概念を提案する。
新しい手法は、そのような半収束量子系に対して正確にウィグナー分布関数を計算するために用いられる。
この方法は、量子分布関数の定義における積分の発散を抑制し、半圧振動子モデルの定常状態に対する解析式を計算させる。
この量子系では、適用された外部同族体の存在と不在の両方が研究されている。
得られたウィグナー分布関数の正確な表現は、第一種およびラゲール多項式のベッセル関数を介して表現される。
さらに、特殊ケースや制限についても詳細に論じている。 We propose a phase-space representation concept in terms of the Wigner function for a quantum harmonic oscillator model that exhibits the semiconfinement effect through its mass varying with the position. The new method is used to compute the Wigner distribution function exactly for such a semiconfinement quantum system. This method suppresses the divergence of the integrand in the definition of the quantum distribution function and leads to the computation of its analytical expressions for the stationary states of the semiconfined oscillator model. For this quantum system, both the presence and absence of the applied external homogenous field are studied. Obtained exact expressions of the Wigner distribution function are expressed through the Bessel function of the first kind and Laguerre polynomials. Furthermore, some of the special cases and limits are discussed in detail. | 翻訳日:2023-06-07 02:46:36 公開日:2023-06-03 |
# 神経ベクトル場:明示的学習による暗示表現 Neural Vector Fields: Implicit Representation by Explicit Learning ( http://arxiv.org/abs/2303.04341v2 ) ライセンス: Link先を確認 | Xianghui Yang, Guosheng Lin, Zhenghao Chen, Luping Zhou | (参考訳) 現在、ディープニューラルネットワーク(DNN)は3次元表面再構成タスクに広く適用されており、これらの手法はさらに2つのカテゴリに分けられる。
暗黙的関数の高度な学習プロセスと強力な表現能力を両立させ,ニューラルベクトル場 (Neural Vector Fields, NVF) という新しい3次元表現法を提案する。
メッシュを直接操作するために明示的な学習プロセスを採用するだけでなく、udf(unsigned distance function)の暗黙的な表現を活用して、解像度とトポロジーの障壁を破る。
具体的には,まずクエリから表面への変位を予測し,形状をtextit{Vector Fields} としてモデル化する。
生成ベクトル場は、既存のUDF法と同様に方向場を得るためにネットワーク微分に頼るのではなく、距離と方向場の両方を符号化し、方向場の計算が簡単で微分自由であるような「尾根」点におけるあいまいさを軽減する。
この微分自由特性により,クロスオブジェクト前処理を符号化し,トレーニング手順を高速化し,クロスカテゴリ再構築におけるモデルの一般化を促進するベクトル量子化により,形状コードブックをさらに学習することができる。
表面再構成ベンチマークの広範囲な実験は, 水密型と非水密型, カテゴリー固有型とカテゴリー非依存型, カテゴリー・アンセン型, クロスドメイン型など, 異なる評価シナリオにおいて, それらの最先端手法に勝ることを示す。
私たちのコードはhttps://github.com/wi-sc/nvfでリリースしています。 Deep neural networks (DNNs) are widely applied for nowadays 3D surface reconstruction tasks and such methods can be further divided into two categories, which respectively warp templates explicitly by moving vertices or represent 3D surfaces implicitly as signed or unsigned distance functions. Taking advantage of both advanced explicit learning process and powerful representation ability of implicit functions, we propose a novel 3D representation method, Neural Vector Fields (NVF). It not only adopts the explicit learning process to manipulate meshes directly, but also leverages the implicit representation of unsigned distance functions (UDFs) to break the barriers in resolution and topology. Specifically, our method first predicts the displacements from queries towards the surface and models the shapes as \textit{Vector Fields}. Rather than relying on network differentiation to obtain direction fields as most existing UDF-based methods, the produced vector fields encode the distance and direction fields both and mitigate the ambiguity at "ridge" points, such that the calculation of direction fields is straightforward and differentiation-free. The differentiation-free characteristic enables us to further learn a shape codebook via Vector Quantization, which encodes the cross-object priors, accelerates the training procedure, and boosts model generalization on cross-category reconstruction. The extensive experiments on surface reconstruction benchmarks indicate that our method outperforms those state-of-the-art methods in different evaluation scenarios including watertight vs non-watertight shapes, category-specific vs category-agnostic reconstruction, category-unseen reconstruction, and cross-domain reconstruction. Our code is released at https://github.com/Wi-sc/NVF. | 翻訳日:2023-06-07 02:38:51 公開日:2023-06-03 |
# 2次元強磁性体における光誘起位相のひずみ工学 Strain Engineering of Photo-induced Topological Phases in 2D Ferromagnets ( http://arxiv.org/abs/2303.03305v3 ) ライセンス: Link先を確認 | T. V. C. Ant\~ao, N. M. R. Peres | (参考訳) 我々は, ひずみ工学はレーザー駆動2次元強磁性系における位相相の実験的実現と制御を促進する強力なツールであると主張する。
この範囲で、ジグザグまたはアームチェア方向に一軸歪んだ2次元ハニカム強磁性体に円偏光レーザー場を印加することにより、印加電界の強度および印加ひずみの大きさによって調整可能な合成ジアロシンスキー・モリヤ相互作用(DMI)を生成することができることを示す。
このような変形はチャーン数の反対符号を持つ相や自明な相への遷移を可能にする。
これらは、ひずみ工学的位相スピントロニクス(sets)の新しい分野の開発への道を開く基本的な結果である。 We argue that strain engineering is a powerful tool which may facilitate the experimental realization and control of topological phases in laser-driven 2D ferromagnetic systems. To this extent, we show that by applying a circularly polarized laser field to a 2D honeycomb ferromagnet which is uniaxially strained in either the zig-zag or armchair direction, it is possible to generate a synthetic Dzyaloshinskii-Moriya interaction (DMI) tunable by the intensity of the applied electric field, as well as by the magnitude of applied strain. Such deformations enable transitions to phases with opposite sign of Chern number, or to trivial phases. These are basic results that could pave the way for the development of a new field of Strain Engineered Topological Spintronics (SETS). | 翻訳日:2023-06-07 02:37:21 公開日:2023-06-03 |
# バイオメディカルエンティティリンクにおける部分的知識ベース推論の探索 Exploring Partial Knowledge Base Inference in Biomedical Entity Linking ( http://arxiv.org/abs/2303.10330v3 ) ライセンス: Link先を確認 | Hongyi Yuan, Keming Lu, Zheng Yuan | (参考訳) バイオメディカルエンティティリンク(EL)は、名前付きエンティティ認識(NER)と名前付きエンティティ曖昧化(NED)から構成される。
elモデルは事前定義されたkbでラベル付けされたコーパスでトレーニングされる。
しかし、kbのサブセット内のエンティティだけが利害関係者にとって重要であるという共通のシナリオである。
このシナリオを部分的に知識ベース推論と呼びます: ELモデルを1KBでトレーニングし、その部分をそれ以上のトレーニングなしで推論する。
本研究は,この実用的価値あるシナリオについて,詳細な定義と評価手順を述べるとともに,代表的な3つのelパラダイムから手法を評価する。
我々は,部分KB推定ベンチマークを構築し,劇的な精度低下によるEL性能の破滅的な劣化を目撃する。
これらのelパラダイムはunlinkable mentions (nil) を正しく処理できないため,部分的kb推論には頑健ではない。
また,計算オーバーヘッドが少なく,NIL問題に対処するための2つの簡易かつ効果的な償却手法を提案する。
コードはhttps://github.com/Yuanhy 1997/PartialKB-ELで公開されている。 Biomedical entity linking (EL) consists of named entity recognition (NER) and named entity disambiguation (NED). EL models are trained on corpora labeled by a predefined KB. However, it is a common scenario that only entities within a subset of the KB are precious to stakeholders. We name this scenario partial knowledge base inference: training an EL model with one KB and inferring on the part of it without further training. In this work, we give a detailed definition and evaluation procedures for this practically valuable but significantly understudied scenario and evaluate methods from three representative EL paradigms. We construct partial KB inference benchmarks and witness a catastrophic degradation in EL performance due to dramatically precision drop. Our findings reveal these EL paradigms can not correctly handle unlinkable mentions (NIL), so they are not robust to partial KB inference. We also propose two simple-and-effective redemption methods to combat the NIL issue with little computational overhead. Codes are released at https://github.com/Yuanhy1997/PartialKB-EL. | 翻訳日:2023-06-07 02:28:11 公開日:2023-06-03 |
# 異方性3準位系における散逸ランドウ・ツェナー遷移のダイナミクス Dynamics of dissipative Landau-Zener transitions in an anisotropic three-level system ( http://arxiv.org/abs/2303.08234v2 ) ライセンス: Link先を確認 | Lixing Zhang, Lu Wang, Maxim F. Gelin, Yang Zhao | (参考訳) 非等方的散逸3段階モデル(3-lzm)におけるランダウ・ツェナー遷移のダイナミクスを,時間依存変動の枠組みにおける数値的高精度多重ダヴィドフ d2 ansatzを用いて検討した。
3LZMが線形外部場によって駆動される場合,ランダウ-ツェナー遷移確率とフォノン結合強度との間には非単調な関係が存在することが実証された。
周期的駆動場の影響下、フォノンカップリングは、系の異方性の大きさがフォノン周波数と一致する場合、遷移確率の輪郭プロットのピークを誘導する。
3-lzmの動力学は周期的駆動場によって駆動される超オーミックフォノン浴の存在下でも研究されている。
ラビサイクルの周期と振幅はバスカップリング強度の増加とともに指数関数的に減少することが判明した。 We investigate the dynamics of Landau-Zener transitions in an anisotropic, dissipative three-level model (3-LZM) using the numerically accurate multiple Davydov D2 Ansatz in the framework of time-dependent variation. It is demonstrated that a non-monotonic relationship exists between the Landau-Zener transition probability and the phonon coupling strength when the 3-LZM is driven by a linear external field. Under the influence of a periodic driving field, phonon coupling may induce peaks in contour plots of the transition probability when the magnitude of the system anisotropy matches the phonon frequency. Dynamics of the 3-LZM have also been probed in the presence of a super-ohmic phonon bath when driven by a periodic driving field. It is found that both the period and the amplitude of the Rabi cycle decay exponentially with the increasing bath coupling strength. | 翻訳日:2023-06-07 02:27:17 公開日:2023-06-03 |
# ニューラルネットワークに基づくスペクトル推定と希少事象予測のための不正確な反復数値線形代数 Inexact iterative numerical linear algebra for neural network-based spectral estimation and rare-event prediction ( http://arxiv.org/abs/2303.12534v2 ) ライセンス: Link先を確認 | John Strahan, Spencer C. Guo, Chatipat Lorpaiboon, Aaron R. Dinner, Jonathan Weare | (参考訳) 複雑なシステムの力学を理解することは、多くの自由度があり、興味のある事象を記述する上で最も重要なものはしばしば明らかではない。
遷移作用素の先頭の固有関数は視覚化に有用であり、イベントの確率や平均時間(予測)といった統計計算の効率的な基盤を提供することができる。
ここでは、これらの固有関数(スペクトル推定)を計算し、有限間隔でサンプリングされた短い軌跡のデータセットから予測する不正確な反復線型代数法を開発する。
生体分子系の可視化と高次元モデルを容易にする低次元モデル上での手法を実証する。
強化学習における予測問題の意味について論じる。 Understanding dynamics in complex systems is challenging because there are many degrees of freedom, and those that are most important for describing events of interest are often not obvious. The leading eigenfunctions of the transition operator are useful for visualization, and they can provide an efficient basis for computing statistics such as the likelihood and average time of events (predictions). Here we develop inexact iterative linear algebra methods for computing these eigenfunctions (spectral estimation) and making predictions from a data set of short trajectories sampled at finite intervals. We demonstrate the methods on a low-dimensional model that facilitates visualization and a high-dimensional model of a biomolecular system. Implications for the prediction problem in reinforcement learning are discussed. | 翻訳日:2023-06-07 02:17:53 公開日:2023-06-03 |
# BOLT:コモディティCPUハードウェア上での大規模検索とレコメンデーションモデルのトレーニングとデプロイのためのディープラーニングフレームワーク BOLT: An Automated Deep Learning Framework for Training and Deploying Large-Scale Search and Recommendation Models on Commodity CPU Hardware ( http://arxiv.org/abs/2303.17727v2 ) ライセンス: Link先を確認 | Nicholas Meisburger, Vihan Lakshman, Benito Geordie, Joshua Engels, David Torres Ramos, Pratik Pranav, Benjamin Coleman, Benjamin Meisburger, Shubh Gupta, Yashwanth Adunukota, Tharun Medini, Anshumali Shrivastava | (参考訳) コモディティCPUハードウェア上での大規模なニューラルネットワークトレーニングと推論は、ディープラーニング(DL)機能を民主化する上で、極めて実践的な重要性を持つ。
現在、数十億から数十億のパラメータからなる大規模モデルをトレーニングするプロセスでは、GPUのような特別なハードウェアアクセラレータを広範囲に使用する必要がある。
さらに、これらのモデルのトレーニングとデプロイに関連するカーボンフットプリントが懸念されることが多い。
本稿では,標準的なCPUハードウェア上で大規模検索とレコメンデーションモデルをトレーニングする,疎いディープラーニングライブラリBOLTを導入することにより,これらの課題に対処する。
boltは、既存の人気のあるdlフレームワークのユーザになじみのあるモデルを構築するための、柔軟でハイレベルなapiを提供する。
特殊なハイパーパラメータを自動的にチューニングすることで、BOLTはスパースネットワークトレーニングのアルゴリズムの詳細を抽象化する。
製品レコメンデーションやテキスト分類,グラフニューラルネットワーク,パーソナライゼーションなど,さまざまな情報検索タスクにおいてBOLTを評価する。
提案システムは,コストとエネルギー消費のごく一部で最先端技術と競合する性能と,より高速な推定時間を実現する。
boltはまた、重要な問題に対処するために複数のビジネスによってうまくデプロイされ、eコマースの分野における1つの顧客展開ケーススタディを強調する。 Efficient large-scale neural network training and inference on commodity CPU hardware is of immense practical significance in democratizing deep learning (DL) capabilities. Presently, the process of training massive models consisting of hundreds of millions to billions of parameters requires the extensive use of specialized hardware accelerators, such as GPUs, which are only accessible to a limited number of institutions with considerable financial resources. Moreover, there is often an alarming carbon footprint associated with training and deploying these models. In this paper, we take a step towards addressing these challenges by introducing BOLT, a sparse deep learning library for training large-scale search and recommendation models on standard CPU hardware. BOLT provides a flexible, high-level API for constructing models that will be familiar to users of existing popular DL frameworks. By automatically tuning specialized hyperparameters, BOLT also abstracts away the algorithmic details of sparse network training. We evaluate BOLT on a number of information retrieval tasks including product recommendations, text classification, graph neural networks, and personalization. We find that our proposed system achieves competitive performance with state-of-the-art techniques at a fraction of the cost and energy consumption and an order-of-magnitude faster inference time. BOLT has also been successfully deployed by multiple businesses to address critical problems, and we highlight one customer deployment case study in the field of e-commerce. | 翻訳日:2023-06-07 02:06:58 公開日:2023-06-03 |
# 会話における感情認識のための文脈依存埋め込み発話表現 Context-Dependent Embedding Utterance Representations for Emotion Recognition in Conversations ( http://arxiv.org/abs/2304.08216v2 ) ライセンス: Link先を確認 | Patr\'icia Pereira, Helena Moniz, Isabel Dias and Joao Paulo Carvalho | (参考訳) 会話エージェントがますます一般的になるにつれて、会話における感情認識(erc)の重要性が高まっている。
感情を認識することは効果的なコミュニケーションの鍵であり、効果的で共感的な会話エージェントの開発において重要な要素である。
会話的文脈の知識と理解は、対話者の感情を特定する上で非常に有用である。
そこで我々は,会話における感情認識に,会話の文脈,すなわち以前の会話のターンに注意を払ってアプローチする。
会話的文脈をモデル化するための一般的なアプローチは、各発話の文脈に依存しない表現を生成し、それに続く文脈的モデリングを行うことである。
本稿では,事前学習されたトランスフォーマ言語モデルの文脈表現力を活用して,各発話の文脈依存埋め込み表現を提案する。
提案手法では,RoBERTaエンコーダに入力として分類される発話に付加される会話コンテキストをフィードし,簡単な分類モジュールを付加する。
また,導入した会話回転数がモデル性能に与える影響についても検討した。
提案手法の有効性は,オープンドメインのDailyDialogデータセットとタスク指向のEmoWOZデータセットで検証される。 Emotion Recognition in Conversations (ERC) has been gaining increasing importance as conversational agents become more and more common. Recognizing emotions is key for effective communication, being a crucial component in the development of effective and empathetic conversational agents. Knowledge and understanding of the conversational context are extremely valuable for identifying the emotions of the interlocutor. We thus approach Emotion Recognition in Conversations leveraging the conversational context, i.e., taking into attention previous conversational turns. The usual approach to model the conversational context has been to produce context-independent representations of each utterance and subsequently perform contextual modeling of these. Here we propose context-dependent embedding representations of each utterance by leveraging the contextual representational power of pre-trained transformer language models. In our approach, we feed the conversational context appended to the utterance to be classified as input to the RoBERTa encoder, to which we append a simple classification module, thus discarding the need to deal with context after obtaining the embeddings since these constitute already an efficient representation of such context. We also investigate how the number of introduced conversational turns influences our model performance. The effectiveness of our approach is validated on the open-domain DailyDialog dataset and on the task-oriented EmoWOZ dataset. | 翻訳日:2023-06-07 01:59:23 公開日:2023-06-03 |
# 図形解析によるChatGPT(-3.5, -4)生成および人文文書の識別 Distinguishing ChatGPT(-3.5, -4)-generated and human-written papers through Japanese stylometric analysis ( http://arxiv.org/abs/2304.05534v3 ) ライセンス: Link先を確認 | Wataru Zaitsu, Mingzhe Jin | (参考訳) 2023年前半、OpenAIのGPT-3.5とGPT-4を備えたChatGPTを含むテキスト生成人工知能(AI)が世界中で注目を集めている。
本研究ではまず,GPT (-3.5, -4) が生成したテキストと人間が生成したテキストのテクスチャ的特徴を比較した。
本研究は,多次元スケーリング(mds)を行い,3つのクラスの216のテキスト(36名の著者による72の学術論文,gpt-3.5が生成した72のテキスト,gpt-4が生成した72のテキスト)の分布を,(1)主語のビッグラム,(2)ポストポジショナル粒子語のビッグラム,(3)コンマの位置,(4)機能語の速度に焦点をあてて確認した。
MDSはGPT (-3.5, -4) とヒトにそれぞれ異なる分布を示した。
GPT-4 は GPT-3.5 よりも強力なが、GPT (-3.5 と -4) の分布は重なりやすい。
これらの結果から,将来パラメータの数が増加する可能性があるが,GPT生成テキストはテクスチャ的特徴の観点からは人間に近くない可能性が示唆された。
第2に、日本語のテクスチャ的特徴に着目した2つのクラス(GPTと人間)におけるランダムフォレスト(RF)の分類性能を検証した。
本研究は,機能単語の速度に着目したrf分類器が98.1%の精度を示した。
さらに、全ての性能指標(精度、リコール、精度、F1スコア)の観点から、全てのスタイル的特徴に焦点を当てたRF分類器が100%に達した。
本研究は,ヒトがChatGPTを日本語に限定した人間から識別できることを結論付けた。 In the first half of 2023, text-generative artificial intelligence (AI), including ChatGPT, equipped with GPT-3.5 and GPT-4, from OpenAI, has attracted considerable attention worldwide. In this study, first, we compared Japanese stylometric features of texts generated by GPT (-3.5 and -4) and those written by humans. In this work, we performed multi-dimensional scaling (MDS) to confirm the distributions of 216 texts of three classes (72 academic papers written by 36 single authors, 72 texts generated by GPT-3.5, and 72 texts generated by GPT-4 on the basis of the titles of the aforementioned papers) focusing on the following stylometric features: (1) bigrams of parts-of-speech, (2) bigram of postpositional particle words, (3) positioning of commas, and (4) rate of function words. MDS revealed distinct distributions at each stylometric feature of GPT (-3.5 and -4) and human. Although GPT-4 is more powerful than GPT-3.5 because it has more parameters, both GPT (-3.5 and -4) distributions are likely to overlap. These results indicate that although the number of parameters may increase in the future, GPT-generated texts may not be close to that written by humans in terms of stylometric features. Second, we verified the classification performance of random forest (RF) for two classes (GPT and human) focusing on Japanese stylometric features. This study revealed the high performance of RF in each stylometric feature: The RF classifier focusing on the rate of function words achieved 98.1% accuracy. Furthermore the RF classifier focusing on all stylometric features reached 100% in terms of all performance indexes (accuracy, recall, precision, and F1 score). This study concluded that at this stage we human discriminate ChatGPT from human limited to Japanese language. | 翻訳日:2023-06-07 01:58:29 公開日:2023-06-03 |
# 木テンソルネットワーク状態を用いた階層的運動方程式の解法 Tree tensor network state approach for solving hierarchical equations of motion ( http://arxiv.org/abs/2304.05151v2 ) ライセンス: Link先を確認 | Yaling Ke | (参考訳) 階層的運動方程式 (heom) 法は、数値的に厳密な開量子系力学のアプローチである。
本手法は, 浴場相関関数の指数関数的拡張に根ざし, 本質的には連続環境を, 有限温度でのより効率的な遮断を可能にする効果的な浴場モードの集合に再結合させる。
この理解に基づいて、中央系波動関数のテンソル積とこれらの有効浴モードのフォック状態である拡張波動関数に対する非エルミート超ハミルトニアンを持つschr\"odinger-like方程式にヘム法を写像することができる。
本研究では, このシステムとこれらの有効浴モードが星型絡み合い構造を形成していることを認識し, 拡張波動関数を効率的なツリーテンソルネットワーク状態 (TTNS) として表す可能性, 同一構造のツリーテンソルネットワークオペレータとしてのスーパーハミルトン, 時間依存性変動原理を用いた時間伝搬アルゴリズムの適用について検討する。
提案手法は従来のHEOM法と一貫した結果が得られるのに対して,計算は数桁の差でかなり高速化されていることを示す。
さらに、真のTTNSによるシミュレーションは、1次元の行列積状態分解スキームの4倍高速である。 The hierarchical equations of motion (HEOM) method is a numerically exact open quantum system dynamics approach. The method is rooted in an exponential expansion of the bath correlation function, which in essence strategically reshapes a continuous environment into a set of effective bath modes that allow for more efficient cutoff at finite temperatures. Based on this understanding, one can map the HEOM method into a Schr\"odinger-like equation with a non-Hermitian super Hamiltonian for an extended wavefunction being the tensor product of the central system wave function and the Fock state of these effective bath modes. Recognizing that the system and these effective bath modes form a star-shaped entanglement structure, in this work, we explore the possibility of representing the extended wave function as an efficient tree tensor network state (TTNS), the super Hamiltonian as a tree tensor network operator of the same structure, as well as the application of a time propagation algorithm using the time-dependent variational principle. Our benchmark calculations based on the spin-boson model with a slow-relaxing bath show that, the proposed HEOM+TTNS approach yields consistent results with that of the conventional HEOM method, while the computation is considerably sped up by a factor of a few orders of magnitude. Besides, the simulation with a genuine TTNS is four times faster than a one-dimensional matrix product state decomposition scheme. | 翻訳日:2023-06-07 01:57:50 公開日:2023-06-03 |
# 非対称性と超越:推論効率向上のためのシーケンスモデルに対するシーケンスの構造的プルーニング To Asymmetry and Beyond: Structured Pruning of Sequence to Sequence Models for Improved Inference Efficiency ( http://arxiv.org/abs/2304.02721v2 ) ライセンス: Link先を確認 | Daniel Campos, ChengXiang Zhai | (参考訳) sequence-to-sequence言語モデルは、一貫性があり、関連性があり、簡潔な抽象的な要約を生成するのに使うことができる。
それでも、モデルサイズはレイテンシに敏感な、あるいはWebスケールの実装を難しくする可能性がある。
本稿では,広く使用されている要約データセットにおけるモデルサイズ,構造化プルーニング,推論効率,要約精度の関係について検討する。
モデル精度はエンコーダサイズに結びついており、推論効率はデコーダに接続されていることを示す。
非対称プルーニングを使用することで、ルージュ-2では1ポイントの損失で推論遅延が約3倍改善される可能性がある。
さらに、モデルのサイズやデータセットのバリエーションによって、平均劣化と非対称性の役割が一致していることが分かる。 Sequence-to-sequence language models can be used to produce abstractive summaries which are coherent, relevant, and concise. Still, model sizes can make deployment in latency-sensitive or web-scale implementations difficult. This paper studies the relationship between model size, structured pruning, inference efficiency, and summarization accuracy on widely used summarization datasets. We show that model accuracy is tied to the encoder size while inference efficiency is connected to the decoder. Using asymmetric pruning can lead to nearly 3x improvement in inference latency with ~1 point loss in Rouge-2. Moreover, we find both the average degradation and the role of asymmetry to be consistent across model sizes and variations in datasets. | 翻訳日:2023-06-07 01:56:45 公開日:2023-06-03 |
# NNSplitter: 軽量自動難読化によるDNNモデルのアクティブディフェンスソリューション NNSplitter: An Active Defense Solution for DNN Model via Automated Weight Obfuscation ( http://arxiv.org/abs/2305.00097v2 ) ライセンス: Link先を確認 | Tong Zhou, Yukui Luo, Shaolei Ren, Xiaolin Xu | (参考訳) 貴重な知的財産権(IP)の一種として、ディープニューラルネットワーク(DNN)モデルは、透かしのような技術によって保護されている。
しかし、このような受動的モデル保護はモデル乱用を完全に防げない。
そこで本研究では,重み難読化により性能が低下する難読化モデルと,信頼された実行環境によってのみアクセス可能な難読化重みのインデックスと元の値からなるモデル秘密とを2つの部分に分けて積極的に保護するアクティブモデルip保護スキームであるnnsplitterを提案する。
実験の結果, nnsplitterは1100万重(0.002%)を超える重みのうち275個しか修正せず, cifar-10上の難読化resnet-18モデルの精度は10%まで低下することが示された。
さらに、NNSplitterは、通常のクリッピングや微調整攻撃に対してステルスで耐性があり、DNNモデル保護にとって魅力的なソリューションである。
コードはhttps://github.com/tongzhou0101/nnsplitterで入手できる。 As a type of valuable intellectual property (IP), deep neural network (DNN) models have been protected by techniques like watermarking. However, such passive model protection cannot fully prevent model abuse. In this work, we propose an active model IP protection scheme, namely NNSplitter, which actively protects the model by splitting it into two parts: the obfuscated model that performs poorly due to weight obfuscation, and the model secrets consisting of the indexes and original values of the obfuscated weights, which can only be accessed by authorized users with the support of the trusted execution environment. Experimental results demonstrate the effectiveness of NNSplitter, e.g., by only modifying 275 out of over 11 million (i.e., 0.002%) weights, the accuracy of the obfuscated ResNet-18 model on CIFAR-10 can drop to 10%. Moreover, NNSplitter is stealthy and resilient against norm clipping and fine-tuning attacks, making it an appealing solution for DNN model protection. The code is available at: https://github.com/Tongzhou0101/NNSplitter. | 翻訳日:2023-06-07 01:48:46 公開日:2023-06-03 |
# 不均衡ラベルサンプル分布を用いたファッション検出のためのデータ効率向上 Data Efficient Training with Imbalanced Label Sample Distribution for Fashion Detection ( http://arxiv.org/abs/2305.04379v4 ) ライセンス: Link先を確認 | Xin Shen, Praful Agrawal, Zhongwei Cheng | (参考訳) マルチラベル分類モデルは、視覚に基づくラベル予測や言語に基づく感情分類など、Eコマースに幅広い応用がある。
実世界でこれらのタスクの満足なパフォーマンスを達成する上での大きな課題は、データ分散の顕著な不均衡である。
例えば、ファッション属性検出では、ほとんどのeコマースファッションカタログにおいて、1000製品中「パフスリーブ」の服は6つしかない。
この問題に対処するために、大量のアノテーションを取得して十分なサンプルを集めるのではなく、よりデータ効率のよいモデルトレーニング手法を検討する。
本稿では,長いデータ分布を持つ多ラベル分類のためのディープニューラルネットワーク(DNN)の性能向上を目的とした,最先端の重み付き目的関数を提案する。
本実験では,ファッションアパレルの画像に基づく属性分類を行い,非重み付けおよび逆周波数重み付け機構と比較して,新しい重み付け法に好適な性能を示す。
ファッション業界で人気のファッション属性タイプであるスリーブタイプとアーチタイプを用いた新しい重み付け機構の堅牢性をさらに評価した。 Multi-label classification models have a wide range of applications in E-commerce, including visual-based label predictions and language-based sentiment classifications. A major challenge in achieving satisfactory performance for these tasks in the real world is the notable imbalance in data distribution. For instance, in fashion attribute detection, there may be only six 'puff sleeve' clothes among 1000 products in most E-commerce fashion catalogs. To address this issue, we explore more data-efficient model training techniques rather than acquiring a huge amount of annotations to collect sufficient samples, which is neither economic nor scalable. In this paper, we propose a state-of-the-art weighted objective function to boost the performance of deep neural networks (DNNs) for multi-label classification with long-tailed data distribution. Our experiments involve image-based attribute classification of fashion apparels, and the results demonstrate favorable performance for the new weighting method compared to non-weighted and inverse-frequency-based weighting mechanisms. We further evaluate the robustness of the new weighting mechanism using two popular fashion attribute types in today's fashion industry: sleevetype and archetype. | 翻訳日:2023-06-07 01:40:41 公開日:2023-06-03 |
# bitgnn: gpu上のバイナリグラフニューラルネットワークのパフォーマンスポテンシャルを解き放つ BitGNN: Unleashing the Performance Potential of Binary Graph Neural Networks on GPUs ( http://arxiv.org/abs/2305.02522v2 ) ライセンス: Link先を確認 | Jou-An Chen, Hsin-Hsuan Sung, Xipeng Shen, Sutanay Choudhury, Ang Li | (参考訳) 最近の研究によると、バイナリグラフニューラルネットワーク(GNN)は双有理テンソルによるGNNの計算を省くことを約束している。
しかし、以前の作業は主にアルゴリズム設計やトレーニング技術に重点を置いており、アクセラレーターハードウェアにおけるパフォーマンスポテンシャルを完全に実現する方法に開放されていた。
この作業は効率の観点からバイナリGNN推論バックエンドを再設計する。
gpu上のビット操作の性質に最も適したバイナリgnnとその計算をマッピングするための一連の抽象化とテクニックを提案することで、ギャップを埋めている。
GCN、GraphSAGE、GraphSAINTによる実世界のグラフの結果、提案手法は、同じ精度で8-22Xで最先端のバイナリGNN実装より優れていた。
BitGNNコードは公開されている。 Recent studies have shown that Binary Graph Neural Networks (GNNs) are promising for saving computations of GNNs through binarized tensors. Prior work, however, mainly focused on algorithm designs or training techniques, leaving it open to how to materialize the performance potential on accelerator hardware fully. This work redesigns the binary GNN inference backend from the efficiency perspective. It fills the gap by proposing a series of abstractions and techniques to map binary GNNs and their computations best to fit the nature of bit manipulations on GPUs. Results on real-world graphs with GCNs, GraphSAGE, and GraphSAINT show that the proposed techniques outperform state-of-the-art binary GNN implementations by 8-22X with the same accuracy maintained. BitGNN code is publicly available. | 翻訳日:2023-06-07 01:38:34 公開日:2023-06-03 |
# WangLab at MEDIQA-Chat 2023:大規模言語モデルを用いた博士論文からの臨床ノートの作成 WangLab at MEDIQA-Chat 2023: Clinical Note Generation from Doctor-Patient Conversations using Large Language Models ( http://arxiv.org/abs/2305.02220v2 ) ライセンス: Link先を確認 | John Giorgi, Augustin Toma, Ronald Xie, Sondra S. Chen, Kevin R. An, Grace X. Zheng, Bo Wang | (参考訳) 本稿では,MEDIQA-Chat 2023の共有課題として,医師と患者との会話から自動臨床ノート作成を行う。
本稿では,共有タスクデータ上に事前学習された言語モデル(PLM)を第1に微調整し,第2に大規模言語モデル(LLM)を用いたICLを用いた。
どちらも、自動メトリクス(ROUGE、BERTScoreなど)によって測定されたハイパフォーマンスを実現し、共有タスクへの全サブミッションのそれぞれ第2と第1のランク付けを行う。
専門家による精査では、ICLベースのGPT-4によるノート作成は、医師と患者の会話から自動メモ生成への道のりとして、人間書きのメモよりも好まれている。 This paper describes our submission to the MEDIQA-Chat 2023 shared task for automatic clinical note generation from doctor-patient conversations. We report results for two approaches: the first fine-tunes a pre-trained language model (PLM) on the shared task data, and the second uses few-shot in-context learning (ICL) with a large language model (LLM). Both achieve high performance as measured by automatic metrics (e.g. ROUGE, BERTScore) and ranked second and first, respectively, of all submissions to the shared task. Expert human scrutiny indicates that notes generated via the ICL-based approach with GPT-4 are preferred about as often as human-written notes, making it a promising path toward automated note generation from doctor-patient conversations. | 翻訳日:2023-06-07 01:38:19 公開日:2023-06-03 |
# 確率的時系列インプテーションへの応用による有理収束型schr\"odinger橋 Provably Convergent Schr\"odinger Bridge with Applications to Probabilistic Time Series Imputation ( http://arxiv.org/abs/2305.07247v3 ) ライセンス: Link先を確認 | Yu Chen and Wei Deng and Shikai Fang and Fengpei Li and Nicole Tianjiao Yang and Yikai Zhang and Kashif Rasul and Shandian Zhe and Anderson Schneider and Yuriy Nevmyvaka | (参考訳) Schr\"odinger bridge problem (SBP) は、スコアベース生成モデル (SGM) と比較して、生成モデルにおいて注目され、有望な可能性を示している。
SBPはエントロピー規則化された最適輸送問題と解釈され、他のすべての辺縁への射影を交互に行う。
しかし、実際には近似射影のみがアクセス可能であり、それらの収束はよく理解されていない。
このギャップを埋めるために、近似射影に基づくSchr\"odinger Bridgeアルゴリズムの第一収束解析を提案する。
実例として,観測データに条件付き欠落値を生成することにより,確率的時系列計算にSBPを適用した。
トランスポートコストの最適化は性能を向上し,提案手法は医療データと環境データにおいて最先端の成果を達成し,確率的時系列インプテーションにおける時間的・特徴的パターンを探索する利点を示す。 The Schr\"odinger bridge problem (SBP) is gaining increasing attention in generative modeling and showing promising potential even in comparison with the score-based generative models (SGMs). SBP can be interpreted as an entropy-regularized optimal transport problem, which conducts projections onto every other marginal alternatingly. However, in practice, only approximated projections are accessible and their convergence is not well understood. To fill this gap, we present a first convergence analysis of the Schr\"odinger bridge algorithm based on approximated projections. As for its practical applications, we apply SBP to probabilistic time series imputation by generating missing values conditioned on observed data. We show that optimizing the transport cost improves the performance and the proposed algorithm achieves the state-of-the-art result in healthcare and environmental data while exhibiting the advantage of exploring both temporal and feature patterns in probabilistic time series imputation. | 翻訳日:2023-06-07 01:30:04 公開日:2023-06-03 |
# K-SpecPart: ハイパーグラフパーティショニング改善のための改良された埋め込みアルゴリズムとカットオーバーレイ K-SpecPart: Supervised embedding algorithms and cut overlay for improved hypergraph partitioning ( http://arxiv.org/abs/2305.06167v2 ) ライセンス: Link先を確認 | Ismail Bustany, Andrew B. Kahng, Ioannis Koutis, Bodhisatta Pramanik and Zhiang Wang | (参考訳) 最先端のハイパーグラフパーティショナは、階層の各レベルのカットリファインメントを促進するために使用される、段階的に粗いハイパーグラフの複数のレベルを構築するマルチレベルパラダイムに従っている。
マルチレベルパーティショナには2つの制限がある。
(i)ハイパーグラフの全体構造を十分に考慮せずに、局所的な近傍構造に依存し、
(ii)局所ミニマのリファインメントヒューリスティックスリスク絡み込み
本稿では,これら2つの制約に直接対処するマルチウェイ分割のためのスペクトルフレームワークK-SpecPartについて述べる。
K-SpecPartは、頂点埋め込みを生成するために一般化固有ベクトルの計算と教師付き次元減少技術に依存している。
これらは高速で、既存のパーティショナによって明示的に考慮されていないハイパーグラフのグローバル構造特性をキャプチャする計算プリミティブである。
K-SpecPartは、頂点埋め込みを複数のパーティショニングソリューションに変換する。
K-SpecPartは、ICP(整数線形プログラミング)のような計算的に要求されるパーティショニング手法の使用を可能にするカットオーバーレイクラスタリング技術によって、複数のソリューションを'センスブリング'するというアイデアを導入している。
標準分割器の出力を監督ヒントとして、k-specpartは確立されたマルチレベル分割技術の強みとスペクトルグラフ理論と他の組合せアルゴリズムの利点を効果的に結合する。
K-SpecPartは、かつての分割器SpecPartに関する研究で初めて現れたアイデアとアルゴリズムを著しく拡張した。
K-SpecPartの有効性を実証した。
分割のために、K-SpecPartはSpecPartよりも最大15%削減されたソリューションを生成する。
マルチウェイパーティショニングでは、K-SpecPartは、主要なパーティショナhMETISやKaHyParよりも最大20%改善されたソリューションを生成する。 State-of-the-art hypergraph partitioners follow the multilevel paradigm that constructs multiple levels of progressively coarser hypergraphs that are used to drive cut refinement on each level of the hierarchy. Multilevel partitioners are subject to two limitations: (i) hypergraph coarsening processes rely on local neighborhood structure without fully considering the global structure of the hypergraph; and (ii) refinement heuristics risk entrapment in local minima. In this paper, we describe K-SpecPart, a supervised spectral framework for multi-way partitioning that directly tackles these two limitations. K-SpecPart relies on the computation of generalized eigenvectors and supervised dimensionality reduction techniques to generate vertex embeddings. These are computational primitives that are fast and capture global structural properties of the hypergraph that are not explicitly considered by existing partitioners. K-SpecPart then converts the vertex embeddings into multiple partitioning solutions. K-SpecPart introduces the idea of ''ensembling'' multiple solutions via a cut-overlay clustering technique that often enables the use of computationally demanding partitioning methods such as ILP (integer linear programming). Using the output of a standard partitioner as a supervision hint, K-SpecPart effectively combines the strengths of established multilevel partitioning techniques with the benefits of spectral graph theory and other combinatorial algorithms. K-SpecPart significantly extends ideas and algorithms that first appeared in our previous work on the bipartitioner SpecPart. Our experiments demonstrate the effectiveness of K-SpecPart. For bipartitioning, K-SpecPart produces solutions with up to 15% cutsize improvement over SpecPart. For multi-way partitioning, K-SpecPart produces solutions with up to 20% cutsize improvement over leading partitioners hMETIS and KaHyPar. | 翻訳日:2023-06-07 01:28:45 公開日:2023-06-03 |
# インプラント位置予測のための2ストリーム回帰ネットワーク Two-Stream Regression Network for Dental Implant Position Prediction ( http://arxiv.org/abs/2305.10044v2 ) ライセンス: Link先を確認 | Xinquan Yang and Xuguang Li and Xuechen Li and Wenting Chen and Linlin Shen and Xin Li and Yongqiang Deng | (参考訳) インプラント補綴治療において, 手術ガイドの設計には多くの手作業が必要であり, 主観的変化がみられやすい。
この問題を解決するために深層学習法が適用され始めたとき, 歯間空間は様々であり, その一部には実際のインプラント領域と類似したテクスチャ特性を示すものもある。
どちらの問題もインプラント位置予測には大きな課題となる。
本稿では, 埋込領域検出器 (IRD) とマルチスケールパッチ埋め込み回帰ネットワーク (MSPENet) から構成される2ストリーム埋込位置回帰フレームワーク (TSIPR) を開発し, この問題に対処する。
irdのトレーニングのために、元のアノテーションを拡張して、よりリッチな特徴を持ち、追加のラベリングコストを発生しない、追加の監督情報を提供する。
マルチスケールのパッチ埋め込みモジュールはMSPENetが様々な歯の間隔で画像から特徴を適応的に抽出するために設計されている。
グローバルローカルな特徴相互作用ブロックは、リッチな特徴表現のための変換器と畳み込みを組み合わせたMSPENetのエンコーダを構築するように設計されている。
推測中、IRDから抽出したRoIマスクを用いてMSPENetの予測結果を洗練する。
5倍のクロスバリデーションによる歯科インプラントデータセットの大規模な実験により,提案したTSIPRは既存の方法よりも優れた性能を示した。 In implant prosthesis treatment, the design of surgical guide requires lots of manual labors and is prone to subjective variations. When deep learning based methods has started to be applied to address this problem, the space between teeth are various and some of them might present similar texture characteristic with the actual implant region. Both problems make a big challenge for the implant position prediction. In this paper, we develop a two-stream implant position regression framework (TSIPR), which consists of an implant region detector (IRD) and a multi-scale patch embedding regression network (MSPENet), to address this issue. For the training of IRD, we extend the original annotation to provide additional supervisory information, which contains much more rich characteristic and do not introduce extra labeling costs. A multi-scale patch embedding module is designed for the MSPENet to adaptively extract features from the images with various tooth spacing. The global-local feature interaction block is designed to build the encoder of MSPENet, which combines the transformer and convolution for enriched feature representation. During inference, the RoI mask extracted from the IRD is used to refine the prediction results of the MSPENet. Extensive experiments on a dental implant dataset through five-fold cross-validation demonstrated that the proposed TSIPR achieves superior performance than existing methods. | 翻訳日:2023-06-07 01:19:26 公開日:2023-06-03 |
# 非教師付き可視赤外人物リードのための効率的な双方向クロスモダリティクラスタマッチング Efficient Bilateral Cross-Modality Cluster Matching for Unsupervised Visible-Infrared Person ReID ( http://arxiv.org/abs/2305.12673v2 ) ライセンス: Link先を確認 | De cheng, Lingfeng He, Nannan Wang, Shizhou Zhang, Zhen Wang and Xinbo Gao | (参考訳) 教師なし可視赤外人物再識別(USL-VI-ReID)は、異なるモダリティからの同一人物像をアノテーションなしでマッチングすることを目的としている。
既存の作品は、ラベルのないサンプルのインスタンスレベルの特徴を整合させることで、モダリティギャップの緩和に重点を置いている。
しかし、モダリティクラスタ間の関係はよく調べられていない。
そこで本研究では,クロスモダリティクラスタをマッチングすることでモダリティギャップを低減できる,新たなバイラテラルクラスタマッチングベースの学習フレームワークを提案する。
具体的には、二部グラフの最大マッチング問題を最適化し、多対多の双方向クロスモーダルクラスタマッチング(MBCCM)アルゴリズムを設計する。
次に、マッチングされたペアワイズクラスタは、モデルトレーニング中に共有可視および赤外線擬似ラベルを利用する。
このような監視信号の下では、クラスタレベルで特徴を協調的に整列させるために、モダリティ・特定・モダリティ・非依存(MSMA)コントラスト学習フレームワークを提案する。
一方,クロスモーダル一貫性制約(CC)は,大きなモダリティの不一致を明示的に低減するために提案されている。
SYSU-MM01とRegDBデータセットの大規模な実験は、提案手法の有効性を示し、最先端の手法を平均8.76%のマージンで上回った。 Unsupervised visible-infrared person re-identification (USL-VI-ReID) aims to match pedestrian images of the same identity from different modalities without annotations. Existing works mainly focus on alleviating the modality gap by aligning instance-level features of the unlabeled samples. However, the relationships between cross-modality clusters are not well explored. To this end, we propose a novel bilateral cluster matching-based learning framework to reduce the modality gap by matching cross-modality clusters. Specifically, we design a Many-to-many Bilateral Cross-Modality Cluster Matching (MBCCM) algorithm through optimizing the maximum matching problem in a bipartite graph. Then, the matched pairwise clusters utilize shared visible and infrared pseudo-labels during the model training. Under such a supervisory signal, a Modality-Specific and Modality-Agnostic (MSMA) contrastive learning framework is proposed to align features jointly at a cluster-level. Meanwhile, the cross-modality Consistency Constraint (CC) is proposed to explicitly reduce the large modality discrepancy. Extensive experiments on the public SYSU-MM01 and RegDB datasets demonstrate the effectiveness of the proposed method, surpassing state-of-the-art approaches by a large margin of 8.76% mAP on average. | 翻訳日:2023-06-07 01:11:05 公開日:2023-06-03 |
# サンプル数は少ないか少ないか?
暗号化トラフィック分類におけるトランスファー, コントラスト, メタラーニングの比較 Many or Few Samples? Comparing Transfer, Contrastive and Meta-Learning in Encrypted Traffic Classification ( http://arxiv.org/abs/2305.12432v2 ) ライセンス: Link先を確認 | Idio Guarino, Chao Wang, Alessandro Finamore, Antonio Pescape, Dario Rossi | (参考訳) Deep Learning(DL)の人気は、HTTPS、QUIC、DNS-SECの採用の増加によるネットワークトラフィックの可視性低下と相まって、トラフィック分類(TC)に対する関心を再燃させた。
しかし、タスク固有の大きなラベル付きデータセットからの依存関係を緩和するには、タスク間で有効な表現を学ぶより良い方法を見つける必要があります。
本研究では,参照機械学習(ml)木ベースおよびモノリシックdlモデル(合計16手法)に対するトランスファー学習,メタラーニング,コントラスト学習の比較を行った。
mirage19(40クラス)とappclassnet(500クラス)という2つの公開データセットを使用することで、
(i) より一般的な表現を得ることができる大きなデータセットを用いて。
(ii)対照的な学習は最良の方法であり、
(三)メタラーニングが最悪のもの、及び
(iv)MLツリーベースでは大きなタスクを処理できないが、学習した表現を再利用することで、非常に小さなタスクに適合するが、DLメソッドは小さなタスクでもツリーベースモデルのパフォーマンスに到達している。 The popularity of Deep Learning (DL), coupled with network traffic visibility reduction due to the increased adoption of HTTPS, QUIC and DNS-SEC, re-ignited interest towards Traffic Classification (TC). However, to tame the dependency from task-specific large labeled datasets we need to find better ways to learn representations that are valid across tasks. In this work we investigate this problem comparing transfer learning, meta-learning and contrastive learning against reference Machine Learning (ML) tree-based and monolithic DL models (16 methods total). Using two publicly available datasets, namely MIRAGE19 (40 classes) and AppClassNet (500 classes), we show that (i) using large datasets we can obtain more general representations, (ii) contrastive learning is the best methodology and (iii) meta-learning the worst one, and (iv) while ML tree-based cannot handle large tasks but fits well small tasks, by means of reusing learned representations, DL methods are reaching tree-based models performance also for small tasks. | 翻訳日:2023-06-07 01:10:19 公開日:2023-06-03 |
# Chain-of-Thought Prompting による無作為感の推論 Reasoning Implicit Sentiment with Chain-of-Thought Prompting ( http://arxiv.org/abs/2305.11255v3 ) ライセンス: Link先を確認 | Hao Fei, Bobo Li, Qian Liu, Lidong Bing, Fei Li, Tat-Seng Chua | (参考訳) 感情分析システムは、入力テキストにおける主要な意見表現に基づいて、与えられた目標の感情極性を決定する一方で、暗黙的な感情分析(ISA)では、意見の手がかりは暗黙的で曖昧な方法で現れる。
したがって、暗黙の感情を検出するには、意見の潜在意図を推測する常識とマルチホップ推論能力が必要である。
最近のチェーン・オブ・思想(CoT)のアイデアにインスパイアされた本研究では、ISAの人間的な推論プロセスを模倣するThree-hop Reasoning(THOR) CoTフレームワークを紹介します。
我々は、THORが暗黙の側面、意見、そして最後に感情の極性を段階的に誘導する3段階の原理を設計する。
我々のTHOR+Flan-T5 (11B)は、監督設定で最先端(SoTA)を6%以上押し上げます。
さらに驚くべきことに、THOR+GPT3 (175B)はゼロショット設定でSoTAを50%以上押し上げる。
私たちのコードはhttps://github.com/scofield7419/THOR-ISAにあります。 While sentiment analysis systems try to determine the sentiment polarities of given targets based on the key opinion expressions in input texts, in implicit sentiment analysis (ISA) the opinion cues come in an implicit and obscure manner. Thus detecting implicit sentiment requires the common-sense and multi-hop reasoning ability to infer the latent intent of opinion. Inspired by the recent chain-of-thought (CoT) idea, in this work we introduce a Three-hop Reasoning (THOR) CoT framework to mimic the human-like reasoning process for ISA. We design a three-step prompting principle for THOR to step-by-step induce the implicit aspect, opinion, and finally the sentiment polarity. Our THOR+Flan-T5 (11B) pushes the state-of-the-art (SoTA) by over 6% F1 on supervised setup. More strikingly, THOR+GPT3 (175B) boosts the SoTA by over 50% F1 on zero-shot setting. Our code is at https://github.com/scofield7419/THOR-ISA. | 翻訳日:2023-06-07 01:09:13 公開日:2023-06-03 |
# ランダム射影測定による量子リセットの最初の検出確率 First detection probability in quantum resetting via random projective measurements ( http://arxiv.org/abs/2305.15123v2 ) ライセンス: Link先を確認 | Manas Kulkarni, Satya N. Majumdar | (参考訳) ランダム射影測定対象の汎用量子系における「興味のある状態」の最初の検出時間の確率分布を$F_r(t)$で計算する一般的なフレームワークを提供する。
我々の「量子リセット」プロトコルでは、状態のリセットは古典的確率的な動きによってではなく、ランダムな射影測定によって実装される。
次に、この一般的な枠組みを定率$r$のポアソイニアン測定プロトコルに適用し、一般の2レベルシステムに対して$f_r(t)$の正確な結果が得られることを示す。
興味深いことに、結果は関連する検出スキームに大きく依存しており、関心の状態が初期状態と一致するか異なるかの2つの補完スキームを研究している。
最初のスキームでは$F_r(t)$は$F_r(t)\sim t^2$として$t\to 0$として、第二スキームでは$t\to 0$として定数に近づく。
平均最初の検出時間は、測定レート$r$の関数として、2つのスキームでかなり異なる挙動を示す。
前者では、平均検出時間は、最大値$r^*$で1つの最小値を持つ$r$の非単調関数であり、後者では、有限の最適値が存在しないことをシグナルとして$r$の単調に減少する関数である。
これらの任意の2レベルシステムの一般的な予測は、光-物質相互作用のJaynes-Cummingsモデルにおいて明示的な計算によって検証される。
また, 非ポアソニアン測定プロトコルに対して, 連続独立測定値間の間隔を一般分布 $p(\tau)$ で分配する更新構造を一般化し, 短時間の$f_r(t)\sim p(0)\, t^2$ の挙動が $p(0)\ne 0$ であることを示す。
この普遍的な$t^2$法則は、初期において支配的な純粋量子力学から生じる。 We provide a general framework to compute the probability distribution $F_r(t)$ of the first detection time of a 'state of interest' in a generic quantum system subjected to random projective measurements. In our 'quantum resetting' protocol, resetting of a state is not implemented by an additional classical stochastic move, but rather by the random projective measurement. We then apply this general framework to Poissoinian measurement protocol with a constant rate $r$ and demonstrate that exact results for $F_r(t)$ can be obtained for a generic two level system. Interestingly, the result depends crucially on the detection schemes involved and we have studied two complementary schemes, where the state of interest either coincides or differs from the initial state. We show that $F_r(t)$ at short times vanishes universally as $F_r(t)\sim t^2$ as $t\to 0$ in the first scheme, while it approaches a constant as $t\to 0$ in the second scheme. The mean first detection time, as a function of the measurement rate $r$, also shows rather different behaviors in the two schemes. In the former, the mean detection time is a nonmonotonic function of $r$ with a single minimum at an optimal value $r^*$, while in the later, it is a monotonically decreasing function of $r$, signalling the absence of a finite optimal value. These general predictions for arbitrary two level systems are then verified via explicit computation in the Jaynes-Cummings model of light-matter interaction. We also generalise our results to non-Poissonian measurement protocols with a renewal structure where the intervals between successive independent measurements are distributed via a general distribution $p(\tau)$ and show that the short time behavior of $F_r(t)\sim p(0)\, t^2$ is universal as long as $p(0)\ne 0$. This universal $t^2$ law emerges from purely quantum dynamics that dominates at early times. | 翻訳日:2023-06-07 01:02:39 公開日:2023-06-03 |
# graph meets llm:堅牢な会話理解のための協調フィルタリングへの新しいアプローチ Graph Meets LLM: A Novel Approach to Collaborative Filtering for Robust Conversational Understanding ( http://arxiv.org/abs/2305.14449v2 ) ライセンス: Link先を確認 | Zheng Chen, Ziyan Jiang, Fan Yang, Eunah Cho, Xing Fan, Xiaojiang Huang, Yanbin Lu, Aram Galstyan | (参考訳) Alexaのような会話型AIシステムは、堅牢な会話理解とユーザの摩擦を軽減するために、欠陥クエリを理解する必要がある。
これらの欠陥のあるクエリは、自動音声認識(ASR)と自然言語理解(NLU)におけるユーザの曖昧さ、誤り、エラーから生じることが多い。
パーソナライズドクエリ書き換え(Personalized query rewriting)は、ユーザの個々の振る舞いや好みを考慮してクエリの欠陥を軽減するアプローチである。
典型的には、会話型AIと過去のユーザインタラクションの成功率に依存する。
しかし、ユーザ履歴内の未認識のインタラクションは、パーソナライズされたクエリ書き換えに新たな課題をもたらす。
本稿では,これまでユーザの履歴になかった新たなユーザインタラクションの書き直しを特に課題とする,"協調的クエリ書き直し"アプローチを提案する。
このアプローチは、過去のユーザ-エンティティインタラクションの"ユーザフィードバックインタラクショングラフ"(fig)を構築し、マルチホップグラフトラバーサルを活用して、将来の見当たらないクエリをカバーするために、各ユーザのインデックスを強化する。
リッチユーザインデックスはCollaborative User Indexと呼ばれ、数百の追加エントリを含んでいる。
拡大インデックスからの精度低下に対処するために,l1検索モデルにトランスフォーマー層を追加し,l2ランキングモデルにグラフベースおよびガードレール機能を組み込む。
ユーザインデックスの事前計算が可能であるため,ビデオ/音楽領域におけるユーザ・エンゲージ・リンク予測のためのFIGを強化するために,Large Language Model (LLM) の利用についてさらに検討する。
具体的には,Dolly-V2 7Bモデルについて検討する。
その結果,微調整Dolly-V2生成により拡張されたユーザインデックスにより,将来の未確認ユーザインタラクションのカバレッジが大幅に向上し,グラフトラバースのみのアプローチと比較して,未確認クエリにおけるQR性能が向上することがわかった。 Conversational AI systems such as Alexa need to understand defective queries to ensure robust conversational understanding and reduce user friction. These defective queries often arise from user ambiguities, mistakes, or errors in automatic speech recognition (ASR) and natural language understanding (NLU). Personalized query rewriting is an approach that focuses on reducing defects in queries by taking into account the user's individual behavior and preferences. It typically relies on an index of past successful user interactions with the conversational AI. However, unseen interactions within the user's history present additional challenges for personalized query rewriting. This paper presents our "Collaborative Query Rewriting" approach, which specifically addresses the task of rewriting new user interactions that have not been previously observed in the user's history. This approach builds a "User Feedback Interaction Graph" (FIG) of historical user-entity interactions and leverages multi-hop graph traversal to enrich each user's index to cover future unseen defective queries. The enriched user index is called a Collaborative User Index and contains hundreds of additional entries. To counteract precision degradation from the enlarged index, we add additional transformer layers to the L1 retrieval model and incorporate graph-based and guardrail features into the L2 ranking model. Since the user index can be pre-computed, we further investigate the utilization of a Large Language Model (LLM) to enhance the FIG for user-entity link prediction in the Video/Music domains. Specifically, this paper investigates the Dolly-V2 7B model. We found that the user index augmented by the fine-tuned Dolly-V2 generation significantly enhanced the coverage of future unseen user interactions, thereby boosting QR performance on unseen queries compared with the graph traversal only approach. | 翻訳日:2023-06-07 01:00:38 公開日:2023-06-03 |
# 隣接誘導ラベルリファインメントを用いた協調学習による教師なし可視赤外人物識別 Unsupervised Visible-Infrared Person ReID by Collaborative Learning with Neighbor-Guided Label Refinement ( http://arxiv.org/abs/2305.12711v2 ) ライセンス: Link先を確認 | De Cheng, Xiaojian Huang, Nannan Wang, Lingfeng He, Zhihui Li and Xinbo Gao | (参考訳) unsupervised learning visible-infrared person re-id(usl-vi-reid)は、非ラベルのクロスモダリティデータセットからモダリティ不変機能を学習することを目的としている。
usl-vi-reidタスクを本質的に解決するための鍵は、さらなる異種共同学習のためのクロスモダリティデータアソシエーション問題を解決することである。
この問題に対処するために、生成したラベルを1つのモダリティから他方のモダリティに同時に割り当てるDual Optimal Transport Label Assignment (DOTLA) フレームワークを提案する。
提案するdotla機構は相互強化と効率のよいクロスモダリティデータアソシエーションを定式化し,不充分でノイズの多いラベルアソシエーションの副作用を効果的に低減する。
さらに,不正確な教師付き信号が与える悪影響を解消するために,各サンプルの予測やラベル分布が近辺のものと類似すべきという仮定のもとに,相互モダリティ近傍の一貫性を満たしたラベル改良と正規化モジュールを提案する。
公開SYSU-MM01とRegDBデータセットの大規模な実験結果から提案手法の有効性が示され、既存の最先端手法を平均7.76%のマージンで上回り、教師付きVI-ReID法を上回ります。 Unsupervised learning visible-infrared person re-identification (USL-VI-ReID) aims at learning modality-invariant features from unlabeled cross-modality dataset, which is crucial for practical applications in video surveillance systems. The key to essentially address the USL-VI-ReID task is to solve the cross-modality data association problem for further heterogeneous joint learning. To address this issue, we propose a Dual Optimal Transport Label Assignment (DOTLA) framework to simultaneously assign the generated labels from one modality to its counterpart modality. The proposed DOTLA mechanism formulates a mutual reinforcement and efficient solution to cross-modality data association, which could effectively reduce the side-effects of some insufficient and noisy label associations. Besides, we further propose a cross-modality neighbor consistency guided label refinement and regularization module, to eliminate the negative effects brought by the inaccurate supervised signals, under the assumption that the prediction or label distribution of each example should be similar to its nearest neighbors. Extensive experimental results on the public SYSU-MM01 and RegDB datasets demonstrate the effectiveness of the proposed method, surpassing existing state-of-the-art approach by a large margin of 7.76% mAP on average, which even surpasses some supervised VI-ReID methods. | 翻訳日:2023-06-07 00:58:44 公開日:2023-06-03 |
# 回帰モデルによる数値データ中の誤差の検出 Detecting Errors in Numerical Data via any Regression Model ( http://arxiv.org/abs/2305.16583v2 ) ライセンス: Link先を確認 | Hang Zhou, Jonas Mueller, Mayank Kumar, Jane-Ling Wang and Jing Lei | (参考訳) ノイズは多くの数値データセットを悩ませており、データに記録された値は、誤ったセンサー、データ入力/処理ミス、不完全な人間の推定など、真の基礎となる値と一致しない可能性がある。
ここでは,数値列のどの値が誤りであるかを推定する。
本稿では,データセット内の他の変数に基づいて,この列内の値を予測するのに適したレグレッシャ(統計モデルや機械学習モデル)を,モデルに依存しないアプローチを提案する。
様々な不確実性を考慮することで,データセット内の利用可能な情報に基づいて,真の異常と自然データゆらぎを区別する。
本手法の理論的保証を確立し,コンフォメーション推論などの手法が誤り検出に苦慮していることを示す。
また,実世界の数値誤差を含む5つの回帰データセット(真の値も知られている)を含む新しいエラー検出ベンチマークも提案する。
このベンチマークおよび追加シミュレーション研究において,本手法は他の手法よりも精度/リコールが良い不正確な値を同定する。 Noise plagues many numerical datasets, where the recorded values in the data may fail to match the true underlying values due to reasons including: erroneous sensors, data entry/processing mistakes, or imperfect human estimates. Here we consider estimating which data values are incorrect along a numerical column. We present a model-agnostic approach that can utilize any regressor (i.e. statistical or machine learning model) which was fit to predict values in this column based on the other variables in the dataset. By accounting for various uncertainties, our approach distinguishes between genuine anomalies and natural data fluctuations, conditioned on the available information in the dataset. We establish theoretical guarantees for our method and show that other approaches like conformal inference struggle to detect errors. We also contribute a new error detection benchmark involving 5 regression datasets with real-world numerical errors (for which the true values are also known). In this benchmark and additional simulation studies, our method identifies incorrect values with better precision/recall than other approaches. | 翻訳日:2023-06-07 00:50:18 公開日:2023-06-03 |
# NLPのすべての再現性:初心者の経験を理解する NLP Reproducibility For All: Understanding Experiences of Beginners ( http://arxiv.org/abs/2305.16579v3 ) ライセンス: Link先を確認 | Shane Storks, Keunwoo Peter Yu, Ziqiao Ma, Joyce Chai | (参考訳) 自然言語処理 (NLP) は近年, 前例のないほど興奮感を呈しており, この分野への参入を熱望する人々が増えていることから, 初心者グループにとって最新の研究成果が有効かどうかは不明である。
本研究は,最近のNLP論文の成果を再現した入門NLPコースにおいて,93名の学生を対象に調査を行った。
驚いたことに、彼らのプログラミングスキルと研究論文の理解は、エクササイズを完了するのに費やした努力に限定的な影響を与えている。
その代わり、完全なドキュメンテーション、より良いコーディングプラクティス、データファイルへのアクセスの容易化など、研究者によるアクセシビリティの取り組みが成功の鍵となることが分かっています。
今後は、NLP研究者がこれらの簡単な側面に注意を払って作業をオープンソース化し、初心者のフィードバックからの洞察を使って、より優れたサポート方法に関する実用的なアイデアを提供することを推奨する。 As natural language processing (NLP) has recently seen an unprecedented level of excitement, and more people are eager to enter the field, it is unclear whether current research reproducibility efforts are sufficient for this group of beginners to apply the latest developments. To understand their needs, we conducted a study with 93 students in an introductory NLP course, where students reproduced the results of recent NLP papers. Surprisingly, we find that their programming skill and comprehension of research papers have a limited impact on their effort spent completing the exercise. Instead, we find accessibility efforts by research authors to be the key to success, including complete documentation, better coding practice, and easier access to data files. Going forward, we recommend that NLP researchers pay close attention to these simple aspects of open-sourcing their work, and use insights from beginners' feedback to provide actionable ideas on how to better support them. | 翻訳日:2023-06-07 00:50:03 公開日:2023-06-03 |
# プライバシとユーティリティのバランスをとるための理論的に原理的な連合学習 Theoretically Principled Federated Learning for Balancing Privacy and Utility ( http://arxiv.org/abs/2305.15148v2 ) ライセンス: Link先を確認 | Xiaojin Zhang, Wenjie Li, Kai Chen, Shutao Xia, Qiang Yang | (参考訳) 本稿では,プライバシとユーティリティのトレードオフを容易にするモデルパラメータの歪みによるプライバシ保護機構の一般学習フレームワークを提案する。
このアルゴリズムは、歪みから実際の値にマップする任意のプライバシー測定に適用できる。
フェデレーション学習では、各モデルパラメータ、各クライアント、各通信ラウンドに対するパーソナライズされたユーティリティプライバシートレードオフを実現することができる。
このような適応的できめ細かい保護は、プライバシー保護された連合学習の有効性を向上させることができる。
理論的には,本アルゴリズムが生成する保護ハイパーパラメータの効用損失と最適保護ハイパーパラメータの損失の差は,反復数でサブリニアであることが示されている。
アルゴリズムのサブリニア性は,反復回数が無限大となると,アルゴリズムの性能と最適性能の平均差がゼロになることを示す。
さらに,提案アルゴリズムの収束率について述べる。
提案手法が同一のプライバシ予算下でのベースライン手法よりも有効であることを示すため,ベンチマークデータセット上で実証実験を行った。 We propose a general learning framework for the protection mechanisms that protects privacy via distorting model parameters, which facilitates the trade-off between privacy and utility. The algorithm is applicable to arbitrary privacy measurements that maps from the distortion to a real value. It can achieve personalized utility-privacy trade-off for each model parameter, on each client, at each communication round in federated learning. Such adaptive and fine-grained protection can improve the effectiveness of privacy-preserved federated learning. Theoretically, we show that gap between the utility loss of the protection hyperparameter output by our algorithm and that of the optimal protection hyperparameter is sub-linear in the total number of iterations. The sublinearity of our algorithm indicates that the average gap between the performance of our algorithm and that of the optimal performance goes to zero when the number of iterations goes to infinity. Further, we provide the convergence rate of our proposed algorithm. We conduct empirical results on benchmark datasets to verify that our method achieves better utility than the baseline methods under the same privacy budget. | 翻訳日:2023-06-07 00:47:32 公開日:2023-06-03 |
# 音声QAにおける意味改革による未回答質問への回答 Answering Unanswered Questions through Semantic Reformulations in Spoken QA ( http://arxiv.org/abs/2305.17393v2 ) ライセンス: Link先を確認 | Pedro Faustini, Zhiyu Chen, Besnik Fetahu, Oleg Rokhlenko and Shervin Malmasi | (参考訳) Spoken Question Answering (QA) は音声アシスタントの重要な機能であり、通常は複数のQAシステムによって支援される。
ユーザは、流儀、エラー、非公式な構文やフレーズを含む自発的な音声で質問する。
これはQAにおける大きな課題であり、答えのない質問や無関係な回答を引き起こし、ユーザエクスペリエンスを悪化させます。
我々は失敗したQA要求を分析し、語彙的ギャップ、命題型、複雑な構文構造、高い特異性など、主要な課題を特定する。
本稿では,3つの言語的操作(リペア,構文的再構成,一般化)による質問の書き直しと回答を容易にするセマンティック質問修正(SURF)モデルを提案する。
音声アシスタントによる100万件の未回答質問に対するオフライン評価では、SURFは回答率を大幅に改善し、未回答質問の最大24%が関連回答(75%)を得た。
ライブデプロイメントは、答えのない疑問を持つ数百万の顧客に対して肯定的な影響を示す。 Spoken Question Answering (QA) is a key feature of voice assistants, usually backed by multiple QA systems. Users ask questions via spontaneous speech which can contain disfluencies, errors, and informal syntax or phrasing. This is a major challenge in QA, causing unanswered questions or irrelevant answers, and leading to bad user experiences. We analyze failed QA requests to identify core challenges: lexical gaps, proposition types, complex syntactic structure, and high specificity. We propose a Semantic Question Reformulation (SURF) model offering three linguistically-grounded operations (repair, syntactic reshaping, generalization) to rewrite questions to facilitate answering. Offline evaluation on 1M unanswered questions from a leading voice assistant shows that SURF significantly improves answer rates: up to 24% of previously unanswered questions obtain relevant answers (75%). Live deployment shows positive impact for millions of customers with unanswered questions; explicit relevance feedback shows high user satisfaction. | 翻訳日:2023-06-07 00:42:16 公開日:2023-06-03 |
# 信頼対応型レジリエント制御と自動走行車の協調 Trust-Aware Resilient Control and Coordination of Connected and Automated Vehicles ( http://arxiv.org/abs/2305.16818v2 ) ライセンス: Link先を確認 | H M Sabbir Ahmad, Ehsan Sabouni, Wei Xiao, Christos G. Cassandras, Wenchao Li | (参考訳) 我々は,コンフリクトエリアをナビゲートするために協調する,コネクテッド・アンド・オートマチック・ビークル(cav)のネットワークのセキュリティについて論じる。
シビル攻撃のような敵攻撃は、衝突や交通渋滞を引き起こす安全違反を引き起こす可能性がある。
さらに、非協調的(しかし必ずしも敵対的ではない)CAVは、交通ネットワークに類似した敵効果を誘発する。
本稿では,信頼枠組みを利用して,敵対的攻撃と非協力的CAVの効果を緩和する分散型レジリエンス制御・調整手法を提案する。
信頼認識方式は衝突のない安全な協調を保証し、交通渋滞を軽減できる。
シミュレーション結果は,提案手法の理論的保証を検証し,異なる交通シナリオにまたがる逆効果を効果的に軽減できることを実証する。 We address the security of a network of Connected and Automated Vehicles (CAVs) cooperating to navigate through a conflict area. Adversarial attacks such as Sybil attacks can cause safety violations resulting in collisions and traffic jams. In addition, uncooperative (but not necessarily adversarial) CAVs can also induce similar adversarial effects on the traffic network. We propose a decentralized resilient control and coordination scheme that mitigates the effects of adversarial attacks and uncooperative CAVs by utilizing a trust framework. Our trust-aware scheme can guarantee safe collision free coordination and mitigate traffic jams. Simulation results validate the theoretical guarantee of our proposed scheme, and demonstrate that it can effectively mitigate adversarial effects across different traffic scenarios. | 翻訳日:2023-06-07 00:39:30 公開日:2023-06-03 |
# スパースプロンプティングによるメタポリティネットワークにおける連続タスク割り当て Continual Task Allocation in Meta-Policy Network via Sparse Prompting ( http://arxiv.org/abs/2305.18444v2 ) ライセンス: Link先を確認 | Yijun Yang, Tianyi Zhou, Jing Jiang, Guodong Long, Yuhui Shi | (参考訳) タスクのシーケンスを継続的に学習することで、一般化可能なメタポリシーをトレーニングする方法?
エージェントは、以前のタスク(安定性)からの共通知識を維持しながら、新しいタスク(塑性)に迅速に適応することが期待されている。
本稿では,スパース・プロンプティング(CoTASP)によるタスク・アロケーション(Continual Task Allocation via Sparse Prompting, 連続タスク・アロケーション)を用いて,メタ政治ネットワークから各タスクのサブネットワークを抽出するプロンプトとして,スパース・マスクを生成するための過剰な辞書を学習する。
CoTASPは、プロンプトとサブネットワークウェイトを最適化することで、各タスクのポリシーをトレーニングする。
辞書は、最適化されたプロンプトをタスクの埋め込みに合わせるように更新され、タスクの意味的相関をキャプチャする。
したがって、関連するタスクは、同様のプロンプトによってメタポリケーションネットワーク内のニューロンを多く共有する一方、タスク間の干渉によって忘れることが効果的に抑制される。
従来のタスクで訓練されたメタ政治と辞書を考えると、新しいタスク適応は高度に効率的なスパースプロンプトとサブネットワークファインタニングに還元される。
実験では、CoTASPは過去のタスクの経験を保存または再生することなく、有望な可塑性-安定性トレードオフを達成する。
既存の連続RL法やマルチタスクRL法よりも優れており、可視タスクへの一般化や削減を忘れている。 How to train a generalizable meta-policy by continually learning a sequence of tasks? It is a natural human skill yet challenging to achieve by current reinforcement learning: the agent is expected to quickly adapt to new tasks (plasticity) meanwhile retaining the common knowledge from previous tasks (stability). We address it by "Continual Task Allocation via Sparse Prompting (CoTASP)", which learns over-complete dictionaries to produce sparse masks as prompts extracting a sub-network for each task from a meta-policy network. CoTASP trains a policy for each task by optimizing the prompts and the sub-network weights alternatively. The dictionary is then updated to align the optimized prompts with tasks' embedding, thereby capturing tasks' semantic correlations. Hence, relevant tasks share more neurons in the meta-policy network due to similar prompts while cross-task interference causing forgetting is effectively restrained. Given a meta-policy and dictionaries trained on previous tasks, new task adaptation reduces to highly efficient sparse prompting and sub-network finetuning. In experiments, CoTASP achieves a promising plasticity-stability trade-off without storing or replaying any past tasks' experiences. It outperforms existing continual and multi-task RL methods on all seen tasks, forgetting reduction, and generalization to unseen tasks. | 翻訳日:2023-06-07 00:29:49 公開日:2023-06-03 |
# neural sculpting: pruning と network analysis による階層的モジュラーなタスク構造を明らかにする Neural Sculpting: Uncovering hierarchically modular task structure through pruning and network analysis ( http://arxiv.org/abs/2305.18402v2 ) ライセンス: Link先を確認 | Shreyas Malakarjun Patil, Loizos Michael, Constantine Dovrolis | (参考訳) 自然な対象関数とタスクは通常、階層的なモジュール構造を示す - 階層構造にまとめられた、より単純なサブ関数に分解できる。
このようなサブ関数には2つの重要な特徴がある:それらは異なる入力セット(入力分離性)を持ち、階層(再利用性)において高い入力として再利用される。
従来の研究では、階層的にモジュール化されたニューラルネットワークは本質的に疎結合であり、学習効率、一般化、マルチタスク学習、転送可能性などの利点がある。
しかし、与えられたタスクの下位部分関数とその階層構造を特定することは困難である。
この作業の高レベルな疑問は、十分に深いニューラルネットワークを使ってタスクを学習すれば、そのタスクの下位機能階層をどうやって見つけられるのか、ということです。
まず,タスクが階層的にモジュール化されているかどうかを判断し易いブール関数の領域について検討する。
本稿では,繰り返し単位とエッジプルーニング(訓練中)に基づくアプローチと,モジュール検出と階層推論のためのネットワーク解析の組み合わせを提案する。
最後に, この手法により, MNIST桁データセットに基づく幅広いブール関数と2つの視覚タスクの階層的モジュラリティを明らかにすることができることを示す。 Natural target functions and tasks typically exhibit hierarchical modularity - they can be broken down into simpler sub-functions that are organized in a hierarchy. Such sub-functions have two important features: they have a distinct set of inputs (input-separability) and they are reused as inputs higher in the hierarchy (reusability). Previous studies have established that hierarchically modular neural networks, which are inherently sparse, offer benefits such as learning efficiency, generalization, multi-task learning, and transferability. However, identifying the underlying sub-functions and their hierarchical structure for a given task can be challenging. The high-level question in this work is: if we learn a task using a sufficiently deep neural network, how can we uncover the underlying hierarchy of sub-functions in that task? As a starting point, we examine the domain of Boolean functions, where it is easier to determine whether a task is hierarchically modular. We propose an approach based on iterative unit and edge pruning (during training), combined with network analysis for module detection and hierarchy inference. Finally, we demonstrate that this method can uncover the hierarchical modularity of a wide range of Boolean functions and two vision tasks based on the MNIST digits dataset. | 翻訳日:2023-06-07 00:29:24 公開日:2023-06-03 |
# 大規模言語モデルにおける編集障害の検出: 仕様性ベンチマークの改良 Detecting Edit Failures In Large Language Models: An Improved Specificity Benchmark ( http://arxiv.org/abs/2305.17553v2 ) ライセンス: Link先を確認 | Jason Hoelscher-Obermaier, Julia Persson, Esben Kran, Ioannis Konstas and Fazl Barez | (参考訳) 近年のモデル編集技術は、LLMトレーニング中に偽りや時代遅れの関連を記憶する問題を緩和することを約束している。
しかし,これらの手法は既存の特異性ベンチマークでは検出されない大きな副作用をもたらす可能性がある。
既存のCounterFactベンチマークを動的コンポーネントを含むように拡張し、ベンチマークのCounterFact+をダブします。
さらに,kl発散基準を用いて特異度を測定するためのメトリクスを拡張した。
この改良されたベンチマークを用いて、最近のモデル編集手法を評価し、それらが低特異性に悩まされていることを確認する。
我々の研究は、望ましくない副作用を特定し予防する改良された特異性ベンチマークの必要性を強調した。 Recent model editing techniques promise to mitigate the problem of memorizing false or outdated associations during LLM training. However, we show that these techniques can introduce large unwanted side effects which are not detected by existing specificity benchmarks. We extend the existing CounterFact benchmark to include a dynamic component and dub our benchmark CounterFact+. Additionally, we extend the metrics used for measuring specificity by a principled KL divergence-based metric. We use this improved benchmark to evaluate recent model editing techniques and find that they suffer from low specificity. Our findings highlight the need for improved specificity benchmarks that identify and prevent unwanted side effects. | 翻訳日:2023-06-07 00:28:27 公開日:2023-06-03 |
# ヒット率に基づく新しいブラックボックスプロセス品質最適化手法 A Novel Black Box Process Quality Optimization Approach based on Hit Rate ( http://arxiv.org/abs/2305.20003v2 ) ライセンス: Link先を確認 | Yang Yang, Jian Wu, Xiangman Song, Derun Wu, Lijie Su, Lixin Tang | (参考訳) ヒットレートは、統合産業プロセスにおけるプロセス製品の品質を予測する重要なパフォーマンス指標である。
下流プロセスで受け入れられる製品の割合を、品質管理の範囲内で表します。
しかし、ヒット率の最適化は非凸で難しい問題である。
この問題に対処するために,因子付き隠れマルコフモデル,マルチタスク弾性ネット,準凸最適化を組み合わせたデータ駆動型準凸法を提案する。
提案手法は,元の非凸問題から凸可能問題の一組に変換し,最適ヒット率を実現する。
モンテカルロシミュレーションと実世界実験により, 対流最適化特性と準凸フロンティアの検証を行った。
その結果、我々のアプローチは古典的なモデルよりも優れており、2つの実際のデータセットで少なくとも41.11%と31.01%のヒット率を改善している。
さらに、準凸フロンティアは、従来のモデルで得られた解の劣化に関する参照説明と可視化を提供する。 Hit rate is a key performance metric in predicting process product quality in integrated industrial processes. It represents the percentage of products accepted by downstream processes within a controlled range of quality. However, optimizing hit rate is a non-convex and challenging problem. To address this issue, we propose a data-driven quasi-convex approach that combines factorial hidden Markov models, multitask elastic net, and quasi-convex optimization. Our approach converts the original non-convex problem into a set of convex feasible problems, achieving an optimal hit rate. We verify the convex optimization property and quasi-convex frontier through Monte Carlo simulations and real-world experiments in steel production. Results demonstrate that our approach outperforms classical models, improving hit rates by at least 41.11% and 31.01% on two real datasets. Furthermore, the quasi-convex frontier provides a reference explanation and visualization for the deterioration of solutions obtained by conventional models. | 翻訳日:2023-06-07 00:19:50 公開日:2023-06-03 |
# 原子レーザーの周波数コムスペクトルのモンテカルロシミュレーション法 Monte-Carlo simulation method for the frequency comb spectrum of an atom laser ( http://arxiv.org/abs/2305.19722v2 ) ライセンス: Link先を確認 | A. Schelle | (参考訳) 超低温におけるコヒーレント原子レーザー場のシナリオに対して,想像時間の概念に基づく理論粒子数保存量子場理論を示し,適用した。
提案理論モデルでは, 捕捉されたボース・アインシュタイン凝縮体から放出されるコヒーレント原子線と非凝縮量子場成分を, 所定の繰り返し位相と周波数でモデル化して実現した原子レーザーの周波数コムスペクトルの解析的導出を記述する。
原子蒸気の凝縮部は、周囲の熱的原子雲の温度によって誘起される熱ノイズを受けると仮定される。
この新しい量子アプローチは、複素数値量子場表現における時間周期性および直交分解を用いて、量子場の前方および後方の伝播成分を有限温度における定量的特異性なしで同じ一意の時間および温度領域における定常波場として導出しモデル化する。
モンテカルロサンプリング法において、外閉じ込めの温度とトラップ周波数の関数として、複素値原子レーザー場、その結果の周波数コム、および封筒の形状の異なる繰り返し周波数分布を数値的に監視する。 A theoretical particle-number conserving quantum field theory based on the concept of imaginary time is presented and applied to the scenario of a coherent atomic laser field at ultra-cold temperatures. The proposed theoretical model describes the analytical derivation of the frequency comb spectrum for an atomic laser realized from modeling a coherent atomic beam of condensate and non-condensate quantum field components released from a trapped Bose-Einstein condensate at a given repetition phase and frequency. The condensate part of the atomic vapor is assumed to be subjected to thermal noise induced by the temperature of the surrounding thermal atomic cloud. This new quantum approach uses time periodicity and an orthogonal decomposition of the quantum field in a complex-valued quantum field representation to derive and model the quantum field's forward- and backward-propagating components as a standing wave field in the same unique time and temperature domain without quantitative singularities at finite temperatures. The complex-valued atom laser field, the resulting frequency comb, and the repetition frequency distribution with the varying shape of envelopes are numerically monitored within a Monte-Carlo sampling method, as a function of temperature and trap frequency of the external confinement. | 翻訳日:2023-06-07 00:19:36 公開日:2023-06-03 |
# 風速予測のための新しい深層知識に基づく学習法 A Novel Deep Knowledge-based Learning Method for Wind Speed Forecast ( http://arxiv.org/abs/2306.01986v1 ) ライセンス: Link先を確認 | Yang Yang, Jin Lang, Jian Wu, Yanyan Zhang | (参考訳) 風力発電の設置率の増加は、世界的電力システムに大きな課題をもたらす。
風力発電システムの信頼性を確保するためには,風力タービンの風速と動力を正確に予測する必要がある。
現在、深層学習は風速予測に段階的に適用される。
しかし、近年のディープラーニング手法は、モデル解釈可能性やハードウェアの制限により、実用上の困惑を反映している。
そこで本稿では,新しい深層知識に基づく学習法を提案する。
提案手法は,事前学習手法とオートエンコーダ構造をハイブリダイズし,深層知識に基づく学習フレームワークのデータ表現とモデリングを改善する。
知識と対応する吸収器を形成するために、相関に基づく最適化モデルにより元のデータを前処理し、シーケンスからシーケンス(seq2seq)モデルに吸収される多層ネットワーク(knowledge)を構築する。
具体的には、従来のディープラーニングフレームワークを強化するために、新しい認知と記憶ユニット(CMU)が設計されている。
最後に, 提案手法の有効性を, 中国梁寧省の風力発電所から3つの風速予測事例で検証した。
風速予測のためのLSTM法とLSTM/GRUベースのSeq2Seq法と比較して,提案手法は安定性と訓練効率を向上することを示した。 The increasing installation rate of wind power poses great challenges to the global power system. In order to ensure the reliable operation of the power system, it is necessary to accurately forecast the wind speed and power of the wind turbines. At present, deep learning is progressively applied to the wind speed prediction. Nevertheless, the recent deep learning methods still reflect the embarrassment for practical applications due to model interpretability and hardware limitation. To this end, a novel deep knowledge-based learning method is proposed in this paper. The proposed method hybridizes pre-training method and auto-encoder structure to improve data representation and modeling of the deep knowledge-based learning framework. In order to form knowledge and corresponding absorbers, the original data is preprocessed by an optimization model based on correlation to construct multi-layer networks (knowledge) which are absorbed by sequence to sequence (Seq2Seq) models. Specifically, new cognition and memory units (CMU) are designed to reinforce traditional deep learning framework. Finally, the effectiveness of the proposed method is verified by three wind prediction cases from a wind farm in Liaoning, China. Experimental results show that the proposed method increases the stability and training efficiency compared to the traditional LSTM method and LSTM/GRU-based Seq2Seq method for applications of wind speed forecasting. | 翻訳日:2023-06-06 21:05:43 公開日:2023-06-03 |
# COBRAフレーム: 攻撃的文書の効果と害に関する文脈推論 COBRA Frames: Contextual Reasoning about Effects and Harms of Offensive Statements ( http://arxiv.org/abs/2306.01985v1 ) ライセンス: Link先を確認 | Xuhui Zhou, Hao Zhu, Akhila Yerukola, and Thomas Davidson, Jena D. Hwang, Swabha Swayamdipta, Maarten Sap | (参考訳) 警告: 本論文は攻撃的あるいは不安定なコンテンツを含んでいる。
言明の害と攻撃性を理解するには、言明がなされる社会的・状況的文脈についての推論が必要である。
例えば、「あなたの英語はとても良い」という発声は、白人男性から非白人の同僚に発するときに暗黙的に侮辱を示唆するが、ESL教師が生徒に発する発声は、真の褒め言葉として解釈される。
このような文脈的要因は、以前の有毒な言語検出のアプローチによって無視されてきた。
社会的・状況的文脈に根ざした攻撃的・偏見のある言明の意図、反応、害を説明する最初の文脈対応形式であるCOBRAフレームを紹介する。
これは、マシン生成のコンテキストと、攻撃性、暗黙のバイアス、話者意図、リスナー反応のフリーテキストの説明を組み合わせた、33kの潜在的攻撃的ステートメントのデータセットです。
攻撃性の文脈的ダイナミクスを研究するために、我々は、文脈へのアクセスなしにCOBRAの説明を生成するためにモデルを訓練する。
文脈依存モデルによる説明は文脈認識モデルよりも著しく悪い、特に文脈が文の不快さを反転する状況(29%の精度低下)では特に顕著である。
本研究は,社会的要因のモデル化による文脈的NLPの重要性と実現可能性を強調した。 Warning: This paper contains content that may be offensive or upsetting. Understanding the harms and offensiveness of statements requires reasoning about the social and situational context in which statements are made. For example, the utterance "your English is very good" may implicitly signal an insult when uttered by a white man to a non-white colleague, but uttered by an ESL teacher to their student would be interpreted as a genuine compliment. Such contextual factors have been largely ignored by previous approaches to toxic language detection. We introduce COBRA frames, the first context-aware formalism for explaining the intents, reactions, and harms of offensive or biased statements grounded in their social and situational context. We create COBRACORPUS, a dataset of 33k potentially offensive statements paired with machine-generated contexts and free-text explanations of offensiveness, implied biases, speaker intents, and listener reactions. To study the contextual dynamics of offensiveness, we train models to generate COBRA explanations, with and without access to the context. We find that explanations by context-agnostic models are significantly worse than by context-aware ones, especially in situations where the context inverts the statement's offensiveness (29% accuracy drop). Our work highlights the importance and feasibility of contextualized NLP by modeling social factors. | 翻訳日:2023-06-06 21:05:24 公開日:2023-06-03 |
# DYffusion:時空間予測のためのダイナミクスインフォームド拡散モデル DYffusion: A Dynamics-informed Diffusion Model for Spatiotemporal Forecasting ( http://arxiv.org/abs/2306.01984v1 ) ライセンス: Link先を確認 | Salva R\"uhling Cachay, Bo Zhao, Hailey James, Rose Yu | (参考訳) 拡散モデルはデータ生成と予測をうまく行うことができるが、主に静的画像のために設計されている。
本稿では,データに符号化された時間的ダイナミクスをネットワーク内の拡散ステップと直接結合した動的予測のための拡散モデルのトレーニング手法を提案する。
我々は,従来の拡散モデルの前方および逆過程を模倣する確率的,時間的補間器とバックボーン予測器ネットワークを訓練する。
この設計選択は、自然に多段階および長距離予測機能をエンコードし、高い柔軟性と連続時間サンプリング軌道と、推論時にサンプリングを加速して性能をトレードオフする能力を可能にする。
さらに、動的インフォームド拡散過程は強い帰納バイアスを課し、従来のガウス雑音に基づく拡散モデルと比較して計算効率を向上させることができる。
本手法は,海面温度,ナビエ-ストークス流,およびスプリングメッシュシステムの複雑な動力学予測において,確率的スキルスコアメトリクスを競合的に評価する。 While diffusion models can successfully generate data and make predictions, they are predominantly designed for static images. We propose an approach for training diffusion models for dynamics forecasting that leverages the temporal dynamics encoded in the data, directly coupling it with the diffusion steps in the network. We train a stochastic, time-conditioned interpolator and a backbone forecaster network that mimic the forward and reverse processes of conventional diffusion models, respectively. This design choice naturally encodes multi-step and long-range forecasting capabilities, allowing for highly flexible, continuous-time sampling trajectories and the ability to trade-off performance with accelerated sampling at inference time. In addition, the dynamics-informed diffusion process imposes a strong inductive bias, allowing for improved computational efficiency compared to traditional Gaussian noise-based diffusion models. Our approach performs competitively on probabilistic skill score metrics in complex dynamics forecasting of sea surface temperatures, Navier-Stokes flows, and spring mesh systems. | 翻訳日:2023-06-06 21:04:59 公開日:2023-06-03 |
# 前提条件変換によるバックドア攻撃の緩和 Mitigating Backdoor Attack Via Prerequisite Transformation ( http://arxiv.org/abs/2306.01983v1 ) ライセンス: Link先を確認 | Han Gao | (参考訳) 近年,NLPやCVなどの分野へのDNNの適用が成功し,セキュリティも注目されている。
(著者)はbadnetのバックドア攻撃方法を提案した。
トレーニングサンプルに毒を加えて、モデルにバックドアを埋め込んだ。
バックドア付きモデルは、正常な検証サンプルセットに異常は見られなかったが、トリガーによる入力では、攻撃者の指定したカテゴリに誤って分類されたり、地上真理とは異なるカテゴリにランダムに分類されたりする。この攻撃方法は、自動運転や物体検出など、現実におけるdnnの正常な応用を深刻な脅威にさらしている。この記事では、バックドア攻撃に対処する新しい方法を提案する。
トリガーによってカバーされる領域の特徴をトリガーとして、残りの領域を通常の特徴として参照する。
トレーニングプロセス中に前提条件の計算条件を導入することで、これらの条件は通常の特徴やトリガー機能にほとんど影響を与えず、標準バックドアモデルのトレーニングを完了することができる。
これらの前提条件の下で訓練されたモデルは、同じ前提計算条件を持つ検証集合 d'val において、通常のバックドアモデルと性能が一致することができる。
しかし、前提計算条件のない検証セットDvalでは、検証精度は非常に低く(7%〜12%)、攻撃成功率(ASR)は90%から約8%に低下する。
著者はこのメソッドをPrerequisite Transformation(PT)と呼ぶ。 In recent years, with the successful application of DNN in fields such as NLP and CV, its security has also received widespread attention. (Author) proposed the method of backdoor attack in Badnet. Switch implanted backdoor into the model by poisoning the training samples. The model with backdoor did not exhibit any abnormalities on the normal validation sample set, but in the input with trigger, they were mistakenly classified as the attacker's designated category or randomly classified as a different category from the ground truth, This attack method seriously threatens the normal application of DNN in real life, such as autonomous driving, object detection, etc.This article proposes a new method to combat backdoor attacks. We refer to the features in the area covered by the trigger as trigger features, and the remaining areas as normal features. By introducing prerequisite calculation conditions during the training process, these conditions have little impact on normal features and trigger features, and can complete the training of a standard backdoor model. The model trained under these prerequisite calculation conditions can, In the verification set D'val with the same premise calculation conditions, the performance is consistent with that of the ordinary backdoor model. However, in the verification set Dval without the premise calculation conditions, the verification accuracy decreases very little (7%~12%), while the attack success rate (ASR) decreases from 90% to about 8%.Author call this method Prerequisite Transformation(PT). | 翻訳日:2023-06-06 21:04:42 公開日:2023-06-03 |
# SGEM:シーケンスレベル一般化エントロピー最小化による自動音声認識のためのテスト時間適応 SGEM: Test-Time Adaptation for Automatic Speech Recognition via Sequential-Level Generalized Entropy Minimization ( http://arxiv.org/abs/2306.01981v1 ) ライセンス: Link先を確認 | Changhun Kim, Joonhyung Park, Hajin Shim and Eunho Yang | (参考訳) 自動音声認識(ASR)モデルは、多くの実世界のシナリオでデータ分散シフトに頻繁に晒され、誤った予測につながる。
この問題に対処するために、最近、ソースデータなしでラベルなしのテストインスタンスに事前学習されたasrモデルを適用するために、既存のテスト時間適応法(tta)が提案されている。
良好な性能向上にもかかわらず、本研究はナイーブな欲望復号にのみ依存し、モデル出力の逐次的性質を考えると最適ではないフレームレベルで時間ステップをまたいで適応する。
そこで我々は,一般的なASRモデルに対して,SGEMと呼ばれる新しいTTAフレームワークを提案する。
逐次出力を扱うために、SGEMはまずビームサーチを利用して候補出力ロジットを探索し、最も有効なものを選択する。
次に、一般化エントロピー最小化と負サンプリングを教師なしの目的とし、モデルを適応させる。
SGEMはドメインシフトの異なる3つのメインストリームASRモデルの最先端性能を実現する。 Automatic speech recognition (ASR) models are frequently exposed to data distribution shifts in many real-world scenarios, leading to erroneous predictions. To tackle this issue, an existing test-time adaptation (TTA) method has recently been proposed to adapt the pre-trained ASR model on unlabeled test instances without source data. Despite decent performance gain, this work relies solely on naive greedy decoding and performs adaptation across timesteps at a frame level, which may not be optimal given the sequential nature of the model output. Motivated by this, we propose a novel TTA framework, dubbed SGEM, for general ASR models. To treat the sequential output, SGEM first exploits beam search to explore candidate output logits and selects the most plausible one. Then, it utilizes generalized entropy minimization and negative sampling as unsupervised objectives to adapt the model. SGEM achieves state-of-the-art performance for three mainstream ASR models under various domain shifts. | 翻訳日:2023-06-06 21:04:18 公開日:2023-06-03 |
# 自動運転とインテリジェント自動車のマイルストーン その2:知覚と計画 Milestones in Autonomous Driving and Intelligent Vehicles Part II: Perception and Planning ( http://arxiv.org/abs/2306.01980v1 ) ライセンス: Link先を確認 | Long Chen, Siyu Teng, Bai Li, Xiaoxiang Na, Yuchen Li, Zixuan Li, Jinjun Wang, Dongpu Cao, Nanning Zheng, and Fei-Yue Wang | (参考訳) 自動運転(ad)とインテリジェント車両(ivs)への関心の高まりは、安全性、効率性、経済的利益の向上を約束している。
この分野では、これまでの調査が進歩を捉えているが、包括的で前向きな要約が必要である。
私たちの仕事は3つの異なる記事を通してこのギャップを埋めます。
第1部 "Survey of Surveys" (SoS) では,ADとIV技術の歴史,調査,倫理,今後の方向性について概説している。
第2部「自律運転・知能車両のマイルストーン(Milestones in autonomous Driving and Intelligent Vehicles Part I: Control, Computing System Design, Communication, HD Map, Testing, and Human Behaviors)」は、IVsにおける制御、コンピュータシステム、通信、HDマップ、テスト、人間行動の開発に力を注いでいる。
第3部は、第4部の文脈における認識と計画の見直しである。
ADとIVsの最新の進歩を包括的に概観することを目的として、この研究は新参者および調味された研究者の両方を対象とする。
SoSとPart Iを統合することで、このダイナミックな分野における過去の成果と将来の可能性の間の橋渡しとして、ユニークな洞察と努力を提供します。 Growing interest in autonomous driving (AD) and intelligent vehicles (IVs) is fueled by their promise for enhanced safety, efficiency, and economic benefits. While previous surveys have captured progress in this field, a comprehensive and forward-looking summary is needed. Our work fills this gap through three distinct articles. The first part, a "Survey of Surveys" (SoS), outlines the history, surveys, ethics, and future directions of AD and IV technologies. The second part, "Milestones in Autonomous Driving and Intelligent Vehicles Part I: Control, Computing System Design, Communication, HD Map, Testing, and Human Behaviors" delves into the development of control, computing system, communication, HD map, testing, and human behaviors in IVs. This part, the third part, reviews perception and planning in the context of IVs. Aiming to provide a comprehensive overview of the latest advancements in AD and IVs, this work caters to both newcomers and seasoned researchers. By integrating the SoS and Part I, we offer unique insights and strive to serve as a bridge between past achievements and future possibilities in this dynamic field. | 翻訳日:2023-06-06 21:04:00 公開日:2023-06-03 |
# AlerTiger: LinkedInのAIモデルヘルスモニタリングのためのディープラーニング AlerTiger: Deep Learning for AI Model Health Monitoring at LinkedIn ( http://arxiv.org/abs/2306.01977v1 ) ライセンス: Link先を確認 | Zhentao Xu, Ruoying Wang, Girish Balaji, Manas Bundele, Xiaofei Liu, Leo Liu, Tie Wang | (参考訳) データ駆動型企業は、プロダクトとインテリジェントなビジネスソリューションを開発するためにAIモデルを広範囲に使用し、これらのモデルの健全性はビジネスの成功に不可欠である。
業界におけるモデル監視と警告は、明確なモデルヘルスメトリクス定義、ラベルスパーシティ、短命なモデルと機能をもたらす高速なモデルイテレーションの欠如など、ユニークな課題を提起する。
製品としては、スケーラビリティ、汎用性、説明可能性の要件もある。
これらの課題に対処するために、我々はaiチームがモデルの入力機能の異常を検出し、時間とともにアウトプットスコアを検出することで、aiモデルの健康状態を監視することを支援するディープラーニングベースのmlopsモデル監視システムであるalrigerを提案する。
このシステムは、モデル統計生成、ディープラーニングに基づく異常検出、異常後処理、ユーザー警告の4つの主要なステップで構成されている。
我々のソリューションは、AIモデルの健康を示す3つのカテゴリの統計を生成し、ラベルの空間性に対処し、新しいモデルの監視の一般化を実現するための2段階の深層異常検出ソリューションを提供し、アクション可能なアラートに関する総合的なレポートを提供する。
このアプローチはLinkedInのプロダクションAIモデルの大部分に1年以上展開され、いくつかのモデル問題を特定し、修正後のビジネスメトリクスの大幅な向上につながった。 Data-driven companies use AI models extensively to develop products and intelligent business solutions, making the health of these models crucial for business success. Model monitoring and alerting in industries pose unique challenges, including a lack of clear model health metrics definition, label sparsity, and fast model iterations that result in short-lived models and features. As a product, there are also requirements for scalability, generalizability, and explainability. To tackle these challenges, we propose AlerTiger, a deep-learning-based MLOps model monitoring system that helps AI teams across the company monitor their AI models' health by detecting anomalies in models' input features and output score over time. The system consists of four major steps: model statistics generation, deep-learning-based anomaly detection, anomaly post-processing, and user alerting. Our solution generates three categories of statistics to indicate AI model health, offers a two-stage deep anomaly detection solution to address label sparsity and attain the generalizability of monitoring new models, and provides holistic reports for actionable alerts. This approach has been deployed to most of LinkedIn's production AI models for over a year and has identified several model issues that later led to significant business metric gains after fixing. | 翻訳日:2023-06-06 21:03:39 公開日:2023-06-03 |
# 集中治療室における臨床データ分析のための時間空間相関注意ネットワーク Temporal-spatial Correlation Attention Network for Clinical Data Analysis in Intensive Care Unit ( http://arxiv.org/abs/2306.01970v1 ) ライセンス: Link先を確認 | Weizhi Nie, Yuhe Yu, Chen Zhang, Dan Song, Lina Zhao, Yunpeng Bai | (参考訳) 近年、医療情報技術により、電子健康記録(EHR)は比較的完全な臨床データを保存できるようになった。
これにより、医療は「ビッグデータ」の時代に入った。
しかし、医療データはしばしばばらばらで強い相関関係にあり、医療問題は効果的に解決できない。
近年のディープラーニングの急速な発展により、医療におけるビッグデータの利用の機会がもたらされている。
本稿では,死の予測,滞在期間の予測,生理的低下の検出,表現型分類など,いくつかの臨床特性予測問題に対処するための時空間相関注意ネットワーク(tscan)を提案する。
本手法は,アテンション機構モデルの設計に基づいて,異なるタスクに応じて,臨床データおよび無関係ノードにおける無関係項目を効果的に除去し,より正確な予測結果を得る。
また,治療方法の改善に有効な重要な結果を示す重要な臨床指標も見つけることができる。
本研究は,医療情報マート(medical information mart for intensive care, mimic-iv)データベースからの情報を公開している。
最後に,他の sota 予測法と比較して, 2.0 % (メトリック) の大幅な性能向上を達成した。
死亡率は90.7\%,滞在期間は45.1\%であった。
ソースコードは: \url{https://github.com/yuyuheintju/TSCAN}。 In recent years, medical information technology has made it possible for electronic health record (EHR) to store fairly complete clinical data. This has brought health care into the era of "big data". However, medical data are often sparse and strongly correlated, which means that medical problems cannot be solved effectively. With the rapid development of deep learning in recent years, it has provided opportunities for the use of big data in healthcare. In this paper, we propose a temporal-saptial correlation attention network (TSCAN) to handle some clinical characteristic prediction problems, such as predicting death, predicting length of stay, detecting physiologic decline, and classifying phenotypes. Based on the design of the attention mechanism model, our approach can effectively remove irrelevant items in clinical data and irrelevant nodes in time according to different tasks, so as to obtain more accurate prediction results. Our method can also find key clinical indicators of important outcomes that can be used to improve treatment options. Our experiments use information from the Medical Information Mart for Intensive Care (MIMIC-IV) database, which is open to the public. Finally, we have achieved significant performance benefits of 2.0\% (metric) compared to other SOTA prediction methods. We achieved a staggering 90.7\% on mortality rate, 45.1\% on length of stay. The source code can be find: \url{https://github.com/yuyuheintju/TSCAN}. | 翻訳日:2023-06-06 21:03:17 公開日:2023-06-03 |
# GENTLE: 英語NLPと言語学的評価のための汎用多層チャレンジセット GENTLE: A Genre-Diverse Multilayer Challenge Set for English NLP and Linguistic Evaluation ( http://arxiv.org/abs/2306.01966v1 ) ライセンス: Link先を確認 | Tatsuya Aoyama, Shabnam Behzad, Luke Gessler, Lauren Levine, Jessica Lin, Yang Janet Liu, Siyao Peng, Yilun Zhu, Amir Zeldes | (参考訳) 今回,17kトークンを集計し,辞書項目,eスポーツ解説書,法的文書,医用ノート,詩,数学的証明,syllabuses,脅威文字という,ドメイン評価のための8種類の特殊なテキストタイプからなる,新しい混合型英語チャレンジコーパスを提示する。
GENTLEは、構文依存解析、エンティティ認識、コア参照解決、談話解析など、さまざまなNLPタスクに手動で注釈付けされている。
現状のnlpシステムを評価し,少なくともいくつかのジャンルにおいて,すべてのタスクにおけるパフォーマンスの低下がみられ,nlpシステム評価データセットとしてのsweetの有用性が示唆された。 We present GENTLE, a new mixed-genre English challenge corpus totaling 17K tokens and consisting of 8 unusual text types for out-of domain evaluation: dictionary entries, esports commentaries, legal documents, medical notes, poetry, mathematical proofs, syllabuses, and threat letters. GENTLE is manually annotated for a variety of popular NLP tasks, including syntactic dependency parsing, entity recognition, coreference resolution, and discourse parsing. We evaluate state-of-the-art NLP systems on GENTLE and find severe degradation for at least some genres in their performance on all tasks, which indicates GENTLE's utility as an evaluation dataset for NLP systems. | 翻訳日:2023-06-06 21:02:57 公開日:2023-06-03 |
# ブロードバンド通信におけるオーバーザ・エアフェデレート学習 Over-the-Air Federated Learning In Broadband Communication ( http://arxiv.org/abs/2306.01963v1 ) ライセンス: Link先を確認 | Wayne Lemieux, Raphael Pinard, Mitra Hassani | (参考訳) Federated Learning(FL)は、プライバシ保護のための分散機械学習パラダイムで、無線エッジで動作する。
クライアントは、敵や中央サーバからデータをプライベートに保ちながら、モデルトレーニングで協力することができる。
しかし、現在のFLアプローチには制限がある。
セキュアなマルチパーティ計算に依存しており、推論攻撃に弱い場合もある。
異なるプライバシを採用する場合もあるが、これは少数のデータを提供する多数のパーティを扱う場合、テスト精度を低下させる可能性がある。
そこで本研究では,MIMO(Multiple-Input Multiple-Output)システムの内部動作にフェデレーション学習をシームレスに統合する手法を提案する。 Federated learning (FL) is a privacy-preserving distributed machine learning paradigm that operates at the wireless edge. It enables clients to collaborate on model training while keeping their data private from adversaries and the central server. However, current FL approaches have limitations. Some rely on secure multiparty computation, which can be vulnerable to inference attacks. Others employ differential privacy, but this may lead to decreased test accuracy when dealing with a large number of parties contributing small amounts of data. To address these issues, this paper proposes a novel approach that integrates federated learning seamlessly into the inner workings of MIMO (Multiple-Input Multiple-Output) systems. | 翻訳日:2023-06-06 21:02:42 公開日:2023-06-03 |
# 有向グラフニューラルネットワークは敵対的に堅牢か? Can Directed Graph Neural Networks be Adversarially Robust? ( http://arxiv.org/abs/2306.02002v1 ) ライセンス: Link先を確認 | Zhichao Hou, Xitong Zhang, Wei Wang, Charu C. Aggarwal, Xiaorui Liu | (参考訳) 既存のロバストグラフニューラルネットワーク(gnns)の研究は、ネットワーク固有の構造に関する豊富な情報を提供する際に有向グラフの重要性を認識していない。
本研究は、有向グラフの文脈におけるGNNの堅牢性に関する最初の研究であり、有向グラフがもたらす深い信頼感を利用して、GNNの堅牢性とレジリエンスを高めることを目的としている。
本研究により,既存の指向性GNNは逆向きに堅牢ではないことが明らかとなった。
目的を追求するために,GNNの堅牢性を大幅に向上させるために,新しい,現実的なグラフアタック設定を導入し,革新的な,普遍的で効率的なメッセージパッシングフレームワークをプラグイン層として提案する。
既存の防御戦略と組み合わさって、クリーンな精度と最先端の堅牢な性能を実現し、転送攻撃と適応攻撃の両方に対して優れた防御を提供する。
本研究は,本研究領域の新規かつ有望な方向性を明らかにするものである。
この作業が受け入れられ次第、コードは公開される予定だ。 The existing research on robust Graph Neural Networks (GNNs) fails to acknowledge the significance of directed graphs in providing rich information about networks' inherent structure. This work presents the first investigation into the robustness of GNNs in the context of directed graphs, aiming to harness the profound trust implications offered by directed graphs to bolster the robustness and resilience of GNNs. Our study reveals that existing directed GNNs are not adversarially robust. In pursuit of our goal, we introduce a new and realistic directed graph attack setting and propose an innovative, universal, and efficient message-passing framework as a plug-in layer to significantly enhance the robustness of GNNs. Combined with existing defense strategies, this framework achieves outstanding clean accuracy and state-of-the-art robust performance, offering superior defense against both transfer and adaptive attacks. The findings in this study reveal a novel and promising direction for this crucial research area. The code will be made publicly available upon the acceptance of this work. | 翻訳日:2023-06-06 20:55:56 公開日:2023-06-03 |
# Context-TAP: 任意のポイント要求の空間的コンテキスト機能を追跡する Context-TAP: Tracking Any Point Demands Spatial Context Features ( http://arxiv.org/abs/2306.02000v1 ) ライセンス: Link先を確認 | Weikang Bian, Zhaoyang Huang, Xiaoyu Shi, Yitong Dong, Yijin Li, Hongsheng Li | (参考訳) 本稿では,ビデオ中の問合せ点の長期的軌跡を推定することを目的としたTAP(Tracking Any Point)の問題に取り組む。
従来の手法では、これらの軌跡を独立して推定して、より長い画像列を組み込むことが試みられた。
独立したビデオポイントトラッキングは、空間的コンテキスト機能も必要としている。
そこで本稿では,ビデオの空間的特徴を集約することにより,ポイントトラジェクトリの精度を効果的に向上する新しいフレームワークであるContext-TAPを提案する。
Context-TAP には2つの主要なモジュールがある。
1) sourse feature enhancement (sofe)モジュール、及び
2) TArget Feature Aggregation (TAFA)モジュール。
Context-TAP は PIP を全面的に改善し、CroHD 上の Occluded Points (ATE-Occ) の平均軌道誤差を 11.4% 削減し、TAP-Vid-Kinectics 上では 11.8% のA-PCK を向上した。
デモは、この$\href{https://wkbian.github.io/Projects/Context-TAP/}{webpage}$で入手できる。 We tackle the problem of Tracking Any Point (TAP) in videos, which specifically aims at estimating persistent long-term trajectories of query points in videos. Previous methods attempted to estimate these trajectories independently to incorporate longer image sequences, therefore, ignoring the potential benefits of incorporating spatial context features. We argue that independent video point tracking also demands spatial context features. To this end, we propose a novel framework Context-TAP, which effectively improves point trajectory accuracy by aggregating spatial context features in videos. Context-TAP contains two main modules: 1) a SOurse Feature Enhancement (SOFE) module, and 2) a TArget Feature Aggregation (TAFA) module. Context-TAP significantly improves PIPs all-sided, reducing 11.4% Average Trajectory Error of Occluded Points (ATE-Occ) on CroHD and increasing 11.8% Average Percentage of Correct Keypoint (A-PCK) on TAP-Vid-Kinectics. Demos are available at this $\href{https://wkbian.github.io/Projects/Context-TAP/}{webpage}$. | 翻訳日:2023-06-06 20:55:38 公開日:2023-06-03 |
# GAT-GAN : グラフアテンションに基づく時系列生成対向ネットワーク GAT-GAN : A Graph-Attention-based Time-Series Generative Adversarial Network ( http://arxiv.org/abs/2306.01999v1 ) ライセンス: Link先を確認 | Srikrishna Iyer and Teng Teck Hou | (参考訳) generative adversarial networks (gans) は現実的な合成データを生成する強力なツールであることが証明されている。
しかし、従来のganは、非現実的な多変量時系列データを生成する特徴の間の複雑な関係を捉えるのに苦労する。
本稿では,2つのグラフアテンション層を明示的に含み,一方は時間依存を学習し,他方は空間的関係を捉えるグラフアテンションに基づく生成逆ネットワーク(gat-gan)を提案する。
データポイントの長いシーケンスのモデリングに苦労するRNNベースのGANとは異なり、GAT-GANは、逆向きに訓練されたオートエンコーダアーキテクチャを用いて、高忠実度の時系列データを生成する。
各種実時間時系列データセットを用いた実証評価の結果,我々のフレームワークは,それぞれ (\emph{Fidelity, Diversity}) と \emph{Predictive Performance} を特徴付ける, \emph{Frechet Transformer distance} と \emph{Predictive score} に基づく最先端ベンチマークを一貫して上回っていることがわかった。
さらに、Frechet Transformer distance(FTD)スコアと呼ばれる時系列データに対するFrechet Inception distance-like(FID)メトリクスを導入し、生成データの品質と多様性を評価する。
また, FTDの低いスコアは, 下流予測実験の結果と一致した。
したがって、ftdスコアは、合成時系列データを評価するための標準指標として使用できる。 Generative Adversarial Networks (GANs) have proven to be a powerful tool for generating realistic synthetic data. However, traditional GANs often struggle to capture complex relationships between features which results in generation of unrealistic multivariate time-series data. In this paper, we propose a Graph-Attention-based Generative Adversarial Network (GAT-GAN) that explicitly includes two graph-attention layers, one that learns temporal dependencies while the other captures spatial relationships. Unlike RNN-based GANs that struggle with modeling long sequences of data points, GAT-GAN generates long time-series data of high fidelity using an adversarially trained autoencoder architecture. Our empirical evaluations, using a variety of real-time-series datasets, show that our framework consistently outperforms state-of-the-art benchmarks based on \emph{Frechet Transformer distance} and \emph{Predictive score}, that characterizes (\emph{Fidelity, Diversity}) and \emph{predictive performance} respectively. Moreover, we introduce a Frechet Inception distance-like (FID) metric for time-series data called Frechet Transformer distance (FTD) score (lower is better), to evaluate the quality and variety of generated data. We also found that low FTD scores correspond to the best-performing downstream predictive experiments. Hence, FTD scores can be used as a standardized metric to evaluate synthetic time-series data. | 翻訳日:2023-06-06 20:55:14 公開日:2023-06-03 |
# UADB: 教師なし異常検出ブースター UADB: Unsupervised Anomaly Detection Booster ( http://arxiv.org/abs/2306.01997v1 ) ライセンス: Link先を確認 | Hangting Ye, Zhining Liu, Xinyi Shen, Wei Cao, Shun Zheng, Xiaofan Gui, Huishuai Zhang, Yi Chang, Jiang Bian | (参考訳) 教師なし異常検出(unsupervised anomaly detection, uad)は、その幅広い実世界応用のために重要なデータマイニング問題である。
監視信号の完全欠如により、UDA法は異常を検出するために異常パターン(例えば、散在/疎集)に関する暗黙の仮定に依存する。
しかし、現実世界のデータは複雑であり、異なる領域で大きく異なる。
そのような複雑さを記述できる仮定はひとつもなく、すべてのシナリオで有効である。
これは、UAD法が全能でないことを示す最近の研究でも確認されている。
上記の観測に基づいて、魔法の普遍的な勝者の仮定を探す代わりに、異なるデータに適応可能な任意の UAD モデルに権限を与える一般的な UAD Booster (UADB) を設計することを模索する。
既存のUADメソッドで採用されている異種モデル構造と仮定を考えると、これは難しい作業です。
これを実現するために、我々はUDAの問題を深く掘り下げて、通常のデータや異常と比べて、それを見つける。
(i)特徴空間における明確な構造・パターンの欠如
(二)適切な仮定なしにモデルで学ぶのが難しく、最終的に導くこと
(iii)異なる学習者間の高いばらつき。
これらの知見を踏まえて,我々は提案する。
(i)データ仮定を持たない模倣学習者(ブースター)にソースuadモデルの知識を蒸留する。
(ii)両者のばらつきを利用して自動補正を行うため、
(iii)元のuadモデルよりもブースターが向上した。
ニューラルネットワークを強力な表現力のブースターとして、普遍近似器として使用し、フレキシブルなポストホックチューニングを行う。
UADBは、統一された方法で異種UADモデルを拡張できるモデルに依存しないフレームワークである。
80以上のグラフデータセットに対する大規模な実験は、UADBの有効性を示している。 Unsupervised Anomaly Detection (UAD) is a key data mining problem owing to its wide real-world applications. Due to the complete absence of supervision signals, UAD methods rely on implicit assumptions about anomalous patterns (e.g., scattered/sparsely/densely clustered) to detect anomalies. However, real-world data are complex and vary significantly across different domains. No single assumption can describe such complexity and be valid in all scenarios. This is also confirmed by recent research that shows no UAD method is omnipotent. Based on above observations, instead of searching for a magic universal winner assumption, we seek to design a general UAD Booster (UADB) that empowers any UAD models with adaptability to different data. This is a challenging task given the heterogeneous model structures and assumptions adopted by existing UAD methods. To achieve this, we dive deep into the UAD problem and find that compared to normal data, anomalies (i) lack clear structure/pattern in feature space, thus (ii) harder to learn by model without a suitable assumption, and finally, leads to (iii) high variance between different learners. In light of these findings, we propose to (i) distill the knowledge of the source UAD model to an imitation learner (booster) that holds no data assumption, then (ii) exploit the variance between them to perform automatic correction, and thus (iii) improve the booster over the original UAD model. We use a neural network as the booster for its strong expressive power as a universal approximator and ability to perform flexible post-hoc tuning. Note that UADB is a model-agnostic framework that can enhance heterogeneous UAD models in a unified way. Extensive experiments on over 80 tabular datasets demonstrate the effectiveness of UADB. | 翻訳日:2023-06-06 20:54:42 公開日:2023-06-03 |
# 無限腕バンディットの漸近的最適純粋探査 Asymptotically Optimal Pure Exploration for Infinite-Armed Bandits ( http://arxiv.org/abs/2306.01995v1 ) ライセンス: Link先を確認 | Xiao-Yue Gong, Mark Sellke | (参考訳) 我々は、未知の分布から生じる無限に多くのバンドイットアームを用いて純粋探索を研究する。
我々のゴールは、平均的な報酬が1-\delta$の1つの高品質なアームを、上位の$\eta$-fraction of armsの1つとして$\varepsilon$で効率的に選択することである。
固定的な信頼度と固定的な予算の設定の両方を考え、それぞれ最小限の期待値と固定されたサンプルの複雑さを目指しています。
一定の信頼のために、サンプル複雑性が期待できるアルゴリズムに$o\left(\frac{\log (1/\eta)\log (1/\delta)}{\eta\varepsilon^2}\right)$を与える。
これは$\log (1/\eta)$ factorを除いて最適であり、$\delta$-dependenceは文学における二次的なギャップを閉じる。
固定予算の場合、漸近的に最適なサンプル複雑性は$\delta\to 0$ is $c^{-1}\log(1/\delta)\big(\log\log(1/\delta)\big)^2$ である。
同様に、n$ のサンプルが与えられた最適故障確率は、指数の内部で 1\pm o_n(1)$ まで、$\exp\big(-cn/\log^2 n\big)$ で崩壊する。
定数 $c$ は、一定のフィッシャー情報距離を通じて問題パラメータ(未知のアーム分布を含む)に明示的に依存する。
$\log(1/\delta)$に対する厳密な超線形依存でさえも分かっておらず、GrossmanとMoshkovitz(FOCS 2016 SIAM Journal on Computing 2020)の疑問を解決している。 We study pure exploration with infinitely many bandit arms generated i.i.d. from an unknown distribution. Our goal is to efficiently select a single high quality arm whose average reward is, with probability $1-\delta$, within $\varepsilon$ of being among the top $\eta$-fraction of arms; this is a natural adaptation of the classical PAC guarantee for infinite action sets. We consider both the fixed confidence and fixed budget settings, aiming respectively for minimal expected and fixed sample complexity. For fixed confidence, we give an algorithm with expected sample complexity $O\left(\frac{\log (1/\eta)\log (1/\delta)}{\eta\varepsilon^2}\right)$. This is optimal except for the $\log (1/\eta)$ factor, and the $\delta$-dependence closes a quadratic gap in the literature. For fixed budget, we show the asymptotically optimal sample complexity as $\delta\to 0$ is $c^{-1}\log(1/\delta)\big(\log\log(1/\delta)\big)^2$ to leading order. Equivalently, the optimal failure probability given exactly $N$ samples decays as $\exp\big(-cN/\log^2 N\big)$, up to a factor $1\pm o_N(1)$ inside the exponent. The constant $c$ depends explicitly on the problem parameters (including the unknown arm distribution) through a certain Fisher information distance. Even the strictly super-linear dependence on $\log(1/\delta)$ was not known and resolves a question of Grossman and Moshkovitz (FOCS 2016, SIAM Journal on Computing 2020). | 翻訳日:2023-06-06 20:54:18 公開日:2023-06-03 |
# スコアマッチングの確率的利点 Provable benefits of score matching ( http://arxiv.org/abs/2306.01993v1 ) ライセンス: Link先を確認 | Chirag Pabbaraju, Dhruv Rohatgi, Anish Sevekari, Holden Lee, Ankur Moitra, Andrej Risteski | (参考訳) スコアマッチングは、比例定数までパラメータ化された確率分布を推定するための最大可能性(ML)の代替である。
分布の'score'をフィッティングすることで、この比例性の定数(しばしば難解である)を計算する必要性を回避できる。
スコアマッチングやその変種は実際に人気があるが、最大確率の利点とトレードオフの正確な理論的理解(計算量と統計量の両方)はよく分かっていない。
本研究では,スコアマッチング損失が計算効率が高く,mlに匹敵する統計効率を持つような分布の自然な指数関数群の最初の例を示すが,ml損失は勾配に基づく手法で最適化するには難解である。
この族は固定次数の多項式の指数関数から成り、その結果は離散集合における最近の発展の連続的な類似物と見なすことができる。
正確には、(1) 最大可能性損失を最適化するためのゼロ次または1次オラクルの設計はnpハードである。
2)最大確率は、周辺次元と家族のパラメータの半径における統計的効率多項式を持つ。
(3) スコアマッチング損失の最小化は計算的かつ統計的に効率的であり, 周辺次元の複雑性多項式は複雑である。 Score matching is an alternative to maximum likelihood (ML) for estimating a probability distribution parametrized up to a constant of proportionality. By fitting the ''score'' of the distribution, it sidesteps the need to compute this constant of proportionality (which is often intractable). While score matching and variants thereof are popular in practice, precise theoretical understanding of the benefits and tradeoffs with maximum likelihood -- both computational and statistical -- are not well understood. In this work, we give the first example of a natural exponential family of distributions such that the score matching loss is computationally efficient to optimize, and has a comparable statistical efficiency to ML, while the ML loss is intractable to optimize using a gradient-based method. The family consists of exponentials of polynomials of fixed degree, and our result can be viewed as a continuous analogue of recent developments in the discrete setting. Precisely, we show: (1) Designing a zeroth-order or first-order oracle for optimizing the maximum likelihood loss is NP-hard. (2) Maximum likelihood has a statistical efficiency polynomial in the ambient dimension and the radius of the parameters of the family. (3) Minimizing the score matching loss is both computationally and statistically efficient, with complexity polynomial in the ambient dimension. | 翻訳日:2023-06-06 20:53:47 公開日:2023-06-03 |
# ReLUネットワークのサイズ非依存サンプル複雑性について On Size-Independent Sample Complexity of ReLU Networks ( http://arxiv.org/abs/2306.01992v1 ) ライセンス: Link先を確認 | Mark Sellke | (参考訳) 一般化の観点からReLUニューラルネットワークを学習する際のサンプル複雑性について検討する。
重み行列のノルム制約が与えられたとき、関連する関数クラスのラデマッハ複雑性を推定する共通のアプローチがある。
以前の Golowich-Rakhlin-Shamir (2020) は、二乗根深さの係数を除いて、ネットワークサイズ(フロベニウスノルムの積とスケーリングする)の有界独立性を得た。
しばしば明示的な深さ依存性を持たない精細度を与える。 We study the sample complexity of learning ReLU neural networks from the point of view of generalization. Given norm constraints on the weight matrices, a common approach is to estimate the Rademacher complexity of the associated function class. Previously Golowich-Rakhlin-Shamir (2020) obtained a bound independent of the network size (scaling with a product of Frobenius norms) except for a factor of the square-root depth. We give a refinement which often has no explicit depth-dependence at all. | 翻訳日:2023-06-06 20:53:25 公開日:2023-06-03 |
# パーセプトロンニューラルネットワークに基づくバイオインスパイアされたカオスセンサ : 計算神経科学における概念と応用 A Bio-Inspired Chaos Sensor Based on the Perceptron Neural Network: Concept and Application for Computational Neuro-science ( http://arxiv.org/abs/2306.01991v1 ) ライセンス: Link先を確認 | Andrei Velichko, Petr Boriskov, Maksim Belyaev and Vadim Putrolaynen | (参考訳) 本研究では,知覚神経ネットワークに基づくバイオインスパイアされたカオスセンサを提案する。
トレーニング後、隠れた層に50個のニューロン、出力に1個のニューロンを有するパーセプトロン上のセンサーは、決定係数R2〜0.9で高精度に短い時系列のファジィエントロピーを近似する。
Hindmarsh-Roseスパイクモデルは、一連のスパイク間隔と、パーセプトロンのトレーニングとテストのためのデータセットを生成するために使用された。
Kブロッククロスバリデーション法を用いて, パーセプトロンモデルのハイパーパラメータの選択とセンサ精度の推定を行った。
1つのニューロンを持つ隠れた層であっても、モデルは良い結果と計量 r2 ~ 0.5-0.8 でファジィエントロピーを近似する。
第一層における1つのニューロンと等しい重みを持つ単純化されたモデルでは、近似の原理は時系列の平均値からエントロピー値への線形変換に基づいている。
ニューロンのアンサンブルに基づくバイオインスパイアされたカオスセンサモデルは、スパイクされた生体システムのカオス挙動を動的に追跡し、この情報をバイオシステムの他の部分に送信し、さらなる処理を行うことができる。
この研究は、計算神経科学の分野の専門家にとって役立つだろう。 The study presents a bio-inspired chaos sensor based on the perceptron neural network. After training, the sensor on perceptron, having 50 neurons in the hidden layer and 1 neuron at the output, approximates the fuzzy entropy of short time series with high accuracy with a determination coefficient R2 ~ 0.9. The Hindmarsh-Rose spike model was used to generate time series of spike intervals, and datasets for training and testing the perceptron. The selection of the hyperparameters of the perceptron model and the estimation of the sensor accuracy were performed using the K-block cross-validation method. Even for a hidden layer with 1 neuron, the model approximates the fuzzy entropy with good results and the metric R2 ~ 0.5-0.8. In a simplified model with 1 neuron and equal weights in the first layer, the principle of approximation is based on the linear transformation of the average value of the time series into the entropy value. The bio-inspired chaos sensor model based on an ensemble of neurons is able to dynamically track the chaotic behavior of a spiked biosystem and transmit this information to other parts of the bio-system for further processing. The study will be useful for specialists in the field of computational neuroscience. | 翻訳日:2023-06-06 20:53:15 公開日:2023-06-03 |
# 線形文脈による探索のインセンティブと組合せ行動 Incentivizing Exploration with Linear Contexts and Combinatorial Actions ( http://arxiv.org/abs/2306.01990v1 ) ライセンス: Link先を確認 | Mark Sellke | (参考訳) 我々は,腕の選択を推奨とし,ベイズ的インセンティブとの互換性を要求されるインセンティブ付きバンディット探索の研究を進める。
最近の研究では、十分な初期サンプルを収集した後、人気のあるトンプソンサンプリングアルゴリズムがインセンティブ互換になるという一定の独立性仮定の下で示されている。
この結果の類似性は線形バンディットに対して与えられ、そこでは事前の独立性が自然凸条件に置き換えられる。
これにより、高次元の行動空間における効率的かつ後悔すべきインセンティブ付き探索の可能性が開ける。
半帯域モデルでは、初期データ収集のトンプソン前サンプリングフェーズにおけるサンプルの複雑さも改善する。 We advance the study of incentivized bandit exploration, in which arm choices are viewed as recommendations and are required to be Bayesian incentive compatible. Recent work has shown under certain independence assumptions that after collecting enough initial samples, the popular Thompson sampling algorithm becomes incentive compatible. We give an analog of this result for linear bandits, where the independence of the prior is replaced by a natural convexity condition. This opens up the possibility of efficient and regret-optimal incentivized exploration in high-dimensional action spaces. In the semibandit model, we also improve the sample complexity for the pre-Thompson sampling phase of initial data collection. | 翻訳日:2023-06-06 20:52:51 公開日:2023-06-03 |
# VHRリモートセンシング画像変化検出のための軽量構造対応トランスネットワーク Lightweight Structure-aware Transformer Network for VHR Remote Sensing Image Change Detection ( http://arxiv.org/abs/2306.01988v1 ) ライセンス: Link先を確認 | Tao Lei, Yetong Xu, Hailong Ning, Zhiyong Lv, Chongdan Min, Yaochu Jin and Asoke K. Nandi | (参考訳) 一般的なTransformer Networkは、リモートセンシング(RS)画像変化検出(CD)識別に適用され、ほとんどの畳み込みニューラルネットワーク(CNN)よりも優れた結果が得られるが、それでも2つの大きな問題に悩まされている。
第一に、トランスフォーマーの計算複雑性は画像空間分解能の増大とともに2次的に増大し、超高分解能(VHR)RS画像には好ましくない。
第二に、これらの人気のあるトランスフォーマーネットワークは、細粒度の特徴の重要性を無視する傾向があり、これにより、大きく変化するオブジェクトに対して、エッジの整合性や内部の厳密性が低下し、小さなオブジェクトが失われる。
上記の問題に対処するため、このレターはRS画像CDのための軽量構造対応トランスフォーマー(LSAT)ネットワークを提案する。
LSATには2つの利点がある。
まず,線形複雑度を有するクロス次元対話型自己アテンション(CISA)モジュールを視覚変換器のバニラ自己アテンションに置き換えることにより,LSATの特徴表現能力を向上しつつ,計算複雑性を効果的に低減する。
第2に、差分特徴とエッジ詳細情報を強化するためにSAEM(Structure-Aware Enhancement Module)を設計し、差分精細化と細部集約による倍増を実現し、両時間RS画像のきめ細かい特徴を得る。
実験結果から,提案したLSATは検出精度を大幅に向上し,VHR RS画像の最先端CD法よりも精度と計算コストのトレードオフが良好であることがわかった。 Popular Transformer networks have been successfully applied to remote sensing (RS) image change detection (CD) identifications and achieve better results than most convolutional neural networks (CNNs), but they still suffer from two main problems. First, the computational complexity of the Transformer grows quadratically with the increase of image spatial resolution, which is unfavorable to very high-resolution (VHR) RS images. Second, these popular Transformer networks tend to ignore the importance of fine-grained features, which results in poor edge integrity and internal tightness for largely changed objects and leads to the loss of small changed objects. To address the above issues, this Letter proposes a Lightweight Structure-aware Transformer (LSAT) network for RS image CD. The proposed LSAT has two advantages. First, a Cross-dimension Interactive Self-attention (CISA) module with linear complexity is designed to replace the vanilla self-attention in visual Transformer, which effectively reduces the computational complexity while improving the feature representation ability of the proposed LSAT. Second, a Structure-aware Enhancement Module (SAEM) is designed to enhance difference features and edge detail information, which can achieve double enhancement by difference refinement and detail aggregation so as to obtain fine-grained features of bi-temporal RS images. Experimental results show that the proposed LSAT achieves significant improvement in detection accuracy and offers a better tradeoff between accuracy and computational costs than most state-of-the-art CD methods for VHR RS images. | 翻訳日:2023-06-06 20:52:40 公開日:2023-06-03 |
# パラメータ量子回路のテンソルトレイン最適化 Tensor train optimization of parametrized quantum circuits ( http://arxiv.org/abs/2306.02024v1 ) ライセンス: Link先を確認 | Georgii Paradezhenko, Anastasiia Pervishko, Dmitry Yudin | (参考訳) 変分量子固有解法に対するテンソルトレイン最適化に実装された微分自由法の実現について検討する。
例えば、逆場イジングモデルの基底状態に対処するために、低深さのハードウェア効率アンサッツとハミルトン変分アンサッツからなるパラメトリゼーション量子回路を考える。
さらに,勾配に基づく最適化手法との比較を行い,特に騒音の存在下でのテンソルトレインに基づく最適化の利点について考察する。 We examine a particular realization of derivative-free method as implemented on tensor train based optimization to the variational quantum eigensolver. As an example, we consider parametrized quantum circuits composed of a low-depth hardware-efficient ansatz and Hamiltonian variational ansatz for addressing the ground state of the transverse field Ising model. We further make a comparison with gradient-based optimization techniques and discuss on the advantage of using tensor train based optimization, especially in the presence of noise. | 翻訳日:2023-06-06 20:46:32 公開日:2023-06-03 |
# ACI-BENCH - 自動訪問ノート生成のベンチマークのための新しい臨床知能データセット ACI-BENCH: a Novel Ambient Clinical Intelligence Dataset for Benchmarking Automatic Visit Note Generation ( http://arxiv.org/abs/2306.02022v1 ) ライセンス: Link先を確認 | Wen-wai Yim, Yujuan Fu, Asma Ben Abacha, Neal Snider, Thomas Lin, and Meliha Yetisgen | (参考訳) GPT4のような生成モデルにおける最近の画期的なブレークスルーは、これらのモデルのすべてのアプリケーションにおけるユビキタスな利用を思い起こさせた。
人工知能(AI)の改善によって恩恵を受けることができる分野は医療である。
医師と患者の出会いからメモを生成するタスクとその関連する電子医療記録文書は、医師にとって最も困難な時間を要するタスクの1つである。
また、生成モデルの進歩に対する自然な素ポテンシャルの受益者でもある。
しかし、このような進歩により、ベンチマークはこれまでになく重要になる。
モデルの弱点を研究するか、新しい評価指標を開発するかにかかわらず、共有されたデータセットは現在の最先端を理解する上で必須の要素である。
残念ながら、クリニックとの会話は日常的に記録されておらず、患者の機密性のために倫理的に共有することが難しいため、このタスクをベンチマークするには十分な量のクリニックの対話メモデータセットが存在しない。
本稿では,訪問対話からai支援ノート生成の問題に取り組む上で,これまでで最大のデータセットであるaci-bench(aci-bench)コーパスを提案する。
また、いくつかの一般的な最先端手法のベンチマーク性能を示す。 Recent immense breakthroughs in generative models such as in GPT4 have precipitated re-imagined ubiquitous usage of these models in all applications. One area that can benefit by improvements in artificial intelligence (AI) is healthcare. The note generation task from doctor-patient encounters, and its associated electronic medical record documentation, is one of the most arduous time-consuming tasks for physicians. It is also a natural prime potential beneficiary to advances in generative models. However with such advances, benchmarking is more critical than ever. Whether studying model weaknesses or developing new evaluation metrics, shared open datasets are an imperative part of understanding the current state-of-the-art. Unfortunately as clinic encounter conversations are not routinely recorded and are difficult to ethically share due to patient confidentiality, there are no sufficiently large clinic dialogue-note datasets to benchmark this task. Here we present the Ambient Clinical Intelligence Benchmark (ACI-BENCH) corpus, the largest dataset to date tackling the problem of AI-assisted note generation from visit dialogue. We also present the benchmark performances of several common state-of-the-art approaches. | 翻訳日:2023-06-06 20:46:23 公開日:2023-06-03 |
# ブラックボックス逆例検出に向けて:データ再構成に基づく方法 Towards Black-box Adversarial Example Detection: A Data Reconstruction-based Method ( http://arxiv.org/abs/2306.02021v1 ) ライセンス: Link先を確認 | Yifei Gao, Zhiyu Lin, Yunfan Yang, Jitao Sang | (参考訳) adversarial example detectionは効果的なadversarial defense法であることが知られている。
ブラックボックス攻撃は、より現実的な脅威であり、様々なブラックボックスの敵の訓練に基づく防御手法に繋がったが、敵のサンプル検出には大きな関心が寄せられていない。
本稿では,ブラックボックス逆例検出(BAD)の問題を位置決めすることで,このギャップを埋める。
導入されたBAD設定に基づくデータ分析は,(1)ブラックボックスシナリオに対処する既存の検出器の動作不能,(2)データの観点からBADソリューションを探索する可能性を示す。
BAD問題に対処するために,データ再構成に基づく逆例検出手法を提案する。
具体的には、変分オートエンコーダ(VAE)を用いて、通常の例の画素と周波数の両方をキャプチャする。
そして,その逆の例を復元誤差で検出する。
提案手法は,既存の検出手法と比較して,悪時の検出性能が大幅に向上し,実世界モデルにおける実例検出に基づく防御ソリューションの展開を促進する。 Adversarial example detection is known to be an effective adversarial defense method. Black-box attack, which is a more realistic threat and has led to various black-box adversarial training-based defense methods, however, does not attract considerable attention in adversarial example detection. In this paper, we fill this gap by positioning the problem of black-box adversarial example detection (BAD). Data analysis under the introduced BAD settings demonstrates (1) the incapability of existing detectors in addressing the black-box scenario and (2) the potential of exploring BAD solutions from a data perspective. To tackle the BAD problem, we propose a data reconstruction-based adversarial example detection method. Specifically, we use variational auto-encoder (VAE) to capture both pixel and frequency representations of normal examples. Then we use reconstruction error to detect adversarial examples. Compared with existing detection methods, the proposed method achieves substantially better detection performance in BAD, which helps promote the deployment of adversarial example detection-based defense solutions in real-world models. | 翻訳日:2023-06-06 20:46:04 公開日:2023-06-03 |
# データ拡張のための生成型adversarial network Generative Adversarial Networks for Data Augmentation ( http://arxiv.org/abs/2306.02019v1 ) ライセンス: Link先を確認 | Angona Biswas, MD Abdullah Al Nasim, Al Imran, Anika Tabassum Sejuty, Fabliha Fairooz, Sai Puppala, Sajedul Talukder | (参考訳) 医療分野でAIモデルをトレーニングするための利用可能なデータセットを拡張する方法のひとつは、データ拡張にGAN(Generative Adversarial Networks)を使用することだ。
GANはジェネレータネットワークを使用して新しいデータサンプルを作成し、識別ネットワークによって評価され、実際のサンプルと類似性を決定する。
判別器ネットワークは実サンプルと合成サンプルを区別するように教えられ、一方生成システムは実サンプルとよく似たデータを生成するように訓練されている。
このプロセスは、生成ネットワークが本物のデータと区別できない合成データを生成するまで繰り返される。
GANは、データ拡張、画像生成、ドメイン適応など、さまざまなタスクで医療画像解析に利用されてきた。
利用可能なデータセットを増やすために使用できる合成サンプルを生成することができ、特に大量の真のデータを取得することは困難または非倫理的である。
しかし, 医用画像におけるGANの使用は, 医用画像が高品質で, 臨床現場での使用に適していることを保証するために, 依然として研究の活発な領域である点に注意が必要である。 One way to expand the available dataset for training AI models in the medical field is through the use of Generative Adversarial Networks (GANs) for data augmentation. GANs work by employing a generator network to create new data samples that are then assessed by a discriminator network to determine their similarity to real samples. The discriminator network is taught to differentiate between actual and synthetic samples, while the generator system is trained to generate data that closely resemble real ones. The process is repeated until the generator network can produce synthetic data that is indistinguishable from genuine data. GANs have been utilized in medical image analysis for various tasks, including data augmentation, image creation, and domain adaptation. They can generate synthetic samples that can be used to increase the available dataset, especially in cases where obtaining large amounts of genuine data is difficult or unethical. However, it is essential to note that the use of GANs in medical imaging is still an active area of research to ensure that the produced images are of high quality and suitable for use in clinical settings. | 翻訳日:2023-06-06 20:45:45 公開日:2023-06-03 |
# videocomposer: 動作制御性を有する合成ビデオ合成 VideoComposer: Compositional Video Synthesis with Motion Controllability ( http://arxiv.org/abs/2306.02018v1 ) ライセンス: Link先を確認 | Xiang Wang, Hangjie Yuan, Shiwei Zhang, Dayou Chen, Jiuniu Wang, Yingya Zhang, Yujun Shen, Deli Zhao, Jingren Zhou | (参考訳) ビジュアルコンテンツ作成の高水準としての制御可能性の追求は、カスタマイズ可能な画像合成の著しい進歩をもたらした。
しかし,時間力学のばらつきやフレーム間の時間的一貫性が要求されるため,制御可能な映像合成を実現することは依然として困難である。
コンポジション生成のパラダイムに基づいて、この研究は、ユーザがテキスト条件、空間条件、さらに重要な時間条件でビデオを柔軟に構成できるVideoComposerを提示する。
具体的には,映像データの特徴を考慮し,圧縮映像からの動きベクトルを明示的な制御信号として導入し,時間ダイナミクスに関するガイダンスを提供する。
さらに、逐次入力の空間的および時間的関係を効果的に組み込むための統一インターフェースとして機能する時空間条件エンコーダ(STC-エンコーダ)を開発し、時間的条件をよりよく利用し、フレーム間の一貫性を向上させる。
大規模な実験結果から,VideoComposerはテキスト記述,スケッチシーケンス,参照ビデオ,あるいは手作り動作など,合成ビデオ内の空間的パターンと時間的パターンを同時に制御できることが示唆された。
コードとモデルはhttps://videocomposer.github.ioで公開されている。 The pursuit of controllability as a higher standard of visual content creation has yielded remarkable progress in customizable image synthesis. However, achieving controllable video synthesis remains challenging due to the large variation of temporal dynamics and the requirement of cross-frame temporal consistency. Based on the paradigm of compositional generation, this work presents VideoComposer that allows users to flexibly compose a video with textual conditions, spatial conditions, and more importantly temporal conditions. Specifically, considering the characteristic of video data, we introduce the motion vector from compressed videos as an explicit control signal to provide guidance regarding temporal dynamics. In addition, we develop a Spatio-Temporal Condition encoder (STC-encoder) that serves as a unified interface to effectively incorporate the spatial and temporal relations of sequential inputs, with which the model could make better use of temporal conditions and hence achieve higher inter-frame consistency. Extensive experimental results suggest that VideoComposer is able to control the spatial and temporal patterns simultaneously within a synthesized video in various forms, such as text description, sketch sequence, reference video, or even simply hand-crafted motions. The code and models will be publicly available at https://videocomposer.github.io. | 翻訳日:2023-06-06 20:45:26 公開日:2023-06-03 |
# 機械学習による超高速スピンダイナミクスの実験的設計とパラメータ推定 Machine learning enabled experimental design and parameter estimation for ultrafast spin dynamics ( http://arxiv.org/abs/2306.02015v1 ) ライセンス: Link先を確認 | Zhantao Chen, Cheng Peng, Alexander N. Petsch, Sathya R. Chitturi, Alana Okullo, Sugata Chowdhury, Chun Hong Yoon, Joshua J. Turner | (参考訳) 先進的な実験的測定は、しばしば施設資源の不足と複雑さの増加に悩まされる凝縮物質や物質物理学における理論的な発展と新しい現象を明らかにするために重要である。
この制約に対処するために,機械学習とベイズ最適実験設計(BOED)を組み合わせて,スピン揺らぎのX線光子変動分光法(XPFS)を実証する手法を提案する。
本手法は,大規模スピンダイナミクスシミュレーションのためのニューラルネットワークモデルを用いて,BOEDの正確な分布と実用計算を行う。
ニューラルネットワークモデルから自動的に微分できる能力は、より堅牢で正確なパラメータ推定のためにさらに活用される。
数値ベンチマークでは,XPFS実験の誘導,モデルパラメータの予測,実験時間内でのより情報的な測定を行う上で,本手法の優れた性能を示す。
XPFSやスピン揺らぎに重点を置いているが、この手法は他の実験にも適用でき、より効率的なデータ収集と科学的な発見の加速が図れる。 Advanced experimental measurements are crucial for driving theoretical developments and unveiling novel phenomena in condensed matter and material physics, which often suffer from the scarcity of facility resources and increasing complexities. To address the limitations, we introduce a methodology that combines machine learning with Bayesian optimal experimental design (BOED), exemplified with x-ray photon fluctuation spectroscopy (XPFS) measurements for spin fluctuations. Our method employs a neural network model for large-scale spin dynamics simulations for precise distribution and utility calculations in BOED. The capability of automatic differentiation from the neural network model is further leveraged for more robust and accurate parameter estimation. Our numerical benchmarks demonstrate the superior performance of our method in guiding XPFS experiments, predicting model parameters, and yielding more informative measurements within limited experimental time. Although focusing on XPFS and spin fluctuations, our method can be adapted to other experiments, facilitating more efficient data collection and accelerating scientific discoveries. | 翻訳日:2023-06-06 20:45:05 公開日:2023-06-03 |
# 分散シフト下におけるビデオ自己教師型学習の隠れダイナミクスの解明 Uncovering the Hidden Dynamics of Video Self-supervised Learning under Distribution Shifts ( http://arxiv.org/abs/2306.02014v1 ) ライセンス: Link先を確認 | Pritam Sarkar, Ahmad Beirami, Ali Etemad | (参考訳) ビデオ自己教師型学習(VSSL)は近年大きな進歩を遂げている。
しかし、分布シフトの異なる形でのこれらのモデルの正確な挙動とダイナミクスはまだ分かっていない。
本稿では,様々な形態の自然分布変化に対応する6種類の自己監督手法(v-SimCLR,v-MOCO,v-BYOL,v-SimSiam,v-DINO,v-MAE)の挙動を包括的に研究する。
(i)コンテキストシフト。
(ii)視点転換。
(iii)俳優交代。
(iv) ソースシフト。
(v)未知クラスへの一般化可能性(ゼロショット)
(vi)オープンセット認識。
この広範な研究を行うために、利用可能な公開データセットと一連の評価プロトコルを使用して17ドルの分散および分散ベンチマークペアからなるテストベッドを慎重に作成し、意図したシフトの下で異なるメソッドをストレステストする。
本研究は,VSSL手法の興味深い発見と興味深い挙動を明らかにするものである。
例えば、ビデオモデルは一般的にコンテキストシフトに苦しむが、v-MAEと教師付き学習はより堅牢性を示す。
また,v-MAEは時間的学習者であり,v-SimCLRとv-MOCOは視点変化に対して強い性能を示す。
オープンセット認識の概念を研究する際,特に未学習のVSSLエンコーダを微調整なしで使用する場合,クローズドセットとオープンセット認識性能のトレードオフに気づく。
私たちの研究が,実世界のさまざまなシナリオを対象としたロバストなビデオ表現学習フレームワークの開発に貢献できることを願っています。 Video self-supervised learning (VSSL) has made significant progress in recent years. However, the exact behavior and dynamics of these models under different forms of distribution shift are not yet known. In this paper, we comprehensively study the behavior of six popular self-supervised methods (v-SimCLR, v-MOCO, v-BYOL, v-SimSiam, v-DINO, v-MAE) in response to various forms of natural distribution shift, i.e., (i) context shift, (ii) viewpoint shift, (iii) actor shift, (iv) source shift, (v) generalizability to unknown classes (zero-shot), and (vi) open-set recognition. To perform this extensive study, we carefully craft a test bed consisting of $17$ in-distribution and out-of-distribution benchmark pairs using available public datasets and a series of evaluation protocols to stress-test the different methods under the intended shifts. Our study uncovers a series of intriguing findings and interesting behaviors of VSSL methods. For instance, we observe that while video models generally struggle with context shifts, v-MAE and supervised learning exhibit more robustness. Moreover, our study shows that v-MAE is a strong temporal learner, whereas contrastive methods, v-SimCLR and v-MOCO, exhibit strong performances against viewpoint shifts. When studying the notion of open-set recognition, we notice a trade-off between closed-set and open-set recognition performance, particularly if the pretrained VSSL encoders are used without finetuning. We hope that our work will contribute to the development of robust video representation learning frameworks for various real-world scenarios. | 翻訳日:2023-06-06 20:44:48 公開日:2023-06-03 |
# 変圧器におけるマルチヘッド注意の記憶能力 Memorization Capacity of Multi-Head Attention in Transformers ( http://arxiv.org/abs/2306.02010v1 ) ライセンス: Link先を確認 | Sadegh Mahdavi, Renjie Liao, Christos Thrampoulidis | (参考訳) 本稿では,トランスフォーマーにおける多頭部注意の記憶能力について検討する。
入力データに対する穏やかな線形独立性仮定の下で、文脈サイズ$n$、次元$d$、および$o(hd^2)$パラメータを持つ$h$-headの注意層が$o(hn)$の例を記憶できることを理論的に示す。
視覚変換器を用いて画像分類タスクの仮定を検証する実験を行った。
理論的知見を検証するために, 合成実験を行い, 記憶能力と注意頭数との線形関係を示す。 In this paper, we investigate the memorization capabilities of multi-head attention in Transformers, motivated by the central role attention plays in these models. Under a mild linear independence assumption on the input data, we present a theoretical analysis demonstrating that an $H$-head attention layer with a context size $n$, dimension $d$, and $O(Hd^2)$ parameters can memorize $O(Hn)$ examples. We conduct experiments that verify our assumptions on the image classification task using Vision Transformer. To validate our theoretical findings, we perform synthetic experiments and show a linear relationship between memorization capacity and the number of attention heads. | 翻訳日:2023-06-06 20:44:20 公開日:2023-06-03 |
# MA2CL:マルチエージェント強化学習のためのマスク付き注意コントラスト学習 MA2CL:Masked Attentive Contrastive Learning for Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2306.02006v1 ) ライセンス: Link先を確認 | Haolin Song, Mingxiao Feng, Wengang Zhou, Houqiang Li | (参考訳) 近年, 自己指導型補助課題を表現学習として活用し, 視覚に基づく強化学習アルゴリズムの性能向上とサンプル効率の向上を図っている。
しかし,マルチエージェント強化学習(marl)では,各エージェントが他者の影響を受ける環境からのみ部分的観察を受けるため,エージェント次元の相関観測が困難となる。
したがって,MARLの表現学習においてエージェントレベルの情報を考慮する必要がある。
本稿では,潜在空間におけるマスキングエージェント観測を再構成することにより,学習表現を時間的およびエージェントレベルで予測することを奨励する,効果的なフレームワークである \textbf{m}ulti-\textbf{a}gent \textbf{m}asked \textbf{a}ttentive \textbf{c}ontrastive \textbf{l}earning (ma2cl)を提案する。
具体的には,注意リコンストラクションモデルを用いてリカバリを行い,コントラスト学習によりモデルを訓練する。
MA2CLは、エージェントレベルでのコンテキスト情報のより良い利用を可能にし、協調作業のためのMARLエージェントのトレーニングを容易にする。
広汎な実験により,本手法は様々なMARLアルゴリズムの性能とサンプル効率を著しく向上し,様々な視覚的,状態的シナリオにおいて他の手法よりも優れることが示された。
我々のコードは \url{https://github.com/ustchlsong/MA2CL} にある。 Recent approaches have utilized self-supervised auxiliary tasks as representation learning to improve the performance and sample efficiency of vision-based reinforcement learning algorithms in single-agent settings. However, in multi-agent reinforcement learning (MARL), these techniques face challenges because each agent only receives partial observation from an environment influenced by others, resulting in correlated observations in the agent dimension. So it is necessary to consider agent-level information in representation learning for MARL. In this paper, we propose an effective framework called \textbf{M}ulti-\textbf{A}gent \textbf{M}asked \textbf{A}ttentive \textbf{C}ontrastive \textbf{L}earning (MA2CL), which encourages learning representation to be both temporal and agent-level predictive by reconstructing the masked agent observation in latent space. Specifically, we use an attention reconstruction model for recovering and the model is trained via contrastive learning. MA2CL allows better utilization of contextual information at the agent level, facilitating the training of MARL agents for cooperation tasks. Extensive experiments demonstrate that our method significantly improves the performance and sample efficiency of different MARL algorithms and outperforms other methods in various vision-based and state-based scenarios. Our code can be found in \url{https://github.com/ustchlsong/MA2CL} | 翻訳日:2023-06-06 20:44:05 公開日:2023-06-03 |
# 大規模モデル推論のための最適キャッシングとモデル多重化について On Optimal Caching and Model Multiplexing for Large Model Inference ( http://arxiv.org/abs/2306.02003v1 ) ライセンス: Link先を確認 | Banghua Zhu, Ying Sheng, Lianmin Zheng, Clark Barrett, Michael I. Jordan, Jiantao Jiao | (参考訳) 大きな言語モデル(LLM)や他の大きな基盤モデルは注目すべき成功を収めているが、そのサイズは既存のリソース消費とレイテンシーの問題を悪化させている。
特に、これらのモデルの大規模展開は、推論中の重要なリソース要求によって妨げられます。
本稿では,これらの課題を緩和するための2つのアプローチについて検討する。従来のクエリをキャッシュで格納し,クエリ処理のモデル群から選択するモデル多重化を学習する。
理論的には、オフラインとオンラインの両方の表表設定における推論コストを削減するために、両方のアプローチを協調的に最適化する最適なアルゴリズムを提供する。
キャッシュアルゴリズム、すなわちGreedy Dual Size with Frequency(GDSF)またはLeast expecteded Cost(LEC)をモデル多重化器と組み合わせることで、オフラインおよびオンライン両方の設定で最適なレートを達成する。
シミュレーションにより、キャッシングとモデル多重化のアルゴリズムの組み合わせはベースラインよりも大幅に改善され、最大コストと最小コストの比率が100ドルである場合、ベースラインよりも最大50ドル以上改善されることが示された。
実際のデータセットの実験では、FLOPsの比率が10ドルである場合、FLOPsのベースラインに対する改善は4.3ドル、平均レイテンシの比率が1.85ドルである場合は1.8ドルである。 Large Language Models (LLMs) and other large foundation models have achieved noteworthy success, but their size exacerbates existing resource consumption and latency challenges. In particular, the large-scale deployment of these models is hindered by the significant resource requirements during inference. In this paper, we study two approaches for mitigating these challenges: employing a cache to store previous queries and learning a model multiplexer to choose from an ensemble of models for query processing. Theoretically, we provide an optimal algorithm for jointly optimizing both approaches to reduce the inference cost in both offline and online tabular settings. By combining a caching algorithm, namely Greedy Dual Size with Frequency (GDSF) or Least Expected Cost (LEC), with a model multiplexer, we achieve optimal rates in both offline and online settings. Empirically, simulations show that the combination of our caching and model multiplexing algorithms greatly improves over the baselines, with up to $50\times$ improvement over the baseline when the ratio between the maximum cost and minimum cost is $100$. Experiments on real datasets show a $4.3\times$ improvement in FLOPs over the baseline when the ratio for FLOPs is $10$, and a $1.8\times$ improvement in latency when the ratio for average latency is $1.85$. | 翻訳日:2023-06-06 20:43:33 公開日:2023-06-03 |
# 関係抽出のための深層学習に関する包括的調査:最近の進歩と新たなフロンティア A Comprehensive Survey on Deep Learning for Relation Extraction: Recent Advances and New Frontiers ( http://arxiv.org/abs/2306.02051v1 ) ライセンス: Link先を確認 | Zhao Xiaoyan, Deng Yang, Yang Min, Wang Lingzhi, Zhang Rui, Cheng Hong, Lam Wai, Shen Ying, Xu Ruifeng | (参考訳) 関係抽出(RE)は、非構造化テキストからエンティティ間の関係を識別する。
REは知識グラフ補完、質問応答、情報検索など、多くの自然言語処理(NLP)アプリケーションの基礎として機能する。
近年、深層ニューラルネットワークがREの分野を支配し、顕著な進歩を遂げている。
その後、大規模な事前訓練言語モデル(PLM)がREの最先端を新たなレベルに引き上げた。
この調査は、REのための既存のディープラーニング技術に関する包括的なレビューを提供する。
まず,再データセットと評価指標を含む再資源を紹介する。
次に,既存の作品をテキスト表現,コンテキストエンコーディング,トリプレット予測という3つの視点から分類する新しい分類法を提案する。
第3に、REが直面しているいくつかの重要な課題について議論し、これらの課題に取り組むための潜在的テクニックを要約する。
最後に,この分野の今後の方向性と展望について概説する。
この調査は、リアルタイムREシステムの課題に取り組む研究者の協力活動を促進することが期待されている。 Relation extraction (RE) involves identifying the relations between entities from unstructured texts. RE serves as the foundation for many natural language processing (NLP) applications, such as knowledge graph completion, question answering, and information retrieval. In recent years, deep neural networks have dominated the field of RE and made noticeable progress. Subsequently, the large pre-trained language models (PLMs) have taken the state-of-the-art of RE to a new level. This survey provides a comprehensive review of existing deep learning techniques for RE. First, we introduce RE resources, including RE datasets and evaluation metrics. Second, we propose a new taxonomy to categorize existing works from three perspectives (text representation, context encoding, and triplet prediction). Third, we discuss several important challenges faced by RE and summarize potential techniques to tackle these challenges. Finally, we outline some promising future directions and prospects in this field. This survey is expected to facilitate researchers' collaborative efforts to tackle the challenges of real-life RE systems. | 翻訳日:2023-06-06 20:35:42 公開日:2023-06-03 |
# 低品質マルチモーダルデータのための確率動的融合 Provable Dynamic Fusion for Low-Quality Multimodal Data ( http://arxiv.org/abs/2306.02050v1 ) ライセンス: Link先を確認 | Qingyang Zhang, Haitao Wu, Changqing Zhang, Qinghua Hu, Huazhu Fu, Joey Tianyi Zhou, Xi Peng | (参考訳) マルチモーダル融合の固有の課題は、クロスモーダル相関を正確に捉え、柔軟にクロスモーダル相互作用を実行することである。
各モダリティの値を完全に解放し、低品質のマルチモーダルデータの影響を軽減するために、有望な学習パラダイムとして動的マルチモーダル融合が出現する。
広く使われているにもかかわらず、この分野の理論的正当化はまだ顕著に欠けている。
実現可能なロバストなマルチモーダル融合法を設計できるか?
本稿では、一般化の観点から最もポピュラーなマルチモーダル融合フレームワークの下で、この問題に答える理論的理解を提供する。
我々は、堅牢なマルチモーダル融合を実現するために、いくつかの不確実性推定ソリューションが自然に利用可能であることを明らかにする。
そこで,QMF(Quality-Aware Multimodal Fusion)と呼ばれる新しいマルチモーダル融合フレームワークを提案する。
複数のベンチマークで大規模な実験結果が得られた。 The inherent challenge of multimodal fusion is to precisely capture the cross-modal correlation and flexibly conduct cross-modal interaction. To fully release the value of each modality and mitigate the influence of low-quality multimodal data, dynamic multimodal fusion emerges as a promising learning paradigm. Despite its widespread use, theoretical justifications in this field are still notably lacking. Can we design a provably robust multimodal fusion method? This paper provides theoretical understandings to answer this question under a most popular multimodal fusion framework from the generalization perspective. We proceed to reveal that several uncertainty estimation solutions are naturally available to achieve robust multimodal fusion. Then a novel multimodal fusion framework termed Quality-aware Multimodal Fusion (QMF) is proposed, which can improve the performance in terms of classification accuracy and model robustness. Extensive experimental results on multiple benchmarks can support our findings. | 翻訳日:2023-06-06 20:35:28 公開日:2023-06-03 |
# LambdaBeam: 高階関数とラムダによるニューラルプログラム検索 LambdaBeam: Neural Program Search with Higher-Order Functions and Lambdas ( http://arxiv.org/abs/2306.02049v1 ) ライセンス: Link先を確認 | Kensen Shi, Hanjun Dai, Wen-Ding Li, Kevin Ellis, Charles Sutton | (参考訳) 検索はプログラム合成において重要な技術であり、実行結果に基づいて特定の検索方向に焦点を当てるといった適応戦略を可能にする。
いくつかの先行研究は、ニューラルモデルがプログラム合成探索を導くのに有効であることを示した。
しかしながら、これらのアプローチの共通の欠点は、反復ループ、高階関数、あるいはラムダ関数を扱うことができないことである。
我々は、与えられたdsl内で操作を構成する任意のラムダ関数を構築できるlambdabeamと呼ばれる探索アルゴリズムを設計することで、このギャップに対処する。
我々は,ラムダ関数の実行動作に関する意味ベクトル表現を作成し,探索中に構築すべきラムダを選択するニューラルネットワークを訓練し,ループ計算を行うために高次関数に引数として渡す。
実験の結果,LambdaBeamは整数リスト操作領域において,ニューラル,シンボリック,LLMベースの手法よりも優れていた。 Search is an important technique in program synthesis that allows for adaptive strategies such as focusing on particular search directions based on execution results. Several prior works have demonstrated that neural models are effective at guiding program synthesis searches. However, a common drawback of those approaches is the inability to handle iterative loops, higher-order functions, or lambda functions, thus limiting prior neural searches from synthesizing longer and more general programs. We address this gap by designing a search algorithm called LambdaBeam that can construct arbitrary lambda functions that compose operations within a given DSL. We create semantic vector representations of the execution behavior of the lambda functions and train a neural policy network to choose which lambdas to construct during search, and pass them as arguments to higher-order functions to perform looping computations. Our experiments show that LambdaBeam outperforms neural, symbolic, and LLM-based techniques in an integer list manipulation domain. | 翻訳日:2023-06-06 20:35:13 公開日:2023-06-03 |
# Painsight: オンライン顧客レビューに基づく痛み点検出のための拡張可能なオピニオンマイニングフレームワーク Painsight: An Extendable Opinion Mining Framework for Detecting Pain Points Based on Online Customer Reviews ( http://arxiv.org/abs/2306.02043v1 ) ライセンス: Link先を確認 | Yukyung Lee, Jaehee Kim, Doyoon Kim, Yookyung Kho, Younsun Kim, Pilsung Kang | (参考訳) 電子商取引市場が拡大し、オンライン取引が拡大するにつれ、顧客レビューは、見込み客の購入決定を形作る上で重要な要素となっている。
これまでの研究では、感情分析モデルやトピックモデルの開発を通じて、顧客レビューの重要な側面を特定する努力がなされてきた。
しかし、特定の不満因子の抽出は依然として困難な課題である。
本研究では,痛み点検出の問題点を整理し,接点ラベルに頼らずに,顧客レビューから異なる不満足要因を自動的に抽出する非教師付きフレームワークである painsight を提案する。
Painsightは、学習済みの言語モデルを使用して感情分析とトピックモデルを構築し、モデル勾配から派生した帰属スコアを利用して不満要素を抽出する。
提案手法を5つの製品カテゴリにまたがる顧客レビューデータに適用し、各グループ内の不満要因と、各タイプの孤立要因を特定し分類した。
特に、challengesightはベンチマーク手法を上回り、かなりの性能向上と人間の評価における例外的な結果を達成した。 As the e-commerce market continues to expand and online transactions proliferate, customer reviews have emerged as a critical element in shaping the purchasing decisions of prospective buyers. Previous studies have endeavored to identify key aspects of customer reviews through the development of sentiment analysis models and topic models. However, extracting specific dissatisfaction factors remains a challenging task. In this study, we delineate the pain point detection problem and propose Painsight, an unsupervised framework for automatically extracting distinct dissatisfaction factors from customer reviews without relying on ground truth labels. Painsight employs pre-trained language models to construct sentiment analysis and topic models, leveraging attribution scores derived from model gradients to extract dissatisfaction factors. Upon application of the proposed methodology to customer review data spanning five product categories, we successfully identified and categorized dissatisfaction factors within each group, as well as isolated factors for each type. Notably, Painsight outperformed benchmark methods, achieving substantial performance enhancements and exceptional results in human evaluations. | 翻訳日:2023-06-06 20:34:56 公開日:2023-06-03 |
# バイオメディカル情報抽出における翻訳の影響 Impact of translation on biomedical information extraction from real-life clinical notes ( http://arxiv.org/abs/2306.02042v1 ) ライセンス: Link先を確認 | Christel G\'erardin, Yuhan Xiong, Perceval Wajsb\"urt, Fabrice Carrat, Xavier Tannier | (参考訳) 本研究の目的は,翻訳におけるフランス語医学的概念の抽出と正規化に英語ツールを用いることで,注釈付きフランス語臨床ノートのセットで訓練されたフランス語モデルに匹敵する性能が得られるかどうかを判定することである。
フランス語モデルを含む方法と英語モデルを含む方法の2つの方法を比較した。
ネイティブフランス語では、名前付きエンティティ認識(ner)と正規化ステップを別々に行う。
英訳法では,第1段階の翻訳の後,抽出と正規化を同時に行う2段階法と用語指向法を比較した。
アルゴリズムのすべてのステップ(NER,正規化,翻訳)を評価するために,フランス語,英語,バイリンガルの注釈付きデータセットを使用した。
結果について,本手法は,2つの英語法に対して0.39 [0.34;0.44] と 0.38 [0.36;0.40] に対して,グローバル f1 スコア 0.51 [0.47;0.55] の翻訳英語よりも優れた結果を得た。
結論として,近年の翻訳モデルの改良にも拘わらず,アノテーション付き文書の少ないフランス医学文献においてもより効率的であるネイティブ・フランス法を支持する2つのアプローチには著しい性能差がみられた。 The objective of our study is to determine whether using English tools to extract and normalize French medical concepts on translations provides comparable performance to French models trained on a set of annotated French clinical notes. We compare two methods: a method involving French language models and a method involving English language models. For the native French method, the Named Entity Recognition (NER) and normalization steps are performed separately. For the translated English method, after the first translation step, we compare a two-step method and a terminology-oriented method that performs extraction and normalization at the same time. We used French, English and bilingual annotated datasets to evaluate all steps (NER, normalization and translation) of our algorithms. Concerning the results, the native French method performs better than the translated English one with a global f1 score of 0.51 [0.47;0.55] against 0.39 [0.34;0.44] and 0.38 [0.36;0.40] for the two English methods tested. In conclusion, despite the recent improvement of the translation models, there is a significant performance difference between the two approaches in favor of the native French method which is more efficient on French medical texts, even with few annotated documents. | 翻訳日:2023-06-06 20:34:37 公開日:2023-06-03 |
# 学術文章英語における認識的スタンステイクのスパン同定 Span Identification of Epistemic Stance-Taking in Academic Written English ( http://arxiv.org/abs/2306.02038v1 ) ライセンス: Link先を確認 | Masaki Eguchi and Kristopher Kyle | (参考訳) 語彙と文法を超えた言語使用を評価するための自動筆記評価(awe)システムの必要性の高まりに対応して(burstein et al., 2016)、学術英語文章におけるスタンスの修辞的特徴を識別するための新しいアプローチを提案する。
評価分析における談話分析の枠組み(Martin & White, 2005)に基づき,8つの修辞的スタンスカテゴリ(ProproCLAIM, ATTRIBUTIONなど)と追加の談話要素について4,688文(126,411トークン)を手作業で注釈した。
次に、これらのスタンス表現のスパンを特定し分類するために機械学習モデルを訓練する実験を報告する。
ベストパフォーマンスモデル(roberta + lstm)は、スタンステイク表現のスパン識別において .7208 のマクロ平均 f1 を達成し、裁定前の符号間信頼性推定をわずかに上回った(f1 = .6629)。 Responding to the increasing need for automated writing evaluation (AWE) systems to assess language use beyond lexis and grammar (Burstein et al., 2016), we introduce a new approach to identify rhetorical features of stance in academic English writing. Drawing on the discourse-analytic framework of engagement in the Appraisal analysis (Martin & White, 2005), we manually annotated 4,688 sentences (126,411 tokens) for eight rhetorical stance categories (e.g., PROCLAIM, ATTRIBUTION) and additional discourse elements. We then report an experiment to train machine learning models to identify and categorize the spans of these stance expressions. The best-performing model (RoBERTa + LSTM) achieved macro-averaged F1 of .7208 in the span identification of stance-taking expressions, slightly outperforming the intercoder reliability estimates before adjudication (F1 = .6629). | 翻訳日:2023-06-06 20:34:06 公開日:2023-06-03 |
# dos: 分散検出のための多様な外れ値サンプリング DOS: Diverse Outlier Sampling for Out-of-Distribution Detection ( http://arxiv.org/abs/2306.02031v1 ) ライセンス: Link先を確認 | Wenyu Jiang, Hao Cheng, Mingcai Chen, Chongjun Wang, Hongxin Wei | (参考訳) 現代のニューラルネットワークは、オープンワールドにデプロイされたときに、分散していない入力に対して自信過剰な予測を与えることが知られている。
トレーニング中にモデルを正規化するためにサロゲートアウトリアーデータセットを利用するのが一般的であり、最近の研究では、アウトリアーデータセットのサンプリング戦略の設計における不確実性の役割を強調している。
しかし、予測不確実性のみに基づいて選択されたOODサンプルは、特定のタイプに偏りがあり、完全な外れ値分布の取得に失敗する可能性がある。
本研究では,OOD検出性能の外れ値のサンプリングに多様性が重要であることを実証的に示す。
本研究の目的は,多種多様かつ情報的外乱を選択するためのDOS(Diverse Outlier Smpling)という,単純で斬新なサンプリング手法を提案することである。
具体的には、各イテレーションで正規化された特徴をクラスタ化し、各クラスタから最も有意義な外れ値を選択して、カテゴリ損失のないモデルトレーニングを行う。
DOSでは、サンプル出力はIDデータとOODデータの間のグローバルにコンパクトな決定境界を効率的に形成する。
大規模な実験はDOSの優位性を示し、TI-300KのCIFAR-100では平均FPR95を25.79%削減した。 Modern neural networks are known to give overconfident prediction for out-of-distribution inputs when deployed in the open world. It is common practice to leverage a surrogate outlier dataset to regularize the model during training, and recent studies emphasize the role of uncertainty in designing the sampling strategy for outlier dataset. However, the OOD samples selected solely based on predictive uncertainty can be biased towards certain types, which may fail to capture the full outlier distribution. In this work, we empirically show that diversity is critical in sampling outliers for OOD detection performance. Motivated by the observation, we propose a straightforward and novel sampling strategy named DOS (Diverse Outlier Sampling) to select diverse and informative outliers. Specifically, we cluster the normalized features at each iteration, and the most informative outlier from each cluster is selected for model training with absent category loss. With DOS, the sampled outliers efficiently shape a globally compact decision boundary between ID and OOD data. Extensive experiments demonstrate the superiority of DOS, reducing the average FPR95 by up to 25.79% on CIFAR-100 with TI-300K. | 翻訳日:2023-06-06 20:33:44 公開日:2023-06-03 |
# IoTネットワークにおける多UAV軌道計画のためのモデル支援フェデレーション強化学習 Model-aided Federated Reinforcement Learning for Multi-UAV Trajectory Planning in IoT Networks ( http://arxiv.org/abs/2306.02029v1 ) ライセンス: Link先を確認 | Jichao Chen, Omid Esrafilian, Harald Bayerlein, David Gesbert, and Marco Caccamo | (参考訳) 分散IoT(Internet of Things)デバイスからデータを収集するために、協調無人航空機(UAV)のチームが配置するには、効率的な軌道計画と調整アルゴリズムが必要である。
マルチエージェント強化学習(MARL)が有効なソリューションとして登場したが、多くの場合、広範囲でコストのかかる実世界のトレーニングデータを必要とする。
本稿では,環境に関する知識が限られたデータ収集ミッションにおいて,複数のuavを協調させ,実世界のトレーニングデータ要求を大幅に削減するモデル支援型フェデレーションmarlアルゴリズムを提案する。
提案アルゴリズムは,実環境計測から環境モデルを学ぶことと,シミュレーション環境におけるQMIX訓練とを交互に行う。
具体的には、実環境から収集した測定値を用いて、無線チャンネルを学習し、未知のIoTデバイス位置を推定し、シミュレーション環境を作成する。
各uavエージェントは、シミュレーション環境でローカルqmixモデルをトレーニングし、他のエージェントとの連合学習を通じて継続的に統合し、学習プロセスを加速し、さらにトレーニングサンプル効率を向上させる。
シミュレーションの結果,提案するモデル支援fedqmixアルゴリズムは,標準marlアルゴリズムと同様のデータ収集性能を実現しつつ,実世界のトレーニングエクスペリエンスを実質的に削減できることが示されている。 Deploying teams of cooperative unmanned aerial vehicles (UAVs) to harvest data from distributed Internet of Things (IoT) devices requires efficient trajectory planning and coordination algorithms. Multi-agent reinforcement learning (MARL) has emerged as an effective solution, but often requires extensive and costly real-world training data. In this paper, we propose a novel model-aided federated MARL algorithm to coordinate multiple UAVs on a data harvesting mission with limited knowledge about the environment, significantly reducing the real-world training data demand. The proposed algorithm alternates between learning an environment model from real-world measurements and federated QMIX training in the simulated environment. Specifically, collected measurements from the real-world environment are used to learn the radio channel and estimate unknown IoT device locations to create a simulated environment. Each UAV agent trains a local QMIX model in its simulated environment and continuously consolidates it through federated learning with other agents, accelerating the learning process and further improving training sample efficiency. Simulation results demonstrate that our proposed model-aided FedQMIX algorithm substantially reduces the need for real-world training experiences while attaining similar data collection performance as standard MARL algorithms. | 翻訳日:2023-06-06 20:33:19 公開日:2023-06-03 |
# クラスインクリメンタルセグメンテーションのための高効率多粒度知識再利用 Efficient Multi-Grained Knowledge Reuse for Class Incremental Segmentation ( http://arxiv.org/abs/2306.02027v1 ) ライセンス: Link先を確認 | Zhihe Lu, Shuicheng Yan, Xinchao Wang | (参考訳) クラスインクリメンタルセマンティックセマンティックセグメンテーション(CISS)は,近年,実世界のアプリケーションにおいて大きな意味を持つ傾向にある。
既存のCISS法は優れた性能を示すが、それらは低レベルの特徴において豊富な知識と多様な知識を無視しながらのみ高レベルの知識(機能)を活用し、古い知識の保存が貧弱で新しい知識探索が弱いか、あるいは重いバックボーンをトレーニングすることで知識の蒸留に多レベルの特徴を用いるかのどちらかである。
本稿では,凍結したバックボーンで多レベル機能を融合することにより,cissの多粒度知識を効率的に再利用し,様々なレベルの機能,すなわちナイーブな特徴ピラミッドを簡易に集約することで,パフォーマンスを著しく向上させる手法を提案する。
さらに,高次・低次特徴の融合を高密度相互作用により促進する新しい高密度相互作用型特徴ピラミッド (DEFY) モジュールを導入する。
具体的には、DEFYは機能マップのペア間のピクセル単位の関係を確立し、マルチペア出力を集約することができる。
これにより,多段階特徴の相補的情報を活用することでセマンティックセグメンテーションが向上する。
性能向上のための3つの代表的な手法にdefyを無益に統合できることを実証する。
提案手法は, PASCAL VOC 2012で2.5%, ADE20Kで2.3%, 広く使用されている2つのベンチマークにおいて, mIoUゲインの平均化により, 現在のSOTAと組み合わせることで, 新たな最先端性能が得られる。 Class Incremental Semantic Segmentation (CISS) has been a trend recently due to its great significance in real-world applications. Although the existing CISS methods demonstrate remarkable performance, they either leverage the high-level knowledge (feature) only while neglecting the rich and diverse knowledge in the low-level features, leading to poor old knowledge preservation and weak new knowledge exploration; or use multi-level features for knowledge distillation by retraining a heavy backbone, which is computationally intensive. In this paper, we for the first time propose to efficiently reuse the multi-grained knowledge for CISS by fusing multi-level features with the frozen backbone and show a simple aggregation of varying-level features, i.e., naive feature pyramid, can boost the performance significantly. We further introduce a novel densely-interactive feature pyramid (DEFY) module that enhances the fusion of high- and low-level features by enabling their dense interaction. Specifically, DEFY establishes a per-pixel relationship between pairs of feature maps, allowing for multi-pair outputs to be aggregated. This results in improved semantic segmentation by leveraging the complementary information from multi-level features. We show that DEFY can be effortlessly integrated into three representative methods for performance enhancement. Our method yields a new state-of-the-art performance when combined with the current SOTA by notably averaged mIoU gains on two widely used benchmarks, i.e., 2.5% on PASCAL VOC 2012 and 2.3% on ADE20K. | 翻訳日:2023-06-06 20:32:56 公開日:2023-06-03 |
# 正常サンプルを用いた異常検出のためのグローバル・ローカル情報探索 Exploring Global and Local Information for Anomaly Detection with Normal Samples ( http://arxiv.org/abs/2306.02025v1 ) ライセンス: Link先を確認 | Fan Xu, Nan Wang, Xibin Zhao | (参考訳) 異常検出は、通常のパターンに従わないデータを検出することを目的としており、そのようなデータはoutliersとも呼ばれる。
検出される異常はしばしば比率が小さく、重要な情報が含まれており、侵入検出、不正検出、障害診断、eコマースプラットフォームなどのアプリケーションシーンに適している。
しかし、多くの現実的なシナリオでは、通常の行動に従うサンプルのみが観察されるが、異常情報はほとんど得られない。
このような問題に対処するために,観測サンプルに基づいてグローバル情報とローカル情報を組み合わせた異常検出手法GALDetectorを提案する。
提案手法は三段階法に分類できる。
まず、グローバルな類似の正規スコアとラベルなしサンプルの局所空間スコアを別々に計算する。
次に、これらの2つのスコアに対応するラベルのないサンプルから電位異常サンプルを分離し、選択されたサンプルに対応する重量を割り当てる。
最後に、重み付き異常検出器はサンプルの負荷によって訓練され、検出器は他の異常を識別するために利用される。
提案手法の有効性を評価するために,様々な領域からの実世界のデータセットを3つのカテゴリに分けて実験を行い,実験により,他の最先端手法と比較して優れた性能が得られることを示した。 Anomaly detection aims to detect data that do not conform to regular patterns, and such data is also called outliers. The anomalies to be detected are often tiny in proportion, containing crucial information, and are suitable for application scenes like intrusion detection, fraud detection, fault diagnosis, e-commerce platforms, et al. However, in many realistic scenarios, only the samples following normal behavior are observed, while we can hardly obtain any anomaly information. To address such problem, we propose an anomaly detection method GALDetector which is combined of global and local information based on observed normal samples. The proposed method can be divided into a three-stage method. Firstly, the global similar normal scores and the local sparsity scores of unlabeled samples are computed separately. Secondly, potential anomaly samples are separated from the unlabeled samples corresponding to these two scores and corresponding weights are assigned to the selected samples. Finally, a weighted anomaly detector is trained by loads of samples, then the detector is utilized to identify else anomalies. To evaluate the effectiveness of the proposed method, we conducted experiments on three categories of real-world datasets from diverse domains, and experimental results show that our method achieves better performance when compared with other state-of-the-art methods. | 翻訳日:2023-06-06 20:32:25 公開日:2023-06-03 |
# 変圧器モデルを用いた条件付き生成チャットボット A Conditional Generative Chatbot using Transformer Model ( http://arxiv.org/abs/2306.02074v1 ) ライセンス: Link先を確認 | Nura Esfandiari, Kourosh Kiani, Razieh Rastgoo | (参考訳) チャットボットは、人間と機械との間のコミュニケーションツールとして機能し、人間の入力に基づいて適切な回答を達成する。
より最近のアプローチでは、生成的なチャットボットを構築するために自然言語処理とシーケンシャルモデルを組み合わせています。
これらのモデルの主な課題はシーケンシャルな性質であり、その結果はより正確ではない。
この課題に対処するために,条件付きワッサースタイン生成適応ネットワークとChatbotにおける応答生成のためのトランスフォーマーモデルを用いて,新しいエンドツーエンドアーキテクチャを提案する。
提案モデルの生成元は答えを生成するためのフルトランスモデルから構成される一方、識別器は変換器モデルのエンコーダ部のみを含み、次に分類器が続く。
我々の知る限りでは、生成型Chatbotがジェネレータと識別器モデルの両方に組込み変換器を用いて提案されたのはこれが初めてである。
変圧器モデルの並列計算に依拠して,提案モデルのコーネル・ムービー・ダイアログ・コーパスとchit-chatデータセットによる評価結果から,提案モデルが,評価指標の異なる最先端の代替品と比較して優れていることを確認した。 A Chatbot serves as a communication tool between a human user and a machine to achieve an appropriate answer based on the human input. In more recent approaches, a combination of Natural Language Processing and sequential models are used to build a generative Chatbot. The main challenge of these models is their sequential nature, which leads to less accurate results. To tackle this challenge, in this paper, a novel end-to-end architecture is proposed using conditional Wasserstein Generative Adversarial Networks and a transformer model for answer generation in Chatbots. While the generator of the proposed model consists of a full transformer model to generate an answer, the discriminator includes only the encoder part of a transformer model followed by a classifier. To the best of our knowledge, this is the first time that a generative Chatbot is proposed using the embedded transformer in both generator and discriminator models. Relying on the parallel computing of the transformer model, the results of the proposed model on the Cornell Movie-Dialog corpus and the Chit-Chat datasets confirm the superiority of the proposed model compared to state-of-the-art alternatives using different evaluation metrics. | 翻訳日:2023-06-06 20:26:16 公開日:2023-06-03 |
# DU-Shapley: 効率的なデータセット評価のためのShapley Value Proxy DU-Shapley: A Shapley Value Proxy for Efficient Dataset Valuation ( http://arxiv.org/abs/2306.02071v1 ) ライセンス: Link先を確認 | Felipe Garrido-Lucero and Benjamin Heymann and Maxime Vono and Patrick Loiseau and Vianney Perchet | (参考訳) 多くの機械学習問題では、個々のデータセットを他のデータセットに集約する際に、インクリメンタルゲインを定量化するためにデータセットのバリュエーションを実行する必要がある。
セマンティックな例として、データセットのバリュエーションは、共同学習とフェデレーション学習に活用され、複数のデータ所有者間でのデータ共有のためのインセンティブを生み出している。
Shapley値は最近、公式な公理的正当化のためにこの目標を達成するための原則的なツールとして提案されている。
その計算はしばしば指数時間を必要とするため、モンテカルロ積分に基づく標準的な近似戦略が検討されている。
しかし、そのような一般的な近似手法は、場合によっては高価である。
本稿では、データセット評価問題の構造に関する知識を活用し、より効率的なシェープ値推定器を考案する。
本稿では, 離散一様シャプリー(DU-Shapley, DU-Shapley)と呼ばれるシャプリー値の新たな近似法を提案する。
我々は、漸近的かつ非漸近的な理論的保証を通じて提案フレームワークの妥当性を正当化し、データ所有者数が大きければ、DU-ShapleyがShapley値の傾向を示す。
提案フレームワークのメリットは、最終的にいくつかのデータセット評価ベンチマークで説明されている。
DU-Shapleyは、データ所有者の数が少ない場合でも、他のShapley値近似よりも優れている。 Many machine learning problems require performing dataset valuation, i.e. to quantify the incremental gain, to some relevant pre-defined utility, of aggregating an individual dataset to others. As seminal examples, dataset valuation has been leveraged in collaborative and federated learning to create incentives for data sharing across several data owners. The Shapley value has recently been proposed as a principled tool to achieve this goal due to formal axiomatic justification. Since its computation often requires exponential time, standard approximation strategies based on Monte Carlo integration have been considered. Such generic approximation methods, however, remain expensive in some cases. In this paper, we exploit the knowledge about the structure of the dataset valuation problem to devise more efficient Shapley value estimators. We propose a novel approximation of the Shapley value, referred to as discrete uniform Shapley (DU-Shapley) which is expressed as an expectation under a discrete uniform distribution with support of reasonable size. We justify the relevancy of the proposed framework via asymptotic and non-asymptotic theoretical guarantees and show that DU-Shapley tends towards the Shapley value when the number of data owners is large. The benefits of the proposed framework are finally illustrated on several dataset valuation benchmarks. DU-Shapley outperforms other Shapley value approximations, even when the number of data owners is small. | 翻訳日:2023-06-06 20:25:55 公開日:2023-06-03 |
# MultiLegalPile: 689GBの多言語法的コーパス MultiLegalPile: A 689GB Multilingual Legal Corpus ( http://arxiv.org/abs/2306.02069v1 ) ライセンス: Link先を確認 | Joel Niklaus, Veton Matoshi, Matthias St\"urmer, Ilias Chalkidis, Daniel E. Ho | (参考訳) 大規模で高品質なデータセットは \acp{LLM} のトレーニングに不可欠である。
しかし、今のところ、法のような専門的な重要なドメインで利用可能なデータセットはほとんどなく、利用可能なデータセットは英語のみに限られることが多い。
我々は17の管轄区域から24の言語で689GBのコーパスであるtextsc{MultiLegalPile}をキュレートしてリリースする。
様々なライセンスを持つ様々な法的データソースを含む \textsc{MultiLegalPile} コーパスは、ユーレックスリソースと法務mC4サブセットのより寛容なライセンスで、公正な使用の下でNLPモデルを事前訓練することができる。
2つのrobertaモデルと1つのlongformer多言語モデルと24個の単言語モデルをそれぞれ言語固有のサブセットで事前学習し,lextremeで評価した。
さらに、LexGLUE上での英語および多言語モデルの評価を行った。
我々の多言語モデルは、LEXTREME上の新しいSotAとLexGLUE上の英語モデルを設定した。
私たちはデータセット、トレーニングされたモデル、そして最もオープンなライセンスの下ですべてのコードをリリースします。 Large, high-quality datasets are crucial for training \acp{LLM}. However, so far, there are few datasets available for specialized critical domains such as law and the available ones are often only for the English language. We curate and release \textsc{MultiLegalPile}, a 689GB corpus in 24 languages from 17 jurisdictions. The \textsc{MultiLegalPile} corpus, which includes diverse legal data sources with varying licenses, allows for pretraining NLP models under fair use, with more permissive licenses for the Eurlex Resources and Legal mC4 subsets. We pretrain two RoBERTa models and one Longformer multilingually, and 24 monolingual models on each of the language-specific subsets and evaluate them on LEXTREME. Additionally, we evaluate the English and multilingual models on LexGLUE. Our multilingual models set a new SotA on LEXTREME and our English models on LexGLUE. We release the dataset, the trained models, and all of the code under the most open possible licenses. | 翻訳日:2023-06-06 20:25:33 公開日:2023-06-03 |
# 変分ガウス過程拡散過程 Variational Gaussian Process Diffusion Processes ( http://arxiv.org/abs/2306.02066v1 ) ライセンス: Link先を確認 | Prakhar Verma, Vincent Adam, Arno Solin | (参考訳) 拡散過程は、動的モデリングタスクで自然に発生する豊かな表現型モデル群を提供する確率微分方程式(sdes)のクラスである。
非線型拡散過程が先行する潜在過程を持つ生成モデルの下での確率的推論と学習は難解な問題である。
我々は,後続過程を線形拡散過程として近似する変分推論を基礎とし,そのアプローチの病理を指摘し,連続的な指数関数的家族記述を用いたガウス変分過程の代替パラメータ化を提案する。
これにより、自然な勾配降下に類似した高速な凸最適化のための高速なアルゴリズムに対して、固定点反復と遅い推論アルゴリズムを交換することができ、モデルパラメータの学習により良い目的を提供することができる。 Diffusion processes are a class of stochastic differential equations (SDEs) providing a rich family of expressive models that arise naturally in dynamic modelling tasks. Probabilistic inference and learning under generative models with latent processes endowed with a non-linear diffusion process prior are intractable problems. We build upon work within variational inference approximating the posterior process as a linear diffusion process, point out pathologies in the approach, and propose an alternative parameterization of the Gaussian variational process using a continuous exponential family description. This allows us to trade a slow inference algorithm with fixed-point iterations for a fast algorithm for convex optimization akin to natural gradient descent, which also provides a better objective for the learning of model parameters. | 翻訳日:2023-06-06 20:25:14 公開日:2023-06-03 |
# flight over learning trap:プログレッシブステージトレーニングによる理解不能なサンプルの学習 Flew Over Learning Trap: Learn Unlearnable Samples by Progressive Staged Training ( http://arxiv.org/abs/2306.02064v1 ) ライセンス: Link先を確認 | Pucheng Dang, Xing Hu, Kaidi Xu, Jinhao Duan, Di Huang, Husheng Han, Rui Zhang, Zidong Du, Qi Guo, Yunji Chen | (参考訳) 公開のためのデータに知覚不可能な摂動を加えることにより、第三者が未許可データを利用するのを防ぐために、未学習技術が提案されている。
これらの学習不可能なサンプルは、摂動特徴を学習するが、画像の意味的特徴を無視するモデルトレーニングを効果的に誤解する。
深層解析を行い,未学習サンプルの画像特徴と摂動特徴の両方を早期に学習するが,浅層が摂動特徴に過度に適合し,モデルが急速に過度に収まる傾向にあるため,急速に過度に適応する。
そこで本研究では,学習の摂動特性が過剰に収まるのを効果的に防止するプログレッシブステージトレーニングを提案する。
我々は,CIFAR-10,CIFAR-100,ImageNet-miniなどの多様なデータセット上で,複数のモデルアーキテクチャについて評価を行った。
本手法は文献におけるすべての最先端手法の学習不能を回避し,学習不能手法のさらなる評価のための信頼性の高いベースラインを提供する。 Unlearning techniques are proposed to prevent third parties from exploiting unauthorized data, which generate unlearnable samples by adding imperceptible perturbations to data for public publishing. These unlearnable samples effectively misguide model training to learn perturbation features but ignore image semantic features. We make the in-depth analysis and observe that models can learn both image features and perturbation features of unlearnable samples at an early stage, but rapidly go to the overfitting stage since the shallow layers tend to overfit on perturbation features and make models fall into overfitting quickly. Based on the observations, we propose Progressive Staged Training to effectively prevent models from overfitting in learning perturbation features. We evaluated our method on multiple model architectures over diverse datasets, e.g., CIFAR-10, CIFAR-100, and ImageNet-mini. Our method circumvents the unlearnability of all state-of-the-art methods in the literature and provides a reliable baseline for further evaluation of unlearnable techniques. | 翻訳日:2023-06-06 20:25:02 公開日:2023-06-03 |
# 拡散モデルにおける生成過程の最適選択:正規対確率微分方程式 Exploring the Optimal Choice for Generative Processes in Diffusion Models: Ordinary vs Stochastic Differential Equations ( http://arxiv.org/abs/2306.02063v1 ) ライセンス: Link先を確認 | Yu Cao, Jingrun Chen, Yixin Luo, Xiang Zhou | (参考訳) 拡散モデルはコンピュータビジョンにおいて顕著な成功を収めてきたが、ODEベースの確率フローやSDEベースの拡散モデルの方が優れているか、どのような状況下かは定かではない。
この2つを比較するのは、データ分散、スコアトレーニング、その他の数値的要因に依存するため、難しい。
本稿では,ODEの場合と大きな拡散の場合の2つの制限シナリオを数学的に検討する。
まず、スコア関数を摂動させ、任意の誤差に一般化した誤差蓄積を分析するパルス型誤差を導入する。
その結果, 生成過程の終端に摂動が発生すると, ODEモデルはSDEモデルより優れ(拡散係数が大きい)ことが示唆された。
しかし、より早く摂動が発生した場合、SDEモデルはODEモデルより優れ、拡散項の大きさが無限大になるにつれて、パルス形状誤差によるサンプル生成の誤差を指数関数的に抑制できることを示す。
この現象の数値検証は、ガウシアン、ガウシアン混合モデル、スイスロールのようなおもちゃモデルを用いて行われる。
最後に,mnistを用いて実験を行い,スコア関数が十分に訓練されていない場合でも,拡散係数の変動がサンプル品質を向上させることを確かめた。 The diffusion model has shown remarkable success in computer vision, but it remains unclear whether ODE-based probability flow or SDE-based diffusion models are superior and under what circumstances. Comparing the two is challenging due to dependencies on data distribution, score training, and other numerical factors. In this paper, we examine the problem mathematically by examining two limiting scenarios: the ODE case and the large diffusion case. We first introduce a pulse-shape error to perturb the score function and analyze error accumulation, with a generalization to arbitrary error. Our findings indicate that when the perturbation occurs at the end of the generative process, the ODE model outperforms the SDE model (with a large diffusion coefficient). However, when the perturbation occurs earlier, the SDE model outperforms the ODE model, and we demonstrate that the error of sample generation due to pulse-shape error can be exponentially suppressed as the diffusion term's magnitude increases to infinity. Numerical validation of this phenomenon is provided using toy models such as Gaussian, Gaussian mixture models, and Swiss roll. Finally, we experiment with MNIST and observe that varying the diffusion coefficient can improve sample quality even when the score function is not well trained. | 翻訳日:2023-06-06 20:24:40 公開日:2023-06-03 |
# 長尾意味セグメンテーションにおけるロジット変動のバランス Balancing Logit Variation for Long-tailed Semantic Segmentation ( http://arxiv.org/abs/2306.02061v1 ) ライセンス: Link先を確認 | Yuchao Wang, Jingjing Fei, Haochen Wang, Wei Li, Tianpeng Bao, Liwei Wu, Rui Zhao, Yujun Shen | (参考訳) セマンティックセグメンテーションは通常、長い尾のデータ分布に悩まされる。
カテゴリにまたがるサンプル数が不均衡であるため、これらのテールクラスの特徴は、特徴空間の狭い領域に絞り込まれる可能性がある。
バランスの取れた特徴分布に向けて,学習段階でネットワーク予測にカテゴリ毎の変動を導入することにより,インスタンスがもはや特徴点ではなく,小さな領域に投影されるようにした。
このような摂動はカテゴリスケールに大きく依存しており、ヘッドクラスに小さな変化を割り当て、テールクラスにより大きな変化を割り当てているように見える。
このようにして、異なるカテゴリの特徴領域間のギャップを埋めることができ、結果としてよりバランスの取れた表現が得られる。
導入した変分が推論段階で破棄され、確実な予測が容易になる点が注目に値する。
恥ずかしいほど単純な実装ではあるものの、本手法は様々なデータセットやタスク設定に対して強い一般化性を示す。
広範な実験から、私たちのプラグイン設計は最先端のアプローチに適しており、その上のパフォーマンスを向上していることが示唆されます。 Semantic segmentation usually suffers from a long-tail data distribution. Due to the imbalanced number of samples across categories, the features of those tail classes may get squeezed into a narrow area in the feature space. Towards a balanced feature distribution, we introduce category-wise variation into the network predictions in the training phase such that an instance is no longer projected to a feature point, but a small region instead. Such a perturbation is highly dependent on the category scale, which appears as assigning smaller variation to head classes and larger variation to tail classes. In this way, we manage to close the gap between the feature areas of different categories, resulting in a more balanced representation. It is noteworthy that the introduced variation is discarded at the inference stage to facilitate a confident prediction. Although with an embarrassingly simple implementation, our method manifests itself in strong generalizability to various datasets and task settings. Extensive experiments suggest that our plug-in design lends itself well to a range of state-of-the-art approaches and boosts the performance on top of them. | 翻訳日:2023-06-06 20:24:17 公開日:2023-06-03 |
# デジタルアナログ量子コンピューティングにおける量子アニーリングの強化 Enhancing Quantum Annealing in Digital-Analog Quantum Computing ( http://arxiv.org/abs/2306.02059v1 ) ライセンス: Link先を確認 | Tadashi Kadowaki | (参考訳) デジタルアナログ量子コンピューティング(DAQC)は、実用的な量子コンピュータを構築する際の課題に対処するための有望なアプローチを提供する。
デジタル回路とアナログ量子回路のリソースを効率的に割り当てることで、daqcは最適な性能を達成する方法を模索している。
量子アニーリングの性能を向上させるアルゴリズムを提案する。
この方法は量子ゲートを用いて最終アニーリング状態の良さを推定し、組合せ最適化問題の基底状態を求める。
我々は,量子アニーリング回路をdaqcフレームワークに統合する2つの戦略について検討する。(1)状態準備,(2)量子ゲートへの埋め込みである。
前者の戦略は性能改善には至らないが、後者は特定のアニーリング時間内に性能を高めることを発見した。
性能向上を示すアルゴリズムは、異なる量子アニール設定から2つの状態の内積の想像的部分を利用する。
この測度は古典的なコスト関数のエネルギーだけでなく、量子力学の軌道も反映している。
本研究では,量子回路を用いた量子データ処理が古典的データ処理より優れていることを示す。 Digital-analog quantum computing (DAQC) offers a promising approach to addressing the challenges of building a practical quantum computer. By efficiently allocating resources between digital and analog quantum circuits, DAQC paves the way for achieving optimal performance. We propose an algorithm designed to enhance the performance of quantum annealing. This method employs a quantum gate to estimate the goodness of the final annealing state and find the ground state of combinatorial optimization problems. We explore two strategies for integrating the quantum annealing circuit into the DAQC framework: (1) for state preparation, and (2) for embedding within the quantum gate. While the former strategy does not yield performance improvements, we discover that the latter enhances performance within a specific range of annealing time. Algorithms demonstrating enhanced performance utilize the imaginary part of the inner product of two states from different quantum annealing settings. This measure reflects not only the energy of the classical cost function but also the trajectory of the quantum dynamics. This study provides an example of how processing quantum data using a quantum circuit can outperform classical data processing, which discards quantum information. | 翻訳日:2023-06-06 20:23:58 公開日:2023-06-03 |
# X線イメージング、MRI、核イメージングの事例研究 Case Studies on X-Ray Imaging, MRI and Nuclear Imaging ( http://arxiv.org/abs/2306.02055v1 ) ライセンス: Link先を確認 | Shuvra Sarker, Angona Biswas, MD Abdullah Al Nasim, Md Shahin Ali, Sai Puppala, Sajedul Talukder | (参考訳) 医療イメージングの分野は医学において必須の分野であり、体内組織や臓器の画像を撮影するために様々な形態の放射線が関与している。
これらの画像は臨床診断に不可欠であり,本章では重篤な疾患の診断におけるx線,mri,核画像の利用について検討する。
しかし、これらの画像の手動による評価と保存は困難で時間がかかる。
この問題に対処するために、人工知能(ai)ベースの技術、特にディープラーニング(dl)は、画像モダリティから体系的な特徴抽出と分類にますます普及し、医師の迅速かつ正確な診断を支援する。
本稿では,aiベースのアプローチ,特に畳み込みニューラルネットワーク(cnn)を用いて,医療画像技術による疾患検出を支援する方法について注目する。
CNNは生の入力画像から特徴を抽出する能力から画像解析において一般的に用いられる手法であり,本研究の主要な議論領域となる。
そこで本研究では,CNNを医療画像技術を用いた疾患診断分野として検討している。 The field of medical imaging is an essential aspect of the medical sciences, involving various forms of radiation to capture images of the internal tissues and organs of the body. These images provide vital information for clinical diagnosis, and in this chapter, we will explore the use of X-ray, MRI, and nuclear imaging in detecting severe illnesses. However, manual evaluation and storage of these images can be a challenging and time-consuming process. To address this issue, artificial intelligence (AI)-based techniques, particularly deep learning (DL), have become increasingly popular for systematic feature extraction and classification from imaging modalities, thereby aiding doctors in making rapid and accurate diagnoses. In this review study, we will focus on how AI-based approaches, particularly the use of Convolutional Neural Networks (CNN), can assist in disease detection through medical imaging technology. CNN is a commonly used approach for image analysis due to its ability to extract features from raw input images, and as such, will be the primary area of discussion in this study. Therefore, we have considered CNN as our discussion area in this study to diagnose ailments using medical imaging technology. | 翻訳日:2023-06-06 20:23:41 公開日:2023-06-03 |
# 対立、悪役、解決:物語メディアフレーミングのモデルに向けて Conflicts, Villains, Resolutions: Towards models of Narrative Media Framing ( http://arxiv.org/abs/2306.02052v1 ) ライセンス: Link先を確認 | Lea Frermann, Jiatong Li, Shima Khanehzar, Gosia Mikolajczak | (参考訳) nlpにおけるメディアフレームの自動検出への関心は高まっているが、問題は典型的にはシングルラベル分類として単純化され、フレームに関するトピックライクな視点を採用し、より広範な文書レベルの物語をモデル化することを避けている。
本研究では,コミュニケーション科学におけるフラーミングの概念化を再考し,対立や解決を含む物語の要素を明示的に捉え,ヒーローや被害者,悪役として物語の重要な実体のフラーミングと統合する。
我々は、複雑なアノテーションタスクを一連の単純な二分問題に分解する効果的なアノテーションパラダイムを適応し、英語ニュース記事の注釈付きデータセットと、政治分野のニュースメディアからの記事における気候変動のフレーミングに関するケーススタディを提示する。
最後に,教師付きおよび半教師付きアプローチによるフレームの自動マルチラベル予測について検討し,その予測において有効かつ透明な検索ベース手法を提案する。
ナラティブフレーミングの文書レベルモデルに関する今後の作業の機会と課題を議論して締めくくった。 Despite increasing interest in the automatic detection of media frames in NLP, the problem is typically simplified as single-label classification and adopts a topic-like view on frames, evading modelling the broader document-level narrative. In this work, we revisit a widely used conceptualization of framing from the communication sciences which explicitly captures elements of narratives, including conflict and its resolution, and integrate it with the narrative framing of key entities in the story as heroes, victims or villains. We adapt an effective annotation paradigm that breaks a complex annotation task into a series of simpler binary questions, and present an annotated data set of English news articles, and a case study on the framing of climate change in articles from news outlets across the political spectrum. Finally, we explore automatic multi-label prediction of our frames with supervised and semi-supervised approaches, and present a novel retrieval-based method which is both effective and transparent in its predictions. We conclude with a discussion of opportunities and challenges for future work on document-level models of narrative framing. | 翻訳日:2023-06-06 20:23:22 公開日:2023-06-03 |
# 複雑な実世界の安全工場検査に向けて:安全服とヘルメット検出のための高品質データセット Towards Complex Real-World Safety Factory Inspection: A High-Quality Dataset for Safety Clothing and Helmet Detection ( http://arxiv.org/abs/2306.02098v1 ) ライセンス: Link先を確認 | Fusheng Yu, Xiaoping Wang, Jiang Li, Shaojin Wu, Junjie Zhang, Zhigang Zeng | (参考訳) 安全服やヘルメットは、建設現場で労働者の安全を確保する上で重要な役割を担っている。
近年, 深層学習手法は, コンピュータビジョンの分野において, 各種産業の安全性と効率を高める可能性において, 重要な注目を集めている。
しかし、高品質なデータセットの可用性の制限は、安全服とヘルメット検出のためのディープラーニング手法の開発を妨げている。
本研究では,実世界の化学プラントから収集した安全服とヘルメット検出のための大規模かつ包括的で現実的な高品質データセットを,専門家のセキュリティインスペクタによって注釈付で提示する。
我々のデータセットは、既存のいくつかのオープンソースデータセットと比較され、その有効性は、いくつかの古典的なオブジェクト検出方法を用いて検証されている。
結果は、データセットがより完全であり、現実世界の設定でパフォーマンスが良いことを示している。
さらに、当社のデータセットの採用を奨励し、ワーカーの安全性を向上するために、デプロイメントコードを一般公開しました。
我々は,我々の努力が学術研究と産業の収束を促進し,最終的に社会の改善に寄与することを願っている。 Safety clothing and helmets play a crucial role in ensuring worker safety at construction sites. Recently, deep learning methods have garnered significant attention in the field of computer vision for their potential to enhance safety and efficiency in various industries. However, limited availability of high-quality datasets has hindered the development of deep learning methods for safety clothing and helmet detection. In this work, we present a large, comprehensive, and realistic high-quality dataset for safety clothing and helmet detection, which was collected from a real-world chemical plant and annotated by professional security inspectors. Our dataset has been compared with several existing open-source datasets, and its effectiveness has been verified applying some classic object detection methods. The results demonstrate that our dataset is more complete and performs better in real-world settings. Furthermore, we have released our deployment code to the public to encourage the adoption of our dataset and improve worker safety. We hope that our efforts will promote the convergence of academic research and industry, ultimately contribute to the betterment of society. | 翻訳日:2023-06-06 20:15:48 公開日:2023-06-03 |
# 視覚トランスフォーマーを用いた効率的な意味セグメンテーションのためのコンテンツ認識トークン共有 Content-aware Token Sharing for Efficient Semantic Segmentation with Vision Transformers ( http://arxiv.org/abs/2306.02095v1 ) ライセンス: Link先を確認 | Chenyang Lu, Daan de Geus, Gijs Dubbelman | (参考訳) 本稿では、視覚変換器(ViT)を用いたセマンティックセグメンテーションネットワークの計算効率を向上させるトークン削減手法であるCTS(Content-Aware Token Sharing)を提案する。
既存の研究では,ViTに基づく画像分類ネットワークの効率向上のためにトークン削減手法が提案されているが,これらの手法はセマンティックセグメンテーションに直接適用されない。
セマンティックセグメンテーションでは,複数のイメージパッチが冗長な情報を含むため,同じセマンティッククラスを含む場合,トークンを共有することができる。
このアプローチでは,イメージパッチに同じセマンティッククラスが含まれているかどうかを予測し,トークンを共有可能にする,効率的でクラスに依存しないポリシネットワークを活用する。
実験により、CTSの重要な設計選択について検討し、ADE20K、Pascal Context、Cityscapesデータセット、様々なViTバックボーン、異なるセグメンテーションデコーダでの有効性を示す。
コンテンツ対応トークン共有により,セグメンテーション品質を低下させることなく,処理されたトークンの数を最大44%削減することができる。 This paper introduces Content-aware Token Sharing (CTS), a token reduction approach that improves the computational efficiency of semantic segmentation networks that use Vision Transformers (ViTs). Existing works have proposed token reduction approaches to improve the efficiency of ViT-based image classification networks, but these methods are not directly applicable to semantic segmentation, which we address in this work. We observe that, for semantic segmentation, multiple image patches can share a token if they contain the same semantic class, as they contain redundant information. Our approach leverages this by employing an efficient, class-agnostic policy network that predicts if image patches contain the same semantic class, and lets them share a token if they do. With experiments, we explore the critical design choices of CTS and show its effectiveness on the ADE20K, Pascal Context and Cityscapes datasets, various ViT backbones, and different segmentation decoders. With Content-aware Token Sharing, we are able to reduce the number of processed tokens by up to 44%, without diminishing the segmentation quality. | 翻訳日:2023-06-06 20:15:31 公開日:2023-06-03 |
# Segment Anything - セマンティックコミュニケーション Segment Anything Meets Semantic Communication ( http://arxiv.org/abs/2306.02094v1 ) ライセンス: Link先を確認 | Shehbaz Tariq, Brian Estadimas Arfeto, Chaoning Zhang, Hyundong Shin | (参考訳) 送信率を高める従来の手法のリターンが低下していることを踏まえ、セマンティックコミュニケーションの領域は新しいフロンティアを約束する。
本稿では,画像伝達に着目した基礎モデル,特にMeta AI Researchが開発したSegment Anything Model(SAM)のセマンティックコミュニケーション改善への応用について検討する。
SAMは、明示的なトレーニングやドメイン固有の知識を使わずにゼロショットセグメンテーションタスクを実行する能力に注目されている。
SAMのセグメンテーション機能と、セマンティックコーディングのための軽量ニューラルネットワークアーキテクチャを用いて、セマンティックコミュニケーションの実践的アプローチを提案する。
提案手法は重要な意味的特徴を保ち,画像再構成品質の向上と通信オーバーヘッドの低減を図っている。
この実用的なソリューションは、セグメンテーションモデルのトレーニングのリソース集約的なステージを取り除き、どんなセマンティックコーディングアーキテクチャにも適用でき、現実世界のアプリケーションへの道を開くことができる。 In light of the diminishing returns of traditional methods for enhancing transmission rates, the domain of semantic communication presents promising new frontiers. Focusing on image transmission, this paper explores the application of foundation models, particularly the Segment Anything Model (SAM) developed by Meta AI Research, to improve semantic communication. SAM is a promptable image segmentation model that has gained attention for its ability to perform zero-shot segmentation tasks without explicit training or domain-specific knowledge. By employing SAM's segmentation capability and lightweight neural network architecture for semantic coding, we propose a practical approach to semantic communication. We demonstrate that this approach retains critical semantic features, achieving higher image reconstruction quality and reducing communication overhead. This practical solution eliminates the resource-intensive stage of training a segmentation model and can be applied to any semantic coding architecture, paving the way for real-world applications. | 翻訳日:2023-06-06 20:15:09 公開日:2023-06-03 |
# 三重項曖昧さの救済:言語誘導画像検索のための合意ネットワーク Relieving Triplet Ambiguity: Consensus Network for Language-Guided Image Retrieval ( http://arxiv.org/abs/2306.02092v1 ) ライセンス: Link先を確認 | Xu Zhang, Zhedong Zheng, Xiaohan Wang, Yi Yang | (参考訳) 言語案内画像検索は、参照画像と相対キャプションをクエリとして使用することで、画像検索と検索システムとの対話をより自然かつ表現的に行うことができる。
既存の研究は主に、識別的視覚言語関係を抽出する画像テキスト合成アーキテクチャの設計に焦点を当てている。
大きな成功を収めたにも関わらず、識別的特徴の抽出を妨げる固有の問題を特定し、モデルのトレーニングをかなり損なうことになる。
この問題は、アノテーションが一度にトリプレットを1つだけ見るというアノテーションプロセスに起因する。
その結果、色などの単純な属性をしばしば記述し、位置やスタイルといった細かい細部を無視する。
これにより、同じ修正テキストにマッチする複数の偽陰性候補が発生する。
本稿では,三重項曖昧さの負の効果を最小限に抑えるために,雑音三重項から自己適応的に学習するコンセンサスネットワークを提案する。
グループのパフォーマンスが個人より優れているという心理的発見に触発されたcss-net
1)多様な画像テキスト埋め込みを生成する4つの異なるコンポジタを特徴とするコンセンサスモジュール
2)kullback-leiblerダイバージェンスロスは,コンポジタ間の学習を促進することで,ノイズ三重項から学習したバイアスを低減し,コンセンサスに達する。
4つのコンポジショナーによる決定は、さらなるコンセンサスを達成するために評価中に重み付けされる。
3つのデータセットに関する総合的な実験は、Css-Netが三重項の曖昧さを緩和し、+2.77\%$ R@10や$+6.67\%$ R@50といったベンチマーク上での競合性能を達成することを示した。 Language-guided image retrieval enables users to search for images and interact with the retrieval system more naturally and expressively by using a reference image and a relative caption as a query. Most existing studies mainly focus on designing image-text composition architecture to extract discriminative visual-linguistic relations. Despite great success, we identify an inherent problem that obstructs the extraction of discriminative features and considerably compromises model training: \textbf{triplet ambiguity}. This problem stems from the annotation process wherein annotators view only one triplet at a time. As a result, they often describe simple attributes, such as color, while neglecting fine-grained details like location and style. This leads to multiple false-negative candidates matching the same modification text. We propose a novel Consensus Network (Css-Net) that self-adaptively learns from noisy triplets to minimize the negative effects of triplet ambiguity. Inspired by the psychological finding that groups perform better than individuals, Css-Net comprises 1) a consensus module featuring four distinct compositors that generate diverse fused image-text embeddings and 2) a Kullback-Leibler divergence loss, which fosters learning among the compositors, enabling them to reduce biases learned from noisy triplets and reach a consensus. The decisions from four compositors are weighted during evaluation to further achieve consensus. Comprehensive experiments on three datasets demonstrate that Css-Net can alleviate triplet ambiguity, achieving competitive performance on benchmarks, such as $+2.77\%$ R@10 and $+6.67\%$ R@50 on FashionIQ. | 翻訳日:2023-06-06 20:14:51 公開日:2023-06-03 |
# データアクセスのない深層分類ミミリー Deep Classifier Mimicry without Data Access ( http://arxiv.org/abs/2306.02090v1 ) ライセンス: Link先を確認 | Steven Braun, Martin Mundt, Kristian Kersting | (参考訳) 事前学習されたモデルへのアクセスは、最近多くの機械学習領域で標準として登場している。
残念ながら、モデルがトレーニングしたオリジナルのデータへのアクセスは、等しく許可されないかもしれない。
これにより、モデルを微調整したり、圧縮したり、継続的に適応したり、他のタイプのデータ駆動更新を行うのは非常に難しくなります。
しかし、元のデータアクセスは必要ではないと仮定する。
具体的には、原データにアクセスせずに深部分類器を模倣するモデルに依存しない知識蒸留法であるContrastive Abductive Knowledge extract (CAKE)を提案する。
この目的のために、ケーキはノイズの多い合成サンプルのペアを生成し、モデルの決定境界に向かって対比的に拡散する。
我々は、いくつかのベンチマークデータセットとさまざまなアーキテクチャ選択を使用して、CAKEの有効性を実証的に裏付け、幅広いアプリケーションへの道を開いた。 Access to pre-trained models has recently emerged as a standard across numerous machine learning domains. Unfortunately, access to the original data the models were trained on may not equally be granted. This makes it tremendously challenging to fine-tune, compress models, adapt continually, or to do any other type of data-driven update. We posit that original data access may however not be required. Specifically, we propose Contrastive Abductive Knowledge Extraction (CAKE), a model-agnostic knowledge distillation procedure that mimics deep classifiers without access to the original data. To this end, CAKE generates pairs of noisy synthetic samples and diffuses them contrastively toward a model's decision boundary. We empirically corroborate CAKE's effectiveness using several benchmark datasets and various architectural choices, paving the way for broad application. | 翻訳日:2023-06-06 20:14:23 公開日:2023-06-03 |
# 分散度を指標とした高効率テキストガイド3次元画像生成 Efficient Text-Guided 3D-Aware Portrait Generation with Score Distillation Sampling on Distribution ( http://arxiv.org/abs/2306.02083v1 ) ライセンス: Link先を確認 | Yiji Cheng, Fei Yin, Xiaoke Huang, Xintong Yu, Jiaxiang Liu, Shikun Feng, Yujiu Yang, Yansong Tang | (参考訳) Text-to-3Dは、ユーザーが無限の可能性で3Dコンテンツを作成できる新しいタスクだ。
既存の作業は、事前訓練された拡散モデルからのガイダンスで3次元表現を最適化することで、この問題に対処する。
明らかな欠点は、各プロンプトのスクラッチから最適化する必要があることだ。
本稿では,テキストガイド付き3d認識ポートレートを単一フォワードパスで効率良く生成することを目的としたdreamportraitを提案する。
そこで本研究では,Score Distillation Smplingをデータポイントから分布定式化に拡張し,セマンティクスを3次元分布に注入する。
しかしながら、直接拡張は、目的が意味的アライメントのみを追求するため、モード崩壊問題を引き起こす。
そこで我々は階層型条件アダプタとgan損失正規化を用いた分布の最適化を提案する。
より優れた3Dモデリングを実現するため,テキストと3D認識空間の対応性を明瞭に知覚する3D対応のゲート・アテンション機構を設計する。
これらの精巧な設計により、モデルはロバストなマルチビューセマンティクス一貫性を持つポートレートを生成することができ、最適化ベースのメソッドは不要である。
広範な実験により,本モデルの性能向上と既存手法に対する大幅な高速化が実証された。 Text-to-3D is an emerging task that allows users to create 3D content with infinite possibilities. Existing works tackle the problem by optimizing a 3D representation with guidance from pre-trained diffusion models. An apparent drawback is that they need to optimize from scratch for each prompt, which is computationally expensive and often yields poor visual fidelity. In this paper, we propose DreamPortrait, which aims to generate text-guided 3D-aware portraits in a single-forward pass for efficiency. To achieve this, we extend Score Distillation Sampling from datapoint to distribution formulation, which injects semantic prior into a 3D distribution. However, the direct extension will lead to the mode collapse problem since the objective only pursues semantic alignment. Hence, we propose to optimize a distribution with hierarchical condition adapters and GAN loss regularization. For better 3D modeling, we further design a 3D-aware gated cross-attention mechanism to explicitly let the model perceive the correspondence between the text and the 3D-aware space. These elaborated designs enable our model to generate portraits with robust multi-view semantic consistency, eliminating the need for optimization-based methods. Extensive experiments demonstrate our model's highly competitive performance and significant speed boost against existing methods. | 翻訳日:2023-06-06 20:14:10 公開日:2023-06-03 |
# SNR対応スウィントランスを用いた教師なし低光画像強調 Unsupervised Low Light Image Enhancement Using SNR-Aware Swin Transformer ( http://arxiv.org/abs/2306.02082v1 ) ライセンス: Link先を確認 | Zhijian Luo, Jiahui Tang, Yueen Hou, Zihan Huang and Yanzeng Gao | (参考訳) 低照度条件下でキャプチャされた画像は、不快なアーティファクトを示し、多くの上流のビジュアルタスクで機能抽出のパフォーマンスを損なう。
低光度画像強調は、明るさとコントラストを改善し、さらに視覚品質を損なうノイズを減らすことを目的としている。
近年,スウィントランスを用いた画像復元手法が多数提案され,性能が向上している。
しかし、低光度画像強調に自明にスウィントランスを用いると、露光過度、明るさの不均衡、ノイズ破損など、いくつかのアーティファクトが露呈する。
一方、低照度画像と対応する地中画像の対を同一の視覚シーンで撮影することは現実的ではない。
本稿では,低照度画像強調のための空間変化情報を提供する信号対雑音比事前マップによって導かれるSwin Transformerに基づくデュアルブランチネットワークを提案する。
さらに,教師なし学習を用いてretinexモデルに基づく最適化目標を構築し,提案ネットワークのトレーニングを指導する。
実験により,提案モデルがベースラインモデルと競合することを示す。 Image captured under low-light conditions presents unpleasing artifacts, which debilitate the performance of feature extraction for many upstream visual tasks. Low-light image enhancement aims at improving brightness and contrast, and further reducing noise that corrupts the visual quality. Recently, many image restoration methods based on Swin Transformer have been proposed and achieve impressive performance. However, On one hand, trivially employing Swin Transformer for low-light image enhancement would expose some artifacts, including over-exposure, brightness imbalance and noise corruption, etc. On the other hand, it is impractical to capture image pairs of low-light images and corresponding ground-truth, i.e. well-exposed image in same visual scene. In this paper, we propose a dual-branch network based on Swin Transformer, guided by a signal-to-noise ratio prior map which provides the spatial-varying information for low-light image enhancement. Moreover, we leverage unsupervised learning to construct the optimization objective based on Retinex model, to guide the training of proposed network. Experimental results demonstrate that the proposed model is competitive with the baseline models. | 翻訳日:2023-06-06 20:13:45 公開日:2023-06-03 |
# メッセージパス選択:グラフ分類のための解釈可能なGNNを目指して Message-passing selection: Towards interpretable GNNs for graph classification ( http://arxiv.org/abs/2306.02081v1 ) ライセンス: Link先を確認 | Wenda Li, Kaixuan Chen, Shunyu Liu, Wenjie Huang, Haofei Zhang, Yingjie Tian, Yun Su, Mingli Song | (参考訳) 本稿では,様々なGNNのベースラインに容易に適用可能なプラグイン・アンド・プレイ方式として,MSInterpreterと呼ばれる解釈可能なGNNの推論パラダイムの開発を試みる。
既存の説明方法とは異なり、MSInterpreterはメッセージパス選択スキーム(MSScheme)を提供し、GNNのメッセージアグリゲーションの重要なパスを選択する。
具体的には,構造ベースがノード誘起部分構造間の重み係数を対象とするバニラ構造とノード埋め込み成分を考慮して,メッセージ集約パスの重み係数を計算することを目的とし,一方,ノード埋め込みベースは一層gnnによって得られたノード埋め込みによる重み係数に着目し,最後に,グラフ分類ベンチマークにおける提案手法の有効性を示す。 In this paper, we strive to develop an interpretable GNNs' inference paradigm, termed MSInterpreter, which can serve as a plug-and-play scheme readily applicable to various GNNs' baselines. Unlike the most existing explanation methods, MSInterpreter provides a Message-passing Selection scheme(MSScheme) to select the critical paths for GNNs' message aggregations, which aims at reaching the self-explaination instead of post-hoc explanations. In detail, the elaborate MSScheme is designed to calculate weight factors of message aggregation paths by considering the vanilla structure and node embedding components, where the structure base aims at weight factors among node-induced substructures; on the other hand, the node embedding base focuses on weight factors via node embeddings obtained by one-layer GNN.Finally, we demonstrate the effectiveness of our approach on graph classification benchmarks. | 翻訳日:2023-06-06 20:13:24 公開日:2023-06-03 |
# 事前学習した視覚言語モデルにおける適応法のロバスト性 Benchmarking Robustness of Adaptation Methods on Pre-trained Vision-Language Models ( http://arxiv.org/abs/2306.02080v1 ) ライセンス: Link先を確認 | Shuo Chen, Jindong Gu, Zhen Han, Yunpu Ma, Philip Torr, Volker Tresp | (参考訳) LoRA、プロンプト、アダプタなどの様々な適応手法が提案され、特定の領域における事前学習された視覚言語モデルの性能を向上させる。
これらの分散シフトに対する適応法の堅牢性は研究されていない。
本研究では,4つの視覚言語データセットにまたがる11の適応手法のロバスト性を評価する。
具体的には、異なる適応手法の堅牢性、利用可能な適応例の影響、適応中のトレーニング可能なパラメータサイズの影響を調べるために、96の視覚的および87のテキスト汚職を含む7つのベンチマークデータセットを導入する。
私たちの分析によると、
1)適応手法は視覚的腐敗よりもテキストの腐敗に敏感である。
2) 完全な微調整は、一貫して最も堅牢性を提供しない;代わりに、アダプタは、同等のクリーンな性能で、より優れた堅牢性を達成できる。
3) 予測に反して, 適応データとパラメータの増加は頑健性の向上を保証せず, より低いロバスト性をもたらすことが示唆された。
本研究は,ロバストなマルチモーダル適応法の開発における今後の研究の恩恵を期待する。
この研究で使われるベンチマーク、コード、データセットは、 \url{https://adarobustness.github.io} でアクセスできる。 Various adaptation methods, such as LoRA, prompts, and adapters, have been proposed to enhance the performance of pre-trained vision-language models in specific domains. The robustness of these adaptation methods against distribution shifts have not been studied. In this study, we assess the robustness of 11 widely-used adaptation methods across 4 vision-language datasets under multimodal corruptions. Concretely, we introduce 7 benchmark datasets, including 96 visual and 87 textual corruptions, to investigate the robustness of different adaptation methods, the impact of available adaptation examples, and the influence of trainable parameter size during adaptation. Our analysis reveals that: 1) Adaptation methods are more sensitive to text corruptions than visual corruptions. 2) Full fine-tuning does not consistently provide the highest robustness; instead, adapters can achieve better robustness with comparable clean performance. 3) Contrary to expectations, our findings indicate that increasing the number of adaptation data and parameters does not guarantee enhanced robustness; instead it results in even lower robustness. We hope this study could benefit future research in the development of robust multimodal adaptation methods. The benchmark, code, and dataset used in this study can be accessed at \url{https://adarobustness.github.io}. | 翻訳日:2023-06-06 20:13:07 公開日:2023-06-03 |
# GCNを用いた中国語シークエンスラベリングのための深層構文と意味知識の導入 Incorporating Deep Syntactic and Semantic Knowledge for Chinese Sequence Labeling with GCN ( http://arxiv.org/abs/2306.02078v1 ) ライセンス: Link先を確認 | Xuemei Tang, Jun Wang, Qi Su | (参考訳) 近年,中国列ラベリング結果を統合することで構文解析や意味解析が容易になるのが一般的である。
しかし,中国語シークエンスラベリングタスクの構文的・意味的特徴を符号化した階層構造情報の有用性にはほとんど注目されていない。
本稿では,GCN(Graph Convolutional Network)を用いた中国語シーケンスラベリングタスクの構文構造特徴と意味情報を符号化する新しいフレームワークを提案する。
中国語単語のセグメンテーションとパート・オブ・スパイチ・タギングを含む5つのベンチマークデータセットにおける実験により,本モデルが中国語ラベリングタスクの性能を効果的に向上できることが示されている。 Recently, it is quite common to integrate Chinese sequence labeling results to enhance syntactic and semantic parsing. However, little attention has been paid to the utility of hierarchy and structure information encoded in syntactic and semantic features for Chinese sequence labeling tasks. In this paper, we propose a novel framework to encode syntactic structure features and semantic information for Chinese sequence labeling tasks with graph convolutional networks (GCN). Experiments on five benchmark datasets, including Chinese word segmentation and part-of-speech tagging, demonstrate that our model can effectively improve the performance of Chinese labeling tasks. | 翻訳日:2023-06-06 20:12:48 公開日:2023-06-03 |
# スケールアップ、スケールアップ: ブロックワイズなグラフコントラスト学習 Scaling Up, Scaling Deep: Blockwise Graph Contrastive Learning ( http://arxiv.org/abs/2306.02117v1 ) ライセンス: Link先を確認 | Jintang Li, Wangbin Sun, Ruofan Wu, Yuchang Zhu, Liang Chen, Zibin Zheng | (参考訳) オーバースムーシング(Oversmoothing)は、グラフニューラルネットワーク(GNN)において一般的な現象であり、ネットワーク深度の増加によってパフォーマンスが低下する。
グラフコントラスト学習(gcl)は、巨大なラベルのないグラフデータを活用する有望な方法として登場している。
GNNと対照的な学習の結婚として、GCLがGNNから同じ過度な欠陥を継承するかどうかは不明である。
本研究は,まず,過剰なスムーシングの観点から,GCLの基本的な解析を行う。
gclにおけるネットワークの深さの増加は、その深い表現、そして驚くほど浅い表現に過剰な影響をもたらすことを実証的に示します。
我々は、gclにおけるこの現象を長距離飢餓(long-range starvation)と呼び、深層ネットワークの低層層層が、監督(例えば損失計算)からの十分なガイダンスの欠如により劣化に苦しむ。
以上の結果から,GCLが悪名高い過密を防ぎ,極めてシンプルで効果的なブロックワイドトレーニングフレームワークであるBlockGCLを提案する。
ベルとホイッスルがなければ、BlockGCLは、実世界のグラフベンチマークでレイヤー数が増加することにより、確立されたGCLメソッドの堅牢性と安定性を一貫して改善する。
当社の作業は、スケーラブルで深いGCLフレームワークの将来的な改善に関する洞察を提供すると思います。 Oversmoothing is a common phenomenon in graph neural networks (GNNs), in which an increase in the network depth leads to a deterioration in their performance. Graph contrastive learning (GCL) is emerging as a promising way of leveraging vast unlabeled graph data. As a marriage between GNNs and contrastive learning, it remains unclear whether GCL inherits the same oversmoothing defect from GNNs. This work undertakes a fundamental analysis of GCL from the perspective of oversmoothing on the first hand. We demonstrate empirically that increasing network depth in GCL also leads to oversmoothing in their deep representations, and surprisingly, the shallow ones. We refer to this phenomenon in GCL as long-range starvation', wherein lower layers in deep networks suffer from degradation due to the lack of sufficient guidance from supervision (e.g., loss computing). Based on our findings, we present BlockGCL, a remarkably simple yet effective blockwise training framework to prevent GCL from notorious oversmoothing. Without bells and whistles, BlockGCL consistently improves robustness and stability for well-established GCL methods with increasing numbers of layers on real-world graph benchmarks. We believe our work will provide insights for future improvements of scalable and deep GCL frameworks. | 翻訳日:2023-06-06 20:07:08 公開日:2023-06-03 |
# 事前学習された視覚と言語モデルにおけるエンティティの知識調査のためのテーブルと画像生成 Table and Image Generation for Investigating Knowledge of Entities in Pre-trained Vision and Language Models ( http://arxiv.org/abs/2306.02115v1 ) ライセンス: Link先を確認 | Hidetaka Kamigaito, Katsuhiko Hayashi, Taro Watanabe | (参考訳) 本稿では,自然言語から取得したエンティティに関する知識が vision & language (v & l) モデルに保持されているかを検証するための表と画像生成タスクを提案する。
このタスクは2つの部分で構成される: 1つはエンティティとその関連イメージに関する知識を含むテーブルを生成し、もう1つは、キャプションを持つエンティティから画像を生成すること、そして、そのエンティティに関する知識を含むテーブルである。
どちらのタスクでも、モデルは生成を適切に実行するために使用されるエンティティを知る必要があります。
提案したタスクを実行するために、約20万のインフォボックスからウィキペディアテーブルと画像生成(WikiTIG)データセットを作成しました。
V&LモデルOFAを用いて、上記の研究課題に対するタスクの性能評価を行い、複数のタスクにおいて最先端の結果が得られた。
実験の結果,OFAは画像関連タスクの性能向上のための補完として,事前学習によってエンティティ知識の一部を忘れていることがわかった。 In this paper, we propose a table and image generation task to verify how the knowledge about entities acquired from natural language is retained in Vision & Language (V & L) models. This task consists of two parts: the first is to generate a table containing knowledge about an entity and its related image, and the second is to generate an image from an entity with a caption and a table containing related knowledge of the entity. In both tasks, the model must know the entities used to perform the generation properly. We created the Wikipedia Table and Image Generation (WikiTIG) dataset from about 200,000 infoboxes in English Wikipedia articles to perform the proposed tasks. We evaluated the performance on the tasks with respect to the above research question using the V & L model OFA, which has achieved state-of-the-art results in multiple tasks. Experimental results show that OFA forgets part of its entity knowledge by pre-training as a complement to improve the performance of image related tasks. | 翻訳日:2023-06-06 20:06:48 公開日:2023-06-03 |
# zxw計算における光間相互作用 Light-matter interaction in the ZXW calculus ( http://arxiv.org/abs/2306.02114v1 ) ライセンス: Link先を確認 | Giovanni de Felice, Razin A. Shaikh, Boldizs\'ar Po\'or, Lia Yeh, Quanlong Wang, Bob Coecke | (参考訳) 本稿では,光-物質相互作用と非線形光学効果を含むフォトニック回路を書き換えるグラフ計算法を開発した。
ボソニックフォック空間上の線形演算子のためのグラフィカル言語である無限ZW計算を導入し、線形および非線形フォトニック回路の両方をキャプチャする。
この計算は、線形光学のためのダイアグラム言語qpath calculusと、最近開発されたqudit zxw calculus、qudit間の線型写像の完全な公理化を組み合わせたものである。
この定理は、zxw計算で書き換えることで無限作用素間の等式を証明できる「リフト」定理を伴っている。
無限ZW計算におけるボゾンおよびフェルミオンハミルトニアンを表現する方法を提案する。
これにより、図式的推論によって指数関数を導出できる。
例えば、位相シフトやビームスプリッター、非線形カー媒体、ジェインズ・カミングス光物質相互作用などがある。 In this paper, we develop a graphical calculus to rewrite photonic circuits involving light-matter interactions and non-linear optical effects. We introduce the infinite ZW calculus, a graphical language for linear operators on the bosonic Fock space which captures both linear and non-linear photonic circuits. This calculus is obtained by combining the QPath calculus, a diagrammatic language for linear optics, and the recently developed qudit ZXW calculus, a complete axiomatisation of linear maps between qudits. It comes with a 'lifting' theorem allowing to prove equalities between infinite operators by rewriting in the ZXW calculus. We give a method for representing bosonic and fermionic Hamiltonians in the infinite ZW calculus. This allows us to derive their exponentials by diagrammatic reasoning. Examples include phase shifts and beam splitters, as well as non-linear Kerr media and Jaynes-Cummings light-matter interaction. | 翻訳日:2023-06-06 20:06:30 公開日:2023-06-03 |
# アハラノフ・ボーム偏向の方向について Concerning the Direction of the Aharonov-Bohm Deflection ( http://arxiv.org/abs/2306.02112v1 ) ライセンス: Link先を確認 | Timothy H. Boyer | (参考訳) ソレノイドと通過荷電粒子の相互作用は古典物理学や量子物理学で扱うことができる。
荷電粒子がソレノイドの両側を通過する場合、両側を通過する電荷の間の二重スリット粒子干渉パターンの実験的に観測されたアハラノフ・ボーム偏向が存在する。
このような偏向は古典的な力計算によって得られる。
角偏向の大きさは古典的な力計算と量子トポロジー理論の間に一致するが、予測された偏向の方向は反対である。
ここでは、古典的電気力学に基づく偏向の方向の簡単な基礎を量子理論に基づいて指摘し、粒子干渉パターンの静電偏向と古典計算の光学的類似性の両方について言及する。
偏向方向は実験的な質問を伴い、それが今までになく滅多に解決される。 The interaction of a solenoid with a passing charged particle can be treated within classical or quantum physics. If charged particles pass around both sides of a solenoid, there is an experimentally-observed Aharonov-Bohm deflection of the double-slit particle interference pattern between charges passing on opposite sides. Such a deflection can be obtained by a classical force calculation. Although the magnitude of the angular deflection agrees between the classical force calculation and the quantum topological theory, the direction of the predicted deflection is opposite. Here we point out the simple basis for the direction of the deflection based upon classical electrodynamics and based upon quantum theory, and we mention analogues, both the electrostatic deflection of the particle interference pattern and the optical analogue of the classical calculation. The deflection direction involves an experimental question which is addressed rarely if ever. | 翻訳日:2023-06-06 20:06:14 公開日:2023-06-03 |
# 暗号アルゴリズムのためのノイズ量子回路のシミュレーション Simulating Noisy Quantum Circuits for Cryptographic Algorithms ( http://arxiv.org/abs/2306.02111v1 ) ライセンス: Link先を確認 | Sahay Harshvardhan, Sanil Jain, James E. McClure, Caleb McIrvin, Ngoc Quy Tran | (参考訳) ノイズの多い中間スケール量子コンピュータ(nisq)の出現は、暗号アルゴリズムに重要な影響を与える。
サイバーセキュリティで使用される鍵となるアルゴリズムは、古典的なコンピュータのアルゴリズムの複雑さに基づいて設計された理論上のセキュリティ保証が量子回路に十分でないという事実から、量子コンピュータに弱いことが理論的に確立されている。
多くの異なる量子アルゴリズムが開発され、将来の計算システムに広く応用される可能性がある。
しかし、このポテンシャルは量子ハードウェアの継続的な成熟に依存しており、現在も活発な研究と開発の領域である。
理論上の限界はアルゴリズムの性能に上限を与える。
実際、暗号化に対する脅威は、急速に進化するハードウェアとソフトウェアの状況の文脈でのみ正確に評価できる。
ソフトウェア共同設計(software co-design)は、現在の能力の限界を理解し、技術の進歩のための効果的な戦略を開発する方法として、ソフトウェアとハードウェアの同時設計を指す。
現在、古典計算の能力は量子能力を超えるため、量子エミュレーション技術は共設計プロセスにおいて重要な役割を果たす。
本稿では,広く利用可能なコモディティハードウェアを用いて,量子アルゴリズムの協調設計活動を支援する方法について述べる。
本稿では,エミュレーション手法を用いて,興味のあるアルゴリズムに対するノイズの影響を評価し,現在のハードウェアに関する制約を特定する方法について述べる。
本稿では,サイバーセキュリティと暗号の優先領域の文脈において,これらのアルゴリズムがデジタル世界における情報保護に極めて適していることを示す。 The emergence of noisy intermediate-scale quantum (NISQ) computers has important consequences for cryptographic algorithms. It is theoretically well-established that key algorithms used in cybersecurity are vulnerable to quantum computers due to the fact that theoretical security guarantees, designed based on algorithmic complexity for classical computers, are not sufficient for quantum circuits. Many different quantum algorithms have been developed, which have potentially broad applications on future computing systems. However, this potential depends on the continued maturation of quantum hardware, which remains an area of active research and development. Theoretical limits provide an upper bound on the performance for algorithms. In practice, threats to encryption can only be accurately be assessed in the context of the rapidly evolving hardware and software landscape. Software co-design refers to the concurrent design of software and hardware as a way to understand the limitations of current capabilities and develop effective strategies to advance the state of the art. Since the capabilities for classical computation currently exceed quantum capabilities, quantum emulation techniques can play an important role in the co-design process. In this paper, we describe how the {\em cuQuantum} environment can support quantum algorithm co-design activities using widely-available commodity hardware. We describe how emulation techniques can be used to assess the impact of noise on algorithms of interest, and identify limitations associated with current hardware. We present our analysis in the context of areas of priority for cybersecurity and cryptography in particular since these algorithms are extraordinarily consequential for securing information in the digital world. | 翻訳日:2023-06-06 20:06:00 公開日:2023-06-03 |
# プログラマブル量子シミュレータを用いた多レベル変分分光法 Multi-Level Variational Spectroscopy using a Programmable Quantum Simulator ( http://arxiv.org/abs/2306.02110v1 ) ライセンス: Link先を確認 | Zhikun Han, Chufan Lyu, Yuxuan Zhou, Jiahao Yuan, Ji Chu, Wuerkaixi Nuerbolati, Hao Jia, Lifu Nie, Weiwei Wei, Zusheng Yang, Libo Zhang, Ziyan Zhang, Chang-Kang Hu, Ling Hu, Jian Li, Dian Tan, Abolfazl Bayat, Song Liu, Fei Yan, and Dapeng Yu | (参考訳) エネルギー分光は様々な分野にまたがる多様な応用を持つ強力なツールである。
プログラマブルなデジタル量子シミュレータの出現は、単一デバイスを使用して様々なモデル上で分光を行う新しい可能性を開く。
変分量子古典アルゴリズムは、量子および古典的なリソースオーバーヘッドに直面するにもかかわらず、短期量子シミュレーター上でそのようなタスクを達成するための有望なアプローチとして登場した。
本稿では, 超電導プログラマブルディジタル量子シミュレータを用いて, 基本多体ハミルトニアンの多値変分分光法を実験的に実証する。
対称性を利用することで、回路深さと最適化パラメータを効果的に削減し、基底状態を超えることができる。
部分空間探索法と組み合わさって、4量子ビットハイゼンベルクスピンチェーンの完全な分光を行い、実験エネルギーと理論エネルギーの平均偏差を0.13とし、結合強度を仮定した。
我々の手法は8量子ハイゼンベルクと横フィールドのイジング・ハミルトンに拡張され、3つの最低エネルギー準位を決定できる。
本稿では,信号クロストークに対するシミュレータのロバスト性を高める回路に依存しない波形コンパイル手法を提案する。
本研究は、変分量子アルゴリズムにおける対称性支援資源効率を強調し、量子化学や凝縮物質物理学に応用可能な、短期量子シミュレータにおける実用的な分光の基礎を定めている。 Energy spectroscopy is a powerful tool with diverse applications across various disciplines. The advent of programmable digital quantum simulators opens new possibilities for conducting spectroscopy on various models using a single device. Variational quantum-classical algorithms have emerged as a promising approach for achieving such tasks on near-term quantum simulators, despite facing significant quantum and classical resource overheads. Here, we experimentally demonstrate multi-level variational spectroscopy for fundamental many-body Hamiltonians using a superconducting programmable digital quantum simulator. By exploiting symmetries, we effectively reduce circuit depth and optimization parameters allowing us to go beyond the ground state. Combined with the subspace search method, we achieve full spectroscopy for a 4-qubit Heisenberg spin chain, yielding an average deviation of 0.13 between experimental and theoretical energies, assuming unity coupling strength. Our method, when extended to 8-qubit Heisenberg and transverse-field Ising Hamiltonians, successfully determines the three lowest energy levels. In achieving the above, we introduce a circuit-agnostic waveform compilation method that enhances the robustness of our simulator against signal crosstalk. Our study highlights symmetry-assisted resource efficiency in variational quantum algorithms and lays the foundation for practical spectroscopy on near-term quantum simulators, with potential applications in quantum chemistry and condensed matter physics. | 翻訳日:2023-06-06 20:05:40 公開日:2023-06-03 |
# 自己監督型モデル行動一貫性による時系列記述の符号化 Encoding Time-Series Explanations through Self-Supervised Model Behavior Consistency ( http://arxiv.org/abs/2306.02109v1 ) ライセンス: Link先を確認 | Owen Queen, Thomas Hartvigsen, Teddy Koker, Huan He, Theodoros Tsiligkaridis, Marinka Zitnik | (参考訳) 時系列モデルの解釈は、モデル予測を駆動する時系列信号の位置と解釈可能な時間パターンとのマッチングの両方を特定する必要があるため、一意に難しい。
他のモダリティからの説明は時系列に適用できるが、その帰納バイアスは本質的に解釈不能な時系列の性質にうまく移行しない。
トレーニング説明書の時系列一貫性モデルであるTimeXを提案する。
TimeXは、事前訓練された時系列モデルの振る舞いを模倣するために解釈可能なサロゲートを訓練する。
モデル行動整合性(モデル行動整合性、英: model behavior consistency)は、事前訓練されたモデルによって誘導される潜在空間と、TimeXによって誘導される潜在空間の関係を保存する新しい定式化である。
TimeXは個別の属性マップを提供し、既存の解釈可能性法とは異なり、同様の説明を視覚的に集約し、時間的パターンを容易に認識するランドマークを提供するなど、様々な方法で使用できる説明の潜在空間を学習する。
我々は8つの合成および実世界のデータセット上でTimeXを評価し、その性能を最先端の解釈可能性手法と比較した。
また,生理的時系列を用いたケーススタディも実施する。
定量的評価では、TimeXは、すべてのデータセットのベースラインと比較して、各メトリックで最高または2番目に高いパフォーマンスを達成する。
ケーススタディを通じて,事前学習された時系列モデルの挙動を捉えた,忠実で解釈可能なモデルの訓練の可能性を示す。 Interpreting time series models is uniquely challenging because it requires identifying both the location of time series signals that drive model predictions and their matching to an interpretable temporal pattern. While explainers from other modalities can be applied to time series, their inductive biases do not transfer well to the inherently uninterpretable nature of time series. We present TimeX, a time series consistency model for training explainers. TimeX trains an interpretable surrogate to mimic the behavior of a pretrained time series model. It addresses the issue of model faithfulness by introducing model behavior consistency, a novel formulation that preserves relations in the latent space induced by the pretrained model with relations in the latent space induced by TimeX. TimeX provides discrete attribution maps and, unlike existing interpretability methods, it learns a latent space of explanations that can be used in various ways, such as to provide landmarks to visually aggregate similar explanations and easily recognize temporal patterns. We evaluate TimeX on 8 synthetic and real-world datasets and compare its performance against state-of-the-art interpretability methods. We also conduct case studies using physiological time series. Quantitative evaluations demonstrate that TimeX achieves the highest or second-highest performance in every metric compared to baselines across all datasets. Through case studies, we show that the novel components of TimeX show potential for training faithful, interpretable models that capture the behavior of pretrained time series models. | 翻訳日:2023-06-06 20:05:15 公開日:2023-06-03 |
# ニューラルネットワークのランダム行列理論と損失曲面 Random matrix theory and the loss surfaces of neural networks ( http://arxiv.org/abs/2306.02108v1 ) ライセンス: Link先を確認 | Nicholas P Baskerville | (参考訳) ニューラルネットワークモデルは、機械学習における最も成功したアプローチの1つであり、近年の膨大な開発と研究を楽しみ、科学、工学、現代生活のほぼあらゆる領域における具体的な現実世界の応用を見つける。
ニューラルネットワークの理論的理解は、その実用的成功と、その周囲で成長したエンジニアリングヒューリスティックに大きく遅れている。
ランダム行列理論は、ニューラルネットワーク現象学の側面を理論的に探求できるツールの豊富なフレームワークを提供する。
本論文では,大規模ニューラルネットワークの損失面,特に異なるアーキテクチャへの一般化を理解するために,ランダム行列理論を用いた先行研究の重要な拡張を行う。
物理などにおけるランダム行列理論の歴史的応用により、実ニューラルネットワークにおける局所的ランダム行列普遍性の存在を確立し、これをモデリング仮定として利用し、ニューラルネットワーク損失面とそのスペクトルのヘシアンに関する強力で斬新な結果を導出する。
これらの主な貢献に加えて、ニューラルネットワーク損失面のランダム行列モデルを用いて、現代のニューラルネットワークトレーニングアプローチに光を当て、また、人気のある最適化アルゴリズムの新規かつ効果的な変種を導出する。
全体として、この論文は、現代のニューラルネットワークの理論研究におけるランダム行列理論の位置づけを確固たるものにするために重要な貢献を与え、既存のアプローチの限界を明らかにし、重要な実験的な発見と局所ランダム行列普遍性に基づく新しい理論結果を持つ深層学習理論におけるランダム行列理論の全く新しい役割の研究を開始する。 Neural network models are one of the most successful approaches to machine learning, enjoying an enormous amount of development and research over recent years and finding concrete real-world applications in almost any conceivable area of science, engineering and modern life in general. The theoretical understanding of neural networks trails significantly behind their practical success and the engineering heuristics that have grown up around them. Random matrix theory provides a rich framework of tools with which aspects of neural network phenomenology can be explored theoretically. In this thesis, we establish significant extensions of prior work using random matrix theory to understand and describe the loss surfaces of large neural networks, particularly generalising to different architectures. Informed by the historical applications of random matrix theory in physics and elsewhere, we establish the presence of local random matrix universality in real neural networks and then utilise this as a modeling assumption to derive powerful and novel results about the Hessians of neural network loss surfaces and their spectra. In addition to these major contributions, we make use of random matrix models for neural network loss surfaces to shed light on modern neural network training approaches and even to derive a novel and effective variant of a popular optimisation algorithm. Overall, this thesis provides important contributions to cement the place of random matrix theory in the theoretical study of modern neural networks, reveals some of the limits of existing approaches and begins the study of an entirely new role for random matrix theory in the theory of deep learning with important experimental discoveries and novel theoretical results based on local random matrix universality. | 翻訳日:2023-06-06 20:04:49 公開日:2023-06-03 |
# てんかん不確実性に基づくデータ選択を用いた低リソース臨床音声への事前学習型ASRモデルの適用 Adapting Pretrained ASR Models to Low-resource Clinical Speech using Epistemic Uncertainty-based Data Selection ( http://arxiv.org/abs/2306.02105v1 ) ライセンス: Link先を確認 | Bonaventure F. P. Dossou, Atnafu Lambebo Tonja, Chris Chinenye Emezue, Tobi Olatunji, Naome A Etori, Salomey Osei, Tosin Adewumi, Sahib Singh | (参考訳) ASRには大きな進歩があったが、トレーニングデータセットの欠如によりアフリカ系臨床ASRが検討されている。
この領域で堅牢なASRシステムを構築するには、多種多様な言語学的および形態学的に豊かなアクセントのために、大量の注釈付きまたはラベル付きデータを必要とする。
本研究の目的は,情報的不確実性に基づくデータ選択によるアノテーション費用の削減である。
適応ラウンドにエピステマティックな不確実性を組み込むことは、最先端(SOTA)のASRモデルを用いて確立され、ラベル付きデータの必要な量を削減し、アノテーションコストを低減できることを示す。
我々のアプローチは、非常に低リソースのアクセントに対するアウト・オブ・ディストリビューションの一般化を改善し、トレーニングデータセットがほとんどないアフリカクリニカルASRの文脈で、一般化可能なASRモデルを構築するためのアプローチの有効性を示す。 While there has been significant progress in ASR, African-accented clinical ASR has been understudied due to a lack of training datasets. Building robust ASR systems in this domain requires large amounts of annotated or labeled data, for a wide variety of linguistically and morphologically rich accents, which are expensive to create. Our study aims to address this problem by reducing annotation expenses through informative uncertainty-based data selection. We show that incorporating epistemic uncertainty into our adaptation rounds outperforms several baseline results, established using state-of-the-art (SOTA) ASR models, while reducing the required amount of labeled data, and hence reducing annotation costs. Our approach also improves out-of-distribution generalization for very low-resource accents, demonstrating the viability of our approach for building generalizable ASR models in the context of accented African clinical ASR, where training datasets are predominantly scarce. | 翻訳日:2023-06-06 20:04:20 公開日:2023-06-03 |
# 曲率誘導サンプリングによる重み付き入射幾何再構成 Weight-Aware Implicit Geometry Reconstruction with Curvature-Guided Sampling ( http://arxiv.org/abs/2306.02099v1 ) ライセンス: Link先を確認 | Lu Sang and Abhishek Saroha and Maolin Gao and Daniel Cremers | (参考訳) ニューラル曲面の暗黙表現は、トポロジーや表面分解能を容易に変更できるなど、多くの利点がある。
しかしながら、既知のデータのみによる暗黙的な幾何学表現の再構築は困難である。
本稿では,訓練点内を効果的に補間・外挿し,定性的かつ定量的な結果で表面を再構築するための追加トレーニングデータを生成するアプローチを提案する。
また, 平均およびガウス曲率の微分可能な幾何特性を効率的に計算し, トレーニング中のサンプリングプロセスを向上する手法も導入する。
さらに,非閉鎖領域を局所的な非生成パッチとして表現することで,表面抽出を効率化するだけでなく,非閉鎖領域を暗黙的ニューラル表現における以前の仮定の欠点を緩和する。 Neural surface implicit representations offer numerous advantages, including the ability to easily modify topology and surface resolution. However, reconstructing implicit geometry representation with only limited known data is challenging. In this paper, we present an approach that effectively interpolates and extrapolates within training points, generating additional training data to reconstruct a surface with superior qualitative and quantitative results. We also introduce a technique that efficiently calculates differentiable geometric properties, i.e., mean and Gaussian curvatures, to enhance the sampling process during training. Additionally, we propose a weight-aware implicit neural representation that not only streamlines surface extraction but also extend to non-closed surfaces by depicting non-closed areas as locally degenerated patches, thereby mitigating the drawbacks of the previous assumption in implicit neural representations. | 翻訳日:2023-06-06 20:04:03 公開日:2023-06-03 |
# 情報型ネットワーク:部分情報分解から得られる局所学習ニューラルネットワーク Infomorphic networks: Locally learning neural networks derived from partial information decomposition ( http://arxiv.org/abs/2306.02149v1 ) ライセンス: Link先を確認 | Marcel Graetz, Abdullah Makkeh, Andreas C. Schneider, David A. Ehrlich, Viola Priesemann and Michael Wibral | (参考訳) 複雑なタスクを実行する個々のニューロン間の複雑な協調を理解することは、今日でも課題である。
本稿では,抽象的な局所情報処理目標を最適化することにより,生体ニューロンの機能特性をエミュレートする新しいモデルニューロンを提案する。
我々はこれまで,部分的情報分解(pid)の原理に基づく目標関数を定式化してきた。
本稿では、ニューラルネットワークの新たな具体的なモデルとして、「不定形ネットワーク」の基礎となるパラメトリック局所学習規則を提案する。
教師なし,教師なし,メモリ学習からタスクを実行するネットワークの汎用性を実証する。
PIDフレームワークの説明力と解釈性を活用することで、これらのインフォモーフィックネットワークは皮質機能の理解を深めるための貴重なツールとなる。 Understanding the intricate cooperation among individual neurons in performing complex tasks remains a challenge to this date. In this paper, we propose a novel type of model neuron that emulates the functional characteristics of biological neurons by optimizing an abstract local information processing goal. We have previously formulated such a goal function based on principles from partial information decomposition (PID). Here, we present a corresponding parametric local learning rule which serves as the foundation of "infomorphic networks" as a novel concrete model of neural networks. We demonstrate the versatility of these networks to perform tasks from supervised, unsupervised and memory learning. By leveraging the explanatory power and interpretable nature of the PID framework, these infomorphic networks represent a valuable tool to advance our understanding of cortical function. | 翻訳日:2023-06-06 19:55:54 公開日:2023-06-03 |
# 二重量子ドットにおけるファノファクタ、$\Delta T$-noiseおよび相互相関 Fano factor, $\Delta T$-noise and cross-correlations in double quantum dots ( http://arxiv.org/abs/2306.02146v1 ) ライセンス: Link先を確認 | A. Cr\'epieux, T.Q. Duong, M. Lavagna | (参考訳) ファノ因子,$\delta t$-noise および相互相関の導出を目的として、2つの電子貯水池に接続された二重量子ドットにおける電流変動と有限周波ノイズに関する理論的研究を行った。
これにより、興味深い機能をいくつか強調することができる。
第一に、システムが所定の運転状態に置かれている場合、または2つの貯水池間で温度勾配が適用された場合、負の$\Delta T$-noiseが発生するため、電流ノイズとファノファクターが著しく低減される可能性がある。
2つ目の特徴は、2つの貯水池の相互相関器の周波数増加に伴う符号変化である。
本研究は, 実験により得られた結果の理解を明らかにするものである。 We present a theoretical study of electrical current fluctuations and finite-frequency noise in a double quantum dot connected to two electron reservoirs with the aim of deriving the Fano factor, the $\Delta T$-noise and the cross-correlations. This allows one to highlight several interesting features. Firstly the possibility of getting a significant reduction of current noise and Fano factor either when the system is placed in a given operating regime, or when a temperature gradient is applied between the two reservoirs, resulting from the fact that a negative $\Delta T$-noise is generated. The second feature is the sign change found in the cross-correlator between the two reservoirs with increasing frequencies. This study clarifies the understanding of the results obtained experimentally in such systems. | 翻訳日:2023-06-06 19:55:41 公開日:2023-06-03 |
# コンピュータビジョンに基づく中国語手話の双方向翻訳システム A two-way translation system of Chinese sign language based on computer vision ( http://arxiv.org/abs/2306.02144v1 ) ライセンス: Link先を確認 | Shengzhuo Wei and Yan Lan | (参考訳) 聴覚障害者のコミュニケーションの主要な手段として、手話は特別な文法的順序を持ち、手話のリアルタイム翻訳システムの開発には意義と価値がある。
研究プロセスでは、中国の大規模連続手話データセットのための軽量ニューラルネットワークモデルにTSMモジュールを追加しました。
ネットワーク性能を高精度かつ高速な認識速度で効果的に向上させる。
同時に、漢文を単語に分割し、自然語順を法定手話順にマッピングするbert-base- chineseモデルを改善し、最後に対応する単語ビデオを分離手話データセットで使用して文ビデオを生成することにより、テキスト対手話翻訳の機能を実現する。
最後の研究では、手話認識と翻訳機能を備えたシステムを構築し、完全なデータセットのパフォーマンステストを実施しました。
手話ビデオ認識精度は約99.3%に達し、約0.05秒、手話生成ビデオ時間は約1.3秒であった。
手話システムの性能は良好であり、実現可能である。 As the main means of communication for deaf people, sign language has a special grammatical order, so it is meaningful and valuable to develop a real-time translation system for sign language. In the research process, we added a TSM module to the lightweight neural network model for the large Chinese continuous sign language dataset . It effectively improves the network performance with high accuracy and fast recognition speed. At the same time, we improve the Bert-Base-Chinese model to divide Chinese sentences into words and mapping the natural word order to the statute sign language order, and finally use the corresponding word videos in the isolated sign language dataset to generate the sentence video, so as to achieve the function of text-to-sign language translation. In the last of our research we built a system with sign language recognition and translation functions, and conducted performance tests on the complete dataset. The sign language video recognition accuracy reached about 99.3% with a time of about 0.05 seconds, and the sign language generation video time was about 1.3 seconds. The sign language system has good performance performance and is feasible. | 翻訳日:2023-06-06 19:55:28 公開日:2023-06-03 |
# 階層型マルチレゾリューション特徴量とプリエントベースグラフによる分類 Hierarchical Multiresolution Feature- and Prior-based Graphs for Classification ( http://arxiv.org/abs/2306.02143v1 ) ライセンス: Link先を確認 | Faezeh Fallah | (参考訳) 空間的(近距離)と双方向の階層的関係とサンプルの特徴と先行をそれらの分類に組み込むため,多分解能近傍グラフの3つの変種と階層的条件付き確率場のグラフの分類問題を定式化した。
これらのグラフはそれぞれ重み付けされ、無向であり、従って空間的あるいは階層的関係をあらゆる方向に組み込むことができた。
さらに,提案した近傍グラフの各変種は,空間的特徴に基づく部分グラフと空間的事前グラフからなる。
空間特徴に基づく部分グラフのエッジ重みを導出する新しいメカニズムを用いてランダムなウォーカーグラフ上に拡張した。
これらのメカニズムには暗黙的および明示的なエッジ検出が含まれ、空間領域内の異なるクラス間の弱い境界の検出を強化する。
暗黙的エッジ検出は,タキー関数の異常検出能力と階層的ランダムフォレスト分類器によって推定されたサンプルの分類信頼性に依存した。
類似のメカニズムは、エッジの重みと階層的な条件付き確率場のエネルギー関数を導出するために用いられた。
このようにして、分類問題は線形方程式の系と、高速で効率的な手法で行うことができるエネルギー関数の最小化に沸騰した。 To incorporate spatial (neighborhood) and bidirectional hierarchical relationships as well as features and priors of the samples into their classification, we formulated the classification problem on three variants of multiresolution neighborhood graphs and the graph of a hierarchical conditional random field. Each of these graphs was weighted and undirected and could thus incorporate the spatial or hierarchical relationships in all directions. In addition, each variant of the proposed neighborhood graphs was composed of a spatial feature-based subgraph and an aspatial prior-based subgraph. It expanded on a random walker graph by using novel mechanisms to derive the edge weights of its spatial feature-based subgraph. These mechanisms included implicit and explicit edge detection to enhance detection of weak boundaries between different classes in spatial domain. The implicit edge detection relied on the outlier detection capability of the Tukey's function and the classification reliabilities of the samples estimated by a hierarchical random forest classifier. Similar mechanism was used to derive the edge weights and thus the energy function of the hierarchical conditional random field. This way, the classification problem boiled down to a system of linear equations and a minimization of the energy function which could be done via fast and efficient techniques. | 翻訳日:2023-06-06 19:55:11 公開日:2023-06-03 |
# TransDocAnalyser: 法域におけるオフライン半構造化手書き文書解析のためのフレームワーク TransDocAnalyser: A Framework for Offline Semi-structured Handwritten Document Analysis in the Legal Domain ( http://arxiv.org/abs/2306.02142v1 ) ライセンス: Link先を確認 | Sagar Chakraborty, Gaurav Harit and Saptarshi Ghosh | (参考訳) 最先端のオフライン光文字認識(ocr)フレームワークは、ドメイン固有のセマンティクスでフォームフィールドのローカライズとラベル付けができないため、半構造化手書きのドメイン固有ドキュメントでは性能が劣る。
半構造化文書分析の既存の技術は、主に請求書、購入注文、領収書、およびベンチマーク用のIDカード文書を含むデータセットを使用している。
本研究では,インドのいくつかの警察署からFIR(First Information Report)文書を多数収集し,法域内で最初の半構造化文書解析データセットを構築する。
firデータセットと呼ばれるこのデータセットは、さまざまな手書きテキストと印刷テキストを組み合わせているため、既存の他のドキュメント分析データセットよりも難しい。
また,手書き半構造化文書のオフライン処理のためのエンドツーエンドフレームワークを提案し,新しいfirデータセットでベンチマークを行う。
本フレームワークでは,フォームフィールドのローカライズとラベル付け,手書きコンテンツの認識にEncoder-Decoderアーキテクチャを使用した。
エンコーダはFaster-RCNNとVision Transformerで構成されている。
さらに、トランスフォーマティブベースのデコーダアーキテクチャをドメイン固有のトークン化器でトレーニングする。
また,ドメイン固有項に関する認識誤りを処理するポスト補正手法を提案する。
提案フレームワークは,既存モデルに匹敵するfirデータセット上での最先端結果を実現する State-of-the-art offline Optical Character Recognition (OCR) frameworks perform poorly on semi-structured handwritten domain-specific documents due to their inability to localize and label form fields with domain-specific semantics. Existing techniques for semi-structured document analysis have primarily used datasets comprising invoices, purchase orders, receipts, and identity-card documents for benchmarking. In this work, we build the first semi-structured document analysis dataset in the legal domain by collecting a large number of First Information Report (FIR) documents from several police stations in India. This dataset, which we call the FIR dataset, is more challenging than most existing document analysis datasets, since it combines a wide variety of handwritten text with printed text. We also propose an end-to-end framework for offline processing of handwritten semi-structured documents, and benchmark it on our novel FIR dataset. Our framework used Encoder-Decoder architecture for localizing and labelling the form fields and for recognizing the handwritten content. The encoder consists of Faster-RCNN and Vision Transformers. Further the Transformer-based decoder architecture is trained with a domain-specific tokenizer. We also propose a post-correction method to handle recognition errors pertaining to the domain-specific terms. Our proposed framework achieves state-of-the-art results on the FIR dataset outperforming several existing models | 翻訳日:2023-06-06 19:54:50 公開日:2023-06-03 |
# 自由落下原子の到着時間における量子遅延 Quantum delay in the time-of-arrival of free falling atoms ( http://arxiv.org/abs/2306.02141v1 ) ライセンス: Link先を確認 | Mathieu Beau and Lionel Martellini | (参考訳) 本研究では,自由落下粒子に対するTOAの確率分布の正確な解析式を導出するために,測定軌道の確率的表現を用い,その平均値と準古典的状態における標準偏差の近似式を導出する。
We predict the existence of a positive shift $\delta$ between the semiclassical TOA ($t_{\text{mean}}$) and the classical TOA ($t_{\text{cl}}$) for a particle of mass $m$ falling in a constant and uniform gravitational field $g$ with zero initial velocity, with a value given by $ \delta \equiv \frac{t_{\text{mean}}-t_{\text{cl}}}{t_{\text{cl}}} = \frac{\hbar^2}{16gx m^2\sigma^2},\ $ where $\sigma$ is the width of the initial Gaussian wavepacket, and $x$ is the distance between the initial position of the source and that of the detector.
この結果が量子状態における弱同値原理に与える影響について論じる。 We use a stochastic representation of measured trajectories to derive an exact analytical expression for the probability distribution of the time-of-arrival (TOA) for a free falling particle, as well as approximate expressions for its mean value and standard-deviation in the semiclassical regime. We predict the existence of a positive shift $\delta$ between the semiclassical TOA ($t_{\text{mean}}$) and the classical TOA ($t_{\text{cl}}$) for a particle of mass $m$ falling in a constant and uniform gravitational field $g$ with zero initial velocity, with a value given by $ \delta \equiv \frac{t_{\text{mean}}-t_{\text{cl}}}{t_{\text{cl}}} = \frac{\hbar^2}{16gx m^2\sigma^2},\ $ where $\sigma$ is the width of the initial Gaussian wavepacket, and $x$ is the distance between the initial position of the source and that of the detector. We discuss the implications of this result on the weak equivalence principle in the quantum regime. | 翻訳日:2023-06-06 19:54:27 公開日:2023-06-03 |
# 矛盾する問題:マルチモーダルうわさ検出のための知識誘導型デュアルコンシスタンシーネットワーク Inconsistent Matters: A Knowledge-guided Dual-consistency Network for Multi-modal Rumor Detection ( http://arxiv.org/abs/2306.02137v1 ) ライセンス: Link先を確認 | Mengzhu Sun, Xi Zhang, Jianqiang Ma, Sihong Xie, Yazheng Liu, and Philip S. Yu | (参考訳) ニュース消費者の注意を惹きつけるため、噂の拡散はマルチメディアコンテンツをますます活用している。
多くの噂検出モデルがマルチモーダルデータを活用しているが、画像とテキストの一貫性のないセマンティクスをほとんど考慮せず、ポストの内容と背景知識の矛盾を見つけることは滅多にない。
さらに、一般に複数のモダリティの完全性を前提としており、現実のシナリオで欠落したモダリティを扱うことができない。
ソーシャルメディアの噂が矛盾するセマンティクスを持つ可能性が高いという直観に動機づけられ、マルチメディアコンテンツのうわさを検出するための新しい知識誘導デュアルコンシステンシーネットワークが提案されている。
2つの一貫性検出サブネットワークを使用して、クロスモーダルレベルとコンテンツ知識レベルの不整合を同時にキャプチャする。
また、視覚モダリティのないポストと視覚モダリティのないポストを区別する特別なトークンを使用して、異なる視覚モダリティ条件下で堅牢なマルチモダリティ表現学習を可能にする。
3つのパブリックな実世界のマルチメディアデータセットに関する広範な実験は、完全かつ不完全なモダリティ条件下で、我々のフレームワークが最先端のベースラインを上回ることができることを示している。
私たちのコードはhttps://github.com/mengzsun/kdcnで利用可能です。 Rumor spreaders are increasingly utilizing multimedia content to attract the attention and trust of news consumers. Though quite a few rumor detection models have exploited the multi-modal data, they seldom consider the inconsistent semantics between images and texts, and rarely spot the inconsistency among the post contents and background knowledge. In addition, they commonly assume the completeness of multiple modalities and thus are incapable of handling handle missing modalities in real-life scenarios. Motivated by the intuition that rumors in social media are more likely to have inconsistent semantics, a novel Knowledge-guided Dual-consistency Network is proposed to detect rumors with multimedia contents. It uses two consistency detection subnetworks to capture the inconsistency at the cross-modal level and the content-knowledge level simultaneously. It also enables robust multi-modal representation learning under different missing visual modality conditions, using a special token to discriminate between posts with visual modality and posts without visual modality. Extensive experiments on three public real-world multimedia datasets demonstrate that our framework can outperform the state-of-the-art baselines under both complete and incomplete modality conditions. Our codes are available at https://github.com/MengzSun/KDCN. | 翻訳日:2023-06-06 19:54:10 公開日:2023-06-03 |
# Graph Moverの距離: 幾何学グラフの効率よく計算可能な距離測定 Graph Mover's Distance: An Efficiently Computable Distance Measure for Geometric Graphs ( http://arxiv.org/abs/2306.02133v1 ) ライセンス: Link先を確認 | Sushovan Majhi | (参考訳) パターン認識における多くの応用は、パターンを幾何学グラフとして表現する。
幾何グラフ距離(GGD)は、2つの幾何学グラフ間の類似性の有意義な尺度として最近研究されている。
GGD の計算は $\mathcal{NP}$-hard であることが知られているので、距離測度はアプリケーションにとって非現実的な選択である。
本稿では,計算可能な代替として,地球移動者距離の例として定式化したグラフ移動者距離(gmd)を提案する。
最大$n$頂点を持つ2つの幾何グラフの間のGMDの計算は、わずか$O(n^3)$-timeである。
GMDの計量特性を研究するとともに、GGDとGMDの安定性について検討する。
GMDはまた、 {\tt LETTER} データセット \cite{da_vitoria_lobo_iam_2008} からの文字の描画を認識するという極めて有望な実証的な証拠も示している。 Many applications in pattern recognition represent patterns as a geometric graph. The geometric graph distance (GGD) has recently been studied as a meaningful measure of similarity between two geometric graphs. Since computing the GGD is known to be $\mathcal{NP}$-hard, the distance measure proves an impractical choice for applications. As a computationally tractable alternative, we propose in this paper the Graph Mover's Distance (GMD), which has been formulated as an instance of the earth mover's distance. The computation of the GMD between two geometric graphs with at most $n$ vertices takes only $O(n^3)$-time. Alongside studying the metric properties of the GMD, we investigate the stability of the GGD and GMD. The GMD also demonstrates extremely promising empirical evidence at recognizing letter drawings from the {\tt LETTER} dataset \cite{da_vitoria_lobo_iam_2008}. | 翻訳日:2023-06-06 19:53:47 公開日:2023-06-03 |
# イベント型オントロジーの拡張:微調整されたllms提案を用いた動詞とクラスの追加 Extending an Event-type Ontology: Adding Verbs and Classes Using Fine-tuned LLMs Suggestions ( http://arxiv.org/abs/2306.02130v1 ) ライセンス: Link先を確認 | Jana Strakov\'a, Eva Fu\v{c}\'ikov\'a, Jan Haji\v{c}, Zde\v{n}ka Ure\v{s}ov\'a | (参考訳) 本研究では,既存のイベントタイプのオントロジーに記述語(verbs)を追加するという,語彙拡張タスクのためのデータの事前アノテーションを行うための,高度な機械学習手法,特に微調整された大規模言語モデルの利用について検討した。
既存のクラスに割り当てられない動詞を識別するためのしきい値を見つけ出し、新しいクラスの種として使用するために、アノテータにどの動詞を含めるべきか、または現在のオントロジーの外にある動詞を少なくともヒントを提供するためのヒューリスティックスの研究から、アノテータがより効率的になるように自動スコアを使用することまで、いくつかの研究課題が注目されてきた。
また,自動スコアと注記との相関についても慎重に検討した。
相関性は強いが、アノテーションの固有性に対する影響は、そのような事前アノテーションの事実が比較的短いアノテーション時間につながるにもかかわらず、その線形性から控えめであることがわかった。 In this project, we have investigated the use of advanced machine learning methods, specifically fine-tuned large language models, for pre-annotating data for a lexical extension task, namely adding descriptive words (verbs) to an existing (but incomplete, as of yet) ontology of event types. Several research questions have been focused on, from the investigation of a possible heuristics to provide at least hints to annotators which verbs to include and which are outside the current version of the ontology, to the possible use of the automatic scores to help the annotators to be more efficient in finding a threshold for identifying verbs that cannot be assigned to any existing class and therefore they are to be used as seeds for a new class. We have also carefully examined the correlation of the automatic scores with the human annotation. While the correlation turned out to be strong, its influence on the annotation proper is modest due to its near linearity, even though the mere fact of such pre-annotation leads to relatively short annotation times. | 翻訳日:2023-06-06 19:53:30 公開日:2023-06-03 |
# 実世界のバイタルサインデータに基づく多変量時系列クラスタリングアルゴリズムを用いたICU患者のサブグループ同定 Identifying Subgroups of ICU Patients Using End-to-End Multivariate Time-Series Clustering Algorithm Based on Real-World Vital Signs Data ( http://arxiv.org/abs/2306.02121v1 ) ライセンス: Link先を確認 | Tongyue Shi, Zhilong Zhang, Wentie Liu, Junhua Fang, Jianguo Hao, Shuai Jin, Huiying Zhao and Guilan Kong | (参考訳) 本研究では,icu滞在時の最初の8時間データを監視するために,温度,心拍数,平均血圧,呼吸速度,spo2など,動的,高頻度,多変量多変量バイタルサインデータの利用をデータソースとして検討した。
様々なクラスタリングアルゴリズムを比較し,K-Meansと組み合わせたTime2Featと呼ばれるエンドツーエンドの時系列クラスタリングシステムを,ICUの患者をクラスタリングする最も効果的な方法として選択した。
クラスタリング分析では,2008年から2016年までの8,080人の患者と,2017年から2019年までの2,038人のモデル検証を行った。
異なるカテゴリーで臨床死亡率の差を分析することにより,ICU死亡率と病院死亡率の変動リスクがサブグループによって異なることがわかった。
さらに、バイタルサインの変化の軌跡を可視化した。
本研究は, ICU設定における患者管理とモニタリングにおける多変量時系列クラスタリングシステムの有用性に関する貴重な知見を提供する。 This study employed the MIMIC-IV database as data source to investigate the use of dynamic, high-frequency, multivariate time-series vital signs data, including temperature, heart rate, mean blood pressure, respiratory rate, and SpO2, monitored first 8 hours data in the ICU stay. Various clustering algorithms were compared, and an end-to-end multivariate time series clustering system called Time2Feat, combined with K-Means, was chosen as the most effective method to cluster patients in the ICU. In clustering analysis, data of 8,080 patients admitted between 2008 and 2016 was used for model development and 2,038 patients admitted between 2017 and 2019 for model validation. By analyzing the differences in clinical mortality prognosis among different categories, varying risks of ICU mortality and hospital mortality were found between different subgroups. Furthermore, the study visualized the trajectory of vital signs changes. The findings of this study provide valuable insights into the potential use of multivariate time-series clustering systems in patient management and monitoring in the ICU setting. | 翻訳日:2023-06-06 19:53:09 公開日:2023-06-03 |
# tart: task-adaptive reference transformation によるテキスト分類の改善 TART: Improved Few-shot Text Classification Using Task-Adaptive Reference Transformation ( http://arxiv.org/abs/2306.02175v1 ) ライセンス: Link先を確認 | Shuo Lei, Xuchao Zhang, Jianfeng He, Fanglan Chen, Chang-Tien Lu | (参考訳) メタラーニングは、数少ないテキスト分類に取り組み、最先端のパフォーマンスを達成するためのトレンド技術として登場した。
しかし、既存のアプローチの性能はサポートセットのクラス間分散に大きく依存する。
結果として、サンプルクラスのセマンティクスが異なっている一方で、同様のセマンティクスを持つクラスを区別できない場合、タスクでうまく機能する。
本稿では,タスク適応距離空間において,クラスプロトタイプをクラスごとの固定基準点に変換することで一般化を促進すべく,タスク適応基準変換(TART)ネットワークを提案する。
タスク適応距離空間における変換されたプロトタイプ間の分岐をさらに最大化するため、tartは変換されたプロトタイプ間の判別参照正規化を導入する。
4つのベンチマークデータセットで広範な実験を行い,全データセットの最先端モデルに対して明確な優位性を示す。
特に,20のNewsgroupsデータセットにおける1ショットと5ショットの分類では,最先端の手法を7.4%,5.4%に超えている。 Meta-learning has emerged as a trending technique to tackle few-shot text classification and achieve state-of-the-art performance. However, the performance of existing approaches heavily depends on the inter-class variance of the support set. As a result, it can perform well on tasks when the semantics of sampled classes are distinct while failing to differentiate classes with similar semantics. In this paper, we propose a novel Task-Adaptive Reference Transformation (TART) network, aiming to enhance the generalization by transforming the class prototypes to per-class fixed reference points in task-adaptive metric spaces. To further maximize divergence between transformed prototypes in task-adaptive metric spaces, TART introduces a discriminative reference regularization among transformed prototypes. Extensive experiments are conducted on four benchmark datasets and our method demonstrates clear superiority over the state-of-the-art models in all the datasets. In particular, our model surpasses the state-of-the-art method by 7.4% and 5.4% in 1-shot and 5-shot classification on the 20 Newsgroups dataset, respectively. | 翻訳日:2023-06-06 19:47:31 公開日:2023-06-03 |
# 拡散モデルのためのトレーニングデータ帰属 Training Data Attribution for Diffusion Models ( http://arxiv.org/abs/2306.02174v1 ) ライセンス: Link先を確認 | Zheng Dai and David K Gifford | (参考訳) トレーニングデータセットに基づいた高品質なサンプルを合成する上で,拡散モデルがますます人気を集めている。
しかし、トレーニングデータセットの膨大なサイズを考えると、トレーニングデータセットがトレーニング拡散モデルによって生成されたサンプルに与える影響を評価することは困難である。
拡散モデル入力と出力を関連づけることの難しさは、説明可能性やデータ属性の訓練に重大な課題をもたらす。
本稿では,学習データがアンサンブルを用いて拡散モデルの出力に与える影響を明らかにする新しい手法を提案する。
我々のアプローチでは、エンコードされたアンサンブル内の個々のモデルは、影響のあるトレーニング例の識別を可能にするために、訓練データ全体の分割を慎重に設計した上で訓練される。
得られたモデルアンサンブルは、トレーニングデータの影響の効率的なアブレーションを可能にし、トレーニングデータがモデル出力に与える影響を評価する。
これらのアンサンブルを生成モデルとして実現し,その影響評価手法の有効性を示す。 Diffusion models have become increasingly popular for synthesizing high-quality samples based on training datasets. However, given the oftentimes enormous sizes of the training datasets, it is difficult to assess how training data impact the samples produced by a trained diffusion model. The difficulty of relating diffusion model inputs and outputs poses significant challenges to model explainability and training data attribution. Here we propose a novel solution that reveals how training data influence the output of diffusion models through the use of ensembles. In our approach individual models in an encoded ensemble are trained on carefully engineered splits of the overall training data to permit the identification of influential training examples. The resulting model ensembles enable efficient ablation of training data influence, allowing us to assess the impact of training data on model outputs. We demonstrate the viability of these ensembles as generative models and the validity of our approach to assessing influence. | 翻訳日:2023-06-06 19:47:12 公開日:2023-06-03 |
# ニューラルネットワークを用いた確率的太陽プロキシ予測 Probabilistic Solar Proxy Forecasting with Neural Network Ensembles ( http://arxiv.org/abs/2306.02169v1 ) ライセンス: Link先を確認 | Joshua D. Daniell and Piyush M. Mehta | (参考訳) 宇宙天気指標は、大気抵抗によって低軌道(leo)の物体に直接影響する熱圏密度の予測を促進するために一般的に用いられる。
最もよく使われる宇宙天気のプロキシの1つ、$f_{10.7 cm}$は、太陽極端紫外線(euv)による熱圏へのエネルギー沈着とよく相関する。
現在、USAFは、線形アルゴリズムを用いて$F_{10.7 cm}$を予測するSpace Environment Technologies (SET) を契約している。
本研究では,多層パーセプトロン(MLP)と長期記憶(LSTM)を用いたニューラルネットワークアンサンブルを用いて,SET予測を改善する手法を提案する。
過去の$F_{10.7 cm}$値からのみ予測を行い、予測を改善するためにデータ操作についても検討する。
本稿では,データ操作手法(平均値と振り返り),マルチステップおよび動的予測について検討する。
本研究は,アンサンブル手法を用いた場合のベースラインに対する改善を示す。
この研究で見つかった最良のモデルは、マルチステップまたはマルチステップと動的予測の組み合わせを用いたアンサンブルアプローチである。
ほぼすべてのアプローチが改善され、最良のモデルは相対mseで45から55\%改善される。
他の相対誤差指標はアンサンブル法を用いることで大幅に改善された。
我々はまた、アンサンブルアプローチを利用して予測値の分布を提供し、予測の不確実性の調査を可能にした。
我々の研究は、高い太陽活動レベルと高い太陽活動レベルのバイアスの少ない予測モデルを発見した。
キャリブレーション誤差スコア(CES)を使用して不確実性も調査され、私たちのベストアンサンブルは他の作品と同様のCESに到達しました。 Space weather indices are used commonly to drive forecasts of thermosphere density, which directly affects objects in low-Earth orbit (LEO) through atmospheric drag. One of the most commonly used space weather proxies, $F_{10.7 cm}$, correlates well with solar extreme ultra-violet (EUV) energy deposition into the thermosphere. Currently, the USAF contracts Space Environment Technologies (SET), which uses a linear algorithm to forecast $F_{10.7 cm}$. In this work, we introduce methods using neural network ensembles with multi-layer perceptrons (MLPs) and long-short term memory (LSTMs) to improve on the SET predictions. We make predictions only from historical $F_{10.7 cm}$ values, but also investigate data manipulation to improve forecasting. We investigate data manipulation methods (backwards averaging and lookback) as well as multi step and dynamic forecasting. This work shows an improvement over the baseline when using ensemble methods. The best models found in this work are ensemble approaches using multi step or a combination of multi step and dynamic predictions. Nearly all approaches offer an improvement, with the best models improving between 45 and 55\% on relative MSE. Other relative error metrics were shown to improve greatly when ensembles methods were used. We were also able to leverage the ensemble approach to provide a distribution of predicted values; allowing an investigation into forecast uncertainty. Our work found models that produced less biased predictions at elevated and high solar activity levels. Uncertainty was also investigated through the use of a calibration error score metric (CES), our best ensemble reached similar CES as other work. | 翻訳日:2023-06-06 19:46:59 公開日:2023-06-03 |
# サイバーセキュリティゲームにおける攻撃(および副Versa)による防御への学習 Learning to Defend by Attacking (and Vice-Versa): Transfer of Learning in Cybersecurity Games ( http://arxiv.org/abs/2306.02165v1 ) ライセンス: Link先を確認 | Tyler Malloy, Cleotilde Gonzalez | (参考訳) 人間の意思決定における認知バイアスを考慮に入れたサイバー防衛システムの設計は、人間の攻撃者に対するパフォーマンス向上に大きな成功を収めた。
しかし、この領域の注目の多くは、人間の攻撃者のバイアスの比較的単純な説明に焦点を合わせており、敵の行動や攻撃者の行動を乱すことによって防御がどのように改善されるかについてはほとんど分かっていない。
本研究では, 事例ベース学習理論, 心の理論, 学習の伝達の認知能力に着想を得た, 人間の意思決定の新しいモデルを提案する。
このモデルは、防御者と攻撃者の両方の役割から学び、相手の信念、意図、行動を予測することによって機能する。
提案したモデルは、人間の偏見を考慮せずに最適な行動を試みる代替手段と比較して、幅広い敵からの攻撃を防御できる。
さらに,提案モデルは,サイバー防衛のシナリオにはまだ適用されていない学習の人間移動を明示的にモデル化することで,人間的な行動に対してよりよく機能する。
シミュレーション実験の結果は、攻撃と防衛の役割で訓練されたエージェントの認知にインスパイアされたモデルの有用性と、これらの洞察が現実世界のサイバーセキュリティにどのように使われるかを示す。 Designing cyber defense systems to account for cognitive biases in human decision making has demonstrated significant success in improving performance against human attackers. However, much of the attention in this area has focused on relatively simple accounts of biases in human attackers, and little is known about adversarial behavior or how defenses could be improved by disrupting attacker's behavior. In this work, we present a novel model of human decision-making inspired by the cognitive faculties of Instance-Based Learning Theory, Theory of Mind, and Transfer of Learning. This model functions by learning from both roles in a security scenario: defender and attacker, and by making predictions of the opponent's beliefs, intentions, and actions. The proposed model can better defend against attacks from a wide range of opponents compared to alternatives that attempt to perform optimally without accounting for human biases. Additionally, the proposed model performs better against a range of human-like behavior by explicitly modeling human transfer of learning, which has not yet been applied to cyber defense scenarios. Results from simulation experiments demonstrate the potential usefulness of cognitively inspired models of agents trained in attack and defense roles and how these insights could potentially be used in real-world cybersecurity. | 翻訳日:2023-06-06 19:46:31 公開日:2023-06-03 |
# キーワードスポッティングシステムのオンデバイスカスタマイズのためのマイズショットオープンセット学習 Few-Shot Open-Set Learning for On-Device Customization of KeyWord Spotting Systems ( http://arxiv.org/abs/2306.02161v1 ) ライセンス: Link先を確認 | Manuele Rusci and Tinne Tuytelaars | (参考訳) パーソナライズされたKeyWord Spotting(KWS)パイプラインは、通常、ユーザ定義された大量の発話に対してディープラーニングモデルのトレーニングを必要とする。
このギャップを埋めるために,深層特徴エンコーダとプロトタイプに基づく分類器を組み合わせることで,オープンセットkws分類のための少数ショット学習手法を検討する。
google speech commandデータセットの10のクラスからユーザ定義キーワードを使用して,未知データの誤受率を5%に抑えながら,10ショットシナリオにおいて最大76%の精度を報告した。
解析設定では、正規化された出力特徴を持つエンコーダを訓練するための三重項損失の使用は、ダミーな未知のプロトタイプのジェネレータと共同で訓練されたプロトタイプネットワークよりも優れている。
この設計は分類問題で訓練されたエンコーダよりも効果的であり、他のiso精度アプローチよりもパラメータが少ない。 A personalized KeyWord Spotting (KWS) pipeline typically requires the training of a Deep Learning model on a large set of user-defined speech utterances, preventing fast customization directly applied on-device. To fill this gap, this paper investigates few-shot learning methods for open-set KWS classification by combining a deep feature encoder with a prototype-based classifier. With user-defined keywords from 10 classes of the Google Speech Command dataset, our study reports an accuracy of up to 76% in a 10-shot scenario while the false acceptance rate of unknown data is kept to 5%. In the analyzed settings, the usage of the triplet loss to train an encoder with normalized output features performs better than the prototypical networks jointly trained with a generator of dummy unknown-class prototypes. This design is also more effective than encoders trained on a classification problem and features fewer parameters than other iso-accuracy approaches. | 翻訳日:2023-06-06 19:46:09 公開日:2023-06-03 |
# 逆コンプトン散乱に関する注記 Notes on the inverse Compton scattering ( http://arxiv.org/abs/2306.02160v1 ) ライセンス: Link先を確認 | Kirill Bornikov, Igor Volobuev, Yuri Popov | (参考訳) この論文は、相対論的電子による光子の逆コンプトン散乱と衝突粒子の偏光に対する運動的条件を扱っており、この過程の微分断面積の値に影響を及ぼす。
電子と光子ヘリシティが断面の値に有意な影響を及ぼすことが発見された。
超相対論的な場合、初期光子運動量と初期電子の運動量とが逆になるときに、初期電子運動量方向の散乱の断面がほぼ2倍に増加するという驚くべき効果も発見されている。 The paper deals with kinematic conditions for the inverse Compton scattering of photons by relativistic electrons and the polarizations of the colliding particles, which affect the value of the differential cross section of the process. A significant influence of the electron and photon helicity on the value of the cross section has been found. In the ultrarelativistic case, a surprising effect of an almost twofold increase in the cross section of scattering in the direction of the initial electron momentum has also been discovered, when the initial photon momentum is transverse to that of the initial electron. | 翻訳日:2023-06-06 19:45:52 公開日:2023-06-03 |
# 高滑らか関数の勾配なし最適化:改良解析と新しいアルゴリズム Gradient-free optimization of highly smooth functions: improved analysis and a new algorithm ( http://arxiv.org/abs/2306.02159v1 ) ライセンス: Link先を確認 | Arya Akhavan, Evgenii Chzhen, Massimiliano Pontil, and Alexandre B. Tsybakov | (参考訳) この研究は、目的関数が非常に滑らかで、追加特性を満たす可能性があるという仮定の下で、ゼロ次ノイズオラクル情報による最小化問題を研究する。
我々は、勾配推定器の形式が異なる2種類のゼロ次射影勾配降下アルゴリズムを考察する。
最初のアルゴリズムは、bach and perchet (2016) による$\ell_2$ sphere 上のランダム化に基づく勾配推定器を用いる。
先行研究で研究した高滑らかかつ強凸関数のクラスについて,このアルゴリズムを改良した解析を行い,非凸関数のより一般的な2つのクラスに対する収束率を導出する。
すなわち、Polyak-{\L}ojasiewicz条件を満たす高滑らかな函数と、追加的な性質を持たない高滑らかな函数のクラスを考える。
第二のアルゴリズムは$\ell_1$球面上のランダム化に基づいており、最近アハバンら (2022) のリプシッツ凸関数に対して提案されたアルゴリズムを非常に滑らかに設定する。
ノイズのないオラクルの場合、このアルゴリズムは$\ell_2$ランダム化やよく使われるガウス確率化アルゴリズムよりもバイアスと分散のバウンダリが良いが、ノイズの多い場合、$\ell_1$と$\ell_2$アルゴリズムは同様に改善された理論的保証の恩恵を受ける。
この改善は、$\ell_1$ または $\ell_2$ 球面上の均一分布に対する Poincar\'e 型不等式に基づく新しい証明手法によって達成される。
結果は、ノイズに対する弱い(ほぼ敵対的な)仮定の下で確立される。
さらに,いくつかのケースで得られた上界の最適性または至近性を示す最小下界を提供する。 This work studies minimization problems with zero-order noisy oracle information under the assumption that the objective function is highly smooth and possibly satisfies additional properties. We consider two kinds of zero-order projected gradient descent algorithms, which differ in the form of the gradient estimator. The first algorithm uses a gradient estimator based on randomization over the $\ell_2$ sphere due to Bach and Perchet (2016). We present an improved analysis of this algorithm on the class of highly smooth and strongly convex functions studied in the prior work, and we derive rates of convergence for two more general classes of non-convex functions. Namely, we consider highly smooth functions satisfying the Polyak-{\L}ojasiewicz condition and the class of highly smooth functions with no additional property. The second algorithm is based on randomization over the $\ell_1$ sphere, and it extends to the highly smooth setting the algorithm that was recently proposed for Lipschitz convex functions in Akhavan et al. (2022). We show that, in the case of noiseless oracle, this novel algorithm enjoys better bounds on bias and variance than the $\ell_2$ randomization and the commonly used Gaussian randomization algorithms, while in the noisy case both $\ell_1$ and $\ell_2$ algorithms benefit from similar improved theoretical guarantees. The improvements are achieved thanks to a new proof techniques based on Poincar\'e type inequalities for uniform distributions on the $\ell_1$ or $\ell_2$ spheres. The results are established under weak (almost adversarial) assumptions on the noise. Moreover, we provide minimax lower bounds proving optimality or near optimality of the obtained upper bounds in several cases. | 翻訳日:2023-06-06 19:45:43 公開日:2023-06-03 |
# ANN構造を改善するためのヨードニューラルネットワークへの変換 Transforming to Yoked Neural Networks to Improve ANN Structure ( http://arxiv.org/abs/2306.02157v1 ) ライセンス: Link先を確認 | Xinshun Liu and Yizhi Fang and Yichao Jiang | (参考訳) 既存のほとんどの古典的人工ニューラルネットワーク(ANN)は、ニューラルネットワークを模倣する木構造として設計されている。
本稿では,ニューラルネットワークを特徴付けるのに,木の接続性は十分ではないと論じる。
木の同じレベルのノードは互いに接続できない、すなわちこれらの神経ユニットは互いに情報を共有できない、これはANNの大きな欠点である。
近年、ANNは有向非巡回グラフ(DAG)のようなより複雑な構造へと大幅に改善されているが、これらの手法はANNに対して一方向および非巡回バイアスを持つ。
本稿では,神経モジュールを定式化するために,同じレベルのノードをヨークスする ann の同じレベルのノードに対して,双方向完全グラフを構築する手法を提案する。
われわれのモデルを略してYNNと呼んでいる。
YNNは情報伝達を著しく促進し、明らかに手法の性能向上に寄与する。
我々のYNNは、従来のANNよりもずっとよくニューラルネットワークを模倣することができます。
本稿では、ANNの既存の構造バイアスを分析し、そのような構造バイアスを効率的に除去するモデルYNNを提案する。
我々のモデルでは、ノードは特徴の集約と変換を行い、エッジは情報の流れを決定する。
さらに,接続性の分布に補助的なスパーシティ制約を課し,重要な接続に焦点をあてる学習構造を促進する。
最後に、最適化された構造に基づいて、YNNモデルの計算負担を軽減するため、最小カット法に基づく小さなニューラルモジュール構造も設計する。
この学習プロセスは、既存のネットワークと異なるタスクと互換性がある。
得られた定量的実験結果は,学習した接続性が従来のnn構造よりも優れていることを示唆する。 Most existing classical artificial neural networks (ANN) are designed as a tree structure to imitate neural networks. In this paper, we argue that the connectivity of a tree is not sufficient to characterize a neural network. The nodes of the same level of a tree cannot be connected with each other, i.e., these neural unit cannot share information with each other, which is a major drawback of ANN. Although ANN has been significantly improved in recent years to more complex structures, such as the directed acyclic graph (DAG), these methods also have unidirectional and acyclic bias for ANN. In this paper, we propose a method to build a bidirectional complete graph for the nodes in the same level of an ANN, which yokes the nodes of the same level to formulate a neural module. We call our model as YNN in short. YNN promotes the information transfer significantly which obviously helps in improving the performance of the method. Our YNN can imitate neural networks much better compared with the traditional ANN. In this paper, we analyze the existing structural bias of ANN and propose a model YNN to efficiently eliminate such structural bias. In our model, nodes also carry out aggregation and transformation of features, and edges determine the flow of information. We further impose auxiliary sparsity constraint to the distribution of connectedness, which promotes the learned structure to focus on critical connections. Finally, based on the optimized structure, we also design small neural module structure based on the minimum cut technique to reduce the computational burden of the YNN model. This learning process is compatible with the existing networks and different tasks. The obtained quantitative experimental results reflect that the learned connectivity is superior to the traditional NN structure. | 翻訳日:2023-06-06 19:45:12 公開日:2023-06-03 |
# 事前学習と学習を継続した未翻訳ターゲット言語のための音響単語埋め込み Acoustic Word Embeddings for Untranscribed Target Languages with Continued Pretraining and Learned Pooling ( http://arxiv.org/abs/2306.02153v1 ) ライセンス: Link先を確認 | Ramon Sanabria, Ondrej Klejch, Hao Tang, Sharon Goldwater | (参考訳) 音響単語の埋め込みは通常、単語のような一対の単位を用いてプール関数を訓練することによって生成される。
教師なしシステムでは、これらはk-nearest neighbor(KNN)サーチを用いて採掘される。
近年,事前学習型自己教師型英語モデルの平均プール表現が有望な代替案として提案されているが,対象言語における性能は完全には競合しなかった。
そこで我々は,目標言語に自己教師付きモデルを適用するために,継続事前学習を用い,マルチリンガル電話認識器(MPR)を用いて電話機n-gramペアを抽出し,プール機能を訓練する。
4つの言語で評価した結果,両手法が単語識別における近年のアプローチより優れていることがわかった。
さらに、MPR法は、KNNよりも桁違いに高速で、データ効率が高い。
また,事前学習した表現の上に学習プールを実行することによる改善もみられた。 Acoustic word embeddings are typically created by training a pooling function using pairs of word-like units. For unsupervised systems, these are mined using k-nearest neighbor (KNN) search, which is slow. Recently, mean-pooled representations from a pre-trained self-supervised English model were suggested as a promising alternative, but their performance on target languages was not fully competitive. Here, we explore improvements to both approaches: we use continued pre-training to adapt the self-supervised model to the target language, and we use a multilingual phone recognizer (MPR) to mine phone n-gram pairs for training the pooling function. Evaluating on four languages, we show that both methods outperform a recent approach on word discrimination. Moreover, the MPR method is orders of magnitude faster than KNN, and is highly data efficient. We also show a small improvement from performing learned pooling on top of the continued pre-trained representations. | 翻訳日:2023-06-06 19:44:47 公開日:2023-06-03 |
# 力学系におけるベイズ状態とパラメータ推定に対する情報場理論のアプローチ An information field theory approach to Bayesian state and parameter estimation in dynamical systems ( http://arxiv.org/abs/2306.02150v1 ) ライセンス: Link先を確認 | Kairui Hao, Ilias Bilionis | (参考訳) 力学系の状態推定とパラメータキャリブレーション問題は、科学と工学にまたがってユビキタスである。
この問題に対するベイズ的アプローチは、不確実性の定量化と異なる実験的モダリティのシームレスな融合を可能にするため、金の標準である。
力学が離散的で確率的な場合、カルマン、粒子、変分フィルタのような強力な手法を用いることができる。
実践者は、ダイナミクスを識別し、架空の遷移確率を導入する後、この手法を連続時間、決定論的力学系に適用する。
しかし、時間離散化に基づくアプローチは、確率変数の数は時間ステップの数と線形に増加するため、次元の呪いに苦しむ。
さらに、架空の遷移確率の導入は、モデルパラメータの数を増やし、推論バイアスを引き起こすため、不満足な解決策である。
これらの欠点に対処するために, 連続時間決定論的力学系に適した状態とパラメータ推定のためのスケーラブルなベイズ的手法を開発する。
我々の方法論は情報場理論に基づいている。
具体的には,物理を満足する関数がより高い確率となるように,システム応答の関数空間に物理インフォームドされた事前確率尺度を構築する。
この前はモデルフォームエラーを定量化できます。
我々は,観測過程の確率論的モデルを用いて,システムの応答を観測に結びつける。
システム応答と全てのパラメータの後方にある関節はベイズの規則によって与えられる。
難解な後方を近似するため,確率的変分推論アルゴリズムを開発した。
まとめると、開発された方法論は力学系におけるベイズ推定のための強力な枠組みを提供する。 Dynamical system state estimation and parameter calibration problems are ubiquitous across science and engineering. Bayesian approaches to the problem are the gold standard as they allow for the quantification of uncertainties and enable the seamless fusion of different experimental modalities. When the dynamics are discrete and stochastic, one may employ powerful techniques such as Kalman, particle, or variational filters. Practitioners commonly apply these methods to continuous-time, deterministic dynamical systems after discretizing the dynamics and introducing fictitious transition probabilities. However, approaches based on time-discretization suffer from the curse of dimensionality since the number of random variables grows linearly with the number of time-steps. Furthermore, the introduction of fictitious transition probabilities is an unsatisfactory solution because it increases the number of model parameters and may lead to inference bias. To address these drawbacks, the objective of this paper is to develop a scalable Bayesian approach to state and parameter estimation suitable for continuous-time, deterministic dynamical systems. Our methodology builds upon information field theory. Specifically, we construct a physics-informed prior probability measure on the function space of system responses so that functions that satisfy the physics are more likely. This prior allows us to quantify model form errors. We connect the system's response to observations through a probabilistic model of the measurement process. The joint posterior over the system responses and all parameters is given by Bayes' rule. To approximate the intractable posterior, we develop a stochastic variational inference algorithm. In summary, the developed methodology offers a powerful framework for Bayesian estimation in dynamical systems. | 翻訳日:2023-06-06 19:44:30 公開日:2023-06-03 |
# サイクル一貫性駆動オブジェクト発見 Cycle Consistency Driven Object Discovery ( http://arxiv.org/abs/2306.02204v1 ) ライセンス: Link先を確認 | Aniket Didolkar, Anirudh Goyal, Yoshua Bengio | (参考訳) 人間の認知に似た、オブジェクト中心の表現を効果的に学習するディープラーニングモデルの開発は、依然として困難な課題である。
既存のアプローチでは、アーキテクチャ上の先行情報や深度マップやフローマップなどの補助情報を利用して、オブジェクトを固定サイズのベクトルとして表現することで、オブジェクトの発見を容易にする。
しかし、アーキテクチャ上の先行事項への依存は信頼性を損なうため、正しいオブジェクトを特定するには巧妙なエンジニアリングが必要である。
同様に、補助的な情報に依存する手法は、ほとんどの自然のシーンでは利用できないため、準最適である。
これらの制約に対処するため,シーンの各オブジェクトを別のスロットにマッピングする制約を明示的に最適化する手法を提案する。
我々は,本質的に循環する一貫性目標を導入することで,この制約を定式化する。
これを \textit{cycle-consistency} の目的と呼ぶ。
これらの一貫性を既存のスロットベースのオブジェクト中心手法に適用することにより、オブジェクト発見性能の大幅な向上を示す。
これらの改善は、合成シーンと実世界のシーンの両方で一貫しており、提案手法の有効性と一般化性を強調している。
さらに,提案手法から学習したスロットは,下流強化学習(RL)タスクに優れた適合性を示すことを示した。 Developing deep learning models that effectively learn object-centric representations, akin to human cognition, remains a challenging task. Existing approaches have explored slot-based methods utilizing architectural priors or auxiliary information such as depth maps or flow maps to facilitate object discovery by representing objects as fixed-size vectors, called ``slots'' or ``object files''. However, reliance on architectural priors introduces unreliability and requires meticulous engineering to identify the correct objects. Likewise, methods relying on auxiliary information are suboptimal as such information is often unavailable for most natural scenes. To address these limitations, we propose a method that explicitly optimizes the constraint that each object in a scene should be mapped to a distinct slot. We formalize this constraint by introducing consistency objectives which are cyclic in nature. We refer to them as the \textit{cycle-consistency} objectives. By applying these consistency objectives to various existing slot-based object-centric methods, we demonstrate significant enhancements in object-discovery performance. These improvements are consistent across both synthetic and real-world scenes, highlighting the effectiveness and generalizability of the proposed approach. Furthermore, our experiments show that the learned slots from the proposed method exhibit superior suitability for downstream reinforcement learning (RL) tasks. | 翻訳日:2023-06-06 19:37:38 公開日:2023-06-03 |
# ハイパーリレーショナル知識グラフのためのシンキング埋め込み Shrinking Embeddings for Hyper-Relational Knowledge Graphs ( http://arxiv.org/abs/2306.02199v1 ) ライセンス: Link先を確認 | Bo Xiong, Mojtaba Nayyer, Shirui Pan, Steffen Staab | (参考訳) 知識グラフ(KGs)上のリンク予測は、連立関係KGsにおいて広範囲に研究され、それぞれの事実は三重項で表される。
しかし、重要な知識のかなりの量は、各事実が主三重項と、より複雑な意味論を表現するキーと値のペアからなる修飾子からなる超関係事実によって表される。
ハイパーリレーショナルkgを組み込むための最近の研究がいくつか提案されているが、これらの方法は修飾子単調性、修飾子含意、修飾子相互排他といった超リレーショナル事実の本質的な推論パターンを捉えられず、その一般化能力に制限がある。
これを回避するために,これらのパターンを明示的にモデル化することを目的とした幾何的超相関KG埋め込み法である \emph{ShrinkE} を提案する。
ShrinkEは原始三重項を頭部から関係特異的箱への空間関数変換としてモデル化する。
各修飾子 `shrinks' は、可能な答え集合を狭め、したがって修飾子単調性を実現する。
修飾子ボックス間の空間的関係は、含意や相互排他といった修飾子のコア推論パターンをモデル化することができる。
実験結果は,高相関kgsの3つのベンチマークにおいて, shrinke が優れていることを示した。 Link prediction on knowledge graphs (KGs) has been extensively studied on binary relational KGs, wherein each fact is represented by a triple. A significant amount of important knowledge, however, is represented by hyper-relational facts where each fact is composed of a primal triple and a set of qualifiers comprising a key-value pair that allows for expressing more complicated semantics. Although some recent works have proposed to embed hyper-relational KGs, these methods fail to capture essential inference patterns of hyper-relational facts such as qualifier monotonicity, qualifier implication, and qualifier mutual exclusion, limiting their generalization capability. To unlock this, we present \emph{ShrinkE}, a geometric hyper-relational KG embedding method aiming to explicitly model these patterns. ShrinkE models the primal triple as a spatial-functional transformation from the head into a relation-specific box. Each qualifier ``shrinks'' the box to narrow down the possible answer set and, thus, realizes qualifier monotonicity. The spatial relationships between the qualifier boxes allow for modeling core inference patterns of qualifiers such as implication and mutual exclusion. Experimental results demonstrate ShrinkE's superiority on three benchmarks of hyper-relational KGs. | 翻訳日:2023-06-06 19:37:01 公開日:2023-06-03 |
# 真空トルク, 推進力, 異常接力:熱平衡からの非相反媒質の影響 Vacuum torque, propulsive forces, and anomalous tangential forces: Effects of nonreciprocal media out of thermal equilibrium ( http://arxiv.org/abs/2306.02197v1 ) ライセンス: Link先を確認 | Kimball A. Milton, Xin Guo, Gerard Kennedy, Nima Pourtolami, and Dylan M. DelCol | (参考訳) 一般化されたゆらぎ散逸定理から、非相反性物質からなる静止体は、その環境と熱平衡がなければ、真空中であってもトルクを経験することが知られている。
しかし、このような状況では、より高い順序を除いて、自己推進を経験しない。
それにもかかわらず、そのような物体は、横方向の翻訳対称性を持つ通常の面に隣接する場合、通常のトルクと横方向の力の両方を経験することができる。
これらの現象がどのように発生し、ターミナル速度が達成されるかについて議論し、lorenz-lorentz補正や放射による冷却など、観測結果を適用する際のいくつかの制限を指摘した。
これらの制限にもかかわらず、議論される効果は観測可能であるように思える。 From the generalized fluctuation-dissipation theorem, it is known that a body at rest made of nonreciprocal material may experience a torque, even in vacuum, if it is not in thermal equilibrium with its environment. However, it does not experience self-propulsion in such circumstances, except in higher order. Nevertheless, such a body may experience both a normal torque and a lateral force when adjacent to an ordinary surface with transverse translational symmetry. We explore how these phenomena arise, discuss what terminal velocities might be achieved, and point out some of the limitations of applying our results to observations, including the Lorenz-Lorentz correction, and the cooling due to radiation. In spite of these limitations, the effects discussed would seem to be observable. | 翻訳日:2023-06-06 19:36:09 公開日:2023-06-03 |
# 効果的な回答文選択のための質問コンテキストアライメントと回答コンテキスト依存性 Question-Context Alignment and Answer-Context Dependencies for Effective Answer Sentence Selection ( http://arxiv.org/abs/2306.02196v1 ) ライセンス: Link先を確認 | Minh Van Nguyen, Kishan KC, Toan Nguyen, Thien Huu Nguyen, Ankit Chadha, Thuy Vu | (参考訳) オープンドメイン質問回答における回答文選択(AS2)は、Web文書から抽出した候補文のランク付けにより、質問に対する回答を求める。
最近の研究は、解答コンテキスト、すなわち候補周辺の文をTransformerモデルに追加の入力文字列として組み込むことで、正しさのスコアリングを改善する。
本稿では,質問文と回答文の依存関係を候補の最終的な表現に明示的に組み込むことで,候補のスコアリングを改善することを提案する。
具体的には、最適なトランスポートを用いて、回答が抽出された文間の質問ベースの依存関係を計算する。
次に、これらの依存関係をグラフのエッジとして表現し、グラフのノードである候補の表現を導出するためにグラフ畳み込みネットワークを使用します。
提案手法は, WikiQA や WDRASS など一般的な AS2 ベンチマークにおいて大幅な改善を実現し, すべてのベンチマークで新たな最先端のベンチマークが得られた。 Answer sentence selection (AS2) in open-domain question answering finds answer for a question by ranking candidate sentences extracted from web documents. Recent work exploits answer context, i.e., sentences around a candidate, by incorporating them as additional input string to the Transformer models to improve the correctness scoring. In this paper, we propose to improve the candidate scoring by explicitly incorporating the dependencies between question-context and answer-context into the final representation of a candidate. Specifically, we use Optimal Transport to compute the question-based dependencies among sentences in the passage where the answer is extracted from. We then represent these dependencies as edges in a graph and use Graph Convolutional Network to derive the representation of a candidate, a node in the graph. Our proposed model achieves significant improvements on popular AS2 benchmarks, i.e., WikiQA and WDRASS, obtaining new state-of-the-art on all benchmarks. | 翻訳日:2023-06-06 19:35:48 公開日:2023-06-03 |
# LDEB -- 会話中の感情認識のための感情二元化と機械学習によるラベルのデジタル化 LDEB -- Label Digitization with Emotion Binarization and Machine Learning for Emotion Recognition in Conversational Dialogues ( http://arxiv.org/abs/2306.02193v1 ) ライセンス: Link先を確認 | Amitabha Dey, Shan Suthaharan | (参考訳) 会話における感情認識(ERC)は、会話AIとその応用の発展に不可欠である。
したがって、機械学習(ML)の概念を用いた自動ERCモデルの開発は有益である。
しかし、会話の対話は、各対話が感情の特徴記述子と感情タイプ(またはラベル)の関連を絡めるネストされた感情を描写するユニークな問題を示す。
データパウシティの存在に乗じることができるこの絡み合いは、MLモデルの障害となる。
そこで本研究では,テキスト正規化と7ビットディジタル符号化技術を活用し,学習対象のMLモデルに有意義な特徴空間を構築することで,ツイストを解消する,LDEB(Label Digitization with Emotion Binarization)という手法を提案する。
また、FETA-DailyDialogデータセットと呼ばれる公開データセットを特徴学習に利用し、ランダムフォレスト(RF)と人工ニューラルネットワーク(ANN)分類器を用いた階層型ERCモデルを開発した。
シミュレーションにより、annベースのercモデルは、それぞれ74%と76%の正確さと正確さで感情を予測することができた。
シミュレーションでは、ANNモデルが60エポックで約98%の精度でトレーニングできることが示された。
一方, RFに基づくERCモデルでは, 感情を最大78%, 75%の精度で予測することができた。 Emotion recognition in conversations (ERC) is vital to the advancements of conversational AI and its applications. Therefore, the development of an automated ERC model using the concepts of machine learning (ML) would be beneficial. However, the conversational dialogues present a unique problem where each dialogue depicts nested emotions that entangle the association between the emotional feature descriptors and emotion type (or label). This entanglement that can be multiplied with the presence of data paucity is an obstacle for a ML model. To overcome this problem, we proposed a novel approach called Label Digitization with Emotion Binarization (LDEB) that disentangles the twists by utilizing the text normalization and 7-bit digital encoding techniques and constructs a meaningful feature space for a ML model to be trained. We also utilized the publicly available dataset called the FETA-DailyDialog dataset for feature learning and developed a hierarchical ERC model using random forest (RF) and artificial neural network (ANN) classifiers. Simulations showed that the ANN-based ERC model was able to predict emotion with the best accuracy and precision scores of about 74% and 76%, respectively. Simulations also showed that the ANN-model could reach a training accuracy score of about 98% with 60 epochs. On the other hand, the RF-based ERC model was able to predict emotions with the best accuracy and precision scores of about 78% and 75%, respectively. | 翻訳日:2023-06-06 19:35:32 公開日:2023-06-03 |
# 神経ode訓練における自己分化の補正 Correcting auto-differentiation in neural-ODE training ( http://arxiv.org/abs/2306.02192v1 ) ライセンス: Link先を確認 | Yewei Xu, Shi Chen, Qin Li and Stephen J. Wright | (参考訳) 自己分化は、ニューラルネットワークを表現したディープニューラルネットワークに合理的な更新をもたらすか?
数学的解析と数値的な証拠により、ニューラルネットワークが基礎となるODEフロー(LMM(Linear Multistep Method)など)を近似するために高次形式を用いる場合、自動微分を用いたブルートフォース計算は、しばしば非収束人工振動を生成する。
leapfrogの場合、これらの振動を効果的に排除し、勾配計算を正し、基礎となる流れの更新を尊重する簡単な後処理手法を提案する。 Does the use of auto-differentiation yield reasonable updates to deep neural networks that represent neural ODEs? Through mathematical analysis and numerical evidence, we find that when the neural network employs high-order forms to approximate the underlying ODE flows (such as the Linear Multistep Method (LMM)), brute-force computation using auto-differentiation often produces non-converging artificial oscillations. In the case of Leapfrog, we propose a straightforward post-processing technique that effectively eliminates these oscillations, rectifies the gradient computation and thus respects the updates of the underlying flow. | 翻訳日:2023-06-06 19:35:01 公開日:2023-06-03 |
# データとモデルにおける頑固な語彙バイアス Stubborn Lexical Bias in Data and Models ( http://arxiv.org/abs/2306.02190v1 ) ライセンス: Link先を確認 | Sofia Serrano, Jesse Dodge, Noah A. Smith | (参考訳) NLPにおいて、最近の研究は、トレーニングデータにおける様々な特徴とラベル間の刺激的な相関、およびこれらのモデル行動がどのように影響するかに焦点が当てられている。
しかし、このような相関関係の存在と効果は、典型的には特徴によって検討される。
交差する多くの特徴のモデルに対する累積的影響について検討する。
新たな統計的手法を用いて,データにトレーニングされたモデルにおいて,データのスプリアスパターンが出現するかどうかを検証した。
私たちは、自然言語推論と重複質問検出という2つのタスクを選択しました。
このプールの大きさが大きいため、(潜在的に異なる)ラベルと重なり合う特徴の交点を調査できます。
次に、トレーニングデータの*reweight*に最適化アプローチを適用し、数千のスプリットな相関を減らし、再重み付けされたデータに基づいてトレーニングされたモデルにどのように影響するかを調べる。
驚くべきことに、この方法はトレーニングデータにおける語彙バイアスをうまく低減することができるが、トレーニングされたモデルで対応するバイアスの強い証拠がまだ見出され、さらに複雑な特徴(ビグラム)に対するバイアスが悪化している。
データを“デバイアス”することの意味や、データ品質の問題がモデルバイアスにどのように影響するか、という結果の意味について、私たちは議論を締めくくった。 In NLP, recent work has seen increased focus on spurious correlations between various features and labels in training data, and how these influence model behavior. However, the presence and effect of such correlations are typically examined feature by feature. We investigate the cumulative impact on a model of many such intersecting features. Using a new statistical method, we examine whether such spurious patterns in data appear in models trained on the data. We select two tasks -- natural language inference and duplicate-question detection -- for which any unigram feature on its own should ideally be uninformative, which gives us a large pool of automatically extracted features with which to experiment. The large size of this pool allows us to investigate the intersection of features spuriously associated with (potentially different) labels. We then apply an optimization approach to *reweight* the training data, reducing thousands of spurious correlations, and examine how doing so affects models trained on the reweighted data. Surprisingly, though this method can successfully reduce lexical biases in the training data, we still find strong evidence of corresponding bias in the trained models, including worsened bias for slightly more complex features (bigrams). We close with discussion about the implications of our results on what it means to "debias" training data, and how issues of data quality can affect model bias. | 翻訳日:2023-06-06 19:34:49 公開日:2023-06-03 |
# SemEval-2023 Task 6b:Contextual String Embeddings を用いた法的テキストからの法的な名前付きエンティティの抽出 FlairNLP at SemEval-2023 Task 6b: Extraction of Legal Named Entities from Legal Texts using Contextual String Embeddings ( http://arxiv.org/abs/2306.02182v1 ) ライセンス: Link先を確認 | Vinay N Ramesh, Rohan Eswara | (参考訳) インドの法的文書と手続きは、司法制度の整合性と国家の社会的・政治的秩序を維持するために不可欠である。
差し迫った訴訟の件数の増加により、人工知能に関する知識を駆使して多くの法的プロセスを自動化するためのツールの開発が急務である。
本稿では,裁判判決における法的実体の固有体抽出を専門とする知識抽出手法について述べる。
本稿では,法律テキストのキュレートデータセット上でトレーニングされたモデルを用いて,シーケンスラベリングの領域におけるアートアーキテクチャのいくつかの状態を評価する。
flair embeddedsをトレーニングしたbi-lstmモデルが最高の結果を得るのを観察し,本論文の一部としてバイオフォーマットデータセットを公開する。 Indian court legal texts and processes are essential towards the integrity of the judicial system and towards maintaining the social and political order of the nation. Due to the increase in number of pending court cases, there is an urgent need to develop tools to automate many of the legal processes with the knowledge of artificial intelligence. In this paper, we employ knowledge extraction techniques, specially the named entity extraction of legal entities within court case judgements. We evaluate several state of the art architectures in the realm of sequence labeling using models trained on a curated dataset of legal texts. We observe that a Bi-LSTM model trained on Flair Embeddings achieves the best results, and we also publish the BIO formatted dataset as part of this paper. | 翻訳日:2023-06-06 19:34:26 公開日:2023-06-03 |
# 言語モデルを用いた社会科学データセットのコーディングに向けて Towards Coding Social Science Datasets with Language Models ( http://arxiv.org/abs/2306.02177v1 ) ライセンス: Link先を確認 | Christopher Michael Rytting, Taylor Sorensen, Lisa Argyle, Ethan Busby, Nancy Fulda, Joshua Gubler, David Wingate | (参考訳) 研究者はしばしば、大規模なテキストのセット(ラベル、注釈など)を人間に頼っている。
この種の人間のコーディングは社会科学研究の重要な部分を形成するが、コーディングプロセスはリソース集約的で、アプリケーションからアプリケーションへの高度に可変である。
場合によっては、このプロセスを自動化しようとする試みは人間レベルの精度を達成したが、これを達成するためには、何千もの手書きのトレーニング例に頼っていることが多い。
特定の種類の人工知能ツール言語モデル(LM)の最近の進歩は、この問題に対する解決策を提供する。
コンピュータサイエンスにおける作業は、LMが代替手法のコスト(金銭的条件と人的労力)を伴わずに、テキストを分類できることを明確にする。
政治学のこの領域におけるLMの可能性を示すために,最も先進的なLMの一つであるGPT-3を合成コーダとして使用し,人間のコーダと比較した。
GPT-3は、一般的な人間のコーダの性能と一致し、テキストをコーディングする他の機械学習手法よりも利点がある。
異なるコーディング手順を使って、さまざまなドメインにまたがってこれを見つけます。
これは、様々なアプリケーションにおけるオープンエンドテキストのコーディングにおいて、言語モデルが重要な進歩となるというエキサイティングな証拠を提供する。 Researchers often rely on humans to code (label, annotate, etc.) large sets of texts. This kind of human coding forms an important part of social science research, yet the coding process is both resource intensive and highly variable from application to application. In some cases, efforts to automate this process have achieved human-level accuracies, but to achieve this, these attempts frequently rely on thousands of hand-labeled training examples, which makes them inapplicable to small-scale research studies and costly for large ones. Recent advances in a specific kind of artificial intelligence tool - language models (LMs) - provide a solution to this problem. Work in computer science makes it clear that LMs are able to classify text, without the cost (in financial terms and human effort) of alternative methods. To demonstrate the possibilities of LMs in this area of political science, we use GPT-3, one of the most advanced LMs, as a synthetic coder and compare it to human coders. We find that GPT-3 can match the performance of typical human coders and offers benefits over other machine learning methods of coding text. We find this across a variety of domains using very different coding procedures. This provides exciting evidence that language models can serve as a critical advance in the coding of open-ended texts in a variety of applications. | 翻訳日:2023-06-06 19:34:14 公開日:2023-06-03 |
# ポリプセグメンテーションにおけるアウト・オブ・ディストリビューション一般化のためのTransRUPNet TransRUPNet for Improved Out-of-Distribution Generalization in Polyp Segmentation ( http://arxiv.org/abs/2306.02176v1 ) ライセンス: Link先を確認 | Debesh Jha, Nikhil Kumar Tomar, Ulas Bagci | (参考訳) out-of-distribution (ood) 一般化はディープラーニングにおいて重要な課題である。
テストサンプルがトレーニングデータとは異なる分布から引き出される場合、特に重要である。
本稿では,大腸ポリープセグメント化のためのトランスフォーマーと残差アップサンプリングネットワークに基づく,新しいリアルタイム深層学習ベースアーキテクチャであるtransrupnetを開発した。
提案アーキテクチャであるTransRUPNetは、3つのエンコーダブロック、3つのデコーダブロックと、ネットワークの終端にある追加のアップサンプリングブロックで構成されるエンコーダ・デコーダネットワークである。
画像サイズが256\times256$の場合,提案手法は,平均ダイス係数スコア0.7786,平均ポリプデータセット0.7210で,1秒あたりのリアルタイム動作速度が良好である。
polypgen dataset (ood dataset in our case) の公開結果から,transrupnet はインディストリビューションデータセットの精度を維持しつつ,リアルタイムのフィードバックを提供することができることが示唆された。
さらに,提案手法の一般化性について,既存の手法と比較してOODデータセットの性能を著しく向上させることを示した。 Out-of-distribution (OOD) generalization is a critical challenge in deep learning. It is specifically important when the test samples are drawn from a different distribution than the training data. We develop a novel real-time deep learning based architecture, TransRUPNet that is based on a Transformer and residual upsampling network for colorectal polyp segmentation to improve OOD generalization. The proposed architecture, TransRUPNet, is an encoder-decoder network that consists of three encoder blocks, three decoder blocks, and some additional upsampling blocks at the end of the network. With the image size of $256\times256$, the proposed method achieves an excellent real-time operation speed of \textbf{47.07} frames per second with an average mean dice coefficient score of 0.7786 and mean Intersection over Union of 0.7210 on the out-of-distribution polyp datasets. The results on the publicly available PolypGen dataset (OOD dataset in our case) suggest that TransRUPNet can give real-time feedback while retaining high accuracy for in-distribution dataset. Furthermore, we demonstrate the generalizability of the proposed method by showing that it significantly improves performance on OOD datasets compared to the existing methods. | 翻訳日:2023-06-06 19:33:54 公開日:2023-06-03 |
# 認定データ除去によるleadingtableフェデレーション線形学習 Forgettable Federated Linear Learning with Certified Data Removal ( http://arxiv.org/abs/2306.02216v1 ) ライセンス: Link先を確認 | Ruinan Jin, Minghui Chen, Qiong Zhang, Xiaoxiao Li | (参考訳) Federated Learning(FL)は、データ共有なしで協調的なモデルトレーニングを可能にする、トレンドの分散学習フレームワークである。
データセットでトレーニングされた機械学習モデルは、トレーニングデータのプライベート情報を公開し、個々のデータレコードの詳細を明らかにする可能性がある。
本研究では,クライアントに‘忘れられる権利’を付与するflパラダイムに着目した。
忘れられるようなFLフレームワークは、クライアントを見たことがないので、グローバルなモデルの重みを白くしなければなりません。
この目的のために,新しいトレーニングとデータ削除戦略を特徴とする2F2L(Forgettable Federated Linear Learning)フレームワークを提案する。
トレーニングパイプラインはFederated linear trainingと名付けられ、モデルパラメータ空間に線形近似を用いて、深いニューラルネットワークで2F2Lフレームワークを動作させ、標準的なニューラルネットワークトレーニングで同等の結果を得る。
また,前訓練モデルの公開サーバデータを用いてヘシアン行列を近似することにより,flの計算課題に対処する効率的かつ効率的な除去戦略であるfeedremovalを導入する。
flにおける従来未確認でヒューリスティックなマシンアンラーニング手法と異なり,モデル重みのferemovalによる差異と,スクラッチから再トレーニングすることによる理論的保証を提供する。
MNISTとFashion-MNISTデータセットによる実験結果から,モデル精度と情報除去のバランス,ベースライン戦略の向上,スクラッチから再トレーニングに近づく上での有効性が示された。 Federated learning (FL) is a trending distributed learning framework that enables collaborative model training without data sharing. Machine learning models trained on datasets can potentially expose the private information of the training data, revealing details about individual data records. In this study, we focus on the FL paradigm that grants clients the ``right to be forgotten''. The forgettable FL framework should bleach its global model weights as it has never seen that client and hence does not reveal any information about the client. To this end, we propose the Forgettable Federated Linear Learning (2F2L) framework featured with novel training and data removal strategies. The training pipeline, named Federated linear training, employs linear approximation on the model parameter space to enable our 2F2L framework work for deep neural networks while achieving comparable results with canonical neural network training. We also introduce FedRemoval, an efficient and effective removal strategy that tackles the computational challenges in FL by approximating the Hessian matrix using public server data from the pretrained model. Unlike the previous uncertified and heuristic machine unlearning methods in FL, we provide theoretical guarantees by bounding the differences of model weights by our FedRemoval and that from retraining from scratch. Experimental results on MNIST and Fashion-MNIST datasets demonstrate the effectiveness of our method in achieving a balance between model accuracy and information removal, outperforming baseline strategies and approaching retraining from scratch. | 翻訳日:2023-06-06 19:29:10 公開日:2023-06-03 |
# 変分法による量子アニール型ctによる実数画像再構成 Quantum annealing-based computed tomography using variational approach for a real-number image reconstruction ( http://arxiv.org/abs/2306.02214v1 ) ライセンス: Link先を確認 | Akihiro Haga | (参考訳) 目的:近年の量子コンピューティングの進歩にもかかわらず、利用可能な量子ビットの数が限られており、CT再構成の進歩を妨げている。
本研究では,量子アニーリングに基づくct(qact)を現在の量子ビットレベルで活用する可能性について検討する。
アプローチ: QACTアルゴリズムは2次非制約バイナリ最適化(QUBO)問題を正確に解くことを目的としている。
さらに,変動法を用いて実数を近似して画像を再構成する新しい手法を提案する。
このアプローチにより、少数の量子ビットを用いて正確なCT画像再構成が可能となる。
本研究では、4x4から24x24ピクセルの様々な画像サイズに対する投影データ量とノイズの影響について検討する。
再構成結果は、従来の再構成アルゴリズム、すなわち、最大期待予測最大化(MLEM)とフィルタバックプロジェクション(FBP)と比較される。
主な結果: 変分アプローチを採用し, 画像の各画素に対して2量子ビットを活用することで, 適切な投影数で正確な再構成を実現することができた。
豊富な投影と低騒音の条件下では、QACTの画質はMLEMやFBPよりも優れていた。
しかし、投影データに制限のある状況やノイズの存在下では、QACTの画質はMLEMよりも劣っていた。
意義: 本研究は実数再構成のための変分手法を用いたQACT再構成アルゴリズムを開発した。
驚くべきことに、各ピクセルの表現には2量子ビットしか必要とせず、正確な再構成に十分な性能を示した。 Objective: Despite recent advancements in quantum computing, the limited number of available qubits has hindered progress in CT reconstruction. This study investigates the feasibility of utilizing quantum annealing-based computed tomography (QACT) with current quantum bit levels. Approach: The QACT algorithm aims to precisely solve quadratic unconstrained binary optimization (QUBO) problems. Furthermore, a novel approach is proposed to reconstruct images by approximating real numbers using the variational method. This approach allows for accurate CT image reconstruction using a small number of qubits. The study examines the impact of projection data quantity and noise on various image sizes ranging from 4x4 to 24x24 pixels. The reconstructed results are compared against conventional reconstruction algorithms, namely maximum likelihood expectation maximization (MLEM) and filtered back projection (FBP). Main result: By employing the variational approach and utilizing two qubits for each pixel of the image, accurate reconstruction was achieved with an adequate number of projections. Under conditions of abundant projections and lower noise levels, the image quality in QACT outperformed that of MLEM and FBP. However, in situations with limited projection data and in the presence of noise, the image quality in QACT was inferior to that in MLEM. Significance: This study developed the QACT reconstruction algorithm using the variational approach for real-number reconstruction. Remarkably, only 2 qubits were required for each pixel representation, demonstrating their sufficiency for accurate reconstruction. | 翻訳日:2023-06-06 19:28:45 公開日:2023-06-03 |
# 感情レキシコンを用いた低リソース言語のための高品質感情アーク生成 Generating High-Quality Emotion Arcs For Low-Resource Languages Using Emotion Lexicons ( http://arxiv.org/abs/2306.02213v1 ) ライセンス: Link先を確認 | Daniela Teodorescu and Saif M. Mohammad | (参考訳) 個人や人口が時間とともにどのように感じているかを捉える自動生成感情弧は、産業や研究で広く使われている。
しかし、(感情リソースが利用可能な)英語で生成された弧を評価する作業はほとんどなく、低リソース言語で感情アークを生成したり評価したりする作業も行われていない。
アフリカ、アメリカ大陸、オーストラリアなどの低リソース言語で感情アークを生成する作業は、感情ラベル付きリソースとそれらの言語のための大きな言語モデルが欠如していることに苦しめられている。
感情弧(どんな言語に対しても)を評価する作業は、真の(金色の)感情弧を確立するのが難しいため、ほとんど行われない。
私たちの研究は、初めて、系統的かつ定量的に自動生成された感情弧を評価しました。
また、機械学習(ML)モデルとLexicon-Only(LexO)手法の2つの感情弧を生成する一般的な方法を比較する。
9言語で42の多様なデータセットで実験を行うことにより、インスタンスレベルの感情分類が著しく貧弱であるにもかかわらず、LexO法は数百のインスタンスから情報を集約する際に感情弧を生成するのに非常に正確であることを示す。
(予測弧は0.94から0.99と様々な感情の金弧との相関関係がある。)
また、感情的語彙のない言語では、英語の感情的語彙の自動翻訳が高品質な感情的弧を生成するのに利用できることを示す。
これは、世界中の多くの言語における感情の研究の道を開き、商業、公共政策、それらの言語の話者のサービスにおける健康研究だけでなく、世界中の情報を用いた感情研究における有意義な結論を引き出すためにも不可欠である(研究における西洋中心の偏見を避けることによって)。 Automatically generated emotion arcs -- that capture how an individual or a population feels over time -- are widely used in industry and research. However, there is little work on evaluating the generated arcs in English (where the emotion resources are available) and no work on generating or evaluating emotion arcs for low-resource languages. Work on generating emotion arcs in low-resource languages such as those indigenous to Africa, the Americas, and Australia is stymied by the lack of emotion-labeled resources and large language models for those languages. Work on evaluating emotion arcs (for any language) is scarce because of the difficulty of establishing the true (gold) emotion arc. Our work, for the first time, systematically and quantitatively evaluates automatically generated emotion arcs. We also compare two common ways of generating emotion arcs: Machine-Learning (ML) models and Lexicon-Only (LexO) methods. By running experiments on 42 diverse datasets in 9 languages, we show that despite being markedly poor at instance level emotion classification, LexO methods are highly accurate at generating emotion arcs when aggregating information from hundreds of instances. (Predicted arcs have correlations ranging from 0.94 to 0.99 with the gold arcs for various emotions.) We also show that for languages with no emotion lexicons, automatic translations of English emotion lexicons can be used to generate high-quality emotion arcs -- correlations above 0.9 with the gold emotion arcs in all six indigenous African languages explored. This opens up avenues for work on emotions in numerous languages from around the world; crucial not only for commerce, public policy, and health research in service of speakers of those languages, but also to draw meaningful conclusions in emotion-pertinent research using information from around the world (thereby avoiding a western-centric bias in research). | 翻訳日:2023-06-06 19:28:23 公開日:2023-06-03 |
# 加速準ニュートン近位指数:平滑凸最適化の高速化 Accelerated Quasi-Newton Proximal Extragradient: Faster Rate for Smooth Convex Optimization ( http://arxiv.org/abs/2306.02212v1 ) ライセンス: Link先を確認 | Ruichen Jiang and Aryan Mokhtari | (参考訳) 本稿では,制約のない滑らかな凸最適化問題の解法として,準ニュートン近位勾配(A-QPNE)法を提案する。
目的の勾配にのみアクセスすることにより、我々の手法が${O}\bigl(\min\{\frac{1}{k^2}, \frac{\sqrt{d\log k}}{k^{2.5}}\}\bigr)$の収束率を達成できることが証明される。
特に、$k = {O}(d)$の場合、我々の方法は、ネステロフの加速勾配 (NAG) による${O}(\frac{1}{k^2})$の最適速度と一致する。
さらに、$k = \Omega(d \log d)$ が NAG を上回り、${O}\bigl(\frac{\sqrt{d\log k}}{k^{2.5}}\bigr)$ の速度で収束する状態である。
我々の知る限り、この結果は凸設定におけるNAGに対する準ニュートン型法の証明可能な利得を示す最初のものである。
このような結果を得るために,我々はモンテイロ・スヴェイター加速フレームワークの最近の変種に基づく手法を構築し,ヘッセン近似行列を更新するためのオンライン学習視点を適用し,この手法の収束率と行列空間における特定のオンライン凸最適化問題の動的後悔を関連づける。 In this paper, we propose an accelerated quasi-Newton proximal extragradient (A-QPNE) method for solving unconstrained smooth convex optimization problems. With access only to the gradients of the objective, we prove that our method can achieve a convergence rate of ${O}\bigl(\min\{\frac{1}{k^2}, \frac{\sqrt{d\log k}}{k^{2.5}}\}\bigr)$, where $d$ is the problem dimension and $k$ is the number of iterations. In particular, in the regime where $k = {O}(d)$, our method matches the optimal rate of ${O}(\frac{1}{k^2})$ by Nesterov's accelerated gradient (NAG). Moreover, in the the regime where $k = \Omega(d \log d)$, it outperforms NAG and converges at a faster rate of ${O}\bigl(\frac{\sqrt{d\log k}}{k^{2.5}}\bigr)$. To the best of our knowledge, this result is the first to demonstrate a provable gain of a quasi-Newton-type method over NAG in the convex setting. To achieve such results, we build our method on a recent variant of the Monteiro-Svaiter acceleration framework and adopt an online learning perspective to update the Hessian approximation matrices, in which we relate the convergence rate of our method to the dynamic regret of a specific online convex optimization problem in the space of matrices. | 翻訳日:2023-06-06 19:27:51 公開日:2023-06-03 |
# 設計によるプライバシ保護:Wi-FiパッシブTDOAを用いた屋内位置決めシステム Privacy-Preserving by Design: Indoor Positioning System Using Wi-Fi Passive TDOA ( http://arxiv.org/abs/2306.02211v1 ) ライセンス: Link先を確認 | Mohamed Mohsen, Hamada Rizk, Moustafa Youssef | (参考訳) 屋内ローカライズシステムは,産業,セキュリティ,ロジスティクス,緊急サービスなど,幅広いアプリケーションにおいてますます重要になっている。
しかし、多くのローカライゼーションシステムは、ユーザの動きを追跡したり、測定を操作したりするために、敵が誤用する可能性のあるアクティブなシグナルに依存しているため、正確なローカライゼーションの需要が高まっている。
本稿では,Wi-Fiの時間に基づく新しい屋内位置決めシステムであるPassiFiについて述べる。
PassiFiは、ユーザのプライバシを保証し、測定データの完全性を高い精度で保護する、パッシブWiFi Time difference of Arrival(TDoA)アプローチを使用している。
このシステムは、マルチパスと非線形問題に対処する指紋認証アプローチを採用し、深層ニューラルネットワークを用いてTDoAと位置の複雑な関係を学習する。
実世界のテストベッドでの評価は、passifiの優れた性能を示し、従来のマルチレイティングを128%上回り、プライバシーを維持しながら、最先端のアクティブな測定システムと同等の精度を達成している。 Indoor localization systems have become increasingly important in a wide range of applications, including industry, security, logistics, and emergency services. However, the growing demand for accurate localization has heightened concerns over privacy, as many localization systems rely on active signals that can be misused by an adversary to track users' movements or manipulate their measurements. This paper presents PassiFi, a novel passive Wi-Fi time-based indoor localization system that effectively balances accuracy and privacy. PassiFi uses a passive WiFi Time Difference of Arrival (TDoA) approach that ensures users' privacy and safeguards the integrity of their measurement data while still achieving high accuracy. The system adopts a fingerprinting approach to address multi-path and non-line-of-sight problems and utilizes deep neural networks to learn the complex relationship between TDoA and location. Evaluation in a real-world testbed demonstrates PassiFi's exceptional performance, surpassing traditional multilateration by 128%, achieving sub-meter accuracy on par with state-of-the-art active measurement systems, all while preserving privacy. | 翻訳日:2023-06-06 19:27:23 公開日:2023-06-03 |
# GPT-FL: モデル支援フェデレーション学習の生成 GPT-FL: Generative Pre-trained Model-Assisted Federated Learning ( http://arxiv.org/abs/2306.02210v1 ) ライセンス: Link先を確認 | Tuo Zhang, Tiantian Feng, Samiul Alam, Mi Zhang, Shrikanth S. Narayanan, Salman Avestimehr | (参考訳) 本稿では,gpt-flを提案する。これは生成型事前学習モデル支援連合学習(fl)フレームワークである。
GPT-FLは、生成前訓練されたモデルを利用して、多様化された合成データを生成する。
これらの生成されたデータは、サーバ上のダウンストリームモデルをトレーニングするために使用され、標準のflフレームワークの下でプライベートクライアントデータと微調整される。
gpt-flは, モデルテストの精度, 通信効率, クライアントサンプリング効率の点で, 最先端fl法を一貫して上回っている。
総合的アブレーション解析により, 合成データによって生成された下流モデルが, gpt-flで観測された顕著な精度向上に寄与し, flトレーニング中の勾配多様性の方向を制御する上で重要な役割を担っていることを見出した。
また、目標データが事前訓練された生成モデルの領域内か外部かにかかわらず、gpt-flは、flまたは合成データのみで訓練されたモデルによって得られた結果よりも、一貫して著しい性能向上を達成している。 In this work, we propose GPT-FL, a generative pre-trained model-assisted federated learning (FL) framework. At its core, GPT-FL leverages generative pre-trained models to generate diversified synthetic data. These generated data are used to train a downstream model on the server, which is then fine-tuned with private client data under the standard FL framework. We show that GPT-FL consistently outperforms state-of-the-art FL methods in terms of model test accuracy, communication efficiency, and client sampling efficiency. Through comprehensive ablation analysis, we discover that the downstream model generated by synthetic data plays a crucial role in controlling the direction of gradient diversity during FL training, which enhances convergence speed and contributes to the notable accuracy boost observed with GPT-FL. Also, regardless of whether the target data falls within or outside the domain of the pre-trained generative model, GPT-FL consistently achieves significant performance gains, surpassing the results obtained by models trained solely with FL or synthetic data. | 翻訳日:2023-06-06 19:27:00 公開日:2023-06-03 |
# シングルパスストリーミングマルチアームバンドのためのタイトレグレト境界 Tight Regret Bounds for Single-pass Streaming Multi-armed Bandits ( http://arxiv.org/abs/2306.02208v1 ) ライセンス: Link先を確認 | Chen Wang | (参考訳) ストリーミングマルチアームバンディット(MAB)におけるレグレト最小化は近年広く研究されている。
K$アームと$T$トライアルを持つシングルパス設定では、$o(K)$メモリを持つ任意のアルゴリズムに対して、後悔の低い$\Omega(T^{2/3})$が証明されている(Maiti et al. [NeurIPS'21]; Agarwal at al. [COLT'22])。
しかし、それ以前の最も後悔すべき上限は、単純な一様探索のストリーミング実装によって達成された$O(K^{1/3} T^{2/3}\log^{1/3}(T))$である。
O(K^{1/3}\log^{1/3}(T))$ギャップは、サブリニアアームメモリを持つシングルパスMABにおける厳密な後悔境界のオープンな問題を残している。
本稿では、このオープンな問題に答え、シングルパスストリーミングMABにおける後悔の最小化像を完成させる。
まず、メモリがo(k)$のアルゴリズムに対して$\omega(k^{1/3}t^{2/3})$という、一様探索の後悔を$t$の対数係数に一致させる、後悔の低さを改善する。
すると、$\log^{1/3}(T)$ 因子は必要ないことを示し、$O(K^{1/3}T^{2/3})$ 後悔は、$\varepsilon$-best アームを見つけ、残りの試行でそれをコミットすることで達成できる。
高確率の後悔最小化のために、単一のメモリ$\varepsilon$-best アームアルゴリズムを Jin などに適用できる。
[ICML'21] 最適境界を得る。
さらに、期待される最小化のために、単腕メモリで$O(K^{1/3} T^{2/3}\log(K))$ regretと、最適な$O(K^{1/3} T^{2/3})$-Memoryを持つ$O(\log^{*}(n))$-Memoryのアルゴリズムを設計し、AssadiとWangの$\varepsilon$-bestarmアルゴリズムに続き、$O(K^{1/3} T^{2/3})$-Memoryを設計する。
さらに,アルゴリズムの実証性能を検証した。
シミュレーションの結果,提案アルゴリズムは,ベンチマーク一様探索アルゴリズムを高いマージンで常に上回り,時には最大70%の後悔を減少させることがわかった。 Regret minimization in streaming multi-armed bandits (MABs) has been studied extensively in recent years. In the single-pass setting with $K$ arms and $T$ trials, a regret lower bound of $\Omega(T^{2/3})$ has been proved for any algorithm with $o(K)$ memory (Maiti et al. [NeurIPS'21]; Agarwal at al. [COLT'22]). On the other hand, however, the previous best regret upper bound is still $O(K^{1/3} T^{2/3}\log^{1/3}(T))$, which is achieved by the streaming implementation of the simple uniform exploration. The $O(K^{1/3}\log^{1/3}(T))$ gap leaves the open question of the tight regret bound in the single-pass MABs with sublinear arm memory. In this paper, we answer this open problem and complete the picture of regret minimization in single-pass streaming MABs. We first improve the regret lower bound to $\Omega(K^{1/3}T^{2/3})$ for algorithms with $o(K)$ memory, which matches the uniform exploration regret up to a logarithm factor in $T$. We then show that the $\log^{1/3}(T)$ factor is not necessary, and we can achieve $O(K^{1/3}T^{2/3})$ regret by finding an $\varepsilon$-best arm and committing to it in the rest of the trials. For regret minimization with high constant probability, we can apply the single-memory $\varepsilon$-best arm algorithms in Jin et al. [ICML'21] to obtain the optimal bound. Furthermore, for the expected regret minimization, we design an algorithm with a single-arm memory that achieves $O(K^{1/3} T^{2/3}\log(K))$ regret, and an algorithm with $O(\log^{*}(n))$-memory with the optimal $O(K^{1/3} T^{2/3})$ regret following the $\varepsilon$-best arm algorithm in Assadi and Wang [STOC'20]. We further tested the empirical performances of our algorithms. The simulation results show that the proposed algorithms consistently outperform the benchmark uniform exploration algorithm by a large margin, and on occasion, reduce the regret by up to 70%. | 翻訳日:2023-06-06 19:26:42 公開日:2023-06-03 |
# speechgen: プロンプトによる音声言語モデルの生成能力の解放 SpeechGen: Unlocking the Generative Power of Speech Language Models with Prompts ( http://arxiv.org/abs/2306.02207v1 ) ライセンス: Link先を確認 | Haibin Wu, Kai-Wei Chang, Yuan-Kuei Wu, Hung-yi Lee | (参考訳) 大規模言語モデル(LLM)は人工知能生成コンテンツ(AIGC)、特にChatGPTの出現によって注目されている。
しかし、離散トークンを処理するLLMへの連続音声の直接適応は未解決の課題であり、LLMの音声生成への応用を妨げる。
音声信号は、テキストデータだけでなく、話者や感情を含む豊富な情報をカプセル化するので、高度な音声lmsは角を曲がっている。
プロンプトチューニングは、いくつかの音声分類タスクにおいてパラメータ効率と競合性能が著しく向上している。
しかしながら、プロンプトが音声lmsから生成タスクを効果的に導出できる程度は、未解決の問題である。
本稿では,SpeechGenと呼ばれる一貫したフレームワークにおいて,各世代タスクの音声LMを刺激するために,約10Mのトレーニング可能なパラメータで即時チューニングする手法を提案する。
提案した統合フレームワークは効率と有効性に大きな可能性を秘めており、特に高度な音声 LM の到着が差し迫っているため、フレームワークの能力は大幅に向上する。
speechgenのコードとデモはプロジェクトのwebサイトにある。 \url{https://ga642381.github.io/speechprompt/speechgen} Large language models (LLMs) have gained considerable attention for Artificial Intelligence Generated Content (AIGC), particularly with the emergence of ChatGPT. However, the direct adaptation of continuous speech to LLMs that process discrete tokens remains an unsolved challenge, hindering the application of LLMs for speech generation. The advanced speech LMs are in the corner, as that speech signals encapsulate a wealth of information, including speaker and emotion, beyond textual data alone. Prompt tuning has demonstrated notable gains in parameter efficiency and competitive performance on some speech classification tasks. However, the extent to which prompts can effectively elicit generation tasks from speech LMs remains an open question. In this paper, we present pioneering research that explores the application of prompt tuning to stimulate speech LMs for various generation tasks, within a unified framework called SpeechGen, with around 10M trainable parameters. The proposed unified framework holds great promise for efficiency and effectiveness, particularly with the imminent arrival of advanced speech LMs, which will significantly enhance the capabilities of the framework. The code and demos of SpeechGen will be available on the project website: \url{https://ga642381.github.io/SpeechPrompt/speechgen} | 翻訳日:2023-06-06 19:25:46 公開日:2023-06-03 |
# 薬物発見における分子凝集の軽減と説明可能なAIからの予測 Mitigating Molecular Aggregation in Drug Discovery with Predictive Insights from Explainable AI ( http://arxiv.org/abs/2306.02206v1 ) ライセンス: Link先を確認 | Hunter Sturm, Jonas Teufel, Kaitlin A. Isfeld, Pascal Friederich, Rebecca L. Davis | (参考訳) 高スループットスクリーニング(HTS)の重要性は、機械学習モデルの早期発見とデータ生成の価値から成長し続けており、偽陽性のヒットを識別・防止するための前スクリーニング化合物の堅牢な方法の必要性が高まっている。
小さいコロイドアグリゲーション分子は、ハイスループットスクリーンにおける偽陽性の主な原因の1つであり、予測型プレスクリーンツールを使用してライブラリーから除去するのに適した候補である。
しかし、分子凝集の原因の理解の欠如は、凝集分子を検出するための予測ツールの開発に困難をもたらす。
本稿では,分子凝集と非凝集のデータセットを識別する分子の特徴と,分子凝集を予測する機械学習アプローチについて述べる。
本手法では,説明可能なグラフニューラルネットワークと偽物を用いて,アグリゲーションの予測と説明を行い,今後のスクリーニングのための洞察と設計ルールを与える。
HTSアプローチへのこの手法の統合は、偽陽性との戦いに役立ち、より高速な誘導分子を提供し、薬の発見サイクルを加速させる。 As the importance of high-throughput screening (HTS) continues to grow due to its value in early stage drug discovery and data generation for training machine learning models, there is a growing need for robust methods for pre-screening compounds to identify and prevent false-positive hits. Small, colloidally aggregating molecules are one of the primary sources of false-positive hits in high-throughput screens, making them an ideal candidate to target for removal from libraries using predictive pre-screening tools. However, a lack of understanding of the causes of molecular aggregation introduces difficulty in the development of predictive tools for detecting aggregating molecules. Herein, we present an examination of the molecular features differentiating datasets of aggregating and non-aggregating molecules, as well as a machine learning approach to predicting molecular aggregation. Our method uses explainable graph neural networks and counterfactuals to reliably predict and explain aggregation, giving additional insights and design rules for future screening. The integration of this method in HTS approaches will help combat false positives, providing better lead molecules more rapidly and thus accelerating drug discovery cycles. | 翻訳日:2023-06-06 19:25:26 公開日:2023-06-03 |
# Nonconvex Stochastic Gradient Descent Estimatorを用いたオンラインブートストラップ推論 Online Bootstrap Inference with Nonconvex Stochastic Gradient Descent Estimator ( http://arxiv.org/abs/2306.02205v1 ) ライセンス: Link先を確認 | Yanjie Zhong, Todd Kuffner and Soumendra Lahiri | (参考訳) 本稿では,非凸最適化問題の文脈における統計的推論のための確率的勾配降下(sgd)の理論的性質について検討する。
本研究は,複数の局所最小値を含む一般非凸目的関数に対するSGD推定器を用いた証明可能な推論手順を初めて確立したものである。
本稿では,sgd と multiplier bootstrap technique を組み合わせた2つのオンライン推論手法を提案する。
まず,一貫性のある共分散行列推定器を用い,その誤差収束率を定式化する。
第2の手順はブートストラップSGD推定器を用いて限界分布を近似し、漸近的に有効なブートストラップ信頼区間を与える。
両手法の有効性を数値実験により検証する。
さらに,本解析では,非凸条件下での元のSGD推定器の予測誤差収束率を,凸問題に対する既存の結果に匹敵する中間結果を得た。
この新たな発見は独立的な関心を持ち、最適化と統計推論に関する文献を豊かにすると信じている。 In this paper, we investigate the theoretical properties of stochastic gradient descent (SGD) for statistical inference in the context of nonconvex optimization problems, which have been relatively unexplored compared to convex settings. Our study is the first to establish provable inferential procedures using the SGD estimator for general nonconvex objective functions, which may contain multiple local minima. We propose two novel online inferential procedures that combine SGD and the multiplier bootstrap technique. The first procedure employs a consistent covariance matrix estimator, and we establish its error convergence rate. The second procedure approximates the limit distribution using bootstrap SGD estimators, yielding asymptotically valid bootstrap confidence intervals. We validate the effectiveness of both approaches through numerical experiments. Furthermore, our analysis yields an intermediate result: the in-expectation error convergence rate for the original SGD estimator in nonconvex settings, which is comparable to existing results for convex problems. We believe this novel finding holds independent interest and enriches the literature on optimization and statistical inference. | 翻訳日:2023-06-06 19:25:06 公開日:2023-06-03 |
# コンテンツベース画像検索におけるクラスアンカーマージン損失 Class Anchor Margin Loss for Content-Based Image Retrieval ( http://arxiv.org/abs/2306.00630v2 ) ライセンス: Link先を確認 | Alexandru Ghita and Radu Tudor Ionescu | (参考訳) コンテンツベース画像検索(CBIR)におけるニューラルネットワークの性能は、選択された損失(客観的)関数の影響が大きい。
ニューラルネットワークの客観的関数の大部分は、メトリック学習と統計学習に分けられる。
メトリクス学習アプローチは効率を欠くペアマイニング戦略を必要とするが、統計学習アプローチは間接的特徴最適化のために高度にコンパクトな特徴を生成していない。
そこで本研究では,ペアを生成する必要なしに,L2メトリックに対して直接最適化できる新しいレペラ・トラクタ損失を提案する。
私たちの損失は3つの要素から成り立っている。
1つの主要な目的は、学習可能な各クラスアンカーに学習された特徴を引き付けることである。
第2の損失成分はアンカーを規制し、マージンで分離させ、第3の目標はアンカーがゼロに崩壊しないことを保証する。
さらに,学習したクラスアンカーを検索プロセスの第1段階で活用し,データベース内の各画像とクエリを比較する必要をなくし,より効率的な2段階検索システムを開発する。
提案する4つのデータセット (CIFAR-100, Food-101, SVHN, Tiny ImageNet) を構築し, 畳み込みアーキテクチャとトランスフォーマーアーキテクチャの両方を用いてCBIRタスクにおける少数ショットおよびフルセットトレーニングの文脈において, 提案する目的を評価する。
既存の目的関数と比較して,提案する目的がより優れた,より一貫性のある結果を生み出すことを示している。 The performance of neural networks in content-based image retrieval (CBIR) is highly influenced by the chosen loss (objective) function. The majority of objective functions for neural models can be divided into metric learning and statistical learning. Metric learning approaches require a pair mining strategy that often lacks efficiency, while statistical learning approaches are not generating highly compact features due to their indirect feature optimization. To this end, we propose a novel repeller-attractor loss that falls in the metric learning paradigm, yet directly optimizes for the L2 metric without the need of generating pairs. Our loss is formed of three components. One leading objective ensures that the learned features are attracted to each designated learnable class anchor. The second loss component regulates the anchors and forces them to be separable by a margin, while the third objective ensures that the anchors do not collapse to zero. Furthermore, we develop a more efficient two-stage retrieval system by harnessing the learned class anchors during the first stage of the retrieval process, eliminating the need of comparing the query with every image in the database. We establish a set of four datasets (CIFAR-100, Food-101, SVHN, and Tiny ImageNet) and evaluate the proposed objective in the context of few-shot and full-set training on the CBIR task, by using both convolutional and transformer architectures. Compared to existing objective functions, our empirical evidence shows that the proposed objective is generating superior and more consistent results. | 翻訳日:2023-06-06 11:24:20 公開日:2023-06-03 |
# 不確かさを意識した相似学習は、生成的アスペクト知覚のクアドド予測を改善する Uncertainty-Aware Unlikelihood Learning Improves Generative Aspect Sentiment Quad Prediction ( http://arxiv.org/abs/2306.00418v2 ) ライセンス: Link先を確認 | Mengting Hu and Yinhao Bai and Yike Wu and Zhen Zhang and Liqi Zhang and Hang Gao and Shiwan Zhao and Minlie Huang | (参考訳) 近年,アスペクトベース感情分析の分野では,アスペクト感情クワッド予測が注目されている。
既存の研究では、事前訓練された生成言語モデルを介して四重項を抽出し、原文をテンプレート化されたターゲットシーケンスに変換する。
しかしながら、以前の作業は生成すべきもののみに注目するが、生成しないものを無視している。
負のサンプルを考慮すれば、潜在的な利益につながると論じる。
本研究では,トークンレベルの生成を制御するテンプレートに依存しない手法を提案する。
具体的には,事前学習された言語モデルの不確実性を理解し,ノイズやエラーを取得するためにモンテカルロドロップアウトを導入する。
さらに,不確実性を認識した誤りトークンを抑えるために,差分学習を提案する。
最後に,境界化不平等学習の効果のバランスをとるために,最小化エントロピーを導入する。
4つの公開データセットに関する広範な実験は、様々な世代のテンプレートに対する我々のアプローチの有効性を示しています。 Recently, aspect sentiment quad prediction has received widespread attention in the field of aspect-based sentiment analysis. Existing studies extract quadruplets via pre-trained generative language models to paraphrase the original sentence into a templated target sequence. However, previous works only focus on what to generate but ignore what not to generate. We argue that considering the negative samples also leads to potential benefits. In this work, we propose a template-agnostic method to control the token-level generation, which boosts original learning and reduces mistakes simultaneously. Specifically, we introduce Monte Carlo dropout to understand the built-in uncertainty of pre-trained language models, acquiring the noises and errors. We further propose marginalized unlikelihood learning to suppress the uncertainty-aware mistake tokens. Finally, we introduce minimization entropy to balance the effects of marginalized unlikelihood learning. Extensive experiments on four public datasets demonstrate the effectiveness of our approach on various generation templates. | 翻訳日:2023-06-06 11:23:04 公開日:2023-06-03 |
# 基準は格付け以上のことを教えてくれる - criteria preference-aware light graph convolution for effective multi-criteria recommendation Criteria Tell You More than Ratings: Criteria Preference-Aware Light Graph Convolution for Effective Multi-Criteria Recommendation ( http://arxiv.org/abs/2305.18885v3 ) ライセンス: Link先を確認 | Jin-Duk Park, Siqing Li, Xin Cao, Won-Yong Shin | (参考訳) 広範囲のeコマースエリアにおけるMCレーティング情報を活用するマルチクレーター(MC)レコメンデーションシステムは,近年広く普及している。
グラフニューラルネットワーク(GNN)は、グラフ表現の学習において、GNNの表現能力が高いため、様々なレコメンデータシステムの開発に広く応用されているが、GNNでMCレコメンデータシステムを設計する方法はまだ明らかにされていない。
これを踏まえ、我々はGNN支援MCレコメンデータシステムを設計するための最初の試みを行う。
具体的には、既存のgnnベースの推奨手法をそのまま採用するのではなく、複雑な高次コネクティビティにおけるユーザの基準選好と協調信号を正確に捉えることができる、新しい基準選好認識型光グラフ畳み込みcpa-lgc法を考案する。
この目的のために,我々はまず,ユーザ主導のmc評価を拡張した2部グラフに変換するmc拡張グラフを構築し,mcレーティングにおける協調的信号から学習する。
次に, CPA-LGCは, ユーザ固有の基準基準埋め込みや項目固有の基準埋め込みなど, 新たに特徴付けられた埋め込みをグラフ畳み込みモデルに組み込む。
4つの実世界のデータセットを用いた包括的評価を通して
(a)GNNを用いたベンチマークMCレコメンデーション法やベンチマークレコメンデーション法よりも優れていること。
b) CPA-LGCにおけるコアコンポーネントの有効性、及び
(c)計算効率。 The multi-criteria (MC) recommender system, which leverages MC rating information in a wide range of e-commerce areas, is ubiquitous nowadays. Surprisingly, although graph neural networks (GNNs) have been widely applied to develop various recommender systems due to GNN's high expressive capability in learning graph representations, it has been still unexplored how to design MC recommender systems with GNNs. In light of this, we make the first attempt towards designing a GNN-aided MC recommender system. Specifically, rather than straightforwardly adopting existing GNN-based recommendation methods, we devise a novel criteria preference-aware light graph convolution CPA-LGC method, which is capable of precisely capturing the criteria preference of users as well as the collaborative signal in complex high-order connectivities. To this end, we first construct an MC expansion graph that transforms user--item MC ratings into an expanded bipartite graph to potentially learn from the collaborative signal in MC ratings. Next, to strengthen the capability of criteria preference awareness, CPA-LGC incorporates newly characterized embeddings, including user-specific criteria-preference embeddings and item-specific criterion embeddings, into our graph convolution model. Through comprehensive evaluations using four real-world datasets, we demonstrate (a) the superiority over benchmark MC recommendation methods and benchmark recommendation methods using GNNs with tremendous gains, (b) the effectiveness of core components in CPA-LGC, and (c) the computational efficiency. | 翻訳日:2023-06-06 11:22:13 公開日:2023-06-03 |
# SnapFusion:2秒以内にモバイルデバイス上でのテキストと画像の拡散モデル SnapFusion: Text-to-Image Diffusion Model on Mobile Devices within Two Seconds ( http://arxiv.org/abs/2306.00980v2 ) ライセンス: Link先を確認 | Yanyu Li, Huan Wang, Qing Jin, Ju Hu, Pavlo Chemerys, Yun Fu, Yanzhi Wang, Sergey Tulyakov, Jian Ren | (参考訳) テキストから画像への拡散モデルは、プロのアーティストや写真家の作品に匹敵する自然言語記述から素晴らしい画像を作ることができる。
しかし、これらのモデルは大規模であり、複雑なネットワークアーキテクチャと数十のデノベーションイテレーションがあり、計算コストが高く、実行が遅い。
その結果、大規模に拡散モデルを実行するには、ハイエンドGPUとクラウドベースの推論が必要である。
これはコストが高く、特にユーザデータがサードパーティに送信された場合、プライバシーに影響を及ぼす。
これらの課題を克服するために,我々は,モバイル端末上でテキストから画像への拡散モデルを実行する際,初めて2ドル未満でアンロックを行う方法を提案する。
我々は,効率的なネットワークアーキテクチャを導入し,ステップ蒸留を改善した。
具体的には, 元のモデルの冗長性を同定し, データ蒸留による画像デコーダの計算量を削減することで, 効率的な unet を提案する。
さらに, 学習戦略を探究し, 分類器なし指導からの正規化を導入することで, ステップ蒸留の促進を図る。
ms-cocoでの広範な実験で、我々のモデルは8ドルのステップで、安定した拡散v$1.5$と50ドルのステップよりも良いfidとクリップスコアが得られることが分かりました。
私たちの仕事は、強力なテキストから画像への拡散モデルによって、コンテンツの創造を民主化します。 Text-to-image diffusion models can create stunning images from natural language descriptions that rival the work of professional artists and photographers. However, these models are large, with complex network architectures and tens of denoising iterations, making them computationally expensive and slow to run. As a result, high-end GPUs and cloud-based inference are required to run diffusion models at scale. This is costly and has privacy implications, especially when user data is sent to a third party. To overcome these challenges, we present a generic approach that, for the first time, unlocks running text-to-image diffusion models on mobile devices in less than $2$ seconds. We achieve so by introducing efficient network architecture and improving step distillation. Specifically, we propose an efficient UNet by identifying the redundancy of the original model and reducing the computation of the image decoder via data distillation. Further, we enhance the step distillation by exploring training strategies and introducing regularization from classifier-free guidance. Our extensive experiments on MS-COCO show that our model with $8$ denoising steps achieves better FID and CLIP scores than Stable Diffusion v$1.5$ with $50$ steps. Our work democratizes content creation by bringing powerful text-to-image diffusion models to the hands of users. | 翻訳日:2023-06-06 11:11:37 公開日:2023-06-03 |