このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20230627となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# 経路に基づく意味表現による静的警告の自動識別 Automated Static Warning Identification via Path-based Semantic Representation ( http://arxiv.org/abs/2306.15568v1 ) ライセンス: Link先を確認 | Yuwei Zhang and Ying Xing and Ge Li and Zhi Jin | (参考訳) ソフトウェア開発ライフサイクルの初期に開発者が潜在的な欠陥を検出するのを助ける能力があるにもかかわらず、静的解析ツールはしばしば正確な問題(すなわち報告されたアラームの偽陽性率)に悩まされる。
これらのツールの可用性を向上させるために、開発者が偽陽性アラームの分類を支援するために、多くの自動警告識別技術が提案されている。
しかし、既存のアプローチは、主に手動機能やステートメントレベルの抽象構文木トークンシーケンスを使用して欠陥コードを表現することに重点を置いており、報告されたアラームからセマンティクスをキャプチャできない。
従来のアプローチの限界を克服するために、深層ニューラルネットワークの強力な特徴抽出と表現能力を用いて、制御フローグラフパスからコードセマンティクスを生成して警告識別を行う。
制御フローグラフは、所定のプログラムの実行プロセスを抽象的に表現する。
これにより、制御フローグラフの生成したパスシーケンスは、ディープニューラルネットワークを誘導し、潜在的な欠陥に関するセマンティック情報をより正確に学習することができる。
本稿では,事前学習した言語モデルを用いてパスシーケンスを符号化し,モデル構築のための意味表現をキャプチャする。
最後に,8つのオープンソースプロジェクトを対象に,最先端のベースラインと比較し,提案手法の有効性を検証する実験を行った。 Despite their ability to aid developers in detecting potential defects early in the software development life cycle, static analysis tools often suffer from precision issues (i.e., high false positive rates of reported alarms). To improve the availability of these tools, many automated warning identification techniques have been proposed to assist developers in classifying false positive alarms. However, existing approaches mainly focus on using hand-engineered features or statement-level abstract syntax tree token sequences to represent the defective code, failing to capture semantics from the reported alarms. To overcome the limitations of traditional approaches, this paper employs deep neural networks' powerful feature extraction and representation abilities to generate code semantics from control flow graph paths for warning identification. The control flow graph abstractly represents the execution process of a given program. Thus, the generated path sequences of the control flow graph can guide the deep neural networks to learn semantic information about the potential defect more accurately. In this paper, we fine-tune the pre-trained language model to encode the path sequences and capture the semantic representations for model building. Finally, this paper conducts extensive experiments on eight open-source projects to verify the effectiveness of the proposed approach by comparing it with the state-of-the-art baselines. | 翻訳日:2023-10-23 18:56:17 公開日:2023-06-27 |
# デュアルレーダSARコントローラ Dual Radar SAR Controller ( http://arxiv.org/abs/2309.00006v1 ) ライセンス: Link先を確認 | Josiah Smith | (参考訳) 以下は、デュアルレーダ合成開口レーダ(SAR)スキャナーを操作するための、デュアルレーダSARコントローラグラフィカルユーザインタフェース(GUI)のユーザガイドである。
このスキャナーは2022年の春学期、Josiah Smith (RA)、Yusef Alimam (UG)、Geetika Vedula (UG) によって設計され、レーダーと目標の複数の軸が試験中であった。
このシステムは、MATLABを実行するパーソナルコンピュータ(PC)によって操作される。
機械系の制御にはAMC4030モーションコントローラが使用される。
ESP32マイクロコントローラは、機械的な動きとレーダーフレームの発射を同期させ、高精度な位置決めを高速で達成し、ソフトウェアはJosiah Smith (RA) とBenjamin Roy (UG) によって設計された。
第2のシステムは3軸の運動(X-Y + 回転)を用いて、試験対象の位置を細かく制御するように設計されている。
システムは、単純な単一レーダーイメージングに加えて、マルチバンド核融合イメージングのために、コロケーションと非コロケーションレーダーからのデータを効率的に収集することができる。 The following is a user guide for the Dual Radar SAR Controller graphical user interface (GUI) to operate the dual radar synthetic aperture radar (SAR) scanner. The scanner was designed in the Spring semester of 2022 by Josiah Smith (RA), Yusef Alimam (UG), and Geetika Vedula (UG) with multiple axes of motion for the radar and target under test. The system is operated by a personal computer (PC) running MATLAB. An AMC4030 motion controller is employed to control the mechanical system. An ESP32 microcontroller synchronizes the mechanical motion and radar frame firing to achieving precise positioning at high movement speeds; the software was designed by Josiah Smith (RA) and Benjamin Roy (UG). A second system is designed that employs 3-axes of motion (X-Y + rotation) for fine control over the location of the target under test. The entire system is capable of efficiently collecting data from colocated and non-colocated radars for multiband fusion imaging in addition to simple single radar imaging. | 翻訳日:2023-10-23 11:45:06 公開日:2023-06-27 |
# 人工知能はアルゴリズムの模倣だ:なぜ「エージェント」が適切なエージェントではない(そしてそうでない)のか Artificial intelligence is algorithmic mimicry: why artificial "agents" are not (and won't be) proper agents ( http://arxiv.org/abs/2307.07515v1 ) ライセンス: Link先を確認 | Johannes Jaeger | (参考訳) agi(artificial general intelligence)の開発はどうなるのか?
生活システムとアルゴリズムシステムとを体系的に比較し,特に「アジェンシー」の概念に焦点をあてて考察する。
1) 生活システムは自己表現型,すなわち自己生産型であり,それゆえ自発的な目標を設定することが可能であり,一方,外部エージェントによって提供される対象関数を持つ計算環境にはアルゴリズムが存在する。
2) リビングシステムは, ハードウェアからソフトウェアを最大限に分離する計算アーキテクチャ上でアルゴリズムが動作するのに対して, シンボル的側面と物理的側面の分離がないという意味で具体化されている。
3) 生活システムには大きな世界があり、ほとんどの問題は不定義であり(すべて定義可能ではない)、アルゴリズムは小さな世界に存在し、すべての問題が明確に定義されている。
これら3つの違いは、生活システムとアルゴリズムシステムは、非常に異なる能力と限界を持っていることを意味する。
特に、AI研究の現在のアルゴリズムフレームワークにおいて、真のAGI(単なる模倣)が開発される可能性は極めて低い。
したがって、アルゴリズムツールの適切な開発と展開に関する議論は、現在の狭義のAIの危険性と機会を中心に形成されるべきであり、人工システムにおける真のエージェンシーが出現する可能性は極めて低い。 What is the prospect of developing artificial general intelligence (AGI)? I investigate this question by systematically comparing living and algorithmic systems, with a special focus on the notion of "agency." There are three fundamental differences to consider: (1) Living systems are autopoietic, that is, self-manufacturing, and therefore able to set their own intrinsic goals, while algorithms exist in a computational environment with target functions that are both provided by an external agent. (2) Living systems are embodied in the sense that there is no separation between their symbolic and physical aspects, while algorithms run on computational architectures that maximally isolate software from hardware. (3) Living systems experience a large world, in which most problems are ill-defined (and not all definable), while algorithms exist in a small world, in which all problems are well-defined. These three differences imply that living and algorithmic systems have very different capabilities and limitations. In particular, it is extremely unlikely that true AGI (beyond mere mimicry) can be developed in the current algorithmic framework of AI research. Consequently, discussions about the proper development and deployment of algorithmic tools should be shaped around the dangers and opportunities of current narrow AI, not the extremely unlikely prospect of the emergence of true agency in artificial systems. | 翻訳日:2023-07-23 12:27:51 公開日:2023-06-27 |
# 説明責任はゲームではない Explainability is NOT a Game ( http://arxiv.org/abs/2307.07514v1 ) ライセンス: Link先を確認 | Joao Marques-Silva and Xuanxiang Huang | (参考訳) 説明可能な人工知能(XAI)は、複雑な機械学習(ML)モデルの理解において、人間の意思決定を支援することを目的としている。
XAIの目印の1つは相対的な特徴の重要性の尺度であり、これはシェープリー値を用いて理論的に正当化される。
本論文は,最近の研究に基づいて,予測に無関係な特徴により重要度を割り当て,予測に関連のある特徴にあまり重要度を割り当てることによって,Shapley値が相対的特徴重要度を誤解させる指標となる理由について,簡単な議論を行う。
これらの結果の意義は、高速に成長する高スループットアプリケーションドメインにおいて、相対的特徴量の測定方法の多くの提案に効果的に挑戦できることである。 Explainable artificial intelligence (XAI) aims to help human decision-makers in understanding complex machine learning (ML) models. One of the hallmarks of XAI are measures of relative feature importance, which are theoretically justified through the use of Shapley values. This paper builds on recent work and offers a simple argument for why Shapley values can provide misleading measures of relative feature importance, by assigning more importance to features that are irrelevant for a prediction, and assigning less importance to features that are relevant for a prediction. The significance of these results is that they effectively challenge the many proposed uses of measures of relative feature importance in a fast-growing range of high-stakes application domains. | 翻訳日:2023-07-23 12:27:27 公開日:2023-06-27 |
# グループテストにおける欠陥項目の検出について On Detecting Some Defective Items in Group Testing ( http://arxiv.org/abs/2307.04822v1 ) ライセンス: Link先を確認 | Nader H. Bshouty, Catherine A. Haddad-Zaknoon | (参考訳) グループテストは、合計$n$要素の中から最大$d$欠陥アイテムを特定することを目的としたアプローチである。
これは、少なくとも1つの欠陥アイテムが存在するかどうかを決定するためにサブセットを調べることによって達成される。
本研究では,$\ell\leq d$ 欠陥項目のサブセットを特定する問題に焦点を当てた。
我々は,d$の事前知識が得られないシナリオや,少なくとも$d$の非自明な上限が利用できる状況を考慮して,適応的設定と非適応的設定の両方において,$\ell$欠陥項目を検出するために必要なテスト数の上限を上下に設定する。
d$に関する事前の知識が得られない場合、ランダム化された非適応設定における$ \omega(\frac{\ell \log^2n}{\log \ell +\log\log n})$のテストと、同じ設定で$o(\ell \log^2n)$の上限を証明します。
さらに、任意の非適応決定論的アルゴリズムが$\Theta(n)$テストを求めなければならず、このシナリオの基本的な制限を示す。
適応アルゴリズムの場合、異なるシナリオで厳密な境界を確立する。
決定論的な場合、$\Theta(\ell\log{(n/\ell)})$の厳密な境界を証明する。
さらに、ランダム化された設定では、$\Theta(\ell\log{(n/d)})$の厳密な境界を導出する。
d$、または少なくとも$d$の非自明な見積もりが知られているとき、決定論的非適応的設定に対して$\Theta(d\log (n/d))$、ランダム化された非適応的設定に対して$\Theta(\ell\log(n/d))$の厳密な境界を証明する。
アダプティブの場合、決定論的設定に対して$O(\ell \log (n/\ell))$の上界、および$\Omega(\ell\log(n/d)+\log n)$の下界を示す。
さらに、ランダム化適応設定に対して$\Theta(\ell \log(n/d))$の厳密な境界を確立する。 Group testing is an approach aimed at identifying up to $d$ defective items among a total of $n$ elements. This is accomplished by examining subsets to determine if at least one defective item is present. In our study, we focus on the problem of identifying a subset of $\ell\leq d$ defective items. We develop upper and lower bounds on the number of tests required to detect $\ell$ defective items in both the adaptive and non-adaptive settings while considering scenarios where no prior knowledge of $d$ is available, and situations where an estimate of $d$ or at least some non-trivial upper bound on $d$ is available. When no prior knowledge on $d$ is available, we prove a lower bound of $ \Omega(\frac{\ell \log^2n}{\log \ell +\log\log n})$ tests in the randomized non-adaptive settings and an upper bound of $O(\ell \log^2 n)$ for the same settings. Furthermore, we demonstrate that any non-adaptive deterministic algorithm must ask $\Theta(n)$ tests, signifying a fundamental limitation in this scenario. For adaptive algorithms, we establish tight bounds in different scenarios. In the deterministic case, we prove a tight bound of $\Theta(\ell\log{(n/\ell)})$. Moreover, in the randomized settings, we derive a tight bound of $\Theta(\ell\log{(n/d)})$. When $d$, or at least some non-trivial estimate of $d$, is known, we prove a tight bound of $\Theta(d\log (n/d))$ for the deterministic non-adaptive settings, and $\Theta(\ell\log(n/d))$ for the randomized non-adaptive settings. In the adaptive case, we present an upper bound of $O(\ell \log (n/\ell))$ for the deterministic settings, and a lower bound of $\Omega(\ell\log(n/d)+\log n)$. Additionally, we establish a tight bound of $\Theta(\ell \log(n/d))$ for the randomized adaptive settings. | 翻訳日:2023-07-16 04:05:54 公開日:2023-06-27 |
# ネットワーク遅延推定のためのレバレッジサンプリングとテンソルQR分解によるテンソル補完 Tensor Completion via Leverage Sampling and Tensor QR Decomposition for Network Latency Estimation ( http://arxiv.org/abs/2307.06848v1 ) ライセンス: Link先を確認 | Jun Lei, Ji-Qian Zhao, Jing-Qi Wang, An-Bao Xu | (参考訳) 本稿では,ネットワーク性能の重要な指標であるネットワークレイテンシ推定について考察する。
しかし、大規模なネットワーク遅延推定には多くの計算時間が必要である。
そこで本研究では,より高速で高精度な新しい手法を提案する。
ネットワークノードのデータ構造は行列を形成し、時間次元を導入することでテンソルモデルを形成することができる。
したがって、全問題をテンソル完備問題として要約することができる。
本手法の主な考え方は、テンソルレバレッジサンプリング戦略を改善し、テンソルQR分解をテンソル補完に導入することである。
高速なテンソルレバレッジサンプリングを実現するため、テンソル特異分解(t-SVD)をテンソルCSVD-QRに置き換えてt-SVDを近似する。
不完全テンソルの高速な完備化を実現するため、従来のテンソル核ノルムではなく、テンソル$L_{2,1}$ノルムを用いる。
さらに,テンソルQR分解を乗算器(ADMM)フレームワークの交互方向法に導入する。
数値実験により,本手法は精度の良い最先端アルゴリズムよりも高速であることがわかった。 In this paper, we consider the network latency estimation, which has been an important metric for network performance. However, a large scale of network latency estimation requires a lot of computing time. Therefore, we propose a new method that is much faster and maintains high accuracy. The data structure of network nodes can form a matrix, and the tensor model can be formed by introducing the time dimension. Thus, the entire problem can be be summarized as a tensor completion problem. The main idea of our method is improving the tensor leverage sampling strategy and introduce tensor QR decomposition into tensor completion. To achieve faster tensor leverage sampling, we replace tensor singular decomposition (t-SVD) with tensor CSVD-QR to appoximate t-SVD. To achieve faster completion for incomplete tensor, we use the tensor $L_{2,1}$-norm rather than traditional tensor nuclear norm. Furthermore, we introduce tensor QR decomposition into alternating direction method of multipliers (ADMM) framework. Numerical experiments witness that our method is faster than state-of-art algorithms with satisfactory accuracy. | 翻訳日:2023-07-16 03:17:01 公開日:2023-06-27 |
# 新型コロナウイルス感染拡大に伴うメキシコの大学への最適検査と封じ込め戦略 Optimal Testing and Containment Strategies for Universities in Mexico amid COVID-19 ( http://arxiv.org/abs/2306.17191v1 ) ライセンス: Link先を確認 | Luis Benavides-V\'azquez and H\'ector Alonso Guzm\'an-Guti\'errez and Jakob Jonnerby and Philip Lazos and Edwin Lock and Francisco Marmolejo-Coss\'io and Ninad Rajgopal and Jos\'e Roberto Tello-Ayala | (参考訳) この研究は、新型コロナウイルス(covid-19)によるロックダウンの後、メキシコの大学を再開するために開発されたテストと封じ込めのフレームワークだ。
我々は,資源配分問題として診断試験を扱い,限られた試験資源を最大限に活用する教育機関を支援するために,試験割当機構と実用ウェブアプリケーションを開発する。
技術的成果とツールに加えて、メキシコの主要な私立大学であるITESM(Instituto Tecnol\'ogico y de Estudios Superiores de Monterrey)における我々のフレームワークのパイロット運用に関する現在の経験や、メキシコの文脈における学術的政策による研究の幅広い経験を反映しています。 This work sets out a testing and containment framework developed for reopening universities in Mexico following the lockdown due to COVID-19. We treat diagnostic testing as a resource allocation problem and develop a testing allocation mechanism and practical web application to assist educational institutions in making the most of limited testing resources. In addition to the technical results and tools, we also provide a reflection on our current experience of running a pilot of our framework within the Instituto Tecnol\'ogico y de Estudios Superiores de Monterrey (ITESM), a leading private university in Mexico, as well as on our broader experience bridging research with academic policy in the Mexican context. | 翻訳日:2023-07-09 14:11:09 公開日:2023-06-27 |
# 機械学習とShapley Additive Explanation(SHAP)法を用いた分散型DDoS攻撃検出の分類と説明 Classification and Explanation of Distributed Denial-of-Service (DDoS) Attack Detection using Machine Learning and Shapley Additive Explanation (SHAP) Methods ( http://arxiv.org/abs/2306.17190v1 ) ライセンス: Link先を確認 | Yuanyuan Wei, Julian Jang-Jaccard, Amardeep Singh, Fariza Sabrina, Seyit Camtepe | (参考訳) ddos攻撃はターゲットのシステムを圧倒し、多数のリクエストや複数のソースからのトラフィックがあり、ターゲットとするサーバ、サービス、ネットワークの通常のトラフィックを妨害する。
正当なトラフィックと悪意のあるトラフィックの区別は難しい課題です。
正当なトラフィックと悪意のあるトラフィックを分類し、機械学習とディープラーニング技術を用いてネットワークトラフィックを分析することができる。
しかし,交通流の良否を分類するために実装されたモデル間説明は,モデルの内部動作理論の重要な研究であり,モデルの信頼性を高めるものである。
説明可能な人工知能(XAI)は、DDoSトラフィックを分類し識別できる機械学習モデルの意思決定を説明することができる。
本研究では,DDoS攻撃の正当なトラフィックと悪意のあるトラフィックを分類するだけでなく,SHAPを用いて分類器モデルの意思決定を説明するフレームワークを提案する。
この懸念に対処するために、まず、機能重要度技術(例えばxgbベースのshap機能重要度)に基づいて、上位20の重要機能を選択するために、機能選択技術を採用します。
その後、提案モデルのMLP(Multi-layer Perceptron Network)は、DDoS攻撃データセットの最適化された特徴を入力として使用し、合法で悪意のあるトラフィックを分類する。
すべての機能と選択した機能で広範な実験を行います。
評価の結果,選択した特徴を用いたモデル性能は99\%以上の精度が得られることがわかった。
最後に, SHAPによるグローバルおよびローカルな説明に基づいて, 予測結果と特徴との間のモデル性能をモデル化し, 提案したフレームワークにより得られた結果をよりよく説明することができる。 DDoS attacks involve overwhelming a target system with a large number of requests or traffic from multiple sources, disrupting the normal traffic of a targeted server, service, or network. Distinguishing between legitimate traffic and malicious traffic is a challenging task. It is possible to classify legitimate traffic and malicious traffic and analysis the network traffic by using machine learning and deep learning techniques. However, an inter-model explanation implemented to classify a traffic flow whether is benign or malicious is an important investigation of the inner working theory of the model to increase the trustworthiness of the model. Explainable Artificial Intelligence (XAI) can explain the decision-making of the machine learning models that can be classified and identify DDoS traffic. In this context, we proposed a framework that can not only classify legitimate traffic and malicious traffic of DDoS attacks but also use SHAP to explain the decision-making of the classifier model. To address this concern, we first adopt feature selection techniques to select the top 20 important features based on feature importance techniques (e.g., XGB-based SHAP feature importance). Following that, the Multi-layer Perceptron Network (MLP) part of our proposed model uses the optimized features of the DDoS attack dataset as inputs to classify legitimate and malicious traffic. We perform extensive experiments with all features and selected features. The evaluation results show that the model performance with selected features achieves above 99\% accuracy. Finally, to provide interpretability, XAI can be adopted to explain the model performance between the prediction results and features based on global and local explanations by SHAP, which can better explain the results achieved by our proposed framework. | 翻訳日:2023-07-09 14:10:52 公開日:2023-06-27 |
# sahaayak 2023 -- 機械翻訳のためのサンスクリットからヒンディー語への多領域二言語並列コーパス SAHAAYAK 2023 -- the Multi Domain Bilingual Parallel Corpus of Sanskrit to Hindi for Machine Translation ( http://arxiv.org/abs/2307.00021v1 ) ライセンス: Link先を確認 | Vishvajitsinh Bakrola and Jitendra Nasariwala | (参考訳) データ記事は、SAHAAYAK 2023という名前の低リソース言語ペアSanskrit-Hindiの大きなバイリンガル並列コーパスを提示する。
このコーパスは、サンスクリットとヒンディー語の間に合計1.5mの文対を含んでいる。
コーパスの普遍的な使用性とバランスをとるために、ニュース、デイリー・会話、政治、歴史、スポーツ、古代インド文学を含む複数のドメインのデータがコーパスに組み込まれている。
マルチフェイスのアプローチは、サンスクリットのような低リソースの言語でカスタマイズ可能なマルチドメインコーパスに適応している。
私たちの開発アプローチは、手作りの小さなデータセットの作成から、広範囲のマイニング、クリーニング、検証にまで及びます。
我々は,機械可読源からの採掘,非機械可読源からの採掘,既存コーパスからの照合という,3次元の採掘プロセスを用いてきた。
ポストマイニング,正規化,アライメント,コーパスクリーニングのための専用パイプラインを開発し,コーパスに適用し,機械翻訳アルゴリズムに活用できるようにした。 The data article presents the large bilingual parallel corpus of low-resourced language pair Sanskrit-Hindi, named SAHAAYAK 2023. The corpus contains total of 1.5M sentence pairs between Sanskrit and Hindi. To make the universal usability of the corpus and to make it balanced, data from multiple domain has been incorporated into the corpus that includes, News, Daily conversations, Politics, History, Sport, and Ancient Indian Literature. The multifaceted approach has been adapted to make a sizable multi-domain corpus of low-resourced languages like Sanskrit. Our development approach is spanned from creating a small hand-crafted dataset to applying a wide range of mining, cleaning, and verification. We have used the three-fold process of mining: mining from machine-readable sources, mining from non-machine readable sources, and collation from existing corpora sources. Post mining, the dedicated pipeline for normalization, alignment, and corpus cleaning is developed and applied to the corpus to make it ready to use on machine translation algorithms. | 翻訳日:2023-07-09 13:49:30 公開日:2023-06-27 |
# CaseIN:微細な感情の強度調節のためのカスケーディングとインシシット制御 CASEIN: Cascading Explicit and Implicit Control for Fine-grained Emotion Intensity Regulation ( http://arxiv.org/abs/2307.00020v1 ) ライセンス: Link先を確認 | Yuhao Cui, Xiongwei Wang, Zhongzhou Zhao, Wei Zhou, Haiqing Chen | (参考訳) 既存のきめ細かい強度制御手法は、予測された感情確率による明示的な制御に依存している。
しかし、これらの高いレベルの意味的確率は、しばしば音素レベルで不正確で不規則であり、学習のバイアスにつながる。
特に、特定の音素に対して複数の感情強度を混合しようとすると、その合成の制御性と自然性が著しく低下する。
この問題に対処するために、参照音声から感情多様体の正確なアンタングル化を利用して、より低い意味レベルで暗黙的な表現を学習するCAScaded Explicit and Implicit coNtrol framework (CASEIN)を提案する。
この表現は、明示的確率と合成モデルの間の意味的ギャップを橋渡しし、学習のバイアスを減らす。
実験では、カゼインは制御性と自然性の両方において既存の方法を超える。
特に、私たちは複数の感情の混合強度のきめ細かい制御を初めて行う。 Existing fine-grained intensity regulation methods rely on explicit control through predicted emotion probabilities. However, these high-level semantic probabilities are often inaccurate and unsmooth at the phoneme level, leading to bias in learning. Especially when we attempt to mix multiple emotion intensities for specific phonemes, resulting in markedly reduced controllability and naturalness of the synthesis. To address this issue, we propose the CAScaded Explicit and Implicit coNtrol framework (CASEIN), which leverages accurate disentanglement of emotion manifolds from the reference speech to learn the implicit representation at a lower semantic level. This representation bridges the semantical gap between explicit probabilities and the synthesis model, reducing bias in learning. In experiments, our CASEIN surpasses existing methods in both controllability and naturalness. Notably, we are the first to achieve fine-grained control over the mixed intensity of multiple emotions. | 翻訳日:2023-07-09 13:49:10 公開日:2023-06-27 |
# 変分オートエンコーダとラジアル基底関数カーネルを併用した風力発電・太陽光発電の長期時間シナリオ生成 Long-Term Hourly Scenario Generation for Correlated Wind and Solar Power combining Variational Autoencoders with Radial Basis Function Kernels ( http://arxiv.org/abs/2306.16427v1 ) ライセンス: Link先を確認 | Julio Alberto Silva Dias | (参考訳) 再生可能エネルギーの正確な将来シナリオの創出は、特に持続可能エネルギーの集中化とエネルギーマトリックスの再生可能エネルギーの浸透の増大を考えると、電気システムの長期計画と運用に不可欠である。
これらの予測により、電力系統のオペレータとエネルギープランナーは、再生可能エネルギーの発生に伴う変動性と断続性を効果的に管理でき、グリッドの安定性の向上、エネルギー管理の改善、意思決定プロセスの強化が可能になる。
本稿では,この2つのエネルギー源の相関を考慮した,風力発電と太陽光発電の長期シナリオ生成のための革新的な手法を提案する。
これを実現するために、可変オートエンコーダ(VAE)の機能と、人工ニューラルネットワークアーキテクチャにラジアル基底関数(RBF)カーネルを組み込むことのメリットを併用する。
それらを組み込むことで、正規化特性を改善した潜在空間を得る。
提案手法の有効性を評価するため,ブラジルにおける実世界の風力と発電データを利用して,代表的な研究シナリオで実験を行った。
我々は、我々のモデルで生成されたシナリオと観測データを比較し、従来のVAEアーキテクチャで生成された他のシナリオと比較する。
実験の結果,提案手法は風力と太陽発電の長期的シナリオを生成することが可能であり,これらのエネルギー源の時間的・空間的特性を正確に把握できることがわかった。
RBFの利点を生かして, 再生可能エネルギー生成のための長期シナリオの生成における精度と堅牢性を向上させる。 Accurate generation of realistic future scenarios of renewable energy generation is crucial for long-term planning and operation of electrical systems, especially considering the increasing focus on sustainable energy and the growing penetration of renewable generation in energy matrices. These predictions enable power system operators and energy planners to effectively manage the variability and intermittency associated with renewable generation, allowing for better grid stability, improved energy management, and enhanced decision-making processes. In this paper, we propose an innovative method for generating long-term hourly scenarios for wind and solar power generation, taking into consideration the correlation between these two energy sources. To achieve this, we combine the capabilities of a Variational Autoencoder (VAE) with the additional benefits of incorporating the Radial Basis Function (RBF) kernel in our artificial neural network architecture. By incorporating them, we aim to obtain a latent space with improved regularization properties. To evaluate the effectiveness of our proposed method, we conduct experiments in a representative study scenario, utilizing real-world wind and solar power generation data from the Brazil system. We compare the scenarios generated by our model with the observed data and with other sets of scenarios produced by a conventional VAE architecture. Our experimental results demonstrate that the proposed method can generate long-term hourly scenarios for wind and solar power generation that are highly correlated, accurately capturing the temporal and spatial characteristics of these energy sources. Taking advantage of the benefits of RBF in obtaining a well-regularized latent space, our approach offers improved accuracy and robustness in generating long-term hourly scenarios for renewable energy generation. | 翻訳日:2023-06-30 16:14:44 公開日:2023-06-27 |
# 共振器結合二重量子ドットフォトダイオードを用いたマイクロ波電力回収 Microwave power harvesting using resonator-coupled double quantum dot photodiode ( http://arxiv.org/abs/2306.15797v1 ) ライセンス: Link先を確認 | Subhomoy Haldar, Drilon Zenelaj, Patrick P. Potts, Harald Havir, Sebastian Lehmann, Kimberly A. Dick, Peter Samuelsson, Ville F. Maisi | (参考訳) 共振器結合二重量子ドット系におけるマイクロ波電力-電気エネルギー変換を実証する。
このシステムはフォトダイオードとして動作し、個々のマイクロ波光子をダブルドットを貫通する電子に変換することで、入力電力1フェムトワットレベルまで印加電圧バイアスに対して電流が流れる。
この装置は最大電力収穫効率2%に達し、光子-電子変換効率は12%に達する。
線形および非線形マイクロ波応答系におけるデバイス動作を解析し,結果と理論的予測を比較し,良好な一致を求める。 We demonstrate a microwave power-to-electrical energy conversion in a resonator-coupled double quantum dot system. The system operated as a photodiode, converts individual microwave photons to electrons tunneling through the double dot, resulting in an electrical current flowing against the applied voltage bias at input powers down to 1 femto-watt level. The device attains a maximum power harvesting efficiency of 2%, with the photon-to-electron conversion efficiency reaching 12%. We analyze the device operation in both the linear and non-linear microwave power response regimes and compare the results to theoretical predictions, finding good agreement. | 翻訳日:2023-06-30 16:13:50 公開日:2023-06-27 |
# フェイクレビュー生成によるブラックボックスレビューベースのレコメンダシステム Shilling Black-box Review-based Recommender Systems through Fake Review Generation ( http://arxiv.org/abs/2306.16526v1 ) ライセンス: Link先を確認 | Hung-Yun Chiang, Yi-Syuan Chen, Yun-Zhu Song, Hong-Han Shuai and Jason S. Chang | (参考訳) レビューベースのリコメンダシステム(RBRS)は、よく知られたコールドスタート問題を緩和する能力によって研究の関心が高まりつつある。
RBRSはレビューを利用してユーザとアイテムの表現を構築する。
しかし,本稿では,このようなレビューへの依存が,システムにシリングされるリスクを及ぼす可能性があることを論じる。
そこで本研究では,RBRSに対する攻撃をシリングするための第1世代モデルを提案する。
具体的には,システムに生成したレビューを付加した後,予測シフトを強制することで,不正にアイテムを宣伝する強化学習を通じて,偽レビュージェネレータを学習する。
事前訓練された言語モデルとアスペクト予測器の助けを借りて、テキストの流布度や多様性を高める補助的な報酬を導入することで、高い忠実度でシリングできる。
実験の結果,提案フレームワークはAmazon corpus上の3種類のRBRSを3つのドメインとYelp corpusで攻撃することに成功した。
さらに、人間による研究は、生成されたレビューが流動的で情報に富んでいることも示している。
最後に、アタックレビュージェネレータ(ARG)を装備し、敵の訓練を受けたRBRSは悪意のあるレビューに対してより堅牢である。 Review-Based Recommender Systems (RBRS) have attracted increasing research interest due to their ability to alleviate well-known cold-start problems. RBRS utilizes reviews to construct the user and items representations. However, in this paper, we argue that such a reliance on reviews may instead expose systems to the risk of being shilled. To explore this possibility, in this paper, we propose the first generation-based model for shilling attacks against RBRSs. Specifically, we learn a fake review generator through reinforcement learning, which maliciously promotes items by forcing prediction shifts after adding generated reviews to the system. By introducing the auxiliary rewards to increase text fluency and diversity with the aid of pre-trained language models and aspect predictors, the generated reviews can be effective for shilling with high fidelity. Experimental results demonstrate that the proposed framework can successfully attack three different kinds of RBRSs on the Amazon corpus with three domains and Yelp corpus. Furthermore, human studies also show that the generated reviews are fluent and informative. Finally, equipped with Attack Review Generators (ARGs), RBRSs with adversarial training are much more robust to malicious reviews. | 翻訳日:2023-06-30 15:43:50 公開日:2023-06-27 |
# インシシット複合カーネルによるニューラルネットワークへの事前知識の導入 Incorporating Prior Knowledge into Neural Networks through an Implicit Composite Kernel ( http://arxiv.org/abs/2205.07384v7 ) ライセンス: Link先を確認 | Ziyang Jiang, Tongshu Zheng, Yiling Liu, and David Carlson | (参考訳) ニューラルネットワーク(NN)学習を事前知識でガイドすることは困難である。
対照的に、空間的滑らかさや季節性といった多くの既知の性質は、ガウス過程 (GP) において適切なカーネルを選択することでモデル化が簡単である。
多くのディープラーニングアプリケーションは、そのような既知の特性をモデル化することで拡張することができる。
例えば、畳み込みニューラルネットワーク(CNN)は、強い季節的影響を受けるリモートセンシングで頻繁に使用される。
本稿では,ニューラルネットワークによって暗黙的に定義されたカーネルと,既知の特性(季節性など)をモデル化するために選択された第2のカーネル関数を組み合わせることで,ディープラーニングの強みとGPの明確なモデリング能力を組み合わせることを提案する。
我々は,暗黙的複合カーネル (ick) と呼ばれるnystrom近似に基づくディープネットワークと効率的なマッピングを組み合わせることで,この概念を実装した。
次にサンプル・テン・オプティマイズ法を適用し,全gp後方分布を近似する。
ICKは、合成データセットと実世界のデータセットの両方において、優れた性能と柔軟性を有することを示す。
ICKフレームワークは、多くのアプリケーションでニューラルネットワークに事前情報を含めることができると信じている。 It is challenging to guide neural network (NN) learning with prior knowledge. In contrast, many known properties, such as spatial smoothness or seasonality, are straightforward to model by choosing an appropriate kernel in a Gaussian process (GP). Many deep learning applications could be enhanced by modeling such known properties. For example, convolutional neural networks (CNNs) are frequently used in remote sensing, which is subject to strong seasonal effects. We propose to blend the strengths of deep learning and the clear modeling capabilities of GPs by using a composite kernel that combines a kernel implicitly defined by a neural network with a second kernel function chosen to model known properties (e.g., seasonality). We implement this idea by combining a deep network and an efficient mapping based on the Nystrom approximation, which we call Implicit Composite Kernel (ICK). We then adopt a sample-then-optimize approach to approximate the full GP posterior distribution. We demonstrate that ICK has superior performance and flexibility on both synthetic and real-world data sets. We believe that ICK framework can be used to include prior information into neural networks in many applications. | 翻訳日:2023-06-29 18:51:21 公開日:2023-06-27 |
# 高精度長距離予測のための確率的自己回帰ニューラルネットワーク Probabilistic AutoRegressive Neural Networks for Accurate Long-range Forecasting ( http://arxiv.org/abs/2204.09640v3 ) ライセンス: Link先を確認 | Madhurima Panja, Tanujit Chakraborty, Uttam Kumar, Abdenour Hadid | (参考訳) 時系列データの予測は、株価から初期の流行予測まで、応用に関する重要な研究分野である。
多くの統計的および機械学習手法が提案されているが、現実の予測問題は古典的な予測手法と現代のニューラルネットワークモデルを橋渡しするハイブリッドソリューションを必要とすることが多い。
本研究では,非定常性,非線形性,非調和性,長距離依存性,カオスパターンを示す複雑な時系列データを処理できる確率的自己回帰ニューラルネットワーク(PARNN)を提案する。
PARNNは、自己回帰統合移動平均(ARIMA)フィードバックエラーを用いて自己回帰ニューラルネットワーク(ARNN)を改善し、両方のモデルの説明可能性、スケーラビリティ、"ホワイトボックスのような"予測動作を組み合わせた構成である。
特に、PARNNモデルは予測間隔を通じて不確実な定量化を提供し、高度なディープラーニングツールとは分離する。
計算実験を総合的に実施することにより,Transformers,NBeats,DeepARなどの標準統計モデル,機械学習モデル,ディープラーニングモデルに対してPARNNの性能を評価する。
マクロ経済学、観光学、疫学、その他の分野の様々な現実世界のデータセットは、短期、中期、長期の予測評価に使用される。
本研究は, 各種予測地平線におけるPARNNの優位性を示すものである。
提案したPARNNモデルは、正確な長距離予測に有用なハイブリッドソリューションを提供する。
時系列データに存在する複雑さを効果的に捉え、精度と信頼性で既存の手法より優れている。
予測間隔を通じて不確実性を定量化する能力は、意思決定プロセスにおけるモデルの有用性をさらに高める。 Forecasting time series data is a critical area of research with applications spanning from stock prices to early epidemic prediction. While numerous statistical and machine learning methods have been proposed, real-life prediction problems often require hybrid solutions that bridge classical forecasting approaches and modern neural network models. In this study, we introduce the Probabilistic AutoRegressive Neural Networks (PARNN), capable of handling complex time series data exhibiting non-stationarity, nonlinearity, non-seasonality, long-range dependence, and chaotic patterns. PARNN is constructed by improving autoregressive neural networks (ARNN) using autoregressive integrated moving average (ARIMA) feedback error, combining the explainability, scalability, and "white-box-like" prediction behavior of both models. Notably, the PARNN model provides uncertainty quantification through prediction intervals, setting it apart from advanced deep learning tools. Through comprehensive computational experiments, we evaluate the performance of PARNN against standard statistical, machine learning, and deep learning models, including Transformers, NBeats, and DeepAR. Diverse real-world datasets from macroeconomics, tourism, epidemiology, and other domains are employed for short-term, medium-term, and long-term forecasting evaluations. Our results demonstrate the superiority of PARNN across various forecast horizons, surpassing the state-of-the-art forecasters. The proposed PARNN model offers a valuable hybrid solution for accurate long-range forecasting. By effectively capturing the complexities present in time series data, it outperforms existing methods in terms of accuracy and reliability. The ability to quantify uncertainty through prediction intervals further enhances the model's usefulness in decision-making processes. | 翻訳日:2023-06-29 18:51:01 公開日:2023-06-27 |
# PyDTS: 競合するリスクを伴う離散時間生存(正規化)回帰のためのPythonパッケージ PyDTS: A Python Package for Discrete-Time Survival (Regularized) Regression with Competing Risks ( http://arxiv.org/abs/2204.05731v5 ) ライセンス: Link先を確認 | Tomer Meir, Rom Gutman, and Malka Gorfine | (参考訳) 時系列分析(生存分析)は、関心の反応が予め特定された事象が起こるまでの時間であるときに用いられる。
時間から時間へのデータは、時間自体が離散的であるか、障害時間を間隔にグループ化したり、測定を丸めるため、時に離散される。
さらに、個人の失敗は、競合するリスク(イベント)として知られる、いくつかの異なる障害タイプのひとつになり得る。
生存回帰分析のためのほとんどの方法とソフトウェアパッケージは、時間が連続的なスケールで測定されると仮定している。
離散時間データを用いた標準的な連続時間モデルの適用により、離散時間モデルの偏り推定が生じることはよく知られている。
離散時間生存データに対する半パラメトリック競合リスクモデルをシミュレーション、推定、評価するためのPythonパッケージPyDTSを紹介する。
このパッケージは、LASSOや弾性ネットなどの規則化された回帰方法を含む高速な手順を実装している。
シミュレーション研究はパッケージの柔軟性と正確性を示す。
このパッケージの有用性は、入院期間を予測するためのMIMIC (Medicical Information Mart for Intensive Care) - IVデータセットを分析して実証される。 Time-to-event analysis (survival analysis) is used when the response of interest is the time until a pre-specified event occurs. Time-to-event data are sometimes discrete either because time itself is discrete or due to grouping of failure times into intervals or rounding off measurements. In addition, the failure of an individual could be one of several distinct failure types, known as competing risks (events). Most methods and software packages for survival regression analysis assume that time is measured on a continuous scale. It is well-known that naively applying standard continuous-time models with discrete-time data may result in biased estimators of the discrete-time models. The Python package PyDTS, for simulating, estimating and evaluating semi-parametric competing-risks models for discrete-time survival data, is introduced. The package implements a fast procedure that enables including regularized regression methods, such as LASSO and elastic net, among others. A simulation study showcases flexibility and accuracy of the package. The utility of the package is demonstrated by analysing the Medical Information Mart for Intensive Care (MIMIC) - IV dataset for prediction of hospitalization length of stay. | 翻訳日:2023-06-29 18:50:21 公開日:2023-06-27 |
# スロット中心モデルによるテスト時間適応 Test-time Adaptation with Slot-Centric Models ( http://arxiv.org/abs/2203.11194v3 ) ライセンス: Link先を確認 | Mihir Prabhudesai, Anirudh Goyal, Sujoy Paul, Sjoerd van Steenkiste, Mehdi S. M. Sajjadi, Gaurav Aggarwal, Thomas Kipf, Deepak Pathak, Katerina Fragkiadaki | (参考訳) 現在の視覚検出器は、トレーニング分布内では印象的だが、しばしば分布外のシーンを構成体に解析することができない。
最近のテスト時間適応法は、補助的な自己教師付き損失を用いて、各テスト例にネットワークパラメータを独立に適応させ、画像分類タスクの訓練分布外の一般化に向けた有望な結果を示す。
本研究では,これらの損失が,建築上の帰納バイアスを考慮せずに,シーンの分解作業において不十分であることを示す。
最近のスロット中心生成モデルは、ピクセルを再構成することにより、シーンを自己監督的な方法でエンティティに分解しようとする。
Slot-TTAは半教師付きスロット中心のシーン分解モデルであり,再現性やクロスビュー合成の目的に対する勾配勾配によるシーンごとのテスト時間に適応する。
本研究では,複数の入力モード,イメージ,あるいは3dポイントクラウドのスロットttaを評価し,最先端の教師付きフィードフォワード検出器や代替テストタイム適応法に対する分散性能の改善を示す。 Current visual detectors, though impressive within their training distribution, often fail to parse out-of-distribution scenes into their constituent entities. Recent test-time adaptation methods use auxiliary self-supervised losses to adapt the network parameters to each test example independently and have shown promising results towards generalization outside the training distribution for the task of image classification. In our work, we find evidence that these losses are insufficient for the task of scene decomposition, without also considering architectural inductive biases. Recent slot-centric generative models attempt to decompose scenes into entities in a self-supervised manner by reconstructing pixels. Drawing upon these two lines of work, we propose Slot-TTA, a semi-supervised slot-centric scene decomposition model that at test time is adapted per scene through gradient descent on reconstruction or cross-view synthesis objectives. We evaluate Slot-TTA across multiple input modalities, images or 3D point clouds, and show substantial out-of-distribution performance improvements against state-of-the-art supervised feed-forward detectors, and alternative test-time adaptation methods. | 翻訳日:2023-06-29 18:50:00 公開日:2023-06-27 |
# ニューロンアンサンブル推論のための生成モデルの一般化 Generalization of generative model for neuronal ensemble inference method ( http://arxiv.org/abs/2211.05634v3 ) ライセンス: Link先を確認 | Shun Kimura, Koujin Takeda | (参考訳) 生命活動を維持するために必要な様々な脳機能は、無数のニューロンの相互作用を通じて実現される。
したがって,機能的ニューロンネットワークの解析が重要である。
脳機能のメカニズムを解明するために、神経科学のあらゆる分野を含む多くの研究が機能的な神経細胞のアンサンブルとハブで活発に行われている。
さらに,機能的ニューロンアンサンブルやハブの存在が情報処理の効率化に寄与することが示唆されている。
これらの理由から,神経活動データから機能的ニューロンアンサンブルを推定する方法が求められており,ベイズ推定に基づく手法が提案されている。
しかし、ベイズ推定における活動のモデル化には問題がある。
各ニューロンの活動の特徴は生理的条件によって非定常性を持つ。
その結果、ベイズ推論モデルにおける定常性の仮定は推論を阻害し、推論結果の不安定化と推論精度の低下につながる。
本研究では,ニューロンの状態を表現する変数の範囲を拡張し,拡張変数に対するモデルの可能性を一般化する。
従来の研究と比較することにより,より広い空間でニューロンの状態を表現することができる。
この2値入力の制限のない一般化により,ソフトクラスタリングが可能となり,非定常神経活動データに適用できる。
また, 本手法の有効性について, 漏洩集積火炎モデルにおける電位データから得られた複数の合成蛍光データに適用した。 Various brain functions that are necessary to maintain life activities materialize through the interaction of countless neurons. Therefore, it is important to analyze functional neuronal network. To elucidate the mechanism of brain function, many studies are being actively conducted on functional neuronal ensemble and hub, including all areas of neuroscience. In addition, recent study suggests that the existence of functional neuronal ensembles and hubs contributes to the efficiency of information processing. For these reasons, there is a demand for methods to infer functional neuronal ensembles from neuronal activity data, and methods based on Bayesian inference have been proposed. However, there is a problem in modeling the activity in Bayesian inference. The features of each neuron's activity have non-stationarity depending on physiological experimental conditions. As a result, the assumption of stationarity in Bayesian inference model impedes inference, which leads to destabilization of inference results and degradation of inference accuracy. In this study, we extend the range of the variable for expressing the neuronal state, and generalize the likelihood of the model for extended variables. By comparing with the previous study, our model can express the neuronal state in larger space. This generalization without restriction of the binary input enables us to perform soft clustering and apply the method to non-stationary neuroactivity data. In addition, for the effectiveness of the method, we apply the developed method to multiple synthetic fluorescence data generated from the electrical potential data in leaky integrated-and-fire model. | 翻訳日:2023-06-29 18:29:39 公開日:2023-06-27 |
# 有限サンプルFDR制御ベイズ線形モデルにおける準最適多重検定 Near-optimal multiple testing in Bayesian linear models with finite-sample FDR control ( http://arxiv.org/abs/2211.02778v2 ) ライセンス: Link先を確認 | Taejoo Ahn, Licong Lin, Song Mei | (参考訳) 高次元変数選択問題において、統計学者はしばしば偽発見率(fdr)を制御する複数のテスト手順を設計し、関連する変数の多くを同時に特定しようとする。
Knockoffsや条件付きランダム化テストのようなモデルX法は、共変量の既知の分布を仮定して有限サンプルFDR制御の第一目標を達成する。
しかし、これらの手法が発見の最大化という二次的な目的を達成できるかどうかは不明のままである。
実際、有限サンプルFDR制御によりより関連性の高い変数を発見する手順を設計することは、最も単純な線形モデルでさえも、ほとんど明らかな問題である。
本稿では,等方性共変量を持つ高次元ベイズ線形モデルの近似最適多重試験法を開発する。
ベイズ線形モデルに従えば,モデルが不定形化されている場合でも,有限サンプルから頻繁なfdrを制御するためのmodel-x手順を導入する。
提案手法である poedce には, 後方期待法, 蒸留条件ランダム化試験 (dcrt) および e-値を用いたbenjamini-hochberg 法 (ebh) の3つの主成分が組み込まれている。
poedce の最適性予想は、その漸近的正比例 (tpp) と偽発見比例 (fdp) のヒューリスティックな計算に基づいている。
その結果,複数のテスト手順のパワーを比較するベンチマークとしてベイズ線形モデルが確立された。 In high dimensional variable selection problems, statisticians often seek to design multiple testing procedures that control the False Discovery Rate (FDR), while concurrently identifying a greater number of relevant variables. Model-X methods, such as Knockoffs and conditional randomization tests, achieve the primary goal of finite-sample FDR control, assuming a known distribution of covariates. However, whether these methods can also achieve the secondary goal of maximizing discoveries remains uncertain. In fact, designing procedures to discover more relevant variables with finite-sample FDR control is a largely open question, even within the arguably simplest linear models. In this paper, we develop near-optimal multiple testing procedures for high dimensional Bayesian linear models with isotropic covariates. We introduce Model-X procedures that provably control the frequentist FDR from finite samples, even when the model is misspecified, and conjecturally achieve near-optimal power when the data follow the Bayesian linear model. Our proposed procedure, PoEdCe, incorporates three key ingredients: Posterior Expectation, distilled Conditional randomization test (dCRT), and the Benjamini-Hochberg procedure with e-values (eBH). The optimality conjecture of PoEdCe is based on a heuristic calculation of its asymptotic true positive proportion (TPP) and false discovery proportion (FDP), which is supported by methods from statistical physics as well as extensive numerical simulations. Our result establishes the Bayesian linear model as a benchmark for comparing the power of various multiple testing procedures. | 翻訳日:2023-06-29 18:29:20 公開日:2023-06-27 |
# ブロードバンド完全磁性導体メタマテリアルを用いた真空中カシミールナノ粒子浮上 Casimir nanoparticle levitation in vacuum with broadband perfect magnetic conductor metamaterials ( http://arxiv.org/abs/2210.12094v2 ) ライセンス: Link先を確認 | Adrian E. Rubio Lopez, Vincenzo Giannini | (参考訳) ナノ粒子の浮上は様々な研究分野において不可欠である。
カシミール力はそれに取り組むための自然な候補であるが、ブロードバンドメタマテリアルの欠如は、真空中の反発力を妨げる。
真空中におけるサブミクロンナノ粒子の浮揚は、ブロードバンドメタマテリアル完全磁性導体表面の設計に基づいており、その力は主に(量子)零点寄与によって与えられる。
質量力学の中心の調和状態では、特性周波数はナノ粒子の体積に依存しながらプランクの定数$\hbar$に線形に依存する。 The levitation of nanoparticles is essential in various branches of research. Casimir forces are natural candidates to tackle it but the lack of broadband metamaterials precluded repulsive forces in vacuum. We show sub-micron nanoparticle levitation in vacuum only based on the design of a broadband metamaterial perfect magnetic conductor surface, where the force is mostly given by the (quantum) zero-point contribution. In the harmonic regime of the center of mass dynamics, the characteristic frequency depends linearly on Planck's constant $\hbar$ while independent of the nanoparticle's volume. | 翻訳日:2023-06-29 18:28:30 公開日:2023-06-27 |
# 量子最適制御を用いた量子エンタングル Qudit entanglers using quantum optimal control ( http://arxiv.org/abs/2212.08799v2 ) ライセンス: Link先を確認 | Sivaprasad Omanakuttan, Anupam Mitra, Eric J. Meier, Michael J. Martin and Ivan H Deutsch | (参考訳) 量子最適制御における2つの手法を用いて、2つの量子論理ゲートの絡み合い生成について検討する。
連続的なリー代数制御とデジタルリー群制御の両方を利用する。
どちらの場合も鍵は時間依存ハミルトニアンへのアクセスであり、これは群 SU($d^2$) において任意のユニタリ行列を生成することができる。
高度に密着するゲートを作るための効率的なプロトコルを見つける。
この理論のテストとして、アルカリ土類原子の核スピンに強くエンコードされ、磁気と光学で操作されるクアディットのケースを、よく知られたRydbergブロッキングから生じる絡み合い相互作用を用いて研究した。
我々はこれを、核スピン共鳴、テンソルAC-スタークシフト、およびライドバーグドレッシングの組み合わせによって制御された$I=9/2$核スピンに符号化された$d=10$次元のquditに基づくケーススタディに適用し、CPhaseのような任意の対称な2量子ゲートを生成できることを示した。
我々の技術は核スピンに符号化された$2\le d \le10$のクディットエンタングゲートを実装するのに利用できる。
また、リドベルク状態の有限寿命によるデコヒーレンスがCPhaseゲートの生成にどのように影響するかを調べた結果、数値最適化により、$0.9985$, $0.9980$, $0.9942$, $0.9800$ for $d=2$, $d=3$, $d=5$, $d=7$のフィディリティが得られた。
これにより、クォーディットによる量子情報処理、量子シミュレーション、普遍量子計算、量子誤り訂正などの量子情報処理の様々な応用を探索する強力なプラットフォームを提供する。 We study the generation of two-qudit entangling quantum logic gates using two techniques in quantum optimal control. We take advantage of both continuous, Lie-algebraic control and digital, Lie-group control. In both cases, the key is access to a time-dependent Hamiltonian which can generate an arbitrary unitary matrix in the group SU($d^2$). We find efficient protocols for creating high-fidelity entangling gates. As a test of our theory, we study the case of qudits robustly encoded in nuclear spins of alkaline earth atoms and manipulated with magnetic and optical fields, with entangling interactions arising from the well-known Rydberg blockade. We applied this in a case study based on a $d=10$ dimensional qudit encoded in the $I=9/2$ nuclear spin in $^{87}$Sr, controlled through a combination of nuclear spin-resonance, a tensor AC-Stark shift, and Rydberg dressing, which allows us to generate an arbitrary symmetric entangling two-qudit gate such as CPhase. Our techniques can be used to implement qudit entangling gates for any $2\le d \le10$ encoded in the nuclear spin. We also studied how decoherence due to the finite lifetime of the Rydberg states affects the creation of the CPhase gate and found, through numerical optimization, a fidelity of $0.9985$, $0.9980$, $0.9942$, and $0.9800$ for $d=2$, $d=3$, $d=5$, and $d=7$ respectively. This provides a powerful platform to explore the various applications of quantum information processing of qudits including metrological enhancement with qudits, quantum simulation, universal quantum computation, and quantum error correction. | 翻訳日:2023-06-29 18:20:19 公開日:2023-06-27 |
# ポリシーに基づく平均報酬強化学習アルゴリズムの性能限界 Performance Bounds for Policy-Based Average Reward Reinforcement Learning Algorithms ( http://arxiv.org/abs/2302.01450v3 ) ライセンス: Link先を確認 | Yashaswini Murthy, Mehrdad Moharrami and R. Srikant | (参考訳) 多くのポリシーベース強化学習(RL)アルゴリズムは、近似ポリシー反復(PI)のインスタンス化、すなわち、政策改善と政策評価を概ね行うことができる。
平均報酬目標が有意義なパフォーマンス指標であるアプリケーションでは、割引された報酬の定式化がしばしば使用され、割引係数は1,$近くで、期待される地平線を非常に大きくするのと同等である。
しかし、対応する理論的境界は地平線の正方形による誤差性能のスケールである。
したがって、全報酬を水平線長で分割した後でも、平均報酬問題に対する対応する性能境界は無限大となる。
したがって、平均逆設定に対する近似PIおよびRLアルゴリズムの有意義な性能境界を得るというオープンな問題があった。
本稿では, 平均逆 MDP に対する最初の有限時間誤差境界を求め, 政策評価や政策改善の誤差がゼロとなるにつれて, 漸近誤差がゼロとなることを示す。 Many policy-based reinforcement learning (RL) algorithms can be viewed as instantiations of approximate policy iteration (PI), i.e., where policy improvement and policy evaluation are both performed approximately. In applications where the average reward objective is the meaningful performance metric, discounted reward formulations are often used with the discount factor being close to $1,$ which is equivalent to making the expected horizon very large. However, the corresponding theoretical bounds for error performance scale with the square of the horizon. Thus, even after dividing the total reward by the length of the horizon, the corresponding performance bounds for average reward problems go to infinity. Therefore, an open problem has been to obtain meaningful performance bounds for approximate PI and RL algorithms for the average-reward setting. In this paper, we solve this open problem by obtaining the first finite-time error bounds for average-reward MDPs, and show that the asymptotic error goes to zero in the limit as policy evaluation and policy improvement errors go to zero. | 翻訳日:2023-06-29 18:11:31 公開日:2023-06-27 |
# Reef-insight:リモートセンシングによるクラスタリング法による礁生息環境マッピングのためのフレームワーク Reef-insight: A framework for reef habitat mapping with clustering methods via remote sensing ( http://arxiv.org/abs/2301.10876v2 ) ライセンス: Link先を確認 | Saharsh Barve, Jody M. Webster, Rohitash Chandra | (参考訳) 気候変動と環境汚染と極端な気候現象の劇的な影響を考えると、特に沿岸地域や海洋における環境被害は大きな関心事となっている。
現在の分析能力は、リモートセンシングなどの情報取得技術の進歩とともに、サンゴ礁生態系の管理と研究に利用することができる。
本稿では,サンゴ礁生息域マッピングのための高度なクラスタリング手法とリモートセンシングを特徴とする教師なし機械学習フレームワークであるleat-insightを提案する。
本フレームワークは,リモートセンシングデータを用いたサンゴ礁生息域マッピングのための異なるクラスタリング手法の比較を行う。
我々は,k平均,階層的クラスタリング,ガウス混合モデル,密度に基づくクラスタリングを含む,定性的および視覚的評価に基づく4つの主要なクラスタリング手法を評価する。
オーストラリアの南グレートバリアリーフにあるワンツリー島サンゴ礁を特徴とするリモートセンシングデータを利用した。
その結果, リモートセンシングデータを用いたクラスタリング手法は, 他の研究と比較して, サンゴ礁の底質および地形のクラスターを同定できることがわかった。
以上の結果から,サンゴ礁の生息環境を網羅した詳細な生息環境マップを作成できる可能性が示唆された。 Environmental damage has been of much concern, particularly in coastal areas and the oceans, given climate change and the drastic effects of pollution and extreme climate events. Our present-day analytical capabilities, along with advancements in information acquisition techniques such as remote sensing, can be utilised for the management and study of coral reef ecosystems. In this paper, we present Reef-Insight, an unsupervised machine learning framework that features advanced clustering methods and remote sensing for reef habitat mapping. Our framework compares different clustering methods for reef habitat mapping using remote sensing data. We evaluate four major clustering approaches based on qualitative and visual assessments which include k-means, hierarchical clustering, Gaussian mixture model, and density-based clustering. We utilise remote sensing data featuring the One Tree Island reef in Australia's Southern Great Barrier Reef. Our results indicate that clustering methods using remote sensing data can well identify benthic and geomorphic clusters in reefs when compared with other studies. Our results indicate that Reef-Insight can generate detailed reef habitat maps outlining distinct reef habitats and has the potential to enable further insights for reef restoration projects. | 翻訳日:2023-06-29 18:10:30 公開日:2023-06-27 |
# 測定臨界量子イジング鎖における非局所性と絡み合い Nonlocality and entanglement in measured critical quantum Ising chains ( http://arxiv.org/abs/2301.08268v2 ) ライセンス: Link先を確認 | Zack Weinstein, Rohith Sajith, Ehud Altman, Samuel J. Garratt | (参考訳) 本研究では,空間における有限密度測定が1次元横場イジングモデルの臨界点における基底状態に及ぼす影響について検討した。
臨界状態における局所的な自由度は長距離の絡み合いを示し、その結果、局所的な測定は極めて非局所的な効果を持つ。
我々は, (1+1) 次元ユークリッド時空における (1+0) 次元欠陥として観測されるイジング共形場理論(CFT)の特性に基づいて, 測定状態のアンサンブルにおける相関と絡み合いの解析を行った。
大規模な自由フェルミオン数を用いて予測を検証するため、パリティ対称性の測定に限定する。
これらの平均効果を解析的に記述するためにレプリカ法を用い、レプリカ理論で生じる欠陥がIsing CFTに無関係な摂動であることを示す。
厳密には、平均相関と絡み合いエントロピーの漸近スケーリングは基底状態に対して変化しない。
対照的に、最も可能性の高い測定結果に対するポスト選択によって生じる欠陥は、まさに限界である。
そこで, 測定後次数パラメータ相関の指数と, エンタングルメントエントロピーのスケーリングを規定する'有効中心電荷'は, 空間における測定値の密度と連続的に変化することがわかった。
我々の研究は、多体量子状態における測定と低エネルギー平衡特性に対する物理的欠陥との新たな関係を確立する。 We study the effects of measurements, performed with a finite density in space, on the ground state of the one-dimensional transverse-field Ising model at criticality. Local degrees of freedom in critical states exhibit long-range entanglement, and as a result, local measurements can have highly nonlocal effects. Our analytical investigation of correlations and entanglement in the ensemble of measured states is based on properties of the Ising conformal field theory (CFT), where measurements appear as (1+0)-dimensional defects in the (1+1)-dimensional Euclidean spacetime. So that we can verify our predictions using large-scale free-fermion numerics, we restrict ourselves to parity-symmetric measurements. To describe their averaged effects analytically we use a replica approach, and we show that the defect arising in the replica theory is an irrelevant perturbation to the Ising CFT. Strikingly, the asymptotic scalings of averaged correlations and entanglement entropy are therefore unchanged relative to the ground state. In contrast, the defect generated by postselecting on the most likely measurement outcomes is exactly marginal. We then find that the exponent governing postmeasurement order parameter correlations, as well as the ''effective central charge'' governing the scaling of entanglement entropy, vary continuously with the density of measurements in space. Our work establishes new connections between the effects of measurements on many-body quantum states and of physical defects on low-energy equilibrium properties. | 翻訳日:2023-06-29 18:10:11 公開日:2023-06-27 |
# PyVBMC:Pythonにおける効率的なベイズ推論 PyVBMC: Efficient Bayesian inference in Python ( http://arxiv.org/abs/2303.09519v2 ) ライセンス: Link先を確認 | Bobby Huggins, Chengkun Li, Marlon Tobaben, Mikko J. Aarnos, Luigi Acerbi | (参考訳) PyVBMCは変分ベイズ的モンテカルロ(VBMC)アルゴリズムのPythonによるブラックボックス計算モデルの後方およびモデル推論の実装である(Acerbi, 2018, 2020)。
vbmcは、モデル評価が比較的高価(例えば、1秒以上)かつ/または騒がしい場合に、効率的なパラメータ推定とモデル評価のために設計された近似推論手法である。
具体的には、vbmcが計算する: - モデルパラメータの柔軟な(非ガウス的)後方分布で、統計と後方サンプルを容易に抽出できる。
pyvbmcは、およそ10~15の連続パラメータを持つ任意の計算モデルや統計モデルに適用することができ、モデルのターゲットログの確率を計算するpython関数や、その近似(シミュレーションやモンテカルロ法によって得られる可能性の推定など)を提供する唯一の要件である。
pyvbmcは、モデルが1評価に約1秒以上かかる場合に特に効果的であり、従来の近似推定法と比較して、劇的なスピードアップは1-2桁である。
人工的なテスト問題と、計算科学、特に計算と認知の神経科学からの多数の実モデルに関する広範囲なベンチマークは、VBMCが一般的に、サンプル効率のよいベイズ推論の代替手法よりも優れており、正確なモデルとシミュレータベースのモデル(Acerbi, 2018, 2019, 2020)にも適用可能であることを示している。
PyVBMCは、この最先端推論アルゴリズムをPythonに導入し、アルゴリズムを実行し、結果を操作し、視覚化するための、使い易いPythonicインターフェースを提供する。 PyVBMC is a Python implementation of the Variational Bayesian Monte Carlo (VBMC) algorithm for posterior and model inference for black-box computational models (Acerbi, 2018, 2020). VBMC is an approximate inference method designed for efficient parameter estimation and model assessment when model evaluations are mildly-to-very expensive (e.g., a second or more) and/or noisy. Specifically, VBMC computes: - a flexible (non-Gaussian) approximate posterior distribution of the model parameters, from which statistics and posterior samples can be easily extracted; - an approximation of the model evidence or marginal likelihood, a metric used for Bayesian model selection. PyVBMC can be applied to any computational or statistical model with up to roughly 10-15 continuous parameters, with the only requirement that the user can provide a Python function that computes the target log likelihood of the model, or an approximation thereof (e.g., an estimate of the likelihood obtained via simulation or Monte Carlo methods). PyVBMC is particularly effective when the model takes more than about a second per evaluation, with dramatic speed-ups of 1-2 orders of magnitude when compared to traditional approximate inference methods. Extensive benchmarks on both artificial test problems and a large number of real models from the computational sciences, particularly computational and cognitive neuroscience, show that VBMC generally - and often vastly - outperforms alternative methods for sample-efficient Bayesian inference, and is applicable to both exact and simulator-based models (Acerbi, 2018, 2019, 2020). PyVBMC brings this state-of-the-art inference algorithm to Python, along with an easy-to-use Pythonic interface for running the algorithm and manipulating and visualizing its results. | 翻訳日:2023-06-29 18:01:35 公開日:2023-06-27 |
# MoSS:連続ロボットのための単眼形状センシング MoSS: Monocular Shape Sensing for Continuum Robots ( http://arxiv.org/abs/2303.00891v2 ) ライセンス: Link先を確認 | Chengnan Shentu, Enxu Li, Chaojun Chen, Puspita Triana Dewi, David B. Lindell, Jessica Burgner-Kahrs | (参考訳) continuumロボットは、独自の形状、コンプライアンス、小型化能力のため、医療や産業用途におけるインタラクティブなタスクの候補として有望である。
このようなタスクには正確かつリアルタイムな形状認識が不可欠だが、依然として課題である。
組込み型形状センサはハードウェアの複雑さとコストが高いが、視覚ベースの手法ではステレオセットアップが必要であり、リアルタイムのパフォーマンスを達成するのに苦労する。
本稿では,連続体ロボット形状センシングに対する最初の単眼的アプローチを提案する。
ディープエンコーダ・デコーダネットワークを利用するmossnetは,ステレオマッチングの計算コストを削減し,センシングハードウェアの要求量を削減した。
特に、MOSSNetは、エンコーダと3つの並列デコーダから構成され、単一のRGB画像から空間、長さ、輪郭情報を発見し、曲線フィッティングにより3次元形状を得る。
2セグメントの腱駆動型連続体ロボットをデータ収集とテストに使用し、実世界データを用いた正確な精度(ロボットの長さ0.36%の形状誤差)とリアルタイム(70fps)形状センシングを実証する。
さらに、この方法はエンドツーエンドに最適化されており、fiducial marker、手動セグメンテーション、カメラキャリブレーションを必要としない。
コードとデータセットはhttps://github.com/ContinuumRoboticsLab/MoSSNetで入手できる。 Continuum robots are promising candidates for interactive tasks in medical and industrial applications due to their unique shape, compliance, and miniaturization capability. Accurate and real-time shape sensing is essential for such tasks yet remains a challenge. Embedded shape sensing has high hardware complexity and cost, while vision-based methods require stereo setup and struggle to achieve real-time performance. This paper proposes the first eye-to-hand monocular approach to continuum robot shape sensing. Utilizing a deep encoder-decoder network, our method, MoSSNet, eliminates the computation cost of stereo matching and reduces requirements on sensing hardware. In particular, MoSSNet comprises an encoder and three parallel decoders to uncover spatial, length, and contour information from a single RGB image, and then obtains the 3D shape through curve fitting. A two-segment tendon-driven continuum robot is used for data collection and testing, demonstrating accurate (mean shape error of 0.91 mm, or 0.36% of robot length) and real-time (70 fps) shape sensing on real-world data. Additionally, the method is optimized end-to-end and does not require fiducial markers, manual segmentation, or camera calibration. Code and datasets will be made available at https://github.com/ContinuumRoboticsLab/MoSSNet. | 翻訳日:2023-06-29 18:00:11 公開日:2023-06-27 |
# 肺結節分類のための縦型マルチモーダルトランスフォーマリン : 画像と潜伏臨床所見の統合 Longitudinal Multimodal Transformer Integrating Imaging and Latent Clinical Signatures From Routine EHRs for Pulmonary Nodule Classification ( http://arxiv.org/abs/2304.02836v4 ) ライセンス: Link先を確認 | Thomas Z. Li, John M. Still, Kaiwen Xu, Ho Hin Lee, Leon Y. Cai, Aravind R. Krishnan, Riqiang Gao, Mirza S. Khan, Sanja Antic, Michael Kammer, Kim L. Sandler, Fabien Maldonado, Bennett A. Landman, Thomas A. Lasko | (参考訳) 孤立性肺結節(SPN)診断の予測モデルの精度は、電子健康記録(EHRs)などの反復画像と医療コンテキストを取り入れることで大幅に向上することができる。
しかし、画像や診断符号などの臨床上の日常的なモダリティは、縦型マルチモーダル学習の障害となる様々な時間スケールで非同期かつ不規則にサンプリングすることができる。
本研究では,SPN分類のための経時的臨床像とリピート画像を統合したトランスフォーマーに基づくマルチモーダル戦略を提案する。
潜在臨床署名の非教師付き不連続化を行い, 臨床署名表現と胸部ctスキャンから共同学習するために, 時間的スケールドセルフアテンションを活用した。
うちの分類器は,公開データセットからの2,668件のスキャンと,縦型胸部ct,請求コード,薬剤,eersによる検査で1,149名の被験者を対象に事前訓練を行っている。
SPNに挑戦する227名の被験者に対する評価では、縦型マルチモーダルベースライン(0.824 vs 0.752 AUC)に対するAUCの大幅な改善と、横型マルチモーダルシナリオ(0.809 AUC)と縦型イメージオンリーシナリオ(0.741 AUC)に対する改善が示された。
本研究は、トランスフォーマを用いた縦型画像と非画像表現型を共学習する新しいアプローチにより、大きな利点を示す。
コードはhttps://github.com/masilab/lmsignatures。 The accuracy of predictive models for solitary pulmonary nodule (SPN) diagnosis can be greatly increased by incorporating repeat imaging and medical context, such as electronic health records (EHRs). However, clinically routine modalities such as imaging and diagnostic codes can be asynchronous and irregularly sampled over different time scales which are obstacles to longitudinal multimodal learning. In this work, we propose a transformer-based multimodal strategy to integrate repeat imaging with longitudinal clinical signatures from routinely collected EHRs for SPN classification. We perform unsupervised disentanglement of latent clinical signatures and leverage time-distance scaled self-attention to jointly learn from clinical signatures expressions and chest computed tomography (CT) scans. Our classifier is pretrained on 2,668 scans from a public dataset and 1,149 subjects with longitudinal chest CTs, billing codes, medications, and laboratory tests from EHRs of our home institution. Evaluation on 227 subjects with challenging SPNs revealed a significant AUC improvement over a longitudinal multimodal baseline (0.824 vs 0.752 AUC), as well as improvements over a single cross-section multimodal scenario (0.809 AUC) and a longitudinal imaging-only scenario (0.741 AUC). This work demonstrates significant advantages with a novel approach for co-learning longitudinal imaging and non-imaging phenotypes with transformers. Code available at https://github.com/MASILab/lmsignatures. | 翻訳日:2023-06-29 17:51:07 公開日:2023-06-27 |
# 変圧器による物体検出 : レビュー Object Detection with Transformers: A Review ( http://arxiv.org/abs/2306.04670v2 ) ライセンス: Link先を確認 | Tahira Shehzadi, Khurram Azeem Hashmi, Didier Stricker and Muhammad Zeshan Afzal | (参考訳) 自然言語処理(NLP)におけるトランスフォーマーの性能向上は、コンピュータビジョンタスクにおけるその利用について研究者を喜ばせている。
他のコンピュータビジョンタスクと同様に、Detection TRansformer (DETR) は、提案生成と後処理のステップを必要とせず、セット予測問題として検出を考慮し、オブジェクト検出タスクのためのトランスフォーマーを導入している。
これは、特に画像中のオブジェクトの数が比較的小さいシナリオにおいて、オブジェクト検出のための最先端(SOTA)メソッドである。
DETRの成功にもかかわらず、訓練の収束が遅くなり、小さなオブジェクトのパフォーマンスが低下する。
したがって、これらの問題に対処するために多くの改良が提案され、DETRの大幅な改良につながった。
2020年以降、トランスフォーマーによる物体検出が注目され、目覚ましい性能を見せている。
視覚におけるトランスフォーマーに関する調査は数多く行われているが、トランスフォーマーを用いた2次元物体検出の進歩に関するレビューはいまだに欠けている。
本稿では,DeTRの最近の進展について,21の論文を詳述する。
まず、自己アテンション、オブジェクトクエリ、入力機能エンコーディングといったトランスフォーマーの基本モジュールから始めます。
次に、バックボーン修正、クエリ設計、アテンション改善など、DETRの最近の進歩について紹介する。
また、全ての検出トランスを性能とネットワーク設計の観点から比較する。
本研究は,オブジェクト検出領域におけるトランスフォーマーの適用に向けた既存の課題の解決に対する研究者の関心を高めることを願っている。
研究者は、このWebページで、新しい検出トランスフォーマーの改善に従うことができる。 Astounding performance of Transformers in natural language processing (NLP) has delighted researchers to explore their utilization in computer vision tasks. Like other computer vision tasks, DEtection TRansformer (DETR) introduces transformers for object detection tasks by considering the detection as a set prediction problem without needing proposal generation and post-processing steps. It is a state-of-the-art (SOTA) method for object detection, particularly in scenarios where the number of objects in an image is relatively small. Despite the success of DETR, it suffers from slow training convergence and performance drops for small objects. Therefore, many improvements are proposed to address these issues, leading to immense refinement in DETR. Since 2020, transformer-based object detection has attracted increasing interest and demonstrated impressive performance. Although numerous surveys have been conducted on transformers in vision in general, a review regarding advancements made in 2D object detection using transformers is still missing. This paper gives a detailed review of twenty-one papers about recent developments in DETR. We begin with the basic modules of Transformers, such as self-attention, object queries and input features encoding. Then, we cover the latest advancements in DETR, including backbone modification, query design and attention refinement. We also compare all detection transformers in terms of performance and network design. We hope this study will increase the researcher's interest in solving existing challenges towards applying transformers in the object detection domain. Researchers can follow newer improvements in detection transformers on this webpage available at: https://github.com/mindgarage-shan/trans_object_detection_survey | 翻訳日:2023-06-29 17:33:33 公開日:2023-06-27 |
# 正規化ロバストMDPとリスク感性MDP--等価性、政策勾配、サンプル複雑度 Regularized Robust MDPs and Risk-Sensitive MDPs: Equivalence, Policy Gradient, and Sample Complexity ( http://arxiv.org/abs/2306.11626v2 ) ライセンス: Link先を確認 | Runyu Zhang, Yang Hu, Na Li | (参考訳) 本稿では、ロバストなMDPフレームワークの拡張である正則化されたロバストなマルコフ決定プロセス(MDP)問題に対する強化学習に焦点を当てる。
まず、リスクに敏感なMDPを導入し、リスクに敏感なMDPと正規化された堅牢なMDPの等価性を確立する。
この等価性は、正規化されたRMDPに対処するための代替的な視点を提供し、効率的な学習アルゴリズムの設計を可能にする。
この同値性から、正規化されたロバストなMDP問題に対するポリシー勾配定理を導出し、直接パラメタライゼーションを伴う表層設定の下で、正確なポリシー勾配法を大域的に収束させることを証明する。
また、KL分割正規化項を持つ特定の正則化ロバストMDP問題に対して、サンプルベースのオフライン学習アルゴリズム、すなわち、ロバスト適合Z反復(RFZI)を提案し、アルゴリズムのサンプル複雑性を解析する。
この結果は数値シミュレーションでも支持されている。 This paper focuses on reinforcement learning for the regularized robust Markov decision process (MDP) problem, an extension of the robust MDP framework. We first introduce the risk-sensitive MDP and establish the equivalence between risk-sensitive MDP and regularized robust MDP. This equivalence offers an alternative perspective for addressing the regularized RMDP and enables the design of efficient learning algorithms. Given this equivalence, we further derive the policy gradient theorem for the regularized robust MDP problem and prove the global convergence of the exact policy gradient method under the tabular setting with direct parameterization. We also propose a sample-based offline learning algorithm, namely the robust fitted-Z iteration (RFZI), for a specific regularized robust MDP problem with a KL-divergence regularization term and analyze the sample complexity of the algorithm. Our results are also supported by numerical simulations. | 翻訳日:2023-06-29 17:24:04 公開日:2023-06-27 |
# アダプティブモンテカルロ探索によるグラフ理論における予想の難解化 Adaptive Monte Carlo Search for Conjecture Refutation in Graph Theory ( http://arxiv.org/abs/2306.07956v2 ) ライセンス: Link先を確認 | Valentino Vito and Lim Yohanes Stefanus | (参考訳) グラフ理論は学際的な研究分野であり、数学のモデリングや計算機科学に様々な応用がある。
グラフ理論の研究は、定理だけでなく予想の作成にも依存する。
Conjecture-refutingアルゴリズムは、これらの予想に対する反例を探し、しばしばグラフ上の特定のスコア関数を最大化することによって、予想を否定しようとする。
本研究では,適応モンテカルロ探索法 (adaptive monte carlo search, amcs) と呼ばれる,モンテカルロ木探索法を改良した新しい予想再帰アルゴリズムを提案する。
いくつかのグラフ理論の予想に対する反例を見つけることに成功して評価され、AMCSは既存の予想拡散アルゴリズムより優れている。
このアルゴリズムは、2021年にLouらによって定式化された化学グラフ理論の予想と、2006年にAutoGraphiXコンピュータシステムによって定式化された4つの化学グラフ理論の予想である6つの開予想を論じるためにさらに利用された。
最後に、開予想のうち4つは、AMCSによって得られた反例を一般化して反例の族を生成することで強く反証される。
このアルゴリズムは、研究者がより効果的にグラフ理論予想をテストするのに役立つことが期待されている。 Graph theory is an interdisciplinary field of study that has various applications in mathematical modeling and computer science. Research in graph theory depends on the creation of not only theorems but also conjectures. Conjecture-refuting algorithms attempt to refute conjectures by searching for counterexamples to those conjectures, often by maximizing certain score functions on graphs. This study proposes a novel conjecture-refuting algorithm, referred to as the adaptive Monte Carlo search (AMCS) algorithm, obtained by modifying the Monte Carlo tree search algorithm. Evaluated based on its success in finding counterexamples to several graph theory conjectures, AMCS outperforms existing conjecture-refuting algorithms. The algorithm is further utilized to refute six open conjectures, two of which were chemical graph theory conjectures formulated by Liu et al. in 2021 and four of which were formulated by the AutoGraphiX computer system in 2006. Finally, four of the open conjectures are strongly refuted by generalizing the counterexamples obtained by AMCS to produce a family of counterexamples. It is expected that the algorithm can help researchers test graph-theoretic conjectures more effectively. | 翻訳日:2023-06-29 17:22:15 公開日:2023-06-27 |
# ニューラルネットワークの圧縮におけるロングテールの効果の理解 Understanding the Effect of the Long Tail on Neural Network Compression ( http://arxiv.org/abs/2306.06238v3 ) ライセンス: Link先を確認 | Harvey Dam, Vinu Joseph, Aditya Bhaskara, Ganesh Gopalakrishnan, Saurav Muralidharan, Michael Garland | (参考訳) ニューラルネットワーク研究の成熟したサブフィールドであるネットワーク圧縮は、この10年間で、モデルのサイズを減らし、推論を高速化し、分類精度を維持しながら大きな進歩を遂げた。
しかし、多くの研究が、全体的な精度だけに焦点を合わせることは誤解される可能性があると指摘している。
例えば、フルモデルと圧縮モデルのミスマッチは、表現不足のクラスに偏る可能性があることが示されている。
これにより、元のネットワークとの「意味的等価性」を維持しながら、ネットワーク圧縮を達成できるかという重要な研究課題が提起される。
本研究では,feldmanらによって観測されたコンピュータビジョンデータセットにおける「ロングテール」現象の文脈で,この問題を考察する。
彼らは、特定の入力(適切に定義された)の記憶は良い一般化を達成するのに不可欠であると主張する。
圧縮によってネットワークの容量が制限されるため(それゆえ記憶能力も制限される)、本研究では、フルモデルと圧縮モデルのミスマッチは記憶されたトレーニングデータと相関しているか?
異なるベースアーキテクチャと圧縮スキームを考慮して,画像分類タスクに対して,この方向の肯定的な証拠を示す。 Network compression is now a mature sub-field of neural network research: over the last decade, significant progress has been made towards reducing the size of models and speeding up inference, while maintaining the classification accuracy. However, many works have observed that focusing on just the overall accuracy can be misguided. E.g., it has been shown that mismatches between the full and compressed models can be biased towards under-represented classes. This raises the important research question, can we achieve network compression while maintaining "semantic equivalence" with the original network? In this work, we study this question in the context of the "long tail" phenomenon in computer vision datasets observed by Feldman, et al. They argue that memorization of certain inputs (appropriately defined) is essential to achieving good generalization. As compression limits the capacity of a network (and hence also its ability to memorize), we study the question: are mismatches between the full and compressed models correlated with the memorized training data? We present positive evidence in this direction for image classification tasks, by considering different base architectures and compression schemes. | 翻訳日:2023-06-29 17:21:17 公開日:2023-06-27 |
# 視覚言語事前学習モデルに対する近似的プロンプトチューニング Approximated Prompt Tuning for Vision-Language Pre-trained Models ( http://arxiv.org/abs/2306.15706v1 ) ライセンス: Link先を確認 | Qiong Wu, Shubin Huang, Yiyi Zhou, Pingyang Dai, Annan Shu, Guannan Jiang, Rongrong Ji | (参考訳) プロンプトチューニングは、タスク固有のトークンを追加することで、大規模な事前訓練されたモデルを下流タスクにデプロイするパラメータ効率のよい方法である。
視覚言語事前学習モデル(vlp)の観点では、プロンプトチューニングは、事前学習と下流タスクの間のギャップを埋めるために、多くの学習可能なトークンを必要とすることが多い。
本稿では,変圧器を用いたvlpモデルのプロンプトチューニングの原理を再検討し,ソフトプロンプトトークンの影響を,独立した情報拡散ステップによって実際に近似できることを明らかにした。
そこで本研究では,効率的なVL転送学習へのAPT(Approximated Prompt Tuning)アプローチを提案する。
APTを検証するために、VLTとMETERという2つの代表的なVLPモデルに適用し、下流タスクの広範な実験を行う。
一方、画像分類のためのCLIPでは、APTの一般化も検証されている。
実験の結果、従来のプロンプト・チューニング法(+6.6%精度、-64.62%)に対するaptの性能向上と計算効率が向上しただけでなく、他のパラメータ効率の高いトランスファー・ラーニング手法に対するメリットも確認できた。 Prompt tuning is a parameter-efficient way to deploy large-scale pre-trained models to downstream tasks by adding task-specific tokens. In terms of vision-language pre-trained (VLP) models, prompt tuning often requires a large number of learnable tokens to bridge the gap between the pre-training and downstream tasks, which greatly exacerbates the already high computational overhead. In this paper, we revisit the principle of prompt tuning for Transformer-based VLP models and reveal that the impact of soft prompt tokens can be actually approximated via independent information diffusion steps, thereby avoiding the expensive global attention modeling and reducing the computational complexity to a large extent. Based on this finding, we propose a novel Approximated Prompt Tuning (APT) approach towards efficient VL transfer learning. To validate APT, we apply it to two representative VLP models, namely ViLT and METER, and conduct extensive experiments on a bunch of downstream tasks. Meanwhile, the generalization of APT is also validated on CLIP for image classification. The experimental results not only show the superior performance gains and computation efficiency of APT against the conventional prompt tuning methods, e.g., +6.6% accuracy and -64.62% additional computation overhead on METER, but also confirm its merits over other parameter-efficient transfer learning approaches. | 翻訳日:2023-06-29 17:13:50 公開日:2023-06-27 |
# 効率的なデータフリー逆検出のための普遍的逆摂動について On the Universal Adversarial Perturbations for Efficient Data-free Adversarial Detection ( http://arxiv.org/abs/2306.15705v1 ) ライセンス: Link先を確認 | Songyang Gao, Shihan Dou, Qi Zhang, Xuanjing Huang, Jin Ma, Ying Shan | (参考訳) モデルを騙すために慎重に作られた敵のサンプルを検出することは、社会的に安全なアプリケーションにとって重要なステップである。
しかし、既存の敵検出手法では十分なトレーニングデータへのアクセスが必要であり、プライバシーの漏洩や一般化可能性に関する重要な懸念が生じている。
本研究では,攻撃アルゴリズムが生成する逆サンプルが,高次元入力中の特定のベクトルと強く関連していることを検証する。
そのようなベクトル、すなわちUAP(Universal Adversarial Perturbations)は、元のトレーニングデータなしで計算できる。
そこで本研究では, 正常標本と敵試料の反応をuapsに誘導する, データ非依存逆検出フレームワークを提案する。
実験の結果,本手法は様々なテキスト分類タスクにおいて競合検出性能を達成し,正規化と同等の時間消費を維持できることがわかった。 Detecting adversarial samples that are carefully crafted to fool the model is a critical step to socially-secure applications. However, existing adversarial detection methods require access to sufficient training data, which brings noteworthy concerns regarding privacy leakage and generalizability. In this work, we validate that the adversarial sample generated by attack algorithms is strongly related to a specific vector in the high-dimensional inputs. Such vectors, namely UAPs (Universal Adversarial Perturbations), can be calculated without original training data. Based on this discovery, we propose a data-agnostic adversarial detection framework, which induces different responses between normal and adversarial samples to UAPs. Experimental results show that our method achieves competitive detection performance on various text classification tasks, and maintains an equivalent time consumption to normal inference. | 翻訳日:2023-06-29 17:13:27 公開日:2023-06-27 |
# MAE-GEBD:CVPR'2023 LOVEU-GEBD Challenge MAE-GEBD:Winning the CVPR'2023 LOVEU-GEBD Challenge ( http://arxiv.org/abs/2306.15704v1 ) ライセンス: Link先を確認 | Yuanxi Sun, Rui He, Youzeng Li, Zuwei Huang, Feng Hu, Xu Cheng, Jie Tang | (参考訳) ジェネリックイベント境界検出(GEBD)タスクは、さまざまなクラスに適用可能な一般的なイベント境界を検出することによって、ビデオをセグメントに分割するモデルを構築することを目的としている。
本稿では,昨年のmae-gebd法に基づいて,データ処理戦略と損失関数を調整することにより,gebdタスクにおけるモデル性能を改善した。
昨年のアプローチに基づいて、擬似ラベルの適用をより大きなデータセットに拡張し、多くの実験的試みを行った。
さらに,難解なサンプルに集中するために焦点損失を適用し,モデル性能を改善した。
最後に、昨年使用したセグメンテーションアライメント戦略を改善し、ビデオの境界密度と持続時間に応じてセグメンテーションアライメント手法を動的に調整し、異なる状況でモデルをより柔軟で完全に適用できるようにした。
本研究では,2022年のKineetics-GEBD法と比較してF1のスコアが0.09%向上し,F1のスコアが86.03%に達した。 The Generic Event Boundary Detection (GEBD) task aims to build a model for segmenting videos into segments by detecting general event boundaries applicable to various classes. In this paper, based on last year's MAE-GEBD method, we have improved our model performance on the GEBD task by adjusting the data processing strategy and loss function. Based on last year's approach, we extended the application of pseudo-label to a larger dataset and made many experimental attempts. In addition, we applied focal loss to concentrate more on difficult samples and improved our model performance. Finally, we improved the segmentation alignment strategy used last year, and dynamically adjusted the segmentation alignment method according to the boundary density and duration of the video, so that our model can be more flexible and fully applicable in different situations. With our method, we achieve an F1 score of 86.03% on the Kinetics-GEBD test set, which is a 0.09% improvement in the F1 score compared to our 2022 Kinetics-GEBD method. | 翻訳日:2023-06-29 17:13:15 公開日:2023-06-27 |
# 拡散確率モデルを用いた顔モーフィング攻撃検出 Face Morphing Attack Detection with Denoising Diffusion Probabilistic Models ( http://arxiv.org/abs/2306.15733v1 ) ライセンス: Link先を確認 | Marija Ivanovska, Vitomir \v{S}truc | (参考訳) 顔画像は、比較的生成が容易で、さまざまな悪意のある目的のために誰かの身元を偽装するのに使用できるため、既存の顔認証システムに対する関心が高まっている。
異なるモーフィング技術間でよく一般化する効率的なモーフィング攻撃検出(MAD)は、最重要事項である。
既存のマッドテクニックは、主にボナフィデやモーフィング画像の例から学習する識別モデルに依存しており、その結果、未知のモーフィング攻撃に直面する場合、しばしば準最適汎化性能を示す。
この問題に対処するため,本論文では,ボナファイド画像の特徴のみから学習する新しい拡散型MAD法を提案する。
各種のモルヒネ攻撃は,本モデルにより分布外サンプルとして検出される。
我々は, 4つの異なるデータセット(CASIA-WebFace, FRLL-Morphs, FERET-Morphs, FRGC-Morphs)に対して厳密な実験を行い, 提案手法を識別訓練されたMADモデルと1級MADモデルを比較した。
実験結果から,MADモデルが検討したすべてのデータセットに対して高い競争力を発揮することが示された。 Morphed face images have recently become a growing concern for existing face verification systems, as they are relatively easy to generate and can be used to impersonate someone's identity for various malicious purposes. Efficient Morphing Attack Detection (MAD) that generalizes well across different morphing techniques is, therefore, of paramount importance. Existing MAD techniques predominantly rely on discriminative models that learn from examples of bona fide and morphed images and, as a result, often exhibit sub-optimal generalization performance when confronted with unknown types of morphing attacks. To address this problem, we propose a novel, diffusion-based MAD method in this paper that learns only from the characteristics of bona fide images. Various forms of morphing attacks are then detected by our model as out-of-distribution samples. We perform rigorous experiments over four different datasets (CASIA-WebFace, FRLL-Morphs, FERET-Morphs and FRGC-Morphs) and compare the proposed solution to both discriminatively-trained and once-class MAD models. The experimental results show that our MAD model achieves highly competitive results on all considered datasets. | 翻訳日:2023-06-29 17:04:58 公開日:2023-06-27 |
# 白人至上主義言語の弱い教師付き分類器とデータセット A Weakly Supervised Classifier and Dataset of White Supremacist Language ( http://arxiv.org/abs/2306.15732v1 ) ライセンス: Link先を確認 | Michael Miller Yoder, Ahmad Diab, David West Brown, Kathleen M. Carley | (参考訳) オンラインヘイトスピーチにおいて,白人至上主義的過激主義の言語を検出するためのデータセットと分類器を提案する。
我々の弱い教師付き分類器は、明らかに白人至上主義的なドメインからの大量のテキストデータセットで訓練され、同様のドメインの中立的および反人種差別的データと組み合わせられている。
このアプローチが新しいドメインへの一般化性能を向上させることを実証する。
反人種差別的テキストを白人至上主義言語に対する反例として組み込むことは、偏見を和らげる。 We present a dataset and classifier for detecting the language of white supremacist extremism, a growing issue in online hate speech. Our weakly supervised classifier is trained on large datasets of text from explicitly white supremacist domains paired with neutral and anti-racist data from similar domains. We demonstrate that this approach improves generalization performance to new domains. Incorporating anti-racist texts as counterexamples to white supremacist language mitigates bias. | 翻訳日:2023-06-29 17:04:36 公開日:2023-06-27 |
# 確率勾配ベイズ最適実験によるシミュレーションに基づく推論 Stochastic Gradient Bayesian Optimal Experimental Designs for Simulation-based Inference ( http://arxiv.org/abs/2306.15731v1 ) ライセンス: Link先を確認 | Vincent D. Zaballa and Elliot E. Hui | (参考訳) シミュレーションベースの推論(SBI)手法は、逆問題を伴う複雑な科学的モデルに対処する。
しかし、sbiモデルは微分不能な性質のため、しばしば大きなハードルに直面し、勾配に基づく最適化技術の使用を妨げている。
ベイジアン最適実験設計(BOED)は、推論の改善に実験資源を最大限に活用することを目的とした強力な手法である。
確率的勾配ボエ法は高次元設計問題に有望な結果をもたらすが、多くのsbiシミュレーターの難しい非微分性のため、ボエとsbiの統合をほとんど無視している。
本研究では,比に基づくSBI推論アルゴリズムと確率勾配に基づく変分推論とを,相互情報境界を利用して重要な関係性を確立する。
この接続によりboedをsbiアプリケーションに拡張でき、実験設計と償却推論関数の同時最適化を可能にします。
簡単な線形モデルにアプローチを示し、実践者に実装の詳細を提供します。 Simulation-based inference (SBI) methods tackle complex scientific models with challenging inverse problems. However, SBI models often face a significant hurdle due to their non-differentiable nature, which hampers the use of gradient-based optimization techniques. Bayesian Optimal Experimental Design (BOED) is a powerful approach that aims to make the most efficient use of experimental resources for improved inferences. While stochastic gradient BOED methods have shown promising results in high-dimensional design problems, they have mostly neglected the integration of BOED with SBI due to the difficult non-differentiable property of many SBI simulators. In this work, we establish a crucial connection between ratio-based SBI inference algorithms and stochastic gradient-based variational inference by leveraging mutual information bounds. This connection allows us to extend BOED to SBI applications, enabling the simultaneous optimization of experimental designs and amortized inference functions. We demonstrate our approach on a simple linear model and offer implementation details for practitioners. | 翻訳日:2023-06-29 17:04:28 公開日:2023-06-27 |
# 重力波検出のための物理インスピレーション付き時空間グラフAIアンサンブル Physics-inspired spatiotemporal-graph AI ensemble for gravitational wave detection ( http://arxiv.org/abs/2306.15728v1 ) ライセンス: Link先を確認 | Minyang Tian, E.A. Huerta, Huihuo Zheng | (参考訳) 本稿では, 重力波検出のための新しい手法を提案する。
1)ハイブリッド拡張畳み込みニューラルネットワークは、重力波信号の短・長距離時間的情報の両方を正確にモデル化する。
2)重力波観測所間の空間相関を捉えるグラフニューラルネットワークは,検出器ネットワーク内の信号の存在を一貫して記述し,識別する。
これらの時空間グラフAIモデルは、準円、非スピン、準円、回転、非必要二元ブラックホール融合によって放出される重力波の信号検出のために試験される。
後者の場合、この信号多様体を密にサンプリングするために、120万のモデル波形のデータセットが必要でした。
そこで我々は、Argonne Leadership Supercomputing FacilityのPolarisスーパーコンピュータで1.7時間以内に複数のAIモデルをトレーニングし、256 NVIDIA A100 GPUにトレーニングを分散させ、最適な分類性能を実現することにより、解法までの時間を短縮した。
このアプローチはまた、NVIDIA A100 GPUの512までを強くスケーリングする。
次に,3つの検出器ネットワーク,すなわちadvanced ligo hanfordとlivingston検出器,advanced virgo検出器からデータを処理するためのaiモデルのアンサンブルを作成した。
2つのaiモデルのアンサンブルは、信号検出の最先端性能を達成し、検索データの10年毎に7つの誤分類を報告し、4つのaiモデルのアンサンブルは、検索データの10年毎に2つの誤分類による信号検出の最適な性能を達成する。
最後に、ポラリススーパーコンピュータに128個のgpuとthetaスーパーコンピュータに128個のノードを配置すると、我々のaiアンサンブルは3つの検出器ネットワークから10年分の重力波データを3.5時間以内に処理することができる。 We introduce a novel method for gravitational wave detection that combines: 1) hybrid dilated convolution neural networks to accurately model both short- and long-range temporal sequential information of gravitational wave signals; and 2) graph neural networks to capture spatial correlations among gravitational wave observatories to consistently describe and identify the presence of a signal in a detector network. These spatiotemporal-graph AI models are tested for signal detection of gravitational waves emitted by quasi-circular, non-spinning and quasi-circular, spinning, non-precessing binary black hole mergers. For the latter case, we needed a dataset of 1.2 million modeled waveforms to densely sample this signal manifold. Thus, we reduced time-to-solution by training several AI models in the Polaris supercomputer at the Argonne Leadership Supercomputing Facility within 1.7 hours by distributing the training over 256 NVIDIA A100 GPUs, achieving optimal classification performance. This approach also exhibits strong scaling up to 512 NVIDIA A100 GPUs. We then created ensembles of AI models to process data from a three detector network, namely, the advanced LIGO Hanford and Livingston detectors, and the advanced Virgo detector. An ensemble of 2 AI models achieves state-of-the-art performance for signal detection, and reports seven misclassifications per decade of searched data, whereas an ensemble of 4 AI models achieves optimal performance for signal detection with two misclassifications for every decade of searched data. Finally, when we distributed AI inference over 128 GPUs in the Polaris supercomputer and 128 nodes in the Theta supercomputer, our AI ensemble is capable of processing a decade of gravitational wave data from a three detector network within 3.5 hours. | 翻訳日:2023-06-29 17:04:12 公開日:2023-06-27 |
# REFLECT:失敗説明と訂正のためのロボット体験の要約 REFLECT: Summarizing Robot Experiences for Failure Explanation and Correction ( http://arxiv.org/abs/2306.15724v1 ) ライセンス: Link先を確認 | Zeyi Liu, Arpit Bahety, Shuran Song | (参考訳) 故障した実行を自動的に検出し分析する能力は、説明可能で堅牢なロボットシステムにとって不可欠である。
近年,Large Language Models (LLMs) は,テキスト入力に対する強い常識推論技術を示している。
ロボットの故障説明にllmのパワーを活用するために,マルチセンサデータをロボットの過去の経験の階層的要約に変換し,プログレッシブ障害説明アルゴリズムを用いてクエリllmをクエリするフレームワークreflectionを提案する。
この説明に基づいて、故障修正プランナーは、故障を修正しタスクを完了するためのロボットの実行可能な計画を生成する。
フレームワークを体系的に評価するために、RoboFailデータセットを作成し、LLMベースのフレームワークが、修正計画の成功を支援する情報的障害説明を生成することができることを示す。
プロジェクトウェブサイト: https://roboreflect.github.io/ The ability to detect and analyze failed executions automatically is crucial for an explainable and robust robotic system. Recently, Large Language Models (LLMs) have demonstrated strong common sense reasoning skills on textual inputs. To leverage the power of LLM for robot failure explanation, we propose a framework REFLECT, which converts multi-sensory data into a hierarchical summary of robot past experiences and queries LLM with a progressive failure explanation algorithm. Conditioned on the explanation, a failure correction planner generates an executable plan for the robot to correct the failure and complete the task. To systematically evaluate the framework, we create the RoboFail dataset and show that our LLM-based framework is able to generate informative failure explanations that assist successful correction planning. Project website: https://roboreflect.github.io/ | 翻訳日:2023-06-29 17:03:37 公開日:2023-06-27 |
# 非古典的ネットワーク相関の階層的認証 Hierarchical certification of non-classical network correlations ( http://arxiv.org/abs/2306.15717v1 ) ライセンス: Link先を確認 | Ming-Xing Luo, Yue Yang, Alejandro Pozas-Kerstjens | (参考訳) 量子技術デバイスが利用可能になるにつれて、その正しい非古典的動作を保証するためのツールが基本となる。
これは、マルチパートの暗号プロトコルが実装されるプラットフォームを構成する量子ネットワークにおいて特に重要であり、非古典性の保証がセキュリティ証明に変換される。
我々は、ネットワークに対する線形および非線形ベル的不等式を導出し、その違反は、それらの最小数の古典的情報源が存在しないことを証明している。
まず、自然は最終的に量子力学によって支配され、ネットワーク非局所性と完全なネットワーク非局所性との間を補間する階層を提供する。
第2に,この仮定を挿入することで,実験における認証に適する結果が得られます。 With the increased availability of quantum technological devices, it becomes fundamental to have tools to guarantee their correct non-classical behavior. This is especially important for quantum networks, which constitute the platforms where multipartite cryptographic protocols will be implemented, and where guarantees of non-classicality translate into security proofs. We derive linear and non-linear Bell-like inequalities for networks, whose violation certifies the absence of a minimum number of classical sources in them. We do so, firstly, without assuming that nature is ultimately governed by quantum mechanics, providing a hierarchy interpolating between network nonlocality and full network nonlocality. Secondly we insert this assumption, which leads to results more amenable to certification in experiments. | 翻訳日:2023-06-29 17:03:23 公開日:2023-06-27 |
# 自動運転のためのクローズドループトレーニングの再考 Rethinking Closed-loop Training for Autonomous Driving ( http://arxiv.org/abs/2306.15713v1 ) ライセンス: Link先を確認 | Chris Zhang, Runsheng Guo, Wenyuan Zeng, Yuwen Xiong, Binbin Dai, Rui Hu, Mengye Ren, Raquel Urtasun | (参考訳) 近年の高忠実度シミュレータの進歩により、自動運転エージェントのクローズドループトレーニングが可能となり、トレーニングv.s.配備の分散シフトを解決し、安全かつ安価にトレーニングをスケールできる。
しかし、クローズドループトレーニングの効果的なトレーニングベンチマークを構築する方法についての理解が不足している。
本研究では,交通シナリオの設計方法や学習環境のスケールなど,異なるトレーニングベンチマーク設計が学習エージェントの成功に与える影響を解析した最初の実証的研究を示す。
さらに、多くのRLアルゴリズムは、長期計画が欠如し、訓練に非常に長い時間を要するため、自律運転の文脈では満足できる性能を達成できないことを示す。
これらの課題に対処するために,複数ステップのルックアヘッドで計画を実行し,低コストで生成した仮想データを利用して効率的な学習を行うRLベースの駆動エージェントであるtrajectory value learning (TRAVL)を提案する。
実験の結果,TRAVLはすべてのベースラインと比較してより速く学習でき,安全な操作が可能であることがわかった。
詳細はプロジェクトのwebサイト(https://waabi.ai/research/travl)を参照。 Recent advances in high-fidelity simulators have enabled closed-loop training of autonomous driving agents, potentially solving the distribution shift in training v.s. deployment and allowing training to be scaled both safely and cheaply. However, there is a lack of understanding of how to build effective training benchmarks for closed-loop training. In this work, we present the first empirical study which analyzes the effects of different training benchmark designs on the success of learning agents, such as how to design traffic scenarios and scale training environments. Furthermore, we show that many popular RL algorithms cannot achieve satisfactory performance in the context of autonomous driving, as they lack long-term planning and take an extremely long time to train. To address these issues, we propose trajectory value learning (TRAVL), an RL-based driving agent that performs planning with multistep look-ahead and exploits cheaply generated imagined data for efficient learning. Our experiments show that TRAVL can learn much faster and produce safer maneuvers compared to all the baselines. For more information, visit the project website: https://waabi.ai/research/travl | 翻訳日:2023-06-29 17:03:10 公開日:2023-06-27 |
# グローバルワークスペースによる半教師付きマルチモーダル表現学習 Semi-supervised Multimodal Representation Learning through a Global Workspace ( http://arxiv.org/abs/2306.15711v1 ) ライセンス: Link先を確認 | Benjamin Devillers, L\'eopold Mayti\'e and Rufin VanRullen | (参考訳) 最近のディープラーニングモデルは、異なるモード(画像やテキストなど)からの入力を効率よく組み合わせて、潜在表現を整列させたり、あるドメインから別のドメイン(画像キャプションやテキストから画像生成など)に信号を変換したりすることができる。
しかし、現在のアプローチは、主に大規模マルチモーダルデータセット上のブルートフォース教師付きトレーニングに依存している。
対照的に、人間(および他の動物)は、一致するクロスモーダルデータによるスパースな経験から、有用なマルチモーダル表現を学ぶことができる。
ここでは、2つの(あるいはそれ以上の)入力モダリティの共有表現である「グローバルワークスペース」の認知概念に着想を得たニューラルネットワークアーキテクチャの機能を評価する。
各モダリティは、特殊なシステム(ユニモーダルデータで事前訓練され、その後凍結される)によって処理される。
対応する潜在表現は符号化され、単一の共有ワークスペースからデコードされる。
重要なことは、このアーキテクチャはサイクル整合性による自己教師型トレーニングに適しており、符号化復号シーケンスはアイデンティティ関数を近似すべきである。
視覚言語による様々なモダリティのペアリングと、複雑さの異なる2つのデータセットに対して、このようなアーキテクチャは、マッチしたデータ(完全に教師されたアプローチの4倍から7倍)をほとんど必要とせずに、2つのモダリティの調整と翻訳を訓練可能であることを示す。
グローバルなワークスペース表現は、下流の分類タスクやロバストな転送学習に有利に利用できる。
アブレーション研究により、共有ワークスペースと自己教師付きサイクルコンシスタンストレーニングの両方がシステムの性能に不可欠であることが判明した。 Recent deep learning models can efficiently combine inputs from different modalities (e.g., images and text) and learn to align their latent representations, or to translate signals from one domain to another (as in image captioning, or text-to-image generation). However, current approaches mainly rely on brute-force supervised training over large multimodal datasets. In contrast, humans (and other animals) can learn useful multimodal representations from only sparse experience with matched cross-modal data. Here we evaluate the capabilities of a neural network architecture inspired by the cognitive notion of a "Global Workspace": a shared representation for two (or more) input modalities. Each modality is processed by a specialized system (pretrained on unimodal data, and subsequently frozen). The corresponding latent representations are then encoded to and decoded from a single shared workspace. Importantly, this architecture is amenable to self-supervised training via cycle-consistency: encoding-decoding sequences should approximate the identity function. For various pairings of vision-language modalities and across two datasets of varying complexity, we show that such an architecture can be trained to align and translate between two modalities with very little need for matched data (from 4 to 7 times less than a fully supervised approach). The global workspace representation can be used advantageously for downstream classification tasks and for robust transfer learning. Ablation studies reveal that both the shared workspace and the self-supervised cycle-consistency training are critical to the system's performance. | 翻訳日:2023-06-29 17:02:51 公開日:2023-06-27 |
# ローカル分散ネットワークにおけるプライバシ保護コミュニティ検出 Privacy-Preserving Community Detection for Locally Distributed Multiple Networks ( http://arxiv.org/abs/2306.15709v1 ) ライセンス: Link先を確認 | Xiao Guo, Xiang Li, Xiangyu Chang, Shujie Ma | (参考訳) 現代のマルチレイヤネットワークは、プライバシ、オーナシップ、通信コストといった理由から、ローカルおよび分散形式で一般的に保存および分析される。
これらのデータに基づくコミュニティ検出のためのモデルに基づく統計手法に関する文献は、まだ限られている。
本稿では, 局所記憶型および計算型ネットワークデータを用いた多層確率ブロックモデルにおけるコンセンサスコミュニティの検出と推定手法を提案する。
プライバシ保存分散スペクトルクラスタリング(ppDSC)と呼ばれる新しいアルゴリズムを開発した。
エッジのプライバシを維持するため,ネットワークエッジを乱すためにランダム化応答(RR)機構を採用し,差分プライバシという強い概念を満足する。
pDSCアルゴリズムは、異なる層間のコミュニティのキャンセルを防止するために、正方形RR摂動隣接行列上で実行される。
RRと2乗ネットワーク行列によるバイアスを除去するために,2段階のバイアス調整手法を開発した。
次に,分散行列の固有分解,直交プロクルス変換を用いた局所固有ベクトルの集約,k平均クラスタリングを行う。
固有ベクトル推定におけるpDSCの統計的誤差に関する理論的解析を行った。
さらに、ネットワークの不均一性の祝福と呪いは、我々の境界によってよく説明されている。 Modern multi-layer networks are commonly stored and analyzed in a local and distributed fashion because of the privacy, ownership, and communication costs. The literature on the model-based statistical methods for community detection based on these data is still limited. This paper proposes a new method for consensus community detection and estimation in a multi-layer stochastic block model using locally stored and computed network data with privacy protection. A novel algorithm named privacy-preserving Distributed Spectral Clustering (ppDSC) is developed. To preserve the edges' privacy, we adopt the randomized response (RR) mechanism to perturb the network edges, which satisfies the strong notion of differential privacy. The ppDSC algorithm is performed on the squared RR-perturbed adjacency matrices to prevent possible cancellation of communities among different layers. To remove the bias incurred by RR and the squared network matrices, we develop a two-step bias-adjustment procedure. Then we perform eigen-decomposition on the debiased matrices, aggregation of the local eigenvectors using an orthogonal Procrustes transformation, and k-means clustering. We provide theoretical analysis on the statistical errors of ppDSC in terms of eigen-vector estimation. In addition, the blessings and curses of network heterogeneity are well-explained by our bounds. | 翻訳日:2023-06-29 17:02:23 公開日:2023-06-27 |
# 量子フェデレーション学習 : 分析,設計,実装の課題 Quantum Federated Learning: Analysis, Design and Implementation Challenges ( http://arxiv.org/abs/2306.15708v1 ) ライセンス: Link先を確認 | Dev Gurung, Shiva Raj Pokhrel, Gang Li | (参考訳) 量子フェデレートラーニング(QFL)は、量子コンピューティングと機械学習の進歩によって大きな注目を集めている。
QFLの需要が急増するにつれ、分散環境での複雑さを理解する必要性が高まっている。
本稿では,QFLの現状を包括的に概観し,既存の文献における重要な知識ギャップに対処することを目的とする。
我々は、新しいQFLフレームワークのアイデアを開発し、アプリケーションの多様なユースケースを調査し、設計に影響を及ぼす重要な要素について考察する。
様々なQFL研究プロジェクトの技術的コントリビューションと限界について検討し、今後の研究方向性と今後の探索に向けたオープンな質問について述べる。 Quantum Federated Learning (QFL) has gained significant attention due to quantum computing and machine learning advancements. As the demand for QFL continues to surge, there is a pressing need to comprehend its intricacies in distributed environments. This paper aims to provide a comprehensive overview of the current state of QFL, addressing a crucial knowledge gap in the existing literature. We develop ideas for new QFL frameworks, explore diverse use cases of applications, and consider the critical factors influencing their design. The technical contributions and limitations of various QFL research projects are examined while presenting future research directions and open questions for further exploration. | 翻訳日:2023-06-29 17:02:05 公開日:2023-06-27 |
# 幾何測度を用いたメッシュ不変3次元生成深層学習に向けて Toward Mesh-Invariant 3D Generative Deep Learning with Geometric Measures ( http://arxiv.org/abs/2306.15762v1 ) ライセンス: Link先を確認 | Thomas Besnier, Sylvain Arguill\`ere, Emery Pierson, Mohamed Daoudi | (参考訳) 幾何学的データの取得を可能にする技術が開発されているため、3次元生成モデリングは加速している。
しかし、取得したデータはしばしば一貫性がなく、未登録のメッシュやポイントクラウドが発生する。
多くの生成学習アルゴリズムは予測された形状と対象形状を比較する際に各点間の対応を必要とする。
トレーニングフェーズにおいても,異なるパラメータ化に対応可能なアーキテクチャを提案する。
特に、損失関数は、電流や多様体のような幾何学的測度を用いてメッシュの表現上のカーネルベースの計量の上に構築される。
後者は、メッシュやポイントクラウドの再サンプリングに対する堅牢性など、多くの望ましい特性を持つ効率的な異種性尺度を実装することができる。
我々は,人間の顔の創発的学習タスクを用いて,モデルの効率とレジリエンスを実証する。 3D generative modeling is accelerating as the technology allowing the capture of geometric data is developing. However, the acquired data is often inconsistent, resulting in unregistered meshes or point clouds. Many generative learning algorithms require correspondence between each point when comparing the predicted shape and the target shape. We propose an architecture able to cope with different parameterizations, even during the training phase. In particular, our loss function is built upon a kernel-based metric over a representation of meshes using geometric measures such as currents and varifolds. The latter allows to implement an efficient dissimilarity measure with many desirable properties such as robustness to resampling of the mesh or point cloud. We demonstrate the efficiency and resilience of our model with a generative learning task of human faces. | 翻訳日:2023-06-29 16:54:56 公開日:2023-06-27 |
# xAI-CycleGAN - サイクル持続型生成支援ネットワーク xAI-CycleGAN, a Cycle-Consistent Generative Assistive Network ( http://arxiv.org/abs/2306.15760v1 ) ライセンス: Link先を確認 | Tibor Sloboda, Luk\'a\v{s} Hudec, Wanda Bene\v{s}ov\'a | (参考訳) 生成的変換モデルを用いた教師なし画像変換の領域では、CycleGANが選択のアーキテクチャとなっている。
このアーキテクチャの主な欠点の1つは、収束速度が比較的遅いことである。
そこで本研究では,Nagisettyらの業績に基づき,逆プロパゲーション中の発電機の勾配を隠蔽する判別器からの塩分マップと,Wang M.のMask CycleGANに基づく解釈可能な潜時変数を用いて,ガウスノイズマスクに付加された入力に対する塩分マップを導入することにより,生成モデルの収束率の向上を図る。
これにより、両方向に説明可能性の融合が可能となり、入力にノイズ付加塩分マップを証拠に基づく反事実フィルタリングとして利用することができる。
この新しいアーキテクチャは、画像の品質を維持しながら、ベースラインのCycleGANアーキテクチャよりも収束率が高い。 In the domain of unsupervised image-to-image transformation using generative transformative models, CycleGAN has become the architecture of choice. One of the primary downsides of this architecture is its relatively slow rate of convergence. In this work, we use discriminator-driven explainability to speed up the convergence rate of the generative model by using saliency maps from the discriminator that mask the gradients of the generator during backpropagation, based on the work of Nagisetty et al., and also introducing the saliency map on input, added onto a Gaussian noise mask, by using an interpretable latent variable based on Wang M.'s Mask CycleGAN. This allows for an explainability fusion in both directions, and utilizing the noise-added saliency map on input as evidence-based counterfactual filtering. This new architecture has much higher rate of convergence than a baseline CycleGAN architecture while preserving the image quality. | 翻訳日:2023-06-29 16:54:48 公開日:2023-06-27 |
# IMPOSITION:シナリオ注入によるバックドア攻撃 IMPOSITION: Implicit Backdoor Attack through Scenario Injection ( http://arxiv.org/abs/2306.15755v1 ) ライセンス: Link先を確認 | Mozhgan Pourkeshavarz, Mohammad Sabokrou, Amir Rasouli | (参考訳) 本稿では,トレーニングデータの直接的中毒を必要としないIMPOSITION(IMPlicit BackdOor Attack)と呼ばれる,新たなバックドア攻撃を提案する。
代わりに、この攻撃はトレーニングデータからの現実的なシナリオをトリガーとして活用し、推論中にモデルの出力を操作する。
この種の攻撃は、ステルス的で検出が難しいため、特に危険である。
本論文は,この攻撃を自律運転(ad)システム,特に軌道予測モジュールを対象とする状況において応用することに焦点を当てた。
攻撃を実装するために,運転シーンにおける一連のクローン動作を模倣したトリガー機構を設計し,その結果,攻撃をトリガーするシナリオを作成する。
実験結果は,非目標シナリオにおいて高い性能を維持しつつ,軌道予測モデルへの攻撃に有効であることを示した。
提案手法は,ディープニューラルネットワーク(DNN)モデル,特に安全クリティカルな応用における信頼性に関する研究の重要性を高めるものである。
バックドア攻撃はDNNモデルの安全性と信頼性に重大な脅威をもたらす。
提案するIMPOSITIONパラダイムとADシステムにおける重大性の実証は,本論文の重要な貢献である。
本研究は、IMPOSITIONがADシステムの安全性をいかに容易に損なえるかを示す実証実験による攻撃の効果を強調した。 This paper presents a novel backdoor attack called IMPlicit BackdOor Attack through Scenario InjecTION (IMPOSITION) that does not require direct poisoning of the training data. Instead, the attack leverages a realistic scenario from the training data as a trigger to manipulate the model's output during inference. This type of attack is particularly dangerous as it is stealthy and difficult to detect. The paper focuses on the application of this attack in the context of Autonomous Driving (AD) systems, specifically targeting the trajectory prediction module. To implement the attack, we design a trigger mechanism that mimics a set of cloned behaviors in the driving scene, resulting in a scenario that triggers the attack. The experimental results demonstrate that IMPOSITION is effective in attacking trajectory prediction models while maintaining high performance in untargeted scenarios. Our proposed method highlights the growing importance of research on the trustworthiness of Deep Neural Network (DNN) models, particularly in safety-critical applications. Backdoor attacks pose a significant threat to the safety and reliability of DNN models, and this paper presents a new perspective on backdooring DNNs. The proposed IMPOSITION paradigm and the demonstration of its severity in the context of AD systems are significant contributions of this paper. We highlight the impact of the proposed attacks via empirical studies showing how IMPOSITION can easily compromise the safety of AD systems. | 翻訳日:2023-06-29 16:54:28 公開日:2023-06-27 |
# To Spike or Not To Spike:Deep Learning Accelerationのデジタルハードウェアの展望 To Spike or Not To Spike: A Digital Hardware Perspective on Deep Learning Acceleration ( http://arxiv.org/abs/2306.15749v1 ) ライセンス: Link先を確認 | Fabrizio Ottati, Chang Gao, Qinyu Chen, Giovanni Brignone, Mario R. Casu, Jason K. Eshraghian, Luciano Lavagno | (参考訳) ディープラーニングモデルの規模が拡大するにつれて、コンピュータビジョンから自然言語処理に至るまでの領域で競争力が高まる一方で、メモリとコンピューティングのパワーがますます必要になるため、効率が犠牲になる。
生物学的脳のパワー効率は、いかなる大規模ディープラーニング(DL)モデルよりも優れており、ニューロモルフィックコンピューティングは、スパイクベースの情報処理のような脳の操作を模倣して、DLモデルの効率を向上させる。
効率的な情報伝達、高密度神経インターコネクト、計算と記憶の同時配置といった脳の利点にもかかわらず、利用可能な生物学的基質は生物学的脳の進化を厳しく制限している。
電子ハードウェアは同じ制約を持たないため、スパイクニューラルネットワーク(snn)のモデル化はパズルの1つのピースを明らかにする可能性があるが、snsの効率的なハードウェアバックエンドの設計にはさらなる調査が必要である。
そのため、いつ新しいハードウェアを設計しながら脳を見るのが賢明なのか、いつ無視されるべきなのか?
そこで本研究では,ANNとSNNのデジタルハードウェアアクセラレーション技術とプラットフォームを定量的に比較する。 As deep learning models scale, they become increasingly competitive from domains spanning computer vision to natural language processing; however, this happens at the expense of efficiency since they require increasingly more memory and computing power. The power efficiency of the biological brain outperforms the one of any large-scale deep learning (DL) model; thus, neuromorphic computing tries to mimic the brain operations, such as spike-based information processing, to improve the efficiency of DL models. Despite the benefits of the brain, such as efficient information transmission, dense neuronal interconnects, and the co-location of computation and memory, the available biological substrate has severely constrained the evolution of biological brains. Electronic hardware does not have the same constraints; therefore, while modeling spiking neural networks (SNNs) might uncover one piece of the puzzle, the design of efficient hardware backends for SNNs needs further investigation, potentially taking inspiration from the available work done on the artificial neural networks (ANN s) side. As such, when is it wise to look at the brain while designing new hardware, and when should it be ignored? To answer this question, we quantitatively compare the digital hardware acceleration techniques and platforms of ANN s and SNNs. | 翻訳日:2023-06-29 16:54:05 公開日:2023-06-27 |
# CARMA:エネルギー効率の良いセンサフュージョンのためのコンテキスト対応ランタイム再構成 CARMA: Context-Aware Runtime Reconfiguration for Energy-Efficient Sensor Fusion ( http://arxiv.org/abs/2306.15748v1 ) ライセンス: Link先を確認 | Yifan Zhang, Arnav Vaibhav Malawade, Xiaofang Zhang, Yuhui Li, DongHwan Seong, Mohammad Abdullah Al Faruque and Sitao Huang | (参考訳) 自律システム(autonomous systems, as)は、予期せぬ出来事に対応して行動に適応し、変更できるシステムであり、航空ドローン、自律車両、地上/水中ロボットなどのシステムを含んでいる。
ASは様々なセンサー、ディープラーニングモデル、強力なハードウェアプラットフォームを必要とし、リアルタイムで認識し安全に運用する。
しかし、多くの文脈において、センシングモダリティはシステム全体のエネルギー消費を増加させながら知覚に悪影響を及ぼす。
エネルギー制約のあるエッジデバイスと同様に、エネルギー効率の高いセンサー融合法が提案されている。
しかし、既存の手法は、変化するシナリオ条件に適応できないか、システム全体のエネルギー効率を最適化できない。
fpga(field-programmable gate array)上で実行時に計算フローを動的に再構成する,コンテキスト認識型センサ融合手法であるcarmaを提案する。
未使用センサとモデルサブコンポーネントのクロックゲーティングにより、CARMAは性能を損なうことなく、マルチセンサーオブジェクト検出器によって使用されるエネルギーを著しく削減する。
モデル再構成のレイテンシを最小化するために、ディープラーニングプロセッサユニット(dpu)ベースの再構成アプローチを使用する。
我々は,複数の文脈識別戦略を評価し,新しいシステム全体のエネルギーパフォーマンス共同最適化を提案し,シナリオ固有の知覚性能を評価する。
CARMAは、挑戦的な現実世界の知覚コンテキスト全体で、1.3倍のスピードアップと73%のエネルギー消費で最先端の手法を上回っている。 Autonomous systems (AS) are systems that can adapt and change their behavior in response to unanticipated events and include systems such as aerial drones, autonomous vehicles, and ground/aquatic robots. AS require a wide array of sensors, deep-learning models, and powerful hardware platforms to perceive and safely operate in real-time. However, in many contexts, some sensing modalities negatively impact perception while increasing the system's overall energy consumption. Since AS are often energy-constrained edge devices, energy-efficient sensor fusion methods have been proposed. However, existing methods either fail to adapt to changing scenario conditions or to optimize energy efficiency system-wide. We propose CARMA: a context-aware sensor fusion approach that uses context to dynamically reconfigure the computation flow on a Field-Programmable Gate Array (FPGA) at runtime. By clock-gating unused sensors and model sub-components, CARMA significantly reduces the energy used by a multi-sensory object detector without compromising performance. We use a Deep-learning Processor Unit (DPU) based reconfiguration approach to minimize the latency of model reconfiguration. We evaluate multiple context-identification strategies, propose a novel system-wide energy-performance joint optimization, and evaluate scenario-specific perception performance. Across challenging real-world sensing contexts, CARMA outperforms state-of-the-art methods with up to 1.3x speedup and 73% lower energy consumption. | 翻訳日:2023-06-29 16:53:41 公開日:2023-06-27 |
# 機械振動子の加熱による地上冷却 Ground-state cooling of a mechanical oscillator by heating ( http://arxiv.org/abs/2306.15746v1 ) ライセンス: Link先を確認 | Cheng Wang, Louise Banniard, Kjetil B{\o}rkje, Francesco Massel, Laure Mercier de L\'epinay, and Mika A. Sillanp\"a\"a | (参考訳) 散逸とそれに伴うゆらぎは、高速緩和と位相コヒーレンスの損失と関連しているため、量子系にとって有害であると見なされることが多い。
しかし、外部ノイズが適切な下向き遷移を誘発し、エキサイティングな遷移がブロックされた場合、純粋な状態が作成できるという提案がなされている。
このような冷凍機構を空洞オプトメカニカルシステムで実証し,空洞のレッドメカニカルサイドバンド周囲の周波数に強い電磁ノイズを注入することにより,その基底状態に機械振動子を作製する。
最適冷却は、共振器崩壊率の順に、ノイズ帯域幅を小さくして達成される。
高い帯域幅では冷却効率は低い。
騒音帯域幅が機械減衰率に匹敵する反対の状態では、減衰はノイズ振幅を断熱的に追従し、冷却も抑制される。 Dissipation and the accompanying fluctuations are often seen as detrimental for quantum systems, since they are associated with fast relaxation and loss of phase coherence. However, it has been proposed that a pure state can be prepared if external noise induces suitable downwards transitions, while exciting transitions are blocked. We demonstrate such a refrigeration mechanism in a cavity optomechanical system, where we prepare a mechanical oscillator in its ground state by injecting strong electromagnetic noise at frequencies around the red mechanical sideband of the cavity. The optimum cooling is reached with a noise bandwidth smaller than, but on the order of the cavity decay rate. At higher bandwidths, cooling is less efficient. In the opposite regime where the noise bandwidth becomes comparable to the mechanical damping rate, damping follows the noise amplitude adiabatically, and the cooling is also suppressed. | 翻訳日:2023-06-29 16:53:14 公開日:2023-06-27 |
# Misogynist Incels Forumにおけるアイデンティティ構築 Identity Construction in a Misogynist Incels Forum ( http://arxiv.org/abs/2306.15745v1 ) ライセンス: Link先を確認 | Michael Miller Yoder, Chloe Perry, David West Brown, Kathleen M. Carley, Meredith Pruden | (参考訳) incels(online community of involuntary celibates)は、ミソグミストによるヘイトスピーチの源泉である。
本稿では,ブラックパイルド・インセルズ・フォーラムである incels.is において,アイデンティティグループがどのように議論されているかを検討するために,定量的テキストとネットワーク分析のアプローチを用いる。
このコミュニティは幅広い新しいアイデンティティ用語を生み出しており、女性の用語が最も一般的である一方で、他のマイノリティ化されたアイデンティティの言及が増えている。
アイデンティティグループと結びついた関連性の分析は、身体的な外見と性別、人種的階層が人間の価値を決定する本質的なイデオロギーを示唆している。
本研究は, 自動失語症ヘイトスピーチ検出研究の意義について論じる。 Online communities of involuntary celibates (incels) are a prominent source of misogynist hate speech. In this paper, we use quantitative text and network analysis approaches to examine how identity groups are discussed on incels.is, the largest black-pilled incels forum. We find that this community produces a wide range of novel identity terms and, while terms for women are most common, mentions of other minoritized identities are increasing. An analysis of the associations made with identity groups suggests an essentialist ideology where physical appearance, as well as gender and racial hierarchies, determine human value. We discuss implications for research into automated misogynist hate speech detection. | 翻訳日:2023-06-29 16:52:56 公開日:2023-06-27 |
# チケット付き学習アンラーニング Ticketed Learning-Unlearning Schemes ( http://arxiv.org/abs/2306.15744v1 ) ライセンス: Link先を確認 | Badih Ghazi, Pritish Kamath, Ravi Kumar, Pasin Manurangsi, Ayush Sekhari, Chiyuan Zhang | (参考訳) We consider the learning--unlearning paradigm defined as follows. First given a dataset, the goal is to learn a good predictor, such as one minimizing a certain loss. Subsequently, given any subset of examples that wish to be unlearnt, the goal is to learn, without the knowledge of the original training dataset, a good predictor that is identical to the predictor that would have been produced when learning from scratch on the surviving examples. We propose a new ticketed model for learning--unlearning wherein the learning algorithm can send back additional information in the form of a small-sized (encrypted) ``ticket'' to each participating training example, in addition to retaining a small amount of ``central'' information for later.
その後、未学習を希望する例では、未学習アルゴリズムにチケットを提示し、さらに中央情報を使って新しい予測器を返す。
我々は,しきい値,パリティ,交点閉鎖クラスなど,幅広い概念クラスに対して,空間効率の高いチケット学習・学習スキームを提供する。
未学習の段階では、生き残った例があるかどうかを簡単に知ることが目的である。
我々は,特定の特性を持つSpernerファミリーの構築に依存した,この問題に対するチケット付き学習スキームを提示する。 We consider the learning--unlearning paradigm defined as follows. First given a dataset, the goal is to learn a good predictor, such as one minimizing a certain loss. Subsequently, given any subset of examples that wish to be unlearnt, the goal is to learn, without the knowledge of the original training dataset, a good predictor that is identical to the predictor that would have been produced when learning from scratch on the surviving examples. We propose a new ticketed model for learning--unlearning wherein the learning algorithm can send back additional information in the form of a small-sized (encrypted) ``ticket'' to each participating training example, in addition to retaining a small amount of ``central'' information for later. Subsequently, the examples that wish to be unlearnt present their tickets to the unlearning algorithm, which additionally uses the central information to return a new predictor. We provide space-efficient ticketed learning--unlearning schemes for a broad family of concept classes, including thresholds, parities, intersection-closed classes, among others. En route, we introduce the count-to-zero problem, where during unlearning, the goal is to simply know if there are any examples that survived. We give a ticketed learning--unlearning scheme for this problem that relies on the construction of Sperner families with certain properties, which might be of independent interest. | 翻訳日:2023-06-29 16:52:44 公開日:2023-06-27 |
# 異なるプライベートなビデオアクティビティ認識 Differentially Private Video Activity Recognition ( http://arxiv.org/abs/2306.15742v1 ) ライセンス: Link先を確認 | Zelun Luo, Yuliang Zou, Yijin Yang, Zane Durante, De-An Huang, Zhiding Yu, Chaowei Xiao, Li Fei-Fei, Animashree Anandkumar | (参考訳) 近年、ディファレンシャルプライバシは画像分類において著しく進歩しているが、ビデオアクティビティ認識への応用は未検討のままである。
本稿では,ビデオアクティビティ認識に差分プライバシーを適用する際の課題について述べる。(1)ビデオ全体の所望のプライバシーレベルと,典型的には短くセグメント化されたクリップである現代のビデオアーキテクチャで処理される入力データの性質との相違,(2)画像分類におけるビデオデータセットの複雑さとサイズは,従来の差分プライバシー手法を不適切なものにしている。
そこで本研究では,クリップベースの分類モデルを用いてビデオレベルのディファレンシャルプライバシを強制する新しいフレームワークであるマルチクリップdp-sgdを提案する。
この方法は、各ビデオから複数のクリップをサンプリングし、勾配を平均し、追加のプライバシー損失を伴わずにdp-sgdに勾配クリッピングを適用する。
さらに、パラメータ効率のよい転送学習戦略を導入し、大規模ビデオデータセットにモデルをスケーラブルにする。
UCF-101とHMDB-51データセットの広範な評価により,UDF-101のプライバシー予算であるエプシロン=5で81%の精度を実現し,DP-SGDの直接適用に比べて76%改善した。
さらに,我々は,CheXpert, ImageNet, CIFAR-10, CIFAR-100などのデータセットを対象とする,移動学習戦略の汎用性を実証した。 In recent years, differential privacy has seen significant advancements in image classification; however, its application to video activity recognition remains under-explored. This paper addresses the challenges of applying differential privacy to video activity recognition, which primarily stem from: (1) a discrepancy between the desired privacy level for entire videos and the nature of input data processed by contemporary video architectures, which are typically short, segmented clips; and (2) the complexity and sheer size of video datasets relative to those in image classification, which render traditional differential privacy methods inadequate. To tackle these issues, we propose Multi-Clip DP-SGD, a novel framework for enforcing video-level differential privacy through clip-based classification models. This method samples multiple clips from each video, averages their gradients, and applies gradient clipping in DP-SGD without incurring additional privacy loss. Moreover, we incorporate a parameter-efficient transfer learning strategy to make the model scalable for large-scale video datasets. Through extensive evaluations on the UCF-101 and HMDB-51 datasets, our approach exhibits impressive performance, achieving 81% accuracy with a privacy budget of epsilon=5 on UCF-101, marking a 76% improvement compared to a direct application of DP-SGD. Furthermore, we demonstrate that our transfer learning strategy is versatile and can enhance differentially private image classification across an array of datasets including CheXpert, ImageNet, CIFAR-10, and CIFAR-100. | 翻訳日:2023-06-29 16:52:24 公開日:2023-06-27 |
# 検出とマッチングによる生物医学的実体認識 Biomedical Entity Recognition by Detection and Matching ( http://arxiv.org/abs/2306.15736v1 ) ライセンス: Link先を確認 | Junyi Bian, Rongze Jiang, Weiqi Zhai, Tianyang Huang, Hong Zhou, Shanfeng Zhu | (参考訳) 生物医学名実体認識(BNER)は多くの生物医学テキストマイニングの基盤となっている。
一般のNERとは異なり、BNERはドメインを包括的に把握する必要がある。
本研究では,DMNERと呼ばれる新しいBNERフレームワークを提案する。
既存のエンティティ表現モデルSAPBERTを利用することで、BNERを2段階のプロセスとして、エンティティ境界検出とバイオメディカルエンティティマッチングに取り組みます。
DMNERは複数のNERシナリオに適用可能であることを示す。
1)教師付きNERでは,DMNERがベースラインNERモデルの出力を効果的に修正し,性能をさらに向上する。
2) 遠隔監視型NERでは, MRC と AutoNER をスパン境界検出器として組み合わせることで, DMNER は良好な結果が得られる。
3)複数のデータセットをマージしてNERをトレーニングするために,DS-NERに似たフレームワークを採用するが,ChatGPTを活用してトレーニングの高品質なフレーズを得る。
10のベンチマークデータセットで実施された広範な実験を通じて、DMNERの汎用性と有効性を示す。 Biomedical named entity recognition (BNER) serves as the foundation for numerous biomedical text mining tasks. Unlike general NER, BNER require a comprehensive grasp of the domain, and incorporating external knowledge beyond training data poses a significant challenge. In this study, we propose a novel BNER framework called DMNER. By leveraging existing entity representation models SAPBERT, we tackle BNER as a two-step process: entity boundary detection and biomedical entity matching. DMNER exhibits applicability across multiple NER scenarios: 1) In supervised NER, we observe that DMNER effectively rectifies the output of baseline NER models, thereby further enhancing performance. 2) In distantly supervised NER, combining MRC and AutoNER as span boundary detectors enables DMNER to achieve satisfactory results. 3) For training NER by merging multiple datasets, we adopt a framework similar to DS-NER but additionally leverage ChatGPT to obtain high-quality phrases in the training. Through extensive experiments conducted on 10 benchmark datasets, we demonstrate the versatility and effectiveness of DMNER. | 翻訳日:2023-06-29 16:51:51 公開日:2023-06-27 |
# 『鳥図』:機械ビジョンモデルにおけるあいまいさを扱うための政策勧告 "Is a picture of a bird a bird": Policy recommendations for dealing with ambiguity in machine vision models ( http://arxiv.org/abs/2306.15777v1 ) ライセンス: Link先を確認 | Alicia Parrish, Sarah Laszlo, Lora Aroyo | (参考訳) 私たちが世界について尋ねる多くの質問は、ひとつの明確な答えを持っていないが、機械学習における一般的な人間のアノテーションセットは、すべてのタスクのすべての例に対して、単一の真実ラベルが必要であると仮定している。
現実と実践の相違は、特に本質的なあいまいさがあり、異なる主観的判断の範囲が広い場合において顕著である。
本稿では,機械視覚モデルの学習に使用される画像のラベル付け行動における主観的判断の意義について検討する。
曖昧さの主な原因は3つあります
(i)画像中のラベルの描写
(ii)利率者の背景、及び
(iii)タスク定義。
実験結果に基づいて,機械学習データセットにおけるラベル曖昧性を扱うためのベストプラクティスを提案する。 Many questions that we ask about the world do not have a single clear answer, yet typical human annotation set-ups in machine learning assume there must be a single ground truth label for all examples in every task. The divergence between reality and practice is stark, especially in cases with inherent ambiguity and where the range of different subjective judgments is wide. Here, we examine the implications of subjective human judgments in the behavioral task of labeling images used to train machine vision models. We identify three primary sources of ambiguity arising from (i) depictions of labels in the images, (ii) raters' backgrounds, and (iii) the task definition. On the basis of the empirical results, we suggest best practices for handling label ambiguity in machine learning datasets. | 翻訳日:2023-06-29 16:45:42 公開日:2023-06-27 |
# 人間中心の生成AIの次のステップ:技術的視点 Next Steps for Human-Centered Generative AI: A Technical Perspective ( http://arxiv.org/abs/2306.15774v1 ) ライセンス: Link先を確認 | Xiang 'Anthony' Chen, Jeff Burke, Ruofei Du, Matthew K. Hong, Jennifer Jacobs, Philippe Laban, Dingzeyu Li, Nanyun Peng, Karl D. D. Willis, Chien-Sheng Wu, Bolei Zhou | (参考訳) 本稿では,人間中心生成型ai(hgai)の次のステップを技術的観点から定義し,提案する。
我々は、人的価値の調整、人間の意図の表現の調整、協調的なワークフローにおける人間の能力の増強という、3つのレベルにまたがるジェネレーティブAIの今後の方向性を示すロードマップに貢献する。
このロードマップは、学際的な研究チームをHGAIにおける創発的なアイデアの包括的リストに導いていくことを目的としています。 Through iterative, cross-disciplinary discussions, we define and propose next-steps for Human-centered Generative AI (HGAI) from a technical perspective. We contribute a roadmap that lays out future directions of Generative AI spanning three levels: Aligning with human values; Accommodating humans' expression of intents; and Augmenting humans' abilities in a collaborative workflow. This roadmap intends to draw interdisciplinary research teams to a comprehensive list of emergent ideas in HGAI, identifying their interested topics while maintaining a coherent big picture of the future work landscape. | 翻訳日:2023-06-29 16:45:31 公開日:2023-06-27 |
# 不均質フェルミ-ボース混合物における秩序パラメータの液滴形成と超伝導(ブリーフレビュー) Formation of droplets of the order parameter and superconductivity in inhomogeneous Fermi-Bose mixtures (Brief review) ( http://arxiv.org/abs/2306.15770v1 ) ライセンス: Link先を確認 | M.Yu. Kagan, S.V. Aksenov, A.V. Turlapov, R.Sh. Ikhsanov, K.I. Kugel, E.A. Mazur, E.A. Kuznetsov, V.M. Silkin, and E.A. Burovski | (参考訳) ホスト媒体における超伝導クラスターと秩序パラメータの液滴を混合した不均一(比較的分離された)フェルミ・ボース混合物を用いて処理した多数のシステムについて検討した。
空間的に分離されたフェルミ・ボース混合物は、超伝導BaKBiO3ビスマス酸化物に関係している。
秩序パラメータの液滴は、強い誘電率を持つ2次元ハバードモデルの低電子密度での強誘電率モデル(英語版)の枠組みに記述された汚れた金属薄膜に生じる可能性がある。
ボース=アインシュタイン凝縮液滴はフェルミ成分とボース成分の密度が不均衡な混合ガスと双極子ガスで形成される。
ボース・アインシュタイン凝縮クラスターは、スピン偏極フェルミガスを含む磁気トラップの中央または周辺にも生じる。
エキシトンとプラズモンの崩壊液滴は、エキシトン-エクシトンまたはプラズモン-プラズモン相互作用の存在下で生じる。
MgB2の電荷スクリーニングへのプラズモンの寄与は、空間的に変調された不均一構造の形成につながる。
金属水素および金属水素化物では、金属相と分子相の1次相転移の境界における衝撃波実験で液滴を形成することができる。
トポロジカルに非自明な状態で超伝導橋とアハロノフ・ボーム干渉リングで生じる空間的に分離されたフェルミ・ボース混合物では、系のエッジマヨラナモードの存在により、追加のファノ共鳴が出現して崩壊する可能性がある。 The studies of a number of systems treated in terms of an inhomogeneous (spatially separated) Fermi-Bose mixture with superconducting clusters or droplets of the order parameter in a host medium with unpaired normal states are reviewed. A spatially separated Fermi-Bose mixture is relevant to superconducting BaKBiO3 bismuth oxides. Droplets of the order parameter can occur in thin films of a dirty metal, described in the framework of the strongly attractive two-dimensional Hubbard model at a low electron density with a clearly pronounced diagonal disorder. The Bose-Einstein condensate droplets are formed in mixtures and dipole gases with an imbalance in the densities of the Fermi and Bose components. The Bose-Einstein condensate clusters also arise at the center or at the periphery of a magnetic trap involving spin-polarized Fermi gases. Exciton and plasmon collapsing droplets can emerge in the presence of the exciton-exciton or plasmon-plasmon interaction. The plasmon contribution to the charge screening in MgB2 leads to the formation of spatially modulated inhomogeneous structures. In metallic hydrogen and metal hydrides, droplets can be formed in shock-wave experiments at the boundary of the first-order phase transition between the metallic and molecular phases. In a spatially separated Fermi-Bose mixture arising in an Aharonov-Bohm interference ring with a superconducting bridge in a topologically nontrivial state, additional Fano resonances may appear and collapse due to the presence of edge Majorana modes in the system. | 翻訳日:2023-06-29 16:45:20 公開日:2023-06-27 |
# imagenetがlaionと違って見える理由 What Makes ImageNet Look Unlike LAION ( http://arxiv.org/abs/2306.15769v1 ) ライセンス: Link先を確認 | Ali Shirali, Moritz Hardt | (参考訳) ImageNetはFlickrの画像検索結果から作られたことで有名だ。
イメージキャプションだけで巨大なLAIONデータセットを検索することで、ImageNetを再生成した場合はどうでしょう?
本研究では,この反事実調査を行う。
LAIONetと呼ばれる結果のImageNetレクリエーションは、オリジナルとは明らかに異なる。
具体的には、オリジナルのImageNetにおける画像のクラス内類似性はLAIONetよりも劇的に高い。
その結果、ImageNetでトレーニングされたモデルはLAIONetで大幅に悪化する。
そこで本研究では,各データセットに対する2つの推定可能な因果的データ生成過程の微妙な,しかし重要な差異について,系統的実験で支持する厳密な説明を提案する。
簡単に言えば、画像キャプションのみに基づく検索は、画像ベースのフィルタリングに存在しない選択バイアスを軽減する情報ボトルネックを生成する。
我々は,イメージネット画像はステレオタイプであり,非自然であり,クラスカテゴリの過度に単純な表現である,というコミュニティの長年の直観を定式化した。
同時に、将来のデータセット作成の取り組みに対して、シンプルで実用的な取り組みを提供する。 ImageNet was famously created from Flickr image search results. What if we recreated ImageNet instead by searching the massive LAION dataset based on image captions alone? In this work, we carry out this counterfactual investigation. We find that the resulting ImageNet recreation, which we call LAIONet, looks distinctly unlike the original. Specifically, the intra-class similarity of images in the original ImageNet is dramatically higher than it is for LAIONet. Consequently, models trained on ImageNet perform significantly worse on LAIONet. We propose a rigorous explanation for the discrepancy in terms of a subtle, yet important, difference in two plausible causal data-generating processes for the respective datasets, that we support with systematic experimentation. In a nutshell, searching based on an image caption alone creates an information bottleneck that mitigates the selection bias otherwise present in image-based filtering. Our explanation formalizes a long-held intuition in the community that ImageNet images are stereotypical, unnatural, and overly simple representations of the class category. At the same time, it provides a simple and actionable takeaway for future dataset creation efforts. | 翻訳日:2023-06-29 16:44:56 公開日:2023-06-27 |
# 単一画像を用いたヨガ詩認識のための高効率深部畳み込みニューラルネットワークモデル An Efficient Deep Convolutional Neural Network Model For Yoga Pose Recognition Using Single Images ( http://arxiv.org/abs/2306.15768v1 ) ライセンス: Link先を確認 | Santosh Kumar Yadav, Apurv Shukla, Kamlesh Tiwari, Hari Mohan Pandey, Shaik Ali Akbar | (参考訳) ポーズ認識は、人体関節を2d/3d空間に配置し、推定された関節位置を推定してポーズを予測するアルゴリズムの設計を扱う。
ヨガのポーズは非常に複雑な姿勢から成り立っている。
これは、オクルージョン、クラス間の類似性、クラス内変動性、視点複雑性など、コンピュータビジョンアルゴリズムに様々な課題を課している。
本稿では,RGB画像からヨガを認識可能な,効率的な深部畳み込みニューラルネットワーク(CNN)モデルYPoseを提案する。
提案モデルは以下の4段階からなる。
(a)まず、関心領域(ROI)を分割に基づくアプローチを用いて分割し、元の画像からROIを抽出する。
第二に、これらの洗練された画像は、特徴抽出のためにEfficientNetsのバックボーンに基づいてCNNアーキテクチャに渡される。
(c)より多様化した特徴を学習するために、密結合ネットワークのアーキテクチャから適応した第3の高密度化ブロックを付加する。
(d)ヨガポーズのマルチレベル階層の分類には,4番目,グローバル平均プーリングと完全連結層が適用される。
提案したモデルはYoga-82データセットでテストされている。
これはヨガポーズ認識のための公開ベンチマークデータセットである。
実験結果から,提案モデルがこのデータセットの最先端性を達成できることが示唆された。
提案モデルは93.28%の精度を得たが、これは初期の最先端(79.35%)よりも改善され、マージンは約13.9%であった。
コードは公開される予定だ。 Pose recognition deals with designing algorithms to locate human body joints in a 2D/3D space and run inference on the estimated joint locations for predicting the poses. Yoga poses consist of some very complex postures. It imposes various challenges on the computer vision algorithms like occlusion, inter-class similarity, intra-class variability, viewpoint complexity, etc. This paper presents YPose, an efficient deep convolutional neural network (CNN) model to recognize yoga asanas from RGB images. The proposed model consists of four steps as follows: (a) first, the region of interest (ROI) is segmented using segmentation based approaches to extract the ROI from the original images; (b) second, these refined images are passed to a CNN architecture based on the backbone of EfficientNets for feature extraction; (c) third, dense refinement blocks, adapted from the architecture of densely connected networks are added to learn more diversified features; and (d) fourth, global average pooling and fully connected layers are applied for the classification of the multi-level hierarchy of the yoga poses. The proposed model has been tested on the Yoga-82 dataset. It is a publicly available benchmark dataset for yoga pose recognition. Experimental results show that the proposed model achieves the state-of-the-art on this dataset. The proposed model obtained an accuracy of 93.28%, which is an improvement over the earlier state-of-the-art (79.35%) with a margin of approximately 13.9%. The code will be made publicly available. | 翻訳日:2023-06-29 16:44:40 公開日:2023-06-27 |
# 証拠検出と追跡コラボレーション:ロバストアンチuavシステムの新しい問題、ベンチマーク、アルゴリズム Evidential Detection and Tracking Collaboration: New Problem, Benchmark and Algorithm for Robust Anti-UAV System ( http://arxiv.org/abs/2306.15767v1 ) ライセンス: Link先を確認 | Xue-Feng Zhu, Tianyang Xu, Jian Zhao, Jia-Wei Liu, Kai Wang, Gang Wang, Jianan Li, Zhihao Zhang, Qiang Wang, Lei Jin, Zheng Zhu, Junliang Xing, Xiao-Jun Wu | (参考訳) 無人航空機(uavs)は、輸送、監視、軍事など多くの分野で広く使用されている。
しかし、安全とプライバシー侵害の可能性を増し、より広範な応用を厳しく制限し、UAVの認識と防衛(反UAV)の重要性を強調している。
しかし、従来の作業では、UAVの以前の情報が常に提供されていた追跡問題として、このような反UAVタスクを単純化しており、実際の対UAVタスク(複雑なシーン、不定形、再認識型UAV、リアルタイムUAV監視など)では、そのようなスキームは失敗している。
本稿では,UAV情報のない複雑な場面において,UAVの知覚を特徴とする新しい実用的対UAV問題を初めて定式化する。
このような課題をベンチマークするために、AntiUAV600と呼ばれる最大のUAVデータセットと、新しい評価基準を提案する。
AntiUAV600は、ランダム、高速、小型のUAVを備えた600の挑戦的なシーンのビデオで構成され、723K以上の熱赤外フレームに密接な注釈が付けられた。
最後に,グローバルなUAV検出とローカルなUAV追跡の明確な協調による,新たなUAV対策を開発し,提案課題に効果的に取り組むとともに,今後の研究の強力なベースラインとして機能する。
広汎な実験により,本手法はSOTA法よりも優れており,大規模で複雑なUAV知覚性能を向上させるために,AntiUAV600の有効性が検証されている。
データセット、事前トレーニングされたモデル、ソースコードはパブリックにリリースされます。 Unmanned Aerial Vehicles (UAVs) have been widely used in many areas, including transportation, surveillance, and military. However, their potential for safety and privacy violations is an increasing issue and highly limits their broader applications, underscoring the critical importance of UAV perception and defense (anti-UAV). Still, previous works have simplified such an anti-UAV task as a tracking problem, where the prior information of UAVs is always provided; such a scheme fails in real-world anti-UAV tasks (i.e. complex scenes, indeterminate-appear and -reappear UAVs, and real-time UAV surveillance). In this paper, we first formulate a new and practical anti-UAV problem featuring the UAVs perception in complex scenes without prior UAVs information. To benchmark such a challenging task, we propose the largest UAV dataset dubbed AntiUAV600 and a new evaluation metric. The AntiUAV600 comprises 600 video sequences of challenging scenes with random, fast, and small-scale UAVs, with over 723K thermal infrared frames densely annotated with bounding boxes. Finally, we develop a novel anti-UAV approach via an evidential collaboration of global UAVs detection and local UAVs tracking, which effectively tackles the proposed problem and can serve as a strong baseline for future research. Extensive experiments show our method outperforms SOTA approaches and validate the ability of AntiUAV600 to enhance UAV perception performance due to its large scale and complexity. Our dataset, pretrained models, and source codes will be released publically. | 翻訳日:2023-06-29 16:44:22 公開日:2023-06-27 |
# アノテーションとしての大規模言語モデル:最小コストでのNLPモデルの一般化の促進 Large Language Models as Annotators: Enhancing Generalization of NLP Models at Minimal Cost ( http://arxiv.org/abs/2306.15766v1 ) ライセンス: Link先を確認 | Parikshit Bansal, Amit Sharma | (参考訳) 最先端の教師付きNLPモデルは高い精度を達成できるが、トレーニングデータに表現されていないドメインのような低データ状態からの入力の失敗にも影響を受けやすい。
特定の領域に対する接地ラベルの収集の近似として,入力の注釈付けとnlpモデルの一般化のための大規模言語モデル(llms)の使用について検討した。
具体的には、LPMアノテーションの予算を考慮し、最も情報に富んだ入力をサンプリングし、NLPモデルの注釈と再訓練を行うアルゴリズムを提案する。
不確実性に基づくサンプリングのような一般的なアクティブな学習戦略はうまく機能しない。
その代わり、ベースモデルと微調整NLPモデルとの予測スコアの差に基づくサンプリング戦略を提案し、ほとんどのNLPモデルがベースモデルから微調整されているという事実を利用する。
分類 (semantic similarity) とランキング (semantic search) タスクを用いた実験により, 学習領域と対象領域の両方において, サンプリング戦略が有意な精度向上をもたらすことが示された。 State-of-the-art supervised NLP models achieve high accuracy but are also susceptible to failures on inputs from low-data regimes, such as domains that are not represented in training data. As an approximation to collecting ground-truth labels for the specific domain, we study the use of large language models (LLMs) for annotating inputs and improving the generalization of NLP models. Specifically, given a budget for LLM annotations, we present an algorithm for sampling the most informative inputs to annotate and retrain the NLP model. We find that popular active learning strategies such as uncertainty-based sampling do not work well. Instead, we propose a sampling strategy based on the difference in prediction scores between the base model and the finetuned NLP model, utilizing the fact that most NLP models are finetuned from a base model. Experiments with classification (semantic similarity) and ranking (semantic search) tasks show that our sampling strategy leads to significant gains in accuracy for both the training and target domains. | 翻訳日:2023-06-29 16:43:53 公開日:2023-06-27 |
# 自動マルチモーダル人間行動認識システムのための2つの流れ決定レベルの視覚と慣性センサデータの融合 A Novel Two Stream Decision Level Fusion of Vision and Inertial Sensors Data for Automatic Multimodal Human Activity Recognition System ( http://arxiv.org/abs/2306.15765v1 ) ライセンス: Link先を確認 | Santosh Kumar Yadav, Muhtashim Rafiqi, Egna Praneeth Gummana, Kamlesh Tiwari, Hari Mohan Pandey, Shaik Ali Akbara | (参考訳) 本稿では,新しいマルチモーダル人間活動認識システムを提案する。
視覚と慣性センサーの2つのストリーム決定レベルの融合を用いる。
第1ストリームでは、生のRGBフレームを部分親和性フィールドベースのポーズ推定ネットワークに渡してユーザのキーポイントを検出する。
これらのキーポイントは、空間的特徴抽出のために特別に設計された畳み込みニューラルネットワークに予め処理され、時間的特徴を計算するための正規化されたLSTMが続く。
LSTMネットワークの出力は、分類のために完全に接続された層に入力される。
第2のストリームでは、慣性センサから得られたデータを前処理し、特徴抽出のための正規化lstmに入力し、さらに分類のための完全連結層に入力する。
この段階で、2つのストリームのSoftMaxスコアは、最終的な予測を与える決定レベル融合を用いて融合される。
性能評価のために広範な実験が行われている。
実験には、4つのマルチモーダル標準ベンチマークデータセット(UP-Fall Detection、UTD-MHAD、Berkeley-MHAD、C-MHAD)が使用される。
本システムにより得られた精度は,アップフォール検出,utdmhad,berkeley-mhad,c-mhadデータセットそれぞれ96.9 %,97.6 %,98.7 %,95.9 %である。
これらの結果は現在の最先端手法よりもはるかに優れている。 This paper presents a novel multimodal human activity recognition system. It uses a two-stream decision level fusion of vision and inertial sensors. In the first stream, raw RGB frames are passed to a part affinity field-based pose estimation network to detect the keypoints of the user. These keypoints are then pre-processed and inputted in a sliding window fashion to a specially designed convolutional neural network for the spatial feature extraction followed by regularized LSTMs to calculate the temporal features. The outputs of LSTM networks are then inputted to fully connected layers for classification. In the second stream, data obtained from inertial sensors are pre-processed and inputted to regularized LSTMs for the feature extraction followed by fully connected layers for the classification. At this stage, the SoftMax scores of two streams are then fused using the decision level fusion which gives the final prediction. Extensive experiments are conducted to evaluate the performance. Four multimodal standard benchmark datasets (UP-Fall detection, UTD-MHAD, Berkeley-MHAD, and C-MHAD) are used for experimentations. The accuracies obtained by the proposed system are 96.9 %, 97.6 %, 98.7 %, and 95.9 % respectively on the UP-Fall Detection, UTDMHAD, Berkeley-MHAD, and C-MHAD datasets. These results are far superior than the current state-of-the-art methods. | 翻訳日:2023-06-29 16:43:36 公開日:2023-06-27 |
# 確率的因果モデルを用いた高忠実度画像対策 High Fidelity Image Counterfactuals with Probabilistic Causal Models ( http://arxiv.org/abs/2306.15764v1 ) ライセンス: Link先を確認 | Fabio De Sousa Ribeiro, Tian Xia, Miguel Monteiro, Nick Pawlowski, Ben Glocker | (参考訳) 深い構造因果モデルを用いた高忠実度画像反事実の正確な推定のための一般的な因果生成モデルフレームワークを提案する。
画像などの高次元構造化変数に対する干渉的および反実的クエリの推定は、依然として難しい課題である。
我々は、因果媒介分析のアイデアと生成モデリングの進歩を活用し、因果モデルにおける構造変数の新しい深い因果機構を設計する。
実験により, 提案機構は, 直接的, 間接的, 全体的効果を, 反事実の公理的健全性によって正確に推定できることを示した。 We present a general causal generative modelling framework for accurate estimation of high fidelity image counterfactuals with deep structural causal models. Estimation of interventional and counterfactual queries for high-dimensional structured variables, such as images, remains a challenging task. We leverage ideas from causal mediation analysis and advances in generative modelling to design new deep causal mechanisms for structured variables in causal models. Our experiments demonstrate that our proposed mechanisms are capable of accurate abduction and estimation of direct, indirect and total effects as measured by axiomatic soundness of counterfactuals. | 翻訳日:2023-06-29 16:43:09 公開日:2023-06-27 |
# バッチリファクタリングコードの臭いがアプリケーションリソース消費に及ぼす影響の予測 Predicting the Impact of Batch Refactoring Code Smells on Application Resource Consumption ( http://arxiv.org/abs/2306.15763v1 ) ライセンス: Link先を確認 | Asif Imran, Tevfik Kosar, Jaroslaw Zola, Muhammed Fatih Bulut | (参考訳) 自動バッチリファクタリングは、コード品質と保守性に悪影響を及ぼす重要な設計上の欠陥を持つソフトウェアを再構築するためのデファクトのメカニズムになっている。
自動バッチリファクタリング技術はソフトウェア全体の品質と保守性を大幅に改善することが知られているが、リソース利用への影響は十分に研究されていない。
本稿では,バッチリファクタリングコードの臭いとリソース消費のギャップを埋めることを目的とする。
ソフトウェアコードの臭いのバッチリファクタリングとリソース消費の関係を決定する。
次に、コードの臭いがリソース消費に与える影響を予測するアルゴリズムを設計することを目指している。
本稿では,31種類のオープンソースアプリケーションにおける16種類のコード臭いタイプと,それらの資源利用への共同効果について検討する。
特定のコードの臭いを分離およびバッチでリファクタリングした後のアプリケーションcpuおよびメモリ使用率の変化に関する詳細な実証分析を提供する。
この分析は、リファクタリング決定を行う前にバッチリファクタリングがCPUとメモリ利用に与える影響を予測するために回帰アルゴリズムをトレーニングするために使用される。
実験の結果,ANNに基づく回帰モデルでは,バッチリファクタリングが資源消費に与える影響を高精度に予測できることがわかった。
これにより、ソフトウェア開発者は、アプリケーションリソースの利用を増加させることなく、高いコード品質と保守性を達成するために、リファクタリングすべきコードの臭いをインテリジェントに決定できる。
本稿では,コードの臭いをリファクタリングし,リソース消費を改善するために,幅広いソフトウェアアプリケーションにおいて,ソフトウェアエンジニアが重要かつ緊急に必要とすることに対応する。
最後に、リソースを意識したコード臭いリファクタリングという概念を最も重要なソフトウェアアプリケーションにもたらします。 Automated batch refactoring has become a de-facto mechanism to restructure software that may have significant design flaws negatively impacting the code quality and maintainability. Although automated batch refactoring techniques are known to significantly improve overall software quality and maintainability, their impact on resource utilization is not well studied. This paper aims to bridge the gap between batch refactoring code smells and consumption of resources. It determines the relationship between software code smell batch refactoring, and resource consumption. Next, it aims to design algorithms to predict the impact of code smell refactoring on resource consumption. This paper investigates 16 code smell types and their joint effect on resource utilization for 31 open source applications. It provides a detailed empirical analysis of the change in application CPU and memory utilization after refactoring specific code smells in isolation and in batches. This analysis is then used to train regression algorithms to predict the impact of batch refactoring on CPU and memory utilization before making any refactoring decisions. Experimental results also show that our ANN-based regression model provides highly accurate predictions for the impact of batch refactoring on resource consumption. It allows the software developers to intelligently decide which code smells they should refactor jointly to achieve high code quality and maintainability without increasing the application resource utilization. This paper responds to the important and urgent need of software engineers across a broad range of software applications, who are looking to refactor code smells and at the same time improve resource consumption. Finally, it brings forward the concept of resource aware code smell refactoring to the most crucial software applications. | 翻訳日:2023-06-29 16:42:58 公開日:2023-06-27 |
# flurka: 高速に融合した低ランクとカーネルの注意 FLuRKA: Fast fused Low-Rank & Kernel Attention ( http://arxiv.org/abs/2306.15799v1 ) ライセンス: Link先を確認 | Ahan Gupta, Yueming Yuan, Yanqi Zhou and Charith Mendis | (参考訳) トランスアーキテクチャの開始以来,多くの効率的な自己認識技術が普及している。
これらの技法の2つの一般的なクラスは低ランクとカーネルメソッドである。
これらの方法にはそれぞれ独自の強みがある。
我々はこれらの強みを相乗的に補完し、これらの相乗効果を利用して低ランクおよびカーネル法を融合し、FLuRKA(Fast Low-Rank and Kernel Attention)という新しい変圧器のクラスを生成する。
FLuRKAは、これらの近似技術よりも大きな性能向上を提供し、高品質である。
FLuRKAのランタイム性能と品質を理論的・実験的に評価する。
我々の実行時解析は,FLuRKAがスピードアップを示すようなパラメータ構成を多用し,精度解析はフルアテンションに関してFLuRKAの誤差を限定する。
低ランク法とカーネル法でそれぞれ3.3倍と1.7倍という経験的なスピードアップを経験するFLuRKAの3つの変種をインスタンス化する。
これはフルアテンションモデルに比べて最大30倍のスピードアップとなる。
モデル品質に関して、FLuRKAはwiki-text 103で事前学習した後、GLUE上の低ランクおよびカーネルメソッドの精度と一致する。
固定時間予算で事前トレーニングを行う場合、FLuRKAはフルアテンションのモデルよりも複雑なスコアを得る。 Many efficient approximate self-attention techniques have become prevalent since the inception of the transformer architecture. Two popular classes of these techniques are low-rank and kernel methods. Each of these methods has its own strengths. We observe these strengths synergistically complement each other and exploit these synergies to fuse low-rank and kernel methods, producing a new class of transformers: FLuRKA (Fast Low-Rank and Kernel Attention). FLuRKA provide sizable performance gains over these approximate techniques and are of high quality. We theoretically and empirically evaluate both the runtime performance and quality of FLuRKA. Our runtime analysis posits a variety of parameter configurations where FLuRKA exhibit speedups and our accuracy analysis bounds the error of FLuRKA with respect to full-attention. We instantiate three FLuRKA variants which experience empirical speedups of up to 3.3x and 1.7x over low-rank and kernel methods respectively. This translates to speedups of up to 30x over models with full-attention. With respect to model quality, FLuRKA can match the accuracy of low-rank and kernel methods on GLUE after pre-training on wiki-text 103. When pre-training on a fixed time budget, FLuRKA yield better perplexity scores than models with full-attention. | 翻訳日:2023-06-29 16:35:25 公開日:2023-06-27 |
# ConKI:マルチモーダル感性分析のための対照的な知識注入 ConKI: Contrastive Knowledge Injection for Multimodal Sentiment Analysis ( http://arxiv.org/abs/2306.15796v1 ) ライセンス: Link先を確認 | Yakun Yu, Mingjun Zhao, Shi-ang Qi, Feiran Sun, Baoxun Wang, Weidong Guo, Xiaoli Wang, Lei Yang, Di Niu | (参考訳) マルチモーダル感性分析は、マルチモーダル信号を利用して話者の感情を検出する。
従来のアプローチでは、事前訓練されたモデルから得られた一般的な知識に基づいてマルチモーダル融合と表現学習を行うことに集中しており、ドメイン固有の知識の影響を無視している。
本稿では,マルチモーダル感情分析のためのコントラスト・ナレッジ・インジェクション(conki)を提案し,各モダリティに対する特定知識表現と,アダプタ・アーキテクチャに基づくナレッジインジェクションによる一般的なナレッジ表現を学習する。
さらにconkiでは、各モダリティ内の知識タイプ、各サンプル内のモダリティ、およびサンプル間の階層的な対比学習手順を使用して、提案する表現の効果的な学習を促進し、マルチモーダル感情予測を改善する。
3つの人気のあるマルチモーダル感情分析ベンチマークの実験は、conkiが様々なパフォーマンスメトリクスですべての以前のメソッドを上回っていることを示している。 Multimodal Sentiment Analysis leverages multimodal signals to detect the sentiment of a speaker. Previous approaches concentrate on performing multimodal fusion and representation learning based on general knowledge obtained from pretrained models, which neglects the effect of domain-specific knowledge. In this paper, we propose Contrastive Knowledge Injection (ConKI) for multimodal sentiment analysis, where specific-knowledge representations for each modality can be learned together with general knowledge representations via knowledge injection based on an adapter architecture. In addition, ConKI uses a hierarchical contrastive learning procedure performed between knowledge types within every single modality, across modalities within each sample, and across samples to facilitate the effective learning of the proposed representations, hence improving multimodal sentiment predictions. The experiments on three popular multimodal sentiment analysis benchmarks show that ConKI outperforms all prior methods on a variety of performance metrics. | 翻訳日:2023-06-29 16:35:04 公開日:2023-06-27 |
# HyenaDNA:単一ヌクレオチド分解能における長距離ゲノム配列モデリング HyenaDNA: Long-Range Genomic Sequence Modeling at Single Nucleotide Resolution ( http://arxiv.org/abs/2306.15794v1 ) ライセンス: Link先を確認 | Eric Nguyen, Michael Poli, Marjan Faizi, Armin Thomas, Callum Birch-Sykes, Michael Wornow, Aman Patel, Clayton Rabideau, Stefano Massaroli, Yoshua Bengio, Stefano Ermon, Stephen A. Baccus, Chris R\'e | (参考訳) ゲノム配列は、遺伝子制御とタンパク質合成のための膨大な情報をコードしている。
自然言語モデルと同様に、研究者はゲノム学の基礎モデルを提案し、ラベルのないゲノムデータから一般化可能な特徴を学習し、規制要素の特定などの下流タスクに微調整することができる。
注意の二次的スケーリングのため、トランスフォーマーベースのゲノムモデルは512から4kトークンを文脈として使用し(ヒトゲノムの0.001%)、DNA内の長距離相互作用のモデリングを著しく制限した。
さらに、これらの手法は、意味のあるDNA単位を集約するトークン化剤に依存しており、単一のヌクレオチドポリモルフィズム(SNP)を介してタンパク質の機能を完全に変更できる単一のヌクレオチド分解能を失う。
近年,暗黙の畳み込みに基づく大規模言語モデルであるhyenaが,コンテキスト長の長さと時間複雑性の低減を両立させた。
ハイエナの新しい長距離機能を利用して、ヒトの基準ゲノムに基づいて事前訓練されたゲノム基盤モデルhyenadnaを1つのヌクレオチドレベルで最大100万トークンのコンテキスト長で提示し、従来の集中的注意に基づくモデルと比較して最大500倍の速度で増加させる。
HyenaDNAは配列の長さ(Transformerの最大160倍の速度)でサブクアドラルスケールし、単一のヌクレオチドトークンを使用し、各層で完全なグローバルコンテキストを持つ。
我々は、事前学習されたモデル重みを更新せずに、新しいタスクへの簡単な適応のためにゲノム学におけるインコンテキスト学習を初めて使用することを含む、より長いコンテキストを可能にするものを探る。
Nucleotide Transformerの微調整されたベンチマークでは、HyenaDNAが17のデータセットのうち12の最先端(SotA)に到達している。
GenomicBenchmarksでは、HyenaDNAは平均して8つのデータセットでSotAを+9の精度で上回っている。 Genomic (DNA) sequences encode an enormous amount of information for gene regulation and protein synthesis. Similar to natural language models, researchers have proposed foundation models in genomics to learn generalizable features from unlabeled genome data that can then be fine-tuned for downstream tasks such as identifying regulatory elements. Due to the quadratic scaling of attention, previous Transformer-based genomic models have used 512 to 4k tokens as context (<0.001% of the human genome), significantly limiting the modeling of long-range interactions in DNA. In addition, these methods rely on tokenizers to aggregate meaningful DNA units, losing single nucleotide resolution where subtle genetic variations can completely alter protein function via single nucleotide polymorphisms (SNPs). Recently, Hyena, a large language model based on implicit convolutions was shown to match attention in quality while allowing longer context lengths and lower time complexity. Leveraging Hyenas new long-range capabilities, we present HyenaDNA, a genomic foundation model pretrained on the human reference genome with context lengths of up to 1 million tokens at the single nucleotide-level, an up to 500x increase over previous dense attention-based models. HyenaDNA scales sub-quadratically in sequence length (training up to 160x faster than Transformer), uses single nucleotide tokens, and has full global context at each layer. We explore what longer context enables - including the first use of in-context learning in genomics for simple adaptation to novel tasks without updating pretrained model weights. On fine-tuned benchmarks from the Nucleotide Transformer, HyenaDNA reaches state-of-the-art (SotA) on 12 of 17 datasets using a model with orders of magnitude less parameters and pretraining data. On the GenomicBenchmarks, HyenaDNA surpasses SotA on all 8 datasets on average by +9 accuracy points. | 翻訳日:2023-06-29 16:34:47 公開日:2023-06-27 |
# ロバストレッグロボットにおけるニューラルダイナミクスの集団レベル解析 A Population-Level Analysis of Neural Dynamics in Robust Legged Robots ( http://arxiv.org/abs/2306.15793v1 ) ライセンス: Link先を確認 | Eugene R. Rush, Christoffer Heckman, Kaushik Jayaram, J. Sean Humbert | (参考訳) リカレントニューラルネットワークに基づく強化学習システムは、移動や操作のような複雑な運動制御タスクを実行できるが、その基盤となるメカニズムの多くは解釈が難しいままである。
本研究の目的は,頑健なロボットロコモーションコントローラの集団レベルの動作を理解するために,計算神経科学手法を活用することである。
本研究は, フラクタブルコントローラが不安定な方向の固定点の数が多く, 位置を指示された場合のバランスが低下することを明らかにすることで, トポロジ構造の解析から開始する。
次に、支配的個体群活動の方向に沿って標的神経摂動を適用することにより、システムの強制応答を分析する。
再帰状態のダイナミクスが、霊長類研究と整合する歩行中に構造化され低次元であることの証拠を見いだす。
さらに、再発状態が0に摂動すると、脆弱なエージェントが歩き続け、これは感覚入力への依存が強く、再発が弱くなることを示している。 Recurrent neural network-based reinforcement learning systems are capable of complex motor control tasks such as locomotion and manipulation, however, much of their underlying mechanisms still remain difficult to interpret. Our aim is to leverage computational neuroscience methodologies to understanding the population-level activity of robust robot locomotion controllers. Our investigation begins by analyzing topological structure, discovering that fragile controllers have a higher number of fixed points with unstable directions, resulting in poorer balance when instructed to stand in place. Next, we analyze the forced response of the system by applying targeted neural perturbations along directions of dominant population-level activity. We find evidence that recurrent state dynamics are structured and low-dimensional during walking, which aligns with primate studies. Additionally, when recurrent states are perturbed to zero, fragile agents continue to walk, which is indicative of a stronger reliance on sensory input and weaker recurrence. | 翻訳日:2023-06-29 16:34:11 公開日:2023-06-27 |
# 出力特化およびデータ解決型プライバシプロファイルを用いたMLモデルにおけるデータセットレベルプライバシ移行の提案 Probing the Transition to Dataset-Level Privacy in ML Models Using an Output-Specific and Data-Resolved Privacy Profile ( http://arxiv.org/abs/2306.15790v1 ) ライセンス: Link先を確認 | Tyler LeBlond, Joseph Munoz, Fred Lu, Maya Fuchs, Elliott Zaresky-Williams, Edward Raff, Brian Testa | (参考訳) 差分プライバシー(DP)は、機械学習モデルでユーザデータを保護するための一般的なテクニックである。
しかしながら、このフレームワークの欠点には、プライバシ予算を選択するための明確さの欠如と、特定のトレーニングされたモデルによる特定のデータ行のプライバシリークの定量化の欠如が含まれている。
DPメカニズムを用いてトレーニングされたモデルが、近隣のデータセット上でのトレーニングから得られた各分布によって「発見」される範囲を定量化するプライバシー指標を研究することによって、これらの制限に向けて進展する。
このカバレッジメトリクスを文学で確立されたものに結びつけ、私たちがプライバシプロファイルと呼ぶトレーニングセットから個々のサンプルのプライバシをランク付けするために使用します。
さらに、プライバシプロファイルを用いて、近隣のディストリビューションで発生する不明瞭性への観察された遷移を$\epsilon$の減少として調査できることを示し、DPの利用を希望するML実践者による$\epsilon$の選択を可能にするツールを提案する。 Differential privacy (DP) is the prevailing technique for protecting user data in machine learning models. However, deficits to this framework include a lack of clarity for selecting the privacy budget $\epsilon$ and a lack of quantification for the privacy leakage for a particular data row by a particular trained model. We make progress toward these limitations and a new perspective by which to visualize DP results by studying a privacy metric that quantifies the extent to which a model trained on a dataset using a DP mechanism is ``covered" by each of the distributions resulting from training on neighboring datasets. We connect this coverage metric to what has been established in the literature and use it to rank the privacy of individual samples from the training set in what we call a privacy profile. We additionally show that the privacy profile can be used to probe an observed transition to indistinguishability that takes place in the neighboring distributions as $\epsilon$ decreases, which we suggest is a tool that can enable the selection of $\epsilon$ by the ML practitioner wishing to make use of DP. | 翻訳日:2023-06-29 16:33:54 公開日:2023-06-27 |
# デジタル病理学における複数インスタンス学習のための構造化状態空間モデル Structured State Space Models for Multiple Instance Learning in Digital Pathology ( http://arxiv.org/abs/2306.15789v1 ) ライセンス: Link先を確認 | Leo Fillioux, Joseph Boyd, Maria Vakalopoulou, Paul-Henry Courn\`ede, Stergios Christodoulidis | (参考訳) マルチ・インスタンス・ラーニング(Multiple instance learning)は、多くのスライド画像が単一のグローバルラベルで注釈付けされる、病理組織学データに対する理想的な分析方法である。
このような場合、スライド画像全体を組織パッチの集合としてモデル化して集約し分類する。
この分類を行う一般的なモデルには、リカレントニューラルネットワークとトランスフォーマーがある。
ディーププレトレーニングニューラルネットワークのような強力な圧縮アルゴリズムは、各パッチの寸法を減らすために使用されるが、スライド画像全体から生じるシーケンスは、過度に長く、定期的に数万のパッチを含む。
構造化状態空間モデルはシーケンスモデリングの新たな選択肢であり、特に長いシーケンスの効率的なモデリングのために設計された。
これらのモデルは、入力シーケンス全体を圧縮するメモリユニットへの最適なプロジェクションを起動する。
本稿では,デジタル病理学における様々な問題に対する複数インスタンス学習者としての状態空間モデルの利用を提案する。
転移検出, 癌サブタイプ, 突然変異分類, マルチタスク学習における実験を通じて, 新たなモデルの競争力と既存の最先端技術との競合性を実証した。
私たちのコードはhttps://github.com/mics-lab/s4_digital_pathologyで利用可能です。 Multiple instance learning is an ideal mode of analysis for histopathology data, where vast whole slide images are typically annotated with a single global label. In such cases, a whole slide image is modelled as a collection of tissue patches to be aggregated and classified. Common models for performing this classification include recurrent neural networks and transformers. Although powerful compression algorithms, such as deep pre-trained neural networks, are used to reduce the dimensionality of each patch, the sequences arising from whole slide images remain excessively long, routinely containing tens of thousands of patches. Structured state space models are an emerging alternative for sequence modelling, specifically designed for the efficient modelling of long sequences. These models invoke an optimal projection of an input sequence into memory units that compress the entire sequence. In this paper, we propose the use of state space models as a multiple instance learner to a variety of problems in digital pathology. Across experiments in metastasis detection, cancer subtyping, mutation classification, and multitask learning, we demonstrate the competitiveness of this new class of models with existing state of the art approaches. Our code is available at https://github.com/MICS-Lab/s4_digital_pathology. | 翻訳日:2023-06-29 16:33:36 公開日:2023-06-27 |
# ブラジルポルトガル語の文法的誤り訂正におけるGPT-3.5とGPT-4の評価 Evaluating GPT-3.5 and GPT-4 on Grammatical Error Correction for Brazilian Portuguese ( http://arxiv.org/abs/2306.15788v1 ) ライセンス: Link先を確認 | Maria Carolina Penteado, F\'abio Perez | (参考訳) ブラジルポルトガル語の文法誤り訂正(GEC)ツールとして, GPT-3.5 と GPT-4 の有効性について検討し,Microsoft Word と Google Docs を比較した。
ブラジルポルトガル語のGECデータセットには,文法,スペリング,インターネット,高速タイピングの4つのカテゴリがある。
以上の結果より, GPT-4は他の方法よりも高いリコール率を示したが, LLMの精度は低くなり, 過補正が生じる傾向にあった。
本研究は,ブラジルポルトガル語の実践的 GEC ツールとしての LLM の可能性を示し,英語以外の教育環境における LLM のさらなる探索を奨励するものである。 We investigate the effectiveness of GPT-3.5 and GPT-4, two large language models, as Grammatical Error Correction (GEC) tools for Brazilian Portuguese and compare their performance against Microsoft Word and Google Docs. We introduce a GEC dataset for Brazilian Portuguese with four categories: Grammar, Spelling, Internet, and Fast typing. Our results show that while GPT-4 has higher recall than other methods, LLMs tend to have lower precision, leading to overcorrection. This study demonstrates the potential of LLMs as practical GEC tools for Brazilian Portuguese and encourages further exploration of LLMs for non-English languages and other educational settings. | 翻訳日:2023-06-29 16:33:17 公開日:2023-06-27 |
# 説明可能な機械学習におけるラショモン効果の実証評価 An Empirical Evaluation of the Rashomon Effect in Explainable Machine Learning ( http://arxiv.org/abs/2306.15786v1 ) ライセンス: Link先を確認 | Sebastian M\"uller, Vanessa Toborek, Katharina Beckh, Matthias Jakobs Christian Bauckhage and Pascal Welke | (参考訳) ラショモン効果は以下の現象を記述する: あるデータセットに対して、等しく優れた性能を持つが、異なる解戦略を持つ多くのモデルが存在する可能性がある。
ラショモン効果は、説明可能な機械学習、特に説明の両立性に影響を及ぼす。
3つの異なる比較シナリオの統一的なビューを提供し、さまざまなデータセット、モデル、帰属方法、メトリクスを定量的に評価します。
ハイパーパラメータチューニングが役割を果たすことが分かり、メトリックの選択が重要になります。
本研究は,これまでの事例的証拠に対して経験的支援を行い,科学者と実践者の両方に課題を提示する。 The Rashomon Effect describes the following phenomenon: for a given dataset there may exist many models with equally good performance but with different solution strategies. The Rashomon Effect has implications for Explainable Machine Learning, especially for the comparability of explanations. We provide a unified view on three different comparison scenarios and conduct a quantitative evaluation across different datasets, models, attribution methods, and metrics. We find that hyperparameter-tuning plays a role and that metric selection matters. Our results provide empirical support for previously anecdotal evidence and exhibit challenges for both scientists and practitioners. | 翻訳日:2023-06-29 16:33:04 公開日:2023-06-27 |
# NCIS:Nissl-Stained Histological Imagesにおける深部色勾配マップの回帰と3種類の画像分類 NCIS: Deep Color Gradient Maps Regression and Three-Class Pixel Classification for Enhanced Neuronal Cell Instance Segmentation in Nissl-Stained Histological Images ( http://arxiv.org/abs/2306.15784v1 ) ライセンス: Link先を確認 | Valentina Vadori, Antonella Peruffo, Jean-Marie Gra\"ic, Livio Finos, Livio Corain, Enrico Grisan | (参考訳) 深層学習は、医療画像解析において他の方法よりも効果的であることが証明されている。
比較神経解剖学的研究は、神経細胞のインスタンスセグメンテーションが細胞構造解析に不可欠である例である。
本論文は,Nissl-stained histological image of the brain cytoarchitecture における単一神経細胞を自動分離するエンド・ツー・エンドの枠組みについて述べる。
エンコーダとしてEfficientNetと2つのデコードブランチを備えたU-Netライクなアーキテクチャを用いて、4つのカラー勾配マップを回帰し、ピクセルをタッチセル、細胞体、背景の間の輪郭に分類する。
デコードブランチはアテンションゲートを介して接続され、関連する特徴を共有し、その出力を結合してセルのインスタンスセグメンテーションを返す。
この方法は大脳皮質と小脳の画像でテストされ、最近の深層学習に基づく細胞分割のアプローチよりも優れている。 Deep learning has proven to be more effective than other methods in medical image analysis, including the seemingly simple but challenging task of segmenting individual cells, an essential step for many biological studies. Comparative neuroanatomy studies are an example where the instance segmentation of neuronal cells is crucial for cytoarchitecture characterization. This paper presents an end-to-end framework to automatically segment single neuronal cells in Nissl-stained histological images of the brain, thus aiming to enable solid morphological and structural analyses for the investigation of changes in the brain cytoarchitecture. A U-Net-like architecture with an EfficientNet as the encoder and two decoding branches is exploited to regress four color gradient maps and classify pixels into contours between touching cells, cell bodies, or background. The decoding branches are connected through attention gates to share relevant features, and their outputs are combined to return the instance segmentation of the cells. The method was tested on images of the cerebral cortex and cerebellum, outperforming other recent deep-learning-based approaches for the instance segmentation of cells. | 翻訳日:2023-06-29 16:32:56 公開日:2023-06-27 |
# UTRNet: 印刷文書における高解像度ウルドゥー文字認識 UTRNet: High-Resolution Urdu Text Recognition In Printed Documents ( http://arxiv.org/abs/2306.15782v1 ) ライセンス: Link先を確認 | Abdur Rahman, Arjun Ghosh, and Chetan Arora | (参考訳) 本稿では,高解像度・マルチスケールな意味的特徴抽出を用いたUrduテキスト認識の課題に対処する新しい手法を提案する。
提案するハイブリッドCNN-RNNモデルであるUTRNetアーキテクチャは,ベンチマークデータセット上での最先端性能を示す。
ウルドゥー文字の複雑さと十分な注釈付き実世界のデータの欠如に対応するために,我々は,11,000 行以上からなる大規模な注釈付き実世界データセット utrset-real と,実世界に近い2万行の合成データセット utrset-synth を導入し,既存のiii 番目のデータセットの基礎的真相を訂正し,将来の研究のためのより信頼性の高いリソースとした。
また、スキャンした文書のUrduテキスト行検出のためのベンチマークデータセットであるUrduDocも提供する。
さらに,UTRNetをテキスト検出モデルに統合することにより,印刷物からUrdu OCRをエンド・ツー・エンドにするためのオンラインツールを開発した。
我々の研究は、現在のUrdu OCRの限界に対処するだけでなく、この領域における今後の研究の道を開くとともに、Urdu OCR技術の継続的な進歩を促進する。
ソースコード、データセット、アノテーション、トレーニングされたモデル、オンラインツールを備えたプロジェクトページは、abdur75648.github.io/utrnetで入手できる。 In this paper, we propose a novel approach to address the challenges of printed Urdu text recognition using high-resolution, multi-scale semantic feature extraction. Our proposed UTRNet architecture, a hybrid CNN-RNN model, demonstrates state-of-the-art performance on benchmark datasets. To address the limitations of previous works, which struggle to generalize to the intricacies of the Urdu script and the lack of sufficient annotated real-world data, we have introduced the UTRSet-Real, a large-scale annotated real-world dataset comprising over 11,000 lines and UTRSet-Synth, a synthetic dataset with 20,000 lines closely resembling real-world and made corrections to the ground truth of the existing IIITH dataset, making it a more reliable resource for future research. We also provide UrduDoc, a benchmark dataset for Urdu text line detection in scanned documents. Additionally, we have developed an online tool for end-to-end Urdu OCR from printed documents by integrating UTRNet with a text detection model. Our work not only addresses the current limitations of Urdu OCR but also paves the way for future research in this area and facilitates the continued advancement of Urdu OCR technology. The project page with source code, datasets, annotations, trained models, and online tool is available at abdur75648.github.io/UTRNet. | 翻訳日:2023-06-29 16:32:32 公開日:2023-06-27 |
# 対人横断学習としてのシンボルの出現--語彙的知識の出現と組み合わせ Symbol emergence as interpersonal cross-situational learning: the emergence of lexical knowledge with combinatoriality ( http://arxiv.org/abs/2306.15837v1 ) ライセンス: Link先を確認 | Yoshinobu Hagiwara, Kazuma Furukawa, Takafumi Horie, Akira Taniguchi, and Tadahiro Taniguchi | (参考訳) 本稿では,メトロポリス・ハスティングス命名ゲームと断続学習を通じて,エージェント間の組合せ性による語彙知識の出現を可能にするシンボル出現システムのための計算モデルを提案する。
認知・発達ロボティクスにおける創発的コミュニケーションとシンボル発生の組合せ性を研究するために,多くの計算モデルが提案されている。
しかし,既存のモデルでは,単一統合モデルにおける単語列の交換による感覚運動情報やセミオティック通信に基づくカテゴリ形成には十分対応していない。
提案モデルは,マルチモーダル感覚運動情報を用いてカテゴリー形成を行い,エージェント間の単語列の交換を通じて記号的コミュニケーションを実現することで,組合せ性を持つ語彙知識の出現を促進する。
さらに、モデルにより、エージェントは各モードのカテゴリに関連付けられた単語を組み合わせて、観測されていない状況に対する感覚運動情報を予測することができる。
シミュレーション環境で2台のヒューマノイドロボットを用いて実験を行い,提案モデルの評価を行った。
その結果,メトロポリス・ハスティングズ命名ゲームとクロスシチュエーション学習に基づく対人クロスシチュエーション学習により,組合せ性を持つ語彙知識を得ることができることがわかった。
さらに,本モデルを用いて開発した語彙知識は,対人的相互モーダル推論による新たな状況に対する一般化性能を示すことを示す。 We present a computational model for a symbol emergence system that enables the emergence of lexical knowledge with combinatoriality among agents through a Metropolis-Hastings naming game and cross-situational learning. Many computational models have been proposed to investigate combinatoriality in emergent communication and symbol emergence in cognitive and developmental robotics. However, existing models do not sufficiently address category formation based on sensory-motor information and semiotic communication through the exchange of word sequences within a single integrated model. Our proposed model facilitates the emergence of lexical knowledge with combinatoriality by performing category formation using multimodal sensory-motor information and enabling semiotic communication through the exchange of word sequences among agents in a unified model. Furthermore, the model enables an agent to predict sensory-motor information for unobserved situations by combining words associated with categories in each modality. We conducted two experiments with two humanoid robots in a simulated environment to evaluate our proposed model. The results demonstrated that the agents can acquire lexical knowledge with combinatoriality through interpersonal cross-situational learning based on the Metropolis-Hastings naming game and cross-situational learning. Furthermore, our results indicate that the lexical knowledge developed using our proposed model exhibits generalization performance for novel situations through interpersonal cross-modal inference. | 翻訳日:2023-06-29 16:27:43 公開日:2023-06-27 |
# 非ラベルリモートセンシング画像のスペクトル空間特徴からの表現学習のための汎用自己教師学習(SSL)フレームワーク A generic self-supervised learning (SSL) framework for representation learning from spectra-spatial feature of unlabeled remote sensing imagery ( http://arxiv.org/abs/2306.15836v1 ) ライセンス: Link先を確認 | Xin Zhang, Liangxiu Han | (参考訳) リモートセンシングデータは、土地利用やカバー分類、天気予報、農業管理、環境モニタリングなど、様々な地球観測(EO)ミッションに広く利用されている。
既存のリモートセンシングデータベースモデルは、モデルトレーニングのために大規模かつ代表的な人間ラベルデータを必要とする教師付き学習に基づいている。
近年,ssl (self-supervised learning) により,より桁違いなデータから表現を学習できるようになった。
この表現は下流タスクの性能を高め、リモートセンシングアプリケーションの可能性があることが証明されている。
sslの成功は、事前設計されたプリテキストタスクに大きく依存しており、大量のラベルのないデータからモデルに帰納的バイアスを導入する。
リモートセンシング画像は、標準のRGB色空間を超えるスペクトル情報が豊富にあるため、RGB画像に基づくコンピュータビジョンで確立されたプリテキストタスクは、マルチ・ハイパースペクトル領域に拡張することは容易ではない。
この課題に対処するため、この研究は、未ラベルデータのスペクトル空間情報の両方から表現を学習できる新しいSSLフレームワークを設計した。
このフレームワークには、オブジェクトベースとピクセルベースのリモートセンシングデータ分析のための2つの新しいプリテキストタスクが含まれている。
2つの典型的な下流タスク評価(Sentienl-2マルチスペクトルデータセットのマルチラベル土地被覆分類タスクとハイパースペクトルデータセットの地上土壌パラメータ検索タスク)を通じて、提案したSSLによる表現がモデル性能を大幅に向上したことを示す。 Remote sensing data has been widely used for various Earth Observation (EO) missions such as land use and cover classification, weather forecasting, agricultural management, and environmental monitoring. Most existing remote sensing data-based models are based on supervised learning that requires large and representative human-labelled data for model training, which is costly and time-consuming. Recently, self-supervised learning (SSL) enables the models to learn a representation from orders of magnitude more unlabelled data. This representation has been proven to boost the performance of downstream tasks and has potential for remote sensing applications. The success of SSL is heavily dependent on a pre-designed pretext task, which introduces an inductive bias into the model from a large amount of unlabelled data. Since remote sensing imagery has rich spectral information beyond the standard RGB colour space, the pretext tasks established in computer vision based on RGB images may not be straightforward to be extended to the multi/hyperspectral domain. To address this challenge, this work has designed a novel SSL framework that is capable of learning representation from both spectra-spatial information of unlabelled data. The framework contains two novel pretext tasks for object-based and pixel-based remote sensing data analysis methods, respectively. Through two typical downstream tasks evaluation (a multi-label land cover classification task on Sentienl-2 multispectral datasets and a ground soil parameter retrieval task on hyperspectral datasets), the results demonstrate that the representation obtained through the proposed SSL achieved a significant improvement in model performance. | 翻訳日:2023-06-29 16:27:20 公開日:2023-06-27 |
# 多次元および経路依存データ構造のための非パラメトリックオンラインマーケットレジーム検出とレジームクラスタリング Non-parametric online market regime detection and regime clustering for multidimensional and path-dependent data structures ( http://arxiv.org/abs/2306.15835v1 ) ライセンス: Link先を確認 | Zacharia Issa, Blanka Horvath | (参考訳) 本稿では,粗いパスシグネチャを特徴マップとして用いたパス空間上の最大平均偏差に基づく類似度メトリクスから導出したパスワイズ2サンプルテストを用いて,多次元データ構造に対する非パラメトリックオンライン市場レジーム検出手法を提案する。
後者の類似度メトリックは、最近の小さなデータ環境のための生成モデルにおいて、識別器として開発され、適用され、より高速な反応性のために、新しいデータのサイズが特に小さい設定に最適化されている。
同じ原理で、我々は以前の作業を拡張したレシエーションクラスタリングのパスワイドな方法も提示する。
提案手法は, 近似的に類似した市場活動の期間を識別できる元市場分析ツールとして設計されたが, 新たな結果は, パスワイド, 高次元, 非マルコフ設定, および自己相関を示すデータ構造にも適用できる。
複雑性の増加を検証し易い合成データセット上でクラスタリングツールを実演し、また、網羅された状態検出技術がオンライン上での高速自動状態変化検出や、完全自動パイプラインを含む異常検出ツールとしてどのように使用できるかを示した。
最後に、高次元の株式バスケットや最近の暗号資産の価格変動を含む実世界の歴史的データに微調整アルゴリズムを適用し、我々の手法が市場混乱の期間を迅速かつ正確に示すことを示す。 In this work we present a non-parametric online market regime detection method for multidimensional data structures using a path-wise two-sample test derived from a maximum mean discrepancy-based similarity metric on path space that uses rough path signatures as a feature map. The latter similarity metric has been developed and applied as a discriminator in recent generative models for small data environments, and has been optimised here to the setting where the size of new incoming data is particularly small, for faster reactivity. On the same principles, we also present a path-wise method for regime clustering which extends our previous work. The presented regime clustering techniques were designed as ex-ante market analysis tools that can identify periods of approximatively similar market activity, but the new results also apply to path-wise, high dimensional-, and to non-Markovian settings as well as to data structures that exhibit autocorrelation. We demonstrate our clustering tools on easily verifiable synthetic datasets of increasing complexity, and also show how the outlined regime detection techniques can be used as fast on-line automatic regime change detectors or as outlier detection tools, including a fully automated pipeline. Finally, we apply the fine-tuned algorithms to real-world historical data including high-dimensional baskets of equities and the recent price evolution of crypto assets, and we show that our methodology swiftly and accurately indicated historical periods of market turmoil. | 翻訳日:2023-06-29 16:26:52 公開日:2023-06-27 |
# スコアベース拡散モデルにおける色変化の回避 Easing Color Shifts in Score-Based Diffusion Models ( http://arxiv.org/abs/2306.15832v1 ) ライセンス: Link先を確認 | Katherine Deck and Tobias Bischoff | (参考訳) スコアベースのモデルの生成された画像は、その空間的手段、すなわち色シフトと呼ばれる効果の誤りに苦しむ可能性がある。
本稿では,スコアベース拡散モデルにおける色変化を緩和する計算コストの低い解を提案する。
本稿では、入力の空間平均を処理し、スコア関数の平均を予測するために設計された、単純な非線形バイパス接続を提案する。
このネットワークアーキテクチャは、生成された画像の空間的手段を実質的に改善し、その改善が生成された画像のサイズとほぼ無関係であることを示す。
その結果,画像サイズにまたがるカラーシフト問題に対して,比較的安価なソリューションが提供される。
最後に,カラーシフトの起源を理想化された環境で議論し,アプローチの動機付けを行う。 Generated images of score-based models can suffer from errors in their spatial means, an effect, referred to as a color shift, which grows for larger images. This paper introduces a computationally inexpensive solution to mitigate color shifts in score-based diffusion models. We propose a simple nonlinear bypass connection in the score network, designed to process the spatial mean of the input and to predict the mean of the score function. This network architecture substantially improves the resulting spatial means of the generated images, and we show that the improvement is approximately independent of the size of the generated images. As a result, our solution offers a comparatively inexpensive solution for the color shift problem across image sizes. Lastly, we discuss the origin of color shifts in an idealized setting in order to motivate our approach. | 翻訳日:2023-06-29 16:26:26 公開日:2023-06-27 |
# MAT:ファインチューニングにおける対戦訓練の混合戦略ゲーム MAT: Mixed-Strategy Game of Adversarial Training in Fine-tuning ( http://arxiv.org/abs/2306.15826v1 ) ライセンス: Link先を確認 | Zhehua Zhong, Tianyi Chen, Zhen Wang | (参考訳) 様々な自然言語処理 (NLP) タスクに対して, 微調整による大規模事前学習言語モデルの有効性が実証されている。
従来の研究では、微調整段階の逆行訓練を取り入れることで、モデルの一般化と堅牢性を大幅に向上させることができることが確認されている。
しかし、ゲーム理論の見地からすると、このような敵対的訓練の活用は、戦略の範囲内で本質的に制限された純粋戦略ゲームに相当するため、改善の余地がある。
性能境界を推し進めるため、我々は新しいMixed-Strategy Adversarial Training Algorithm (MAT)を提案する。
提案手法は,エントロピーミラーDescent を用いた対戦訓練用混合ストラテジーゲームのナッシュ平衡を導出し,サンプリング法により MAT を確立する。
MATの有効性を検証するため,BERTやRoBERTaといった大規模事前学習モデルのベンチマーク実験を行った。
MAT は、GLUE と ANLI のベンチマークにおいて、一般化と堅牢性の観点から、最先端の手法よりも大幅に優れている。 Fine-tuning large-scale pre-trained language models has been demonstrated effective for various natural language processing (NLP) tasks. Previous studies have established that incorporating adversarial training during the fine-tuning stage can significantly enhance model generalization and robustness. However, from the perspective of game theory, such utilizations of adversarial training correspond to pure-strategy games, which are inherently limited in terms of the scope of their strategies, thereby still having room for improvement. In order to push the performance boundaries, we propose a novel Mixed-strategy Adversarial Training algorithm (MAT). Methodologically, we derive the Nash equilibrium of a mixed-strategy game for adversarial training using Entropy Mirror Descent to establish MAT by sampling method. To verify the effectiveness of MAT, we conducted extensive benchmark experiments on large-scale pre-trained models, such as BERT and RoBERTa. MAT significantly outperforms the state-of-the-art methods on both the GLUE and ANLI benchmarks in terms of generalization and robustness. | 翻訳日:2023-06-29 16:26:03 公開日:2023-06-27 |
# 信頼に基づくエンドツーエンド音声認識モデルのアンサンブル Confidence-based Ensembles of End-to-End Speech Recognition Models ( http://arxiv.org/abs/2306.15824v1 ) ライセンス: Link先を確認 | Igor Gitman, Vitaly Lavrukhin, Aleksandr Laptev, Boris Ginsburg | (参考訳) エンドツーエンド音声認識モデルの数は毎年増えている。
これらのモデルは、しばしば新しいドメインや言語に適応し、その結果、ターゲットデータに対して大きな結果をもたらす専門家システムが急増する一方、一般的には専門分野以外では劣ったパフォーマンスを示す。
信頼度に基づくアンサンブル:最も信頼度の高いモデルの出力のみを使用するモデルのアンサンブル。
モデルのターゲットデータは、小さな検証セットを除いては利用できないと仮定する。
提案手法の有効性を2つの応用例で示す。
まず、5つの単言語モデルの信頼に基づくアンサンブルが、専用言語識別ブロックを介してモデル選択を行うシステムより優れていることを示す。
第2に、ベースモデルと適応モデルを組み合わせることで、オリジナルデータとターゲットデータの両方で強力な結果が得られることを示す。
結果を複数のデータセットとモデルアーキテクチャで検証します。 The number of end-to-end speech recognition models grows every year. These models are often adapted to new domains or languages resulting in a proliferation of expert systems that achieve great results on target data, while generally showing inferior performance outside of their domain of expertise. We explore combination of such experts via confidence-based ensembles: ensembles of models where only the output of the most-confident model is used. We assume that models' target data is not available except for a small validation set. We demonstrate effectiveness of our approach with two applications. First, we show that a confidence-based ensemble of 5 monolingual models outperforms a system where model selection is performed via a dedicated language identification block. Second, we demonstrate that it is possible to combine base and adapted models to achieve strong results on both original and target data. We validate all our results on multiple datasets and model architectures. | 翻訳日:2023-06-29 16:25:33 公開日:2023-06-27 |
# 相同性脳構造の正規非対称性表現の学習 Learning normal asymmetry representations for homologous brain structures ( http://arxiv.org/abs/2306.15811v1 ) ライセンス: Link先を確認 | Duilio Deangeli, Emmanuel Iarussi, Juan Pablo Princich, Mariana Bendersky, Ignacio Larrabide, Jos\'e Ignacio Orlando | (参考訳) 正常な相同性脳構造は定義上ほぼ対称であるが、例えば自然老化による形状の違いもある。
一方、神経変性条件は、この非対称性に独自の変化を誘発し、より発音され、あるいは位置を変化させる。
病的悪化による変化の特定は依然として困難である。
現在の臨床ツールは主観的評価、基本音量測定、疾患特異的ディープラーニングモデルのいずれかに依存している。
本稿では,異常検出と表現学習に基づく相同脳構造の正規非対称性パターンを学習する新しい手法を提案する。
本フレームワークは,脳構造物の左右半球側の3次元セグメンテーションを,支持ベクトルデータ記述目的を用いて学習した通常の非対称性埋め込み空間にマッピングするために,シームズアーキテクチャを用いている。
健全なサンプルのみを使用してトレーニングすることで、埋め込みから学習された正規空間の中心までの距離を計測することで、見当たらないサンプルにおける正規非対称性パターンからの偏差を定量化することができる。
本手法は, アルツハイマー病や海馬硬化症による病態変化を正確に把握し, 正常な非対称性を正確に評価できることを, 公立および社内で実証した。
ソースコードはhttps://github.com/duiliod/deepnorha.comから入手できます。 Although normal homologous brain structures are approximately symmetrical by definition, they also have shape differences due to e.g. natural ageing. On the other hand, neurodegenerative conditions induce their own changes in this asymmetry, making them more pronounced or altering their location. Identifying when these alterations are due to a pathological deterioration is still challenging. Current clinical tools rely either on subjective evaluations, basic volume measurements or disease-specific deep learning models. This paper introduces a novel method to learn normal asymmetry patterns in homologous brain structures based on anomaly detection and representation learning. Our framework uses a Siamese architecture to map 3D segmentations of left and right hemispherical sides of a brain structure to a normal asymmetry embedding space, learned using a support vector data description objective. Being trained using healthy samples only, it can quantify deviations-from-normal-asymmetry patterns in unseen samples by measuring the distance of their embeddings to the center of the learned normal space. We demonstrate in public and in-house sets that our method can accurately characterize normal asymmetries and detect pathological alterations due to Alzheimer's disease and hippocampal sclerosis, even though no diseased cases were accessed for training. Our source code is available at https://github.com/duiliod/DeepNORHA. | 翻訳日:2023-06-29 16:25:00 公開日:2023-06-27 |
# G\"odel-Dummett線形時間論理 G\"odel-Dummett linear temporal logic ( http://arxiv.org/abs/2306.15805v1 ) ライセンス: Link先を確認 | Juan Pablo Aguilera and Mart\'in Di\'eguez and David Fern\'andez-Duque and Brett McLean | (参考訳) 命題断片がg\"odel-dummett logic(超直観論理とt-ノルムファジィ論理の両方として知られている)である線形時相論理のバージョンについて検討する。
まず、実数値意味論(real-valued semantics)で、文は実単位区間で真理の程度を持ち、次に「双関係」意味論(bi-relational semantics)である。
次に、これらの2つの意味論が1つと同一の論理を実際に定義していることを示し、実数値意味論に有効な文は、両関係意味論に有効なものと同じである。
この g\"odel temporal logic は、これらの二つの意味論に対する有限モデルの性質のいかなる形も持たない。
しかし、準モデルの技術的な概念を用いることで、すべての偽造可能なステートメントが有限準モデル上で偽造可能であることを示し、あるステートメントが有効であるかどうかを判断するアルゴリズムを与える。
後に、この決定性は、多項式量のメモリのみを使用するアルゴリズムを提供することで強化され、G\"odel temporal logic is PSPACE-completeであることを示す。
また、G\ "odel temporal logic" のための導出的計算を提供し、この計算を上記の意味論に対して健全かつ完備であることを示す。 We investigate a version of linear temporal logic whose propositional fragment is G\"odel-Dummett logic (which is well known both as a superintuitionistic logic and a t-norm fuzzy logic). We define the logic using two natural semantics: first a real-valued semantics, where statements have a degree of truth in the real unit interval and second a `bi-relational' semantics. We then show that these two semantics indeed define one and the same logic: the statements that are valid for the real-valued semantics are the same as those that are valid for the bi-relational semantics. This G\"odel temporal logic does not have any form of the finite model property for these two semantics: there are non-valid statements that can only be falsified on an infinite model. However, by using the technical notion of a quasimodel, we show that every falsifiable statement is falsifiable on a finite quasimodel, yielding an algorithm for deciding if a statement is valid or not. Later, we strengthen this decidability result by giving an algorithm that uses only a polynomial amount of memory, proving that G\"odel temporal logic is PSPACE-complete. We also provide a deductive calculus for G\"odel temporal logic, and show this calculus to be sound and complete for the above-mentioned semantics, so that all (and only) the valid statements can be proved with this calculus. | 翻訳日:2023-06-29 16:24:24 公開日:2023-06-27 |
# 科学チームにおける異質な共有リーダーシップの影響 The Impact of Heterogeneous Shared Leadership in Scientific Teams ( http://arxiv.org/abs/2306.15804v1 ) ライセンス: Link先を確認 | Huimin Xu, Meijun Liu, Yi Bu, Shujing Sun, Yi Zhang, Chenwei Zhang, Daniel E. Acuna, Steven Gray, Eric Meyer, Ying Ding | (参考訳) リーダーシップは個々の努力から共通の努力へと動的に進化しています。
本稿では,科学チームにおける共有リーダーシップの理解を深める。
キャリア年齢に基づいて,ジュニア(10~15),中(15~20),シニア(20+)の3種類のリーダを定義した。
2つのリーダーの組み合わせを考慮することで、リーダーが異なる年齢のコホートである場合、リーダーが同じ年齢のコホートである場合、共通のリーダシップを異種と区別します。
1,845,351cs,254,039の社会学,openalexデータセットに2人のリーダを持つ193,338のビジネスチームについて,異種共有リーダシップは,均質な共有リーダシップよりもチームに対して高い引用効果をもたらしている,と結論付けた。
具体的には、ジュニアリーダーがシニアリーダーとペアになっていれば、同じ年齢の2人のリーダーと比較して、チームの引用順位が1~2%大幅に向上する。
私たちは、チームの規模、専門知識の構成、知識の正確さの観点から、均質なリーダーと異質なリーダーの間のパターンを調べます。
均質なリーダーと比較して、異質なリーダーは大きなチームに適応しやすく、より多様な専門知識を持ち、最新のものと最も古い参照の両方をトレースする。 Leadership is evolving dynamically from an individual endeavor to shared efforts. This paper aims to advance our understanding of shared leadership in scientific teams. We define three kinds of leaders, junior (10-15), mid (15-20), and senior (20+) based on career age. By considering the combinations of any two leaders, we distinguish shared leadership as heterogeneous when leaders are in different age cohorts and homogeneous when leaders are in the same age cohort. Drawing on 1,845,351 CS, 254,039 Sociology, and 193,338 Business teams with two leaders in the OpenAlex dataset, we identify that heterogeneous shared leadership brings higher citation impact for teams than homogeneous shared leadership. Specifically, when junior leaders are paired with senior leaders, it significantly increases team citation ranking by 1-2%, in comparison with two leaders of similar age. We explore the patterns between homogeneous leaders and heterogeneous leaders from team scale, expertise composition, and knowledge recency perspectives. Compared with homogeneous leaders, heterogeneous leaders are more adaptive in large teams, have more diverse expertise, and trace both the newest and oldest references. | 翻訳日:2023-06-29 16:23:58 公開日:2023-06-27 |
# 部分特定入力による論理的説明可能性について On Logic-Based Explainability with Partially Specified Inputs ( http://arxiv.org/abs/2306.15803v1 ) ライセンス: Link先を確認 | Ram\'on B\'ejar and Ant\'onio Morgado and Jordi Planes and Joao Marques-Silva | (参考訳) 機械学習(ML)モデルの実践的な展開では、欠落したデータが繰り返し発生する課題である。
MLモデルのトレーニングでは、データの欠落がしばしば対処される。
しかし、データ欠落は予測を決定するときやそれらの予測を説明するときにも対処する必要がある。
ミスデータは、説明すべき予測の入力を部分的に特定する機会である。
本稿では,論理に基づく説明を部分指定入力の存在下での計算について検討する。
本論文は,近年提案された論理に基づく説明のアルゴリズムのほとんどが,部分指定された入力を考慮すれば,説明の計算に一般化できることを示す。
関連する1つの結果は、論理に基づく説明の複雑さが変わらないことである。
同様の結果は、入力制約を受ける論理に基づく説明可能性の場合に証明される。
さらに、有名な公開データセットから得られた分類器に対して、部分的に指定された入力が与えられた説明を計算するためのソリューションを適用し、新しい説明可能性のユースケースを多数提示する。 In the practical deployment of machine learning (ML) models, missing data represents a recurring challenge. Missing data is often addressed when training ML models. But missing data also needs to be addressed when deciding predictions and when explaining those predictions. Missing data represents an opportunity to partially specify the inputs of the prediction to be explained. This paper studies the computation of logic-based explanations in the presence of partially specified inputs. The paper shows that most of the algorithms proposed in recent years for computing logic-based explanations can be generalized for computing explanations given the partially specified inputs. One related result is that the complexity of computing logic-based explanations remains unchanged. A similar result is proved in the case of logic-based explainability subject to input constraints. Furthermore, the proposed solution for computing explanations given partially specified inputs is applied to classifiers obtained from well-known public datasets, thereby illustrating a number of novel explainability use cases. | 翻訳日:2023-06-29 16:23:34 公開日:2023-06-27 |
# インド大統領選挙中の政治的ヘイトスピーチ: 新たな低リソースデータセットとベースライン Uncovering Political Hate Speech During Indian Election Campaign: A New Low-Resource Dataset and Baselines ( http://arxiv.org/abs/2306.14764v2 ) ライセンス: Link先を確認 | Farhan Ahmad Jafri, Mohammad Aman Siddiqui, Surendrabikram Thapa, Kritesh Rauniyar, Usman Naseem, Imran Razzak | (参考訳) 政治的談話におけるヘイトスピーチの検出は重要な問題であり、低リソース言語ではさらに困難になる。
この問題に対処するために,2021年11月1日から2022年3月9日までのインド議会選挙キャンペーンに関連するヒンディー語ツイート11,457件を含むiehateという新しいデータセットを紹介する。
本研究では,政治コミュニケーションにおけるヘイトスピーチの頻度と,使用するヘイトフル言語の種類に着目し,データセットの詳細な分析を行った。
さらに,機械学習,ディープラーニング,トランスフォーマーベースのアルゴリズムを用いて,データセットのベンチマークを行う。
実験の結果,これらのモデルの性能はさらに向上し,低リソース言語におけるヘイトスピーチ検出のためのより高度な技術の必要性を浮き彫りにした。
特に、アルゴリズムに対する人間評価の相対的に高いスコアは、効果的なヘイトスピーチモデレーションのために人間と自動化の両方のアプローチを活用することの重要性を強調している。
私たちのiehateデータセットは、低リソース言語におけるヘイトスピーチ検出技術の開発と評価に取り組んでいる研究者や実践者にとって貴重なリソースとなり得る。
我々の研究は、政治談話におけるヘイトスピーチの特定と緩和の課題、特に低リソース言語における課題に対処することの重要性を強調している。
この作業のデータセットとリソースはhttps://github.com/Farhan-jafri/Indian-Election.comで公開されている。 The detection of hate speech in political discourse is a critical issue, and this becomes even more challenging in low-resource languages. To address this issue, we introduce a new dataset named IEHate, which contains 11,457 manually annotated Hindi tweets related to the Indian Assembly Election Campaign from November 1, 2021, to March 9, 2022. We performed a detailed analysis of the dataset, focusing on the prevalence of hate speech in political communication and the different forms of hateful language used. Additionally, we benchmark the dataset using a range of machine learning, deep learning, and transformer-based algorithms. Our experiments reveal that the performance of these models can be further improved, highlighting the need for more advanced techniques for hate speech detection in low-resource languages. In particular, the relatively higher score of human evaluation over algorithms emphasizes the importance of utilizing both human and automated approaches for effective hate speech moderation. Our IEHate dataset can serve as a valuable resource for researchers and practitioners working on developing and evaluating hate speech detection techniques in low-resource languages. Overall, our work underscores the importance of addressing the challenges of identifying and mitigating hate speech in political discourse, particularly in the context of low-resource languages. The dataset and resources for this work are made available at https://github.com/Farhan-jafri/Indian-Election. | 翻訳日:2023-06-29 11:21:40 公開日:2023-06-27 |
# ニューロシンボリック逆計画エンジン(nipe) : 言語入力からの確率的社会推論のモデル化 The Neuro-Symbolic Inverse Planning Engine (NIPE): Modeling Probabilistic Social Inferences from Linguistic Inputs ( http://arxiv.org/abs/2306.14325v2 ) ライセンス: Link先を確認 | Lance Ying, Katherine M. Collins, Megan Wei, Cedegao E. Zhang, Tan Zhi-Xuan, Adrian Weller, Joshua B. Tenenbaum, Lionel Wong | (参考訳) 人間は社会的な生き物だ。
私たちは定期的に他のエージェントについて推論し、この社会的推論の重要な要素は、人々の行動について学ぶときに人々の目標を推測することである。
多くの設定で、エージェント、アクション、バックグラウンド環境の言語記述から直感的で信頼性の高いゴール推論を実行できます。
本稿では,確率的目標推論領域における言語駆動過程と社会的推論に影響を与える過程について検討する。
本稿では,エージェントシナリオの言語入力から目標推定を行うニューロシンボリックモデルを提案する。
ニューロ」部分は言語記述をコード表現に変換する大言語モデル(llm)であり、「シンボル」部分はベイズ逆計画エンジンである。
モデルをテストするために、私たちは言語目標推論タスクで人間実験を設計、実行します。
我々のモデルは人間の反応パターンと密に一致し、LLM単独の使用よりも人間の判断をより良く予測する。 Human beings are social creatures. We routinely reason about other agents, and a crucial component of this social reasoning is inferring people's goals as we learn about their actions. In many settings, we can perform intuitive but reliable goal inference from language descriptions of agents, actions, and the background environments. In this paper, we study this process of language driving and influencing social reasoning in a probabilistic goal inference domain. We propose a neuro-symbolic model that carries out goal inference from linguistic inputs of agent scenarios. The "neuro" part is a large language model (LLM) that translates language descriptions to code representations, and the "symbolic" part is a Bayesian inverse planning engine. To test our model, we design and run a human experiment on a linguistic goal inference task. Our model closely matches human response patterns and better predicts human judgements than using an LLM alone. | 翻訳日:2023-06-29 11:20:15 公開日:2023-06-27 |
# twitterデータのスタンス予測と分析 : ガーナ2020年大統領選挙を事例として Stance Prediction and Analysis of Twitter data : A case study of Ghana 2020 Presidential Elections ( http://arxiv.org/abs/2306.14203v2 ) ライセンス: Link先を確認 | Shester Gueuwou and Rose-Mary Owusuaa Mensah Gyening | (参考訳) 2020年12月7日、ガーナ人は次の4年間、大統領を選出する投票に参加した。
この大統領選挙で得られた洞察を得るために、我々はスタンス分析(感情分析と必ずしも同等ではない)を行い、人気のあるソーシャルメディアプラットフォームであるTwitterが、この2つの主要大統領候補に関するユーザーの意見をどう反映しているかを理解した。
Twitter API(Tweepy)を使って合計99,356のツイートを収集し、手動で3,090のツイートを3つのクラスに分類した。
その後、ツイートの事前処理を行いました。
得られたデータセットは、vaderとtextblobの2つのレキシコンベースのアプローチと、サポートベクターマシン(svm)、ロジスティック回帰(lr)、多項na\"ive bayes(mnb)、確率勾配降下(sgd)、ランダムフォレスト(rf)の5つの教師付き機械学習ベースのアプローチを用いて、精度、精度、リコール、f1-scoreなどの指標に基づいて評価された。
最高性能は71.13%の精度でロジスティック回帰によって達成された。
抽出された全てのツイートをロジスティック回帰を用いて分類し,結果の分析と考察を行った。
データとコードにアクセスするには、https://github.com/shesterg/stance-detection-ghana-2020-elections.gitをご覧ください。 On December 7, 2020, Ghanaians participated in the polls to determine their president for the next four years. To gain insights from this presidential election, we conducted stance analysis (which is not always equivalent to sentiment analysis) to understand how Twitter, a popular social media platform, reflected the opinions of its users regarding the two main presidential candidates. We collected a total of 99,356 tweets using the Twitter API (Tweepy) and manually annotated 3,090 tweets into three classes: Against, Neutral, and Support. We then performed preprocessing on the tweets. The resulting dataset was evaluated using two lexicon-based approaches, VADER and TextBlob, as well as five supervised machine learning-based approaches: Support Vector Machine (SVM), Logistic Regression (LR), Multinomial Na\"ive Bayes (MNB), Stochastic Gradient Descent (SGD), and Random Forest (RF), based on metrics such as accuracy, precision, recall, and F1-score. The best performance was achieved by Logistic Regression with an accuracy of 71.13%. We utilized Logistic Regression to classify all the extracted tweets and subsequently conducted an analysis and discussion of the results. For access to our data and code, please visit: https://github.com/ShesterG/Stance-Detection-Ghana-2020-Elections.git | 翻訳日:2023-06-29 11:20:00 公開日:2023-06-27 |
# モーメントを用いた確率的近位点アルゴリズムの収束と安定性 Convergence and Stability of the Stochastic Proximal Point Algorithm with Momentum ( http://arxiv.org/abs/2111.06171v5 ) ライセンス: Link先を確認 | Junhyung Lyle Kim, Panos Toulis, Anastasios Kyrillidis | (参考訳) 運動量による確率勾配降下(SGDM)は、凸最適化インスタンスや非凸ニューラルネットワークトレーニングを含む多くの最適化シナリオにおいて支配的なアルゴリズムである。
しかし、確率的な設定では、運動量は勾配ノイズに干渉し、しばしば収束を保証するために特定のステップサイズと運動量選択に繋がる。
一方, 近位点法では, 不完全調律に対する数値的安定性と弾力性が注目されている。
モーメントが(確率的な)近位点法の安定性とどのように相互作用するかはほとんど研究されていない。
そこで我々は,運動量を伴う確率的近位点アルゴリズム(SPPAM)の収束と安定性に着目し,SPPAMは,適切なハイパーパラメータチューニングの下で,より優れた縮退係数を持つ確率的近位点アルゴリズム(SPPA)と比較して,近傍へのより高速な線形収束を可能にすることを示す。
安定性の観点からは、SPPAMはSGDMよりも問題定数に依存しており、より広いステップサイズと運動量で収束することを示す。 Stochastic gradient descent with momentum (SGDM) is the dominant algorithm in many optimization scenarios, including convex optimization instances and non-convex neural network training. Yet, in the stochastic setting, momentum interferes with gradient noise, often leading to specific step size and momentum choices in order to guarantee convergence, set aside acceleration. Proximal point methods, on the other hand, have gained much attention due to their numerical stability and elasticity against imperfect tuning. Their stochastic accelerated variants though have received limited attention: how momentum interacts with the stability of (stochastic) proximal point methods remains largely unstudied. To address this, we focus on the convergence and stability of the stochastic proximal point algorithm with momentum (SPPAM), and show that SPPAM allows a faster linear convergence to a neighborhood compared to the stochastic proximal point algorithm (SPPA) with a better contraction factor, under proper hyperparameter tuning. In terms of stability, we show that SPPAM depends on problem constants more favorably than SGDM, allowing a wider range of step size and momentum that lead to convergence. | 翻訳日:2023-06-28 18:27:02 公開日:2023-06-27 |
# 翻訳にコンテキストはいつ必要か?
データ駆動多言語探索 When Does Translation Require Context? A Data-driven, Multilingual Exploration ( http://arxiv.org/abs/2109.07446v2 ) ライセンス: Link先を確認 | Patrick Fernandes, Kayo Yin, Emmy Liu, Andr\'e F. T. Martins, Graham Neubig | (参考訳) 談話の適切な処理は機械翻訳の品質(MT)に大きく貢献するが、これらの改善は共通の翻訳品質指標では適切に測定されない。
文脈認識mtにおける最近の研究は、完全に体系的ではないが、評価中に少数の談話現象を対象とする試みである。
本稿では,任意のデータセットにおける談話現象のモデル性能を識別し,評価するタグである,多言語談話認識(MuDA)ベンチマークを開発する。
現象の選択は、文脈を必要とする翻訳を体系的に識別する新しい方法論に触発されている。
従来研究されてきた現象の難しさを確認しつつ,未対応の他の現象を解明する。
一般的な文脈認識型MTモデルは文脈に依存しないモデルよりも限界的な改善しか行わず、これらのモデルがこれらの曖昧さを効果的に扱わないことを示唆している。
14言語対のコードとデータを公開し、MTコミュニティが談話現象を正確に捉えることに集中できるようにします。 Although proper handling of discourse significantly contributes to the quality of machine translation (MT), these improvements are not adequately measured in common translation quality metrics. Recent works in context-aware MT attempt to target a small set of discourse phenomena during evaluation, however not in a fully systematic way. In this paper, we develop the Multilingual Discourse-Aware (MuDA) benchmark, a series of taggers that identify and evaluate model performance on discourse phenomena in any given dataset. The choice of phenomena is inspired by a novel methodology to systematically identify translations requiring context. We confirm the difficulty of previously studied phenomena while uncovering others that were previously unaddressed. We find that common context-aware MT models make only marginal improvements over context-agnostic models, which suggests these models do not handle these ambiguities effectively. We release code and data for 14 language pairs to encourage the MT community to focus on accurately capturing discourse phenomena. | 翻訳日:2023-06-28 18:26:20 公開日:2023-06-27 |
# 変分量子時間進化のための誤差境界 Error Bounds for Variational Quantum Time Evolution ( http://arxiv.org/abs/2108.00022v2 ) ライセンス: Link先を確認 | Christa Zoufal, David Sutter, Stefan Woerner | (参考訳) 変分量子時間発展は、短期的互換性のある量子回路を持つ量子システムの時間ダイナミクスをシミュレートする。
この手法の変動特性のため、シミュレーションの精度は未定である。
我々は,既存の誤差境界に対する忠実度推定の厳密性を改善するために,変分量子時間進化を伴う状態シミュレーション精度のグローバル位相非依存誤差境界を導出する。
これらの解析ツールは,シミュレーションの質を評価し,シミュレーションハイパーパラメータに関する情報選択を行う上で極めて重要である。
効率良く、境界の後方評価は変動時間シミュレーションと密に統合することができ、従ってシステムのエネルギー分散によって制御されるリソースオーバーヘッドが小さくなる。
数値的な例では,新しい誤差境界の性能を示す。 Variational quantum time evolution allows us to simulate the time dynamics of quantum systems with near-term compatible quantum circuits. Due to the variational nature of this method the accuracy of the simulation is a priori unknown. We derive global phase agnostic error bounds for the state simulation accuracy with variational quantum time evolution that improve the tightness of fidelity estimates over existing error bounds. These analysis tools are practically crucial for assessing the quality of the simulation and making informed choices about simulation hyper-parameters. The efficient, a posteriori evaluation of the bounds can be tightly integrated with the variational time simulation and, hence, results in a minor resource overhead which is governed by the system's energy variance. The performance of the novel error bounds is demonstrated on numerical examples. | 翻訳日:2023-06-28 18:26:03 公開日:2023-06-27 |
# fedpower: プライバシ保護型分散固有空間推定 FedPower: Privacy-Preserving Distributed Eigenspace Estimation ( http://arxiv.org/abs/2103.00704v2 ) ライセンス: Link先を確認 | Xiao Guo and Xiang Li and Xiangyu Chang and Shusen Wang and Zhihua Zhang | (参考訳) 固有空間推定は機械学習や統計学において基本的なものであり、PCA、次元縮小、クラスタリングなどに応用されている。
現代の機械学習コミュニティは通常、データがさまざまな組織から生まれ、属していると仮定する。
通信能力の低さとデータのプライバシー侵害の可能性から、固有空間の計算は困難である。
これらの課題に対処するために,フェデレートラーニング(FL)フレームワーク内に,‘textsf{FedPower}’と呼ばれるアルゴリズムのクラスを提案する。
複数のローカルパワーイテレーションとグローバルアグリゲーションステップを交互に行い、通信効率を向上させることで、よく知られたパワーメソッドを活用する。
そこで本研究では,各固有ベクトル行列をOPT(Orthogonal Procrustes Transformation)で重み付けし,アライメントを改善することを提案する。
強力なプライバシー保護を確保するため、各イテレーションに \emph{differential privacy} (dp) の概念を採用してガウスノイズを追加する。
ガウスノイズ, 並列化, ローカルマシンのランダムサンプリングの効果に対応する, 異なる解釈可能な項からなる, textsf{FedPower} に対する収束境界を提供する。
さらに,提案アルゴリズムの有効性を示す実験を行った。 Eigenspace estimation is fundamental in machine learning and statistics, which has found applications in PCA, dimension reduction, and clustering, among others. The modern machine learning community usually assumes that data come from and belong to different organizations. The low communication power and the possible privacy breaches of data make the computation of eigenspace challenging. To address these challenges, we propose a class of algorithms called \textsf{FedPower} within the federated learning (FL) framework. \textsf{FedPower} leverages the well-known power method by alternating multiple local power iterations and a global aggregation step, thus improving communication efficiency. In the aggregation, we propose to weight each local eigenvector matrix with {\it Orthogonal Procrustes Transformation} (OPT) for better alignment. To ensure strong privacy protection, we add Gaussian noise in each iteration by adopting the notion of \emph{differential privacy} (DP). We provide convergence bounds for \textsf{FedPower} that are composed of different interpretable terms corresponding to the effects of Gaussian noise, parallelization, and random sampling of local machines. Additionally, we conduct experiments to demonstrate the effectiveness of our proposed algorithms. | 翻訳日:2023-06-28 18:25:27 公開日:2023-06-27 |
# インストゥルメンタル変数回帰における深い特徴の学習 Learning Deep Features in Instrumental Variable Regression ( http://arxiv.org/abs/2010.07154v4 ) ライセンス: Link先を確認 | Liyuan Xu, Yutian Chen, Siddarth Srinivasan, Nando de Freitas, Arnaud Doucet, Arthur Gretton | (参考訳) 計器変数(IV)回帰は、計器変数を利用した観測データから、整合処理と結果変数の因果関係を学習するための標準戦略である。
古典IVレグレッションでは、学習は2段階に進み、ステージ1は機器から治療への線形回帰を行い、ステージ2は機器に条件付きで処理から結果への線形回帰を行う。
本稿では, 楽器, 治療, 結果の関係が非線形である場合に対処する手法として, DFIV(Deep Feature instrumental variable regression)を提案する。
この場合、ディープ・ニューラルネットは、機器や治療に関する情報的非線形特徴を定義するために訓練される。
本稿では,ステージ1と2を構成する際のエンドツーエンド性能を確保するために,これらの特徴を交互に訓練する手法を提案する。
dfivは、高次元画像データを含む、ivベンチマークに挑戦する最新の最先端手法よりも優れている。
dfivはまた、iv回帰タスクとして理解できる強化学習のためのオフポリシー政策評価における競合性能を示す。 Instrumental variable (IV) regression is a standard strategy for learning causal relationships between confounded treatment and outcome variables from observational data by utilizing an instrumental variable, which affects the outcome only through the treatment. In classical IV regression, learning proceeds in two stages: stage 1 performs linear regression from the instrument to the treatment; and stage 2 performs linear regression from the treatment to the outcome, conditioned on the instrument. We propose a novel method, deep feature instrumental variable regression (DFIV), to address the case where relations between instruments, treatments, and outcomes may be nonlinear. In this case, deep neural nets are trained to define informative nonlinear features on the instruments and treatments. We propose an alternating training regime for these features to ensure good end-to-end performance when composing stages 1 and 2, thus obtaining highly flexible feature maps in a computationally efficient manner. DFIV outperforms recent state-of-the-art methods on challenging IV benchmarks, including settings involving high dimensional image data. DFIV also exhibits competitive performance in off-policy policy evaluation for reinforcement learning, which can be understood as an IV regression task. | 翻訳日:2023-06-28 18:25:03 公開日:2023-06-27 |
# 連続学習を用いたニューラルトピックモデリング Neural Topic Modeling with Continual Lifelong Learning ( http://arxiv.org/abs/2006.10909v2 ) ライセンス: Link先を確認 | Pankaj Gupta and Yatin Chaudhary and Thomas Runkler and Hinrich Sch\"utze | (参考訳) 生涯学習は最近、将来の学習を支援するために知識の蓄積と伝達を継続的に行う機械学習システムの構築に注目を集めている。
教師なしトピックモデリングは、文書コレクションからトピックを発見するのに広く使われている。
しかし、トピックモデリングの応用は、例えば(短い)ドキュメントの小さなコレクションにおいて、データのスパーシティのために困難であり、従って、非一貫性なトピックと副最適ドキュメント表現を生成する。
そこで本研究では,複数の情報源からの知識の伝達により,文書コレクションのストリームを連続的に処理し,トピックを蓄積し,将来的なトピックモデリングタスクを導く神経話題モデリングのための生涯学習フレームワークを提案する。
生涯のプロセスにおいて,(1)生涯にわたって生成的ホモロジー(相対的話題)を共有し,(2)新しい選択的データ拡張,共同学習,話題規則化アプローチによって過去の学習を保ち続けるような破滅的な学習を最小化すること,の2つを共同で研究した。
文書コレクションのストリームを前提として、3つの疎疎な文書コレクションを将来のタスクとしてモデル化し、パープレキシティ、トピックコヒーレンス、情報検索タスクによって定量化されたパフォーマンス向上を示す。 Lifelong learning has recently attracted attention in building machine learning systems that continually accumulate and transfer knowledge to help future learning. Unsupervised topic modeling has been popularly used to discover topics from document collections. However, the application of topic modeling is challenging due to data sparsity, e.g., in a small collection of (short) documents and thus, generate incoherent topics and sub-optimal document representations. To address the problem, we propose a lifelong learning framework for neural topic modeling that can continuously process streams of document collections, accumulate topics and guide future topic modeling tasks by knowledge transfer from several sources to better deal with the sparse data. In the lifelong process, we particularly investigate jointly: (1) sharing generative homologies (latent topics) over lifetime to transfer prior knowledge, and (2) minimizing catastrophic forgetting to retain the past learning via novel selective data augmentation, co-training and topic regularization approaches. Given a stream of document collections, we apply the proposed Lifelong Neural Topic Modeling (LNTM) framework in modeling three sparse document collections as future tasks and demonstrate improved performance quantified by perplexity, topic coherence and information retrieval task. | 翻訳日:2023-06-28 18:24:12 公開日:2023-06-27 |
# 説明可能・談話話題認識ニューラル言語理解 Explainable and Discourse Topic-aware Neural Language Understanding ( http://arxiv.org/abs/2006.10632v3 ) ライセンス: Link先を確認 | Yatin Chaudhary, Hinrich Sch\"utze, Pankaj Gupta | (参考訳) トピックモデルと言語モデルとの結婚は、トピックを介して文章以外の文書レベルのコンテキストのより広いソースに言語理解を公開する。
言語モデルにトピックセマンティクスを導入する一方で、既存のアプローチでは、潜在する文書トピックの比率を取り入れ、文書の文中のトピックの言説を無視する。
この研究は、言語理解における説明可能なトピック表現を導入することで研究の線を延長し、その割合の潜在トピックごとに対応するキーワードの集合から得られる。
さらに、文書中の各文の話題談話をモデル化することにより、文章話題関連と文書話題関連を維持できる。
話題モデルと言語モデルの共同学習フレームワークにおいて,潜在的・説明可能なトピックと文レベルでの話題談話とを併用したニューラルコンポジット言語モデルを提案する。
言語モデル, 単語認識の曖昧さ, 文書分類, 検索, テキスト生成などのタスクに関する実験は, 言語理解を改善するための提案モデルの能力を示している。 Marrying topic models and language models exposes language understanding to a broader source of document-level context beyond sentences via topics. While introducing topical semantics in language models, existing approaches incorporate latent document topic proportions and ignore topical discourse in sentences of the document. This work extends the line of research by additionally introducing an explainable topic representation in language understanding, obtained from a set of key terms correspondingly for each latent topic of the proportion. Moreover, we retain sentence-topic associations along with document-topic association by modeling topical discourse for every sentence in the document. We present a novel neural composite language model that exploits both the latent and explainable topics along with topical discourse at sentence-level in a joint learning framework of topic and language models. Experiments over a range of tasks such as language modeling, word sense disambiguation, document classification, retrieval and text generation demonstrate ability of the proposed model in improving language understanding. | 翻訳日:2023-06-28 18:23:49 公開日:2023-06-27 |
# 圧縮多言語機械翻訳モデルとは何か? What Do Compressed Multilingual Machine Translation Models Forget? ( http://arxiv.org/abs/2205.10828v4 ) ライセンス: Link先を確認 | Alireza Mohammadshahi, Vassilina Nikoulina, Alexandre Berard, Caroline Brun, James Henderson, Laurent Besacier | (参考訳) 近年,自然言語処理(nlp)タスクにおいて,非常に大規模に事前学習されたモデルが最先端の成果を達成している。
圧縮技術は、モデルのサイズを劇的に削減し、その推論時間をトップクラスのメトリクスに無視できない影響を与える。
しかし、複数のタスクや言語で平均される一般的な性能は、表現されていない特徴に劇的な性能低下を隠蔽し、モデルによって符号化されたバイアスの増幅をもたらす可能性がある。
本研究では,様々な言語群,性別,意味バイアスに対する多言語ニューラルマシン翻訳モデル(mnmt)に対する圧縮手法の影響を,異なる機械翻訳ベンチマークにおける圧縮モデルの広範囲な解析,すなわちフロレス-101,mt-gender,dibimtを用いて評価する。
低表現言語のパフォーマンスは大幅に低下するが、平均bleuメトリックはわずかに低下する。
興味深いことに、圧縮によるノイズのある記憶の除去は、中規模の言語で大幅に改善される。
最後に、高速な言語であっても、圧縮は固有の性別や意味バイアスを増幅することを示した。
コード: https://github.com/alirezamshi/bias-compressedmt Recently, very large pre-trained models achieve state-of-the-art results in various natural language processing (NLP) tasks, but their size makes it more challenging to apply them in resource-constrained environments. Compression techniques allow to drastically reduce the size of the models and therefore their inference time with negligible impact on top-tier metrics. However, the general performance averaged across multiple tasks and/or languages may hide a drastic performance drop on under-represented features, which could result in the amplification of biases encoded by the models. In this work, we assess the impact of compression methods on Multilingual Neural Machine Translation models (MNMT) for various language groups, gender, and semantic biases by extensive analysis of compressed models on different machine translation benchmarks, i.e. FLORES-101, MT-Gender, and DiBiMT. We show that the performance of under-represented languages drops significantly, while the average BLEU metric only slightly decreases. Interestingly, the removal of noisy memorization with compression leads to a significant improvement for some medium-resource languages. Finally, we demonstrate that compression amplifies intrinsic gender and semantic biases, even in high-resource languages. Code: https://github.com/alirezamshi/bias-compressedMT | 翻訳日:2023-06-28 18:17:59 公開日:2023-06-27 |
# 異なる画像, 境界条件, 時計欠陥にまたがるPage-Wootters構造のロバスト性 Robustness of the Page-Wootters construction across different pictures, boundary conditions and clock imperfections ( http://arxiv.org/abs/2204.11740v2 ) ライセンス: Link先を確認 | Simone Rijavec | (参考訳) 量子論では、時間の概念は不安定な地面にある。
この問題を解決する一つの方法は、通常のバックグラウンド時間パラメータをプリミティブエンティティとして取り除き、物理システム間の相関を通じてその出現を説明することである。
このアプローチは、page and wootters (1983) によって採用され、2つのサブシステム間の相関関係から静止量子宇宙に時間がどのように出現するかを示した。
本稿では,ハイゼンベルク図におけるページウーター構成の定式化について述べる。
私は、宇宙の純粋な状態と混合状態の両方を検討し、分析を、宇宙の他のサブシステムとの相互作用を含むように拡張する。
この研究は、建設に必要な相関関係を明らかにしている。
興味深いことに、時計との相互作用がなければ絡み合いは不要である。
この研究は、これらの相互作用が宇宙の混合状態の非単体進化につながることも示している。
単純な2レベルシステムでは、この側面は強い相対論的効果を期待するスケールで関係する。
このようなスケールでは、システムの時間方向の逆転も観察します。 In quantum theory, the concept of time rests on shaky ground. One way to address this problem is to remove the usual background time parameter as a primitive entity and explain its emergence via correlations between physical systems. This approach was adopted by Page and Wootters (1983), who showed how time can emerge in a stationary quantum universe from the correlations between two of its subsystems, one of them acting as a clock for the other. In this work, I show how to formulate the Page-Wootters construction in the Heisenberg picture. I consider both pure and mixed states of the universe and extend the analysis to include interactions between the clock and the other subsystem of the universe. The study reveals what kind of correlations are necessary for the construction to work. Interestingly, entanglement is not required as long as there are no interactions with the clock. The study also shows that these interactions can lead to a non-unitary evolution for some mixed states of the universe. In a simple two-level system, this aspect becomes relevant at scales where one would expect strong relativistic effects. At these scales, I also observe an inversion in the system's direction of time. | 翻訳日:2023-06-28 18:17:01 公開日:2023-06-27 |
# ジェネレーティブ・サリエンシーのためのエネルギーベースの事前 An Energy-Based Prior for Generative Saliency ( http://arxiv.org/abs/2204.08803v3 ) ライセンス: Link先を確認 | Jing Zhang, Jianwen Xie, Nick Barnes, Ping Li | (参考訳) 本稿では,情報的エネルギーベースモデルを事前分布として採用する,新たな生成性予測フレームワークを提案する。
エネルギーに基づく事前モデルは、連続潜在変数と観測画像に基づいて塩分マップを生成する塩分発生ネットワークの潜在空間上で定義される。
塩分発生器のパラメータとエネルギーに基づくプリアのパラメータは、マルコフ連鎖モンテカルロに基づく最大確率推定によって共に訓練され、潜在変数の難解な後方分布と事前分布からのサンプリングはランジュバンダイナミクスによって行われる。
生成サリエンシモデルを用いて,画像から画素単位の不確実性マップを得ることができ,サリエンシ予測におけるモデル信頼度を示す。
従属変数の先行分布を単純な等方的ガウス分布として定義する既存の生成モデルとは異なり、我々のモデルは、従属変数の潜在空間を捉える上でより表現力のあるエネルギーベースの情報伝達先を用いる。
情報的エネルギーベースの先行して、生成モデルのガウス分布仮定を拡張して、潜在空間のより代表的な分布を達成することにより、より信頼性の高い不確実性推定を行う。
提案するフレームワークは、トランスフォーマーと畳み込みニューラルネットワークのバックボーンを用いて、RGBとRGB-Dの両方に適応する。
また,提案手法を学習するための代替として,逆学習アルゴリズムと変分推論アルゴリズムを提案する。
実験の結果, エネルギーベースプリエントを持つ生成的サルマンシーモデルでは, 正確なサルマンシー予測だけでなく, 人間の知覚と一致する信頼性の高い不確実性マップを実現できることがわかった。
結果とコードは \url{https://github.com/jingzhang617/ebmgsod} で入手できる。 We propose a novel generative saliency prediction framework that adopts an informative energy-based model as a prior distribution. The energy-based prior model is defined on the latent space of a saliency generator network that generates the saliency map based on a continuous latent variables and an observed image. Both the parameters of saliency generator and the energy-based prior are jointly trained via Markov chain Monte Carlo-based maximum likelihood estimation, in which the sampling from the intractable posterior and prior distributions of the latent variables are performed by Langevin dynamics. With the generative saliency model, we can obtain a pixel-wise uncertainty map from an image, indicating model confidence in the saliency prediction. Different from existing generative models, which define the prior distribution of the latent variables as a simple isotropic Gaussian distribution, our model uses an energy-based informative prior which can be more expressive in capturing the latent space of the data. With the informative energy-based prior, we extend the Gaussian distribution assumption of generative models to achieve a more representative distribution of the latent space, leading to more reliable uncertainty estimation. We apply the proposed frameworks to both RGB and RGB-D salient object detection tasks with both transformer and convolutional neural network backbones. We further propose an adversarial learning algorithm and a variational inference algorithm as alternatives to train the proposed generative framework. Experimental results show that our generative saliency model with an energy-based prior can achieve not only accurate saliency predictions but also reliable uncertainty maps that are consistent with human perception. Results and code are available at \url{https://github.com/JingZhang617/EBMGSOD}. | 翻訳日:2023-06-28 18:16:42 公開日:2023-06-27 |
# COVID-19は人体移動の時空間次元の変化と関連している COVID-19 is linked to changes in the time-space dimension of human mobility ( http://arxiv.org/abs/2201.06527v2 ) ライセンス: Link先を確認 | Clodomir Santana, Federico Botta, Hugo Barbosa, Filippo Privitera, Ronaldo Menezes and Riccardo Di Clemente | (参考訳) 社会経済構造と都市トポロジーは、人間の移動パターンの重要な要因である。
新型コロナウイルス(COVID-19)パンデミックの間、これらのパターンは、日々の旅行距離で表される空間次元と通勤ルーチンの同期時間として表される時間次元に再形成された。
非特定携帯電話ユーザからの位置情報データを活用することで,ロックダウン時の空間移動性の低下と,非同期モビリティのダイナミクスの出現が相互に関係していることを確認した。
都市移動における制限の解除により、時空間よりも空間次元の回復が早くなった。
また,都市化レベルや経済階層によって移動の回復度が異なっていた。
農村部や低所得地域では、都市部や高所得層に比べて空間移動度が著しく低下した。
対照的に,都市化地域や高所得地域では,農村地域や低所得地域よりも時間次元の影響が大きかった。 Socio-economic constructs and urban topology are crucial drivers of human mobility patterns. During the COVID-19 pandemic, these patterns were re-shaped in their components: the spatial dimension represented by the daily travelled distance, and the temporal dimension expressed as the synchronisation time of commuting routines. Leveraging location-based data from de-identified mobile phone users, we observed that during lockdowns restrictions, the decrease of spatial mobility is interwoven with the emergence of asynchronous mobility dynamics. The lifting of restriction in urban mobility allowed a faster recovery of the spatial dimension compared to the temporal one. Moreover, the recovery in mobility was different depending on urbanisation levels and economic stratification. In rural and low-income areas, the spatial mobility dimension suffered a more significant disruption when compared to urbanised and high-income areas. In contrast, the temporal dimension was more affected in urbanised and high-income areas than in rural and low-income areas. | 翻訳日:2023-06-28 18:15:37 公開日:2023-06-27 |
# TreeSHAPを用いた地すべり感受性マッピングのための説明可能なAI統合機能選択 Explainable AI Integrated Feature Selection for Landslide Susceptibility Mapping using TreeSHAP ( http://arxiv.org/abs/2201.03225v2 ) ライセンス: Link先を確認 | Muhammad Sakib Khan Inan and Istiakur Rahman | (参考訳) 地すべりは、人為的な温暖化の時代において、人命と財産に対する脅威として定期的に発生してきた。
データ駆動型アプローチによる地すべり感受性の早期予測は時間の要求である。
本研究では,地すべりの感受性を最先端の機械学習手法で記述した雄弁な特徴について検討した。
本研究では,地すべり感受性予測にXgBoost,LR,KNN,SVM,Adaboostといった最先端の機械学習アルゴリズムを用いた。
最適化性能のための各分類器の最適なハイパーパラメータを見つけるために,10 Fold Cross-Validation を用いたグリッドサーチ手法を採用した。
この文脈で、最適化されたXgBoostは、クロスバリデーション重み付きF1スコア94.62 %の他の分類器よりも優れていた。
この経験的証拠に追従して,機械学習モデルの説明に使用されるゲーム理論に基づく統計アルゴリズムであるTreeSHAPを組み込んで,XGBoost分類器の性能を補完するSLOPE,ELEVATION,TWI,LANDUSE,NDVI,SPIといったモデル性能にはあまり影響しない特徴を同定し,XgBoost分類器を探索した。
特徴のtreeshapによる説明では, 地すべりの原因要因として, 15項目中9項目を選定した。
明らかに、XgBoostの最適化版と機能低下率の40%は、クロスバリデーション重み付きF1スコアの95.01 %、AUCスコアの97 %で、一般的な評価指標で他のすべての分類器を上回っている。 Landslides have been a regular occurrence and an alarming threat to human life and property in the era of anthropogenic global warming. An early prediction of landslide susceptibility using a data-driven approach is a demand of time. In this study, we explored the eloquent features that best describe landslide susceptibility with state-of-the-art machine learning methods. In our study, we employed state-of-the-art machine learning algorithms including XgBoost, LR, KNN, SVM, and Adaboost for landslide susceptibility prediction. To find the best hyperparameters of each individual classifier for optimized performance, we have incorporated the Grid Search method, with 10 Fold Cross-Validation. In this context, the optimized version of XgBoost outperformed all other classifiers with a Cross-validation Weighted F1 score of 94.62 %. Followed by this empirical evidence, we explored the XgBoost classifier by incorporating TreeSHAP, a game-theory-based statistical algorithm used to explain Machine Learning models, to identify eloquent features such as SLOPE, ELEVATION, TWI that complement the performance of the XGBoost classifier mostly and features such as LANDUSE, NDVI, SPI which has less effect on models performance. According to the TreeSHAP explanation of features, we selected the 9 most significant landslide causal factors out of 15. Evidently, an optimized version of XgBoost along with feature reduction by 40 % has outperformed all other classifiers in terms of popular evaluation metrics with a Cross-Validation Weighted F1 score of 95.01 % on the training and AUC score of 97 % | 翻訳日:2023-06-28 18:15:18 公開日:2023-06-27 |
# ベイジアンネットワークの構造学習におけるデュアルPCアルゴリズムとガウス性の役割 The Dual PC Algorithm and the Role of Gaussianity for Structure Learning of Bayesian Networks ( http://arxiv.org/abs/2112.09036v6 ) ライセンス: Link先を確認 | Enrico Giudice, Jack Kuipers, Giusi Moffa | (参考訳) ベイズネットワークのグラフィカル構造を学ぶことは、多くの複雑なアプリケーションでデータ生成メカニズムを記述する上で鍵となるが、計算上の課題は大きい。
観測データはベイズネットワークモデルに基づく有向非巡回グラフの同値類のみを識別することができ、この問題に取り組むための様々な方法が存在する。
ある仮定の下で、人気のあるPCアルゴリズムは、変数分布を保持する条件独立性(CI)関係をリバースエンジニアリングすることで、正しい等価クラスを一貫して回復することができる。
双対PCアルゴリズムは、共分散行列と精度行列の逆関係を利用して、PCアルゴリズム内でCIテストを実行するための新しいスキームである。
ブロック行列反転を利用することにより、補完的(または双対)条件付き集合の部分相関に関するテストを行うこともできる。
デュアルPCアルゴリズムの複数のCIテストは、まず辺境と全階のCI関係を考慮し、徐々に中央のCIに移行する。
シミュレーション研究により、デュアルPCアルゴリズムは、ガウス性から逸脱した場合でも、実行時間と基盤となるネットワーク構造の回復の両方において、古典的なPCアルゴリズムよりも優れていることが示された。
さらに,双対pcアルゴリズムがガウスコプラモデルに適用できることを示し,その性能を示す。 Learning the graphical structure of Bayesian networks is key to describing data-generating mechanisms in many complex applications but poses considerable computational challenges. Observational data can only identify the equivalence class of the directed acyclic graph underlying a Bayesian network model, and a variety of methods exist to tackle the problem. Under certain assumptions, the popular PC algorithm can consistently recover the correct equivalence class by reverse-engineering the conditional independence (CI) relationships holding in the variable distribution. The dual PC algorithm is a novel scheme to carry out the CI tests within the PC algorithm by leveraging the inverse relationship between covariance and precision matrices. By exploiting block matrix inversions we can also perform tests on partial correlations of complementary (or dual) conditioning sets. The multiple CI tests of the dual PC algorithm proceed by first considering marginal and full-order CI relationships and progressively moving to central-order ones. Simulation studies show that the dual PC algorithm outperforms the classic PC algorithm both in terms of run time and in recovering the underlying network structure, even in the presence of deviations from Gaussianity. Additionally, we show that the dual PC algorithm applies for Gaussian copula models, and demonstrate its performance in that setting. | 翻訳日:2023-06-28 18:14:48 公開日:2023-06-27 |
# cadet: コントラスト学習による完全自己教師付き分散検出 CADet: Fully Self-Supervised Out-Of-Distribution Detection With Contrastive Learning ( http://arxiv.org/abs/2210.01742v3 ) ライセンス: Link先を確認 | Charles Guille-Escuret, Pau Rodriguez, David Vazquez, Ioannis Mitliagkas, Joao Monteiro | (参考訳) アウト・オブ・ディストリビューション(OOD)サンプルの処理は、機械学習システムの現実的な展開において大きな関心を集めている。
本研究は, 自己指導型コントラスト学習を用いた2種類のOODサンプルの同時検出について検討する。
まず,自己指導型コントラスト学習と,最大平均誤差(MMD)2サンプルテストとを組み合わせた。
提案手法は,2つの独立した標本が同一分布に由来するかどうかを強く検証し,CIFAR-10とCIFAR-10.1の判別による有効性を示す。
この成功に触発されたCADet(Contrastive Anomaly Detection)は,単一試料のOOD検出のための新しい手法である。
CADetはMDDからインスピレーションを得ているが、同じサンプルの対照的な変換の類似性を利用する。
CADetは、ImageNet上の逆摂動サンプルを識別する既存の逆検出方法よりも優れており、ImageNet-OとiNaturalistの2つの困難なベンチマークにおいて、見知らぬラベル検出手法と同等のパフォーマンスを達成する。
CADetは完全に自己管理されており、流通サンプルのラベルやOODのサンプルへのアクセスは必要としない。 Handling out-of-distribution (OOD) samples has become a major stake in the real-world deployment of machine learning systems. This work explores the use of self-supervised contrastive learning to the simultaneous detection of two types of OOD samples: unseen classes and adversarial perturbations. First, we pair self-supervised contrastive learning with the maximum mean discrepancy (MMD) two-sample test. This approach enables us to robustly test whether two independent sets of samples originate from the same distribution, and we demonstrate its effectiveness by discriminating between CIFAR-10 and CIFAR-10.1 with higher confidence than previous work. Motivated by this success, we introduce CADet (Contrastive Anomaly Detection), a novel method for OOD detection of single samples. CADet draws inspiration from MMD, but leverages the similarity between contrastive transformations of a same sample. CADet outperforms existing adversarial detection methods in identifying adversarially perturbed samples on ImageNet and achieves comparable performance to unseen label detection methods on two challenging benchmarks: ImageNet-O and iNaturalist. Significantly, CADet is fully self-supervised and requires neither labels for in-distribution samples nor access to OOD examples. | 翻訳日:2023-06-28 18:06:58 公開日:2023-06-27 |
# ネットワークにおけるGenuine Bellの局所性と非局所性 Genuine Bell locality and nonlocality in the networks ( http://arxiv.org/abs/2209.11402v2 ) ライセンス: Link先を確認 | Li-Yi Hsu | (参考訳) K$-locality(K\geq2$)ネットワークに関する文献では、局所的な隠れ変数は、全体ではなく特定の観測者に厳密に分布している。
真のベル局所性について、古典物理学において完全なクローン化を可能にする古典的対象として、すべての局所的隠れ変数はクローン化され、ネットワーク全体に広がるべきである。
提案した線形および非線形ベル型不等式には、事前決定された出力確率分布によって上限が指定される。
量子バージョンについては、非クローン定理は量子相関の放送を制限する。
ネットワーク内の異種粒子分布における真のベル非局所性を調べるために、ポーリ作用素は2量子ベル状態または多量子グリーンベルガー-ホーン-サイレンジャー状態(ghz状態)を安定化し、提案された線形および非線形ベル試験の設計と、空間的に分離された観測者に対する局所的非互換測定値の割り当てに必須の役割を果たす。
提案するベル型不等式量子ネットワークの最大違反を証明する。
最後に, ベル試験における接合交換が関節計測の代替となることを示す。 In the literature on $K$-locality ($K\geq2$) networks, the local hidden variables are strictly distributed in the specific observers rather than the whole ones. Regarding genuine Bell locality, all local hidden variables, as classical objects that allow for perfect cloning in classical physics, should be cloned and then spread throughout the networks. More correlators are involved in the proposed linear and non-linear Bell-type inequalities, where their upper bounds are specified by the pre-determined output probability distribution. As for the quantum version, the no-clone theorem limits the broadcast of quantum correlations. To explore genuine Bell nonlocality in variant particle distributions in the networks, the Pauli operators stabilizing the two-qubit Bell states or multi-qubit Greenberger--Horne--Zeilinger states (GHZ states) play an essential role in designing the proposed linear and non-linear Bell tests and assigning the local incompatible measurements for the spatially separated observers. We prove the maximal violations of the proposed Bell-type inequalities quantum networks. In the end, how entanglement swapping replaces the joint measurements in the Bell tests is demonstrated. | 翻訳日:2023-06-28 18:06:36 公開日:2023-06-27 |
# MGG:マルチGPUプラットフォーム上での微細カーネル内通信-計算パイプライニングによるグラフニューラルネットワークの高速化 MGG: Accelerating Graph Neural Networks with Fine-grained intra-kernel Communication-Computation Pipelining on Multi-GPU Platforms ( http://arxiv.org/abs/2209.06800v3 ) ライセンス: Link先を確認 | Yuke Wang, Boyuan Feng, Zheng Wang, Tong Geng, Kevin Barker, Ang Li, and Yufei Ding | (参考訳) グラフニューラルネットワーク(GNN)の入力グラフサイズの増加は、マルチGPUプラットフォームの使用需要を浮き彫りにしている。
しかし,既存のマルチGPUGNNシステムは,従来のDNNのスケーリング手法に基づいて,計算と通信を個別に最適化している。
不規則にスパースできめ細かなGNNワークロードに対して、そのようなソリューションは、ハイパフォーマンスデリバリのための計算と通信操作を共同でスケジュール/最適化する機会を逃している。
そこで本研究では,マルチGPUプラットフォーム上でのフルグラフGNNを高速化するシステム設計であるMGGを提案する。
MGGの中核は、GPUカーネル内での微粒な計算通信オーバラップを容易にする、新しい動的ソフトウェアパイプラインである。
特にMGGは、ワークロードのバランシングと運用オーバーラップを容易にするために、GNN対応パイプライン構築とGPU対応パイプラインマッピングを導入している。
MGGはまた、解析モデリングと最適化ヒューリスティックを備えたインテリジェントランタイム設計を取り入れ、実行性能を動的に改善する。
MGGは、DGL、MGG-UVM、ROCよりも平均4.41X、4.81X、10.83倍高速である。 The increasing size of input graphs for graph neural networks (GNNs) highlights the demand for using multi-GPU platforms. However, existing multi-GPU GNN systems optimize the computation and communication individually based on the conventional practice of scaling dense DNNs. For irregularly sparse and fine-grained GNN workloads, such solutions miss the opportunity to jointly schedule/optimize the computation and communication operations for high-performance delivery. To this end, we propose MGG, a novel system design to accelerate full-graph GNNs on multi-GPU platforms. The core of MGG is its novel dynamic software pipeline to facilitate fine-grained computation-communication overlapping within a GPU kernel. Specifically, MGG introduces GNN-tailored pipeline construction and GPU-aware pipeline mapping to facilitate workload balancing and operation overlapping. MGG also incorporates an intelligent runtime design with analytical modeling and optimization heuristics to dynamically improve the execution performance. Extensive evaluation reveals that MGG outperforms state-of-the-art full-graph GNN systems across various settings: on average 4.41X, 4.81X, and 10.83X faster than DGL, MGG-UVM, and ROC, respectively. | 翻訳日:2023-06-28 18:06:11 公開日:2023-06-27 |
# 量子r\'enyiの発散の連続性 Some continuity properties of quantum R\'enyi divergences ( http://arxiv.org/abs/2209.00646v4 ) ライセンス: Link先を確認 | Mil\'an Mosonyi and Fumio Hiai | (参考訳) 積入力による2進量子チャネル識別問題において、最適なタイプiエラーがゼロになるすべてのタイプiiエラー指数の上限は、ウメガキチャネル相対エントロピーに等しいのに対して、最適なタイプiエラーが1になるすべてのタイプiiエラー指数の上限は、すべての$\alpha>1$に対してサンドイッチされたチャンネルr\'enyi $\alpha$-divergencesのインフィムに等しい。
この2つのしきい値(したがってこの問題の強い逆特性)の等式を、サンドイッチしたr\'enyi divergencesの新しく確立された連続性に基づくminimax引数を用いて証明する。
この動機付けにより、様々な量子(チャネル)r\'enyiダイバージェンスの連続性の詳細解析を行い、独立興味を持つかもしれない。 In the problem of binary quantum channel discrimination with product inputs, the supremum of all type II error exponents for which the optimal type I errors go to zero is equal to the Umegaki channel relative entropy, while the infimum of all type II error exponents for which the optimal type I errors go to one is equal to the infimum of the sandwiched channel R\'enyi $\alpha$-divergences over all $\alpha>1$. We prove the equality of these two threshold values (and therefore the strong converse property for this problem) using a minimax argument based on a newly established continuity property of the sandwiched R\'enyi divergences. Motivated by this, we give a detailed analysis of the continuity properties of various other quantum (channel) R\'enyi divergences, which may be of independent interest. | 翻訳日:2023-06-28 18:05:49 公開日:2023-06-27 |
# 強化学習における時間的不整合による自己監督探索 Self-Supervised Exploration via Temporal Inconsistency in Reinforcement Learning ( http://arxiv.org/abs/2208.11361v2 ) ライセンス: Link先を確認 | Zijian Gao, Kele Xu, Yuanzhao Zhai, Dawei Feng, Bo Ding, XinJun Mao, Huaimin Wang | (参考訳) 疎外的な報酬設定の下では、この分野への関心が高まりつつも、強化学習は依然として困難である。
以前の試みは、内在的な報酬はスパーシティに起因する問題を軽減できることを示唆している。
本稿では、人間は現在の観察と歴史的知識を比較して好奇心を評価するため、人間学習に着想を得た新しい本質的報酬を提案する。
提案手法では,自己教師付き予測モデルのトレーニング,モデルパラメータのスナップショットの保存,および核ノルムを用いて,異なるスナップショットの予測間の時間的矛盾を本質的な報酬として評価する。
また,異なるスナップショットに対して適応的に重み付けを行う変分重み付け機構を提案する。
各種ベンチマーク環境における実験結果から,本手法の有効性が示され,トレーニングコストの増大や耐雑音性の向上を伴わず,本手法の他の固有報酬法よりも優れていた。
この作品はieeeに提出され、出版される可能性がある。
著作権は通知なしで転送され、その後、このバージョンはアクセスできなくなる。 Under sparse extrinsic reward settings, reinforcement learning has remained challenging, despite surging interests in this field. Previous attempts suggest that intrinsic reward can alleviate the issue caused by sparsity. In this article, we present a novel intrinsic reward that is inspired by human learning, as humans evaluate curiosity by comparing current observations with historical knowledge. Our method involves training a self-supervised prediction model, saving snapshots of the model parameters, and using nuclear norm to evaluate the temporal inconsistency between the predictions of different snapshots as intrinsic rewards. We also propose a variational weighting mechanism to assign weight to different snapshots in an adaptive manner. Our experimental results on various benchmark environments demonstrate the efficacy of our method, which outperforms other intrinsic reward-based methods without additional training costs and with higher noise tolerance. This work has been submitted to the IEEE for possible publication. Copyright may be transferred without notice, after which this version may no longer be accessible. | 翻訳日:2023-06-28 18:05:29 公開日:2023-06-27 |
# ml駆動hpcワークフローにおける異種タスクの非同期実行 Asynchronous Execution of Heterogeneous Tasks in ML-driven HPC Workflows ( http://arxiv.org/abs/2208.11069v2 ) ライセンス: Link先を確認 | Vincent R. Pascuzzi, Ozgur O. Kilic, Matteo Turilli, Shantenu Jha | (参考訳) 異種科学ワークフローは、異種リソース上で実行する必要がある様々な種類のタスクで構成される。
これらのタスクの非同期実行は、リソース利用の改善、タスクスループットの向上、ワークフローの規模削減に不可欠である。
したがって、異種リソース間で異なるタスクタイプをスケジューリングおよび実行可能なミドルウェアは、タスクの非同期実行を可能にする必要がある。
本稿では、機械学習(ml)駆動ハイパフォーマンスコンピューティング(hpc)ワークフローの非同期タスク実行の要件と特性について検討する。
任意のワークフローで許容される非同期性の度合いをモデル化し、非同期実行を使用する際の質的なメリットを決定するために使用できる主要なメトリクスを提案する。
実験は関連する科学的要因を表現し,サミットで大規模に実施し,非同期実行によるパフォーマンス向上が我々のモデルと一致していることを示す。 Heterogeneous scientific workflows consist of numerous types of tasks that require executing on heterogeneous resources. Asynchronous execution of those tasks is crucial to improve resource utilization, task throughput and reduce workflows' makespan. Therefore, middleware capable of scheduling and executing different task types across heterogeneous resources must enable asynchronous execution of tasks. In this paper, we investigate the requirements and properties of the asynchronous task execution of machine learning (ML)-driven high performance computing (HPC) workflows. We model the degree of asynchronicity permitted for arbitrary workflows and propose key metrics that can be used to determine qualitative benefits when employing asynchronous execution. Our experiments represent relevant scientific drivers, we perform them at scale on Summit, and we show that the performance enhancements due to asynchronous execution are consistent with our model. | 翻訳日:2023-06-28 18:05:13 公開日:2023-06-27 |
# イベントトリガー時変ベイズ最適化 Event-Triggered Time-Varying Bayesian Optimization ( http://arxiv.org/abs/2208.10790v3 ) ライセンス: Link先を確認 | Paul Brunzema, Alexander von Rohr, Friedrich Solowjow, Sebastian Trimpe | (参考訳) 時変ベイズ最適化(tvbo)を用いた時変目的関数の逐次最適化の問題を考える。
ここで重要な課題は、時間変動の下での探査・探査のトレードオフである。
現在のtvboへのアプローチでは、変化率の一定な事前知識が必要である。
しかし、実際には変化の度合いは通常不明である。
本稿では,目的関数のオンライン変更を検知してデータセットをリセットするまで,最適化問題を静的に扱うイベントトリガーアルゴリズムet-gp-ucbを提案する。
これにより、アルゴリズムは事前知識を必要とせずに、実現可能な時間変化に適応することができる。
イベントトリガーは、ガウス過程の回帰で使われる確率的一様誤差境界に基づいている。
我々は,et-gp-ucbに対する後悔の限度を与え,合成および実世界のデータに対する最先端アルゴリズムよりも優れていることを数値実験で示す。
さらに,これらの結果から,ET-GP-UCBはハイパーパラメータを調整せずに様々な設定に容易に適用可能であることが示された。 We consider the problem of sequentially optimizing a time-varying objective function using time-varying Bayesian optimization (TVBO). Here, the key challenge is the exploration-exploitation trade-off under time variations. Current approaches to TVBO require prior knowledge of a constant rate of change. However, in practice, the rate of change is usually unknown. We propose an event-triggered algorithm, ET-GP-UCB, that treats the optimization problem as static until it detects changes in the objective function online and then resets the dataset. This allows the algorithm to adapt to realized temporal changes without the need for prior knowledge. The event-trigger is based on probabilistic uniform error bounds used in Gaussian process regression. We provide regret bounds for ET-GP-UCB and show in numerical experiments that it outperforms state-of-the-art algorithms on synthetic and real-world data. Furthermore, these results demonstrate that ET-GP-UCB is readily applicable to various settings without tuning hyperparameters. | 翻訳日:2023-06-28 18:04:59 公開日:2023-06-27 |
# AutoMerge: 都市環境におけるマップの組み立てと平滑化のためのフレームワーク AutoMerge: A Framework for Map Assembling and Smoothing in City-scale Environments ( http://arxiv.org/abs/2207.06965v4 ) ライセンス: Link先を確認 | Peng Yin, Haowen Lai, Shiqi Zhao, Ruohai Ge, Ji Zhang, Howie Choset and Sebastian Scherer | (参考訳) 我々は、多数のマップセグメントを完全なマップに組み立てるためのLiDARデータ処理フレームワークであるAutoMergeを紹介する。
従来の大規模なマップマージ手法は、不正なデータアソシエーションに対して脆弱であり、主にオフラインでしか動作しない。
automergeは、正確なデータ関連付けのためにマルチパースペクティブ融合と適応ループクロージャ検出を利用し、インクリメンタルマージを使用してランダムに与えられた個々の軌道セグメントから大きなマップを組み立て、初期推定を行わない。
さらに、セグメントを組み立てた後、オートマージはマージマップをグローバルに滑らかにするためにファインマッチングおよびポーズグラフ最適化を行う。
都市規模合併(120km)とキャンパス規模反復合併(4.5km×8)について,AutoMergeを実証した。
実験によると オートマージは
(i)セグメント検索において,第2,第3の手法を14%,第2の手法を24%上回る。
(ii)大規模地図アセンブリ120kmで同等の3dマッピング精度を達成している。
(iii)時空間の再訪には堅牢である。
われわれの知る限りでは、AutoMergeはGPSを使わずに数百kmのセグメントをマージできる最初のマッピング手法だ。 We present AutoMerge, a LiDAR data processing framework for assembling a large number of map segments into a complete map. Traditional large-scale map merging methods are fragile to incorrect data associations, and are primarily limited to working only offline. AutoMerge utilizes multi-perspective fusion and adaptive loop closure detection for accurate data associations, and it uses incremental merging to assemble large maps from individual trajectory segments given in random order and with no initial estimations. Furthermore, after assembling the segments, AutoMerge performs fine matching and pose-graph optimization to globally smooth the merged map. We demonstrate AutoMerge on both city-scale merging (120km) and campus-scale repeated merging (4.5km x 8). The experiments show that AutoMerge (i) surpasses the second- and third- best methods by 14% and 24% recall in segment retrieval, (ii) achieves comparable 3D mapping accuracy for 120 km large-scale map assembly, (iii) and it is robust to temporally-spaced revisits. To the best of our knowledge, AutoMerge is the first mapping approach that can merge hundreds of kilometers of individual segments without the aid of GPS. | 翻訳日:2023-06-28 18:04:44 公開日:2023-06-27 |
# 高次元ハイパーグラフ製品符号のシングルショットデコードの改良 Improved single-shot decoding of higher dimensional hypergraph product codes ( http://arxiv.org/abs/2206.03122v2 ) ライセンス: Link先を確認 | Oscar Higgott and Nikolas P. Breuckmann | (参考訳) 本研究では,信念伝達と順序統計を用いて復号化された高次元ハイパーグラフ製品コード [panteleev and kalachev, 2021] の単発性能について検討する。
復号化データキュービットとシンドローム測定誤差を1段階にまとめると、従来観測されていた全単発閾値をはるかに上回る単発閾値となる。
3次元トーリック符号と現象論的ノイズモデルでは,2段デコーダを用いた2.90%のしきい値と比較して,z$エラーに対して持続的なしきい値が7.1%と一致した。
X$とZ$の誤り訂正が単発である4Dトーリック符号の場合、この結果は持続可能な4.3%の単発しきい値と一致し、同じノイズモデルに対して2Dトーリック符号の2.93%よりも高いが、安定化器のラウンドは$L$である。
また,バランスの取れた製品と4Dハイパーグラフの製品コードの性能についても検討し,この結果から,現象学的誤差率を1%まで下げることができた。 In this work we study the single-shot performance of higher dimensional hypergraph product codes decoded using belief-propagation and ordered-statistics decoding [Panteleev and Kalachev, 2021]. We find that decoding data qubit and syndrome measurement errors together in a single stage leads to single-shot thresholds that greatly exceed all previously observed single-shot thresholds for these codes. For the 3D toric code and a phenomenological noise model, our results are consistent with a sustainable threshold of 7.1% for $Z$ errors, compared to the threshold of 2.90% previously found using a two-stage decoder~[Quintavalle et al., 2021]. For the 4D toric code, for which both $X$ and $Z$ error correction is single-shot, our results are consistent with a sustainable single-shot threshold of 4.3% which is even higher than the threshold of 2.93% for the 2D toric code for the same noise model but using $L$ rounds of stabiliser measurement. We also explore the performance of balanced product and 4D hypergraph product codes which we show lead to a reduction in qubit overhead compared the surface code for phenomenological error rates as high as 1%. | 翻訳日:2023-06-28 18:04:23 公開日:2023-06-27 |
# 超低温極性分子間の衝突の2光子光遮蔽 Two-photon optical shielding of collisions between ultracold polar molecules ( http://arxiv.org/abs/2211.08950v2 ) ライセンス: Link先を確認 | Charbel Karam, Mara Meyer zum Alten Borgloh, Romain Vexiau, Maxence Lepers, Silke Ospelkaus, Nadia Bouloufa-Maafa, Leon Karpa and Olivier Dulieu | (参考訳) 光学場を用いた超低温基底分子間の反発性長距離相互作用を設計し,短距離衝突損失を防止する手法を提案する。
衝突遮蔽に最近用いられたマイクロ波結合を2光子遷移にマッピングし、光制御技術を利用する。
1光子光遮蔽(phys. rev. lett. 125, 153202 (2020))とは対照的に、このスキームは光子散乱による分子ガスの加熱を避ける。
提案したプロトコルは23Na39Kに例示され、多種の極性二原子分子に適用できる。 We propose a method to engineer repulsive long-range interactions between ultracold ground-state molecules using optical fields, thus preventing short-range collisional losses. It maps the microwave coupling recently used for collisional shielding onto a two-photon transition, and takes advantage of optical control techniques. In contrast to one-photon optical shielding [Phys. Rev. Lett. 125, 153202 (2020)], this scheme avoids heating of the molecular gas due to photon scattering. The proposed protocol, exemplified for 23Na39K, should be applicable to a large class of polar diatomic molecules. | 翻訳日:2023-06-28 17:58:35 公開日:2023-06-27 |
# BLOOM:176Bパラメータオープンアクセシブル言語モデル BLOOM: A 176B-Parameter Open-Access Multilingual Language Model ( http://arxiv.org/abs/2211.05100v4 ) ライセンス: Link先を確認 | BigScience Workshop: Teven Le Scao, Angela Fan, Christopher Akiki, Ellie Pavlick, Suzana Ili\'c, Daniel Hesslow, Roman Castagn\'e, Alexandra Sasha Luccioni, Fran\c{c}ois Yvon, Matthias Gall\'e, Jonathan Tow, Alexander M. Rush, Stella Biderman, Albert Webson, Pawan Sasanka Ammanamanchi, Thomas Wang, Beno\^it Sagot, Niklas Muennighoff, Albert Villanova del Moral, Olatunji Ruwase, Rachel Bawden, Stas Bekman, Angelina McMillan-Major, Iz Beltagy, Huu Nguyen, Lucile Saulnier, Samson Tan, Pedro Ortiz Suarez, Victor Sanh, Hugo Lauren\c{c}on, Yacine Jernite, Julien Launay, Margaret Mitchell, Colin Raffel, Aaron Gokaslan, Adi Simhi, Aitor Soroa, Alham Fikri Aji, Amit Alfassy, Anna Rogers, Ariel Kreisberg Nitzav, Canwen Xu, Chenghao Mou, Chris Emezue, Christopher Klamm, Colin Leong, Daniel van Strien, David Ifeoluwa Adelani, Dragomir Radev, Eduardo Gonz\'alez Ponferrada, Efrat Levkovizh, Ethan Kim, Eyal Bar Natan, Francesco De Toni, G\'erard Dupont, Germ\'an Kruszewski, Giada Pistilli, Hady Elsahar, Hamza Benyamina, Hieu Tran, Ian Yu, Idris Abdulmumin, Isaac Johnson, Itziar Gonzalez-Dios, Javier de la Rosa, Jenny Chim, Jesse Dodge, Jian Zhu, Jonathan Chang, J\"org Frohberg, Joseph Tobing, Joydeep Bhattacharjee, Khalid Almubarak, Kimbo Chen, Kyle Lo, Leandro Von Werra, Leon Weber, Long Phan, Loubna Ben allal, Ludovic Tanguy, Manan Dey, Manuel Romero Mu\~noz, Maraim Masoud, Mar\'ia Grandury, Mario \v{S}a\v{s}ko, Max Huang, Maximin Coavoux, Mayank Singh, Mike Tian-Jian Jiang, Minh Chien Vu, Mohammad A. Jauhar, Mustafa Ghaleb, Nishant Subramani, Nora Kassner, Nurulaqilla Khamis, Olivier Nguyen, Omar Espejel, Ona de Gibert, Paulo Villegas, Peter Henderson, Pierre Colombo, Priscilla Amuok, Quentin Lhoest, Rheza Harliman, Rishi Bommasani, Roberto Luis L\'opez, Rui Ribeiro, Salomey Osei, Sampo Pyysalo, Sebastian Nagel, Shamik Bose, Shamsuddeen Hassan Muhammad, Shanya Sharma, Shayne Longpre, Somaieh Nikpoor, Stanislav Silberberg, Suhas Pai, Sydney Zink, Tiago Timponi Torrent, Timo Schick, Tristan Thrush, Valentin Danchev, Vassilina Nikoulina, Veronika Laippala, Violette Lepercq, Vrinda Prabhu, Zaid Alyafeai, Zeerak Talat, Arun Raja, Benjamin Heinzerling, Chenglei Si, Davut Emre Ta\c{s}ar, Elizabeth Salesky, Sabrina J. Mielke, Wilson Y. Lee, Abheesht Sharma, Andrea Santilli, Antoine Chaffin, Arnaud Stiegler, Debajyoti Datta, Eliza Szczechla, Gunjan Chhablani, Han Wang, Harshit Pandey, Hendrik Strobelt, Jason Alan Fries, Jos Rozen, Leo Gao, Lintang Sutawika, M Saiful Bari, Maged S. Al-shaibani, Matteo Manica, Nihal Nayak, Ryan Teehan, Samuel Albanie, Sheng Shen, Srulik Ben-David, Stephen H. Bach, Taewoon Kim, Tali Bers, Thibault Fevry, Trishala Neeraj, Urmish Thakker, Vikas Raunak, Xiangru Tang, Zheng-Xin Yong, Zhiqing Sun, Shaked Brody, Yallow Uri, Hadar Tojarieh, Adam Roberts, Hyung Won Chung, Jaesung Tae, Jason Phang, Ofir Press, Conglong Li, Deepak Narayanan, Hatim Bourfoune, Jared Casper, Jeff Rasley, Max Ryabinin, Mayank Mishra, Minjia Zhang, Mohammad Shoeybi, Myriam Peyrounette, Nicolas Patry, Nouamane Tazi, Omar Sanseviero, Patrick von Platen, Pierre Cornette, Pierre Fran\c{c}ois Lavall\'ee, R\'emi Lacroix, Samyam Rajbhandari, Sanchit Gandhi, Shaden Smith, St\'ephane Requena, Suraj Patil, Tim Dettmers, Ahmed Baruwa, Amanpreet Singh, Anastasia Cheveleva, Anne-Laure Ligozat, Arjun Subramonian, Aur\'elie N\'ev\'eol, Charles Lovering, Dan Garrette, Deepak Tunuguntla, Ehud Reiter, Ekaterina Taktasheva, Ekaterina Voloshina, Eli Bogdanov, Genta Indra Winata, Hailey Schoelkopf, Jan-Christoph Kalo, Jekaterina Novikova, Jessica Zosa Forde, Jordan Clive, Jungo Kasai, Ken Kawamura, Liam Hazan, Marine Carpuat, Miruna Clinciu, Najoung Kim, Newton Cheng, Oleg Serikov, Omer Antverg, Oskar van der Wal, Rui Zhang, Ruochen Zhang, Sebastian Gehrmann, Shachar Mirkin, Shani Pais, Tatiana Shavrina, Thomas Scialom, Tian Yun, Tomasz Limisiewicz, Verena Rieser, Vitaly Protasov, Vladislav Mikhailov, Yada Pruksachatkun, Yonatan Belinkov, Zachary Bamberger, Zden\v{e}k Kasner, Alice Rueda, Amanda Pestana, Amir Feizpour, Ammar Khan, Amy Faranak, Ana Santos, Anthony Hevia, Antigona Unldreaj, Arash Aghagol, Arezoo Abdollahi, Aycha Tammour, Azadeh HajiHosseini, Bahareh Behroozi, Benjamin Ajibade, Bharat Saxena, Carlos Mu\~noz Ferrandis, Daniel McDuff, Danish Contractor, David Lansky, Davis David, Douwe Kiela, Duong A. Nguyen, Edward Tan, Emi Baylor, Ezinwanne Ozoani, Fatima Mirza, Frankline Ononiwu, Habib Rezanejad, Hessie Jones, Indrani Bhattacharya, Irene Solaiman, Irina Sedenko, Isar Nejadgholi, Jesse Passmore, Josh Seltzer, Julio Bonis Sanz, Livia Dutra, Mairon Samagaio, Maraim Elbadri, Margot Mieskes, Marissa Gerchick, Martha Akinlolu, Michael McKenna, Mike Qiu, Muhammed Ghauri, Mykola Burynok, Nafis Abrar, Nazneen Rajani, Nour Elkott, Nour Fahmy, Olanrewaju Samuel, Ran An, Rasmus Kromann, Ryan Hao, Samira Alizadeh, Sarmad Shubber, Silas Wang, Sourav Roy, Sylvain Viguier, Thanh Le, Tobi Oyebade, Trieu Le, Yoyo Yang, Zach Nguyen, Abhinav Ramesh Kashyap, Alfredo Palasciano, Alison Callahan, Anima Shukla, Antonio Miranda-Escalada, Ayush Singh, Benjamin Beilharz, Bo Wang, Caio Brito, Chenxi Zhou, Chirag Jain, Chuxin Xu, Cl\'ementine Fourrier, Daniel Le\'on Peri\~n\'an, Daniel Molano, Dian Yu, Enrique Manjavacas, Fabio Barth, Florian Fuhrimann, Gabriel Altay, Giyaseddin Bayrak, Gully Burns, Helena U. Vrabec, Imane Bello, Ishani Dash, Jihyun Kang, John Giorgi, Jonas Golde, Jose David Posada, Karthik Rangasai Sivaraman, Lokesh Bulchandani, Lu Liu, Luisa Shinzato, Madeleine Hahn de Bykhovetz, Maiko Takeuchi, Marc P\`amies, Maria A Castillo, Marianna Nezhurina, Mario S\"anger, Matthias Samwald, Michael Cullan, Michael Weinberg, Michiel De Wolf, Mina Mihaljcic, Minna Liu, Moritz Freidank, Myungsun Kang, Natasha Seelam, Nathan Dahlberg, Nicholas Michio Broad, Nikolaus Muellner, Pascale Fung, Patrick Haller, Ramya Chandrasekhar, Renata Eisenberg, Robert Martin, Rodrigo Canalli, Rosaline Su, Ruisi Su, Samuel Cahyawijaya, Samuele Garda, Shlok S Deshmukh, Shubhanshu Mishra, Sid Kiblawi, Simon Ott, Sinee Sang-aroonsiri, Srishti Kumar, Stefan Schweter, Sushil Bharati, Tanmay Laud, Th\'eo Gigant, Tomoya Kainuma, Wojciech Kusa, Yanis Labrak, Yash Shailesh Bajaj, Yash Venkatraman, Yifan Xu, Yingxin Xu, Yu Xu, Zhe Tan, Zhongli Xie, Zifan Ye, Mathilde Bras, Younes Belkada, Thomas Wolf | (参考訳) 大規模言語モデル(LLM)は、いくつかのデモや自然言語命令に基づいて新しいタスクを実行できることが示されている。
これらの能力は広く採用されているが、ほとんどのLLMはリソース豊富な組織によって開発され、一般には公開されていない。
この強力な技術を民主化するためのステップとして、数百人の研究者が協力して設計・構築した176Bのオープンアクセス言語モデルBLOOMを紹介します。
bloomは、ルートコーパスでトレーニングされたデコーダのみのトランスフォーマー言語モデルで、46の自然言語と13のプログラミング言語(合計59)の数百のソースからなるデータセットである。
BLOOMは多種多様なベンチマークで競争性能が向上し,マルチタスクの実施によりファインタニングが促進された。
LLMを用いた将来の研究やアプリケーションを容易にするため、Responsible AI Licenseの下で、当社のモデルとコードを公開しています。 Large language models (LLMs) have been shown to be able to perform new tasks based on a few demonstrations or natural language instructions. While these capabilities have led to widespread adoption, most LLMs are developed by resource-rich organizations and are frequently kept from the public. As a step towards democratizing this powerful technology, we present BLOOM, a 176B-parameter open-access language model designed and built thanks to a collaboration of hundreds of researchers. BLOOM is a decoder-only Transformer language model that was trained on the ROOTS corpus, a dataset comprising hundreds of sources in 46 natural and 13 programming languages (59 in total). We find that BLOOM achieves competitive performance on a wide variety of benchmarks, with stronger results after undergoing multitask prompted finetuning. To facilitate future research and applications using LLMs, we publicly release our models and code under the Responsible AI License. | 翻訳日:2023-06-28 17:57:53 公開日:2023-06-27 |
# 反復的自己回帰:低遅延音声強調モデルを改善する新しいトリック Iterative autoregression: a novel trick to improve your low-latency speech enhancement model ( http://arxiv.org/abs/2211.01751v3 ) ライセンス: Link先を確認 | Pavel Andreev, Nicholas Babaev, Azat Saginbaev, Ivan Shchekotov, Aibek Alanov | (参考訳) ストリーミングモデルは、リアルタイム音声強調ツールの重要なコンポーネントである。
ストリーミングレシエーションは、将来の情報の小さなコンテキストのみを使用するように、音声強調モデルを制約する。
その結果、低レイテンシのストリーミング設定は一般的に困難なタスクと考えられ、モデルの品質に重大な悪影響を及ぼす。
しかし、ストリーミング生成のシーケンシャルな性質は、従来の予測を利用して現在の予測を行うという、自己回帰の自然な可能性を提供する。
従来の自己回帰モデルの訓練方法は、教師の強制であるが、その主な欠点は、品質の大幅な劣化につながる訓練-推論ミスマッチにある。
本研究では,自己回帰型低遅延音声強調モデルの訓練において,単純かつ効果的な代替手法を提案する。
提案手法が多様なアーキテクチャやトレーニングシナリオにまたがって安定した改善をもたらすことを実証する。 Streaming models are an essential component of real-time speech enhancement tools. The streaming regime constrains speech enhancement models to use only a tiny context of future information. As a result, the low-latency streaming setup is generally considered a challenging task and has a significant negative impact on the model's quality. However, the sequential nature of streaming generation offers a natural possibility for autoregression, that is, utilizing previous predictions while making current ones. The conventional method for training autoregressive models is teacher forcing, but its primary drawback lies in the training-inference mismatch that can lead to a substantial degradation in quality. In this study, we propose a straightforward yet effective alternative technique for training autoregressive low-latency speech enhancement models. We demonstrate that the proposed approach leads to stable improvement across diverse architectures and training scenarios. | 翻訳日:2023-06-28 17:56:43 公開日:2023-06-27 |
# Blank Collapse: 高速デコードのためのCTCエミッション圧縮 Blank Collapse: Compressing CTC emission for the faster decoding ( http://arxiv.org/abs/2210.17017v2 ) ライセンス: Link先を確認 | Minkyu Jung, Ohhyeok Kwon, Seunghyun Seo, Soonshin Seo | (参考訳) コネクショニスト時間分類(ctc)モデルは、特に音声データに対してシーケンスをモデル化する非常に効率的な手法である。
CTCモデルを自動音声認識(ASR)タスクとして使用するためには,n-gram LMのような外部言語モデルを用いたビームサーチデコーディングが必要である。
本稿では,CTCビーム探索におけるブランクラベルを深く分析し,より高速なビーム探索復号を実現する計算量を削減するための非常に簡単な手法を提案する。
この方法では、LibriSpeechデータセットの精度が極めて低いまま、通常のビームサーチデコーディングよりも最大78%高速なデコーディングが可能となる。
本手法は, 実験だけでなく, 理論的にも数学的推論によって有効であることを示す。
また,モデルの精度が高ければ,この削減がより明確であることも確認した。 Connectionist Temporal Classification (CTC) model is a very efficient method for modeling sequences, especially for speech data. In order to use CTC model as an Automatic Speech Recognition (ASR) task, the beam search decoding with an external language model like n-gram LM is necessary to obtain reasonable results. In this paper we analyze the blank label in CTC beam search deeply and propose a very simple method to reduce the amount of calculation resulting in faster beam search decoding speed. With this method, we can get up to 78% faster decoding speed than ordinary beam search decoding with a very small loss of accuracy in LibriSpeech datasets. We prove this method is effective not only practically by experiments but also theoretically by mathematical reasoning. We also observe that this reduction is more obvious if the accuracy of the model is higher. | 翻訳日:2023-06-28 17:56:10 公開日:2023-06-27 |
# 自律ナビゲーションのためのベンチマーク強化学習技術 Benchmarking Reinforcement Learning Techniques for Autonomous Navigation ( http://arxiv.org/abs/2210.04839v2 ) ライセンス: Link先を確認 | Zifan Xu, Bo Liu, Xuesu Xiao, Anirudh Nair and Peter Stone | (参考訳) 深部強化学習(RL)は自律型ロボットナビゲーションに多くの成功をもたらした。
しかし、RLベースのナビゲーションシステムの現実的な使用を阻止する重要な制限がある。
例えば、ほとんどの学習アプローチは安全性の保証を欠いている。
これらの課題に対処するさまざまな学習テクニックにもかかわらず、自律ナビゲーションに特化したオープンソースのベンチマークと再現可能な学習手法が欠如しているため、ロボット工学者は、移動ロボットにどの学習方法を使うかを選択することが難しくなり、研究者は自律ナビゲーションの一般的な学習方法の現在の欠点を識別する。
本稿では,D1)不確実性を考慮した推論,(D2)安全性,(D3)限られた試行錯誤データからの学習,(D4)多種多様な新しい環境への一般化の4つの主要デシラタを同定する。
次に、メモリベースニューラルネットワークアーキテクチャ(D1)、セーフRL(D2)、モデルベースRL(D2,D3)、ドメインランダム化(D4)の4つのデシダータの1つ以上の達成を目的とした、学習技術の4つの主要なクラスを探索する。
新たなオープンソースの大規模ナビゲーションベンチマークと実世界の環境にこれらの学習技術をデプロイすることにより、これらの技術がRLベースのナビゲーションシステムに対してどの程度のデシラタを達成できるかを確定するための総合的研究を行う。 Deep reinforcement learning (RL) has brought many successes for autonomous robot navigation. However, there still exists important limitations that prevent real-world use of RL-based navigation systems. For example, most learning approaches lack safety guarantees; and learned navigation systems may not generalize well to unseen environments. Despite a variety of recent learning techniques to tackle these challenges in general, a lack of an open-source benchmark and reproducible learning methods specifically for autonomous navigation makes it difficult for roboticists to choose what learning methods to use for their mobile robots and for learning researchers to identify current shortcomings of general learning methods for autonomous navigation. In this paper, we identify four major desiderata of applying deep RL approaches for autonomous navigation: (D1) reasoning under uncertainty, (D2) safety, (D3) learning from limited trial-and-error data, and (D4) generalization to diverse and novel environments. Then, we explore four major classes of learning techniques with the purpose of achieving one or more of the four desiderata: memory-based neural network architectures (D1), safe RL (D2), model-based RL (D2, D3), and domain randomization (D4). By deploying these learning techniques in a new open-source large-scale navigation benchmark and real-world environments, we perform a comprehensive study aimed at establishing to what extent can these techniques achieve these desiderata for RL-based navigation systems. | 翻訳日:2023-06-28 17:55:29 公開日:2023-06-27 |
# 平面ボース気体中のタンの2体接触:実験対理論 Tan's two-body contact in a planar Bose gas: experiment vs theory ( http://arxiv.org/abs/2212.06857v2 ) ライセンス: Link先を確認 | Adam Ran\c{c}on and Nicolas Dupuis | (参考訳) 非摂動的関数的再正規化群を用いて、横高調波ポテンシャルで閉じ込められた平面ボース気体の2体接触を決定する。
接触の3次元熱力学的定義を用いて, ボソン系の3次元散乱長に対する準2次元系の圧力の導出に後者が関係している。
自由パラメータがなければ、Zou {\it et al.の実験データと顕著な一致が見られる。
と語っています。
連絡しろ
bf 12}, 760 (2021)] はベレジンスキー-コステルリッツ-トゥーレス遷移の近傍を含む低温から高温まで変化する。
また、対分布関数の短距離挙動と運動量分布の高運動量挙動は、2つの接触によって決定される: 長さの3次元接触は、調和ポテンシャルの標数長$\ell_z=\sqrt{\hbar/m\omega_z}$よりも小さく、長さスケールは$\ell_z$より大きいが、3次元の接触は$\ell_z$に依存する幾何学的因子によって決定される。 We determine the two-body contact in a planar Bose gas confined by a transverse harmonic potential, using the nonperturbative functional renormalization group. We use the three-dimensional thermodynamic definition of the contact where the latter is related to the derivation of the pressure of the quasi-two-dimensional system with respect to the three-dimensional scattering length of the bosons. Without any free parameter, we find a remarkable agreement with the experimental data of Zou {\it et al.} [Nat. Comm. {\bf 12}, 760 (2021)] from low to high temperatures, including the vicinity of the Berezinskii-Kosterlitz-Thouless transition. We also show that the short-distance behavior of the pair distribution function and the high-momentum behavior of the momentum distribution are determined by two contacts: the three-dimensional contact for length scales smaller than the characteristic length $\ell_z=\sqrt{\hbar/m\omega_z}$ of the harmonic potential and, for length scales larger than $\ell_z$, an effective two-dimensional contact, related to the three-dimensional one by a geometric factor depending on $\ell_z$. | 翻訳日:2023-06-28 17:47:49 公開日:2023-06-27 |
# アクティブ冷却による量子コンピュータ上のボルツマン分布 Boltzmann Distributions on a Quantum Computer via Active Cooling ( http://arxiv.org/abs/2212.06730v2 ) ライセンス: Link先を確認 | Carter Ball and Thomas D. Cohen | (参考訳) 量子コンピューティングは、現在難解な物理学における様々な問題を解決する可能性を高める。
そのような問題の多くは、熱平衡付近の系の物理学に関するものである。
量子コンピュータ上で熱期待値を計算する主な方法は2つある:熱期待値を再現する熱状態を構築するか、または与えられた温度のボルツマン分布から様々なエネルギー固有状態をサンプリングする。
本稿では,第2のアプローチを取り上げ,アクティブ冷却を用いて分布を生成するアルゴリズムを提案する。
このアルゴリズムは多種多様なシステムに適用できるが、qcdのような非可換ゲージ理論の熱的配置をシミュレートするという特別な意図で開発され、重イオン衝突によって生成されたクォークグルーオンプラズマの研究を可能にした。 Quantum computing raises the possibility of solving a variety of problems in physics that are presently intractable. A number of such problems involves the physics of systems in or near thermal equilibrium. There are two main ways to compute thermal expectation values on a quantum computer: construct a thermal state that reproduces thermal expectation values, or sample various energy eigenstates from a Boltzmann distribution of a given temperature. In this paper we address the second approach and propose an algorithm that uses active cooling to produce the distribution. While this algorithm is quite general and applicable to a wide variety of systems, it was developed with the specific intention of simulating thermal configurations of non-Abelian gauge theories such as QCD, which would allow the study of quark-gluon plasma created in heavy-ion collisions. | 翻訳日:2023-06-28 17:47:20 公開日:2023-06-27 |
# ランダム量子回路を用いたランダム化ベンチマーク Randomized benchmarking with random quantum circuits ( http://arxiv.org/abs/2212.06181v3 ) ライセンス: Link先を確認 | Markus Heinrich, Martin Kliesch, Ingo Roth | (参考訳) 多くの変種において、ランダム化ベンチマーク(RB)は量子コンピュータにおけるゲート実装の品質を評価するために広く用いられている手法である。
厳密な理論的な理解と一般的な保証がRBプロトコルの関数化と解釈のために存在する: 精査下のゲートがコンパクト群からランダムに一様に描かれる。
対照的に、実際に魅力的でスケーラブルなrbプロトコルの多くは、あるゲート集合からランダムに引き出される局所ゲートを持つランダム量子回路を実装している。
その存在にもかかわらず、非均一なrbプロトコルに対しては、実験的に妥当な仮定の下で任意のコンパクト群からのゲートに対する一般的な保証が欠落している。
本研究では,フィルタRBと呼ぶランダム回路に対して,大規模なRBプロトコルの保証を導出する。
代表的な例として、線形クロスエントロピーベンチマーク、文字ベンチマーク、ポーリノイズトモグラフィ、同時rbの変種がある。
近年のランダム回路に関する結果をもとに,線形深さのランダム量子回路を用いて,関連する多くのフィルタ付きrbスキームを実現できることを示した。
さらに,フィルタRBの一般試料複雑性境界を導出する。
高次クロストーク対応プロトコルを含むいくつかの関連グループにおいて,フィルタ付きrbはサンプル効率が高いことを示す。
非一様フィルタRBの理論は、原則として、非一様およびアナログ量子シミュレータのための新しいプロトコルを設計できるほど柔軟である。 In its many variants, randomized benchmarking (RB) is a broadly used technique for assessing the quality of gate implementations on quantum computers. A detailed theoretical understanding and general guarantees exist for the functioning and interpretation of RB protocols if the gates under scrutiny are drawn uniformly at random from a compact group. In contrast, many practically attractive and scalable RB protocols implement random quantum circuits with local gates randomly drawn from some gate-set. Despite their abundance in practice, for those non-uniform RB protocols, general guarantees for gates from arbitrary compact groups under experimentally plausible assumptions are missing. In this work, we derive such guarantees for a large class of RB protocols for random circuits that we refer to as filtered RB. Prominent examples include linear cross-entropy benchmarking, character benchmarking, Pauli-noise tomography and variants of simultaneous RB. Building upon recent results for random circuits, we show that many relevant filtered RB schemes can be realized with random quantum circuits in linear depth, and we provide explicit small constants for common instances. We further derive general sample complexity bounds for filtered RB. We show filtered RB to be sample-efficient for several relevant groups, including protocols addressing higher-order cross-talk. Our theory for non-uniform filtered RB is, in principle, flexible enough to design new protocols for non-universal and analog quantum simulators. | 翻訳日:2023-06-28 17:46:40 公開日:2023-06-27 |
# 予測性能の駆動力の測定:クレジット・スコーリングへの応用 Measuring the Driving Forces of Predictive Performance: Application to Credit Scoring ( http://arxiv.org/abs/2212.05866v3 ) ライセンス: Link先を確認 | Hu\'e Sullivan, Hurlin Christophe, P\'erignon Christophe and Saurin S\'ebastien | (参考訳) 信用スコアでは、機械学習モデルは標準パラメトリックモデルを上回ることが知られている。
クレジットへのアクセスを条件にするため、銀行監督と内部モデル検証チームは、予測パフォーマンスを監視し、パフォーマンスに最も影響した機能を特定する必要がある。
そこで本研究では,性能指標(auc,$r^2$など)を,分類や回帰モデルの様々な特徴に関連する特定の貢献に分解するxper手法を導入する。
XPERは理論上はShapley値に基づいており、モデル非依存とパフォーマンスメトリック非依存の両方である。
さらに、モデルレベルでも、個々のレベルでも実装できます。
自動車ローンの新たなデータセットを用いて、ローン申請者のデフォルト確率を予測するために訓練された機械学習モデルのAUCを分解する。
モデルパフォーマンスの驚くほど大きな部分を、少数の機能で説明できることを示しました。
さらに,モデルの予測性能に最も寄与する特徴は,個々の予測(SHAP)に最も寄与する特徴ではない可能性が示唆された。
また、XPERが異種問題に対処し、サンプル外のパフォーマンスを大幅に向上させる方法を示す。 In credit scoring, machine learning models are known to outperform standard parametric models. As they condition access to credit, banking supervisors and internal model validation teams need to monitor their predictive performance and to identify the features with the highest impact on performance. To facilitate this, we introduce the XPER methodology to decompose a performance metric (e.g., AUC, $R^2$) into specific contributions associated with the various features of a classification or regression model. XPER is theoretically grounded on Shapley values and is both model-agnostic and performance metric-agnostic. Furthermore, it can be implemented either at the model level or at the individual level. Using a novel dataset of car loans, we decompose the AUC of a machine-learning model trained to forecast the default probability of loan applicants. We show that a small number of features can explain a surprisingly large part of the model performance. Furthermore, we find that the features that contribute the most to the predictive performance of the model may not be the ones that contribute the most to individual forecasts (SHAP). We also show how XPER can be used to deal with heterogeneity issues and significantly boost out-of-sample performance. | 翻訳日:2023-06-28 17:46:18 公開日:2023-06-27 |
# トレーニングデータの影響分析と推定:調査 Training Data Influence Analysis and Estimation: A Survey ( http://arxiv.org/abs/2212.04612v2 ) ライセンス: Link先を確認 | Zayd Hammoudeh, Daniel Lowd | (参考訳) 良いモデルには良いトレーニングデータが必要です。
過剰パラメータの深層モデルでは、トレーニングデータとモデル予測の間の因果関係はますます不透明で理解されていない。
影響分析は、各トレーニングインスタンスが最終モデルを変更する量を定量化することで、トレーニングの基盤となるインタラクションを部分的に否定する。
トレーニングデータの影響を正確に測定することは、最悪の場合、確実に難しいことであり、これは、真の影響を近似するだけの影響推定器の開発と使用につながった。
本稿では,トレーニングデータの影響分析と推定に関する総合的な調査を行う。
我々はまず、さまざまな、直交する場所で、トレーニングデータの影響の定義を形式化することから始める。
それぞれの手法を詳細に説明し,それらの前提,漸近的複雑度,全体的な強みと弱さを比較した。
最後に, 影響分析を実践上, 理論上, 経験的にも有用にするための今後の研究指針を提案する。
影響分析に関する最新のリソースのリストはhttps://github.com/ZaydH/influence_analysis_papersで公開されている。 Good models require good training data. For overparameterized deep models, the causal relationship between training data and model predictions is increasingly opaque and poorly understood. Influence analysis partially demystifies training's underlying interactions by quantifying the amount each training instance alters the final model. Measuring the training data's influence exactly can be provably hard in the worst case; this has led to the development and use of influence estimators, which only approximate the true influence. This paper provides the first comprehensive survey of training data influence analysis and estimation. We begin by formalizing the various, and in places orthogonal, definitions of training data influence. We then organize state-of-the-art influence analysis methods into a taxonomy; we describe each of these methods in detail and compare their underlying assumptions, asymptotic complexities, and overall strengths and weaknesses. Finally, we propose future research directions to make influence analysis more useful in practice as well as more theoretically and empirically sound. A curated, up-to-date list of resources related to influence analysis is available at https://github.com/ZaydH/influence_analysis_papers. | 翻訳日:2023-06-28 17:45:59 公開日:2023-06-27 |
# ボース・アインシュタイン凝縮体の弱測定による加熱 Weak-Measurement-Induced Heating in Bose-Einstein Condensates ( http://arxiv.org/abs/2212.03431v2 ) ライセンス: Link先を確認 | Emine Altuntas and Ian B. Spielman | (参考訳) 超低温原子は多体系の系-保存力学を理解するのに理想的なプラットフォームである。
ここでは、原子ボース-アインシュタイン凝縮体における量子バックアクションを研究し、遠方共振子、すなわち分散相互作用、プローブレーザービームと弱い相互作用を行う。
原子によって散乱された光は、系の状態の変化が測定のバックアクションから導かれる量子測定プロセスの一部と見なすことができる。
得られたバックアクションを堆積エネルギーの観点から実験的に定量化する。
システムと環境の相互作用を一般化した計測プロセスでモデル化し,マルコフ貯水池を導出する。
さらに,成層圏の光学格子とプローブ誘起光アシスト衝突(本質的な原子過程)の2つの系統的熱損失源を同定した。
観察された加熱と損失率は、分子共鳴における損失の増加と分子共鳴間の損失の減少にともなう発振関数である赤脱調よりも青色脱調では大きい。 Ultracold atoms are an ideal platform for understanding system-reservoir dynamics of many-body systems. Here, we study quantum back-action in atomic Bose-Einstein condensates, weakly interacting with a far-from resonant, i.e., dispersively interacting, probe laser beam. The light scattered by the atoms can be considered as a part of quantum measurement process whereby the change in the system state derives from measurement back-action. We experimentally quantify the resulting back-action in terms of the deposited energy. We model the interaction of the system and environment with a generalized measurement process, leading to a Markovian reservoir. Further, we identify two systematic sources of heating and loss: a stray optical lattice and probe-induced light assisted collisions (an intrinsic atomic process). The observed heating and loss rates are larger for blue detuning than for red detuning, where they are oscillatory functions of detuning with increased loss at molecular resonances and reduced loss between molecular resonances. | 翻訳日:2023-06-28 17:45:43 公開日:2023-06-27 |
# 製品マニフォールドを用いた潜在グラフ推論 Latent Graph Inference using Product Manifolds ( http://arxiv.org/abs/2211.16199v3 ) ライセンス: Link先を確認 | Haitz S\'aez de Oc\'ariz Borde, Anees Kazi, Federico Barbero, Pietro Li\`o | (参考訳) グラフニューラルネットワークは通常、グラフトポロジがネットワークで利用可能であり、下流タスクに最適であるという仮定に依存する。
潜在グラフ推論は、モデルがデータの接続パターンが直接アクセスできない問題の固有グラフ構造を動的に学習することを可能にする。
本研究では,潜在グラフ学習のための離散微分可能グラフモジュール(ddgm)を一般化する。
元々のdDGMアーキテクチャはユークリッド平面を用いて、潜在グラフが生成される潜在特徴を符号化した。
リーマン幾何学をモデルに組み込んでより複雑な埋め込み空間を生成することにより、潜在グラフ推論システムの性能を向上させることができる。
特に,様々な構造の潜在特徴をエンコードできる定数曲率モデル空間の積多様体を生成できる計算可能な手法を提案する。
推定積多様体に写像された潜在表現は、最適化された潜在グラフを得るために、潜在グラフ学習モデルによって活用されるよりリッチな類似度測度を計算するために用いられる。
さらに、積多様体の曲率は、トレーニング中に他のネットワークパラメータと共に学習され、静的な埋め込み空間ではなく、下流のタスクに基づいて学習される。
我々の新しいアプローチは幅広いデータセットでテストされ、オリジナルのdDGMモデルよりも優れています。 Graph Neural Networks usually rely on the assumption that the graph topology is available to the network as well as optimal for the downstream task. Latent graph inference allows models to dynamically learn the intrinsic graph structure of problems where the connectivity patterns of data may not be directly accessible. In this work, we generalize the discrete Differentiable Graph Module (dDGM) for latent graph learning. The original dDGM architecture used the Euclidean plane to encode latent features based on which the latent graphs were generated. By incorporating Riemannian geometry into the model and generating more complex embedding spaces, we can improve the performance of the latent graph inference system. In particular, we propose a computationally tractable approach to produce product manifolds of constant curvature model spaces that can encode latent features of varying structure. The latent representations mapped onto the inferred product manifold are used to compute richer similarity measures that are leveraged by the latent graph learning model to obtain optimized latent graphs. Moreover, the curvature of the product manifold is learned during training alongside the rest of the network parameters and based on the downstream task, rather than it being a static embedding space. Our novel approach is tested on a wide range of datasets, and outperforms the original dDGM model. | 翻訳日:2023-06-28 17:45:08 公開日:2023-06-27 |
# 特化ニューラルネットワークによるトモグラフィ推定の改善 Improved Tomographic Estimates by Specialised Neural Networks ( http://arxiv.org/abs/2211.11655v2 ) ライセンス: Link先を確認 | Massimiliano Guarneri, Ilaria Gianani, Marco Barbieri and Andrea Chiuri | (参考訳) 量子オブジェクトを状態、プロセス、測定値であるキャラクタリゼーションは、それらに関する以前の知識によって補完され、特に実際のコンポーネントのルーチン手順につながるので、貴重なアプローチである。
この目的のために、機械学習アルゴリズムはノイズの存在下で、特に特定の物理パラメータを推定するためにうまく動作することを示した。
本稿では、畳み込み段階を含むことにより、ニューラルネットワーク(NN)がパラメータのトモグラフィー推定を改善することを示す。
本手法を量子プロセストモグラフィに応用し,複数の量子チャネルの特性評価を行った。
シミュレーションデータのみを用いてネットワークをトレーニングすることにより,安定かつ信頼性の高い操作が実現可能であることを示す。
その結果,量子システムによって生成された古典データに基づくnnsの雇用における,全く新しいパラダイムに基づく効果的なツールとしての有効性が示された。 Characterization of quantum objects, being them states, processes, or measurements, complemented by previous knowledge about them is a valuable approach, especially as it leads to routine procedures for real-life components. To this end, Machine Learning algorithms have demonstrated to successfully operate in presence of noise, especially for estimating specific physical parameters. Here we show that a neural network (NN) can improve the tomographic estimate of parameters by including a convolutional stage. We applied our technique to quantum process tomography for the characterization of several quantum channels. We demonstrate that a stable and reliable operation is achievable by training the network only with simulated data. The obtained results show the viability of this approach as an effective tool based on a completely new paradigm for the employment of NNs operating on classical data produced by quantum systems. | 翻訳日:2023-06-28 17:44:48 公開日:2023-06-27 |
# AI駆動科学発見のためのGFlowNets GFlowNets for AI-Driven Scientific Discovery ( http://arxiv.org/abs/2302.00615v2 ) ライセンス: Link先を確認 | Moksh Jain, Tristan Deleu, Jason Hartford, Cheng-Hao Liu, Alex Hernandez-Garcia, Yoshua Bengio | (参考訳) 気候危機や世界的なパンデミックの脅威など、人類にとって最も差し迫った問題に取り組むためには、科学的発見のペースを早める必要がある。
科学は伝統的に試行錯誤やセレンディピティーに依存してきたが、過去数十年はデータ駆動の科学的発見が急増している。
しかし、大規模なデータセットと高スループットの実験的なセットアップを真に活用するためには、機械学習手法をさらに改良し、科学的発見パイプラインに統合する必要がある。
この文脈における現在の機械学習手法の重要な課題は、非常に大きな探索空間の効率的な探索である。
これはGFlowNetsと呼ばれる新しい確率論的機械学習フレームワークを動機付け、実験科学ループのモデリング、仮説生成、実験的な設計段階に適用することができる。
gflownetsは、非正規化確率に対応する報奨関数によって間接的に与えられた分布からサンプルを学習する。
GFlowNetsは、既に取得した実験データに条件付けされた因果モデルに対して、効率的で償却されたベイズ後部推定器を形成するためにも使用できる。
このような後続モデルを持つことで、認識の不確実性と情報ゲインの推定者が実験的な設計方針を推し進めることができる。
ここでは、GFlowNetsがAIによる科学的発見のための貴重なツールになり得る、と論じる。特に、安価だが不正確な測定や、高価で正確な測定にアクセスできる非常に大きな候補空間のシナリオでは。
これは薬物や物質の発見の文脈において一般的な設定であり、論文全体の例として使用しています。 Tackling the most pressing problems for humanity, such as the climate crisis and the threat of global pandemics, requires accelerating the pace of scientific discovery. While science has traditionally relied on trial and error and even serendipity to a large extent, the last few decades have seen a surge of data-driven scientific discoveries. However, in order to truly leverage large-scale data sets and high-throughput experimental setups, machine learning methods will need to be further improved and better integrated in the scientific discovery pipeline. A key challenge for current machine learning methods in this context is the efficient exploration of very large search spaces, which requires techniques for estimating reducible (epistemic) uncertainty and generating sets of diverse and informative experiments to perform. This motivated a new probabilistic machine learning framework called GFlowNets, which can be applied in the modeling, hypotheses generation and experimental design stages of the experimental science loop. GFlowNets learn to sample from a distribution given indirectly by a reward function corresponding to an unnormalized probability, which enables sampling diverse, high-reward candidates. GFlowNets can also be used to form efficient and amortized Bayesian posterior estimators for causal models conditioned on the already acquired experimental data. Having such posterior models can then provide estimators of epistemic uncertainty and information gain that can drive an experimental design policy. Altogether, here we will argue that GFlowNets can become a valuable tool for AI-driven scientific discovery, especially in scenarios of very large candidate spaces where we have access to cheap but inaccurate measurements or to expensive but accurate measurements. This is a common setting in the context of drug and material discovery, which we use as examples throughout the paper. | 翻訳日:2023-06-28 17:39:33 公開日:2023-06-27 |
# DiffSTG:拡散モデルを用いた確率的時空間グラフ予測 DiffSTG: Probabilistic Spatio-Temporal Graph Forecasting with Denoising Diffusion Models ( http://arxiv.org/abs/2301.13629v2 ) ライセンス: Link先を確認 | Haomin Wen, Youfang Lin, Yutong Xia, Huaiyu Wan, Qingsong Wen, Roger Zimmermann, Yuxuan Liang | (参考訳) 時空間グラフニューラルネットワーク(STGNN)が時空間グラフ(STG)予測の主流モデルとなっている。
成功にもかかわらず、STGデータ内の本質的な不確実性のモデル化には失敗し、意思決定の下流タスクにおける実用性を損なう。
本稿では,不確実性や複雑なST依存のモデル化が困難であることから,確率的STG予測に焦点をあてる。
本研究では,STGの拡散確率モデルを一般化する最初の試みとして,DiffSTGと呼ばれる新しい非自己回帰的フレームワークと,STGのためのネットワークUGnetを提案する。
提案手法は,STGNNの時空間学習能力と拡散モデルの不確実性測定を組み合わせたものである。
広範な実験により、diffstgは連続ランク付き確率スコア(crps)を4%-14%削減し、ルート平均二乗誤差(rmse)を3つの実世界のデータセット上の既存の方法よりも2%-7%削減できることが確認された。 Spatio-temporal graph neural networks (STGNN) have emerged as the dominant model for spatio-temporal graph (STG) forecasting. Despite their success, they fail to model intrinsic uncertainties within STG data, which cripples their practicality in downstream tasks for decision-making. To this end, this paper focuses on probabilistic STG forecasting, which is challenging due to the difficulty in modeling uncertainties and complex ST dependencies. In this study, we present the first attempt to generalize the popular denoising diffusion probabilistic models to STGs, leading to a novel non-autoregressive framework called DiffSTG, along with the first denoising network UGnet for STG in the framework. Our approach combines the spatio-temporal learning capabilities of STGNNs with the uncertainty measurements of diffusion models. Extensive experiments validate that DiffSTG reduces the Continuous Ranked Probability Score (CRPS) by 4%-14%, and Root Mean Squared Error (RMSE) by 2%-7% over existing methods on three real-world datasets. | 翻訳日:2023-06-28 17:39:02 公開日:2023-06-27 |
# GibbsDDRM: 難解な逆問題と解法拡散回復のための部分崩壊ギブスサンプリング器 GibbsDDRM: A Partially Collapsed Gibbs Sampler for Solving Blind Inverse Problems with Denoising Diffusion Restoration ( http://arxiv.org/abs/2301.12686v2 ) ライセンス: Link先を確認 | Naoki Murata, Koichi Saito, Chieh-Hsin Lai, Yuhta Takida, Toshimitsu Uesaka, Yuki Mitsufuji, and Stefano Ermon | (参考訳) 事前学習された拡散モデルは様々な線形逆問題において先行的に用いられており、ノイズの多い線形測定から信号を再構成することを目的としている。
しかし、既存のアプローチは線型作用素の知識を必要とする。
本稿では,線形計測演算子が不明なブラインド設定への拡張であるgibbsddrmを提案する。
GibbsDDRMは、事前学習した拡散モデルを用いて、データ、測定、線形演算子の結合分布を構築し、ギブスサンプリング器の効率的な変種による後方サンプリングによって問題を解決する。
提案手法は問題に依存しないため,様々な逆問題に対して事前学習した拡散モデルを適用することができる。
実験では、基礎となる線形演算子に単純なジェネリックプリミティブを用いたにもかかわらず、ブラインド画像のデブロアリングと音声のデバベーションタスクの両方で高い性能を達成した。 Pre-trained diffusion models have been successfully used as priors in a variety of linear inverse problems, where the goal is to reconstruct a signal from noisy linear measurements. However, existing approaches require knowledge of the linear operator. In this paper, we propose GibbsDDRM, an extension of Denoising Diffusion Restoration Models (DDRM) to a blind setting in which the linear measurement operator is unknown. GibbsDDRM constructs a joint distribution of the data, measurements, and linear operator by using a pre-trained diffusion model for the data prior, and it solves the problem by posterior sampling with an efficient variant of a Gibbs sampler. The proposed method is problem-agnostic, meaning that a pre-trained diffusion model can be applied to various inverse problems without fine-tuning. In experiments, it achieved high performance on both blind image deblurring and vocal dereverberation tasks, despite the use of simple generic priors for the underlying linear operators. | 翻訳日:2023-06-28 17:38:44 公開日:2023-06-27 |
# 長寿命コヒーレンスをバイパスした量子熱化ダイナミクスの超加速:解析的処理 Hyper-acceleration of quantum thermalization dynamics by bypassing long-lived coherences: An analytical treatment ( http://arxiv.org/abs/2301.06135v2 ) ライセンス: Link先を確認 | Felix Ivander, Nicholas Anto-Sztrikacs, Dvira Segal | (参考訳) 我々はマルコフ量子散逸ダイナミクスを解くための摂動的手法を開発し、摂動パラメータは固有スペクトルの小さなギャップである。
例えば、量子コヒーレンスが非常に長い時間持続し、エネルギー分割2乗の逆に比例する、準退化励起状態を持つ3レベル系の力学を解析的に得る。
次に、この長寿命コヒーレントダイナミクスをバイパスし、超指数的方法で熱平衡への緩和を加速する方法を示し、マルコフ量子支援mpemba様効果を示す。
この平衡過程の過度加速は、初期状態が慎重に準備されている場合、そのコヒーレンスが初期状態から平衡状態への緩和する人口の量を正確に記憶するように現れる。
量子散逸ダイナミクスを解く解析手法は、平衡時間スケールを容易に提供し、それゆえ、力学におけるコヒーレントかつ非コヒーレントな効果がいかに相互に作用するかを明らかにする。
さらに、長い寿命の量子コヒーレンスが停滞する力学において望ましい緩和過程の加速についてアドバイスする。 We develop a perturbative technique for solving Markovian quantum dissipative dynamics, with the perturbation parameter being a small gap in the eigenspectrum. As an example, we apply the technique and straightforwardly obtain analytically the dynamics of a three-level system with quasidegenerate excited states, where quantum coherences persist for very long times, proportional to the inverse of the energy splitting squared. We then show how to bypass this long-lived coherent dynamics and accelerate the relaxation to thermal equilibration in a hyper-exponential manner, a Markovian quantum-assisted Mpemba-like effect. This hyper acceleration of the equilibration process manifests if the initial state is carefully prepared, such that its coherences precisely store the amount of population relaxing from the initial condition to the equilibrium state. Our analytical method for solving quantum dissipative dynamics readily provides equilibration timescales, and as such it reveals how coherent and incoherent effects interlace in the dynamics. It further advices on how to accelerate relaxation processes, which is desirable when long-lived quantum coherences stagnate dynamics. | 翻訳日:2023-06-28 17:38:12 公開日:2023-06-27 |
# エッジの端に到達する:宇宙における画像解析 Reaching the Edge of the Edge: Image Analysis in Space ( http://arxiv.org/abs/2301.04954v2 ) ライセンス: Link先を確認 | Robert Bayer (1), Julian Priest (1), P{\i}nar T\"oz\"un (1) ((1) IT University of Copenhagen) | (参考訳) 衛星は、部品のサイズとコストの削減により、より広く利用可能になった。
その結果、さまざまなデータ集約アプリケーションを備えた衛星を運用する能力を持つ小さな組織が出現した。
一般的な応用の一つは、地球観測のために陸、氷、雲などを検出するための画像解析である。
しかし、衛星に展開する装置の資源制約の性質は、この資源集約的な応用にさらなる課題をもたらす。
本稿では,衛星用画像処理ユニット(IPU)の構築について,その課題と教訓について述べる。
まず,各種エッジデバイス(CPU,GPU,TPU,VPUなど)の衛星でのディープラーニング画像処理の性能について検討する。
私たちの目標は、衛星の電力とレイテンシの制約を満たしながら、正確な結果を達成し、ワークロードが変化しても柔軟であるデバイスを特定することです。
この結果から,ASICやGPUなどのハードウェアアクセラレータは,レイテンシ要件を満たす上で不可欠であることが示唆された。
しかし、GPUを使った最先端のエッジデバイスは、衛星への配備に多くの電力を消費する可能性がある。
次に,IPUモジュールの開発を今後の衛星ミッションに導くために,性能解析から得られた知見を用いた。
このようなモジュールを既存の衛星アーキテクチャに統合する方法と、このモジュールを利用する様々なミッションをサポートするために必要なソフトウェアについて詳述する。 Satellites have become more widely available due to the reduction in size and cost of their components. As a result, there has been an advent of smaller organizations having the ability to deploy satellites with a variety of data-intensive applications to run on them. One popular application is image analysis to detect, for example, land, ice, clouds, etc. for Earth observation. However, the resource-constrained nature of the devices deployed in satellites creates additional challenges for this resource-intensive application. In this paper, we present our work and lessons-learned on building an Image Processing Unit (IPU) for a satellite. We first investigate the performance of a variety of edge devices (comparing CPU, GPU, TPU, and VPU) for deep-learning-based image processing on satellites. Our goal is to identify devices that can achieve accurate results and are flexible when workload changes while satisfying the power and latency constraints of satellites. Our results demonstrate that hardware accelerators such as ASICs and GPUs are essential for meeting the latency requirements. However, state-of-the-art edge devices with GPUs may draw too much power for deployment on a satellite. Then, we use the findings gained from the performance analysis to guide the development of the IPU module for an upcoming satellite mission. We detail how to integrate such a module into an existing satellite architecture and the software necessary to support various missions utilizing this module. | 翻訳日:2023-06-28 17:37:51 公開日:2023-06-27 |
# Mu$^{2}$SLAM:マルチタスク、多言語音声、言語モデル Mu$^{2}$SLAM: Multitask, Multilingual Speech and Language Models ( http://arxiv.org/abs/2212.09553v2 ) ライセンス: Link先を確認 | Yong Cheng, Yu Zhang, Melvin Johnson, Wolfgang Macherey, Ankur Bapna | (参考訳) 自動音声認識(asr)、自動音声翻訳(ast)、機械翻訳(mt)にまたがる教師付きデータとラベルなし音声とラベルなしテキストを100以上の言語で事前学習した多言語系列対シーケンスモデルであるmu$^{2}$slamを提案する。
Mu$^{2}$SLAM は、ターゲットとして音声の量子化表現を活用することにより、デコーダ上の T5 に類似したシークエンスとエンコーダ上のマスク付き言語モデリング(MLM)の目的で音声テキストモデルを訓練し、教師付きタスクを活用して、モデル内の言語間およびモーダル間の表現アライメントを改善する。
CoVoST ASTでは、Mu$^{2}$SLAMが、公開データセットでトレーニングされたモデルの新たな最先端性を確立し、xx-en翻訳を1.9 BLEUポイント、en-xx翻訳を1.1 BLEUポイントで改善した。
voxpopuli asrでは,sequence-to-sequenceアーキテクチャが比較的弱いにもかかわらず,rnn-tデコーダで微調整されたmslamモデルの性能に適合する。
テキスト理解タスクでは、XNLI上のmSLAMよりも6\%以上向上し、XNLIとTydiQAで同等の能力を持つmT5モデルの性能に近づき、すべての音声およびテキスト理解タスクの単一モデルへの道を開いた。 We present Mu$^{2}$SLAM, a multilingual sequence-to-sequence model pre-trained jointly on unlabeled speech, unlabeled text and supervised data spanning Automatic Speech Recognition (ASR), Automatic Speech Translation (AST) and Machine Translation (MT), in over 100 languages. By leveraging a quantized representation of speech as a target, Mu$^{2}$SLAM trains the speech-text models with a sequence-to-sequence masked denoising objective similar to T5 on the decoder and a masked language modeling (MLM) objective on the encoder, for both unlabeled speech and text, while utilizing the supervised tasks to improve cross-lingual and cross-modal representation alignment within the model. On CoVoST AST, Mu$^{2}$SLAM establishes a new state-of-the-art for models trained on public datasets, improving on xx-en translation over the previous best by 1.9 BLEU points and on en-xx translation by 1.1 BLEU points. On Voxpopuli ASR, our model matches the performance of an mSLAM model fine-tuned with an RNN-T decoder, despite using a relatively weaker sequence-to-sequence architecture. On text understanding tasks, our model improves by more than 6\% over mSLAM on XNLI, getting closer to the performance of mT5 models of comparable capacity on XNLI and TydiQA, paving the way towards a single model for all speech and text understanding tasks. | 翻訳日:2023-06-28 17:37:03 公開日:2023-06-27 |
# WACO:音声翻訳のための単語対応コントラスト学習 WACO: Word-Aligned Contrastive Learning for Speech Translation ( http://arxiv.org/abs/2212.09359v2 ) ライセンス: Link先を確認 | Siqi Ouyang, Rong Ye, Lei Li | (参考訳) エンドツーエンド音声翻訳(E2E ST)は、ソース音声を直接ターゲットテキストに変換することを目的としている。
既存のST手法は、訓練用に極小の音声テキストデータしか利用できない場合、性能が良くない。
その結果,stモデルの性能は,音声と音源の書き起こしの類似性と密接に関連していることがわかった。
本稿では,低リソース音声からテキストへの翻訳をシンプルかつ効果的に行うための単語適応型協調学習(WACO)を提案する。
私たちの重要なアイデアは、コントラスト学習を通じて、音声とテキストのモダリティの単語レベルの表現を橋渡しすることです。
提案手法は,stベンチマークとして広く用いられている must-c データセットや iwslt 2023 の低リソース方向maltese-english を用いて,waco などの手法を評価した。
実験の結果,WACOは1時間並列STデータのみで,9以上のBLEUポイントで最高のベースラインを達成できた。
コードはhttps://github.com/owaski/wacoで入手できる。 End-to-end Speech Translation (E2E ST) aims to directly translate source speech into target text. Existing ST methods perform poorly when only extremely small speech-text data are available for training. We observe that an ST model's performance closely correlates with its embedding similarity between speech and source transcript. In this paper, we propose Word-Aligned COntrastive learning (WACO), a simple and effective method for extremely low-resource speech-to-text translation. Our key idea is bridging word-level representations for both speech and text modalities via contrastive learning. We evaluate WACO and other methods on the MuST-C dataset, a widely used ST benchmark, and on a low-resource direction Maltese-English from IWSLT 2023. Our experiments demonstrate that WACO outperforms the best baseline by 9+ BLEU points with only 1-hour parallel ST data. Code is available at https://github.com/owaski/WACO. | 翻訳日:2023-06-28 17:36:29 公開日:2023-06-27 |
# 高次元における最大内積探索の高速化 Faster Maximum Inner Product Search in High Dimensions ( http://arxiv.org/abs/2212.07551v3 ) ライセンス: Link先を確認 | Mo Tiwari, Ryan Kang, Je-Yong Lee, Donghyun Lee, Chris Piech, Sebastian Thrun, Ilan Shomorony, Martin Jinye Zhang | (参考訳) 最大内部製品探索(MIPS)は、リコメンデーションシステムなどの機械学習アプリケーションにおいて、ユビキタスなタスクである。
クエリベクトルと$d$次元空間における$n$原子ベクトルが与えられた場合、MIPSの目標は、クエリベクトルで最高内部積を持つ原子を見つけることである。
既存のMIPSアルゴリズムは少なくとも$O(\sqrt{d})$としてスケールし、高次元設定では計算が禁止される。
本稿では、$d$に依存しない新しいランダム化MIPSアルゴリズムであるBanditMIPSを紹介する。
BanditMIPSは、各原子の内部積を座標をサブサンプリングすることで推定し、より有望な原子に対するより多くの座標を適応的に評価する。
特定の適応サンプリング戦略はマルチアームのバンディットによって動機づけられる。
我々は、banditmipsが正しい答えを高い確率で返すことを理論的に保証する一方で、$d$の複雑さを$o(\sqrt{d})$から$o(1)$に改善する。
また、4つの合成および実世界のデータセットの実験を行い、BanditMIPSが最先端のアルゴリズムよりも優れていることを示す。
例えば、Movie Lensデータセット($$4,000,$d$=6,000)では、BanditMIPSは同じ答えを返す間、次の最適なアルゴリズムよりも20$\times$高速である。
BanditMIPSはデータの事前処理を必要とせず、実践者が正確性と実行をトレードオフするために使用するハイパーパラメータを含んでいる。
また、座標をまたいだ一様サンプリングを用いてさらなる高速化を実現するBanditMIPS-$\alpha$というアルゴリズムの変種を提案する。
最後に,前処理技術がバンディットのさらなる高速化にどのように役立つかを実証し,マッチング追従とフーリエ解析への応用について考察する。 Maximum Inner Product Search (MIPS) is a ubiquitous task in machine learning applications such as recommendation systems. Given a query vector and $n$ atom vectors in $d$-dimensional space, the goal of MIPS is to find the atom that has the highest inner product with the query vector. Existing MIPS algorithms scale at least as $O(\sqrt{d})$, which becomes computationally prohibitive in high-dimensional settings. In this work, we present BanditMIPS, a novel randomized MIPS algorithm whose complexity is independent of $d$. BanditMIPS estimates the inner product for each atom by subsampling coordinates and adaptively evaluates more coordinates for more promising atoms. The specific adaptive sampling strategy is motivated by multi-armed bandits. We provide theoretical guarantees that BanditMIPS returns the correct answer with high probability, while improving the complexity in $d$ from $O(\sqrt{d})$ to $O(1)$. We also perform experiments on four synthetic and real-world datasets and demonstrate that BanditMIPS outperforms prior state-of-the-art algorithms. For example, in the Movie Lens dataset ($n$=4,000, $d$=6,000), BanditMIPS is 20$\times$ faster than the next best algorithm while returning the same answer. BanditMIPS requires no preprocessing of the data and includes a hyperparameter that practitioners may use to trade off accuracy and runtime. We also propose a variant of our algorithm, named BanditMIPS-$\alpha$, which achieves further speedups by employing non-uniform sampling across coordinates. Finally, we demonstrate how known preprocessing techniques can be used to further accelerate BanditMIPS, and discuss applications to Matching Pursuit and Fourier analysis. | 翻訳日:2023-06-28 17:36:12 公開日:2023-06-27 |
# 量子状態合成のための量子マーリン・アーサー証明系 Quantum Merlin-Arthur proof systems for synthesizing quantum states ( http://arxiv.org/abs/2303.01877v3 ) ライセンス: Link先を確認 | Hugo Delavenne, Fran\c{c}ois Le Gall, Yupan Liu, and Masayuki Miyamoto | (参考訳) 複雑性理論は典型的には古典的な入力と出力を用いて計算問題を解くことの難しさに焦点を当てる。
量子の世界では、異なる複雑性の概念、すなわち量子状態の合成の複雑さを適用することは自然である。
我々は,多項式時間量子検証器を用いて,全能だが信頼できない証明器からの単一量子メッセージの助けを借りて,特定の量子状態を作成することに関心を持つNPクラスである状態QMAについて検討する。
これは最近Rosenthal and Yuen (ITCS 2022)によって導入されたクラス状態QIPのサブクラスであり、証明子と検証子の間の多項式的に多くの相互作用を可能にする。
我々の主な成果は、指数的に小さなギャップや有界空間を持つクラスと、このクラスが他の基本状態合成クラス、すなわち、一様多項式時間量子回路(stateBQP)と空間一様多項式空間量子回路(statePSPACE)によって生成される状態とどのように関連しているかの誤差の低減である。
さらに,UQMAの目撃者の家族は,最も自然な候補の1つであることが確認された。
さらに、状態QCMAが完全な完全性を達成することを示す。 Complexity theory typically focuses on the difficulty of solving computational problems using classical inputs and outputs, even with a quantum computer. In the quantum world, it is natural to apply a different notion of complexity, namely the complexity of synthesizing quantum states. We investigate a state-synthesizing counterpart of the class NP, referred to as stateQMA, which is concerned with preparing certain quantum states through a polynomial-time quantum verifier with the aid of a single quantum message from an all-powerful but untrusted prover. This is a subclass of the class stateQIP recently introduced by Rosenthal and Yuen (ITCS 2022), which permits polynomially many interactions between the prover and the verifier. Our main result consists of error reduction of this class and its variants with an exponentially small gap or a bounded space, as well as how this class relates to other fundamental state synthesizing classes, i.e., states generated by uniform polynomial-time quantum circuits (stateBQP) and space-uniform polynomial-space quantum circuits (statePSPACE). Furthermore, we establish that the family of UQMA witnesses, considered as one of the most natural candidates, is in stateQMA. Additionally, we demonstrate that stateQCMA achieves perfect completeness. | 翻訳日:2023-06-28 17:28:22 公開日:2023-06-27 |
# GraphSR:不均衡ノード分類のためのデータ拡張アルゴリズム GraphSR: A Data Augmentation Algorithm for Imbalanced Node Classification ( http://arxiv.org/abs/2302.12814v2 ) ライセンス: Link先を確認 | Mengting Zhou and Zhiguo Gong | (参考訳) グラフニューラルネットワーク(gnns)は、ノード分類タスクで大きな成功を収めた。
しかし、既存のGNNは当然、ラベル付きデータが多い多数派クラスに偏り、ラベル付きデータが少ない少数派クラスを無視している。
伝統的な手法はしばしば過剰なサンプリング手法を用いるが、オーバーフィットの原因となる可能性がある。
最近では、ラベル付きノードからマイノリティクラスのためのノードを追加する提案もあるが、これらの生成されたノードが実際に対応するマイノリティクラスを表すかどうかの保証はない。
実際、不適切に合成されたノードはアルゴリズムの一般化が不十分になる可能性がある。
この問題を解決するため,本稿では,グラフの非ラベルノードからマイノリティクラスを自動的に拡張する手法を提案する。
具体的には,類似性に基づく選択モジュールと強化学習(rl)選択モジュールに基づく,ラベルなしノードの大幅な多様性を持つマイノリティクラスを増強する,新しい自己学習戦略である \textit{graphsr} を提案する。
第1のモジュールはラベル付きマイノリティノードと最もよく似ている未ラベルノードのサブセットを見つけ、第2のモジュールはRL技術を介してサブセットから代表ノードと信頼性ノードを更に決定する。
さらに、RLベースのモジュールは、現在のトレーニングデータに従ってサンプリングスケールを適応的に決定することができる。
この戦略は一般的であり、異なるGNNモデルと簡単に組み合わせることができる。
提案手法は,様々なクラス不均衡データセットにおける最先端のベースラインよりも優れていることを示す。 Graph neural networks (GNNs) have achieved great success in node classification tasks. However, existing GNNs naturally bias towards the majority classes with more labelled data and ignore those minority classes with relatively few labelled ones. The traditional techniques often resort over-sampling methods, but they may cause overfitting problem. More recently, some works propose to synthesize additional nodes for minority classes from the labelled nodes, however, there is no any guarantee if those generated nodes really stand for the corresponding minority classes. In fact, improperly synthesized nodes may result in insufficient generalization of the algorithm. To resolve the problem, in this paper we seek to automatically augment the minority classes from the massive unlabelled nodes of the graph. Specifically, we propose \textit{GraphSR}, a novel self-training strategy to augment the minority classes with significant diversity of unlabelled nodes, which is based on a Similarity-based selection module and a Reinforcement Learning(RL) selection module. The first module finds a subset of unlabelled nodes which are most similar to those labelled minority nodes, and the second one further determines the representative and reliable nodes from the subset via RL technique. Furthermore, the RL-based module can adaptively determine the sampling scale according to current training data. This strategy is general and can be easily combined with different GNNs models. Our experiments demonstrate the proposed approach outperforms the state-of-the-art baselines on various class-imbalanced datasets. | 翻訳日:2023-06-28 17:27:55 公開日:2023-06-27 |
# ターゲット拡張による領域外ロバスト性 Out-of-Domain Robustness via Targeted Augmentations ( http://arxiv.org/abs/2302.11861v2 ) ライセンス: Link先を確認 | Irena Gao, Shiori Sagawa, Pang Wei Koh, Tatsunori Hashimoto, Percy Liang | (参考訳) あるドメインでトレーニングされたモデルは、例えば野生生物の監視モデルが新しいカメラの場所にデプロイされる場合など、目に見えないドメインのパフォーマンス低下を被ることが多い。
本研究では、外部ドメイン(OOD)一般化のためのデータ拡張を設計するための原則について研究する。
特に、ドメインに依存しないいくつかの機能が堅牢である実世界のシナリオ、すなわちドメイン毎に異なるいくつかの機能は予測OODである。
例えば、上記の野生生物モニタリングアプリケーションでは、画像の背景はカメラの場所によって異なるが、生息地のタイプを示す。
線形設定に関する理論的解析に動機づけられ,ロバストな特徴を保ちながらスプリアスなドメイン依存特徴を選択的にランダム化する目標拡張法を提案する。
対象の拡張によってOOD性能が向上し、より少ないドメインでモデルを一般化できることを示す。
対照的に、ドメイン依存機能のランダム化に失敗したジェネリック拡張や、すべてのドメイン依存機能のランダム化を行うドメイン不変拡張といった既存のアプローチは、いずれもOODが不十分である。
実世界の3つのデータセットの実験では、ターゲット拡張によってOODのパフォーマンスが3.2~15.2%向上した。 Models trained on one set of domains often suffer performance drops on unseen domains, e.g., when wildlife monitoring models are deployed in new camera locations. In this work, we study principles for designing data augmentations for out-of-domain (OOD) generalization. In particular, we focus on real-world scenarios in which some domain-dependent features are robust, i.e., some features that vary across domains are predictive OOD. For example, in the wildlife monitoring application above, image backgrounds vary across camera locations but indicate habitat type, which helps predict the species of photographed animals. Motivated by theoretical analysis on a linear setting, we propose targeted augmentations, which selectively randomize spurious domain-dependent features while preserving robust ones. We prove that targeted augmentations improve OOD performance, allowing models to generalize better with fewer domains. In contrast, existing approaches such as generic augmentations, which fail to randomize domain-dependent features, and domain-invariant augmentations, which randomize all domain-dependent features, both perform poorly OOD. In experiments on three real-world datasets, we show that targeted augmentations set new states-of-the-art for OOD performance by 3.2-15.2%. | 翻訳日:2023-06-28 17:27:33 公開日:2023-06-27 |
# 最大エントロピー強化学習によるテキストベースのアドベンチャーゲームの学習 Learning to Play Text-based Adventure Games with Maximum Entropy Reinforcement Learning ( http://arxiv.org/abs/2302.10720v2 ) ライセンス: Link先を確認 | Weichen Li, Rati Devidze, Sophie Fellenz | (参考訳) テキストベースのゲームは、言語ベースの強化学習(RL)で人気のあるテストベッドである。
従来の研究では、ディープラーニングは学習エージェントとして一般的に使用される。
q-learningアルゴリズムは、例えばトレーニングにおける不安定性のため、複雑な実世界ドメインに適用するのが困難である。
そこで本稿では,sac(soft-actor-critic)アルゴリズムをテキストベース環境に適用する。
環境からの疎外報酬に対処するため,RLエージェントにより情報的(高密度)報酬信号を提供するために,潜在的報酬形成技術と組み合わせた。
本手法は,難解なテキストベースのゲームに応用する。
SAC法は、トレーニングステップの半数しか持たない多くのゲームにおいて、Q-Learning法よりも高いスコアを達成する。
これはテキストベースのゲームに適していることを示している。
さらに,報酬形成技術は,エージェントが政策をより早く学習し,より高いスコアを得るのに役立つことを示す。
特に,動的学習値関数は,学習者の本来のスパース報酬信号を形成する潜在関数である。 Text-based games are a popular testbed for language-based reinforcement learning (RL). In previous work, deep Q-learning is commonly used as the learning agent. Q-learning algorithms are challenging to apply to complex real-world domains due to, for example, their instability in training. Therefore, in this paper, we adapt the soft-actor-critic (SAC) algorithm to the text-based environment. To deal with sparse extrinsic rewards from the environment, we combine it with a potential-based reward shaping technique to provide more informative (dense) reward signals to the RL agent. We apply our method to play difficult text-based games. The SAC method achieves higher scores than the Q-learning methods on many games with only half the number of training steps. This shows that it is well-suited for text-based games. Moreover, we show that the reward shaping technique helps the agent to learn the policy faster and achieve higher scores. In particular, we consider a dynamically learned value function as a potential function for shaping the learner's original sparse reward signals. | 翻訳日:2023-06-28 17:27:10 公開日:2023-06-27 |
# 開ハイゼンベルクスピン鎖におけるスピンスクイーズ Spin squeezing in open Heisenberg spin chains ( http://arxiv.org/abs/2302.09829v2 ) ライセンス: Link先を確認 | Tanaus\'u Hern\'andez Yanes, Giedrius \v{Z}labys, Marcin P{\l}odzie\'n, Domantas Burba, Ma\v{z}ena Mackoit Sinkevi\v{c}ien\.e, Emilia Witkowska, Gediminas Juzeli\=unas | (参考訳) スピンスクイージングプロトコルは、第2次量子革命の重要な柱である絡み合った多体量子状態を生成することに成功した。
最近の研究(Phys. Rev. Lett. 129, 090403 (2022))では、単一レーザー場によって誘導される位置依存スピン-フリップカップリングを伴うとき、周期的境界条件を持つハイゼンベルクスピン-1/2鎖で、1軸ねじれモデルで記述されたスピンスクイーズが生成されることを示した。
この研究は、周期状態から開状態への境界条件の変化がスピンスクイージングダイナミクスを著しく修飾していることを解析的に示している。
幅広いツイストモデル群は、特定の条件下での1軸および2軸のツイストを含む弱結合状態の系によってシミュレートされ、ハイゼンベルクのスクイーズとダイナミクスの加速レベルを提供する。
全数値シミュレーションで解析結果が確認された。 Spin squeezing protocols successfully generate entangled many-body quantum states, the key pillars of the second quantum revolution. In our recent work [Phys. Rev. Lett. 129, 090403 (2022)] we showed that spin squeezing described by the one-axis twisting model could be generated in the Heisenberg spin-1/2 chain with periodic boundary conditions when accompanied by a position-dependent spin-flip coupling induced by a single laser field. This work shows analytically that the change of boundary conditions from the periodic to the open ones significantly modifies spin squeezing dynamics. A broad family of twisting models can be simulated by the system in the weak coupling regime, including the one- and two-axis twisting under specific conditions, providing the Heisenberg level of squeezing and acceleration of the dynamics. Full numerical simulations confirm our analytical findings. | 翻訳日:2023-06-28 17:26:56 公開日:2023-06-27 |
# 大規模言語モデルの監査: 3層アプローチ Auditing large language models: a three-layered approach ( http://arxiv.org/abs/2302.08500v2 ) ライセンス: Link先を確認 | Jakob M\"okander, Jonas Schuett, Hannah Rose Kirk, Luciano Floridi | (参考訳) 大規模言語モデル(LLM)は人工知能(AI)研究における大きな進歩を表している。
しかし、LLMの普及は、重大な倫理的・社会的課題とも結びついている。
従来の研究は、AIシステムが倫理的、法的、技術的に堅牢な方法で設計され、デプロイされることを保証するための、有望なガバナンスメカニズムとしての監査を指している。
しかし、既存の監査手順は、広範囲の下流タスクに適応可能な緊急能力を示すLCMによってもたらされるガバナンス上の課題に対処できない。
本稿では,LSMの監査方法に関する新しい青写真について概説し,そのギャップに対処する。
具体的には、ガバナンス監査(LLMの設計と普及を行う技術プロバイダの)、モデル監査(LLMの事前トレーニング後だがリリース前)、アプリケーション監査(LLMベースのアプリケーション)が相互に補完し、通知する3層的なアプローチを提案する。
LLMがもたらす倫理的・社会的リスクの特定と管理において,3つのレベルすべてにおいて,監査が構造化・調整された方法で実施され,効果的に実施可能であることを示す。
しかし、監査が適切に達成できることについては、現実的に続けることが重要です。
そこで我々は,3層化アプローチの限界だけでなく,LCMの監査の可能性についても論じる。
本稿は,LLMを技術的,倫理的,法的視点から分析・評価したい技術提供者や政策立案者に対して,方法論的ツールキットの拡大を目指す。 Large language models (LLMs) represent a major advance in artificial intelligence (AI) research. However, the widespread use of LLMs is also coupled with significant ethical and social challenges. Previous research has pointed towards auditing as a promising governance mechanism to help ensure that AI systems are designed and deployed in ways that are ethical, legal, and technically robust. However, existing auditing procedures fail to address the governance challenges posed by LLMs, which display emergent capabilities and are adaptable to a wide range of downstream tasks. In this article, we address that gap by outlining a novel blueprint for how to audit LLMs. Specifically, we propose a three-layered approach, whereby governance audits (of technology providers that design and disseminate LLMs), model audits (of LLMs after pre-training but prior to their release), and application audits (of applications based on LLMs) complement and inform each other. We show how audits, when conducted in a structured and coordinated manner on all three levels, can be a feasible and effective mechanism for identifying and managing some of the ethical and social risks posed by LLMs. However, it is important to remain realistic about what auditing can reasonably be expected to achieve. Therefore, we discuss the limitations not only of our three-layered approach but also of the prospect of auditing LLMs at all. Ultimately, this article seeks to expand the methodological toolkit available to technology providers and policymakers who wish to analyse and evaluate LLMs from technical, ethical, and legal perspectives. | 翻訳日:2023-06-28 17:26:35 公開日:2023-06-27 |
# この損失は有益ですか。
客観的ダイナミクスの追跡によるテキスト・画像の高速カスタマイズ Is This Loss Informative? Faster Text-to-Image Customization by Tracking Objective Dynamics ( http://arxiv.org/abs/2302.04841v2 ) ライセンス: Link先を確認 | Anton Voronov, Mikhail Khoroshikh, Artem Babenko, Max Ryabinin | (参考訳) テキスト・ツー・イメージ生成モデルは、画像合成における進化の次のステップを表しており、フレキシブルできめ細かい制御を実現する自然な方法を提供する。
新たな研究領域の1つは、より小さなデータセットや新しい視覚概念への大きなテキスト・ツー・イメージモデルの迅速な適応である。
しかし、多くの効率的な適応手法はトレーニング時間が長く、実用的応用を制限し、研究実験を遅くし、過度のgpuリソースを消費する。
本研究では,テキストから画像へのパーソナライズ手法(テキストインバージョンやdreamboothなど)の学習ダイナミクスについて検討した。
ほとんどの概念は初期段階で学習され、その後の品質は向上しないが、標準的なモデル収束メトリクスはそれを示さない。
そこで我々は,すべての学習イテレーションにおいて,一定の入力セットで正規のトレーニング目標を計算するだけでよい,簡単なドロップイン早期停止基準を提案する。
様々な概念と3つのパーソナライズ手法に対する安定拡散実験により,提案手法の競争性が示され,適応度が最大8倍速くなり,品質の低下はみられなかった。 Text-to-image generation models represent the next step of evolution in image synthesis, offering a natural way to achieve flexible yet fine-grained control over the result. One emerging area of research is the fast adaptation of large text-to-image models to smaller datasets or new visual concepts. However, many efficient methods of adaptation have a long training time, which limits their practical applications, slows down research experiments, and spends excessive GPU resources. In this work, we study the training dynamics of popular text-to-image personalization methods (such as Textual Inversion or DreamBooth), aiming to speed them up. We observe that most concepts are learned at early stages and do not improve in quality later, but standard model convergence metrics fail to indicate that. Instead, we propose a simple drop-in early stopping criterion that only requires computing the regular training objective on a fixed set of inputs for all training iterations. Our experiments on Stable Diffusion for a range of concepts and for three personalization methods demonstrate the competitive performance of our approach, making adaptation up to 8 times faster with no significant drops in quality. | 翻訳日:2023-06-28 17:26:07 公開日:2023-06-27 |
# 平滑化オンライン学習への応用による近似拒絶サンプリングのサンプル複雑性 The Sample Complexity of Approximate Rejection Sampling with Applications to Smoothed Online Learning ( http://arxiv.org/abs/2302.04658v2 ) ライセンス: Link先を確認 | Adam Block and Yury Polyanskiy | (参考訳) 分布$\mu$から$n$独立サンプルにアクセスでき、出力をターゲットディストリビューション$\nu$に可能な限り近いものにすることを目標に、その中の1つを出力したいとします。
この研究において、n$ の関数としての最適な全変動距離は、すべての対のクラスに対して$\nu,\mu$ で与えられ、有界な $f$-divergence $d_f(\nu\|\mu)\leq d$ が与えられる。
以前は、この問題は、$\mu$に対する$\nu$のラドン・ニコディム微分が一様有界である場合にのみ研究された。
次に、一見全く異なるスムーズなオンライン学習分野の応用を考えると、ミニマックスの後悔とオラクル効率アルゴリズムの後悔は、(ラドン-ニコディムの有界な微分とは対照的に、$f$-divergenceを有界とする)敵のゆるい制約の下でも保たれていることを示す。
最後に,関数クラス全体に対する平均推定値に対する重要サンプリングの有効性について検討し,また,重要サンプリングと拒絶サンプリングを比較した。 Suppose we are given access to $n$ independent samples from distribution $\mu$ and we wish to output one of them with the goal of making the output distributed as close as possible to a target distribution $\nu$. In this work we show that the optimal total variation distance as a function of $n$ is given by $\tilde\Theta(\frac{D}{f'(n)})$ over the class of all pairs $\nu,\mu$ with a bounded $f$-divergence $D_f(\nu\|\mu)\leq D$. Previously, this question was studied only for the case when the Radon-Nikodym derivative of $\nu$ with respect to $\mu$ is uniformly bounded. We then consider an application in the seemingly very different field of smoothed online learning, where we show that recent results on the minimax regret and the regret of oracle-efficient algorithms still hold even under relaxed constraints on the adversary (to have bounded $f$-divergence, as opposed to bounded Radon-Nikodym derivative). Finally, we also study efficacy of importance sampling for mean estimates uniform over a function class and compare importance sampling with rejection sampling. | 翻訳日:2023-06-28 17:25:46 公開日:2023-06-27 |
# 物理的に可塑性データ駆動モデルに向けて:シンボリック回帰に対する新しいニューラルネットワークアプローチ Toward Physically Plausible Data-Driven Models: A Novel Neural Network Approach to Symbolic Regression ( http://arxiv.org/abs/2302.00773v3 ) ライセンス: Link先を確認 | Ji\v{r}\'i Kubal\'ik, Erik Derner, Robert Babu\v{s}ka | (参考訳) 多くの実世界のシステムは、人間が理解でき、分析しやすく、システムの振る舞いを説明するのに役立つ数学的モデルによって記述することができる。
記号回帰はデータからそのようなモデルを自動生成する手法である。
歴史的に、象徴的回帰は、遺伝的操作者による交叉と突然変異によって修正される候補解の集団を進化させる遺伝的プログラミングによって主に実現されてきた。
しかし、このアプローチにはいくつかの欠点がある: トレーニングデータ中の変数やサンプルの数とうまくスケールしない - モデルは適切な精度を得ることなく、サイズや複雑さが大きくなる傾向にあり、遺伝的演算子だけでモデル係数を微調整することは困難である。
近年,勾配に基づく最適化アルゴリズムを用いて,解析モデル全体,すなわちその構造と係数の学習にニューラルネットワークが適用されている。
本稿では,非常に小さなトレーニングデータセットとシステムに関する事前知識に基づいて,物理的に妥当なモデルを構築するニューラルネットワークに基づく新しい記号回帰手法を提案する。
本手法では,複数の損失関数項を効果的に扱える適応重み付け方式と,局所最適度が低い場合に立ち往生する確率を抑えるエポックな学習過程を用いる。
さらに,学習プロセス全体で生成されたすべてのモデルの中から,最適な補間と補間性能を持つモデルを選択するパラメータフリー手法を提案する。
本研究では,TurtleBot 2移動ロボット,磁気操作システム,2つの抵抗の等価抵抗,アンチロックブレーキシステムの長手力の4つの試験システムに対するアプローチを実験的に評価した。
以上の結果から,従来の知識に適合した類似モデルを見つける方法の可能性が明らかとなった。 Many real-world systems can be described by mathematical models that are human-comprehensible, easy to analyze and help explain the system's behavior. Symbolic regression is a method that can automatically generate such models from data. Historically, symbolic regression has been predominantly realized by genetic programming, a method that evolves populations of candidate solutions that are subsequently modified by genetic operators crossover and mutation. However, this approach suffers from several deficiencies: it does not scale well with the number of variables and samples in the training data - models tend to grow in size and complexity without an adequate accuracy gain, and it is hard to fine-tune the model coefficients using just genetic operators. Recently, neural networks have been applied to learn the whole analytic model, i.e., its structure and the coefficients, using gradient-based optimization algorithms. This paper proposes a novel neural network-based symbolic regression method that constructs physically plausible models based on even very small training data sets and prior knowledge about the system. The method employs an adaptive weighting scheme to effectively deal with multiple loss function terms and an epoch-wise learning process to reduce the chance of getting stuck in poor local optima. Furthermore, we propose a parameter-free method for choosing the model with the best interpolation and extrapolation performance out of all the models generated throughout the whole learning process. We experimentally evaluate the approach on four test systems: the TurtleBot 2 mobile robot, the magnetic manipulation system, the equivalent resistance of two resistors in parallel, and the longitudinal force of the anti-lock braking system. The results clearly show the potential of the method to find parsimonious models that comply with the prior knowledge provided. | 翻訳日:2023-06-28 17:25:23 公開日:2023-06-27 |
# 量子多体スナップショットのゆらぎに基づく解釈解析手法 Fluctuation based interpretable analysis scheme for quantum many-body snapshots ( http://arxiv.org/abs/2304.06029v2 ) ライセンス: Link先を確認 | Henning Schl\"omer, Annabelle Bohrdt | (参考訳) 物質の微視的理解と分類は、強相関量子物理学の中心にある。
量子シミュレーションでは、系内の相関の完全な情報を含む多体状態の真の射影的測定(スナップショット)を行うことができる。
ディープニューラルネットワークの台頭により、大規模データセットの抽象処理や分類タスクを日常的に解決することが可能となり、量子データ解析の指導手として機能する。
しかし、物体の異なる相の違いを区別することに成功したが、従来のニューラルネットワークは物理的足場における解釈可能性にほとんど欠けていた。
ここでは、相関関数の観点から完全に解釈可能な位相検出をもたらす相関畳み込みニューラルネットワークと混同学習を組み合わせる。
特に, 2次元ハイゼンベルク模型の熱力学特性について検討し, トレーニングしたネットワークは, 磁気相関が著しく長距離となる特性温度以下で, スナップショットの質的変化を捉えることができることを示した。
我々は、近接するスピン相関の完全なカウント統計を、局所観測値の平均を超えるニューラルネットワークの決定過程における最も重要な量として特定する。
高温超伝導体における擬ギャップ相の磁気的性質に類似した、二階相関の揺らぎ(高次の長距離相関からの寄与を間接的に含む)へのアクセスにより、ネットワークは特定の熱とスピン感受性の変化を検出することができる。
混乱学習スキームをトランスフォーマーニューラルネットワークと組み合わせることで、解釈可能な量子画像処理における新しい方向が長距離オーダーに適応できる。 Microscopically understanding and classifying phases of matter is at the heart of strongly-correlated quantum physics. With quantum simulations, genuine projective measurements (snapshots) of the many-body state can be taken, which include the full information of correlations in the system. The rise of deep neural networks has made it possible to routinely solve abstract processing and classification tasks of large datasets, which can act as a guiding hand for quantum data analysis. However, though proven to be successful in differentiating between different phases of matter, conventional neural networks mostly lack interpretability on a physical footing. Here, we combine confusion learning with correlation convolutional neural networks, which yields fully interpretable phase detection in terms of correlation functions. In particular, we study thermodynamic properties of the 2D Heisenberg model, whereby the trained network is shown to pick up qualitative changes in the snapshots above and below a characteristic temperature where magnetic correlations become significantly long-range. We identify the full counting statistics of nearest neighbor spin correlations as the most important quantity for the decision process of the neural network, which go beyond averages of local observables. With access to the fluctuations of second-order correlations -- which indirectly include contributions from higher order, long-range correlations -- the network is able to detect changes of the specific heat and spin susceptibility, the latter being in analogy to magnetic properties of the pseudogap phase in high-temperature superconductors. By combining the confusion learning scheme with transformer neural networks, our work opens new directions in interpretable quantum image processing being sensible to long-range order. | 翻訳日:2023-06-28 17:19:34 公開日:2023-06-27 |
# 非エルミート系における位相的モノモード Topological Monomodes in non-Hermitian Systems ( http://arxiv.org/abs/2304.05748v2 ) ライセンス: Link先を確認 | E. Slootman, W. Cherifi, L. Eek, R. Arouca, E. J. Bergholtz, M. Bourennane, C. Morais Smith | (参考訳) トポロジカルモノモディは、磁気モノポールと同じくらい長い間解明されてきた。
後者は凝縮マター系の効果的な記述において実験的に現れることが示されているが、前者の実験的探索は、構想されたセットアップの複雑さによってほとんど妨げられている。
本稿では, トポロジカル・モノモディクスを動的に生成する, 極めて単純なモデルと実験的観察について述べる。
非エルミート一次元 (1D) と 2D Su-Schrieffer-Heeger (SSH) モデルに焦点をあてることで, 工学的損失と格子対称性の破れによるトポロジ的モノモデを実現するための最小構成を理論的に明らかにする。
さらに、対応する位相不変量を計算する(非エルミート)対称性の観点で系を分類する。
この理論を裏付けるために、非エルミート 1D と 2D SSH モデルでモノモードが観測されるフォトニック格子の実験を行い、トポロジカルコーナー状態がペアに現れるというパラダイムを破る。
トポロジカルモノモディは、組換えの防止によってコーナー状態の堅牢性を高めるため、フォトニクスや量子光学に深く影響する可能性がある。 Topological monomodes have been for long as elusive as magnetic monopoles. The latter was experimentally shown to emerge in effective descriptions of condensed-matter systems, while the experimental exploration of the former has largely been hindered by the complexity of the conceived setups. Here, we present a remarkably simple model and the experimental observation of topological monomodes generated dynamically. By focusing on non-Hermitian one-dimensional (1D) and 2D Su-Schrieffer-Heeger (SSH) models, we theoretically unveil the minimal configuration to realize a topological monomode upon engineering losses and breaking of lattice symmetries. Furthermore, we classify the systems in terms of the (non-Hermitian) symmetries that are present and calculate the corresponding topological invariants. To corroborate the theory, we present experiments in photonic lattices, in which a monomode is observed in the non-Hermitian 1D and 2D SSH models, thus breaking the paradigm that topological corner states should appear in pairs. Our findings might have profound implications for photonics and quantum optics because topological monomodes increase the robustness of corner states by preventing recombination. | 翻訳日:2023-06-28 17:19:07 公開日:2023-06-27 |
# ハイブリッド音源を用いた非同期計測デバイス非依存量子鍵分布 Asynchronous measurement-device-independent quantum key distribution with hybrid source ( http://arxiv.org/abs/2304.04569v2 ) ライセンス: Link先を確認 | Jun-Lin Bai, Yuan-Mei Xie, Yao Fu, Hua-Lei Yin, Zeng-Bing Chen | (参考訳) 秘密鍵レート容量の線形制約は、チューフィールド量子鍵分布(QKD)によって克服される。
しかし、複雑な位相同期と位相追跡技術は、ツインフィールドプロトコルの実際の応用を阻害する。
非同期計測デバイス非依存(AMDI)QKDあるいはモードペアリングQKDプロトコルは、技術的要求を緩和し、ツインフィールドプロトコルと同様の性能を維持することができる。
本稿では,位相ランダム化弱コヒーレント状態から位相ランダム化コヒーレント状態重畳状態に変化させることにより,非古典光源を用いたAMDI-QKDプロトコルを提案する。
シミュレーションの結果,提案プロトコルはAMDI-QKDプロトコルの鍵レートを大幅に向上するとともに,非古典光源の不完全変調に対するロバスト性を示した。 The linear constraint of secret key rate capacity is overcome by the tiwn-field quantum key distribution (QKD). However, the complex phase-locking and phase-tracking technique requirements throttle the real-life applications of twin-field protocol. The asynchronous measurement-device-independent (AMDI) QKD or called mode-pairing QKD protocol can relax the technical requirements and keep the similar performance of twin-field protocol. Here, we propose an AMDI-QKD protocol with a nonclassical light source by changing the phase-randomized weak coherent state to a phase-randomized coherent-state superposition in the signal state time window. Simulation results show that our proposed hybrid source protocol significantly enhances the key rate of the AMDI-QKD protocol, while exhibiting robustness to imperfect modulation of nonclassical light sources. | 翻訳日:2023-06-28 17:18:44 公開日:2023-06-27 |
# EPVT:皮膚病変認識における領域一般化のための環境対応プロンプトビジョントランス EPVT: Environment-aware Prompt Vision Transformer for Domain Generalization in Skin Lesion Recognition ( http://arxiv.org/abs/2304.01508v3 ) ライセンス: Link先を確認 | Siyuan Yan, Chi Liu, Zhen Yu, Lie Ju, Dwarikanath Mahapatrainst, Victoria Mar, Monika Janda, Peter Soyer, Zongyuan Ge | (参考訳) 深層学習を用いた皮膚病変認識は目覚ましい進歩を遂げており、現実のシナリオにこれらのシステムをデプロイする必要性が高まっている。
しかし、近年の研究では、皮膚病変認識のための深層ニューラルネットワークが、疾患に関係のない画像アーティファクト(ダークコーナー、濃密な毛髪など)に過度に依存し、目に見えない環境での一般化を損なう可能性があることが判明している。
この問題に対処するために,視覚変換器にプロンプトを埋め込み,多様な領域から知識を協調的に学習するEPVTと呼ばれる新しい領域一般化手法を提案する。
具体的には、EPVTはドメインの専門家として機能する一連のドメインプロンプトを活用して、ドメイン固有の知識をキャプチャします。
知識共有と異なるプロンプトの相互作用を容易にするため,ドメインプロンプトと共有プロンプト間の低ランク乗算更新を可能にするドメインプロンプト生成手法を提案する。
ドメインのミックスアップ戦略は、各ドメインの共起アーティファクトを減らすためにさらに考案され、より柔軟な決定マージンを可能にし、誤って割り当てられたドメインラベルの問題を軽減する。
4つの分布外データセットと6つのバイアス付きISICデータセットの実験は、様々な環境における皮膚病変認識におけるEVVTのより優れた一般化能力を示す。
コードはhttps://github.com/siyuanyan1/epvtで評価できる。 Skin lesion recognition using deep learning has made remarkable progress, and there is an increasing need for deploying these systems in real-world scenarios. However, recent research has revealed that deep neural networks for skin lesion recognition may overly depend on disease-irrelevant image artifacts (i.e., dark corners, dense hairs), leading to poor generalization in unseen environments. To address this issue, we propose a novel domain generalization method called EPVT, which involves embedding prompts into the vision transformer to collaboratively learn knowledge from diverse domains. Concretely, EPVT leverages a set of domain prompts, each of which plays as a domain expert, to capture domain-specific knowledge; and a shared prompt for general knowledge over the entire dataset. To facilitate knowledge sharing and the interaction of different prompts, we introduce a domain prompt generator that enables low-rank multiplicative updates between domain prompts and the shared prompt. A domain mixup strategy is additionally devised to reduce the co-occurring artifacts in each domain, which allows for more flexible decision margins and mitigates the issue of incorrectly assigned domain labels. Experiments on four out-of-distribution datasets and six different biased ISIC datasets demonstrate the superior generalization ability of EPVT in skin lesion recognition across various environments. Code is avaliable at https://github.com/SiyuanYan1/EPVT. | 翻訳日:2023-06-28 17:18:30 公開日:2023-06-27 |
# 半変態アンザッツ:量子相空間におけるクォーコニウムダイナミクス The Half Transform Ansatz: Quarkonium Dynamics in Quantum Phase Space ( http://arxiv.org/abs/2303.16356v3 ) ライセンス: Link先を確認 | Gabriel Nowaskie | (参考訳) Torres-VegaとFrederickによる基礎研究以来、量子位相空間表現(Quantum Phase Space Representation, QPSR)は様々な物理系を解く方法として研究されてきた。
最近、valentino a. simpao は qpsr における時間依存シュロディンガー方程式 (tdse) を解くためのheaviside operational ansatz 法を開発したが、qpsr における時間依存シュロディンガー方程式を解くための一般的な直接法は存在しない。
相空間におけるクォーコニウムの現在の定式化も存在しない。
本論文では、コーネルポテンシャルを用いた非相対論的重クォークの強い相互作用を記述し、ニキフォロフ・ウバロフ法による位相空間波関数とそのエネルギー固有値の解法として、シュロディンガー方程式を超幾何学形式にキャストする手法であるハーフ変換アンザッツを提案する。
この解は多項式と相互項からなる硬化ポテンシャルを持つ任意の2つの粒子系に対して一般化することができる。
これらの結果は実験結果や他の理論モデルと比較される。
また,これらの波動関数の挙動を解析し,円周運動量とチャームアンチチャーム中間子の存在限界との関係を示唆する。 Since the groundwork published by Torres-Vega and Frederick, the Quantum Phase Space Representation (QPSR) has been explored as a method for solving a multitude of physical systems and describing phenomena. Most recently, Valentino A. Simpao has developed a method, the Heaviside Operational Ansatz, to solve the Time Dependent Schrodinger Equation (TDSE) in the QPSR, but there are still no general, direct methods to solve the Time Independent Schrodinger Equation in the QPSR. There is also no current formulation of quarkonium in phase space. In this paper, we describe the strong interactions of non-relativistic heavy quarks using the Cornell potential, and present a method, the Half-Transform Ansatz, to cast the Schrodinger Equation into a hyper-geometric form which can be solved for the phase space wave function and its energy eigenvalues using the Nikiforov-Uvarov method. This solution can be generalized for any two particle system with a scleronomic potential made up of polynomial and reciprocal terms. These results are compared to experimental results and other theoretical models. We also analyze the behavior of these wave functions, which suggest a correlation between radial momentum and the upper limit of existence in charm-anticharm mesons. | 翻訳日:2023-06-28 17:18:04 公開日:2023-06-27 |
# びまん性グリオーマ分類のための組織学と分子マーカーのマルチタスク学習 Multi-task Learning of Histology and Molecular Markers for Classifying Diffuse Glioma ( http://arxiv.org/abs/2303.14845v3 ) ライセンス: Link先を確認 | Xiaofei Wang and Stephen Price and Chao Li | (参考訳) 最近のがんの病理診断は、分子製造と組織学的特徴の統合にシフトしつつある。
分子マーカーと組織学を効果的に統合するデジタル病理学法が緊急に必要であり、現実世界のシナリオにおいてより正確な診断につながる可能性がある。
本稿では,分子マーカーと組織学的特徴を共同で予測し,その相互作用をモデル化するための最初の試みについて述べる。
具体的には,組織学と分子マーカーを共同で予測する階層型マルチタスクマルチインスタンス学習フレームワークを提案する。
さらに,分子マーカーの共起をモデル化する共起確率に基づくラベル補正グラフネットワークを提案する。
最後に,組織学と分子マーカーの相互作用をモデル化するために,動的信頼度制約損失を伴うオミック間相互作用戦略を設計する。
実験により, 拡散グリオーマの分類法や, 関連組織学, 分子マーカーを多施設データセットで比較した。 Most recently, the pathology diagnosis of cancer is shifting to integrating molecular makers with histology features. It is a urgent need for digital pathology methods to effectively integrate molecular markers with histology, which could lead to more accurate diagnosis in the real world scenarios. This paper presents a first attempt to jointly predict molecular markers and histology features and model their interactions for classifying diffuse glioma bases on whole slide images. Specifically, we propose a hierarchical multi-task multi-instance learning framework to jointly predict histology and molecular markers. Moreover, we propose a co-occurrence probability-based label correction graph network to model the co-occurrence of molecular markers. Lastly, we design an inter-omic interaction strategy with the dynamical confidence constraint loss to model the interactions of histology and molecular markers. Our experiments show that our method outperforms other state-of-the-art methods in classifying diffuse glioma,as well as related histology and molecular markers on a multi-institutional dataset. | 翻訳日:2023-06-28 17:17:37 公開日:2023-06-27 |
# チューブリンク:ユニバーサルビデオセグメンテーションのためのフレキシブルクロスチューブベースライン Tube-Link: A Flexible Cross Tube Baseline for Universal Video Segmentation ( http://arxiv.org/abs/2303.12782v2 ) ライセンス: Link先を確認 | Xiangtai Li, Haobo Yuan, Wenwei Zhang, Guangliang Cheng, Jiangmiao Pang, Chen Change Loy | (参考訳) ビデオセグメンテーションの目標は、さまざまなシナリオにおいて、すべてのピクセルを正確にセグメンテーションし、追跡することだ。
本稿では,ビデオセグメンテーションの複数のコアタスクを統一アーキテクチャで処理する汎用フレームワークであるTube-Linkを提案する。
我々のフレームワークは、短いサブクリップを入力として取り、対応する時空間管マスクを出力するほぼオンラインアプローチである。
クロスチューブ関係のモデリングを強化するために,クエリに沿って注目してチューブレベルのリンクを行う効果的な方法を提案する。
さらに, 時間的コントラスト学習を, チューブレベルの関連性に対するインスタンス単位の識別的特徴に導入する。
我々のアプローチは、データセットやシナリオのニーズに応じて各サブクリップの長さを変更できるため、短いビデオ入力と長いビデオ入力の両方に柔軟性と効率性を提供します。
Tube-Linkは5つのビデオセグメンテーションデータセットにおいて、既存の特殊なアーキテクチャよりも優れたパフォーマンスを示している。
具体的には、VIPSegの相対的な13%の改善と、強力なベースラインであるVideo K-NetよりもKITTI-STEPの4%改善を実現している。
Youtube-VIS-2019 と 2021 で ResNet50 のバックボーンを使用する場合、Tune-Link は IDOL を 3% と 4% に向上させる。
コードは利用可能だ。 The goal of video segmentation is to accurately segment and track every pixel in diverse scenarios. In this paper, we present Tube-Link, a versatile framework that addresses multiple core tasks of video segmentation with a unified architecture. Our framework is a near-online approach that takes a short subclip as input and outputs the corresponding spatial-temporal tube masks. To enhance the modeling of cross-tube relationships, we propose an effective way to perform tube-level linking via attention along the queries. In addition, we introduce temporal contrastive learning to instance-wise discriminative features for tube-level association. Our approach offers flexibility and efficiency for both short and long video inputs, as the length of each subclip can be varied according to the needs of datasets or scenarios. Tube-Link outperforms existing specialized architectures by a significant margin on five video segmentation datasets. Specifically, it achieves almost 13% relative improvements on VIPSeg and 4% improvements on KITTI-STEP over the strong baseline Video K-Net. When using a ResNet50 backbone on Youtube-VIS-2019 and 2021, Tube-Link boosts IDOL by 3% and 4%, respectively. Code will be available. | 翻訳日:2023-06-28 17:17:20 公開日:2023-06-27 |
# mCPT at SemEval-2023 Task 3: Multilingual Label-Aware Contrastive Pre-Training of Transformer for Few- and Zero-shot Framing Detection mCPT at SemEval-2023 Task 3: Multilingual Label-Aware Contrastive Pre-Training of Transformers for Few- and Zero-shot Framing Detection ( http://arxiv.org/abs/2303.09901v2 ) ライセンス: Link先を確認 | Markus Reiter-Haas, Alexander Ertl, Kevin Innerhofer, Elisabeth Lex | (参考訳) 本稿では,ゼロショット・スパニッシュ・フレーミング検出タスクの勝利システムについて述べる。
フレーミング検出タスクの課題は、サンプルが数個または0個しかない場合に、14個のフレームのセットを識別することである。
提案手法は,ラベル認識型コントラスト損失関数を用いた多言語変換器に基づく事前学習手法を用いる。
本システムを説明することに加えて, プレトレーニングがフレーミング検出をどのように支援し, 計算フレーミング解析を推し進めるかを実証するために, 埋め込み空間解析およびアブレーション研究を行う。 This paper presents the winning system for the zero-shot Spanish framing detection task, which also achieves competitive places in eight additional languages. The challenge of the framing detection task lies in identifying a set of 14 frames when only a few or zero samples are available, i.e., a multilingual multi-label few- or zero-shot setting. Our developed solution employs a pre-training procedure based on multilingual Transformers using a label-aware contrastive loss function. In addition to describing the system, we perform an embedding space analysis and ablation study to demonstrate how our pre-training procedure supports framing detection to advance computational framing analysis. | 翻訳日:2023-06-28 17:16:59 公開日:2023-06-27 |
# 多地点多領域気道木モデリング(ATM'22):肺気道セグメンテーションのための公開ベンチマーク Multi-site, Multi-domain Airway Tree Modeling (ATM'22): A Public Benchmark for Pulmonary Airway Segmentation ( http://arxiv.org/abs/2303.05745v3 ) ライセンス: Link先を確認 | Minghui Zhang, Yangqian Wu, Hanxiao Zhang, Yulei Qin, Hao Zheng, Wen Tang, Corey Arnold, Chenhao Pei, Pengxin Yu, Yang Nan, Guang Yang, Simon Walsh, Dominic C. Marshall, Matthieu Komorowski, Puyang Wang, Dazhou Guo, Dakai Jin, Ya'nan Wu, Shuiqing Zhao, Runsheng Chang, Boyu Zhang, Xing Lv, Abdul Qayyum, Moona Mazher, Qi Su, Yonghuang Wu, Ying'ao Liu, Yufei Zhu, Jiancheng Yang, Ashkan Pakzad, Bojidar Rangelov, Raul San Jose Estepar, Carlos Cano Espinosa, Jiayuan Sun, Guang-Zhong Yang, Yun Gu | (参考訳) オープンな国際課題は、コンピュータビジョンと画像分析アルゴリズムを評価するデファクトスタンダードになりつつある。
近年,画像解像度の限界に近い肺気道セグメンテーションの到達範囲を拡大する手法が提案されている。
EXACT'09の肺気道セグメンテーション以来、深層学習に基づくアプローチの成熟と、肺疾患の早期介入のための遠位気道の細部細部を解明するための臨床ドライブにより、新たに出現したアルゴリズムの定量的比較に限られた努力が向けられている。
今のところ、パブリックアノテートデータセットは非常に制限されており、データ駆動手法の開発や新しいアルゴリズムの詳細な性能評価を妨げている。
医療画像コミュニティのためのベンチマークとして,MICCAI 2022カンファレンスで公式のチャレンジイベントとして開催されたマルチサイト多領域気道木モデリング(ATM'22)を組織した。
atm'22は、500のctスキャン(トレーニング300、検証50、テスト150)を含む、詳細な肺気道アノテーションを備えた大規模なctスキャンを提供する。
データセットはさまざまな場所から収集され、さらにノイズの多い新型コロナウイルス(COVID-19)CTの一部が含まれていた。
課題の全フェーズに23チームが参加し,上位10チームのアルゴリズムをレビューした。
定量的および定性的な結果から, 位相連続性強化を組み込んだ深層学習モデルは, 一般に優れた性能を示した。
ATM'22チャレンジはオープンコール設計であり、トレーニングデータとゴールドスタンダード評価は、そのホームページを通じて登録が成功すると利用できる。 Open international challenges are becoming the de facto standard for assessing computer vision and image analysis algorithms. In recent years, new methods have extended the reach of pulmonary airway segmentation that is closer to the limit of image resolution. Since EXACT'09 pulmonary airway segmentation, limited effort has been directed to quantitative comparison of newly emerged algorithms driven by the maturity of deep learning based approaches and clinical drive for resolving finer details of distal airways for early intervention of pulmonary diseases. Thus far, public annotated datasets are extremely limited, hindering the development of data-driven methods and detailed performance evaluation of new algorithms. To provide a benchmark for the medical imaging community, we organized the Multi-site, Multi-domain Airway Tree Modeling (ATM'22), which was held as an official challenge event during the MICCAI 2022 conference. ATM'22 provides large-scale CT scans with detailed pulmonary airway annotation, including 500 CT scans (300 for training, 50 for validation, and 150 for testing). The dataset was collected from different sites and it further included a portion of noisy COVID-19 CTs with ground-glass opacity and consolidation. Twenty-three teams participated in the entire phase of the challenge and the algorithms for the top ten teams are reviewed in this paper. Quantitative and qualitative results revealed that deep learning models embedded with the topological continuity enhancement achieved superior performance in general. ATM'22 challenge holds as an open-call design, the training data and the gold standard evaluation are available upon successful registration via its homepage. | 翻訳日:2023-06-28 17:16:41 公開日:2023-06-27 |
# 会話言語モデルとプロンプト工学を用いた研究論文からの正確な資料データの抽出 Extracting Accurate Materials Data from Research Papers with Conversational Language Models and Prompt Engineering ( http://arxiv.org/abs/2303.05352v2 ) ライセンス: Link先を確認 | Maciej P. Polak, Dane Morgan | (参考訳) 研究論文から手作業によるデータ抽出を,自然言語処理や言語モデル,最近では大規模言語モデル(LLM)に基づく自動データ抽出に置き換える努力が増えている。
これらの手法は大量の研究論文から効率的なデータ抽出を可能にするが、事前の努力、専門知識、コーディングが必要となる。
そこで本研究では,会話型LLMを用いて,最小限の初期作業とバックグラウンドで高精度なデータ抽出を完全自動化するChatExtract法を提案する。
chatextractは会話型llmに適用され、文章をデータで識別し、そのデータを抽出し、一連のフォローアップ質問を通じてデータの正確性を保証する。
これらのフォローアップ質問は、事実的不正確な応答を提供するLLMの既知の問題を大幅に克服した。
chatextractは任意の会話llmに適用でき、非常に高品質なデータ抽出ができる。
材料データに対するテストでは、ChatGPT-4のような最高の会話型LLMの精度とリコールの精度が90%近い。
本稿では,会話モデルにおける情報保持と,目的的冗長性と,フォローアッププロンプトによる不確実性の導入により,例外的な性能が実現できることを実証する。
これらの結果は、その単純さ、転送性、正確性のため、chatextractに似たアプローチが、近い将来、データ抽出のための強力なツールになる可能性が高いことを示唆している。
最後に, 金属ガラスの臨界冷却速度と高エントロピー合金の降伏強度に関するデータベースをchatextractを用いて開発した。 There has been a growing effort to replace hand extraction of data from research papers with automated data extraction based on natural language processing, language models, and recently, large language models (LLMs). Although these methods enable efficient extraction of data from large sets of research papers, they require a significant amount of up-front effort, expertise, and coding. In this work we propose the ChatExtract method that can fully automate very accurate data extraction with minimal initial effort and background, using an advanced conversational LLM. ChatExtract consists of a set of engineered prompts applied to a conversational LLM that both identify sentences with data, extract that data, and assure the data's correctness through a series of follow-up questions. These follow-up questions largely overcome known issues with LLMs providing factually inaccurate responses. ChatExtract can be applied with any conversational LLMs and yields very high quality data extraction. In tests on materials data we find precision and recall both close to 90% from the best conversational LLMs, like ChatGPT-4. We demonstrate that the exceptional performance is enabled by the information retention in a conversational model combined with purposeful redundancy and introducing uncertainty through follow-up prompts. These results suggest that approaches similar to ChatExtract, due to their simplicity, transferability, and accuracy are likely to become powerful tools for data extraction in the near future. Finally, databases for critical cooling rates of metallic glasses and yield strengths of high entropy alloys are developed using ChatExtract. | 翻訳日:2023-06-28 17:16:12 公開日:2023-06-27 |
# 時空間トラヒックデータインプテーションに対する多様体正規化タッカー分解法 Manifold Regularized Tucker Decomposition Approach for Spatiotemporal Traffic Data Imputation ( http://arxiv.org/abs/2305.06563v3 ) ライセンス: Link先を確認 | Wenwu Gong, Zhejun Huang, and Lili Yang | (参考訳) 時空間的トラヒックデータインプテーション(stdi)は、部分的に観測されたトラヒックデータから欠落した値を推定し、データ駆動型インテリジェントトランスポーテーションシステム(its)において避けられない課題である。
トラヒックデータの多次元性により、トラヒック行列を3次テンソルに変換し、stdi に対する革新的な多様体正規化タッカー分解(manirtd)モデルを提案する。
manirtd はタッカーコアテンソルのスパース性を考慮して低階数を制約し、多様体正規化とトエプリッツ行列を用いてモデル性能を向上させる。
我々は,収束グアランテ付き近位勾配更新規則を交互に適用したブロック座標降下フレームワークを通じて,manirtdモデルに対処する。
実世界の時空間トラフィックデータセット(STD)に関する数値実験により,提案手法は様々なシナリオにおいて,他のベースラインよりも優れていることが示された。 Spatiotemporal traffic data imputation (STDI), estimating the missing value from partially observed traffic data, is an inevitable and challenging task in data-driven intelligent transportation systems (ITS). Due to the traffic data's multidimensionality, we transform the traffic matrix into the 3rd-order tensor and propose an innovative manifold regularized Tucker decomposition (ManiRTD) model for STDI. ManiRTD considers the sparsity of the Tucker core tensor to constrain the low rankness and employs manifold regularization and the Toeplitz matrix to enhance the model performance. We address the ManiRTD model through a block coordinate descent framework under alternating proximal gradient updating rules with convergence-guaranteed. Numerical experiments on real-world spatiotemporal traffic datasets (STDs) demonstrate that our proposed model is superior to the other baselines under various missing scenarios. | 翻訳日:2023-06-28 17:08:50 公開日:2023-06-27 |
# 時空間モビリティ応用のためのフェデレーション学習モデルの検討 Survey of Federated Learning Models for Spatial-Temporal Mobility Applications ( http://arxiv.org/abs/2305.05257v3 ) ライセンス: Link先を確認 | Yacine Belal and Sonia Ben Mokhtar, Hamed Haddadi, Jaron Wang and Afra Mashhadi | (参考訳) 連合学習は、トレーニングデータをローカルに保持するように、携帯電話などのエッジデバイス上で統計モデルをトレーニングする。
フェデレートラーニング(FL)は、高度に敏感な位置情報のプライバシーを維持しながら、不均一で潜在的に膨大な数の参加者に依存する空間的時間モデルを訓練するための理想的な候補として機能する。
しかし、既存の時空間モデルから分散学習への移行にはユニークな課題がある。
本稿では,人体移動,交通予測,コミュニティ検出,位置ベースレコメンデーションシステム,その他の時空間的タスクを予測するためのFLモデルを提案する既存文献について概説する。
これらの研究が使用しているメトリクスとデータセットを説明し、集中的な設定と比較して、これらのアプローチのベースラインを作成します。
最後に,分散環境で空間-時間モデルを適用することの課題について論じ,文献のギャップを強調することで,研究コミュニティにロードマップと機会を提供する。 Federated learning involves training statistical models over edge devices such as mobile phones such that the training data is kept local. Federated Learning (FL) can serve as an ideal candidate for training spatial temporal models that rely on heterogeneous and potentially massive numbers of participants while preserving the privacy of highly sensitive location data. However, there are unique challenges involved with transitioning existing spatial temporal models to decentralized learning. In this survey paper, we review the existing literature that has proposed FL-based models for predicting human mobility, traffic prediction, community detection, location-based recommendation systems, and other spatial-temporal tasks. We describe the metrics and datasets these works have been using and create a baseline of these approaches in comparison to the centralized settings. Finally, we discuss the challenges of applying spatial-temporal models in a decentralized setting and by highlighting the gaps in the literature we provide a road map and opportunities for the research community. | 翻訳日:2023-06-28 17:08:32 公開日:2023-06-27 |
# 近接場不規則なSAR超解像のための視覚変換器の一手法 A Vision Transformer Approach for Efficient Near-Field Irregular SAR Super-Resolution ( http://arxiv.org/abs/2305.02074v2 ) ライセンス: Link先を確認 | Josiah Smith, Yusef Alimam, Geetika Vedula, Murat Torlak | (参考訳) 本論文では, 近接場合成開口レーダ(SAR)の非規則な走査測地下での新しい超解像アルゴリズムを開発した。
第5世代(5G)ミリ波(mmWave)デバイスはますます手頃な価格で手に入るようになり、高解像度のSARイメージングはエンドユーザアプリケーションや非コラボレーション環境でも実現可能である。
ハンドヘルドレーダーをユーザーが宇宙中にスキャンするフリーハンドイメージングや、無人航空機(uav)イメージング、自動車sarといった新しい応用は、高解像度イメージングに特有の課題に直面している。
まず、SAR画像の復元には、スキャン全体を通して配列位置の知識が必要である。
最近の研究では、位置を適切に推定できるカメラベースの位置決めシステムを導入しているが、アルゴリズムを効率的に回復することは、エッジとIoT(Internet of Things)技術を実現するための要件である。
非協力的近距離sarサンプリングのための効率的なアルゴリズムは近年研究されているが、位置推定誤差下で画像デフォーカスに苦しみ、中忠実な画像しか生成できない。
本稿では、位置推定誤差に対処し、不規則なサンプリングジオメトリの下でSAR画像超解像(SR)を実行するモバイルフレンドビジョントランスフォーマー(ViT)アーキテクチャを提案する。
提案アルゴリズムであるMobile-SRViTは,SAR画像強調にViTを用いた最初の手法であり,シミュレーションおよび実証実験によって検証されている。 In this paper, we develop a novel super-resolution algorithm for near-field synthetic-aperture radar (SAR) under irregular scanning geometries. As fifth-generation (5G) millimeter-wave (mmWave) devices are becoming increasingly affordable and available, high-resolution SAR imaging is feasible for end-user applications and non-laboratory environments. Emerging applications such freehand imaging, wherein a handheld radar is scanned throughout space by a user, unmanned aerial vehicle (UAV) imaging, and automotive SAR face several unique challenges for high-resolution imaging. First, recovering a SAR image requires knowledge of the array positions throughout the scan. While recent work has introduced camera-based positioning systems capable of adequately estimating the position, recovering the algorithm efficiently is a requirement to enable edge and Internet of Things (IoT) technologies. Efficient algorithms for non-cooperative near-field SAR sampling have been explored in recent work, but suffer image defocusing under position estimation error and can only produce medium-fidelity images. In this paper, we introduce a mobile-friend vision transformer (ViT) architecture to address position estimation error and perform SAR image super-resolution (SR) under irregular sampling geometries. The proposed algorithm, Mobile-SRViT, is the first to employ a ViT approach for SAR image enhancement and is validated in simulation and via empirical studies. | 翻訳日:2023-06-28 17:08:16 公開日:2023-06-27 |
# 1つのer$^{3+}$に基づく通信用単一光子エミッタのスタークチューニング Stark tuning of telecom single-photon emitters based on a single Er$^{3+}$ ( http://arxiv.org/abs/2305.01216v2 ) ライセンス: Link先を確認 | Jian-Yin Huang, Peng-Jun Liang, Liang Zheng, Pei-Yun Li, You-Zhi Ma, Duan-Chen Liu, Zong-Quan Zhou, Chuan-Feng Li, Guang-Can Guo | (参考訳) スケーラブルな量子ネットワークの実装には、通信帯域での光子と長寿命スピンコヒーレンスが必要である。
固体ホストにおける単一の Er$^{3+}$ は、これらの臨界条件を同時に満たす重要な候補である。
しかし、フォトニック接続を介して遠方のEr$^{3+}$イオンを絡めるためには、固体行列における個々のEr$^{3+}$の放出周波数は同じでなければならないが、Er$^{3+}$の放出周波数はその局所環境に依存するため、これは難しい。
そこで本研究では,y$_2$sio$_5$結晶中の1個のer$^{3+}$の放出周波数をシリコンフォトニック結晶キャビティに結合した電極を用いてスタークチューニングすることを提案する。
我々は、独立なer$^{3+}$の放射周波数を同じスペクトルチャネルにチューニングするための有望な応用を示すために、光放射ライン幅の約27倍の182.9$\pm$ 0.8 mhzの急シフトを得る。
本研究では,単一のer$^{3+}$に基づくスケーラブルな量子ネットワークの構築と,個々の希土類イオンの放出をチューニングするための普遍的なツールを提供する。 The implementation of scalable quantum networks requires photons at the telecom band and long-lived spin coherence. The single Er$^{3+}$ in solid-state hosts is an important candidate that fulfills these critical requirements simultaneously. However, to entangle distant Er$^{3+}$ ions through photonic connections, the emission frequency of individual Er$^{3+}$ in solid-state matrix must be the same, which is challenging because the emission frequency of Er$^{3+}$ depends on its local environment. Herein, we propose and experimentally demonstrate the Stark tuning of the emission frequency of a single Er$^{3+}$ in a Y$_2$SiO$_5$ crystal by employing electrodes interfaced with a silicon photonic crystal cavity. We obtain a Stark shift of 182.9 $\pm$ 0.8 MHz which is approximately 27 times of the optical emission linewidth, demonstrating the promising applications in tuning the emission frequency of independent Er$^{3+}$ into the same spectral channels. Our results provide a useful solution for construction of scalable quantum networks based on single Er$^{3+}$ and a universal tool for tuning emission of individual rare-earth ions. | 翻訳日:2023-06-28 17:07:51 公開日:2023-06-27 |
# 転校学習におけるモデル選択の限界 Limits of Model Selection under Transfer Learning ( http://arxiv.org/abs/2305.00152v2 ) ライセンス: Link先を確認 | Steve Hanneke, Samory Kpotufe, Yasaman Mahdaviyeh | (参考訳) 転送学習やドメイン適応に関する理論的研究はこれまで、既知の仮説クラスやモデルでの状況に焦点を当ててきたが、実際には、いくつかのモデル選択は、通常、ハイパーパラメータチューニング(hyperparameter-tuning)という包括的用語の下に現れる。
現在、モデル選択に関わる近似と推定誤差の通常のトレードオフに加えて、この問題は新たな複雑性項、すなわち、ソースとターゲットの分布間の移動距離が仮説クラスの選択によって異なることが知られている。
特に、分析によって注目すべき現象が明らかになる: 適応率、すなわち、分布情報を持たないもの、すなわち、距離に関する知識が与えられたとき、oracleの速度よりも任意に遅い可能性がある。 Theoretical studies on transfer learning or domain adaptation have so far focused on situations with a known hypothesis class or model; however in practice, some amount of model selection is usually involved, often appearing under the umbrella term of hyperparameter-tuning: for example, one may think of the problem of tuning for the right neural network architecture towards a target task, while leveraging data from a related source task. Now, in addition to the usual tradeoffs on approximation vs estimation errors involved in model selection, this problem brings in a new complexity term, namely, the transfer distance between source and target distributions, which is known to vary with the choice of hypothesis class. We present a first study of this problem, focusing on classification; in particular, the analysis reveals some remarkable phenomena: adaptive rates, i.e., those achievable with no distributional information, can be arbitrarily slower than oracle rates, i.e., when given knowledge on distances. | 翻訳日:2023-06-28 17:07:28 公開日:2023-06-27 |
# 画素からの物体中心一般化値関数の発見 Discovering Object-Centric Generalized Value Functions From Pixels ( http://arxiv.org/abs/2304.13892v2 ) ライセンス: Link先を確認 | Somjit Nath, Gopeshh Raaj Subbaraj, Khimya Khetarpal, Samira Ebrahimi Kahou | (参考訳) 深層強化学習は,手作り補助課題と擬似報酬を用いて,高次元入力から有用な表現を抽出する上で大きな進歩を見せている。
制御と高速適応を指向したオブジェクト中心の表現を自動学習することは、オープンな研究課題である。
本稿では,対象物から意味のある特徴を発見し,時間的コヒーレントな「探索」関数に翻訳し,次に学習した一般値関数を制御に活用する手法を提案する。
提案手法と最先端技術の比較を行い,定常条件と非定常条件の双方で競合性能を示す。
最後に, 検出された一般値関数についても検討し, 定性解析により, 学習表現は解釈可能なだけでなく, タスク間の変化に不変なオブジェクトを中心に, 適応が速いことを示す。 Deep Reinforcement Learning has shown significant progress in extracting useful representations from high-dimensional inputs albeit using hand-crafted auxiliary tasks and pseudo rewards. Automatically learning such representations in an object-centric manner geared towards control and fast adaptation remains an open research problem. In this paper, we introduce a method that tries to discover meaningful features from objects, translating them to temporally coherent "question" functions and leveraging the subsequent learned general value functions for control. We compare our approach with state-of-the-art techniques alongside other ablations and show competitive performance in both stationary and non-stationary settings. Finally, we also investigate the discovered general value functions and through qualitative analysis show that the learned representations are not only interpretable but also, centered around objects that are invariant to changes across tasks facilitating fast adaptation. | 翻訳日:2023-06-28 17:06:49 公開日:2023-06-27 |
# 量子輸送における多体コヒーレンス Many-Body Coherence in Quantum Transport ( http://arxiv.org/abs/2304.11151v3 ) ライセンス: Link先を確認 | Ching-Chi Hang, Liang-Yan Hsu | (参考訳) 本研究では,多体系における電子輸送を制御するために,量子コヒーレンスを利用する概念を提案する。
ハバード作用素に基づくオープン量子システム手法を組み合わせることで,多体コヒーレンスが有名なクーロン階段を取り除き,強い負の差動抵抗を引き起こすことを示した。
この機構を解明するため、ゼロ電子-フォノンカップリング限界における電流-コヒーレンス関係を解析的に導出する。
さらに,ゲートフィールドを組み込むことで,コヒーレンス制御トランジスタ構築の可能性を示す。
この開発は、多体コヒーレンスに基づく量子電子デバイス探索のための新しい方向を開く。 In this study, we propose the concept of harnessing quantum coherence to control electron transport in a many-body system. Combining an open quantum system technique based on Hubbard operators, we show that many-body coherence can eliminate the well-known Coulomb staircase and cause strong negative differential resistance. To explore the mechanism, we analytically derive the current-coherence relationship in the zero electron-phonon coupling limit. Furthermore, by incorporating a gate field, we demonstrate the possibility of constructing a coherence-controlled transistor. This development opens up a new direction for exploring quantum electronic devices based on many-body coherence. | 翻訳日:2023-06-28 17:06:32 公開日:2023-06-27 |
# ダム契約を見つけるためのスマートラーニング(拡張版) Smart Learning to Find Dumb Contracts (Extended Version) ( http://arxiv.org/abs/2304.10726v2 ) ライセンス: Link先を確認 | Tamer Abdelaziz and Aquinas Hobor | (参考訳) ニューラルネットワークに基づくEthereumスマートコントラクトのためのDeep Learning Vulnerability Analyzer(DLVA)を紹介する。
我々は、監視するオラクルがソースのみを判断できるにもかかわらず、バイトコードを判断するようにDLVAを訓練する。
DLVAのトレーニングアルゴリズムは一般的に、手動のフィーチャエンジニアリング、事前定義されたパターン、専門家のルールなしでソースコード解析をバイトコードに拡張します。
dlvaのトレーニングアルゴリズムも頑健で、1.25%のエラー率の誤ってラベル付けされた契約を上回っており、生徒はslitherがラベルを間違えた教師が見つけた脆弱な契約を上回っている。
DLVAは他のスマートコントラクトの脆弱性検出よりもはるかに高速である。DLVAは、0.2秒で29の脆弱性のコントラクトをチェックする。
DLVAには3つの重要なコンポーネントがある。
まず、smart contract to vector (sc2v)はニューラルネットワークを使用してスマートコントラクトバイトコードを高次元浮動小数点ベクトルにマッピングする。
SC2Vを4つの最先端グラフニューラルネットワークに対してベンチマークし、モデルの微分を2.2%改善することを示す。
第2に、姉妹検出器(sd)は、対象契約ベクトルが訓練セット内のラベル付き契約ベクトルとユークリッド的に近い場合の契約を分類するが、テストセットの契約の55.7%しか判断できないが、slither予測精度97.4%で、偽陽性率は0.1%である。
第3に、コア分類器(CC)は、ニューラルネットワークを使用して、ベクトル距離に関係なく脆弱な契約を推論する。
DLVAのCCを10のML手法でベンチマークし、CCの精度が11.3%向上したことを示す。
DLVAはSlitherのラベルを92.7%の精度で予測し、関連する偽陽性率は7.2%である。
最後に、DLVAを9つの有名なスマートコントラクト分析ツールと比較する。
DLVAは分析時間を大幅に減らしたにもかかわらず、全てのクエリを完了し、平均99.7%の精度で、偽陽性率の低い真の正の値を喜んでバランスさせた。 We introduce the Deep Learning Vulnerability Analyzer (DLVA) for Ethereum smart contracts based on neural networks. We train DLVA to judge bytecode even though the supervising oracle can only judge source. DLVA's training algorithm is general: we extend a source code analysis to bytecode without any manual feature engineering, predefined patterns, or expert rules. DLVA's training algorithm is also robust: it overcame a 1.25% error rate mislabeled contracts, and--the student surpassing the teacher--found vulnerable contracts that Slither mislabeled. DLVA is much faster than other smart contract vulnerability detectors: DLVA checks contracts for 29 vulnerabilities in 0.2 seconds, a 10-1,000x speedup. DLVA has three key components. First, Smart Contract to Vector (SC2V) uses neural networks to map smart contract bytecode to a high-dimensional floating-point vector. We benchmark SC2V against 4 state-of-the-art graph neural networks and show that it improves model differentiation by 2.2%. Second, Sibling Detector (SD) classifies contracts when a target contract's vector is Euclidian-close to a labeled contract's vector in a training set; although only able to judge 55.7% of the contracts in our test set, it has a Slither-predictive accuracy of 97.4% with a false positive rate of only 0.1%. Third, Core Classifier (CC) uses neural networks to infer vulnerable contracts regardless of vector distance. We benchmark DLVA's CC with 10 ML techniques and show that the CC improves accuracy by 11.3%. Overall, DLVA predicts Slither's labels with an overall accuracy of 92.7% and associated false positive rate of 7.2%. Lastly, we benchmark DLVA against nine well-known smart contract analysis tools. Despite using much less analysis time, DLVA completed every query, leading the pack with an average accuracy of 99.7%, pleasingly balancing high true positive rates with low false positive rates. | 翻訳日:2023-06-28 17:06:20 公開日:2023-06-27 |
# 量子ジュンタチャネルのテストと学習について On Testing and Learning Quantum Junta Channels ( http://arxiv.org/abs/2305.12097v3 ) ライセンス: Link先を確認 | Zongbo Bao and Penghui Yao | (参考訳) 我々は、$n$-qubitから$n$-qubitの量子チャネルである$n$-juntaチャネルのテストと学習の問題を、$n$-qubitsの少なくとも$k$で非自明に作用し、残りの量子ビットは変わらないと考える。
以下に示す。
1. $\widetilde{o}\left(k\right)$-queryアルゴリズムは、与えられたチャンネルが$k$-juntaチャンネルであるか、あるいは$k$-juntaチャネルから遠く、下限の$\omega\left(\sqrt{k}\right)$がクエリ数で、$\widetilde{o}\left(4^k\right)$queryアルゴリズムは$k$-juntaチャンネルを学習し、下限の$\omega\left(4^k/k\right)$はクエリ数で区別する。
これにより、最初のジャンタチャネルのテストと学習結果が得られ、Chenらによって提起されたオープンな問題に部分的に答える(2023年)。
これらの問題を解決するため、超作用素空間上のフーリエ解析フレームワークを開発し、モンタナロとオズボーンで導入された作用素の空間上でフーリエ解析を拡張するいくつかの基本的な性質を証明した(2010年)。 We consider the problems of testing and learning quantum $k$-junta channels, which are $n$-qubit to $n$-qubit quantum channels acting non-trivially on at most $k$ out of $n$ qubits and leaving the rest of qubits unchanged. We show the following. 1. An $\widetilde{O}\left(k\right)$-query algorithm to distinguish whether the given channel is $k$-junta channel or is far from any $k$-junta channels, and a lower bound $\Omega\left(\sqrt{k}\right)$ on the number of queries; 2. An $\widetilde{O}\left(4^k\right)$-query algorithm to learn a $k$-junta channel, and a lower bound $\Omega\left(4^k/k\right)$ on the number of queries. This gives the first junta channel testing and learning results, and partially answers an open problem raised by Chen et al. (2023). In order to settle these problems, we develop a Fourier analysis framework over the space of superoperators and prove several fundamental properties, which extends the Fourier analysis over the space of operators introduced in Montanaro and Osborne (2010). | 翻訳日:2023-06-28 17:00:34 公開日:2023-06-27 |
# ロボット・インキュベーションに向けた口腔器官のドメイン適応型Sim-to-Realセグメンテーション Domain Adaptive Sim-to-Real Segmentation of Oropharyngeal Organs Towards Robot-assisted Intubation ( http://arxiv.org/abs/2305.11686v2 ) ライセンス: Link先を確認 | Guankun Wang, Tian-Ao Ren, Jiewen Lai, Long Bai, Hongliang Ren | (参考訳) ロボットによる気管挿管では、経験豊富な医師のような解剖学的特徴をディープラーニング技術で区別する必要がある。
しかし,臓器の実際のデータセットはプライバシの問題により制限されており,正確な画像分割のためのディープラーニングモデルのトレーニングが困難である。
ここでは,仮想環境を通じて新たなデータモダリティを生成し,トレーニングプロセスを支援することを検討する。
具体的には、シミュレーションオープンフレームワークアーキテクチャ(SOFA)フレームワークによって生成された仮想データセットを導入し、実際の内視鏡画像の限られた可用性を克服する。
また,IoU-Ranking Blend (IRB) と呼ばれる画像ブレンディング戦略と,データセット間の不一致に対処するスタイル転送技術を用いて,咽頭臓器画像分割のためのドメイン適応型Sim-to-Real手法を提案する。
実験により,提案手法のドメイン適応モデルによる性能向上,セグメンテーション精度の向上,トレーニング安定性の向上が示された。
実用的応用において,訓練されたセグメンテーションモデルは,ロボット支援インキュベーション手術とインテリジェントな手術ナビゲーションに非常に有望である。 Robotic-assisted tracheal intubation requires the robot to distinguish anatomical features like an experienced physician using deep-learning techniques. However, real datasets of oropharyngeal organs are limited due to patient privacy issues, making it challenging to train deep-learning models for accurate image segmentation. We hereby consider generating a new data modality through a virtual environment to assist the training process. Specifically, this work introduces a virtual dataset generated by the Simulation Open Framework Architecture (SOFA) framework to overcome the limited availability of actual endoscopic images. We also propose a domain adaptive Sim-to-Real method for oropharyngeal organ image segmentation, which employs an image blending strategy called IoU-Ranking Blend (IRB) and style-transfer techniques to address discrepancies between datasets. Experimental results demonstrate the superior performance of the proposed approach with domain adaptive models, improving segmentation accuracy and training stability. In the practical application, the trained segmentation model holds great promise for robot-assisted intubation surgery and intelligent surgical navigation. | 翻訳日:2023-06-28 16:59:47 公開日:2023-06-27 |
# 解釈可能な言語モデルのための連想的知識関係を考慮した単語文脈結合空間の構築 Constructing Word-Context-Coupled Space Aligned with Associative Knowledge Relations for Interpretable Language Modeling ( http://arxiv.org/abs/2305.11543v2 ) ライセンス: Link先を確認 | Fanyu Wang and Zhenping Xie | (参考訳) 現在の自然言語処理手法の基礎として、事前学習された言語モデルは優れた性能を達成している。
しかし、事前訓練された言語モデルにおけるディープニューラルネットワークのブラックボックス構造は、言語モデリングプロセスの解釈可能性を大幅に制限する。
言語モデリングにおけるディープニューラル表現とセマンティクス論理の結合要件を再考した後,非解釈型ニューラル表現と解釈型統計論理のアライメント処理を導入することで,Word-Context-Coupled Space(W2CSpace)を提案する。
さらに、単語と文脈レベルのセマンティクスを接続するクラスタリングプロセスも設計されている。
具体的には、単語レベルの意味論のアライメントプロセスにおいて、解釈可能な統計論理と見なされる連想知識ネットワーク(AKN)を導入する。
さらに、文脈相対距離は、事前学習されたモデルの現在の解釈不能なセマンティック表現とは大きく異なる下流分類器のセマンティック特徴として使用される。
SIGHAN, Weibo, ChnSenti など, 複数種類のデータセットに対して, 性能評価と解釈解析を行う実験を行った。
一方,機械学習モデルの解釈可能性に関する新たな評価戦略が提案されている。
実験結果によると,我々の言語モデルは,関連する最先端手法と比較して,優れた性能と信頼性の高い解釈能力が得られる。 As the foundation of current natural language processing methods, pre-trained language model has achieved excellent performance. However, the black-box structure of the deep neural network in pre-trained language models seriously limits the interpretability of the language modeling process. After revisiting the coupled requirement of deep neural representation and semantics logic of language modeling, a Word-Context-Coupled Space (W2CSpace) is proposed by introducing the alignment processing between uninterpretable neural representation and interpretable statistical logic. Moreover, a clustering process is also designed to connect the word- and context-level semantics. Specifically, an associative knowledge network (AKN), considered interpretable statistical logic, is introduced in the alignment process for word-level semantics. Furthermore, the context-relative distance is employed as the semantic feature for the downstream classifier, which is greatly different from the current uninterpretable semantic representations of pre-trained models. Our experiments for performance evaluation and interpretable analysis are executed on several types of datasets, including SIGHAN, Weibo, and ChnSenti. Wherein a novel evaluation strategy for the interpretability of machine learning models is first proposed. According to the experimental results, our language model can achieve better performance and highly credible interpretable ability compared to related state-of-the-art methods. | 翻訳日:2023-06-28 16:59:26 公開日:2023-06-27 |
# 放射状パワー様ポテンシャル:bohr-sommerfeld $s$-state energiesから正確なエネルギーへ Radial power-like potentials: from the Bohr-Sommerfeld $S$-state energies to the exact ones ( http://arxiv.org/abs/2305.11363v3 ) ライセンス: Link先を確認 | J.C. del Valle, A.V. Turbiner | (参考訳) 1次元の場合(del Valle \& turbiner (2021) \cite{First})に対するBohr-Sommerfeld (B-S)量子化条件の以前の研究に続いて、これを$d$d-dimensional Power-like radial potentialに拡張する。
$d$-dimensional radial Schr\"odinger 方程式の$S$状態に対する B-S 量子化条件を提案する。
v(r)=r^m$ with $m \in [-1, \infty)$ のパワー様ポテンシャルのスペクトルについて得られた数値結果に基づいて、提案するb-s量子化条件の正しさを様々な次元のd$に対して確立する。
b-s 量子化条件の r.h.s. に {it wkb correction} $\gamma$ (おそらくは高次 wkb 項から来る) を導入すると、正確なエネルギーを再現する "it exact wkb quantization condition} と呼ばれる条件が現れるが、$\gamma$ は常に非常に小さい。
$m=2$(任意の整数$d$)と$m=-1$($d=2$)の場合、WKB補正は$\gamma=0$:$S$の場合、B-Sスペクトルは正確な値と一致する。
線形, 立方体, クォート, セクシュアル振動子の物理的に重要な症例に対するコンクリート計算と, 次元$d=2,3,6$のクーロンおよび対数ポテンシャルについて述べる。
放射状四波無調波発振器は短時間に検討される。 Following our previous study of the Bohr-Sommerfeld (B-S) quantization condition for one-dimensional case (del Valle \& Turbiner (2021) \cite{First}), we extend it to $d$-dimensional power-like radial potentials. The B-S quantization condition for $S$-states of the $d$-dimensional radial Schr\"odinger equation is proposed. Based on numerical results obtained for the spectra of power-like potentials, $V(r)=r^m$ with $m \in [-1, \infty)$, the correctness of the proposed B-S quantization condition is established for various dimensions $d$. It is demonstrated that by introducing the {\it WKB correction} $\gamma$ (supposedly coming from the higher order WKB terms) into the r.h.s. of the B-S quantization condition leads to the so-called {\it exact WKB quantization condition}, which reproduces the exact energies, while $\gamma$ remains always very small. For $m=2$ (any integer $d$) and for $m=-1$ (at $d=2$) the WKB correction $\gamma=0$: for $S$ states the B-S spectra coincides with the exact ones. Concrete calculations for physically important cases of linear, cubic, quartic, and sextic oscillators, as well as Coulomb and logarithmic potentials in dimensions $d=2,3,6$ are presented. Radial quartic anharmonic oscillator is considered briefly. | 翻訳日:2023-06-28 16:59:07 公開日:2023-06-27 |
# ピック成功の学習指標による大規模パッケージマニピュレーションの実証 Demonstrating Large-Scale Package Manipulation via Learned Metrics of Pick Success ( http://arxiv.org/abs/2305.10272v2 ) ライセンス: Link先を確認 | Shuai Li, Azarakhsh Keipour, Kevin Jamieson, Nicolas Hudson, Charles Swan, Kostas Bekris | (参考訳) 倉庫業務の自動化は、物流のオーバーヘッドコストを削減し、最終的に消費者の最終的な価格を下げ、配達のスピードを高め、労働力の変動に対する回復力を高める。
過去数年間、このような繰り返しタスクを自動化することへの関心が高まってきたが、主に制御された設定であった。
構造化されていない、散らばった山からオブジェクトを拾うといったタスクは、人間の介入を最小限に抑えた大規模デプロイメントに十分頑丈になったばかりである。
本稿では,amazon roboticsのロボットインダクション(robin)フリートにおいて,実生産データに基づいて訓練されたピック成功予測器を用いた,非構造な積み重ねによる大規模パッケージ操作を実証する。
具体的には、システムは394K以上のピックで訓練された。
本論文は,1日当たり500万パッケージを歌唱し,評価期間中に2億パッケージ以上を操作した。
学習した選別品質尺度は、様々な選別選択肢をリアルタイムでランク付けし、実行に最も有望な選別基準を優先順位付けする。
ピック成功予測器は、部分的に知られている特性を持つ変形性および剛性のある物体を含む散在したシーンにおいて、展開された産業用ロボットアームによる所望のピックの成功確率を事前の経験から推定することを目的としている。
これは浅い機械学習モデルであり、どの機能が予測に最も重要であるかを評価することができる。
オンラインのピックランチャーは、学習した成功予測器を利用して、ロボットアームの最も有望なピックを優先し、衝突回避のために評価される。
この学習されたランキングプロセスは、制限を克服し、手作業によるエンジニアリングとヒューリスティックな代替品のパフォーマンスを上回ります。
本稿では,実運用システムにおいて,学習したピック品質推定手法を大規模に展開する最初の方法を提案する。 Automating warehouse operations can reduce logistics overhead costs, ultimately driving down the final price for consumers, increasing the speed of delivery, and enhancing the resiliency to workforce fluctuations. The past few years have seen increased interest in automating such repeated tasks but mostly in controlled settings. Tasks such as picking objects from unstructured, cluttered piles have only recently become robust enough for large-scale deployment with minimal human intervention. This paper demonstrates a large-scale package manipulation from unstructured piles in Amazon Robotics' Robot Induction (Robin) fleet, which utilizes a pick success predictor trained on real production data. Specifically, the system was trained on over 394K picks. It is used for singulating up to 5 million packages per day and has manipulated over 200 million packages during this paper's evaluation period. The developed learned pick quality measure ranks various pick alternatives in real-time and prioritizes the most promising ones for execution. The pick success predictor aims to estimate from prior experience the success probability of a desired pick by the deployed industrial robotic arms in cluttered scenes containing deformable and rigid objects with partially known properties. It is a shallow machine learning model, which allows us to evaluate which features are most important for the prediction. An online pick ranker leverages the learned success predictor to prioritize the most promising picks for the robotic arm, which are then assessed for collision avoidance. This learned ranking process is demonstrated to overcome the limitations and outperform the performance of manually engineered and heuristic alternatives. To the best of the authors' knowledge, this paper presents the first large-scale deployment of learned pick quality estimation methods in a real production system. | 翻訳日:2023-06-28 16:58:30 公開日:2023-06-27 |
# 転写可能な分子表現のための分子モルフォロジーコントラスト前処理 Molecule-Morphology Contrastive Pretraining for Transferable Molecular Representation ( http://arxiv.org/abs/2305.09790v2 ) ライセンス: Link先を確認 | Cuong Q. Nguyen, Dante Pertusi, Kim M. Branson | (参考訳) 画像ベースのプロファイリング技術は、ターゲット識別、メカニズム・オブ・アクション推論、アッセイ開発における応用において、過去10年間で人気が高まっている。
これらの技術は細胞形態の大規模なデータセットを生成し、通常は小さな分子のパーターバゲンの影響を調べるために用いられる。
本研究では,分子グラフと細胞形態のマルチモーダル表現を学習するフレームワークであるMoCoP(Moecule-Morphology Contrastive Pretraining)を導入することで,このようなデータセットの影響を定量的構造活性関係(QSAR)モデルの改善に拡張する。
我々は、JUMP-CP Consortiumのデータを用いて、約100K分子と600K形態素プロファイルにMoCoPをスケールし、すべてのデータセットサイズでChEMBL20の分子特性予測タスクにおけるグラフニューラルネットワーク(GNN)の性能を一貫して改善することを示した。
トレーニング済みのGNNは、内部のGSK薬物動態データに基づいて評価され、フルデータおよびローデータレシエーションに対するAUPRCの平均改善率は2.6%と6.3%である。
以上の結果から,MoCoPを用いた細胞形態と分子グラフの統合はQSARモデルの性能を大幅に向上させ,最終的にQSARアプリケーションで利用可能なディープラーニングツールボックスを拡張できることが示唆された。 Image-based profiling techniques have become increasingly popular over the past decade for their applications in target identification, mechanism-of-action inference, and assay development. These techniques have generated large datasets of cellular morphologies, which are typically used to investigate the effects of small molecule perturbagens. In this work, we extend the impact of such dataset to improving quantitative structure-activity relationship (QSAR) models by introducing Molecule-Morphology Contrastive Pretraining (MoCoP), a framework for learning multi-modal representation of molecular graphs and cellular morphologies. We scale MoCoP to approximately 100K molecules and 600K morphological profiles using data from the JUMP-CP Consortium and show that MoCoP consistently improves performances of graph neural networks (GNNs) on molecular property prediction tasks in ChEMBL20 across all dataset sizes. The pretrained GNNs are also evaluated on internal GSK pharmacokinetic data and show an average improvement of 2.6% and 6.3% in AUPRC for full and low data regimes, respectively. Our findings suggest that integrating cellular morphologies with molecular graphs using MoCoP can significantly improve the performance of QSAR models, ultimately expanding the deep learning toolbox available for QSAR applications. | 翻訳日:2023-06-28 16:58:01 公開日:2023-06-27 |
# CNNの内部で類似したセマンティクスを明らかにする: 解釈可能な概念に基づく特徴空間の比較 Revealing Similar Semantics Inside CNNs: An Interpretable Concept-based Comparison of Feature Spaces ( http://arxiv.org/abs/2305.07663v2 ) ライセンス: Link先を確認 | Georgii Mikriukov, Gesina Schwalbe, Christian Hellert and Korinna Bade | (参考訳) 安全クリティカルなアプリケーションは、人工知能(AI)コンポーネントの透明性を必要とするが、認識タスクに広く使用される畳み込みニューラルネットワーク(CNN)は、固有の解釈可能性に欠ける。
したがって、CNNが学んだことに関する洞察は主にパフォーマンス指標に基づいている。
しかし、これらは知識を内部に格納する方法を無視している。
そこで本研究では,CNN潜在空間内の意味情報間の階層的類似性を推定する2つの手法を提案する。
これらは、CNNレイヤ内のセマンティック情報の流れと類似性の両方、および異なるネットワークアーキテクチャ間の類似性の程度に関する洞察を可能にする。
基礎として,概念活性化ベクトル,すなわち潜在空間における大域ベクトル表現を得るために用いられる2つの有名な説明可能な人工知能(xai)技術を用いる。
これらはテスト入力でのアクティベーションについて比較される。
3つの多様なオブジェクト検出器と2つのデータセットに適用すると,(1)類似のセマンティック概念はCNNアーキテクチャによらず学習され,(2)類似のセマンティック概念は,各レイヤの総数によらず,類似の相対層深さで現れることがわかった。
最後に,提案手法は,CNNが意味情報をどう処理するかを,セマンティックモデルに適合させ,理解する上で有望なステップとなる。 Safety-critical applications require transparency in artificial intelligence (AI) components, but widely used convolutional neural networks (CNNs) widely used for perception tasks lack inherent interpretability. Hence, insights into what CNNs have learned are primarily based on performance metrics, because these allow, e.g., for cross-architecture CNN comparison. However, these neglect how knowledge is stored inside. To tackle this yet unsolved problem, our work proposes two methods for estimating the layer-wise similarity between semantic information inside CNN latent spaces. These allow insights into both the flow and likeness of semantic information within CNN layers, and into the degree of their similarity between different network architectures. As a basis, we use two renowned explainable artificial intelligence (XAI) techniques, which are used to obtain concept activation vectors, i.e., global vector representations in the latent space. These are compared with respect to their activation on test inputs. When applied to three diverse object detectors and two datasets, our methods reveal that (1) similar semantic concepts are learned regardless of the CNN architecture, and (2) similar concepts emerge in similar relative layer depth, independent of the total number of layers. Finally, our approach poses a promising step towards semantic model comparability and comprehension of how different CNNs process semantic information. | 翻訳日:2023-06-28 16:57:06 公開日:2023-06-27 |
# インパルス応答強化によるデバイスロバスト音響シーン分類 Device-Robust Acoustic Scene Classification via Impulse Response Augmentation ( http://arxiv.org/abs/2305.07499v2 ) ライセンス: Link先を確認 | Tobias Morocutti, Florian Schmid, Khaled Koutini, Gerhard Widmer | (参考訳) 幅広い記録装置に一般化できる能力は、オーディオ分類モデルにとって重要な性能要因である。
異なるタイプのマイクロホンの特性は、周波数応答の変化によるディジタル化音声信号の分布変化をもたらす。
このドメインシフトがトレーニング中に考慮されない場合、未知のデバイスによって記録された信号に適用された場合、モデルの性能は著しく低下する可能性がある。
特に、少数の異なるマイクで記録された音声信号のモデルを訓練することは、見えないデバイスへの一般化を難しくする。
この問題に対処するために,事前記録されたデバイスインパルス応答(dirs)をトレーニングセットに音声信号を畳み込み,録音装置の多様性を人工的に向上させる。
CNNと音響スペクトログラム変換器を用いた音響シーン分類におけるDIR増強の効果を系統的に検討する。
その結果、DIRの分離による拡張は、最先端のFreq-MixStyleと同様の動作を示した。
しかし,dir拡張とfreq-mixstyleは相補的であり,訓練中は検出されない信号に対して新たな最先端性能を実現する。 The ability to generalize to a wide range of recording devices is a crucial performance factor for audio classification models. The characteristics of different types of microphones introduce distributional shifts in the digitized audio signals due to their varying frequency responses. If this domain shift is not taken into account during training, the model's performance could degrade severely when it is applied to signals recorded by unseen devices. In particular, training a model on audio signals recorded with a small number of different microphones can make generalization to unseen devices difficult. To tackle this problem, we convolve audio signals in the training set with pre-recorded device impulse responses (DIRs) to artificially increase the diversity of recording devices. We systematically study the effect of DIR augmentation on the task of Acoustic Scene Classification using CNNs and Audio Spectrogram Transformers. The results show that DIR augmentation in isolation performs similarly to the state-of-the-art method Freq-MixStyle. However, we also show that DIR augmentation and Freq-MixStyle are complementary, achieving a new state-of-the-art performance on signals recorded by devices unseen during training. | 翻訳日:2023-06-28 16:56:42 公開日:2023-06-27 |
# LoReTTaを用いた過渡・多モード変圧器の訓練 Training Transitive and Commutative Multimodal Transformers with LoReTTa ( http://arxiv.org/abs/2305.14243v3 ) ライセンス: Link先を確認 | Manuel Tran, Amal Lahiani, Yashin Dicente Cid, Fabian J. Theis, Tingying Peng, Eldad Klaiman | (参考訳) 2組のモダリティa,b,b,cのマルチモーダルデータセットの収集は,実際には困難である。
A、B、Cの3つのアライメントを持つデータセットを取得することは、さらに難しい。
例えば、一部の公衆医療データセットは、ある患者のための遺伝子配列と顕微鏡画像のみを持ち、別の患者のための遺伝配列と放射線画像のみを持っている。
これにより、すべてのモダリティを大規模なトレーニング済みニューラルネットワークに統合し、結合することが困難になる。
本稿では,この課題に対処するため,LoReTTa (mOdalities with a tRansitive and commutativE pre-Training sTrAtegy)を提案する。
我々の自己監督型フレームワークは、因果マスクモデルと可換性と推移性の規則を組み合わせて、異なるモダリティの内および間を移行する。
したがって、A -> C と A -> B -> C の関係をモデル化することができる。 解離結合(A, B) と (B, C) のみを含むデータセットが与えられた場合、LoReTTa で事前訓練された変換器は、予期せぬペア(A, C) と三重項(A, B, C)を含む任意のモダリティ結合を推論時に処理できることを示す。
我々は,音声,視覚,言語を含むMNISTから派生したマルチモーダルデータセットと,TCGAからmRNA,miRNA,RPPAのサンプルを含む実世界の医療データセットについて検討した。
従来のプレトレーニング法と比較して,自己回帰型生成タスクでは最大100ポイントのパープレキシティが低下し,プレトレーニングフェーズではそれまで認識されていなかったモダリティペアの分類精度が最大15%向上した。 Collecting a multimodal dataset with two paired modalities A and B or B and C is difficult in practice. Obtaining a dataset with three aligned modalities A, B, and C is even more challenging. For example, some public medical datasets have only genetic sequences and microscopic images for one patient, and only genetic sequences and radiological images for another - but no dataset includes both microscopic and radiological images for the same patient. This makes it difficult to integrate and combine all modalities into a large pre-trained neural network. We introduce LoReTTa (Linking mOdalities with a tRansitive and commutativE pre-Training sTrAtegy) to address this understudied problem. Our self-supervised framework combines causal masked modeling with the rules of commutativity and transitivity to transition within and between different modalities. Thus, it can model the relation A -> C with A -> B -> C. Given a dataset containing only the disjoint combinations (A, B) and (B, C), we show that a transformer pre-trained with LoReTTa can handle any modality combination at inference time, including the never-seen pair (A, C) and the triplet (A, B, C). We evaluate our approach on a multimodal dataset derived from MNIST containing speech, vision, and language, as well as a real-world medical dataset containing mRNA, miRNA, and RPPA samples from TCGA. Compared to traditional pre-training methods, we observe up to a 100-point reduction in perplexity for autoregressive generation tasks and up to a 15% improvement in classification accuracy for previously unseen modality pairs during the pre-training phase. | 翻訳日:2023-06-28 16:49:32 公開日:2023-06-27 |
# 分布認識公平性テスト生成 Distribution-aware Fairness Test Generation ( http://arxiv.org/abs/2305.13935v3 ) ライセンス: Link先を確認 | Sai Sathiesh Rajan, Ezekiel Soremekun, Yves Le Traon, Sudipta Chattopadhyay | (参考訳) 本研究は,画像認識ソフトウェアにおけるグループフェアネスの検証方法について述べる。
画像分類器におけるクラスレベルのフェアネス違反を,アウト・オブ・ディストリビューション(OOD)テストとセマンティック保存画像の相乗的組み合わせにより体系的に公開する分布認識フェアネステスト手法(DistroFair)を提案する。
DistroFairは、画像の集合内のオブジェクトの分布(例えば、番号/向き)を自動的に学習する。
次に、オブジェクトの削除、オブジェクト挿入、オブジェクト回転という3つのセマンティック保存されたイメージ変異を使用して、画像内のオブジェクトを体系的にOODに変形する。
2つの有名なデータセット(CityScapesとMS-COCO)と3つの主要な商用画像認識ソフトウェア(Amazon Rekognition、Google Cloud Vision、Azure Computer Vision)を使用してDistroFairを評価する。
その結果、DistroFairが生成した画像の約21%は、基底真理または変成オラクルを用いてクラスレベルのフェアネス違反を明らかにしている。
DistroFairは2つのベースライン、すなわち2つのベースラインよりも2.3倍有効である。
(a)分布(ID)内でのみ画像を生成することに焦点を当てたアプローチ
(b)原画像データセットのみを用いた公平性解析。
さらに、DistroFairは効率的で、平均して1時間に460枚の画像を生成する。
最後に,DistroFair が生成した実画像 30 と実画像 30 を用いて,81 人の被験者によるユーザスタディによるアプローチの意味的妥当性を評価する。
その結果、DistroFairが生成した画像は現実世界の画像の80%がリアルであることが判明した。 This work addresses how to validate group fairness in image recognition software. We propose a distribution-aware fairness testing approach (called DistroFair) that systematically exposes class-level fairness violations in image classifiers via a synergistic combination of out-of-distribution (OOD) testing and semantic-preserving image mutation. DistroFair automatically learns the distribution (e.g., number/orientation) of objects in a set of images. Then it systematically mutates objects in the images to become OOD using three semantic-preserving image mutations -- object deletion, object insertion and object rotation. We evaluate DistroFair using two well-known datasets (CityScapes and MS-COCO) and three major, commercial image recognition software (namely, Amazon Rekognition, Google Cloud Vision and Azure Computer Vision). Results show that about 21% of images generated by DistroFair reveal class-level fairness violations using either ground truth or metamorphic oracles. DistroFair is up to 2.3x more effective than two main baselines, i.e., (a) an approach which focuses on generating images only within the distribution (ID) and (b) fairness analysis using only the original image dataset. We further observed that DistroFair is efficient, it generates 460 images per hour, on average. Finally, we evaluate the semantic validity of our approach via a user study with 81 participants, using 30 real images and 30 corresponding mutated images generated by DistroFair. We found that images generated by DistroFair are 80% as realistic as real-world images. | 翻訳日:2023-06-28 16:48:57 公開日:2023-06-27 |
# 相互注意は十分ではない: 階層的マルチモーダル感性分析と感情認識 Cross-Attention is Not Enough: Incongruity-Aware Hierarchical Multimodal Sentiment Analysis and Emotion Recognition ( http://arxiv.org/abs/2305.13583v2 ) ライセンス: Link先を確認 | Yaoting Wang, Yuanchao Li, Peter Bell, Catherine Lai | (参考訳) 情緒的な計算タスクに複数のモダリティを組み込むことは、性能改善に有効であることが証明されている。
しかし、マルチモーダル融合の仕組みはよく理解されておらず、実世界での使用は通常、大きなモデルサイズをもたらす。
本稿では,感情分析と感情分析について,まず,一方のモダリティにおける情緒的情報がどのように他方のモダリティに影響を与えているかを解析する。
モーダル間不整合は、モーダル間の注意による潜在レベルに存在する。
そこで本研究では,階層型クロスモーダルトランスフォーマーとモダリティゲーティング(HCT-MG)を用いた軽量モデルを提案する。
CMU-MOSI, CMU-MOSEI, IEMOCAP の3つのベンチマークデータセットに対する評価実験により, 本手法の有効性が確認された。
1) 主なモダリティの手動選択と同様に,先行作業よりも優れた性能を達成する。
2) 感情が分かりにくい硬いサンプルを認識できる。
3)モダリティが情緒的傾向と合致しない場合の潜在レベルでのモーダル間違和感を緩和する。
4) モデルサイズを1m以下のパラメータに削減し、同じサイズの既存のモデルよりも優れる。 Fusing multiple modalities for affective computing tasks has proven effective for performance improvement. However, how multimodal fusion works is not well understood, and its use in the real world usually results in large model sizes. In this work, on sentiment and emotion analysis, we first analyze how the salient affective information in one modality can be affected by the other in crossmodal attention. We find that inter-modal incongruity exists at the latent level due to crossmodal attention. Based on this finding, we propose a lightweight model via Hierarchical Crossmodal Transformer with Modality Gating (HCT-MG), which determines a primary modality according to its contribution to the target task and then hierarchically incorporates auxiliary modalities to alleviate inter-modal incongruity and reduce information redundancy. The experimental evaluation on three benchmark datasets: CMU-MOSI, CMU-MOSEI, and IEMOCAP verifies the efficacy of our approach, showing that it: 1) achieves better performance than prior work as well as manual selection of the primary modality; 2) can recognize hard samples whose emotions are hard to tell; 3) mitigates the inter-modal incongruity at the latent level when modalities have mismatched affective tendencies; 4) reduces model size to less than 1M parameters while outperforming existing models of similar sizes. | 翻訳日:2023-06-28 16:48:30 公開日:2023-06-27 |
# サンプル・アフィニティテストを用いたサンプル重み付けによる不偏性構音自動音声認識 Debiased Automatic Speech Recognition for Dysarthric Speech via Sample Reweighting with Sample Affinity Test ( http://arxiv.org/abs/2305.13108v3 ) ライセンス: Link先を確認 | Eungbeom Kim, Yunkee Chae, Jaeheon Sim, Kyogu Lee | (参考訳) ディープラーニングに基づく自動音声認識システムは、主に経験的リスク最小化(erm)の下で訓練される。
ERMは、健常者や変形性スピーカーなどのグループによらず、データサンプル上での平均的な性能を利用するため、ASRシステムはグループ間のパフォーマンス格差に気づいていない。
その結果,グループ間での性能差が激しいASRシステムに偏りが生じた。
本研究では,変形性難聴者に対するグループロバストネスの観点から,ASRシステムの改善を目指す。
目的を達成するために,サンプル親和性試験(Re-SAT)によるサンプル再加重法を提案する。
re-satは、与えられたデータサンプルの偏りを体系的に測定し、有益さに基づくサンプルの重み付けを偏りなくすることでバイアスを緩和する。
実験の結果,re-satは健常者におけるasr性能の向上に寄与することが明らかとなった。 Automatic speech recognition systems based on deep learning are mainly trained under empirical risk minimization (ERM). Since ERM utilizes the averaged performance on the data samples regardless of a group such as healthy or dysarthric speakers, ASR systems are unaware of the performance disparities across the groups. This results in biased ASR systems whose performance differences among groups are severe. In this study, we aim to improve the ASR system in terms of group robustness for dysarthric speakers. To achieve our goal, we present a novel approach, sample reweighting with sample affinity test (Re-SAT). Re-SAT systematically measures the debiasing helpfulness of the given data sample and then mitigates the bias by debiasing helpfulness-based sample reweighting. Experimental results demonstrate that Re-SAT contributes to improved ASR performance on dysarthric speech without performance degradation on healthy speech. | 翻訳日:2023-06-28 16:47:38 公開日:2023-06-27 |
# ベル非局所性と不確実性の関係の統計的関係 Statistical link between Bell nonlocality and uncertainty relations ( http://arxiv.org/abs/2305.13006v2 ) ライセンス: Link先を確認 | Li-Yi Hsu | (参考訳) ベルの非局所性と不確実性の関係は古典物理学と量子論の異なる特徴である。
ベル非局所性 (bell nonlocality) は、異なる量子粒子上の局所観測器間の相関強度に関係し、不確実性関係は観測器の分散二乗の和または積の下界を構成する。
ここでは、これらの2つの量子文字間の統計的リンクをアハラノフ・ヴァイドマンの同一性を用いて確立する。
このとき、ベル型不等式の上界は分散平方数の局所和の積で表される。
一方、局所的不確実性関係を評価する代わりに、2つ以上の量子系の不確実性関係はベル非局所性の量によって上界となる。 Bell nonlocality and uncertainty relations are distinct features of quantum theory from classical physics. Bell nonlocality concerns the correlation strength among local observables on different quantum particles, whereas the uncertainty relations set the lower bound of the sum or product of the variance square of observables. Here we establish the statistical link between these two quantum characters using the Aharonov-Vaidman identity. Therein, the upper bounds of Bell-type inequalities are expressed in terms of the product of the local sum of the variance square. On the other hand, instead of evaluating local uncertainty relations, the uncertainty relations on two or more quantum systems are upper-bounded by the amount of Bell nonlocality therein. | 翻訳日:2023-06-28 16:47:20 公開日:2023-06-27 |
# 販売促進における転換率変動の捉え方:新しい歴史データ再利用手法 Capturing Conversion Rate Fluctuation during Sales Promotions: A Novel Historical Data Reuse Approach ( http://arxiv.org/abs/2305.12837v3 ) ライセンス: Link先を確認 | Zhangming Chan, Yu Zhang, Shuguang Han, Yong Bai, Xiang-Rong Sheng, Siyuan Lou, Jiacen Hu, Baolin Liu, Yuning Jiang, Jian Xu, Bo Zheng | (参考訳) コンバージョン率(CVR)予測は,オンラインレコメンデータシステムにおける中核的な要素のひとつであり,高精度で校正されたCVR推定を実現するための様々なアプローチが提案されている。
しかし,よく訓練されたCVR予測モデルでは,販売促進時に準最適に実行することが多い。
これは、従来の方法がもはや機能しないデータ分散シフトの問題を概ね説明することができる。
そこで我々は,CVR予測のための代替モデリング手法の開発を目指す。
異なるプロモーションで同様の購入パターンを観察し,過去のプロモーションデータを再利用してプロモーション変換パターンをキャプチャする。
本稿では、まず、歴史的に類似したプロモーションデータを取得し、次に取得したデータを用いてCVR予測モデルを微調整し、プロモーションモードへの適応性を向上する、新しい \textbf{H}istorical \textbf{D}ata \textbf{R}euse (\textbf{HDR}) アプローチを提案する。
HDRは3つのコンポーネントから構成される: 履歴のプロモーションから類似したデータを求める自動データ検索モジュール、検索したデータをターゲットのプロモーションに適合させるために再重み付けする分散シフト補正モジュール、そして、プロモーションモードに適応するためにオリジナルのモデルを素早く微調整するTransBlockモジュール。
実世界のデータを用いて行った実験は、ランキングとキャリブレーションの指標を大幅に改善するため、HDRの有効性を示す。
HDRはAlibabaのディスプレイ広告システムにも展開されており、2022年のDouble 11の売上で9.5%のRPMと16.%のCVRが加わった。 Conversion rate (CVR) prediction is one of the core components in online recommender systems, and various approaches have been proposed to obtain accurate and well-calibrated CVR estimation. However, we observe that a well-trained CVR prediction model often performs sub-optimally during sales promotions. This can be largely ascribed to the problem of the data distribution shift, in which the conventional methods no longer work. To this end, we seek to develop alternative modeling techniques for CVR prediction. Observing similar purchase patterns across different promotions, we propose reusing the historical promotion data to capture the promotional conversion patterns. Herein, we propose a novel \textbf{H}istorical \textbf{D}ata \textbf{R}euse (\textbf{HDR}) approach that first retrieves historically similar promotion data and then fine-tunes the CVR prediction model with the acquired data for better adaptation to the promotion mode. HDR consists of three components: an automated data retrieval module that seeks similar data from historical promotions, a distribution shift correction module that re-weights the retrieved data for better aligning with the target promotion, and a TransBlock module that quickly fine-tunes the original model for better adaptation to the promotion mode. Experiments conducted with real-world data demonstrate the effectiveness of HDR, as it improves both ranking and calibration metrics to a large extent. HDR has also been deployed on the display advertising system in Alibaba, bringing a lift of $9\%$ RPM and $16\%$ CVR during Double 11 Sales in 2022. | 翻訳日:2023-06-28 16:47:08 公開日:2023-06-27 |
# グラフニューラルネットワークによる複雑な物理系シミュレーションに向けて Towards Complex Dynamic Physics System Simulation with Graph Neural ODEs ( http://arxiv.org/abs/2305.12334v3 ) ライセンス: Link先を確認 | Guangsi Shi, Daokun Zhang, Ming Jin and Shirui Pan | (参考訳) 深層学習モデルの優れた学習能力により,実世界の理解が容易になり,複雑な粒子系をシミュレートすることが期待できる。
しかし、物理世界の複雑な法則は、相互作用する粒子間の空間依存性の変化や、粒子の相互作用行動や物理系の進化パターンを支配する異なるタイムスタンプにおける粒子系状態間の時間依存性など、学習に基づくシミュレーションに重大な課題をもたらす。
既存の学習に基づくシミュレーション手法では、複雑度を完全に説明できないため、十分なシミュレーションが得られない。
複雑な物理法則をよりよく理解するために,一貫したエンド・ツー・エンド・フレームワークを用いて粒子系の空間的・時間的依存性を特徴付ける新しい学習ベースシミュレーションモデルGNSTODE(Spatial-Temporal Neural Ordinary Equations)を提案する。
GNSTODEは実世界の粒子-粒子相互作用観測のトレーニングを通じて、高い精度で任意の粒子系をシミュレートすることができる。
我々はGNSTODEの2つの実世界の粒子系(重力とクーロン)におけるシミュレーション性能を、空間的および時間的依存の異なるレベルで実験的に評価した。
その結果,提案したGNSTODEは最先端の学習ベースシミュレーション法よりもはるかに優れたシミュレーションが得られ,GNSTODEが実世界の粒子シミュレーションに有効であることを示す。 The great learning ability of deep learning models facilitates us to comprehend the real physical world, making learning to simulate complicated particle systems a promising endeavour. However, the complex laws of the physical world pose significant challenges to the learning based simulations, such as the varying spatial dependencies between interacting particles and varying temporal dependencies between particle system states in different time stamps, which dominate particles' interacting behaviour and the physical systems' evolution patterns. Existing learning based simulation methods fail to fully account for the complexities, making them unable to yield satisfactory simulations. To better comprehend the complex physical laws, this paper proposes a novel learning based simulation model- Graph Networks with Spatial-Temporal neural Ordinary Equations (GNSTODE)- that characterizes the varying spatial and temporal dependencies in particle systems using a united end-to-end framework. Through training with real-world particle-particle interaction observations, GNSTODE is able to simulate any possible particle systems with high precisions. We empirically evaluate GNSTODE's simulation performance on two real-world particle systems, Gravity and Coulomb, with varying levels of spatial and temporal dependencies. The results show that the proposed GNSTODE yields significantly better simulations than state-of-the-art learning based simulation methods, which proves that GNSTODE can serve as an effective solution to particle simulations in real-world application. | 翻訳日:2023-06-28 16:46:34 公開日:2023-06-27 |
# Movie101: 新しい映画理解ベンチマーク Movie101: A New Movie Understanding Benchmark ( http://arxiv.org/abs/2305.12140v2 ) ライセンス: Link先を確認 | Zihao Yue, Qi Zhang, Anwen Hu, Liang Zhang, Ziheng Wang and Qin Jin | (参考訳) 視覚障害者が映画を楽しむのを助けるために、俳優の話し言葉がない場合には、映画の自動ナレーションシステムが正確で一貫性があり、役割認識に富むプロットをナレーションすることが期待されている。
既存のワークスでは、ロール名の削除やngramベースのメトリクスによるナレーションの評価など、いくつかの単純化によって、この課題を通常のビデオキャプションタスクとしてベンチマークしている。
このギャップを狭めるために,大規模な中国の映画ベンチマークMovie101を構築した。
実際のシナリオに近く、我々のベンチマークのMCN(Movie Clip Narrating)タスクは、俳優が話していない映画クリップのロールアウェアなナレーション文を生成するようモデルに求める。
ロール情報や映画ジャンルといった外部知識も、より優れた映画理解のために提供される。
また,映画ナレーション評価のためのMNSスコア(Movie Narration Score)という新しい指標を提案し,人間の評価と最適な相関性を実現する。
また,テキスト記述によるクリップの局所化を調べるためのtng(temporal narration grounding)タスクもサポートする。
両タスクにおいて,提案手法は外部知識をうまく活用し,慎重に設計したベースラインよりも優れている。
データセットとコードはhttps://github.com/yuezih/movie101でリリースされる。 To help the visually impaired enjoy movies, automatic movie narrating systems are expected to narrate accurate, coherent, and role-aware plots when there are no speaking lines of actors. Existing works benchmark this challenge as a normal video captioning task via some simplifications, such as removing role names and evaluating narrations with ngram-based metrics, which makes it difficult for automatic systems to meet the needs of real application scenarios. To narrow this gap, we construct a large-scale Chinese movie benchmark, named Movie101. Closer to real scenarios, the Movie Clip Narrating (MCN) task in our benchmark asks models to generate role-aware narration paragraphs for complete movie clips where no actors are speaking. External knowledge, such as role information and movie genres, is also provided for better movie understanding. Besides, we propose a new metric called Movie Narration Score (MNScore) for movie narrating evaluation, which achieves the best correlation with human evaluation. Our benchmark also supports the Temporal Narration Grounding (TNG) task to investigate clip localization given text descriptions. For both two tasks, our proposed methods well leverage external knowledge and outperform carefully designed baselines. The dataset and codes are released at https://github.com/yuezih/Movie101. | 翻訳日:2023-06-28 16:46:01 公開日:2023-06-27 |
# 多様な表現を用いたワンステップマルチビュークラスタリング One-step Multi-view Clustering with Diverse Representation ( http://arxiv.org/abs/2306.05437v2 ) ライセンス: Link先を確認 | Xinhang Wan, Jiyuan Liu, Xinwang Liu, Siwei Wang, Yi Wen, Tianjiao Wan, Li Shen, En Zhu | (参考訳) マルチビュークラスタリングは、ビュー間の一貫性と補完的な情報を活用する能力から、広く注目を集めている。
最近は大きな進歩を遂げているが、既存の手法のほとんどは複雑さが高く、大規模なタスクに適用できない。
行列分解によるマルチビュークラスタリングは、この問題に対処する代表である。
しかし、そのほとんどはデータ行列を一定の次元にマッピングし、モデルの表現性を制限する。
さらに、様々な方法が2段階のプロセス、すなわちマルチモーダル学習とその後の$k$-meansに苦しめられ、必然的に準最適クラスタリング結果を引き起こす。
そこで本研究では,多視点学習と$k$-meansを統合フレームワークに組み込んだ一段階のマルチビュークラスタリングを提案する。
具体的には,独自のデータ行列を様々な潜在空間に投影して包括的情報を取得し,自己教師あり方式で自動重み付けを行う。
次に、多次元情報行列を直接使用して、コンセンサス離散クラスタリングラベルを得る。
表現学習とクラスタリングの統合作業により、最終的な結果の品質が向上する。
さらに,この問題を解くために,収束性を証明した効率的な最適化アルゴリズムを開発した。
各種データセットの総合的な実験により,提案手法の有望なクラスタリング性能を示す。 Multi-view clustering has attracted broad attention due to its capacity to utilize consistent and complementary information among views. Although tremendous progress has been made recently, most existing methods undergo high complexity, preventing them from being applied to large-scale tasks. Multi-view clustering via matrix factorization is a representative to address this issue. However, most of them map the data matrices into a fixed dimension, limiting the model's expressiveness. Moreover, a range of methods suffers from a two-step process, i.e., multimodal learning and the subsequent $k$-means, inevitably causing a sub-optimal clustering result. In light of this, we propose a one-step multi-view clustering with diverse representation method, which incorporates multi-view learning and $k$-means into a unified framework. Specifically, we first project original data matrices into various latent spaces to attain comprehensive information and auto-weight them in a self-supervised manner. Then we directly use the information matrices under diverse dimensions to obtain consensus discrete clustering labels. The unified work of representation learning and clustering boosts the quality of the final results. Furthermore, we develop an efficient optimization algorithm with proven convergence to solve the resultant problem. Comprehensive experiments on various datasets demonstrate the promising clustering performance of our proposed method. | 翻訳日:2023-06-28 16:40:02 公開日:2023-06-27 |
# 異種グラフ学習のための置換同変グラフフレームレット Permutation Equivariant Graph Framelets for Heterophilous Graph Learning ( http://arxiv.org/abs/2306.04265v2 ) ライセンス: Link先を確認 | Jianfei Li, Ruigang Zheng, Han Feng, Ming Li, Xiaosheng Zhuang | (参考訳) 相同性グラフの性質は相同性グラフと大きく異なるため、初期のグラフニューラルネットワークモデルでは難易度が高まり、1-hop近傍でのアグリゲーションが示唆される。
本稿では,グラフ上の深層学習タスクに対して,置換等分散,効率,スパーシティの望ましい特性を持つハール型グラフフレームレットを構築することにより,マルチスケール抽出を実現する新しい手法を提案する。
さらに、構築したグラフフレームレットに基づいて、グラフフレームレットニューラルネットワークモデルPEGFAN(Permutation Equivariant Graph Framelet Augmented Network)を設計する。
実験は、合成データセットと9つのベンチマークデータセットで行われ、パフォーマンスを他の最先端モデルと比較する。
その結果, 異種グラフの特定のデータセット(比較的大きなサイズとより密接な接続を持つ異種グラフの大多数を含む)で最高の性能を達成でき, 残りは競合性能を達成できることがわかった。 The nature of heterophilous graphs is significantly different with that of homophilous graphs, which causes difficulties in early graph neural network models and suggests aggregations beyond 1-hop neighborhood. In this paper, we develop a new way to implement multi-scale extraction via constructing Haar-type graph framelets with desired properties of permutation equivariance, efficiency, and sparsity, for deep learning tasks on graphs. We further design a graph framelet neural network model PEGFAN (Permutation Equivariant Graph Framelet Augmented Network) based on our constructed graph framelets. The experiments are conducted on a synthetic dataset and 9 benchmark datasets to compare performance with other state-of-the-art models. The result shows that our model can achieve best performance on certain datasets of heterophilous graphs (including the majority of heterophilous datasets with relatively larger sizes and denser connections) and competitive performance on the remaining. | 翻訳日:2023-06-28 16:39:01 公開日:2023-06-27 |
# 静的ニューラルネットワーク透かしのための可逆量子化指数変調 Reversible Quantization Index Modulation for Static Deep Neural Network Watermarking ( http://arxiv.org/abs/2305.17879v2 ) ライセンス: Link先を確認 | Junren Qin, Shanxiang Lyu, Fan Yang, Jiarui Deng, Zhihua Xia, Xiaochun Cao | (参考訳) 静的ディープニューラルネットワーク(DNN)の透かし技術は通常、透かしをDNNモデル重みに埋め込む不可逆的な手法を用いる。
しかし、このアプローチは透かし付きモデルに恒久的なダメージを与え、完全性認証の要件を満たさない。
reversible data hide (rdh) メソッドは潜在的な解決策を提供するが、既存のアプローチではユーザビリティ、キャパシティ、忠実性といった面で弱点があり、実用的採用を妨げる。
本稿では,量子化指数変調(QIM)を用いたRDHに基づく静的DNN透かし手法を提案する。
本手法は,透かし埋め込みのための一次元量子化器に基づく新しい手法を取り入れている。
さらに,DNNの正当性保護と正当性認証の課題に対処する2つのスキームを設計する。
学習損失と分類精度のシミュレーション結果を通じて,提案手法の有効性と有効性を示し,既存手法と比較して優れた適応性を示す。 Static deep neural network (DNN) watermarking techniques typically employ irreversible methods to embed watermarks into the DNN model weights. However, this approach causes permanent damage to the watermarked model and fails to meet the requirements of integrity authentication. Reversible data hiding (RDH) methods offer a potential solution, but existing approaches suffer from weaknesses in terms of usability, capacity, and fidelity, hindering their practical adoption. In this paper, we propose a novel RDH-based static DNN watermarking scheme using quantization index modulation (QIM). Our scheme incorporates a novel approach based on a one-dimensional quantizer for watermark embedding. Furthermore, we design two schemes to address the challenges of integrity protection and legitimate authentication for DNNs. Through simulation results on training loss and classification accuracy, we demonstrate the feasibility and effectiveness of our proposed schemes, highlighting their superior adaptability compared to existing methods. | 翻訳日:2023-06-28 16:38:34 公開日:2023-06-27 |
# ボソン・ボソン相互作用を伴わない単一ボソニックモードによる臨界センシング Critical sensing with a single bosonic mode without boson-boson interactions ( http://arxiv.org/abs/2305.17656v2 ) ライセンス: Link先を確認 | Ken Chen, Jia-Hao L\"u, Xin Zhu, Hao-Long Zhang, Wen Ning, Zhen-Biao Yang, and Shi-Biao Zheng | (参考訳) 量子系の臨界現象は量子センシングの強化に有用である。
しかし、臨界性増強の実験的な実現は、熱力学やスケーリングの限界を含む厳密な要件、相互作用する量子スーパシステムや粒子の制御など、ごく少数のシステムに限られている。
本稿では,これらの条件を必要としない単純な臨界量子センシング方式を提案する。
臨界系は、多くの非相互作用ボソンを含む1つのパラメトリック駆動ボソニックモードで実現される。
量子フィッシャー情報を計算し,臨界性が有効となる拡張性を確認するシミュレーションを行う。
制御パラメータの変動に対する2次数の1つの応答についてさらに詳しく述べる。
数値的な結果から,その逆分散は臨界点における変動挙動を示すことが明らかとなった。
パラメトリック駆動の現在利用可能な制御技術に基づいて, イオントラップや超伝導回路など, 様々なシステムにおいて, 提案方式が実現されることを期待している。 Critical phenomena of quantum systems are useful for enhancement of quantum sensing. However, experimental realizations of criticality enhancement have been confined to very few systems, owing to the stringent requirements, including the thermodynamical or scaling limit, and fine control of interacting quantum susystems or particles. We here propose a simple critical quantum sensing scheme that requires neither of these conditions. The critical system is realized with a single parametrically-driven bosonic mode involving many non-interacting bosons. We calculate the quantum Fisher information, and perform a simulation, which confirms the criticality-enabled enhancement. We further detail the response of one of the quadratures to the variation of the control parameter. The numerical results reveal that its inverted variance exhibits a diverging behavior at the critical point. Based on the presently available control techniques of parametric driving, we expect our scheme can be realized in different systems, e.g., ion traps and superconducting circuits. | 翻訳日:2023-06-28 16:38:18 公開日:2023-06-27 |
# 木構造確率的図形モデルとしてのニューラルネットワークについて On Neural Networks as Infinite Tree-Structured Probabilistic Graphical Models ( http://arxiv.org/abs/2305.17583v2 ) ライセンス: Link先を確認 | Boyao Li, Alexandar J. Thomson, Matthew M. Engelhard, David Page | (参考訳) ディープニューラルネットワーク(DNN)は、確率的グラフィカルモデル(PGM)の正確なセマンティクスと決定的な確率論的解釈を欠いている。
本稿では,ニューラルネットワークに対応する無限木構造PGMを構築することにより,革新的な解を提案する。
我々の研究は、DNNが前方伝播中に、この代替のPGM構造において正確であるPGMの近似を行うことを明らかにした。
我々の研究は、ニューラルネットワークをカーネルマシンや無限サイズのガウス過程として記述する既存の研究を補完するだけでなく、DNNがPGMで正確に推測するより直接的な近似も解明している。
潜在的な利点としては、教育とDNNの解釈の改善、PGMとDNNの強みをマージするアルゴリズムなどがある。 Deep neural networks (DNNs) lack the precise semantics and definitive probabilistic interpretation of probabilistic graphical models (PGMs). In this paper, we propose an innovative solution by constructing infinite tree-structured PGMs that correspond exactly to neural networks. Our research reveals that DNNs, during forward propagation, indeed perform approximations of PGM inference that are precise in this alternative PGM structure. Not only does our research complement existing studies that describe neural networks as kernel machines or infinite-sized Gaussian processes, it also elucidates a more direct approximation that DNNs make to exact inference in PGMs. Potential benefits include improved pedagogy and interpretation of DNNs, and algorithms that can merge the strengths of PGMs and DNNs. | 翻訳日:2023-06-28 16:38:04 公開日:2023-06-27 |
# 文脈モデルを用いた木探索 Levin Tree Search with Context Models ( http://arxiv.org/abs/2305.16945v2 ) ライセンス: Link先を確認 | Laurent Orseau, Marcus Hutter, Levi H.S. Lelis | (参考訳) Levin Tree Search (LTS) は、ポリシー(アクション上の確率分布)を利用する検索アルゴリズムであり、ポリシーの質に応じてゴールノードに到達する前に展開数について理論的に保証される。
この保証は、LTS損失と呼ばれる損失関数として使用することができ、ポリシー(LTS+NN)を表すニューラルネットワークを最適化する。
本研究では,ニューラルネットワークをオンライン圧縮文献(LTS+CM)から派生したパラメータ化コンテキストモデルに代用できることを示す。
この新モデルでは、LTS損失は凸であり、標準的な凸最適化ツールを使用でき、与えられた解軌跡のオンライン設定における最適パラメータへの収束保証が得られる。
新しいLTS+CMアルゴリズムは、ソコバン(Boxoban)、The Witness、24-Sliding Tile puzzle(STP)といったいくつかのベンチマークでLTS+NNと好意的に比較する。
LTS+NNはテストインスタンスのほとんどを解決できず、LTS+CMは各テストインスタンスを1秒で解決する。
さらに、lts+cmは数百の展開でルービックキューブを解くポリシーを学習できることを示し、従来の機械学習技術により大幅に改善することを示した。 Levin Tree Search (LTS) is a search algorithm that makes use of a policy (a probability distribution over actions) and comes with a theoretical guarantee on the number of expansions before reaching a goal node, depending on the quality of the policy. This guarantee can be used as a loss function, which we call the LTS loss, to optimize neural networks representing the policy (LTS+NN). In this work we show that the neural network can be substituted with parameterized context models originating from the online compression literature (LTS+CM). We show that the LTS loss is convex under this new model, which allows for using standard convex optimization tools, and obtain convergence guarantees to the optimal parameters in an online setting for a given set of solution trajectories -- guarantees that cannot be provided for neural networks. The new LTS+CM algorithm compares favorably against LTS+NN on several benchmarks: Sokoban (Boxoban), The Witness, and the 24-Sliding Tile puzzle (STP). The difference is particularly large on STP, where LTS+NN fails to solve most of the test instances while LTS+CM solves each test instance in a fraction of a second. Furthermore, we show that LTS+CM is able to learn a policy that solves the Rubik's cube in only a few hundred expansions, which considerably improves upon previous machine learning techniques. | 翻訳日:2023-06-28 16:37:45 公開日:2023-06-27 |
# replicable強化学習 Replicable Reinforcement Learning ( http://arxiv.org/abs/2305.15284v3 ) ライセンス: Link先を確認 | Eric Eaton, Marcel Hussing, Michael Kearns, Jessica Sorrell | (参考訳) 社会的、行動的、データ科学における複製可能性の危機は、複製性のためのアルゴリズムフレームワーク、すなわち、アルゴリズムが同じ分布から2つの異なるサンプルを実行する際に(高い確率で)同じ出力を生成するという要求を定式化した。
まだ初期段階だが、統計的クエリ学習、ヘビーヒッター問題、分散テストなど、機械学習と統計学における多くの基本的なタスクのために、確実に再現可能なアルゴリズムが開発されている。
本研究では,レプリケーブル強化学習(replicable reinforcement learning)の研究を開始し,並列値反復のためのproplicableアルゴリズムと,エピソディック設定におけるr-maxのreplicableバージョンを提供する。
これらは、バッチ学習設定とは異なるレプリケーションの課題を示す、制御問題に対する最初の公式な再現性結果である。 The replicability crisis in the social, behavioral, and data sciences has led to the formulation of algorithm frameworks for replicability -- i.e., a requirement that an algorithm produce identical outputs (with high probability) when run on two different samples from the same underlying distribution. While still in its infancy, provably replicable algorithms have been developed for many fundamental tasks in machine learning and statistics, including statistical query learning, the heavy hitters problem, and distribution testing. In this work we initiate the study of replicable reinforcement learning, providing a provably replicable algorithm for parallel value iteration, and a provably replicable version of R-max in the episodic setting. These are the first formal replicability results for control problems, which present different challenges for replication than batch learning settings. | 翻訳日:2023-06-28 16:37:02 公開日:2023-06-27 |
# Union-find 量子デコード Union-find quantum decoding without union-find ( http://arxiv.org/abs/2306.09767v2 ) ライセンス: Link先を確認 | Sam J. Griffiths and Dan E. Browne | (参考訳) ユニオンフィンデコーダは、物理量子ビット数でほぼ直線的にスケールする減算計算時間を持つ最小重完全マッチング(MWPM)に匹敵する符号しきい値を達成し、表面符号上の量子エラーの補正に先導するアルゴリズムである。
この複雑さはdisjoint-setデータ構造によって提供される最適化によって達成される。
しかしながら,大規模デコーダの動作は,このデータ構造を解析的・アルゴリズム的な2つの理由から活用し,アーキテクチャ設計に改良や単純化を施し,リソースオーバヘッドを実際に削減できることを実証する。
これを強化するため、デコーダによって形成される消去クラスタの挙動をモデル化し、いかなる動作モードにおいてもデータ構造内にパーコレーションしきい値が存在しないことを示す。
これにより、一般的な最適化を省略したナイーブな実装であっても、大規模なデコーダでは線形時最悪ケースが複雑になる。 The union-find decoder is a leading algorithmic approach to the correction of quantum errors on the surface code, achieving code thresholds comparable to minimum-weight perfect matching (MWPM) with amortised computational time scaling near-linearly in the number of physical qubits. This complexity is achieved via optimisations provided by the disjoint-set data structure. We demonstrate, however, that the behaviour of the decoder at scale underutilises this data structure for twofold analytic and algorithmic reasons, and that improvements and simplifications can be made to architectural designs to reduce resource overhead in practice. To reinforce this, we model the behaviour of erasure clusters formed by the decoder and show that there does not exist a percolation threshold within the data structure for any mode of operation. This yields a linear-time worst-case complexity for the decoder at scale, even with a naive implementation omitting popular optimisations. | 翻訳日:2023-06-28 16:28:50 公開日:2023-06-27 |
# 2d-lclm と zhou yi 8 trigram による沖合風力の画像暗号化 Image encryption for Offshore wind power based on 2D-LCLM and Zhou Yi Eight Trigrams ( http://arxiv.org/abs/2306.09245v2 ) ライセンス: Link先を確認 | Lei Kou, Jinbo Wu, Fangfang Zhang, Peng Ji, Wende Ke, Junhe Wan, Hailin Liu, Yang Li, Quande Yuan | (参考訳) 洋上風力発電は、海洋における複雑で変化する状況のため、画像等の情報なしには正常な運用や保守ができないため、情報伝達の過程で適切な画像を送信することが特に重要である。
本稿では,2次元ラグランジ複素ロジスティックマッピング (2d-lclm) と周井八三グラムに基づくオフショア風力発電のための新しい暗号化アルゴリズムを提案する。
まず、2D-LCLMの初期値はSha-256によって構成され、2D-LCLMと平文を関連付ける。
次に、周井八三グラムから新たな暗号規則を提案し、画素値の難読化とラウンドキーの生成を行う。
そして、2D−LCLMをジグザグと組み合わせてSボックスを形成する。
最後に,アルゴリズムのシミュレーション実験を行う。
実験の結果,アルゴリズムは一般的な攻撃に耐性を持ち,暗号化性能に優れることが示された。 Offshore wind power is an important part of the new power system, due to the complex and changing situation at ocean, its normal operation and maintenance cannot be done without information such as images, therefore, it is especially important to transmit the correct image in the process of information transmission. In this paper, we propose a new encryption algorithm for offshore wind power based on two-dimensional lagged complex logistic mapping (2D-LCLM) and Zhou Yi Eight Trigrams. Firstly, the initial value of the 2D-LCLM is constructed by the Sha-256 to associate the 2D-LCLM with the plaintext. Secondly, a new encryption rule is proposed from the Zhou Yi Eight Trigrams to obfuscate the pixel values and generate the round key. Then, 2D-LCLM is combined with the Zigzag to form an S-box. Finally, the simulation experiment of the algorithm is accomplished. The experimental results demonstrate that the algorithm can resistant common attacks and has prefect encryption performance. | 翻訳日:2023-06-28 16:28:31 公開日:2023-06-27 |
# 大規模言語モデルの時間推論能力のベンチマークと改善に向けて Towards Benchmarking and Improving the Temporal Reasoning Capability of Large Language Models ( http://arxiv.org/abs/2306.08952v2 ) ライセンス: Link先を確認 | Qingyu Tan, Hwee Tou Ng, Lidong Bing | (参考訳) 時間に関する推論は、基本的に重要です。
多くの事実は時間に依存します。
例えば、選手は時々チームを変え、異なる政府機関が定期的に選出される。
以前の時間依存質問応答(QA)データセットは、時間範囲のカバレッジか質問タイプに偏っている傾向があります。
本稿では,大規模言語モデルの時間的推論能力を評価するために,包括的探索データセット \tempreason を提案する。
我々のデータセットには3つの時間的推論レベルに関する質問が含まれている。
さらに,時空間抽出と時間依存性強化学習に基づいて,大規模言語モデルの時間的推論能力を向上させるための新しい学習フレームワークを提案する。
我々は,クローズドブックQA,オープンブックQA,およびQA設定の推論実験を行い,本手法の有効性を実証した。
私たちのコードとデータはhttps://github.com/DAMO-NLP-SG/TempReason.comで公開されています。 Reasoning about time is of fundamental importance. Many facts are time-dependent. For example, athletes change teams from time to time, and different government officials are elected periodically. Previous time-dependent question answering (QA) datasets tend to be biased in either their coverage of time spans or question types. In this paper, we introduce a comprehensive probing dataset \tempreason to evaluate the temporal reasoning capability of large language models. Our dataset includes questions of three temporal reasoning levels. In addition, we also propose a novel learning framework to improve the temporal reasoning capability of large language models, based on temporal span extraction and time-sensitive reinforcement learning. We conducted experiments in closed book QA, open book QA, and reasoning QA settings and demonstrated the effectiveness of our approach. Our code and data are released on https://github.com/DAMO-NLP-SG/TempReason. | 翻訳日:2023-06-28 16:27:56 公開日:2023-06-27 |
# 非対称対称性による非エルミート皮膚効果 Non-Hermitian skin effect enforced by nonsymmorphic symmetries ( http://arxiv.org/abs/2306.08923v2 ) ライセンス: Link先を確認 | Yutaro Tanaka, Ryo Takahashi, and Ryo Okugawa | (参考訳) 結晶対称性は非エルミートハミルトンのバンド構造において重要な役割を果たす。
本稿では,非対称対称性によって強制される非エルミート皮膚効果(NHSE)を提案する。
非対称性強化nhseは、2次元非エルミート系が非対称性によって特徴づけられる特定の条件を満たすと必然的に発生する。
この NHSE は時間反転対称性の存在においても起こる。
非対称対称性強化NHSEは常にゼロエネルギーでの点ギャップの閉包と同時に起こる。
また、このような NHSE は、非同相対称性を持つ特定の3次元空間群で起こりうることを示す。 Crystal symmetries play an essential role in band structures of non-Hermitian Hamiltonian. In this letter, we propose a non-Hermitian skin effect (NHSE) enforced by nonsymmorphic symmetries. We show that the nonsymmorphic-symmetry-enforced NHSE inevitably occurs if a two-dimensional non-Hermitian system satisfies certain conditions characterized by nonsymmorphic symmetries. This NHSE can occur even in the presence of time-reversal symmetry. The nonsymmorphic-symmetry-enforced NHSE always occurs simultaneously with the closing of the point gap at zero energy. We also show that such a NHSE can occur in specific three-dimensional space groups with nonsymmorphic symmetries. | 翻訳日:2023-06-28 16:27:42 公開日:2023-06-27 |
# 時間依存ハミルトニアンのフォン・ノイマン方程式の量子シミュレーション Quantum simulation of the von Neumann equation of time-dependent Hamiltonians ( http://arxiv.org/abs/2306.08775v3 ) ライセンス: Link先を確認 | Alejandro Kunold | (参考訳) 本研究では,時間依存ハミルトイナンに対するフォン・ノイマン方程式によって制御される密度行列のダイナミクスをシミュレートする量子アルゴリズムを開発した。
この方法は、与えられたリー代数の構造定数の性質を通して密度行列のベクトル化に依存する。
パウリの弦によって形成される代数を用いても、アルゴリズムは他の代数に容易に適用できる。
このアプローチの主な利点の1つは、位相キックバックによって容易に決定できる実密度行列係数が得られることである。
このアルゴリズムはIBMノイズ量子回路シミュレータを用いて実証される。 In this work we develop a quantum algorithm to simulate the dynamics of the density matrix governed by the von Neumann equation for time-dependent Hamiltoinans. The method relies on the vectorization of the density matrix through the properties of the structure constants of a given Lie algebra. Even though we have used the algebra formed by the Pauli strings, the algorithm can be easily adapted to other algebras. One of the main advantages of this approach is that it yields real density matrix coefficients that are easy to determine through phase kickback. The algorithm is demonstrated using the IBM noisy quantum circuit simulator. | 翻訳日:2023-06-28 16:27:32 公開日:2023-06-27 |
# 自然言語処理におけるソシオドモグラフィーバイアスの実態調査 Survey on Sociodemographic Bias in Natural Language Processing ( http://arxiv.org/abs/2306.08158v2 ) ライセンス: Link先を確認 | Vipul Gupta, Pranav Narayanan Venkit, Shomir Wilson, Rebecca J. Passonneau | (参考訳) ディープニューラルネットワークは、トレーニング中に意図しないバイアスを学習することが多い。
本稿では,nlpモデルにおけるバイアスに関する209の論文を調査した。
バイアスと現実世界の害の区別をよりよく理解するために、心理学や行動経済学の考え方に転換し、社会的な偏見の定義を提案する。
NLPバイアス研究の主なカテゴリは、バイアスの種類、定量化バイアス、偏りの3つである。
バイアスの定量化に関する現在のアプローチは信頼性の問題に直面し、バイアス指標の多くは現実世界のバイアスとは無関係であり、現在のデバイアス技術は表面的でバイアスを除去するよりも隠れている、と結論付けている。
最後に、今後の仕事について推奨する。 Deep neural networks often learn unintended biases during training, which might have harmful effects when deployed in real-world settings. This paper surveys 209 papers on bias in NLP models, most of which address sociodemographic bias. To better understand the distinction between bias and real-world harm, we turn to ideas from psychology and behavioral economics to propose a definition for sociodemographic bias. We identify three main categories of NLP bias research: types of bias, quantifying bias, and debiasing. We conclude that current approaches on quantifying bias face reliability issues, that many of the bias metrics do not relate to real-world biases, and that current debiasing techniques are superficial and hide bias rather than removing it. Finally, we provide recommendations for future work. | 翻訳日:2023-06-28 16:27:22 公開日:2023-06-27 |
# 深層学習を用いたダークウェブ活動分類 Dark Web Activity Classification Using Deep Learning ( http://arxiv.org/abs/2306.07980v2 ) ライセンス: Link先を確認 | Ali Fayzi, Mohammad Fayzi, Kourosh Ahmadi | (参考訳) 現代では、人々は直接的または間接的に、情報を得るためにインターネットや検索エンジンに大きく依存している。
しかし、ユーザからアクセス可能な情報は、インターネット上の全情報のわずか4%に過ぎず、一般にサーフェスウェブとして知られている。
検索エンジンから抜け出す残りの情報はdeep webと呼ばれる。
deep webは、個人メールアカウント、ソーシャルメディアアカウント、オンライン銀行口座、その他の機密データなど、意図的に隠された情報を包含している。
ディープウェブには、大学、銀行、市民記録のデータベースを含むいくつかの重要なアプリケーションが含まれており、それらはオフリミットであり、アクセスが違法である。
ダークウェブはディープウェブのサブセットであり、犯罪者や密輸業者が麻薬密売、武器密輸、盗まれた銀行カードの販売、マネーロンダリングなどの違法行為を行うのに理想的なプラットフォームを提供する。
本稿では,ダークウェブ上での活動のタイトルを検出するためにディープラーニングを利用する検索エンジンを提案する。
薬物取引、武器取引、盗まれた銀行カードの販売、偽のIDの販売、違法通貨の販売を含む5つのカテゴリに焦点をあてる。
本研究の目的は、Webサイトから「.onion」拡張で関連画像を抽出し、ページのテキストからキーワードを抽出することで、画像のないWebサイトのタイトルを識別することである。
さらに,提案手法の評価に使用したDarkoob画像のデータセットについても紹介した。
実験の結果,提案手法はテストデータセット上で94%の精度が得られることがわかった。 In contemporary times, people rely heavily on the internet and search engines to obtain information, either directly or indirectly. However, the information accessible to users constitutes merely 4% of the overall information present on the internet, which is commonly known as the surface web. The remaining information that eludes search engines is called the deep web. The deep web encompasses deliberately hidden information, such as personal email accounts, social media accounts, online banking accounts, and other confidential data. The deep web contains several critical applications, including databases of universities, banks, and civil records, which are off-limits and illegal to access. The dark web is a subset of the deep web that provides an ideal platform for criminals and smugglers to engage in illicit activities, such as drug trafficking, weapon smuggling, selling stolen bank cards, and money laundering. In this article, we propose a search engine that employs deep learning to detect the titles of activities on the dark web. We focus on five categories of activities, including drug trading, weapon trading, selling stolen bank cards, selling fake IDs, and selling illegal currencies. Our aim is to extract relevant images from websites with a ".onion" extension and identify the titles of websites without images by extracting keywords from the text of the pages. Furthermore, we introduce a dataset of images called Darkoob, which we have gathered and used to evaluate our proposed method. Our experimental results demonstrate that the proposed method achieves an accuracy rate of 94% on the test dataset. | 翻訳日:2023-06-28 16:27:09 公開日:2023-06-27 |
# 因子分析による世界モデル学習 Learning World Models with Identifiable Factorization ( http://arxiv.org/abs/2306.06561v2 ) ライセンス: Link先を確認 | Yu-Ren Liu, Biwei Huang, Zhengmao Zhu, Honglong Tian, Mingming Gong, Yang Yu, Kun Zhang | (参考訳) 安定かつコンパクトな環境表現の抽出は、高次元、雑音、非定常環境における効率的な強化学習に不可欠である。
このような環境で共存する情報の異なるカテゴリ -- 情報を効果的に抽出し、アンタングルする方法は、依然として困難な問題である。
本稿では,行動と報酬の相互作用に基づいて,RLシステム内の情報の様々な側面を捉える潜在状態変数の4つの異なるカテゴリをモデル化する汎用フレームワークであるIFactorを提案する。
本分析は,これらの潜在変数のブロックワイズ同定可能性を確立し,安定かつコンパクトな表現を提供するだけでなく,すべての報酬関連因子が政策学習に重要であることを明らかにする。
さらに,特定可能なブロックで世界モデルを学ぶための実践的なアプローチを提案し,冗長なブロックの除去を保証しつつ,政策最適化のための最小かつ十分な情報を保持する。
合成世界における実験により,本手法は地中潜伏変数を正確に同定し,理論的知見を裏付けるものである。
さらに、DeepMind Control SuiteとRoboDeskの亜種による実験では、ベースラインよりも優れたパフォーマンスを示している。 Extracting a stable and compact representation of the environment is crucial for efficient reinforcement learning in high-dimensional, noisy, and non-stationary environments. Different categories of information coexist in such environments -- how to effectively extract and disentangle these information remains a challenging problem. In this paper, we propose IFactor, a general framework to model four distinct categories of latent state variables that capture various aspects of information within the RL system, based on their interactions with actions and rewards. Our analysis establishes block-wise identifiability of these latent variables, which not only provides a stable and compact representation but also discloses that all reward-relevant factors are significant for policy learning. We further present a practical approach to learning the world model with identifiable blocks, ensuring the removal of redundants but retaining minimal and sufficient information for policy optimization. Experiments in synthetic worlds demonstrate that our method accurately identifies the ground-truth latent variables, substantiating our theoretical findings. Moreover, experiments in variants of the DeepMind Control Suite and RoboDesk showcase the superior performance of our approach over baselines. | 翻訳日:2023-06-28 16:26:43 公開日:2023-06-27 |
# 大規模言語モデルからレコメンダシステムにどのようなメリットがあるか:調査 How Can Recommender Systems Benefit from Large Language Models: A Survey ( http://arxiv.org/abs/2306.05817v3 ) ライセンス: Link先を確認 | Jianghao Lin, Xinyi Dai, Yunjia Xi, Weiwen Liu, Bo Chen, Xiangyang Li, Chenxu Zhu, Huifeng Guo, Yong Yu, Ruiming Tang, Weinan Zhang | (参考訳) インターネットアプリケーションにおいて,レコメンダシステム(RS)はユーザの情報要求に合わせて重要な役割を果たす。
自然言語処理(nlp)領域では、大規模言語モデル(llm)は驚くべき創発的能力(例えば命令追従、推論)を示しており、llmをrsに適用してパフォーマンスの向上とユーザエクスペリエンスの改善を行う有望な研究方向を生み出している。
本稿では,本研究の方向性をアプリケーション指向の観点から総合的に調査する。
まず, LLM を RS に適用する方法という2つの直交的な視点から, 既存の研究成果を要約する。
where"という質問に対して、我々は、レコメンデーションパイプラインのさまざまなステージでllmが果たすことができる役割、すなわち、機能工学、特徴エンコーダ、スコアリング/ランキング関数、パイプラインコントローラについて論じる。
how"問題に対しては、トレーニングと推論の戦略を調査し、llmをチューニングするか否か、推論に従来の推奨モデル(crm)を関与させるかどうかという2つの詳細な分類基準を導出する。
いずれの質問にも詳細な分析と一般的な開発軌跡が提供される。
次に,3つの側面,すなわち効率性,有効性,倫理性から,LSMをRSに適用する上での課題を強調した。
最後に,調査の概要と今後の展望について考察する。
また、この上昇方向において、論文やその他の関連リソースのためのgithubリポジトリを積極的に維持している。 Recommender systems (RS) play important roles to match users' information needs for Internet applications. In natural language processing (NLP) domains, large language model (LLM) has shown astonishing emergent abilities (e.g., instruction following, reasoning), thus giving rise to the promising research direction of adapting LLM to RS for performance enhancements and user experience improvements. In this paper, we conduct a comprehensive survey on this research direction from an application-oriented view. We first summarize existing research works from two orthogonal perspectives: where and how to adapt LLM to RS. For the "WHERE" question, we discuss the roles that LLM could play in different stages of the recommendation pipeline, i.e., feature engineering, feature encoder, scoring/ranking function, and pipeline controller. For the "HOW" question, we investigate the training and inference strategies, resulting in two fine-grained taxonomy criteria, i.e., whether to tune LLMs or not, and whether to involve conventional recommendation model (CRM) for inference. Detailed analysis and general development trajectories are provided for both questions, respectively. Then, we highlight key challenges in adapting LLM to RS from three aspects, i.e., efficiency, effectiveness, and ethics. Finally, we summarize the survey and discuss the future prospects. We also actively maintain a GitHub repository for papers and other related resources in this rising direction: https://github.com/CHIANGEL/Awesome-LLM-for-RecSys. | 翻訳日:2023-06-28 16:26:24 公開日:2023-06-27 |
# ガウス過程ネットワークに対するベイズ的アプローチ A Bayesian Take on Gaussian Process Networks ( http://arxiv.org/abs/2306.11380v2 ) ライセンス: Link先を確認 | Enrico Giudice, Jack Kuipers, Giusi Moffa | (参考訳) ガウス過程ネットワーク(英: gaussian process network、gpns)は、ネットワーク内の各変数の条件付き期待値の事前としてガウス過程を用いる有向グラフィカルモデルのクラスである。
このモデルは、変数間の依存関係に関する最小限のパラメトリック仮定で、コンパクトで柔軟な方法で連続的なジョイント分布を記述することができる。
GPNのベイズ構造学習は、ネットワークのグラフの後方を計算し、低次元でも計算不可能である。
この研究はモンテカルロとマルコフ連鎖モンテカルロ法を実装し、ネットワーク構造の後方分布からサンプルを得る。
このように、このアプローチはベイズパラダイムに従い、その限界確率によるモデルの比較とGPN特徴の後方確率の計算を行う。
シミュレーションにより,本手法はネットワークのグラフィカルな構造の復元において最先端のアルゴリズムよりも優れており,その後方分布を精度良く近似できることを示した。 Gaussian Process Networks (GPNs) are a class of directed graphical models which employ Gaussian processes as priors for the conditional expectation of each variable given its parents in the network. The model allows describing continuous joint distributions in a compact but flexible manner with minimal parametric assumptions on the dependencies between variables. Bayesian structure learning of GPNs requires computing the posterior over graphs of the network and is computationally infeasible even in low dimensions. This work implements Monte Carlo and Markov Chain Monte Carlo methods to sample from the posterior distribution of network structures. As such, the approach follows the Bayesian paradigm, comparing models via their marginal likelihood and computing the posterior probability of the GPN features. Simulation studies show that our method outperforms state-of-the-art algorithms in recovering the graphical structure of the network and provides an accurate approximation of its posterior distribution. | 翻訳日:2023-06-28 16:20:02 公開日:2023-06-27 |
# 粗粒タンパク質力場のトップダウン機械学習 Top-down machine learning of coarse-grained protein force-fields ( http://arxiv.org/abs/2306.11375v3 ) ライセンス: Link先を確認 | Carles Navarro, Maciej Majewski and Gianni de Fabritiis | (参考訳) タンパク質の正確な、効率的な粗粒度の表現を作ることは、その折りたたみ、機能、相互作用を拡張タイムスケールで理解するために重要である。
我々の手法は、タンパク質を分子動力学でシミュレートし、その結果の軌跡を利用して、異なる軌道重み付けによってニューラルネットワーク電位を訓練する。
驚くべきことに、この方法はタンパク質のネイティブコンフォメーションのみを必要とし、広範囲なシミュレーションやメモリ集約的なエンドツーエンドの微分可能なシミュレーションから得られるラベル付きデータの必要性をなくす。
一度トレーニングすると、モデルを使用して、並列分子動力学シミュレーションと、トレーニング分布内およびその外挿能力を示すタンパク質のサンプル折り畳みイベントを実行することができる。
マルコフ状態モデルを適用することで、粗粒シミュレーションからシミュレーションタンパク質のネイティブ様配座を予測できる。
実験的な静的構造のみをトレーニングデータとして用いる理論的伝達性や能力から,新たなタンパク質力場の開発や,タンパク質のダイナミクス,折り畳み,相互作用の研究の進展に有利であることが期待できる。 Developing accurate and efficient coarse-grained representations of proteins is crucial for understanding their folding, function, and interactions over extended timescales. Our methodology involves simulating proteins with molecular dynamics and utilizing the resulting trajectories to train a neural network potential through differentiable trajectory reweighting. Remarkably, this method requires only the native conformation of proteins, eliminating the need for labeled data derived from extensive simulations or memory-intensive end-to-end differentiable simulations. Once trained, the model can be employed to run parallel molecular dynamics simulations and sample folding events for proteins both within and beyond the training distribution, showcasing its extrapolation capabilities. By applying Markov State Models, native-like conformations of the simulated proteins can be predicted from the coarse-grained simulations. Owing to its theoretical transferability and ability to use solely experimental static structures as training data, we anticipate that this approach will prove advantageous for developing new protein force fields and further advancing the study of protein dynamics, folding, and interactions. | 翻訳日:2023-06-28 16:19:45 公開日:2023-06-27 |
# FPGAを用いた粒子軌道追跡のための低レイテンシエッジ分類GNN Low Latency Edge Classification GNN for Particle Trajectory Tracking on FPGAs ( http://arxiv.org/abs/2306.11330v2 ) ライセンス: Link先を確認 | Shi-Yu Huang, Yun-Chen Yang, Yu-Ru Su, Bo-Cheng Lai, Javier Duarte, Scott Hauck, Shih-Chieh Hsu, Jin-Xuan Hu, Mark S. Neubauer | (参考訳) 大型ハドロン衝突型加速器のリアルタイム粒子軌道再構成は、高い衝突速度と多数の粒子衝突のため困難である。
FPGA上でGNN(Graph Neural Network)を用いることで、柔軟な軌道分類が可能になった。
しかし、既存のgnnアーキテクチャはリソースの使用効率が悪く、エッジ分類の並列性が不十分である。
本稿では,低遅延粒子追跡のためのFPGAにおける資源効率のよいGNNアーキテクチャを提案する。
モジュラーアーキテクチャは、大きなグラフをサポートする設計のスケーラビリティを促進する。
ヒット検出器の幾何学的性質を活用することで、グラフの複雑さとリソース使用量はさらに削減される。
Xilinx UltraScale+VU9Pの結果,CPUとGPUでそれぞれ1625倍,GPUで1574倍の性能向上を示した。 In-time particle trajectory reconstruction in the Large Hadron Collider is challenging due to the high collision rate and numerous particle hits. Using GNN (Graph Neural Network) on FPGA has enabled superior accuracy with flexible trajectory classification. However, existing GNN architectures have inefficient resource usage and insufficient parallelism for edge classification. This paper introduces a resource-efficient GNN architecture on FPGAs for low latency particle tracking. The modular architecture facilitates design scalability to support large graphs. Leveraging the geometric properties of hit detectors further reduces graph complexity and resource usage. Our results on Xilinx UltraScale+ VU9P demonstrate 1625x and 1574x performance improvement over CPU and GPU respectively. | 翻訳日:2023-06-28 16:19:26 公開日:2023-06-27 |
# ベクトル探索のための共設計ハードウェアとアルゴリズム Co-design Hardware and Algorithm for Vector Search ( http://arxiv.org/abs/2306.11182v2 ) ライセンス: Link先を確認 | Wenqi Jiang and Shigang Li and Yu Zhu and Johannes de Fine Licht and Zhenhao He and Runbin Shi and Cedric Renggli and Shuai Zhang and Theodoros Rekatsinas and Torsten Hoefler and Gustavo Alonso | (参考訳) ベクトル検索は大規模な情報検索と機械学習システムの基盤として現れ、GoogleやBingといった検索エンジンは、エンコードされたクエリテキストとWebドキュメント間のベクトル類似性を評価することによって、ペタバイト規模のドキュメントデータセットで毎秒数万のクエリを処理する。
ベクトル探索システムの性能要求が急増するにつれて、加速ハードウェアはムーアの法則時代において有望な解決策を提供する。
FPGA上のエンドツーエンドでスケーラブルなベクトル検索フレームワークである \textit{FANNS} を紹介する。
データセットとハードウェアリソースの予算に関するユーザが提供するリコール要求を前提として、 \textit{FANNS}は自動的にハードウェアとアルゴリズムを設計し、それに対応するアクセラレータを生成する。
このフレームワークは、ハードウェアTCP/IPスタックをアクセラレータに組み込むことでスケールアウトもサポートする。
fpgaとcpuのベースラインと比較して最大23.0$\times$と37.2$\times$ speedupを達成し、gpuに対する優れたスケーラビリティを示し、中央値で5.5$\times$と7.6$\times$ speedupを、8アクセラレータ構成で95$textsuperscript{th} percentile (p95)レイテンシを達成する。
textit{FANNS} の顕著な性能は、データセンターとAIスーパーコンピュータにおける将来のFPGA統合の堅牢な基盤となる。 Vector search has emerged as the foundation for large-scale information retrieval and machine learning systems, with search engines like Google and Bing processing tens of thousands of queries per second on petabyte-scale document datasets by evaluating vector similarities between encoded query texts and web documents. As performance demands for vector search systems surge, accelerated hardware offers a promising solution in the post-Moore's Law era. We introduce \textit{FANNS}, an end-to-end and scalable vector search framework on FPGAs. Given a user-provided recall requirement on a dataset and a hardware resource budget, \textit{FANNS} automatically co-designs hardware and algorithm, subsequently generating the corresponding accelerator. The framework also supports scale-out by incorporating a hardware TCP/IP stack in the accelerator. \textit{FANNS} attains up to 23.0$\times$ and 37.2$\times$ speedup compared to FPGA and CPU baselines, respectively, and demonstrates superior scalability to GPUs, achieving 5.5$\times$ and 7.6$\times$ speedup in median and 95\textsuperscript{th} percentile (P95) latency within an eight-accelerator configuration. The remarkable performance of \textit{FANNS} lays a robust groundwork for future FPGA integration in data centers and AI supercomputers. | 翻訳日:2023-06-28 16:19:18 公開日:2023-06-27 |
# 政策一般化における効果不変メカニズム Effect-Invariant Mechanisms for Policy Generalization ( http://arxiv.org/abs/2306.10983v2 ) ライセンス: Link先を確認 | Sorawit Saengkyongam, Niklas Pfister, Predrag Klasnja, Susan Murphy, Jonas Peters | (参考訳) 政策学習は多くの現実世界の学習システムの重要な要素である。
ポリシー学習における大きな課題は、未知の環境やタスクに効率的に適応する方法である。
近年,不変条件分布を活用して,未知環境に一般化したモデルを学ぶことが提案されている。
しかし、条件分布全体の不変性(フル不変性と呼ぶ)を仮定すると、実際には仮定が強すぎるかもしれない。
本稿では,効果不変性(e-invariance,略してe-invariance)と呼ばれる完全不変性の緩和を導入する。
また、テスト環境から小さなサンプルを得た場合、e-invarianceを利用する拡張についても論じる。
我々の研究は、基礎となる因果グラフや、そのデータが構造的因果モデルによって生成されると仮定していない。
本手法の有効性を示すために,シミュレーションデータとモバイルヘルス介入データセットを用いて実験結果を示す。 Policy learning is an important component of many real-world learning systems. A major challenge in policy learning is how to adapt efficiently to unseen environments or tasks. Recently, it has been suggested to exploit invariant conditional distributions to learn models that generalize better to unseen environments. However, assuming invariance of entire conditional distributions (which we call full invariance) may be too strong of an assumption in practice. In this paper, we introduce a relaxation of full invariance called effect-invariance (e-invariance for short) and prove that it is sufficient, under suitable assumptions, for zero-shot policy generalization. We also discuss an extension that exploits e-invariance when we have a small sample from the test environment, enabling few-shot policy generalization. Our work does not assume an underlying causal graph or that the data are generated by a structural causal model; instead, we develop testing procedures to test e-invariance directly from data. We present empirical results using simulated data and a mobile health intervention dataset to demonstrate the effectiveness of our approach. | 翻訳日:2023-06-28 16:18:19 公開日:2023-06-27 |
# 意識的知識グラフ畳み込みネットワークに基づく観光客の推薦 Tourist Attractions Recommendation based on Attention Knowledge Graph Convolution Network ( http://arxiv.org/abs/2306.10946v2 ) ライセンス: Link先を確認 | Ahmad A. Mubarak and Afifa Kahled | (参考訳) 知識グラフに基づく推薦アルゴリズムは比較的成熟した段階にある。
しかし、特定の分野の推薦にはいくつかの問題がある。
例えば、観光分野では、観光アトラクションの推奨基盤として、適切な観光アトラクション属性の選択プロセスが複雑である。
本稿では,対象の景観スポットの近傍のエンティティを自動的に意味的に発見する改良された意識知識グラフ畳み込みネットワークモデル(Att-KGCN)を提案する。
注意層は比較的類似した位置を集約し、隣接するベクトルでそれらを表現する。
そして、観光客の好む選択により、類似点の確率を推薦システムとして予測する。
Socotra Island-Yemenの観光データに基づく観光名所の知識グラフデータセット
実験により,アテンションナレッジグラフ畳み込みネットワークが観光名所のレコメンデーションに良い影響を与え,観光客の選択により多くのレコメンデーションをすることができることを確認した。 The recommendation algorithm based on knowledge graphs is at a relatively mature stage. However, there are still some problems in the recommendation of specific areas. For example, in the tourism field, selecting suitable tourist attraction attributes process is complicated as the recommendation basis for tourist attractions. In this paper, we propose the improved Attention Knowledge Graph Convolution Network model, named (Att-KGCN), which automatically discovers the neighboring entities of the target scenic spot semantically. The attention layer aggregates relatively similar locations and represents them with an adjacent vector. Then, according to the tourist's preferred choices, the model predicts the probability of similar spots as a recommendation system. A knowledge graph dataset of tourist attractions used based on tourism data on Socotra Island-Yemen. Through experiments, it is verified that the Attention Knowledge Graph Convolution Network has a good effect on the recommendation of tourist attractions and can make more recommendations for tourists' choices. | 翻訳日:2023-06-28 16:18:01 公開日:2023-06-27 |
# コンパクト化演算子を用いた条件付き期待 Conditional expectation using compactification operators ( http://arxiv.org/abs/2306.10592v2 ) ライセンス: Link先を確認 | Suddhasattwa Das | (参考訳) 2つの確率変数の積から生じる条件付き期待を見出すという共通の設定において、微分、条件付き期待、および多様体学習の別々のタスクがしばしば表される。
本稿では、このより一般的な問題に焦点をあて、条件付き期待値を推定する演算子理論的アプローチについて述べる。
カーネル積分作用素は、再生カーネルヒルベルト空間における線形逆問題として推定問題を設定するためのコンパクト化ツールとして用いられる。
この方程式は数値近似に安定な解を持つことが示されており、データ駆動実装の収束を保証する。
全体的なテクニックは実装が容易で、現実世界の問題に対する彼らの成功例も示されています。 The separate tasks of denoising, conditional expectation and manifold learning can often be posed in a common setting of finding the conditional expectations arising from a product of two random variables. This paper focuses on this more general problem and describes an operator theoretic approach to estimating the conditional expectation. Kernel integral operators are used as a compactification tool, to set up the estimation problem as a linear inverse problem in a reproducing kernel Hilbert space. This equation is shown to have solutions that are stable to numerical approximation, thus guaranteeing the convergence of data-driven implementations. The overall technique is easy to implement, and their successful application to some real-world problems are also shown. | 翻訳日:2023-06-28 16:17:46 公開日:2023-06-27 |
# rlパーセプトロン:高次元における政策学習の一般化ダイナミクス The RL Perceptron: Generalisation Dynamics of Policy Learning in High Dimensions ( http://arxiv.org/abs/2306.10404v3 ) ライセンス: Link先を確認 | Nishil Patel, Sebastian Lee, Stefano Sarao Mannelli, Sebastian Goldt, Adrew Saxe | (参考訳) 強化学習 (Reinforcement Learning, RL) アルゴリズムは、様々な領域において変形を証明している。
現実世界のドメインに取り組むために、これらのシステムはニューラルネットワークを使ってピクセルや他の高次元センサー入力から直接ポリシーを学ぶ。
対照的に、RLの多くの理論は離散状態空間や最悪のケース解析に焦点を合わせており、高次元環境における政策学習のダイナミクスに関する根本的な疑問が残っている。
本稿では、様々な学習プロトコルをキャプチャし、その典型的ダイナミクスを閉形式常微分方程式(odes)の集合として導出する、rlの可解な高次元モデルを提案する。
学習速度と課題難易度に対する最適スケジュール(rlにおけるトレーニング中のアニーリングスキームやカリキュラムに類似)を導出し、このモデルが低報酬下での遅延学習を含むリッチな振る舞いを示すこと、報酬ベースラインに依存する様々な学習レジーム、報酬の厳格性によって駆動される速度・正確性トレードオフを示す。
Procgen ゲーム "Bossfight" や Arcade Learning Environment ゲーム "Pong" の変種に関する実験も、実際にそのような速度精度のトレードオフを示している。
これらの結果は、高次元RLにおける理論と実践の間のギャップを埋めるための一歩となる。 Reinforcement learning (RL) algorithms have proven transformative in a range of domains. To tackle real-world domains, these systems often use neural networks to learn policies directly from pixels or other high-dimensional sensory input. By contrast, much theory of RL has focused on discrete state spaces or worst-case analysis, and fundamental questions remain about the dynamics of policy learning in high-dimensional settings. Here, we propose a solvable high-dimensional model of RL that can capture a variety of learning protocols, and derive its typical dynamics as a set of closed-form ordinary differential equations (ODEs). We derive optimal schedules for the learning rates and task difficulty - analogous to annealing schemes and curricula during training in RL - and show that the model exhibits rich behaviour, including delayed learning under sparse rewards; a variety of learning regimes depending on reward baselines; and a speed-accuracy trade-off driven by reward stringency. Experiments on variants of the Procgen game "Bossfight" and Arcade Learning Environment game "Pong" also show such a speed-accuracy trade-off in practice. Together, these results take a step towards closing the gap between theory and practice in high-dimensional RL. | 翻訳日:2023-06-28 16:17:35 公開日:2023-06-27 |
# Niel's Chess -- The Battle of the Quantum Age Niel's Chess -- The Battle of the Quantum Age ( http://arxiv.org/abs/2306.13669v2 ) ライセンス: Link先を確認 | Tam\'as Varga | (参考訳) 本稿では,コンピュータや他の電子機器を使わずに従来のボード上で演奏できる,チェスの量子変種を紹介した。
ゲームのルールは、従来のチェスのルールと重ね合わせや絡み合いのような重要な量子物理学効果を組み合わせることで自然に生まれる。
Niel's Chessは10歳以上、歴史的ルーツを持つ創造的なゲームをしたいと願うすべての人に推奨され、同時に、今後数十年で私たちの社会に革命をもたらすであろう量子コンピューティングや量子通信といった最先端技術に電力を供給する基本的な量子効果に関する直感を得る。 In this paper, a quantum variant of chess is introduced, which can be played on a traditional board without the need of using computers or other electronic devices. The rules of the game arise naturally by combining the rules of conventional chess with key quantum-physical effects such as superposition and entanglement. Niel's Chess is recommended for ages 10 and above, to everyone who wishes to play a creative game with historical roots and at the same time gain intuition about the foundational quantum effects that power cutting-edge technologies like quantum computing and quantum communication, which are poised to revolutionise our society in the coming decades. | 翻訳日:2023-06-28 16:08:34 公開日:2023-06-27 |
# FuXi:15日間の世界天気予報のためのカスケード機械学習予測システム FuXi: A cascade machine learning forecasting system for 15-day global weather forecast ( http://arxiv.org/abs/2306.12873v2 ) ライセンス: Link先を確認 | Lei Chen, Xiaohui Zhong, Feng Zhang, Yuan Cheng, Yinghui Xu, Yuan Qi, Hao Li | (参考訳) 過去数年間、天気予報のための機械学習(ML)モデルの急速な発展により、最先端のMLモデルは、空間分解能0.25度の10日間の予測において、欧州中レージ気象予報センター(ECMWF)の高解像度予測(HRES)よりも優れた性能を示した。
しかし、この課題は15日間の予測においてECMWFアンサンブル平均値(EM)と同等に実行される。
従来の研究は、効果的な長期予測のための予測誤差の蓄積を緩和することの重要性を実証してきた。
自己回帰的多時間ステップ損失を含む累積誤差を削減する努力は数多くあったが、単一のモデルでは短時間と長時間の両方のリードタイムで最適な性能を達成するには不十分であることが判明した。
そこで本研究では,15日間の天気予報を時間分解能6時間,空間分解能0.25度で提供するカスケードml天気予報システムfuxiを提案する。
FuXiはECMWF ERA5の再分析データセットの39年間を使用して開発されている。
緯度重み付き根平均二乗誤差(rmse)と異常相関係数(acc)に基づく性能評価により、fuxiは15日間の予測においてecmwf emに匹敵する予測性能を示し、この達成を達成する最初のmlベースの気象予報システムとなった。 Over the past few years, due to the rapid development of machine learning (ML) models for weather forecasting, state-of-the-art ML models have shown superior performance compared to the European Centre for Medium-Range Weather Forecasts (ECMWF)'s high-resolution forecast (HRES) in 10-day forecasts at a spatial resolution of 0.25 degree. However, the challenge remains to perform comparably to the ECMWF ensemble mean (EM) in 15-day forecasts. Previous studies have demonstrated the importance of mitigating the accumulation of forecast errors for effective long-term forecasts. Despite numerous efforts to reduce accumulation errors, including autoregressive multi-time step loss, using a single model is found to be insufficient to achieve optimal performance in both short and long lead times. Therefore, we present FuXi, a cascaded ML weather forecasting system that provides 15-day global forecasts with a temporal resolution of 6 hours and a spatial resolution of 0.25 degree. FuXi is developed using 39 years of the ECMWF ERA5 reanalysis dataset. The performance evaluation, based on latitude-weighted root mean square error (RMSE) and anomaly correlation coefficient (ACC), demonstrates that FuXi has comparable forecast performance to ECMWF EM in 15-day forecasts, making FuXi the first ML-based weather forecasting system to accomplish this achievement. | 翻訳日:2023-06-28 16:08:06 公開日:2023-06-27 |
# マシン設計の限界を押し上げる - AIによるCPU設計の自動化 Pushing the Limits of Machine Design: Automated CPU Design with AI ( http://arxiv.org/abs/2306.12456v2 ) ライセンス: Link先を確認 | Shuyao Cheng, Pengwei Jin, Qi Guo, Zidong Du, Rui Zhang, Yunhao Tian, Xing Hu, Yongwei Zhao, Yifan Hao, Xiangtao Guan, Husheng Han, Zhengyue Zhao, Ximing Liu, Ling Li, Xishan Zhang, Yuejie Chu, Weilong Mao, Tianshi Chen and Yunji Chen | (参考訳) 設計活動 - 与えられた目標と制約を満たすアーティファクトの記述を構築する -- は、他の動物や伝統的な機械と人間を区別し、人間レベル以上の設計能力を持つ機械を授けている。
機械はすでに高度な人工知能(ai)技術を用いて新しい材料、タンパク質、コンピュータプログラムを設計する能力を実証しているが、そのような物体を設計するための探索空間は比較的小さいため、「機械は人間のように設計できるのか?
ここでは、機械設計の境界を探索するため、中央処理ユニット(CPU)、コンピュータの脳、そして人類がこれまで設計した中でもっとも複雑な装置の1つを自動設計する新しいAIアプローチを提案する。
このアプローチは、形式的なプログラムコードの代わりに外部の入出力観測のみからCPU設計のバイナリ・スペキュレーション・ダイアグラム(BSD)と呼ばれるグラフ構造で表される回路論理を生成する。
BSD の生成の間、モンテカルロに基づく拡張とブール関数の距離は、それぞれ精度と効率を保証するために使用される。
前例のないサイズ(10^{10^{540}})の探索空間を効率的に探索することで、機械設計の限界を押し上げることにより、産業規模のrisc-v cpuをわずか5時間で生成する。
タップアウトされたCPUはLinuxオペレーティングシステムをうまく動作させ、人間設計のIntel 80486SX CPUと互換性がある。
設計サイクルを大幅に減らして半導体産業を改革する可能性のある入力出力観測からのみ、世界初のCPUを学ぶことに加えて、我々のアプローチはフォン・ノイマンアーキテクチャの人間の知識を自律的に発見する。 Design activity -- constructing an artifact description satisfying given goals and constraints -- distinguishes humanity from other animals and traditional machines, and endowing machines with design abilities at the human level or beyond has been a long-term pursuit. Though machines have already demonstrated their abilities in designing new materials, proteins, and computer programs with advanced artificial intelligence (AI) techniques, the search space for designing such objects is relatively small, and thus, "Can machines design like humans?" remains an open question. To explore the boundary of machine design, here we present a new AI approach to automatically design a central processing unit (CPU), the brain of a computer, and one of the world's most intricate devices humanity have ever designed. This approach generates the circuit logic, which is represented by a graph structure called Binary Speculation Diagram (BSD), of the CPU design from only external input-output observations instead of formal program code. During the generation of BSD, Monte Carlo-based expansion and the distance of Boolean functions are used to guarantee accuracy and efficiency, respectively. By efficiently exploring a search space of unprecedented size 10^{10^{540}}, which is the largest one of all machine-designed objects to our best knowledge, and thus pushing the limits of machine design, our approach generates an industrial-scale RISC-V CPU within only 5 hours. The taped-out CPU successfully runs the Linux operating system and performs comparably against the human-designed Intel 80486SX CPU. In addition to learning the world's first CPU only from input-output observations, which may reform the semiconductor industry by significantly reducing the design cycle, our approach even autonomously discovers human knowledge of the von Neumann architecture. | 翻訳日:2023-06-28 16:07:15 公開日:2023-06-27 |
# 超低遅延・高精度物体検出のためのスパイクニューラルネットワーク Spiking Neural Network for Ultra-low-latency and High-accurate Object Detection ( http://arxiv.org/abs/2306.12010v2 ) ライセンス: Link先を確認 | Jinye Qu, Zeyu Gao, Tielin Zhang, Yanfeng Lu, Huajin Tang, Hong Qiao | (参考訳) スパイキングニューラルネットワーク(SNN)は、そのエネルギー効率と脳にインスパイアされたイベント駆動特性に対する幅広い関心を集めている。
spiking-yoloのような最近の手法では、snsをより難しいオブジェクト検出タスクに拡張しているが、しばしば高いレイテンシと低い検出精度に苦しめられ、レイテンシに敏感なモバイルプラットフォームへのデプロイが困難になっている。
さらに、ニューラルネットワーク(ANN)からSNNへの変換手法は、ANNの完全な構造を維持することは困難であり、特徴表現の貧弱さと高い変換誤差をもたらす。
これらの課題に対処するために、時間ステップ圧縮とスパイク時間依存統合(STDI)符号化という2つの手法を提案する。
前者は情報圧縮によりANN-SNN変換に必要な時間ステップを削減し、後者は情報保持能力を拡張するための時間変化閾値を設定する。
また、PASCAL VOCやMS COCOのような非自明なデータセットに対して、SNNベースの超低レイテンシと高精度オブジェクト検出モデル(SUHD)を、MS COCOデータセットのSpking-YOLOと比較して、約750倍の時間ステップと平均平均精度(mAP)の改善を達成し、最先端のパフォーマンスを実現する。
我々の知る限り、SUHDは今までで最も深いスパイクに基づくオブジェクト検出モデルであり、損失のない変換を完了するための超低タイムステップを実現する。 Spiking Neural Networks (SNNs) have garnered widespread interest for their energy efficiency and brain-inspired event-driven properties. While recent methods like Spiking-YOLO have expanded the SNNs to more challenging object detection tasks, they often suffer from high latency and low detection accuracy, making them difficult to deploy on latency sensitive mobile platforms. Furthermore, the conversion method from Artificial Neural Networks (ANNs) to SNNs is hard to maintain the complete structure of the ANNs, resulting in poor feature representation and high conversion errors. To address these challenges, we propose two methods: timesteps compression and spike-time-dependent integrated (STDI) coding. The former reduces the timesteps required in ANN-SNN conversion by compressing information, while the latter sets a time-varying threshold to expand the information holding capacity. We also present a SNN-based ultra-low latency and high accurate object detection model (SUHD) that achieves state-of-the-art performance on nontrivial datasets like PASCAL VOC and MS COCO, with about remarkable 750x fewer timesteps and 30% mean average precision (mAP) improvement, compared to the Spiking-YOLO on MS COCO datasets. To the best of our knowledge, SUHD is the deepest spike-based object detection model to date that achieves ultra low timesteps to complete the lossless conversion. | 翻訳日:2023-06-28 16:06:44 公開日:2023-06-27 |
# 低ランク近似ネットワークによる効率よく正確なシーンテキスト検出 Efficient and Accurate Scene Text Detection with Low-Rank Approximation Network ( http://arxiv.org/abs/2306.15142v1 ) ライセンス: Link先を確認 | Yuchen Su | (参考訳) 近年,テキストのローカライズのためのパラメータ曲線を推定する回帰型手法が,テキスト検出に人気を博している。
しかし、これらの手法は、簡潔な構造と高速な後処理のバランスをとるのに苦労しており、既存のパラメータ曲線は、任意の形のテキストをモデリングするのにはまだ理想的ではない。
これらの課題に対処するために、まず、スパースマッチングスキームにより推論速度を加速し、密マッチングスキームによりモデル収束を加速する正のサンプルの二重マッチングスキームを提案する。
そこで本研究では,異なるテキストの輪郭間の形状相関を利用して,低ランク近似に基づく新しいテキスト輪郭表現法を提案する。
これらの設計に基づき、LRANetという、効率的で正確な任意の形状のテキスト検出器を実装した。
LRANetの最先端手法に対する精度と効率を実証する3つの挑戦的なデータセットに対して、大規模な実験を行った。
コードはまもなくリリースされる。 Recently, regression-based methods, which predict parameter curves for localizing texts, are popular in scene text detection. However, these methods struggle to balance concise structure and fast post-processing, and the existing parameter curves are still not ideal for modeling arbitrary-shaped texts, leading to a challenge in balancing speed and accuracy. To tackle these challenges, we firstly propose a dual matching scheme for positive samples, which accelerates inference speed through sparse matching scheme and accelerates model convergence through dense matching scheme. Then, we propose a novel text contour representation method based on low-rank approximation by exploiting the shape correlation between different text contours, which is complete, compact, simplicity and robustness. Based on these designs, we implement an efficient and accurate arbitrary-shaped text detector, named LRANet. Extensive experiments are conducted on three challenging datasets, which demonstrate the accuracy and efficiency of our LRANet over state-of-the-art methods. The code will be released soon. | 翻訳日:2023-06-28 15:09:59 公開日:2023-06-27 |
# 自己ガイドとブロック対角表現を用いた大規模スペクトルクラスタリング A Restarted Large-Scale Spectral Clustering with Self-Guiding and Block Diagonal Representation ( http://arxiv.org/abs/2306.15138v1 ) ライセンス: Link先を確認 | Yongyan Guo and Gang Wu | (参考訳) スペクトルクラスタリングは、最も人気のある教師なし機械学習手法の1つである。
類似度行列の構築はこの種の手法に不可欠である。
ほとんどの既存の作品では、類似度行列は1回計算されるか、あるいは別の方法で更新される。
しかし, 前者はデータポイント間の包括的関係を反映することは困難であり, 後者は時間を要するため, 大規模問題にも適用できない。
本稿では,自己誘導とブロック対角表現を用いたクラスタリングフレームワークの再開を提案する。
この戦略の利点は、以前のサイクルから得られた有用なクラスタリング情報を可能な限り保存できることである。
私たちの知る限りでは、これはスペクトルクラスタリングに再起動戦略を適用する最初の仕事です。
重要な違いは、既存のメソッドでのみ分類されるのに対して、メソッドの各サイクルでサンプルを再分類することです。
さらにオーバーヘッドを解放するために,nystr\"{o}m近似を用いたブロック対角表現を導入し,類似性行列を構築する。
スペクトルクラスタリングにおける不正確な計算の合理性を示す理論的結果を確立する。
総合的な実験がいくつかのベンチマークデータベース上で行われ,大規模問題に対する最先端アルゴリズムよりも優れたアルゴリズムが提案されている。
具体的には、我々のフレームワークはクラスタリングアルゴリズムを潜在的に強化し、ランダムに選択した初期推定を用いてもうまく機能する。 Spectral clustering is one of the most popular unsupervised machine learning methods. Constructing similarity matrix is crucial to this type of method. In most existing works, the similarity matrix is computed once for all or is updated alternatively. However, the former is difficult to reflect comprehensive relationships among data points, and the latter is time-consuming and is even infeasible for large-scale problems. In this work, we propose a restarted clustering framework with self-guiding and block diagonal representation. An advantage of the strategy is that some useful clustering information obtained from previous cycles could be preserved as much as possible. To the best of our knowledge, this is the first work that applies restarting strategy to spectral clustering. The key difference is that we reclassify the samples in each cycle of our method, while they are classified only once in existing methods. To further release the overhead, we introduce a block diagonal representation with Nystr\"{o}m approximation for constructing the similarity matrix. Theoretical results are established to show the rationality of inexact computations in spectral clustering. Comprehensive experiments are performed on some benchmark databases, which show the superiority of our proposed algorithms over many state-of-the-art algorithms for large-scale problems. Specifically, our framework has a potential boost for clustering algorithms and works well even using an initial guess chosen randomly. | 翻訳日:2023-06-28 15:09:40 公開日:2023-06-27 |
# 自動運転の軌道予測で本当に重要なのは何か? What Truly Matters in Trajectory Prediction for Autonomous Driving? ( http://arxiv.org/abs/2306.15136v1 ) ライセンス: Link先を確認 | Haoran Wu, Tran Phong, Cunjun Yu, Panpan Cai, Sifa Zheng, David Hsu | (参考訳) 自律運転システムでは、軌道予測は安全を確保し、スムーズなナビゲーションを促進する上で重要な役割を果たす。
しかし,固定データセットにおける予測器の精度と下流タスクにおける駆動性能との間には,かなりの差がみられた。
この相違は、軌道予測の現在の評価プロトコルで見落とされた2つの要因から生じる。
1)データセットと実際の運転シナリオのダイナミクスギャップ
2)予測器の計算効率
現実のシナリオでは、予測アルゴリズムは自動運転車の行動に影響を与え、その結果、道路上の他のエージェントの行動を変化させる。
この相互作用は、直接予測結果に影響を与える予測者固有のダイナミクスをもたらす。
他のエージェントの応答がデータセット上で予め設定されているため、固定データセットで実行される評価と実際の運転シナリオとの間に大きなダイナミクスギャップが生じる。
さらに、精度のみに注目することは計算効率の要求に対処できないため、自動運転システムに必要なリアルタイム応答には不可欠である。
そこで本稿では,軌道予測のための対話型タスク駆動型評価手法が自律運転の有効性を反映するために重要であることを示す。 In the autonomous driving system, trajectory prediction plays a vital role in ensuring safety and facilitating smooth navigation. However, we observe a substantial discrepancy between the accuracy of predictors on fixed datasets and their driving performance when used in downstream tasks. This discrepancy arises from two overlooked factors in the current evaluation protocols of trajectory prediction: 1) the dynamics gap between the dataset and real driving scenario; and 2) the computational efficiency of predictors. In real-world scenarios, prediction algorithms influence the behavior of autonomous vehicles, which, in turn, alter the behaviors of other agents on the road. This interaction results in predictor-specific dynamics that directly impact prediction results. As other agents' responses are predetermined on datasets, a significant dynamics gap arises between evaluations conducted on fixed datasets and actual driving scenarios. Furthermore, focusing solely on accuracy fails to address the demand for computational efficiency, which is critical for the real-time response required by the autonomous driving system. Therefore, in this paper, we demonstrate that an interactive, task-driven evaluation approach for trajectory prediction is crucial to reflect its efficacy for autonomous driving. | 翻訳日:2023-06-28 15:09:21 公開日:2023-06-27 |
# ソフトウェア専門家のアルゴリズム的人種差別観 The Perspective of Software Professionals on Algorithmic Racism ( http://arxiv.org/abs/2306.15133v1 ) ライセンス: Link先を確認 | Ronnie de Souza Santos, Luiz Fernando de Lima, Cleyton Magalhaes | (参考訳) コンテキスト。
アルゴリズム的人種差別(英: Algorithmic racism)とは、その民族性に基づいてユーザーを拘束する技術的ソリューションの振る舞いを指す用語である。
近年、様々なデータ駆動型ソフトウェアシステムが、偏見付きデータセットの使用や、ソフトウェア専門家がコードで広めた偏見により、黒人を差別していると報告されている。
その結果、黒人は住宅、銀行、法執行機関といった技術に基づくサービスへのアクセスに不利な状況に陥っている。
ゴール。
本研究は,ソフトウェア専門家の視点から,アルゴリズム的人種差別を探求することを目的とする。
方法。
アルゴリズム的人種差別に関するソフトウェア実践者の理解について調査調査を行い,記述統計とコーディング手法を用いてデータ分析を行った。
結果だ
ソフトウェア開発におけるアルゴリズム的人種差別に対する理解と視点を議論する73人のソフトウェア専門家のサンプルから回答を得た。
この結果から,アルゴリズム的人種差別の影響は実践者の間でよく知られている。
しかし、ソフトウェア工学においてどのようにこの問題が効果的に対処できるかについては合意がない。
本稿では,専門家の物語に基づいて,この問題に対するいくつかの解決策を提案する。
結論だ
ソフトウェア専門家のための構造的人種差別に関するトレーニングを含む技術的および社会的戦略を組み合わせることは、アルゴリズム的人種差別問題とその社会にもたらされるソフトウェアソリューションに対する影響に対処する最も有望な方法である。 Context. Algorithmic racism is the term used to describe the behavior of technological solutions that constrains users based on their ethnicity. Lately, various data-driven software systems have been reported to discriminate against Black people, either for the use of biased data sets or due to the prejudice propagated by software professionals in their code. As a result, Black people are experiencing disadvantages in accessing technology-based services, such as housing, banking, and law enforcement. Goal. This study aims to explore algorithmic racism from the perspective of software professionals. Method. A survey questionnaire was applied to explore the understanding of software practitioners on algorithmic racism, and data analysis was conducted using descriptive statistics and coding techniques. Results. We obtained answers from a sample of 73 software professionals discussing their understanding and perspectives on algorithmic racism in software development. Our results demonstrate that the effects of algorithmic racism are well-known among practitioners. However, there is no consensus on how the problem can be effectively addressed in software engineering. In this paper, some solutions to the problem are proposed based on the professionals' narratives. Conclusion. Combining technical and social strategies, including training on structural racism for software professionals, is the most promising way to address the algorithmic racism problem and its effects on the software solutions delivered to our society. | 翻訳日:2023-06-28 15:09:08 公開日:2023-06-27 |
# MIMIC:画像対応による仮面画像モデリング MIMIC: Masked Image Modeling with Image Correspondences ( http://arxiv.org/abs/2306.15128v1 ) ライセンス: Link先を確認 | Kalyani Marathe, Mahtab Bigverdi, Nishat Khan, Tuhin Kundu, Aniruddha Kembhavi, Linda G. Shapiro, Ranjay Krishna | (参考訳) 現在、コンピュータビジョンにおける深度推定とセマンティックセグメンテーションは、事前訓練された画像表現に依存している。
したがって、効果的な事前学習データセットのキュレーションは不可欠である。
残念ながら、効果的な事前トレーニングデータセットは、マルチビューシーンを持つもので、アノテーション付き3Dメッシュ、ポイントクラウド、シミュレートされた環境からのカメラパラメータを使用してのみキュレートされている。
アノテーションを必要としないデータセット作成機構を提案する。
我々は、MIMIC-1M with 1.3MとMIMIC-3M with 3.1Mの2つのデータセットを、オープンソースビデオデータセットと合成3D環境から抽出した。
マスク付き画像モデリングの目的が異なる複数の自己教師付きモデルをトレーニングし、以下の結果を示す。 深度推定、意味セグメンテーション、表面正規化、ポーズ推定など、複数の下流タスクでアノテーションを使用してマイニングされたものよりも、模倣3mでトレーニングされた表現が優れている。
また、ダウンストリームのトレーニングデータに制限がある場合、凍結された表現よりも優れています。
より大規模なデータセット(MIMIC-3M)は、より大規模なデータセットを生成するために任意にスケールできるので、パフォーマンスが大幅に向上する。
MIMICコード、データセット、トレーニング済みモデルはhttps://github.com/RAIVNLab/MIMICでオープンソース化されている。 Many pixelwise dense prediction tasks-depth estimation and semantic segmentation in computer vision today rely on pretrained image representations. Therefore, curating effective pretraining datasets is vital. Unfortunately, the effective pretraining datasets are those with multi-view scenes and have only been curated using annotated 3D meshes, point clouds, and camera parameters from simulated environments. We propose a dataset-curation mechanism that does not require any annotations. We mine two datasets: MIMIC-1M with 1.3M and MIMIC-3M with 3.1M multi-view image pairs from open-sourced video datasets and from synthetic 3D environments. We train multiple self-supervised models with different masked image modeling objectives to showcase the following findings: Representations trained on MIMIC-3M outperform those mined using annotations on multiple downstream tasks, including depth estimation, semantic segmentation, surface normals, and pose estimation. They also outperform representations that are frozen and when downstream training data is limited to few-shot. Larger dataset (MIMIC-3M) significantly improves performance, which is promising since our curation method can arbitrarily scale to produce even larger datasets. MIMIC code, dataset, and pretrained models are open-sourced at https://github.com/RAIVNLab/MIMIC. | 翻訳日:2023-06-28 15:08:46 公開日:2023-06-27 |
# 知識工学要件の明確化と統合 Identifying and Consolidating Knowledge Engineering Requirements ( http://arxiv.org/abs/2306.15124v1 ) ライセンス: Link先を確認 | Bradley P. Allen and Filip Ilievski and Saurav Joshi | (参考訳) 知識工学は知識を生み出すシステムを作成し維持する過程である。
コンピュータ科学とaiの歴史を通じて、高度な知識が信頼できる知的エージェントにとって重要であると仮定されるため、知識工学のワークフローが広く使われてきた。
しかし、知識工学の展望は変わり、未対応のステークホルダー要件、ミスマッチした技術、新しい組織への採用障壁、ソフトウェアエンジニアリングプラクティスへの不一致という4つの課題が提示された。
本稿では,主要なソフトウェア手法を用いて参照アーキテクチャを開発することで,これらの課題に対処することを提案する。
異なる利害関係者と時代の要求を調べることで、リファレンスアーキテクチャを評価するために23の必須品質属性を特定した。
これらの特徴に基づき,最近の文献から3つの候補アーキテクチャを評価する。
最後に、品質特性の優先順位付け、相補的な強みを持つコンポーネントの統合、社会技術的要求の欠如のサポートなど、包括的な参照アーキテクチャへの次のステップについて論じる。
この取り組みは協力的な努力を必要とするので、すべての知識工学研究者と実践者を招待します。 Knowledge engineering is the process of creating and maintaining knowledge-producing systems. Throughout the history of computer science and AI, knowledge engineering workflows have been widely used because high-quality knowledge is assumed to be crucial for reliable intelligent agents. However, the landscape of knowledge engineering has changed, presenting four challenges: unaddressed stakeholder requirements, mismatched technologies, adoption barriers for new organizations, and misalignment with software engineering practices. In this paper, we propose to address these challenges by developing a reference architecture using a mainstream software methodology. By studying the requirements of different stakeholders and eras, we identify 23 essential quality attributes for evaluating reference architectures. We assess three candidate architectures from recent literature based on these attributes. Finally, we discuss the next steps towards a comprehensive reference architecture, including prioritizing quality attributes, integrating components with complementary strengths, and supporting missing socio-technical requirements. As this endeavor requires a collaborative effort, we invite all knowledge engineering researchers and practitioners to join us. | 翻訳日:2023-06-28 15:08:24 公開日:2023-06-27 |
# bertのクロスドメイン挙動のレビュー理解における検討 Investigating Cross-Domain Behaviors of BERT in Review Understanding ( http://arxiv.org/abs/2306.15123v1 ) ライセンス: Link先を確認 | Albert Lu and Meng Jiang | (参考訳) レビュースコアの予測には、自然言語処理の現実的な応用であるレビューテキスト理解が必要である。
製品レビューにおける異種テキストドメインのため、共通するプラクティスは、異なるドメインのレビューに基づいてBERTモデルを微調整することである。
しかし、製品レビュー理解の様々なタスクにおいて、BERTモデルのクロスドメイン動作に関する実証的研究は未だ行われていない。
本稿では,単一ドメインおよび複数ドメインのAmazonレビューデータに基づいて,BERTモデルのテキスト分類を行う。
以上の結果から,マルチドメインモデルと比較した場合,単一ドメインモデルの性能は若干向上したが,マルチドメインモデルでは,マルチドメインデータで評価した場合の単一ドメインモデルよりも優れており,単一ドメインモデルでは微調整が行えず,すべてのテストで平均的に性能が向上した。
単一ドメインモデルの微調整によって精度がわずかに向上するが、ドメイン間でよく機能するマルチドメインモデルを利用することで、計算資源とコストを削減できる。 Review score prediction requires review text understanding, a critical real-world application of natural language processing. Due to dissimilar text domains in product reviews, a common practice is fine-tuning BERT models upon reviews of differing domains. However, there has not yet been an empirical study of cross-domain behaviors of BERT models in the various tasks of product review understanding. In this project, we investigate text classification BERT models fine-tuned on single-domain and multi-domain Amazon review data. In our findings, though single-domain models achieved marginally improved performance on their corresponding domain compared to multi-domain models, multi-domain models outperformed single-domain models when evaluated on multi-domain data, single-domain data the single-domain model was not fine-tuned on, and on average when considering all tests. Though slight increases in accuracy can be achieved through single-domain model fine-tuning, computational resources and costs can be reduced by utilizing multi-domain models that perform well across domains. | 翻訳日:2023-06-28 15:08:07 公開日:2023-06-27 |
# HPC並列プログラミングモデルカーネル生成のためのOpenAIコーデックスの評価 Evaluation of OpenAI Codex for HPC Parallel Programming Models Kernel Generation ( http://arxiv.org/abs/2306.15121v1 ) ライセンス: Link先を確認 | William F. Godoy, Pedro Valero-Lara, Keita Teranishi, Prasanna Balaprakash, Jeffrey S. Vetter | (参考訳) 我々は、AXPY, GEMV, GEMM, SpMV, Jacobi Stencil, CGを含む、高性能コンピューティング(HPC)の基本数値カーネルにおけるAI支援生成能力を評価する。
我々は、(1)c++(例えば、openmp(outloadを含む)、openacc、kokkos、sycl、cuda、hipを含む)、(2)fortran(例えば、openmp(offloadを含む)、(3)python(numba、numba、cupy、pycudaを含む)、(4)julia(例えば、threads、cuda.jl、amdgpu.jl、kernelabstractions.jl)を含む、言語サポートプログラミングモデルで生成されたカーネルコードをテストします。
私たちは2023年4月現在、Visual Studio Codeで利用可能なOpenAI CodexをベースとしたGitHub Copilot機能を使って、シンプルな<kernel> + <ming model> + <optional hints>プロンプト変種が与えられた大量の実装を生成しています。
結果の定量化と比較を行うため,各プロンプトに対して与えられた提案10項目の精度指標を提案する。
その結果、c++のopenaiコーデックス出力は、プログラミングモデルの採用と成熟度と相関することが示唆された。
例えば、OpenMPとCUDAのスコアは非常に高く、HIPはまだ不足しています。
Fortranのようなターゲット言語からのプロンプトや、より汎用的なPythonからのプロンプトは、コードキーワードの追加の恩恵を受けるが、Juliaのプロンプトは、成熟したプログラミングモデル(ThreadsやCUDA.jlなど)に対して受け入れられる。
これらのベンチマークが各プログラミングモデルのコミュニティに参照ポイントを提供することを期待しています。
全体として、大規模言語モデル、AI、HPCの収束を理解することは、その急速に進化する性質と、それが人間とコンピュータの相互作用を再定義している理由により重要である。 We evaluate AI-assisted generative capabilities on fundamental numerical kernels in high-performance computing (HPC), including AXPY, GEMV, GEMM, SpMV, Jacobi Stencil, and CG. We test the generated kernel codes for a variety of language-supported programming models, including (1) C++ (e.g., OpenMP [including offload], OpenACC, Kokkos, SyCL, CUDA, and HIP), (2) Fortran (e.g., OpenMP [including offload] and OpenACC), (3) Python (e.g., numba, Numba, cuPy, and pyCUDA), and (4) Julia (e.g., Threads, CUDA.jl, AMDGPU.jl, and KernelAbstractions.jl). We use the GitHub Copilot capabilities powered by OpenAI Codex available in Visual Studio Code as of April 2023 to generate a vast amount of implementations given simple <kernel> + <programming model> + <optional hints> prompt variants. To quantify and compare the results, we propose a proficiency metric around the initial 10 suggestions given for each prompt. Results suggest that the OpenAI Codex outputs for C++ correlate with the adoption and maturity of programming models. For example, OpenMP and CUDA score really high, whereas HIP is still lacking. We found that prompts from either a targeted language such as Fortran or the more general-purpose Python can benefit from adding code keywords, while Julia prompts perform acceptably well for its mature programming models (e.g., Threads and CUDA.jl). We expect for these benchmarks to provide a point of reference for each programming model's community. Overall, understanding the convergence of large language models, AI, and HPC is crucial due to its rapidly evolving nature and how it is redefining human-computer interactions. | 翻訳日:2023-06-28 15:07:50 公開日:2023-06-27 |
# youtube-asl:大規模でオープンドメインのアメリカ手話-英語並列コーパス YouTube-ASL: A Large-Scale, Open-Domain American Sign Language-English Parallel Corpus ( http://arxiv.org/abs/2306.15162v1 ) ライセンス: Link先を確認 | David Uthus, Garrett Tanzer, Manfred Georg | (参考訳) 手話の機械学習はデータによってボトルネックされる。
本稿では,ASL(American Sign Language)ビデオの大規模オープンドメインコーパスであるYouTube-ASLについて紹介する。
1000時間の動画と2500のユニークなシグナで、YouTube-ASLは3倍程度の大きさで、ASLデータセットの最大の10倍のユニークなシグナを持つ。
我々は、aslのベースラインモデルをyoutube-aslの英語翻訳に訓練し、how2signでそれらを評価し、12.39 bleuの新しい微調整状態を達成し、初めてゼロショットの結果を報告した。 Machine learning for sign languages is bottlenecked by data. In this paper, we present YouTube-ASL, a large-scale, open-domain corpus of American Sign Language (ASL) videos and accompanying English captions drawn from YouTube. With ~1000 hours of videos and >2500 unique signers, YouTube-ASL is ~3x as large and has ~10x as many unique signers as the largest prior ASL dataset. We train baseline models for ASL to English translation on YouTube-ASL and evaluate them on How2Sign, where we achieve a new finetuned state of the art of 12.39 BLEU and, for the first time, report zero-shot results. | 翻訳日:2023-06-28 15:01:43 公開日:2023-06-27 |
# 複雑力学系における認識論的・弁別的不確かさの定量化に関する機械学習アーキテクチャの評価 Evaluation of machine learning architectures on the quantification of epistemic and aleatoric uncertainties in complex dynamical systems ( http://arxiv.org/abs/2306.15159v1 ) ライセンス: Link先を確認 | Stephen Guth, Alireza Mojahed, and Themistoklis P. Sapsis | (参考訳) データ駆動型縮小順序モデル構築のための機械学習手法は、特に設計問題に対する高価な計算流体力学の補助として、様々な工学領域で用いられている。
代理モデルの信頼性に関する重要なチェックは、モデルエラーを自己評価する不確実性定量化(UQ)である。
正確なUQは、トレーニングデータセットの必要なサイズと必要な安全要因の両方を削減し、コスト削減を可能にします。
本稿では、ガウス過程とファミリーUQ強化ニューラルネットワーク(ENN)、ベイズニューラルネットワーク(BNN)、ドロップアウトニューラルネットワーク(D-NN)、ガウスニューラルネットワーク(G-NN)などの機械学習手法について検討する。
検証データ上の正規化残差の分布と推定不確かさの分布の2つの指標を用いて,UQ精度(モデル精度とは異なる)を評価する。
これらの指標を,複雑な力学系を表す2つのモデルデータセットに適用する。船が不規則な波のエピソードを横切る海洋工学問題と,極端な事象を伴う分散波乱流問題であるmada-mclaughlin-tabakモデルである。
モデルアーキテクチャとハイパーパラメータチューニングに関する結論を示す。 Machine learning methods for the construction of data-driven reduced order model models are used in an increasing variety of engineering domains, especially as a supplement to expensive computational fluid dynamics for design problems. An important check on the reliability of surrogate models is Uncertainty Quantification (UQ), a self assessed estimate of the model error. Accurate UQ allows for cost savings by reducing both the required size of training data sets and the required safety factors, while poor UQ prevents users from confidently relying on model predictions. We examine several machine learning techniques, including both Gaussian processes and a family UQ-augmented neural networks: Ensemble neural networks (ENN), Bayesian neural networks (BNN), Dropout neural networks (D-NN), and Gaussian neural networks (G-NN). We evaluate UQ accuracy (distinct from model accuracy) using two metrics: the distribution of normalized residuals on validation data, and the distribution of estimated uncertainties. We apply these metrics to two model data sets, representative of complex dynamical systems: an ocean engineering problem in which a ship traverses irregular wave episodes, and a dispersive wave turbulence system with extreme events, the Majda-McLaughlin-Tabak model. We present conclusions concerning model architecture and hyperparameter tuning. | 翻訳日:2023-06-28 15:01:29 公開日:2023-06-27 |
# 熱帯多項式分割の再検討:理論,アルゴリズム,ニューラルネットワークへの応用 Revisiting Tropical Polynomial Division: Theory, Algorithms and Application to Neural Networks ( http://arxiv.org/abs/2306.15157v1 ) ライセンス: Link先を確認 | Ioannis Kordonis, Petros Maragos | (参考訳) 熱帯幾何学は最近、線形活性化関数を持つニューラルネットワークの解析にいくつかの応用を見出した。
本稿では,熱帯多項式分割の問題と,ニューラルネットワークの単純化への応用について考察する。
実係数のトロピカル多項式を解析し,整数係数の多項式に対する初期のアイデアと手法を拡張した。
まず、一意な商-保存対の存在を証明し、その商を関連する函数の凸双共役の項で特徴づける。
興味深いことに、整数係数を持つ熱帯多項式の商は必ずしも整数係数を持たない。
さらに,熱帯多項式分割と凸多面体結合の凸包の計算との関係を解明し,それを用いて熱帯多項式分割の厳密なアルゴリズムを導出する。
データ分割と線形計画の交替に基づいて近似アルゴリズムも提示される。
また,単純な多項式の和や最大値として記述する合成多項式を分割する特別な手法も開発する。
最後に、MNIST手書き桁とCIFAR-10データセットを用いて、提案アルゴリズムの効率性を示す数値的な結果を示す。 Tropical geometry has recently found several applications in the analysis of neural networks with piecewise linear activation functions. This paper presents a new look at the problem of tropical polynomial division and its application to the simplification of neural networks. We analyze tropical polynomials with real coefficients, extending earlier ideas and methods developed for polynomials with integer coefficients. We first prove the existence of a unique quotient-remainder pair and characterize the quotient in terms of the convex bi-conjugate of a related function. Interestingly, the quotient of tropical polynomials with integer coefficients does not necessarily have integer coefficients. Furthermore, we develop a relationship of tropical polynomial division with the computation of the convex hull of unions of convex polyhedra and use it to derive an exact algorithm for tropical polynomial division. An approximate algorithm is also presented, based on an alternation between data partition and linear programming. We also develop special techniques to divide composite polynomials, described as sums or maxima of simpler ones. Finally, we present some numerical results to illustrate the efficiency of the algorithms proposed, using the MNIST handwritten digit and CIFAR-10 datasets. | 翻訳日:2023-06-28 15:01:04 公開日:2023-06-27 |
# 状態のみ列からの非マルコフ決定過程の学習 Learning non-Markovian Decision-Making from State-only Sequences ( http://arxiv.org/abs/2306.15156v1 ) ライセンス: Link先を確認 | Aoyang Qin, Feng Gao, Qing Li, Song-Chun Zhu, Sirui Xie | (参考訳) 従来の模倣学習では、デモ参加者の行動にアクセスできるが、これらの運動信号は自然主義的な環境では観測できないことが多い。
さらに、これらの設定におけるシーケンシャルな意思決定行動は、標準的なマルコフ決定プロセス(MDP)の仮定から逸脱することができる。
これらの課題に対処するために、状態遷移生成器の潜時空間におけるエネルギーベースである非マルコフ決定過程(nMDP)を用いた状態のみ列の深部生成モデリングについて検討する。
提案手法は,後肢の短周期MCMCサンプリングと重要サンプリングを含むモデルベース模倣を実現するための最大推定法である。
モデルなしのポリシーの実行は、事前のサンプリングと等価であり、モデルベースの計画はそのポリシーから初期化された後続のサンプリングである。
非マルコフ制約付き経路計画タスクにおいて,提案手法の有効性を実証し,mujocoスイートからの挑戦領域において,学習モデルが強力な性能を示すことを示した。 Conventional imitation learning assumes access to the actions of demonstrators, but these motor signals are often non-observable in naturalistic settings. Additionally, sequential decision-making behaviors in these settings can deviate from the assumptions of a standard Markov Decision Process (MDP). To address these challenges, we explore deep generative modeling of state-only sequences with non-Markov Decision Process (nMDP), where the policy is an energy-based prior in the latent space of the state transition generator. We develop maximum likelihood estimation to achieve model-based imitation, which involves short-run MCMC sampling from the prior and importance sampling for the posterior. The learned model enables \textit{decision-making as inference}: model-free policy execution is equivalent to prior sampling, model-based planning is posterior sampling initialized from the policy. We demonstrate the efficacy of the proposed method in a prototypical path planning task with non-Markovian constraints and show that the learned model exhibits strong performances in challenging domains from the MuJoCo suite. | 翻訳日:2023-06-28 15:00:47 公開日:2023-06-27 |
# GNN加速のための入力感度密度スパースプリミティブ合成 Input-sensitive dense-sparse primitive compositions for GNN acceleration ( http://arxiv.org/abs/2306.15155v1 ) ライセンス: Link先を確認 | Damitha Lenadora, Vimarsh Sathia, Gerasimos Gerogiannis, Serif Yesil, Josep Torrellas, Charith Mendis | (参考訳) グラフニューラルネットワーク(GNN)は、社会的および金融的ネットワーク分析などの領域で人気を博したニューラルネットワークモデルの重要なクラスとなっている。
GNN計算の異なる位相は、密度行列演算とスパース行列演算の両方を用いてモデル化することができる。
gnnを加速するために多くのフレームワークや最適化技術が文献に提案されている。
しかし、多くの入力グラフにおいて、異なる空間パターンとGNN埋め込みサイズで一貫して高い性能を得るのは難しい。
本稿では,gnn計算の異なる代数的再結合について提案する。
これらの構成の収益性は、入力グラフ、埋め込みサイズ、ターゲットハードウェアに依存する。
入力グラフとGNN埋め込みサイズから最適な構成を選択するために,データ駆動型適応戦略を用いたシステムであるSENSEiを開発した。
幅広いグラフと埋め込みサイズの評価から、SENSEiは、広く使用されているDeep Graph Library上で、それぞれCPUとGPU上のグラフアテンションネットワーク上で、それぞれ1.105\times$(最大2.959\times$)と1.187\times$(最大1.99\times$)と2.307\times$(最大35.866\times$)と1.44\times$(最大5.69\times$)を達成している。
さらに, この構成は, スパースマトリクスタイリングなどの他の確立されたスパース最適化の上に, 十分に調整されたベースラインに対して評価することにより, 顕著な相乗効果をもたらすことを示す。 Graph neural networks (GNN) have become an important class of neural network models that have gained popularity in domains such as social and financial network analysis. Different phases of GNN computations can be modeled using both dense and sparse matrix operations. There have been many frameworks and optimization techniques proposed in the literature to accelerate GNNs. However, getting consistently high performance across many input graphs with different sparsity patterns and GNN embedding sizes has remained difficult. In this paper, we propose different algebraic reassociations of GNN computations that lead to novel dense and sparse matrix primitive selections and compositions. We show that the profitability of these compositions depends on the input graph, embedding size, and the target hardware. We developed SENSEi, a system that uses a data-driven adaptive strategy to select the best composition given the input graph and GNN embedding sizes. Our evaluations on a wide range of graphs and embedding sizes show that SENSEi achieves geomean speedups of $1.105\times$ (up to $2.959\times$) and $1.187\times$ (up to $1.99\times$) on graph convolutional networks and geomean speedups of $2.307\times$ (up to $35.866\times$) and $1.44\times$ (up to $5.69\times$) on graph attention networks on CPUs and GPUs respectively over the widely used Deep Graph Library. Further, we show that the compositions yield notable synergistic performance benefits on top of other established sparse optimizations such as sparse matrix tiling by evaluating against a well-tuned baseline. | 翻訳日:2023-06-28 15:00:28 公開日:2023-06-27 |
# Few-shot Node 分類のためのコントラストメタラーニング Contrastive Meta-Learning for Few-shot Node Classification ( http://arxiv.org/abs/2306.15154v1 ) ライセンス: Link先を確認 | Song Wang, Zhen Tan, Huan Liu, Jundong Li | (参考訳) 限定ラベル付きノードのみを参照としてグラフ上のノードのラベルを予測することを目的としているFew-shotノード分類は、実際のグラフマイニングタスクにおいて非常に重要である。
特に本稿では,数個のラベル付きノードを持つクラス内のノードを分類するタスクを,最小ショットノード分類問題として言及する。
このようなラベル不足問題に対処するため、既存の研究は、多くのエピソードを利用して、豊富なラベル付きノードを持つクラスから伝達可能な知識を抽出し、限られたラベル付きノードを持つ他のクラスにその知識を一般化するメタラーニングフレームワークを活用している。
本質的に、少数ショットノード分類の主な目的は、異なるクラスで一般化可能なノード埋め込みを学ぶことである。
これを実現するために、GNNエンコーダは異なるクラス間のノード埋め込みを識別でき、同時に同じクラスのノードへの埋め込みを調整できなければならない。
そこで本研究では,モデルのクラス内およびクラス間一般化可能性について考察する。
グラフ上にCOSMICという新しい対照的なメタ学習フレームワークを2つの重要な設計で作成する。
まず,各エピソードに2段階の対照的な最適化を加えて,同一クラスにノードを埋め込むことで,クラス内の一般化性を高めることを提案する。
第2に,新しい類似性に敏感なミックスアップ戦略により,ハードノードクラスを生成することにより,クラス間汎用性を強化する。
数ショットのノード分類データセットに対する大規模な実験は、最先端のベースラインよりもフレームワークの優位性を検証する。
私たちのコードはhttps://github.com/SongW-SW/COSMICで提供されます。 Few-shot node classification, which aims to predict labels for nodes on graphs with only limited labeled nodes as references, is of great significance in real-world graph mining tasks. Particularly, in this paper, we refer to the task of classifying nodes in classes with a few labeled nodes as the few-shot node classification problem. To tackle such a label shortage issue, existing works generally leverage the meta-learning framework, which utilizes a number of episodes to extract transferable knowledge from classes with abundant labeled nodes and generalizes the knowledge to other classes with limited labeled nodes. In essence, the primary aim of few-shot node classification is to learn node embeddings that are generalizable across different classes. To accomplish this, the GNN encoder must be able to distinguish node embeddings between different classes, while also aligning embeddings for nodes in the same class. Thus, in this work, we propose to consider both the intra-class and inter-class generalizability of the model. We create a novel contrastive meta-learning framework on graphs, named COSMIC, with two key designs. First, we propose to enhance the intra-class generalizability by involving a contrastive two-step optimization in each episode to explicitly align node embeddings in the same classes. Second, we strengthen the inter-class generalizability by generating hard node classes via a novel similarity-sensitive mix-up strategy. Extensive experiments on few-shot node classification datasets verify the superiority of our framework over state-of-the-art baselines. Our code is provided at https://github.com/SongW-SW/COSMIC. | 翻訳日:2023-06-28 14:59:53 公開日:2023-06-27 |
# 無調波状態における分子光学力学--非古典的力学状態からメカニカルラシングへ Molecular optomechanics in the anharmonic regime: from nonclassical mechanical states to mechanical lasing ( http://arxiv.org/abs/2306.15152v1 ) ライセンス: Link先を確認 | Miko{\l}aj K. Schmidt and Michael J. Steel | (参考訳) キャビティ光学は機械系の振動を光学的に制御することを目的としており、熱、冷却、コヒーレント、または非古典的状態へと誘導することを目的としている。
この分野は、ラマン遷移による損失空洞の光学場に結合したthz分子振動のダイナミクスを記述する分子光力学を含むように拡張され、表面強化ラマン散乱実験における光フォノンの異常増幅を理解するために開発された。
しかし、分子プラットフォームは、非古典的な力学状態のエンジニアリングやコヒーレントな分子振動の誘発など、より洗練された光力学的効果を示すのに適しているはずだ。
そこで本研究では,分子振動の強い内在的無調和性により,これらの効果を実現するための2つの経路を提案する。
まず,非古典的な力学状態を作成するために,ハイブリッドキャビティの分子アハモニック性と光学応答が2つの最低エネルギー振動状態を分離するメカニカル封鎖の非一貫性な類似性を提案する。
第2に,強駆動光力学系では,非調和性が機械的増幅を効果的に抑制し,コヒーレントな機械振動の発生をシフトし,再構成できることを示した。
我々の推定では、どちらの効果も既存のSurface Enhanced Raman Scatteringの実装の範囲内にあるはずであり、分子光学におけるコヒーレントおよび非古典的効果への道を開く。 Cavity optomechanics aims to establish optical control over vibrations of mechanical systems, to heat, cool or to drive them toward coherent, or nonclassical states. This field was recently extended to include molecular optomechanics, which describes the dynamics of THz molecular vibrations coupled to the optical fields of lossy cavities via Raman transitions, and was developed to understand the anomalous amplification of optical phonons in Surface-Enhanced Raman Scattering experiments. But the molecular platform should prove suitable for demonstrating more sophisticated optomechanical effects, including engineering of nonclassical mechanical states, or inducing coherent molecular vibrations. In this work, we propose two pathways towards implementing these effects, enabled or revealed by the strong intrinsic anharmonicities of molecular vibrations. First, to prepare a nonclassical mechanical state, we propose an incoherent analogue of the mechanical blockade, in which the molecular aharmonicity and optical response of hybrid cavities isolate the two lowest-energy vibrational states. Secondly, we show that for a strongly driven optomechanical system, the anharmonicity can effectively suppress the mechanical amplification, shifting and reshaping the onset of coherent mechanical oscillations. Our estimates indicate that both effects should be within reach of the existing implementations of the Surface Enhanced Raman Scattering, opening the pathway towards the coherent and nonclassical effects in molecular optomechanics. | 翻訳日:2023-06-28 14:59:26 公開日:2023-06-27 |
# 線形量子系グラフから量子ビットグラフへ:グラフ状態の有意な生成 From linear quantum system graphs to qubit graphs: Heralded generation of graph states ( http://arxiv.org/abs/2306.15148v1 ) ライセンス: Link先を確認 | Seungbeom Chin | (参考訳) 線形量子系 (LQSs) のグラフ図がQuantum, 5:611 (2021) とarXiv:2211.04042 (2022) に導入され、ポストセレクションなしでマルチパーティライト真の絡み合いを生成する体系的な方法が提供される。
LQSグラフとqubitグラフ(一般にグラフ状態と呼ばれる)の間の共有構造を見つけることができるか?
そのような構造を特定できれば、LQSを用いてグラフ状態を生成することができる。
私たちの研究は、この質問に対する部分的だが注目すべき回答を示します。
この研究の中では、 \emph{we は LQSs の隠蔽スキームを用いた任意の毛細管グラフ状態の生成を可能にする有向グラフ構造を提案する。
キャタピラーグラフは、線形グラフ、星グラフ、星グラフのネットワークといった一方向量子コンピューティングのための様々な有用なグラフ状態を含む。
このアプローチによって生成される状態は、融合ゲートを持つ任意のグラフ状態にとって貴重な資源状態となる。 A graph picture of linear quantum systems (LQSs) is introduced in Quantum, 5:611 (2021) and arXiv:2211.04042 (2022) to provide systematic methods for generating multipartite genuine entanglement with and without postselection. An intriguing and pertinent question emerges from this approach: Can we find a shared structure between LQS graphs and qubit graphs, commonly referred to as graph states? If such a structure can be identified, it can be exploited to generate graph states with LQSs. Our work presents a partial but noteworthy answer to this question. Within this research, \emph{we suggest a directed graph structure, which enables the generation of arbitrary caterpillar graph states employing heralded schemes in LQSs}. The caterpillar graph states encompass various useful graph states for one-way quantum computing such as linear graphs, star graphs, and networks of star graphs. The states generated through this approach will serve as valuable resource states for arbitrary graph states with fusion gates. | 翻訳日:2023-06-28 14:58:57 公開日:2023-06-27 |
# 連続変動測定-デバイス非依存量子鍵分布における実用音源の悪影響対策 Countermeasure for negative impact of practical source in continuous-variable measurement-device-independent quantum key distribution ( http://arxiv.org/abs/2306.15146v1 ) ライセンス: Link先を確認 | Luyu Huang, Xiangyu Wang, Ziyang Chen, Yanhao Sun, Song Yu, Hong Guo | (参考訳) 連続可変計測デバイス非依存量子鍵分布(CV-MDI QKD)は、測定装置に対する全ての攻撃を根本から防御することができる。
その結果、CV-MDI QKD システムの源泉として、より高い要求が提示される。
しかし、実際の情報源の欠陥はCV-MDI QKDシステムに現実的なセキュリティリスクをもたらす。
したがって、CV-MDI QKDシステムの実用的安全性を保証するために、現実的なソースの特性をリアルタイムで制御する必要がある。
本稿では, CV-MDI QKD方式における実音源から発生する負の衝撃に対する対策について, 音源ノイズの一部である相対強度雑音(RIN)から発生する抜け穴を除去するだけでなく, 音源ノイズをモデル化することで, 性能の向上を図る。
特に、実際のソースの準備ノイズが定義されているか否かの観点で、3つのケースにおいて、各ソースアウトプットの監視を行うのは、ユーザまたは両方のユーザのみである。
シミュレーションの結果,提案手法を使わずに推定された秘密鍵レートは,RINのばらつきがわずか0.4の18kmの伝送距離において,現実的な速度よりも約10.7倍高いことがわかった。
さらに悪いことに、RINの分散が増加するにつれて、差はますます大きくなる。
したがって,提案手法はCV-MDI QKDシステムの実用的安全性をさらに向上する上で理にかなっている。
言い換えれば、CV-MDI QKDシステムは検出器に対する全ての攻撃に抵抗するだけでなく、実際のソースによって引き起こされる脆弱性を解消し、実際のセキュリティに近づいた。 Continuous-variable measurement-device-independent quantum key distribution (CV-MDI QKD) can defend all attacks on the measurement devices fundamentally. Consequently, higher requirements are put forward for the source of CV-MDI QKD system. However, the imperfections of actual source brings practical security risks to the CV-MDI QKD system. Therefore, the characteristics of the realistic source must be controlled in real time to guarantee the practical security of the CV-MDI QKD system. Here we propose a countermeasure for negative impact introduced by the actual source in the CV-MDI QKD system based on one-time-calibration method, not only eliminating the loophole induced from the relative intensity noise (RIN) which is part of the source noise, but also modeling the source noise thus improving the performance. In particular, three cases in terms of whether the preparation noise of the practical sources are defined or not, where only one of the users or both two users operate monitoring on their respective source outputs, are investigated. The simulation results show that the estimated secret key rate without our proposed scheme are about 10.7 times higher than the realistic rate at 18 km transmission distance when the variance of RIN is only 0.4. What's worse, the difference becomes greater and greater with the increase of the variance of RIN. Thus, our proposed scheme makes sense in further completing the practical security of CV-MDI QKD system. In other words, our work enables CV-MDI QKD system not only to resist all attacks against detectors, but also to close the vulnerability caused by the actual source, thus making the scheme closer to practical security. | 翻訳日:2023-06-28 14:58:38 公開日:2023-06-27 |
# 普遍量子計算のための論理量子ビットのハイブリッド雑音保護 Hybrid noise protection of logical qubits for universal quantum computation ( http://arxiv.org/abs/2306.15144v1 ) ライセンス: Link先を確認 | Zhao-Ming Wang, Feng-Hua Ren, Mark S. Byrd, and Lian-Ao Wu | (参考訳) 量子コンピュータは、あらゆる古典的マシンを超えるという約束を示す。
しかし、エラーはこの能力を制限するため、現在のマシンは、キュービット数の制限と制御の制限のため、エラー訂正コードを実装することができない。
したがって、動的デカップリング(DD)とノイズを制限する符号化はより有望である。
これらの理由から、標準的な量子誤り訂正符号のような大きなオーバーヘッドを必要とする戦略よりも多くの利点を持つ普遍量子計算のモデルを提案した。
まず、物理量子ビット上の個々のノイズから集団ノイズを分離し、その符号化に2つの量子ビットのみを用いるデコヒーレンスフリー部分空間(DFS)を用いる。
第二に、我々の浴モデルはスピンボソン型浴を用いるがマルコフ型を仮定しないため、非常に一般的である。
第三に、定常な大域磁場を使用するか、残りのノイズの多くを取り除き、符号化された量子ビット上の論理演算と通勤するDDパルスのセットを考案することができる。
これにより、ゲート操作を実装しながらノイズを除去できる。
量子計算におけるデコヒーレンス問題に対処するための効率的なアプローチを提供し、現在のいくつかの量子コンピューティングシステムで実験的に実行可能なハイブリッド保護戦略のために数値的支援がなされている。
これは、いくつかの現実的なパラメータ仮定で確実に実装できるゲート数の増加を期待する最近の超伝導量子ビットの実験によって強調されている。 Quantum computers now show the promise of surpassing any possible classical machine. However, errors limit this ability and current machines do not have the ability to implement error correcting codes due to the limited number of qubits and limited control. Therefore, dynamical decoupling (DD) and encodings that limit noise with fewer qubits are more promising. For these reasons, we put forth a model of universal quantum computation that has many advantages over strategies that require a large overhead such as the standard quantum error correcting codes. First, we separate collective noise from individual noises on physical qubits and use a decoherence-free subspace (DFS) that uses just two qubits for its encoding to eliminate collective noise. Second, our bath model is very general as it uses a spin-boson type bath but without any Markovian assumption. Third, we are able to either use a steady global magnetic field or to devise a set of DD pulses that remove much of the remaining noise and commute with the logical operations on the encoded qubit. This allows removal of noise while implementing gate operations. Numerical support is given for this hybrid protection strategy which provides an efficient approach to deal with the decoherence problems in quantum computation and is experimentally viable for several current quantum computing systems. This is emphasized by a recent experiment on superconducting qubits which shows promise for increasing the number of gates that can be implemented reliably with some realistic parameter assumptions. | 翻訳日:2023-06-28 14:58:09 公開日:2023-06-27 |
# 改良された特徴選択を用いた安静時脳波信号からの慢性痛覚検出 Chronic pain detection from resting-state raw EEG signals using improved feature selection ( http://arxiv.org/abs/2306.15194v1 ) ライセンス: Link先を確認 | Jean Li, Dirk De Ridder, Divya Adhia, Matthew Hall, Jeremiah D. Deng | (参考訳) 慢性痛検出のための安静時生脳波データに基づく自動アプローチを提案する。
mSFFS (Sequential Floating Forward Selection) を改良した特徴選択アルゴリズムを提案する。
改良された特徴選択方式は比較的コンパクトであるが,Bhattacharyya 距離測定で示されるように,クラス分離性が向上し,視覚化結果も向上した。
また、他のベンチマーク手法による選択よりも優れており、テスト精度を97.5%まで向上させ、異なるタイプの慢性的な痛みを含む外部データセット上で81.4%のテスト精度をもたらす。 We present an automatic approach that works on resting-state raw EEG data for chronic pain detection. A new feature selection algorithm - modified Sequential Floating Forward Selection (mSFFS) - is proposed. The improved feature selection scheme is rather compact but displays better class separability as indicated by the Bhattacharyya distance measures and better visualization results. It also outperforms selections generated by other benchmark methods, boosting the test accuracy to 97.5% and yielding a test accuracy of 81.4% on an external dataset that contains different types of chronic pain | 翻訳日:2023-06-28 14:49:59 公開日:2023-06-27 |
# FBA-Net:半監督されたアトリウムセグメンテーションのためのコントラスト学習 FBA-Net: Foreground and Background Aware Contrastive Learning for Semi-Supervised Atrium Segmentation ( http://arxiv.org/abs/2306.15189v1 ) ライセンス: Link先を確認 | Yunsung Chung, Chanho Lim, Chao Huang, Nassir Marrouche, and Jihun Hamm | (参考訳) ガドリニウム造影MRI(GE MRI)の医用画像分割は臨床応用において重要な課題である。
しかし、マニュアルアノテーションは時間がかかり、専門的な専門知識を必要とする。
ラベル付きデータとラベルなしデータの両方を活用する半教師付きセグメンテーション手法は有望であり、対照的な学習が特に効果的なアプローチとして登場している。
本稿では,半教師付き3次元医用画像セグメンテーション(fba-net)のための前景と背景表現の対比学習戦略を提案する。
具体的には,画像中の前景領域と背景領域の両方の表現を学ぶために,コントラスト損失を利用する。
前景と背景のペアを区別するためにネットワークを訓練することにより、興味ある解剖学的構造を効果的に捉えることができる表現を学習することを目指している。
3つの医療セグメンテーションデータセットの実験は、最先端のパフォーマンスを示している。
特に,本手法は,20%のラベル付きデータで91.31%のサイススコアを達成している。これは,100%ラベル付きデータを左アトリウムデータセットで使用する完全教師付き手法の91.62%のスコアに非常に近い。
本フレームワークは, 半教師付き3次元医用画像セグメンテーションの分野を進展させる可能性があり, 注釈付きラベルを限定して, より効率的かつ正確な医用画像解析を可能にする。 Medical image segmentation of gadolinium enhancement magnetic resonance imaging (GE MRI) is an important task in clinical applications. However, manual annotation is time-consuming and requires specialized expertise. Semi-supervised segmentation methods that leverage both labeled and unlabeled data have shown promise, with contrastive learning emerging as a particularly effective approach. In this paper, we propose a contrastive learning strategy of foreground and background representations for semi-supervised 3D medical image segmentation (FBA-Net). Specifically, we leverage the contrastive loss to learn representations of both the foreground and background regions in the images. By training the network to distinguish between foreground-background pairs, we aim to learn a representation that can effectively capture the anatomical structures of interest. Experiments on three medical segmentation datasets demonstrate state-of-the-art performance. Notably, our method achieves a Dice score of 91.31% with only 20% labeled data, which is remarkably close to the 91.62% score of the fully supervised method that uses 100% labeled data on the left atrium dataset. Our framework has the potential to advance the field of semi-supervised 3D medical image segmentation and enable more efficient and accurate analysis of medical images with a limited amount of annotated labels. | 翻訳日:2023-06-28 14:49:46 公開日:2023-06-27 |
# 前方アルゴリズムにシームレスに適合する一級システム One-class systems seamlessly fit in the forward-forward algorithm ( http://arxiv.org/abs/2306.15188v1 ) ライセンス: Link先を確認 | Michael Hopwood | (参考訳) フォワードフォワードアルゴリズムは、推論中に重みを更新し、各層を個別にパラメータ更新することにより、ニューラルネットワークをトレーニングする新しい方法を示す。
これにより、トレーニング中のメモリ要件が即座に減少し、シームレスなオンライントレーニングなど、多くのメリットが生まれる可能性がある。
この方法は、ネットワークのハイパーパラメタ化によって異なるパラメータサイズを持つ各レイヤのアクティベーションで評価できるロス(良さ)関数に依存する。
本論文では、このニーズを満たすために良さ関数が提案されているが、一級問題文脈に置かれる場合、これらの関数が自然に動的ネットワークサイズを処理できるため、新しい損失を先駆する必要はない。
本稿では,前向きに学習した深層一級目的関数の性能について検討する。
コードは \url{https://github.com/michaelhopwood/forwardforwardoneclass} で入手できる。 The forward-forward algorithm presents a new method of training neural networks by updating weights during an inference, performing parameter updates for each layer individually. This immediately reduces memory requirements during training and may lead to many more benefits, like seamless online training. This method relies on a loss ("goodness") function that can be evaluated on the activations of each layer, of which can have a varied parameter size, depending on the hyperparamaterization of the network. In the seminal paper, a goodness function was proposed to fill this need; however, if placed in a one-class problem context, one need not pioneer a new loss because these functions can innately handle dynamic network sizes. In this paper, we investigate the performance of deep one-class objective functions when trained in a forward-forward fashion. The code is available at \url{https://github.com/MichaelHopwood/ForwardForwardOneclass}. | 翻訳日:2023-06-28 14:49:25 公開日:2023-06-27 |
# 強化学習によるトラス自動設計 Automatic Truss Design with Reinforcement Learning ( http://arxiv.org/abs/2306.15182v1 ) ライセンス: Link先を確認 | Weihua Du, Jinglun Zhao, Chao Yu, Xingcheng Yao, Zimeng Song, Siyang Wu, Ruifeng Luo, Zhiyuan Liu, Xianzhong Zhao, Yi Wu | (参考訳) トラスレイアウト設計、すなわち、すべての物理的制約を満たす軽量トラスレイアウトを見つけることは、建築業界における根本的な問題である。
最適レイアウトの生成は、徹底的な探索によって解決するのに非常に費用がかかる組合せ最適化問題である。
レイアウト空間全体のごく一部だけが物理的な制約の下で有効であるため、レイアウト設計にRL(End-to-end reinforcement learning)メソッドを直接適用することは不可能である。
本稿では,軽量かつ有効なトラスレイアウトを効率的に生成する2段階フレームワークであるAutoTrussを開発する。
AutoTrussはまずMonte Carloツリー検索を採用して,有効なレイアウトのさまざまなコレクションを検出する。
そして、有効解を反復的に洗練するためにRLを適用する。
2dと3dの両方で一般的なトラスレイアウト設計テストケースで実験とアブレーションを行った。
AutoTrussは最も困難な3Dテストケースにおいて、最も報告されたレイアウトを25.1%上回り、結果としてトラスレイアウト設計の文献において最初の効果的なディープRLベースのアプローチとなった。 Truss layout design, namely finding a lightweight truss layout satisfying all the physical constraints, is a fundamental problem in the building industry. Generating the optimal layout is a challenging combinatorial optimization problem, which can be extremely expensive to solve by exhaustive search. Directly applying end-to-end reinforcement learning (RL) methods to truss layout design is infeasible either, since only a tiny portion of the entire layout space is valid under the physical constraints, leading to particularly sparse rewards for RL training. In this paper, we develop AutoTruss, a two-stage framework to efficiently generate both lightweight and valid truss layouts. AutoTruss first adopts Monte Carlo tree search to discover a diverse collection of valid layouts. Then RL is applied to iteratively refine the valid solutions. We conduct experiments and ablation studies in popular truss layout design test cases in both 2D and 3D settings. AutoTruss outperforms the best-reported layouts by 25.1% in the most challenging 3D test cases, resulting in the first effective deep-RL-based approach in the truss layout design literature. | 翻訳日:2023-06-28 14:49:10 公開日:2023-06-27 |
# Crispnessへの埋め込み: Crisp Edge 検出のためのガイド付きラベルリファインメント Delving into Crispness: Guided Label Refinement for Crisp Edge Detection ( http://arxiv.org/abs/2306.15172v1 ) ライセンス: Link先を確認 | Yunfan Ye, Renjiao Yi, Zhirui Gao, Zhiping Cai, Kai Xu | (参考訳) 学習に基づくエッジ検出は通常、厚いエッジの予測に苦しむ。
新しいエッジの鮮明度測定による広範囲な定量的研究により、ノイズの多い人間のラベル付きエッジが、厚い予測の主な原因であることが判明した。
この観察に基づいて,粗末なエッジ検出を実現するためには,モデル設計よりもラベル品質に注意を払うべきだ,と提案する。
そこで本研究では, クレープエッジ検出器のトレーニングに使用可能な, 効果的カニー誘導による人間のラベル付きエッジの改良を提案する。
基本的には、人間のラベルを最もよく一致させる過剰検出されたキャニーエッジのサブセットを求める。
改良されたエッジマップのトレーニングにより、既存のエッジ検出器をクリップエッジ検出器に変換することができることを示す。
実験により、洗練されたエッジで訓練された深層モデルは、17.4%から30.6%の性能向上を達成した。
PiDiNetのバックボーンでは、ODSとOISをそれぞれ12.2%改善し、Multicueデータセットでは12.6%改善した。
我々はさらに実験を行い、光学フロー推定と画像分割のためのクランプエッジ検出の優位性を示す。 Learning-based edge detection usually suffers from predicting thick edges. Through extensive quantitative study with a new edge crispness measure, we find that noisy human-labeled edges are the main cause of thick predictions. Based on this observation, we advocate that more attention should be paid on label quality than on model design to achieve crisp edge detection. To this end, we propose an effective Canny-guided refinement of human-labeled edges whose result can be used to train crisp edge detectors. Essentially, it seeks for a subset of over-detected Canny edges that best align human labels. We show that several existing edge detectors can be turned into a crisp edge detector through training on our refined edge maps. Experiments demonstrate that deep models trained with refined edges achieve significant performance boost of crispness from 17.4% to 30.6%. With the PiDiNet backbone, our method improves ODS and OIS by 12.2% and 12.6% on the Multicue dataset, respectively, without relying on non-maximal suppression. We further conduct experiments and show the superiority of our crisp edge detection for optical flow estimation and image segmentation. | 翻訳日:2023-06-28 14:48:51 公開日:2023-06-27 |
# 適応型2段階知識蒸留によるストリーミングと非ストリーミングトランスデューサASRのギャップ低減 Reducing the gap between streaming and non-streaming Transducer-based ASR by adaptive two-stage knowledge distillation ( http://arxiv.org/abs/2306.15171v1 ) ライセンス: Link先を確認 | Haitao Tang, Yu Fu, Lei Sun, Jiabin Xue, Dan Liu, Yongchao Li, Zhiqiang Ma, Minghui Wu, Jia Pan, Genshun Wan, and Ming'en Zhao | (参考訳) transducerは、ストリーミング音声認識の主流フレームワークの1つである。
ストリーミングと非ストリーミングトランスデューサモデルの間には,コンテキストの制限によるパフォーマンスギャップがある。
このギャップを減らすための効果的な方法は、隠れた分布と出力の分布が一貫していることを保証することである。
しかし、出力分布の学習が隠れた分布に依存するため、分布の一貫性を同時に確保することは困難である。
本稿では,隠れ層学習と出力層学習からなる適応型二段階知識蒸留法を提案する。
前段では,平均二乗誤差損失関数を適用することで,フルコンテキストの隠れ表現を学習する。
後者の段階では,安定な出力分布を学習するための電力変換に基づく適応平滑性法を考案する。
LibriSpeech corpus のオリジナルストリーミングモデルと比較すると,単語エラー率を 19 % 削減し,最初のトークンに対する応答を高速化した。 Transducer is one of the mainstream frameworks for streaming speech recognition. There is a performance gap between the streaming and non-streaming transducer models due to limited context. To reduce this gap, an effective way is to ensure that their hidden and output distributions are consistent, which can be achieved by hierarchical knowledge distillation. However, it is difficult to ensure the distribution consistency simultaneously because the learning of the output distribution depends on the hidden one. In this paper, we propose an adaptive two-stage knowledge distillation method consisting of hidden layer learning and output layer learning. In the former stage, we learn hidden representation with full context by applying mean square error loss function. In the latter stage, we design a power transformation based adaptive smoothness method to learn stable output distribution. It achieved 19\% relative reduction in word error rate, and a faster response for the first token compared with the original streaming model in LibriSpeech corpus. | 翻訳日:2023-06-28 14:48:33 公開日:2023-06-27 |
# 神経過程における推論構造の利用 Exploiting Inferential Structure in Neural Processes ( http://arxiv.org/abs/2306.15169v1 ) ライセンス: Link先を確認 | Dharmesh Tailor, Mohammad Emtiyaz Khan, Eric Nalisnick | (参考訳) ニューラルネットワーク(NP)は、コンテキストセットに基づいて高速な適応を行う能力によって、魅力的である。
この集合は、しばしば単純な分布に従うと仮定される潜在変数によって符号化される。
しかし、実単語設定では、コンテキストセットは複数のモード、重いテールなどを持つよりリッチな分布から引き出すことができる。
本稿では,npsの潜在変数にグラフィカルモデルによって定義されたリッチな事前値を与えるためのフレームワークを提供する。
これらの分布仮定は、文脈集合に対する適切な集約戦略に直接変換する。
さらに,確率勾配を用いたエンドツーエンド最適化が可能となるメッセージパッシング手順について述べる。
我々は,関数モデリングとテスト時間ロバスト性の改善をもたらす混合仮定と学生-t仮定を用いて,フレームワークの汎用性を実証する。 Neural Processes (NPs) are appealing due to their ability to perform fast adaptation based on a context set. This set is encoded by a latent variable, which is often assumed to follow a simple distribution. However, in real-word settings, the context set may be drawn from richer distributions having multiple modes, heavy tails, etc. In this work, we provide a framework that allows NPs' latent variable to be given a rich prior defined by a graphical model. These distributional assumptions directly translate into an appropriate aggregation strategy for the context set. Moreover, we describe a message-passing procedure that still allows for end-to-end optimization with stochastic gradients. We demonstrate the generality of our framework by using mixture and Student-t assumptions that yield improvements in function modelling and test-time robustness. | 翻訳日:2023-06-28 14:48:19 公開日:2023-06-27 |
# 無効データから学ぶ:生成モデルにおける制約満足について Learning from Invalid Data: On Constraint Satisfaction in Generative Models ( http://arxiv.org/abs/2306.15166v1 ) ライセンス: Link先を確認 | Giorgio Giannone, Lyle Regenwetter, Akash Srivastava, Dan Gutfreund, Faez Ahmed | (参考訳) 生成モデルは視覚、言語、スピーチにおいて印象的な結果を示した。
しかし、膨大なデータセットであっても、正確さに苦労し、物理的に無効あるいは事実的に不正なデータを生成する。
これは、例えば工学設計の製品仕様を満たすために、あるいは自然の場面で物理法則に従うために、生成されたデータが制約を満たさなければならない場合に特に問題となる。
多様性と忠実さを保ちながら精度を向上させるために,制約違反データポイントのデータセットを活用する新たなトレーニング機構を提案する。
提案手法は, 生成分布と有効前の分岐を最小限に抑えつつ, 無効分布との分岐を最大化する。
GANやDDPMといった、無効なデータでトレーニングする生成モデルが、有効なデータポイントのみをトレーニングする標準モデルよりも大幅に優れていることを示す。
例えば、2d密度の無効サンプルは最大98 %減少し、スタックブロック問題では接続性と安定性が4倍向上し、エンジニアリング設計における構造トポロジ最適化ベンチマークでは制約満足度が15 %向上した。
また,不正データの質が学習手順やモデルの一般化特性に与える影響についても分析した。
最後に, 有効試料の10倍増加は制約満足度に負の差をもたらすが, 無効試料の10%未満は10倍の改善をもたらすことを示す。
提案手法は, 工学設計, ロボティクス, 医療など, 制約満足度が重要かつ限られた領域において, 多様性と忠実性を保ちながら, 生成モデルの精度を向上させるための有望なソリューションを提供する。 Generative models have demonstrated impressive results in vision, language, and speech. However, even with massive datasets, they struggle with precision, generating physically invalid or factually incorrect data. This is particularly problematic when the generated data must satisfy constraints, for example, to meet product specifications in engineering design or to adhere to the laws of physics in a natural scene. To improve precision while preserving diversity and fidelity, we propose a novel training mechanism that leverages datasets of constraint-violating data points, which we consider invalid. Our approach minimizes the divergence between the generative distribution and the valid prior while maximizing the divergence with the invalid distribution. We demonstrate how generative models like GANs and DDPMs that we augment to train with invalid data vastly outperform their standard counterparts which solely train on valid data points. For example, our training procedure generates up to 98 % fewer invalid samples on 2D densities, improves connectivity and stability four-fold on a stacking block problem, and improves constraint satisfaction by 15 % on a structural topology optimization benchmark in engineering design. We also analyze how the quality of the invalid data affects the learning procedure and the generalization properties of models. Finally, we demonstrate significant improvements in sample efficiency, showing that a tenfold increase in valid samples leads to a negligible difference in constraint satisfaction, while less than 10 % invalid samples lead to a tenfold improvement. Our proposed mechanism offers a promising solution for improving precision in generative models while preserving diversity and fidelity, particularly in domains where constraint satisfaction is critical and data is limited, such as engineering design, robotics, and medicine. | 翻訳日:2023-06-28 14:48:07 公開日:2023-06-27 |
# DSRM:分散シフトリスク最小化によるテキスト反転学習の促進 DSRM: Boost Textual Adversarial Training with Distribution Shift Risk Minimization ( http://arxiv.org/abs/2306.15164v1 ) ライセンス: Link先を確認 | Songyang Gao, Shihan Dou, Yan Liu, Xiao Wang, Qi Zhang, Zhongyu Wei, Jin Ma, Ying Shan | (参考訳) adversarial trainingは、深層言語モデルのロバスト性を改善するための最も優れた方法の1つである。
しかし、ロバストなモデルは、逆のサンプルを得るために多段階勾配の上昇や単語置換を必要とするため、高時間消費のコストがかかる。
さらに、これらのサンプルは文法的品質と意味的一貫性に欠けており、対人訓練の有効性を損なう。
これらの問題に対処するため,クリーンなデータのみを用いて対人訓練を行う新しい効果的な手法を提案する。
我々の手法である分散シフトリスク最小化(DSRM)は,入力データの確率分布を組込みではなく摂動することで,敵の損失を推定する。
この定式化は、敵攻撃による世界的損失を最小化するロバストなモデルをもたらす。
本手法では, 学習にゼロ対向検定が必要であり, 現行の対向検定法と比較して, 時間消費を最大70%削減する。
実験により、DSRMはBERTのテキスト逆攻撃に対する耐性を大幅に改善し、様々なベンチマークで最先端の堅牢な精度を実現している。 Adversarial training is one of the best-performing methods in improving the robustness of deep language models. However, robust models come at the cost of high time consumption, as they require multi-step gradient ascents or word substitutions to obtain adversarial samples. In addition, these generated samples are deficient in grammatical quality and semantic consistency, which impairs the effectiveness of adversarial training. To address these problems, we introduce a novel, effective procedure for instead adversarial training with only clean data. Our procedure, distribution shift risk minimization (DSRM), estimates the adversarial loss by perturbing the input data's probability distribution rather than their embeddings. This formulation results in a robust model that minimizes the expected global loss under adversarial attacks. Our approach requires zero adversarial samples for training and reduces time consumption by up to 70\% compared to current best-performing adversarial training methods. Experiments demonstrate that DSRM considerably improves BERT's resistance to textual adversarial attacks and achieves state-of-the-art robust accuracy on various benchmarks. | 翻訳日:2023-06-28 14:47:39 公開日:2023-06-27 |
# Wasserstein 生成的回帰 Wasserstein Generative Regression ( http://arxiv.org/abs/2306.15163v1 ) ライセンス: Link先を確認 | Shanshan Song, Tong Wang, Guohao Shen, Yuanyuan Lin, and Jian Huang | (参考訳) 本稿では,非パラメトリック回帰と条件分布学習のための新しい統一的アプローチを提案する。
提案手法は,条件生成器が条件分布からサンプルを生成する機能である生成学習フレームワークを用いて,回帰関数と条件生成器を同時に推定する。
主なアイデアは、適切な回帰関数推定子を生成するという制約を満たす条件付きジェネレータを見積もることである。
深層ニューラルネットワークを用いて条件生成をモデル化する。
提案手法は,多変量結果と共変量の問題に対処し,予測区間の構築に利用できる。
非漸近誤差境界の導出と適切な仮定の下でのアプローチの分布整合による理論的保証を提供する。
また,シミュレーションおよび実データを用いて数値実験を行い,様々なシナリオにおける既存手法の有効性と優位性を実証した。 In this paper, we propose a new and unified approach for nonparametric regression and conditional distribution learning. Our approach simultaneously estimates a regression function and a conditional generator using a generative learning framework, where a conditional generator is a function that can generate samples from a conditional distribution. The main idea is to estimate a conditional generator that satisfies the constraint that it produces a good regression function estimator. We use deep neural networks to model the conditional generator. Our approach can handle problems with multivariate outcomes and covariates, and can be used to construct prediction intervals. We provide theoretical guarantees by deriving non-asymptotic error bounds and the distributional consistency of our approach under suitable assumptions. We also perform numerical experiments with simulated and real data to demonstrate the effectiveness and superiority of our approach over some existing approaches in various scenarios. | 翻訳日:2023-06-28 14:47:20 公開日:2023-06-27 |
# [Re]二重サンプリングランダム化平滑化 [Re] Double Sampling Randomized Smoothing ( http://arxiv.org/abs/2306.15221v1 ) ライセンス: Link先を確認 | Aryan Gupta, Sarthak Gupta, Abhay Kumar, Harsh Dugar | (参考訳) 本稿では、ニューラルネットワーク(NN)の対向的摂動に対する堅牢性を証明する問題に、機械学習分野における再現性への貢献について述べる。
提案したDouble Smpling Randomized Smoothing (DSRS) フレームワークは、スムーズな分布を追加してロバスト性認証を改善することで、既存のメソッドの制限を克服する。
本稿では,一般化されたガウス平滑化系に対するDSRSの明確化と,計算効率の良い実装法を提案する。
MNIST と CIFAR-10 の実験では、DSRS の有効性が示され、他の方法と比較してより大きなロバスト半径が証明されている。
また, 各種アブレーション研究を行い, 提案フレームワークによる超パラメータと, 逆行訓練法が認定半径に及ぼす影響について検討した。 This paper is a contribution to the reproducibility challenge in the field of machine learning, specifically addressing the issue of certifying the robustness of neural networks (NNs) against adversarial perturbations. The proposed Double Sampling Randomized Smoothing (DSRS) framework overcomes the limitations of existing methods by using an additional smoothing distribution to improve the robustness certification. The paper provides a clear manifestation of DSRS for a generalized family of Gaussian smoothing and a computationally efficient method for implementation. The experiments on MNIST and CIFAR-10 demonstrate the effectiveness of DSRS, consistently certifying larger robust radii compared to other methods. Also various ablations studies are conducted to further analyze the hyperparameters and effect of adversarial training methods on the certified radius by the proposed framework. | 翻訳日:2023-06-28 14:41:34 公開日:2023-06-27 |
# S-TLLR:STDPによるスパイクニューラルネットワークの時間的局所学習ルール S-TLLR: STDP-inspired Temporal Local Learning Rule for Spiking Neural Networks ( http://arxiv.org/abs/2306.15220v1 ) ライセンス: Link先を確認 | Marco Paul E. Apolinario and Kaushik Roy | (参考訳) スパイキングニューラルネットワーク(snn)は生物学的に妥当なモデルであり、特に逐次学習タスクにおいて、エッジでのエネルギー効率の高いインテリジェンスの展開に適している可能性があると認識されている。
しかし、SNNの訓練は、正確な時間的および空間的信用割り当ての必要性から、大きな課題となる。
時間によるバックプロパゲーション (BPTT) アルゴリズムはこれらの問題に対処する最も広く使われている手法であるが、時間的依存のため計算コストが高い。
さらにBPTTとその近似は、スパイク活動に由来する因果情報のみを用いてシナプス更新を計算し、非因果関係を無視する。
本研究では,イベントベース学習タスクにおけるsnsの学習を目的とした,spike-timing dependent plasticity (stdp) 機構に着想を得た,新たな3要素時間局所学習ルールであるs-tllrを提案する。
S-TLLRは、前・後シナプス活動の因果関係と非因果関係を考察し、BPTTに匹敵する性能を達成し、因果情報のみを用いた手法と比較して性能を向上させる。
さらに、S-TLLRはメモリと時間の複雑さが低く、時間ステップの数に依存しないため、低消費電力デバイス上でのオンライン学習に適している。
提案手法のスケーラビリティを実証するため,画像やジェスチャ認識,音声分類,光フロー推定など,幅広いアプリケーションを対象としたイベントベースデータセットの広範な評価を行った。
全ての実験において、S-TLLRは1.1-10\times$の計算数を削減して高い精度を達成した。 Spiking Neural Networks (SNNs) are biologically plausible models that have been identified as potentially apt for the deployment for energy-efficient intelligence at the edge, particularly for sequential learning tasks. However, training of SNNs poses a significant challenge due to the necessity for precise temporal and spatial credit assignment. Back-propagation through time (BPTT) algorithm, whilst being the most widely used method for addressing these issues, incurs a high computational cost due to its temporal dependency. Moreover, BPTT and its approximations solely utilize causal information derived from the spiking activity to compute the synaptic updates, thus neglecting non-causal relationships. In this work, we propose S-TLLR, a novel three-factor temporal local learning rule inspired by the Spike-Timing Dependent Plasticity (STDP) mechanism, aimed at training SNNs on event-based learning tasks. S-TLLR considers both causal and non-causal relationships between pre and post-synaptic activities, achieving performance comparable to BPTT and enhancing performance relative to methods using only causal information. Furthermore, S-TLLR has low memory and time complexity, which is independent of the number of time steps, rendering it suitable for online learning on low-power devices. To demonstrate the scalability of our proposed method, we have conducted extensive evaluations on event-based datasets spanning a wide range of applications, such as image and gesture recognition, audio classification, and optical flow estimation. In all the experiments, S-TLLR achieved high accuracy with a reduction in the number of computations between $1.1-10\times$. | 翻訳日:2023-06-28 14:41:18 公開日:2023-06-27 |
# 超解像法を前処理として用いた意味セグメンテーション Semantic Segmentation Using Super Resolution Technique as Pre-Processing ( http://arxiv.org/abs/2306.15218v1 ) ライセンス: Link先を確認 | Chih-Chia Chen, Wei-Han Chen, Jen-Shiun Chiang, Chun-Tse Chien and Tingkai Chang | (参考訳) 高レベルの視覚タスクと低レベルの視覚タスクを組み合わせることは、コンピュータビジョンの分野で一般的なテクニックである。
本研究は,文書画像の2値化のための画像スーパーレゾリューション手法と意味セグメンテーションを統合する。
画像超解像を前処理ステップとして用いることで,セマンティックセグメンテーションの結果と性能を効果的に向上させることができる。 Combining high-level and low-level visual tasks is a common technique in the field of computer vision. This work integrates the technique of image super resolution to semantic segmentation for document image binarization. It demonstrates that using image super-resolution as a preprocessing step can effectively enhance the results and performance of semantic segmentation. | 翻訳日:2023-06-28 14:40:47 公開日:2023-06-27 |
# グラフメタ学習のための教師なしエピソード生成 Unsupervised Episode Generation for Graph Meta-learning ( http://arxiv.org/abs/2306.15217v1 ) ライセンス: Link先を確認 | Jihyeong Jung, Sangwoo Seo, Sungwon Kim and Chanyoung Park | (参考訳) 本稿では,ラベルなしのメタラーニングによるノード分類(fsnc)問題を解くための教師なしエピソード生成手法について検討する。
FSNCのための支配的なメタラーニング手法は、訓練のための豊富なラベル付きノードの存在下で開発されたが、現実世界では入手できない可能性がある。
ラベルカーシティ問題に取り組むための研究はほとんど提案されていないが、ラベル付きデータの量は限られており、グラフ内のすべてのノードの情報の利用を妨げている。
ラベルのないFSNCにSSL(Self-Supervised Learning)アプローチが有効であるにもかかわらず、彼らは主に、解決すべき下流タスクを考慮せずにジェネリックノードの埋め込みを学習し、パフォーマンスを制限できる。
本研究では,FSNCタスクの一般化能力の恩恵を受けるため,ラベルスカルシティ問題を解消しつつ,教師なしエピソード生成手法を提案する。
まず,グラフ拡張を利用してg-UMTRAと呼ばれるトレーニングエピソードを生成する手法を提案する。
1)強化特徴の計算による訓練時間の増加
2) 既存のベースラインの適用性は低い。
そこで我々は,グラフ拡散によって発見された構造的近傍からエピソードを生成するクエリ(naq)として隣人を提案する。
提案手法はモデルに依存しないため,既存のグラフメタ学習モデルにプラグインできるが,性能の大部分を犠牲にせず,時には改善もできない。
また, fsnc問題に対するグラフメタラーニングにおける教師なしエピソード生成手法の可能性について, 広範な実験結果から, 教師なしエピソード生成手法の可能性を示す。 In this paper, we investigate Unsupervised Episode Generation methods to solve Few-Shot Node-Classification (FSNC) problem via Meta-learning without labels. Dominant meta-learning methodologies for FSNC were developed under the existence of abundant labeled nodes for training, which however may not be possible to obtain in the real-world. Although few studies have been proposed to tackle the label-scarcity problem, they still rely on a limited amount of labeled data, which hinders the full utilization of the information of all nodes in a graph. Despite the effectiveness of Self-Supervised Learning (SSL) approaches on FSNC without labels, they mainly learn generic node embeddings without consideration on the downstream task to be solved, which may limit its performance. In this work, we propose unsupervised episode generation methods to benefit from their generalization ability for FSNC tasks while resolving label-scarcity problem. We first propose a method that utilizes graph augmentation to generate training episodes called g-UMTRA, which however has several drawbacks, i.e., 1) increased training time due to the computation of augmented features and 2) low applicability to existing baselines. Hence, we propose Neighbors as Queries (NaQ), which generates episodes from structural neighbors found by graph diffusion. Our proposed methods are model-agnostic, that is, they can be plugged into any existing graph meta-learning models, while not sacrificing much of their performance or sometimes even improving them. We provide theoretical insights to support why our unsupervised episode generation methodologies work, and extensive experimental results demonstrate the potential of our unsupervised episode generation methods for graph meta-learning towards FSNC problems. | 翻訳日:2023-06-28 14:40:42 公開日:2023-06-27 |
# 遠隔スタンドアローンrydberg原子受信機によるrfフィールドのセンシング Sensing RF fields with a distant stand-alone Rydberg-atomic receiver ( http://arxiv.org/abs/2306.15215v1 ) ライセンス: Link先を確認 | J.S. Otto, M. Chilcott, A.B. Deb and N. Kj{\ae}rgaard | (参考訳) 我々は、ルビジウム電池と角キューブプリズム反射器を組み合わせることで受動rf受信機を形成し、原子センシングに必要な活性成分から離れた場所でマイクロ波信号を検出できるようにする。
この小型受信機は、電気部品がなく、原子蒸気中に電磁誘導透過シナリオを確立する1対のフリースペースレーザービームにより、アクティブベースステーションと光学的に接続される。
基地局で検出される光信号に受信位置のマイクロ波信号をインプリントする。
我々のスタンドアロン受信アーキテクチャは、現在注目されているRydberg-atomベースのセンシング技術に重要な柔軟性を提供する。
我々は,特に努力することなく約20mのリンクを実証し,受信機と基地局の分離を実現するための重要な将来展望を予見した。 We combine a rubidium vapour cell with a corner-cube prism reflector to form a passive RF receiver, allowing the detection of microwave signals at a location distant from the active components required for atomic sensing. This compact receiver has no electrical components and is optically linked to the active base station by a pair of free-space laser beams that establish an electromagnetically induced transparency scenario in the atomic vapour. Microwave signals at the receiver location are imprinted onto an optical signal which is detected at the base station. Our stand-alone receiver architecture adds important flexibility to Rydberg-atom based sensing technologies, which are currently subject to significant attention. We demonstrate a ~20 m link with no particular effort and foresee significant future prospects of achieving a much larger separation between receiver and base station. | 翻訳日:2023-06-28 14:40:14 公開日:2023-06-27 |
# 医師と患者のコミュニケーションスキルの訓練のための仮想人間自動フィードバックシステムの検証 Validating a virtual human and automated feedback system for training doctor-patient communication skills ( http://arxiv.org/abs/2306.15213v1 ) ライセンス: Link先を確認 | Kurtis Haut, Caleb Wohn, Benjamin Kane, Tom Carroll, Catherine Guigno, Varun Kumar, Ron Epstein, Lenhart Schubert, Ehsan Hoque | (参考訳) 臨床医と患者との効果的なコミュニケーションは、医療の最大化結果の提供に不可欠である。
残念ながら、人間の標準化された患者と専門家のコーチを使う従来のコミュニケーショントレーニングアプローチはスケールが難しい。
本稿では,医師と患者のコミュニケーションスキルに対するフィードバックを実践し受講するための,スケーラブルで容易にアクセス可能なsophie (standards online patient for health interaction education) と呼ばれるデジタルツールの開発と検証を行う。
SOPHIEは30人の被験者による実験によって検証された。
sophieを受診した被験者は,コミュニケーション全般のコントロール,スコアの集計,患者のエンパワー,共感の提示(すべてのケースで 0.05$)よりも有意に優れていた。
いつか、SOPHIEが既存のリソースを補完するスケーラブルなオプションを提供することで、コミュニケーショントレーニングリソースをよりアクセスしやすくすることを期待します。 Effective communication between a clinician and their patient is critical for delivering healthcare maximizing outcomes. Unfortunately, traditional communication training approaches that use human standardized patients and expert coaches are difficult to scale. Here, we present the development and validation of a scalable, easily accessible, digital tool known as the Standardized Online Patient for Health Interaction Education (SOPHIE) for practicing and receiving feedback on doctor-patient communication skills. SOPHIE was validated by conducting an experiment with 30 participants. We found that participants who underwent SOPHIE performed significantly better than the control in overall communication, aggregate scores, empowering the patient, and showing empathy ($p < 0.05$ in all cases). One day, we hope that SOPHIE will help make communication training resources more accessible by providing a scalable option to supplement existing resources. | 翻訳日:2023-06-28 14:39:58 公開日:2023-06-27 |
# TranssionADD:オーディオディープフェイク検出のための多フレーム強化に基づくシーケンスタグ付けモデル TranssionADD: A multi-frame reinforcement based sequence tagging model for audio deepfake detection ( http://arxiv.org/abs/2306.15212v1 ) ライセンス: Link先を確認 | Jie Liu and Zhiba Su and Hui Huang and Caiyan Wan and Quanxiu Wang and Jiangli Hong and Benlai Tang and Fengjie Zhu | (参考訳) 近年、エンド・ツー・エンドの音声モデリング技術の進歩により、ユーザの音声を模倣し、クローンすることが可能になる。
これにより、本物の音声セグメントと製造された音声セグメントを区別する上で大きな課題となる。
第2回Audio Deepfake Detection Challenge (ADD 2023)は、ユーザの音声の乱用と誤用に対処するため、ディープフェイク音声の発話を検出し分析することを目的としている。
特に、トラック2は、操作領域位置 (Manipulation Region Location, RL) と名付けられ、実際の音声セグメントと生成された音声セグメントの両方に存在する、操作された領域の位置を特定することを目的としている。
本稿では,トラスト競争におけるモデルロバストネスと音声セグメント出力の課題に対する解決法として,新しいTranssionADDシステムを提案する。
私たちのシステムには3つのユニークな貢献があります
1)音声ディープフェイク検出のためのシーケンスタグ付けタスクを適応する。
2) 様々なデータ拡張手法によるモデル一般化の改善。
3)マルチフレーム検出(MFD)モジュールを組み込んで,単一フレームが提供する制限された表現を克服し,分離フレームペナルティ(IFP)損失を用いてセグメントの外れ値を処理する。
提案システムの有効性とロバスト性を実証し, トラック2で2位となった。 Thanks to recent advancements in end-to-end speech modeling technology, it has become increasingly feasible to imitate and clone a user`s voice. This leads to a significant challenge in differentiating between authentic and fabricated audio segments. To address the issue of user voice abuse and misuse, the second Audio Deepfake Detection Challenge (ADD 2023) aims to detect and analyze deepfake speech utterances. Specifically, Track 2, named the Manipulation Region Location (RL), aims to pinpoint the location of manipulated regions in audio, which can be present in both real and generated audio segments. We propose our novel TranssionADD system as a solution to the challenging problem of model robustness and audio segment outliers in the trace competition. Our system provides three unique contributions: 1) we adapt sequence tagging task for audio deepfake detection; 2) we improve model generalization by various data augmentation techniques; 3) we incorporate multi-frame detection (MFD) module to overcome limited representation provided by a single frame and use isolated-frame penalty (IFP) loss to handle outliers in segments. Our best submission achieved 2nd place in Track 2, demonstrating the effectiveness and robustness of our proposed system. | 翻訳日:2023-06-28 14:39:44 公開日:2023-06-27 |
# ダイヤモンド色中心と薄膜ニオブ酸リチウムの効率的なフォトニック集積 Efficient Photonic Integration of Diamond Color Centers and Thin-Film Lithium Niobate ( http://arxiv.org/abs/2306.15207v1 ) ライセンス: Link先を確認 | Daniel Riedel, Hope Lee, Jason F. Herrmann, Jakob Grzesik, Vahid Ansari, Jean-Michel Borit, Hubert S. Stokowski, Shahriar Aghaeimeibodi, Haiyu Lu, Patrick J. McQuade, Nick A. Melosh, Zhi-Xun Shen, Amir H. Safavi-Naeini, Jelena Vu\v{c}kovi\'c | (参考訳) 集積量子メモリを持つオンチップフォトニック量子回路は、量子情報処理のハードウェアを根本的に進歩させる可能性がある。
特に、ダイヤモンド中の負電荷型グループIV色中心は、長い貯蔵時間と優れた光発光特性と光適応可能なスピン状態を組み合わせることで量子記憶の候補となる。
しかし、材料としては、ダイヤモンドにはスケーラブルな量子システムを実現するのに必要な多くの機能がない。
対照的に、薄膜のニオブ酸リチウム(TFLN)は、電気光学効果、圧電性、周期的な準位相マッチング機能など、多くの有用なフォトニック非線形性を提供する。
ここでは、負電荷シリコン空孔(SiV)中心を含むダイヤモンドナノビームとTFLN導波路との高効率な均一結合について述べる。
ダイヤモンドナノビームとtfln導波路間の伝送効率は、複数の測定値で平均90\%以上であった。
共焦点集束と集積集束の飽和信号レベルを比較することで、tfln導波路に伝送される光子数を平面外集束チャネルに10ドル増やすことを決定した。
この結果は、ダイヤモンドとTFLN材料の両方の利点を利用するスケーラブルな集積量子フォトニック回路を構築するための重要なステップである。 On-chip photonic quantum circuits with integrated quantum memories have the potential to radically progress hardware for quantum information processing. In particular, negatively charged group-IV color centers in diamond are promising candidates for quantum memories, as they combine long storage times with excellent optical emission properties and an optically-addressable spin state. However, as a material, diamond lacks many functionalities needed to realize scalable quantum systems. Thin-film lithium niobate (TFLN), in contrast, offers a number of useful photonic nonlinearities, including the electro-optic effect, piezoelectricity, and capabilities for periodically-poled quasi-phase matching. Here, we present highly efficient heterogeneous integration of diamond nanobeams containing negatively charged silicon-vacancy (SiV) centers with TFLN waveguides. We observe greater than 90\% transmission efficiency between the diamond nanobeam and TFLN waveguide on average across multiple measurements. By comparing saturation signal levels between confocal and integrated collection, we determine a $10$-fold increase in photon counts channeled into TFLN waveguides versus that into out-of-plane collection channels. Our results constitute a key step for creating scalable integrated quantum photonic circuits that leverage the advantages of both diamond and TFLN materials. | 翻訳日:2023-06-28 14:39:20 公開日:2023-06-27 |
# ct金属アーティファクト低減のための教師なし多色神経表現 Unsupervised Polychromatic Neural Representation for CT Metal Artifact Reduction ( http://arxiv.org/abs/2306.15203v1 ) ライセンス: Link先を確認 | Qing Wu, Lixuan Chen, Ce Wang, Hongjiang Wei, S. Kevin Zhou, Jingyi Yu, Yuyao Zhang | (参考訳) トモグラフィー(例えば、NeRF、NeAT、NeRP)に基づく新しい神経再構成技術は、医用画像に特有の機能を示すようになった。
本研究では,人体に金属インプラントが存在する場合のCTイメージングの課題に取り組むために,新しいポリクロマティックニューラル表現(ポリナー)を提案する。
人工物は、X線スペクトルの様々なエネルギーレベルにおける金属の減衰係数の劇的な変化から生じ、CT測定において非線形な金属効果をもたらす。
金属の影響によるCT画像の再構成は、従来の金属アーチファクトリダクション(MAR)アプローチで採用された経験的モデルが信号損失と強いエイリアス化を招き、複雑な非線形逆問題を引き起こす。
ポリナーは、非線形逆問題の観点から MAR 問題をモデル化する。
具体的には、まず、非線形CT取得過程を正確にシミュレートする多色前方モデルを導出する。
そして,前向きモデルを暗黙のニューラル表現に組み込んで再構築を行う。
最後に, 解空間を効果的に制約しながら, エネルギーレベルの異なるCT画像の物理的特性を保存するために, 正則化器を採用する。
我々のPolynerは教師なしのメソッドであり、外部のトレーニングデータを必要としない。
複数のデータセットを実験した結果、ポリナーはドメイン内データセットの教師付きメソッドと同等あるいは優れたパフォーマンスを達成でき、ドメイン外データセットでは大幅なパフォーマンス改善が得られました。
我々の知る限りでは、Polynerは教師なしのMAR法で、教師なしの手法よりも優れています。 Emerging neural reconstruction techniques based on tomography (e.g., NeRF, NeAT, and NeRP) have started showing unique capabilities in medical imaging. In this work, we present a novel Polychromatic neural representation (Polyner) to tackle the challenging problem of CT imaging when metallic implants exist within the human body. The artifacts arise from the drastic variation of metal's attenuation coefficients at various energy levels of the X-ray spectrum, leading to a nonlinear metal effect in CT measurements. Reconstructing CT images from metal-affected measurements hence poses a complicated nonlinear inverse problem where empirical models adopted in previous metal artifact reduction (MAR) approaches lead to signal loss and strongly aliased reconstructions. Polyner instead models the MAR problem from a nonlinear inverse problem perspective. Specifically, we first derive a polychromatic forward model to accurately simulate the nonlinear CT acquisition process. Then, we incorporate our forward model into the implicit neural representation to accomplish reconstruction. Lastly, we adopt a regularizer to preserve the physical properties of the CT images across different energy levels while effectively constraining the solution space. Our Polyner is an unsupervised method and does not require any external training data. Experimenting with multiple datasets shows that our Polyner achieves comparable or better performance than supervised methods on in-domain datasets while demonstrating significant performance improvements on out-of-domain datasets. To the best of our knowledge, our Polyner is the first unsupervised MAR method that outperforms its supervised counterparts. | 翻訳日:2023-06-28 14:38:57 公開日:2023-06-27 |
# シクラ:マルチモーダルLLMの参照対話マジックを公開 Shikra: Unleashing Multimodal LLM's Referential Dialogue Magic ( http://arxiv.org/abs/2306.15195v1 ) ライセンス: Link先を確認 | Keqin Chen, Zhao Zhang, Weili Zeng, Richong Zhang, Feng Zhu, Rui Zhao | (参考訳) 人間の会話では、個人は、他人に話しかけながらシーン内の関連領域を示すことができる。
相手は、必要に応じて特定の地域を参照して応答することができる。
この対話における自然な参照能力は、現在のマルチモーダル大言語モデル(mllm)にはない。
そこで本研究では,空間座標の入力と出力を自然言語で処理できる「シクラ」というMLLMを提案する。
そのアーキテクチャはビジョンエンコーダ、アライメント層、llmで構成されている。
余分な語彙、位置エンコーダ、プレ/ポスト検出モジュール、外部プラグインモデルを必要としない、単純でシンプルなように設計されている。
すべての入力と出力は自然言語形式である。
参照対話は様々な視覚言語(VL)タスクのスーパーセットである。
Shikraは、RECやPointQAといった位置関連タスクや、Image CaptioningやVQAといった従来のVLタスクを自然に処理できる。
実験結果はシクラの有望なパフォーマンスを示している。
さらに、前述のオブジェクトの座標を思考の連鎖で提供したり、ユーザ視点の領域の類似性を比較するなど、多くのエキサイティングなアプリケーションを可能にします。
私たちのコードとモデルはhttps://github.com/shikras/shikraでアクセスできます。 In human conversations, individuals can indicate relevant regions within a scene while addressing others. In turn, the other person can then respond by referring to specific regions if necessary. This natural referential ability in dialogue remains absent in current Multimodal Large Language Models (MLLMs). To fill this gap, this paper proposes an MLLM called Shikra, which can handle spatial coordinate inputs and outputs in natural language. Its architecture consists of a vision encoder, an alignment layer, and a LLM. It is designed to be straightforward and simple, without the need for extra vocabularies, position encoder, pre-/post-detection modules, or external plug-in models. All inputs and outputs are in natural language form. Referential dialogue is a superset of various vision-language (VL) tasks. Shikra can naturally handle location-related tasks like REC and PointQA, as well as conventional VL tasks such as Image Captioning and VQA. Experimental results showcase Shikra's promising performance. Furthermore, it enables numerous exciting applications, like providing mentioned objects' coordinates in chains of thoughts and comparing user-pointed regions similarities. Our code and model are accessed at https://github.com/shikras/shikra. | 翻訳日:2023-06-28 14:38:35 公開日:2023-06-27 |
# マインドディアル:神経対話生成のための理論オブマインドモデリングによる信念のダイナミクス追跡 MindDial: Belief Dynamics Tracking with Theory-of-Mind Modeling for Situated Neural Dialogue Generation ( http://arxiv.org/abs/2306.15253v1 ) ライセンス: Link先を確認 | Shuwen Qiu, Song-Chun Zhu, Zilong Zheng | (参考訳) 人間は表現された意味や共通点を交渉しながら自由に話す。
大きな生成言語モデルの印象的な会話能力にもかかわらず、共有場所における文脈理解の個人差は考慮されていない。
本研究はMindDialを提案する。MindDialは、位置自由な応答を生成できる新しい対話型フレームワークで、共通基盤の交渉を行う。
我々は,3段階の信念を追跡可能な明示的なマインドモジュールを設計する。話者の信念,話者の聴取者の信念の予測,および最初の2つの間隙に基づく共通信念である。
そして、話す行為分類ヘッドは、話を続けるか、このターンを終了するか、タスク関連のアクションを取ることに決めます。
2つのエージェント間の無料チャットに基づいて,1つの相互友人を見つけることを目標とする,信念ダイナミクスアノテーションを用いた共通基底アライメントデータセットの相互フレンドを補強する。
実験により, 人間の自然な会話の流れを再現する上で, 心的状態モデリングを用いたモデルが人間の反応に類似することが確認された。
さらに、アブレーション研究により、第3レベルの共通信念は、第1および第2の信念の情報を集約し、共通基盤をより効率的に調整することができる。 Humans talk in free-form while negotiating the expressed meanings or common ground. Despite the impressive conversational abilities of the large generative language models, they do not consider the individual differences in contextual understanding in a shared situated environment. In this work, we propose MindDial, a novel conversational framework that can generate situated free-form responses to negotiate common ground. We design an explicit mind module that can track three-level beliefs -- the speaker's belief, the speaker's prediction of the listener's belief, and the common belief based on the gap between the first two. Then the speaking act classification head will decide to continue to talk, end this turn, or take task-related action. We augment a common ground alignment dataset MutualFriend with belief dynamics annotation, of which the goal is to find a single mutual friend based on the free chat between two agents. Experiments show that our model with mental state modeling can resemble human responses when aligning common ground meanwhile mimic the natural human conversation flow. The ablation study further validates the third-level common belief can aggregate information of the first and second-order beliefs and align common ground more efficiently. | 翻訳日:2023-06-28 14:32:21 公開日:2023-06-27 |
# C-PMI: ターンレベル対話評価のための条件点相互情報 C-PMI: Conditional Pointwise Mutual Information for Turn-level Dialogue Evaluation ( http://arxiv.org/abs/2306.15245v1 ) ライセンス: Link先を確認 | Liliang Ren, Mankeerat Sidhu, Qi Zeng, Revanth Gangi Reddy, Heng Ji, ChengXiang Zhai | (参考訳) 既存のチャットボットの参照フリーターンレベル評価メトリクスは、ユーザとシステム間のインタラクションを不十分に捉えている。
そのため、人間の評価と相関が低いことが多い。
本稿では,条件付きポイントワイズ相互情報(c-pmi)を利用して,与えられた評価次元に基づいて,システムとユーザとのターンレベル相互作用を測定する新しいモデル非依存手法を提案する。
広範に用いられているFED対話評価データセットの実験結果から,既存の評価システムと比較して,人間の判断との相関性を大幅に向上することが示された。
提案したC-PMIスコアラに負のログライクリフベースのスコアラを置き換えることで、FED評価基準の平均でスピアマン相関が60.5%高い値を得る。
私たちのコードはhttps://github.com/renll/C-PMIで公開されています。 Existing reference-free turn-level evaluation metrics for chatbots inadequately capture the interaction between the user and the system. Consequently, they often correlate poorly with human evaluations. To address this issue, we propose a novel model-agnostic approach that leverages Conditional Pointwise Mutual Information (C-PMI) to measure the turn-level interaction between the system and the user based on a given evaluation dimension. Experimental results on the widely used FED dialogue evaluation dataset demonstrate that our approach significantly improves the correlation with human judgment compared with existing evaluation systems. By replacing the negative log-likelihood-based scorer with our proposed C-PMI scorer, we achieve a relative 60.5% higher Spearman correlation on average for the FED evaluation metric. Our code is publicly available at https://github.com/renll/C-PMI. | 翻訳日:2023-06-28 14:31:39 公開日:2023-06-27 |
# 超解像深度マップのための切削エッジ技術 Cutting-Edge Techniques for Depth Map Super-Resolution ( http://arxiv.org/abs/2306.15244v1 ) ライセンス: Link先を確認 | Ryan Peterson, Josiah Smith | (参考訳) 低解像度の深度マップをもたらす市販の深度センサのハードウェア制限を克服するために、深度マップ超解像(DMSR)は実用的で価値のあるコンピュータビジョンタスクである。
DMSRは低分解能(LR)深度マップを高分解能(HR)空間にアップスケールする必要がある。
dmsrのジョイントイメージフィルタリングは、cnn(spatially invariant and spatiallyvariant convolutional neural network)アプローチを用いて適用されている。
本稿では,Swin変換器アーキテクチャを用いた新しい共同画像フィルタリングDMSRアルゴリズムを提案する。
さらに,最先端画像復元に使用される従来のCNNモデルに基づく非線形アクティブフリー(NAF)ネットワークを導入し,その性能を比較した。
提案手法を数値研究と実例を用いて検証し,ノイズ深層マップの超解像に対する競合計算時間を維持しつつ,最先端性能の改善を示す。 To overcome hardware limitations in commercially available depth sensors which result in low-resolution depth maps, depth map super-resolution (DMSR) is a practical and valuable computer vision task. DMSR requires upscaling a low-resolution (LR) depth map into a high-resolution (HR) space. Joint image filtering for DMSR has been applied using spatially-invariant and spatially-variant convolutional neural network (CNN) approaches. In this project, we propose a novel joint image filtering DMSR algorithm using a Swin transformer architecture. Furthermore, we introduce a Nonlinear Activation Free (NAF) network based on a conventional CNN model used in cutting-edge image restoration applications and compare the performance of the techniques. The proposed algorithms are validated through numerical studies and visual examples demonstrating improvements to state-of-the-art performance while maintaining competitive computation time for noisy depth map super-resolution. | 翻訳日:2023-06-28 14:30:59 公開日:2023-06-27 |
# SPDER:半周期ダンピング可能なオブジェクト表現 SPDER: Semiperiodic Damping-Enabled Object Representation ( http://arxiv.org/abs/2306.15242v1 ) ライセンス: Link先を確認 | Kathan Shah, Chawin Sitawarin | (参考訳) 本稿では,従来の暗黙的ニューラルネットワークが直面する低周波に対して,位置埋め込みを自然に学習し,スペクトルバイアスを克服するように設計されたニューラルネットワークアーキテクチャを提案する。
提案するアーキテクチャであるSPDERは, 減衰関数と呼ばれる正弦波を線形関数で乗算した活性化関数を用いた単純なMLPである。
正弦波は、入力座標の位置埋め込みをネットワークが自動的に学習し、減衰が実際の座標値に渡され、それが有限範囲の値に投影されることを防止できる。
以上の結果から,SPDERはトレーニングを10倍に高速化し,画像表現の最先端よりも1500~50,000倍の損失に収束することが示唆された。
SPDERはオーディオ表現の最先端でもある。
優れた表現能力により、SPDERは画像の超解像やビデオフレームの補間といった下流タスクにも優れる。
ハイパーパラメータチューニングやプリプロセッシングを必要とせず,他のinr法に比べてspderの適合性が著しく向上する理由を直観的に示す。 We present a neural network architecture designed to naturally learn a positional embedding and overcome the spectral bias towards lower frequencies faced by conventional implicit neural representation networks. Our proposed architecture, SPDER, is a simple MLP that uses an activation function composed of a sinusoidal multiplied by a sublinear function, called the damping function. The sinusoidal enables the network to automatically learn the positional embedding of an input coordinate while the damping passes on the actual coordinate value by preventing it from being projected down to within a finite range of values. Our results indicate that SPDERs speed up training by 10x and converge to losses 1,500-50,000x lower than that of the state-of-the-art for image representation. SPDER is also state-of-the-art in audio representation. The superior representation capability allows SPDER to also excel on multiple downstream tasks such as image super-resolution and video frame interpolation. We provide intuition as to why SPDER significantly improves fitting compared to that of other INR methods while requiring no hyperparameter tuning or preprocessing. | 翻訳日:2023-06-28 14:30:26 公開日:2023-06-27 |
# 量子コヒーレンス保存のためのスピンクラスターの幾何学的最適化 Geometrical optimization of spin clusters for the preservation of quantum coherence ( http://arxiv.org/abs/2306.15232v1 ) ライセンス: Link先を確認 | Lea Gassab, Onur Pusuluk and \"Ozg\"ur E. M\"ustecapl{\i}o\u{g}lu | (参考訳) 熱環境下におけるスピンクラスターの量子コヒーレンス保存に及ぼす幾何学の影響について検討した。
スピン間結合が弱いと仮定すると、平面に埋め込まれる様々なバッファネットワーク構成を探索する。
その結果,バッファネットワークの接続性は,個々の中心スピンにおける量子コヒーレンス保存期間を決定する上で重要であることがわかった。
具体的には、極大平面グラフが与えられたバッファスピンの保存時間を最長にすることを観測する。
興味深いことに,バッファスピンの増加に伴い保存時間が一定に増加しないことを示す。
さらに,シミュレーションに量子マスター方程式を適用し,四スピンバッファネットワークからなる四面体形状が環境効果に対する最適保護を提供することを示した。 We investigate the influence of geometry on the preservation of quantum coherence in spin clusters subjected to a thermal environment. Assuming weak inter-spin coupling, we explore the various buffer network configurations that can be embedded in a plane. Our findings reveal that the connectivity of the buffer network is crucial in determining the preservation duration of quantum coherence in an individual central spin. Specifically, we observe that the maximal planar graph yields the longest preservation time for a given number of buffer spins. Interestingly, our results demonstrate that the preservation time does not consistently increase with an increasing number of buffer spins. Employing a quantum master equation in our simulations, we further demonstrate that a tetrahedral geometry comprising a four-spin buffer network provides optimal protection against environmental effects. | 翻訳日:2023-06-28 14:30:08 公開日:2023-06-27 |
# 偽ニュース検出のための読者行動のエミュレート Emulating Reader Behaviors for Fake News Detection ( http://arxiv.org/abs/2306.15231v1 ) ライセンス: Link先を確認 | Junwei Yin, Min Gao, Kai Shu, Zehua Zhao, Yinqiu Huang, Jia Wang | (参考訳) フェイクニュースの普及は、多くの面で私たちの生活に影響を与え、フェイクニュースの検出が重要になり、注目を集めています。
既存のアプローチでは、単一モーダルあるいはマルチモーダルの観点からニュースをモデル化することでこの分野に多大な貢献をしている。
しかし、これらのモーダルベースの手法は、ニュース消費における読者の行動を無視し、正当性検証を行うため、準最適結果をもたらす可能性がある。
例えば、記事の見出し、画像、コメント、体に至るまで、コンポーネントごとの読み込みプロセスは考慮していません。
そこで本研究では,ソーシャルメディア上での偽ニュース検出に対する読者の行動(ember)を模倣する手法を提案する。
具体的には、まずコンポーネント内特徴抽出器を構築し、各コンポーネントのセマンティック分析の振る舞いをエミュレートする。
そこで我々は,コンポーネント間特徴抽出器とシーケンスベースアグリゲータを組み合わせたモジュールを設計する。
このモジュールは、コンポーネントと全体の読み取りと検証シーケンスの相関を検証するプロセスを模倣する。
従って、Emberは対応するシーケンスをエミュレートすることで、様々なコンポーネントでニュースを処理できる。
実世界の9つのデータセットについて広範な実験を行い、その結果がEmberの優位性を示している。 The wide dissemination of fake news has affected our lives in many aspects, making fake news detection important and attracting increasing attention. Existing approaches make substantial contributions in this field by modeling news from a single-modal or multi-modal perspective. However, these modal-based methods can result in sub-optimal outcomes as they ignore reader behaviors in news consumption and authenticity verification. For instance, they haven't taken into consideration the component-by-component reading process: from the headline, images, comments, to the body, which is essential for modeling news with more granularity. To this end, we propose an approach of Emulating the behaviors of readers (Ember) for fake news detection on social media, incorporating readers' reading and verificating process to model news from the component perspective thoroughly. Specifically, we first construct intra-component feature extractors to emulate the behaviors of semantic analyzing on each component. Then, we design a module that comprises inter-component feature extractors and a sequence-based aggregator. This module mimics the process of verifying the correlation between components and the overall reading and verification sequence. Thus, Ember can handle the news with various components by emulating corresponding sequences. We conduct extensive experiments on nine real-world datasets, and the results demonstrate the superiority of Ember. | 翻訳日:2023-06-28 14:29:56 公開日:2023-06-27 |
# IIFL:不均質なヒューマンスーパーバイザによる対話型フリートラーニング IIFL: Implicit Interactive Fleet Learning from Heterogeneous Human Supervisors ( http://arxiv.org/abs/2306.15228v1 ) ライセンス: Link先を確認 | Gaurav Datta, Ryan Hoque, Anrui Gu, Eugen Solowjow, Ken Goldberg | (参考訳) 模倣学習は様々なロボット作業に適用されてきたが,(1)訓練データ(分配シフト)に表現されないエッジケースにロボットが遭遇した場合や,(2)人間のデモが異質である場合,例えば障害物周辺の異なる経路(マルチモダリティ)で苦労することがある。
インタラクティブフリート学習(ifl)は、タスク実行中にロボットが遠隔操作者にアクセスし、時間とともにそれらから学習できるようにすることで、分散シフトを緩和するが、マルチモーダリティを処理できない。
最近の研究は、エネルギーベースモデル(EBM)を用いてマルチモーダルなデモンストレーションを表現できるIBC(Implicit Behavior Cloning)を提案する。
本研究では、対話型模倣学習(シングルロボット、シングルヒューマン設定を含む)への暗黙的ポリシーの最初の拡張であるImplicit Interactive Fleet Learning (IIFL)を用いて、マルチモーダルと分散シフトの両立を提案する。
IIFLは、ジェフリーズ分岐のESMへの新しい応用を用いて不確実性を定量化する。
IIFLは、明示的な手法よりも計算コストが高いが、シミュレーション実験において、IIFLは、人間の作業に対して4.5倍高いリターンを達成し、(明示的な)IFL、IBCや他のベースラインに対する物理ブロックプッシュタスクにおいて、80%高い成功率を達成することが示唆されている。 Imitation learning has been applied to a range of robotic tasks, but can struggle when (1) robots encounter edge cases that are not represented in the training data (distribution shift) or (2) the human demonstrations are heterogeneous: taking different paths around an obstacle, for instance (multimodality). Interactive fleet learning (IFL) mitigates distribution shift by allowing robots to access remote human teleoperators during task execution and learn from them over time, but is not equipped to handle multimodality. Recent work proposes Implicit Behavior Cloning (IBC), which is able to represent multimodal demonstrations using energy-based models (EBMs). In this work, we propose addressing both multimodality and distribution shift with Implicit Interactive Fleet Learning (IIFL), the first extension of implicit policies to interactive imitation learning (including the single-robot, single-human setting). IIFL quantifies uncertainty using a novel application of Jeffreys divergence to EBMs. While IIFL is more computationally expensive than explicit methods, results suggest that IIFL achieves 4.5x higher return on human effort in simulation experiments and an 80% higher success rate in a physical block pushing task over (Explicit) IFL, IBC, and other baselines when human supervision is heterogeneous. | 翻訳日:2023-06-28 14:29:35 公開日:2023-06-27 |
# 動的量子相転移における量子スピン揺らぎ Quantum spin fluctuations in dynamical quantum phase transitions ( http://arxiv.org/abs/2306.15227v1 ) ライセンス: Link先を確認 | Cheuk Yiu Wong, Hadi Cheraghi, Wing Chi Yu | (参考訳) 量子相転移は、量子揺らぎとの関係で長い間研究されてきた。
これらのゆらぎは、スピン模型におけるスピンのスクイージングの度合いとして定量化することができ、2つの非可換可観測性のうちの1つは、その不確かさを最小化することによって測定の標準量子限界を破る。
しかし、動的量子相転移(dqpts)におけるそれらの役割の理解はまだ不完全である。
本研究では,dqptsを検出するロスシュミット振幅と,スピンスクイージングの定量化であるスピンスケージングパラメータ(ssp)を組み合わせることで,dqpt周辺における緩衝相互作用スピンモデルにおけるスピンダイナミクスの研究を行った。
sspの極値、ほとんど極値がdqpts付近で発生し、異なる相間でシステムがクエンチされる。
これらの現象は、DQPT中のスピン相関をさらに明らかにし、最も高い寄与は、後加熱相におけるスピン相互作用の好ましい方向と一致する。
また,様々なクエンチシナリオにおいて,SSPの時間進化が異なることを示す。
これらの知見は、DQPT周辺の量子ゆらぎの力学と平衡相図との関係に関する物理的な洞察を与える。 Quantum phase transitions have long been studied in their relation to quantum fluctuations. These fluctuations can be quantified as the degree of spin squeezing in spin models, where one of the two non-commutative observables breaks the standard quantum limit of measurement by minimizing its uncertainty. However, the understanding of their role in dynamical quantum phase transitions (DQPTs) is still incomplete. In this work, we combine the Loschmidt amplitude, which detects DQPTs, and the spin-squeezing parameter (SSP), the quantification of spin squeezing, to study the spin dynamics in a quenched interacting spin model around DQPT. We show that the extremal, mostly maximal, of SSP occurs near DQPTs when the system is quenched between different phases. These phenomena further unveil the spin correlations during DQPTs, for which the highest contribution aligns with the preferred direction of spin interactions in the post-quenched phase. We also demonstrate the time evolution of SSP differs for various quench scenarios. These findings provide us with physical insights into the dynamics of quantum fluctuations around DQPTs and their relation to the equilibrium phase diagrams. | 翻訳日:2023-06-28 14:29:10 公開日:2023-06-27 |
# 空間における量子ガス混合と双種原子干渉法 Quantum Gas Mixtures and Dual-Species Atom Interferometry in Space ( http://arxiv.org/abs/2306.15223v1 ) ライセンス: Link先を確認 | Ethan R. Elliott, David C. Aveline, Nicholas P. Bigelow, Patrick Boegel, Sofia Botsi, Eric Charron, Jos\'e P. D'Incao, Peter Engels, Timoth\'e Estrampes, Naceur Gaaloul, James R. Kellogg, James M. Kohel, Norman E. Lay, Nathan Lundblad, Matthias Meister, Maren E. Mossman, Gabriel M\"uller, Holger M\"uller, Kamal Oudrhiri, Leah E. Phillips, Annie Pichery, Ernst M. Rasel, Charles A. Sackett, Matteo Sbroscia, Wolfgang P. Schleich, Robert J. Thompson, and Jason R. Williams | (参考訳) コンパクト機器で超低温の原子温度に達する能力は、最近宇宙に拡張された。
超低温は量子効果を増幅するが、自由落下は重力とのさらなる冷却と長い相互作用を可能にする。
地球上では、これらの装置はボース=アインシュタイン凝縮(BEC)、超流動性、強い相互作用を持つ量子気体のようなマクロ的な量子現象を生み出している。
2つの超低温原子同位体の重ね合わせを媒介する量子センサーは、アインシュタインの古典重力理論の核であるフリーフォール(uff)の普遍性を10^{-12}$レベルでテストした。
宇宙では、強い相互作用のリッチな物理学を探索し、UFFの量子テストに必要な複数の種を準備するために必要な要素を冷却することは、まだ解明されていない。
ここでは、国際宇宙ステーション(ISS)内のマルチユーザーコールド原子研究所(CAL)機器の高機能化を活用し、宇宙でのボース=アインシュタイン凝縮体($^{87}$Rbおよび$^{41}$K)の同時生産、種間相互作用の観察、および$^{39}$K超低温ガスの生成について報告する。
我々はさらに、2つの原子種("^{87}$rb"と"$^{41}$k")と同時原子干渉法の最初の宇宙観測を行った。
これらの結果は、宇宙におけるUFFの量子テストに向けた重要なステップであり、科学者は重力の摂動非対称性を伴わずに、新しい状態における少数体物理学、量子化学、基礎物理学の側面を研究できる。 The capability to reach ultracold atomic temperatures in compact instruments has recently been extended into space. Ultracold temperatures amplify quantum effects, while free-fall allows further cooling and longer interactions time with gravity - the final force without a quantum description. On Earth, these devices have produced macroscopic quantum phenomena such as Bose-Einstein condensation (BECs), superfluidity, and strongly interacting quantum gases. Quantum sensors interfering the superposition of two ultracold atomic isotopes have tested the Universality of Free Fall (UFF), a core tenet of Einstein's classical gravitational theory, at the $10^{-12}$ level. In space, cooling the elements needed to explore the rich physics of strong interactions and preparing the multiple species required for quantum tests of the UFF has remained elusive. Here, utilizing upgraded capabilities of the multi-user Cold Atom Lab (CAL) instrument within the International Space Station (ISS), we report the first simultaneous production of a dual species Bose-Einstein condensate in space (formed from $^{87}$Rb and $^{41}$K), observation of interspecies interactions, as well as the production of $^{39}$K ultracold gases. We have further achieved the first space-borne demonstration of simultaneous atom interferometry with two atomic species ($^{87}$Rb and $^{41}$K). These results are an important step towards quantum tests of UFF in space, and will allow scientists to investigate aspects of few-body physics, quantum chemistry, and fundamental physics in novel regimes without the perturbing asymmetry of gravity. | 翻訳日:2023-06-28 14:28:48 公開日:2023-06-27 |
# 生成検索におけるランクの学習 Learning to Rank in Generative Retrieval ( http://arxiv.org/abs/2306.15222v1 ) ライセンス: Link先を確認 | Yongqi Li, Nan Yang, Liang Wang, Furu Wei, Wenjie Li | (参考訳) 生成的検索はテキスト検索において有望な新しいパラダイムであり、関連する通路の識別子文字列を検索対象として生成する。
このパラダイムは強力な生成モデルを活用し、従来の学習からランクへの方法とは異なる新しいパラダイムを表現する。
しかし、その急速な発展にもかかわらず、現在の生成的検索方法はまだ限られている。
それらは通常、予測された識別子をパスランクリストに変換するヒューリスティック関数に依存しており、これは生成的検索の学習目標と望ましいパスランクの目標の間のギャップを生じさせる。
また,テキスト生成の固有露出バイアス問題は生成的検索においても継続される。
これらの問題に対処するため,我々は,生成的検索と古典的学習からランクへのパラダイムを組み合わせた新しい枠組み ltrgr を提案する。
提案手法では,自動回帰モデルを最適通過ランキングに向けて直接最適化する,通過ランク損失を用いた自己回帰モデルを訓練する。
このフレームワークは、現在の生成的検索システムを強化するための追加のトレーニングステップしか必要とせず、推論段階に負担を加えない。
我々は,3つの公開データセットについて実験を行い,LTRGRが生成検索手法の最先端性能を実現し,その有効性とロバスト性を示した。 Generative retrieval is a promising new paradigm in text retrieval that generates identifier strings of relevant passages as the retrieval target. This paradigm leverages powerful generation models and represents a new paradigm distinct from traditional learning-to-rank methods. However, despite its rapid development, current generative retrieval methods are still limited. They typically rely on a heuristic function to transform predicted identifiers into a passage rank list, which creates a gap between the learning objective of generative retrieval and the desired passage ranking target. Moreover, the inherent exposure bias problem of text generation also persists in generative retrieval. To address these issues, we propose a novel framework, called LTRGR, that combines generative retrieval with the classical learning-to-rank paradigm. Our approach involves training an autoregressive model using a passage rank loss, which directly optimizes the autoregressive model toward the optimal passage ranking. This framework only requires an additional training step to enhance current generative retrieval systems and does not add any burden to the inference stage. We conducted experiments on three public datasets, and our results demonstrate that LTRGR achieves state-of-the-art performance among generative retrieval methods, indicating its effectiveness and robustness. | 翻訳日:2023-06-28 14:28:18 公開日:2023-06-27 |
# IDOL: 論理推論のための指標指向論理事前学習 IDOL: Indicator-oriented Logic Pre-training for Logical Reasoning ( http://arxiv.org/abs/2306.15273v1 ) ライセンス: Link先を確認 | Zihang Xu, Ziqing Yang, Yiming Cui, Shijin Wang | (参考訳) 機械読み取り理解(MRC)の分野では、既存のシステムはSQuADのような多くのタスクにおいて人間の平均性能を上回っている。
しかし、論理的推論に関しては、まだ長い道のりがあります。
いくつかの方法が提案されているが、非常に複雑な方法で設計されているか、外部構造に依存しすぎている。
本稿では,6種類の論理指標と論理的にリッチなデータセットLGP(LoGic Pre-training)の助けを借りて,事前学習モデルの論理的強化を図った,分かりやすいが効果的な事前学習タスクであるIDOL(InDicator-Oriented Logic Pre-training)を提案する。
IDOLは、論理的推論における最も代表的な2つのベンチマークであるReClorとLogiQAの最先端性能を実現し、GLUEのタスクのテストを通じて、競争力のある汎用言語理解能力を保ちながら、様々な事前訓練されたモデルやRSEやSQuAD 2.0のような他の種類のMRCベンチマークに一般化できることが証明されている。
さらに、大規模な言語モデルの初期においては、ChatGPTのようないくつかのモデルを比較して、IDOLが依然としてその優位性を示していることに気付きました。 In the field of machine reading comprehension (MRC), existing systems have surpassed the average performance of human beings in many tasks like SQuAD. However, there is still a long way to go when it comes to logical reasoning. Although some methods for it have been put forward, they either are designed in a quite complicated way or rely too much on external structures. In this paper, we proposed IDOL (InDicator-Oriented Logic Pre-training), an easy-to-understand but highly effective further pre-training task which logically strengthens the pre-trained models with the help of 6 types of logical indicators and a logically rich dataset LGP (LoGic Pre-training). IDOL achieves state-of-the-art performance on ReClor and LogiQA, the two most representative benchmarks in logical reasoning MRC, and is proven to be capable of generalizing to different pre-trained models and other types of MRC benchmarks like RACE and SQuAD 2.0 while keeping competitive general language understanding ability through testing on tasks in GLUE. Besides, at the beginning of the era of large language models, we take several of them like ChatGPT into comparison and find that IDOL still shows its advantage. | 翻訳日:2023-06-28 14:21:50 公開日:2023-06-27 |
# 膨らんだ説明を提供する Delivering Inflated Explanations ( http://arxiv.org/abs/2306.15272v1 ) ライセンス: Link先を確認 | Yacine Izza, Alexey Ignatiev, Peter Stuckey, Joao Marques-Silva | (参考訳) xai(the quest for explainable artificial intelligence)では、aiシステムによって下された決定が頻繁に発生する質問のひとつに、説明可能性に関する公式なアプローチが、aiシステムの形式モデルを構築し、それを使ってシステムの特性を判断する、というものがある。
説明すべきインスタンスの一連の機能値と結果の決定が与えられると、公式なアブダプティブな説明は、与えられた値が与えられた場合、常に同じ決定につながるような機能の集合である。
この説明は有用であり、最終決定に使われたのはいくつかの機能のみであることを示している。
しかし、狭く、選択された特徴が与えられた値を取ると、決定は変わらないことを示している。
いくつかの機能が値を変更し、同じ決定を下す可能性がある。
本稿では,特徴の集合である膨らませた説明を形式的に定義し,各特徴量の値集合(説明対象のインスタンスの値を含む)について,決定が不変となるように定義する。
膨らませられた説明は誘惑的な説明よりも情報的であり、例えば、ある特徴の正確な値が重要であるか、あるいはそれに近い値であるかどうかを確認することができる。
全体として、決定における各機能の役割をよりよく理解することができます。
我々は, 膨らませた説明を誘引的説明よりもそれほどコストがかからず, 膨らませた説明に対して, 双対性を拡張できることを示した。 In the quest for Explainable Artificial Intelligence (XAI) one of the questions that frequently arises given a decision made by an AI system is, ``why was the decision made in this way?'' Formal approaches to explainability build a formal model of the AI system and use this to reason about the properties of the system. Given a set of feature values for an instance to be explained, and a resulting decision, a formal abductive explanation is a set of features, such that if they take the given value will always lead to the same decision. This explanation is useful, it shows that only some features were used in making the final decision. But it is narrow, it only shows that if the selected features take their given values the decision is unchanged. It's possible that some features may change values and still lead to the same decision. In this paper we formally define inflated explanations which is a set of features, and for each feature of set of values (always including the value of the instance being explained), such that the decision will remain unchanged. Inflated explanations are more informative than abductive explanations since e.g they allow us to see if the exact value of a feature is important, or it could be any nearby value. Overall they allow us to better understand the role of each feature in the decision. We show that we can compute inflated explanations for not that much greater cost than abductive explanations, and that we can extend duality results for abductive explanations also to inflated explanations. | 翻訳日:2023-06-28 14:21:28 公開日:2023-06-27 |
# 事前学習された言語モデルは、ノイズ下の腐敗したサブワードから正しい意味を導き出せるか? Can Pretrained Language Models Derive Correct Semantics from Corrupt Subwords under Noise? ( http://arxiv.org/abs/2306.15268v1 ) ライセンス: Link先を確認 | Xinzhe Li, Ming Liu, Shang Gao | (参考訳) 事前学習された言語モデル(plm)では、ノイズに対する感受性は、最近サブワードセグメンテーションと関連づけられている。
しかし, セグメンテーションのどの側面が理解に影響を及ぼすかは不明である。
本研究では,騒音による各種破壊セグメントに対するplmのロバスト性を評価する。
Contrastive Lexical Semantic (CoLeS) probe と呼ばれるサブワードセグメンテーションの評価フレームワークを提案する。
ノイズや評価プロトコルの下でのセグメンテーション破壊の体系的な分類を提供し、標準語対のコントラストデータセットを生成する。
実験の結果,音が全く異なるサブワード,小さなサブワードフラグメント,あるいは多数のサブワード,特に他のサブワードに挿入された場合,PLMは単語の意味を正確に計算できないことがわかった。 For Pretrained Language Models (PLMs), their susceptibility to noise has recently been linked to subword segmentation. However, it is unclear which aspects of segmentation affect their understanding. This study assesses the robustness of PLMs against various disrupted segmentation caused by noise. An evaluation framework for subword segmentation, named Contrastive Lexical Semantic (CoLeS) probe, is proposed. It provides a systematic categorization of segmentation corruption under noise and evaluation protocols by generating contrastive datasets with canonical-noisy word pairs. Experimental results indicate that PLMs are unable to accurately compute word meanings if the noise introduces completely different subwords, small subword fragments, or a large number of additional subwords, particularly when they are inserted within other subwords. | 翻訳日:2023-06-28 14:21:03 公開日:2023-06-27 |
# 一般分布異常診断(goofd)フレームワークのための内部コントラスト学習 Internal Contrastive Learning for Generalized Out-of-distribution Fault Diagnosis (GOOFD) Framework ( http://arxiv.org/abs/2306.15266v1 ) ライセンス: Link先を確認 | Xingyue Wang, Hanrong Zhang, Ke Ma, Shuting Tao, Peng Peng, Hongwei Wang | (参考訳) 故障診断は重要な機械の状態をモニタリングする産業プロセスにおいて不可欠である。
生産・運用中の作業条件の複雑化と安全性の要求により、異なる診断方法が必要となり、さらに重要なことに、複数のタスクに対処可能な統合障害診断システムが望まれている。
しかし、診断サブタスクはしばしば別々に研究され、現在利用可能な方法はそのような一般化されたシステムの改善が必要である。
そこで本研究では,障害検出,故障分類,新しい故障診断などの診断サブタスクを統合するため,GOOFD(Generalized Out-of-distriion Fault Diagnosis)フレームワークを提案する。
さらに,内部コントラスト学習に基づく統合的故障診断手法が提案された一般化フレームワークの基盤となる。
本手法は,内部コントラスト学習手法を用いて特徴を抽出し,マハラノビス距離に基づいて外れ値を認識する。
提案フレームワークを評価するために,シミュレーションベンチマークデータセットと2つの実用的なプロセスデータセットを用いて実験を行った。
実験で示されたように,提案手法は既存手法と比較して性能が向上し,提案手法の有効性が検証される。 Fault diagnosis is essential in industrial processes for monitoring the conditions of important machines. With the ever-increasing complexity of working conditions and demand for safety during production and operation, different diagnosis methods are required, and more importantly, an integrated fault diagnosis system that can cope with multiple tasks is highly desired. However, the diagnosis subtasks are often studied separately, and the currently available methods still need improvement for such a generalized system. To address this issue, we propose the Generalized Out-of-distribution Fault Diagnosis (GOOFD) framework to integrate diagnosis subtasks, such as fault detection, fault classification, and novel fault diagnosis. Additionally, a unified fault diagnosis method based on internal contrastive learning is put forward to underpin the proposed generalized framework. The method extracts features utilizing the internal contrastive learning technique and then recognizes the outliers based on the Mahalanobis distance. Experiments are conducted on a simulated benchmark dataset as well as two practical process datasets to evaluate the proposed framework. As demonstrated in the experiments, the proposed method achieves better performance compared with several existing techniques and thus verifies the effectiveness of the proposed framework. | 翻訳日:2023-06-28 14:20:50 公開日:2023-06-27 |
# 高齢者・変形性音声認識のためのコンバータASRシステムのハイパーパラメータ適応 Hyper-parameter Adaptation of Conformer ASR Systems for Elderly and Dysarthric Speech Recognition ( http://arxiv.org/abs/2306.15265v1 ) ライセンス: Link先を確認 | Tianzi Wang, Shoukang Hu, Jiajun Deng, Zengrui Jin, Mengzhe Geng, Yi Wang, Helen Meng, Xunying Liu | (参考訳) 不規則・高齢の音声の自動認識は、データ不足のため、これまで非常に困難だった課題である。
パラメータの微調整は、多くの非高齢および健全な音声事前訓練モデルを利用するためにしばしば用いられるが、ニューラルアーキテクチャのハイパーパラメータは専門家の知識を用いて設定され、変化しない。
本稿では,認知症バンク高齢者およびuaspeech dysarthric speech datasetに適応する前,librispeechコーパスで事前学習された適合型asrシステムのハイパーパラメータ適応について検討する。
実験結果から, DBankおよびUASpeechタスクにおけるパラメータのみの微調整よりも, ワードエラー率(WER)が0.45%, 0.67%低下することが示唆された。
ハイパーパラメータ領域適応による性能改善と、ソースとターゲット領域データ間の相対発話長比との間には、直感的な相関関係がある。 Automatic recognition of disordered and elderly speech remains highly challenging tasks to date due to data scarcity. Parameter fine-tuning is often used to exploit the large quantities of non-aged and healthy speech pre-trained models, while neural architecture hyper-parameters are set using expert knowledge and remain unchanged. This paper investigates hyper-parameter adaptation for Conformer ASR systems that are pre-trained on the Librispeech corpus before being domain adapted to the DementiaBank elderly and UASpeech dysarthric speech datasets. Experimental results suggest that hyper-parameter adaptation produced word error rate (WER) reductions of 0.45% and 0.67% over parameter-only fine-tuning on DBank and UASpeech tasks respectively. An intuitive correlation is found between the performance improvements by hyper-parameter domain adaptation and the relative utterance length ratio between the source and target domain data. | 翻訳日:2023-06-28 14:20:34 公開日:2023-06-27 |
# スペクトル拡散型量子2レベルシステムによる量子デファスティング Qubit dephasing by spectrally diffusing quantum two-level systems ( http://arxiv.org/abs/2306.15264v1 ) ライセンス: Link先を確認 | Shlomi Matityahu, Alexander Shnirman, Moshe Schechter | (参考訳) 量子ビットとの共鳴に近い2レベル系のスペクトル拡散によるジョセフソン量子ビットの純粋な強調について検討する。
そこで, この純粋なデファスレートがエネルギー緩和率の次数となるパラメータレジームを同定し, 量子ビットに対して$t_2 = 2t_1$の関係を破る。
このレジームは、スペクトル拡散に関与する熱tlsのダイナミクスがキュービットのエネルギー緩和よりも十分に遅い場合に到達する。 We investigate the pure dephasing of a Josephson qubit due to the spectral diffusion of two-level systems that are close to resonance with the qubit. We identify the parameter regime in which this pure dephasing rate can be of the order of the energy relaxation rate and, thus, the relation $T_2 = 2T_1$ is violated for the qubit. This regime is reached if the dynamics of the thermal TLSs responsible for the spectral diffusion is sufficiently slower than the energy relaxation of the qubit. | 翻訳日:2023-06-28 14:20:16 公開日:2023-06-27 |
# 神経nlpモデルのアウトオブディストリビューション評価に関する調査 A Survey on Out-of-Distribution Evaluation of Neural NLP Models ( http://arxiv.org/abs/2306.15261v1 ) ライセンス: Link先を確認 | Xinzhe Li, Ming Liu, Shang Gao and Wray Buntine | (参考訳) 敵対的ロバスト性、ドメインの一般化、データセットバイアスは、ニューラルNLPモデルにおけるアウト・オブ・ディストリビューション(OOD)評価に寄与する3つの研究の活発なラインである。
しかし、3つの研究ラインの総合的な総合的な議論は、まだ文献に欠けている。
この調査では、
1) 統一的定義に基づく研究の3つの行を比較する。
2) 研究の各行について,データ生成プロセス及び評価プロトコルを要約する。
3) 今後の仕事の課題と機会を強調します。 Adversarial robustness, domain generalization and dataset biases are three active lines of research contributing to out-of-distribution (OOD) evaluation on neural NLP models. However, a comprehensive, integrated discussion of the three research lines is still lacking in the literature. In this survey, we 1) compare the three lines of research under a unifying definition; 2) summarize the data-generating processes and evaluation protocols for each line of research; and 3) emphasize the challenges and opportunities for future work. | 翻訳日:2023-06-28 14:20:08 公開日:2023-06-27 |
# ニオブ緩衝層を有するシリコン基板上のタンタル超伝導共振器のマイクロ波特性 Microwave characterization of tantalum superconducting resonators on silicon substrate with niobium buffer layer ( http://arxiv.org/abs/2306.15258v1 ) ライセンス: Link先を確認 | Yoshiro Urade, Kay Yakushiji, Manabu Tsujimoto, Takahiro Yamada, Kazumasa Makise, Wataru Mizubayashi, and Kunihiro Inomata | (参考訳) 未加熱シリコン基板上にスパッタされたタンタル薄膜は10mK環境下で約10GHzのマイクロ波で特徴付けられる。
タンタル膜に先立ってニオブ緩衝層を堆積することにより,体中心立方体格子(\alpha$-Ta)を用いたタンタルの相を選択的に成長させることができることを示す。
超伝導転移温度や結晶性などの薄膜の物性はバッファ層の追加によって著しく変化する。
複合膜に基づく共平面導波路共振器は、バッファ層のない膜に比べて内部品質係数が著しく向上する。
内部品質係数は、大光子数制限で2ドル10^7$に近づく。
2レベル系(TLS)損失による単光子レベルでの品質係数は低下するが,膜表面の非晶質シリコン層がTLS損失の主な原因であることが明らかとなった。
内部品質因子の温度依存性は200mK以下の顕著な上昇を示し,TLS-TLS相互作用の存在が示唆された。
現在の低損失タンタル膜は基板加熱なしで堆積することができ、超伝導量子エレクトロニクスに様々な応用が期待できる。 Tantalum thin films sputtered on unheated silicon substrates are characterized with microwaves at around 10 GHz in a 10 mK environment. We show that the phase of tantalum with a body-centered cubic lattice ($\alpha$-Ta) can be grown selectively by depositing a niobium buffer layer prior to a tantalum film. The physical properties of the films, such as superconducting transition temperature and crystallinity, change markedly with the addition of the buffer layer. Coplanar waveguide resonators based on the composite film exhibit significantly enhanced internal quality factors compared with a film without the buffer layer. The internal quality factor approaches $2\times 10^7$ at a large-photon-number limit. While the quality factor decreases at the single-photon level owing to two-level system (TLS) loss, we have identified the primary cause of TLS loss to be the amorphous silicon layer at the film-substrate interface, which originates from the substrate cleaning before the film deposition rather than the film itself. The temperature dependence of the internal quality factors shows a marked rise below 200 mK, suggesting the presence of TLS-TLS interactions. The present low-loss tantalum films can be deposited without substrate heating and thus have various potential applications in superconducting quantum electronics. | 翻訳日:2023-06-28 14:19:59 公開日:2023-06-27 |
# 位相共変光チャネルの量子センシング Quantum sensing of phase-covariant optical channels ( http://arxiv.org/abs/2306.15256v1 ) ライセンス: Link先を確認 | Ranjith Nair and Mile Gu | (参考訳) エネルギーおよびモード数制約下で位相共変光チャネルの複数のパラメータのancilla支援量子センシングにおける普遍的(すなわちプローブおよび測定非依存)性能境界を得る。
まず, 任意の制約付き問題に対して, チャネルを探索するモードの縮小状態が光子数ベースで対角となるような, 最適なアンシラエンタングルプローブが常に見つかることを示す。
単一モードガウスチャネルにエンコードされるパラメータに対しては、エネルギーとモードの制約によって果たす役割を記述する量子フィッシャー情報行列の普遍上界を導出する。
そこで本研究では,no-passive-signature と passive-signature の両パラダイム下で熱損失チャネルの透過率を検知し,付加雑音チャネルのノイズ分散を検知する。
いずれの場合においても、2モードスクイーズド真空プローブは低信号輝度、すなわち1モード平均光子数という条件の下でほぼ最適であることを示す。
より一般的に、我々の研究はガウスチャネルを含むあらゆる知覚問題に対する普遍的限界を容易に評価するための統一的な枠組みを定めている。 We obtain universal (i.e., probe and measurement-independent) performance bounds on ancilla-assisted quantum sensing of multiple parameters of phase-covariant optical channels under energy and mode-number constraints. We first show that for any such constrained problem, an optimal ancilla-entangled probe can always be found whose reduced state on the modes probing the channel is diagonal in the photon-number basis. For parameters that are encoded in single-mode Gaussian channels, we derive a universal upper bound on the quantum Fisher information matrix that delineates the roles played by the energy and mode constraints. We illustrate our results for sensing of the transmittance of a thermal loss channel under both the no-passive-signature and passive-signature paradigms, and in the problem of sensing the noise variance of an additive-noise channel. In both cases, we show that two-mode squeezed vacuum probes are near-optimal under the constraints in the regime of low signal brightness, i.e., per-mode average photon number. More generally, our work sets down a uniform framework for readily evaluating universal limits for any sensing problem involving Gaussian channels. | 翻訳日:2023-06-28 14:19:39 公開日:2023-06-27 |
# GroundNLQ @ Ego4D Natural Language Queries Challenge 2023 GroundNLQ @ Ego4D Natural Language Queries Challenge 2023 ( http://arxiv.org/abs/2306.15255v1 ) ライセンス: Link先を確認 | Zhijian Hou, Lei Ji, Difei Gao, Wanjun Zhong, Kun Yan, Chao Li, Wing-Kwong Chan, Chong-Wah Ngo, Nan Duan, Mike Zheng Shou | (参考訳) 本稿では,CVPR 2023におけるEgo4D Natural Language Queries (NLQ) Challengeのチャンピオンソリューションを提案する。
基本的には、ビデオに正確に接地するためには、効果的なエゴセントリック特徴抽出器と強力な接地モデルが必要である。
そこで我々は,2段階の事前学習戦略を利用して,ビデオナレーションにおいて,エゴセントリックな特徴抽出器と接地モデルを訓練し,さらに注釈付きデータに基づいてモデルを微調整する。
また,ビデオとテキストの融合を効果的に行うマルチモーダル・マルチスケール・グラウンドリング・モジュールと,特にロングビデオの時間間隔を考慮した新しいグラウンドディング・モデルであるGundNLQを導入する。
ブラインドテストセットでは、GroundNLQはR1@IoU=0.3とR1@IoU=0.5の25.67と18.18をそれぞれ達成し、他のすべてのチームを上回っている。
私たちのコードは at\url{https://github.com/houzhijian/groundnlq} でリリースされる。 In this report, we present our champion solution for Ego4D Natural Language Queries (NLQ) Challenge in CVPR 2023. Essentially, to accurately ground in a video, an effective egocentric feature extractor and a powerful grounding model are required. Motivated by this, we leverage a two-stage pre-training strategy to train egocentric feature extractors and the grounding model on video narrations, and further fine-tune the model on annotated data. In addition, we introduce a novel grounding model GroundNLQ, which employs a multi-modal multi-scale grounding module for effective video and text fusion and various temporal intervals, especially for long videos. On the blind test set, GroundNLQ achieves 25.67 and 18.18 for R1@IoU=0.3 and R1@IoU=0.5, respectively, and surpasses all other teams by a noticeable margin. Our code will be released at\url{https://github.com/houzhijian/GroundNLQ}. | 翻訳日:2023-06-28 14:19:20 公開日:2023-06-27 |
# 視覚トランスフォーマを用いたフロアプランからの歩行者避難時間と密度の予測 Towards predicting Pedestrian Evacuation Time and Density from Floorplans using a Vision Transformer ( http://arxiv.org/abs/2306.15318v1 ) ライセンス: Link先を確認 | Patrick Berggold, Stavros Nousias, Rohit K. Dubey, Andr\'e Borrmann | (参考訳) 従来の歩行者シミュレーターは、プロジェクトエンジニアが過密な状況を避け、避難経路を計画できるため、建物の設計プロセスにおいて避けられないツールである。
しかし、シミュレーションランタイムとシミュレーション結果の生成における複数の煩雑なステップは、ビル設計プロセスの潜在的なボトルネックである。
データ駆動アプローチは、多くの分野にまたがって、同様の結果やよりよい結果を提供しながら、従来の手法を高速で上回る能力を示した。
そこで本研究では,視覚トランスフォーマーに基づく深層学習に基づく手法を提案する。
具体的には、公開データセットの可用性が限られているため、従来のシミュレータを含むパラメトリックデータ生成パイプラインを実装した。
これにより、アーキテクチャのトレーニングに使用する大規模な合成データセットを構築することができます。
さらに,我々のモデルをBIMオーサリングツールにシームレスに統合し,シミュレーション結果を瞬時に自動生成する。 Conventional pedestrian simulators are inevitable tools in the design process of a building, as they enable project engineers to prevent overcrowding situations and plan escape routes for evacuation. However, simulation runtime and the multiple cumbersome steps in generating simulation results are potential bottlenecks during the building design process. Data-driven approaches have demonstrated their capability to outperform conventional methods in speed while delivering similar or even better results across many disciplines. In this work, we present a deep learning-based approach based on a Vision Transformer to predict density heatmaps over time and total evacuation time from a given floorplan. Specifically, due to limited availability of public datasets, we implement a parametric data generation pipeline including a conventional simulator. This enables us to build a large synthetic dataset that we use to train our architecture. Furthermore, we seamlessly integrate our model into a BIM-authoring tool to generate simulation results instantly and automatically. | 翻訳日:2023-06-28 14:10:58 公開日:2023-06-27 |
# 太陽物理学における機械学習 Machine learning in solar physics ( http://arxiv.org/abs/2306.15308v1 ) ライセンス: Link先を確認 | A. Asensio Ramos, M. C. M. Cheung, I. Chifu, R. Gafeira | (参考訳) 太陽物理学における機械学習の応用は、太陽の大気で起こる複雑な過程の理解を大幅に強化する可能性がある。
深層学習などの手法を用いることで,太陽観測から大量のデータを分析し,従来の手法では明らかではなかったパターンや傾向を識別する立場にある。
これは、地球環境に強い影響を与える太陽フレアのような爆発的な事象に対する理解を改善するのに役立ちます。
地球上での危険事象の予測は、我々の技術社会にとって不可欠である。
機械学習は、データをさらに深く理解し、それらを説明するためのより複雑なモデルを提案することによって、太陽内部の動作に対する理解を向上させることができる。
さらに、機械学習を利用することで、太陽データの分析を自動化し、手作業の必要を減らし、この分野の研究の効率を高めることができる。 The application of machine learning in solar physics has the potential to greatly enhance our understanding of the complex processes that take place in the atmosphere of the Sun. By using techniques such as deep learning, we are now in the position to analyze large amounts of data from solar observations and identify patterns and trends that may not have been apparent using traditional methods. This can help us improve our understanding of explosive events like solar flares, which can have a strong effect on the Earth environment. Predicting hazardous events on Earth becomes crucial for our technological society. Machine learning can also improve our understanding of the inner workings of the sun itself by allowing us to go deeper into the data and to propose more complex models to explain them. Additionally, the use of machine learning can help to automate the analysis of solar data, reducing the need for manual labor and increasing the efficiency of research in this field. | 翻訳日:2023-06-28 14:10:45 公開日:2023-06-27 |
# オブジェクト検出のための転送性メトリクス Transferability Metrics for Object Detection ( http://arxiv.org/abs/2306.15306v1 ) ライセンス: Link先を確認 | Louis Fouquet, Simona Maggio, L\'eo Dreyfus-Schmidt | (参考訳) Transfer Learningは、既存のトレーニング済みモデルを活用して、限られたデータシナリオで新しいタスクのパフォーマンスを向上させることを目的としている。
しかし、どのモデルがどのタスクでベストを尽くすのかは不明であり、あらゆる組み合わせを試すのは非常に高価である。
もし転送可能性推定がモデルの一般化能力を評価する計算効率の高いアプローチを提供するなら、先行研究は分類設定にのみ焦点をあてる。
この制限を克服するために、転送可能性メトリクスをオブジェクト検出に拡張する。
ROI-Alignを用いて画像内の各オブジェクトに対応する局所的特徴を抽出する簡単な手法を設計する。
また、座標回帰タスクを考慮した転送可能性指標であるTLogMEを紹介する。
実験では,TLogMEと最先端の計測値を比較し,高速RCNNオブジェクト検出器の転送性能を推定した。
ソースとターゲットの選択タスク、実および合成データセット、および異なるバックボーンアーキテクチャに関するすべてのメトリクスを評価する。
異なるタスクにおいて,局所的抽出手法を用いたtlogmeは,転送性能と頑健な相関関係を提供し,局所的およびグローバルレベルの機能において他の転送可能性指標よりも優れることを示す。 Transfer learning aims to make the most of existing pre-trained models to achieve better performance on a new task in limited data scenarios. However, it is unclear which models will perform best on which task, and it is prohibitively expensive to try all possible combinations. If transferability estimation offers a computation-efficient approach to evaluate the generalisation ability of models, prior works focused exclusively on classification settings. To overcome this limitation, we extend transferability metrics to object detection. We design a simple method to extract local features corresponding to each object within an image using ROI-Align. We also introduce TLogME, a transferability metric taking into account the coordinates regression task. In our experiments, we compare TLogME to state-of-the-art metrics in the estimation of transfer performance of the Faster-RCNN object detector. We evaluate all metrics on source and target selection tasks, for real and synthetic datasets, and with different backbone architectures. We show that, over different tasks, TLogME using the local extraction method provides a robust correlation with transfer performance and outperforms other transferability metrics on local and global level features. | 翻訳日:2023-06-28 14:10:32 公開日:2023-06-27 |
# fairer: 意思決定の合理化としての公平性 FAIRER: Fairness as Decision Rationale Alignment ( http://arxiv.org/abs/2306.15299v1 ) ライセンス: Link先を確認 | Tianlin Li, Qing Guo, Aishan Liu, Mengnan Du, Zhiming Li, Yang Liu | (参考訳) 深層ニューラルネットワーク(dnn)は大きな進歩を遂げているが、通常、深層モデルは特定のサブグループ(例えば、男性と女性)の間で異なる精度の差を示すため、公平性の問題に苦しめられている。
既存の研究では、最終層の出力を制限し、DNNを直接正規化するために、公正な損失関数を用いてこの問題に対処している。
DNNの公平性は改善されているが、トレーニングされたネットワークがどのように公正な予測を行うのかははっきりしない。
本稿では,決定的合理性の観点から公平性を調査し,パラメータパリティスコアを定義し,様々なサブグループにおけるニューロンの影響を分析し,ネットワークの公平な決定過程を特徴付ける。
広範囲にわたる実証研究は、不公平な問題は、サブグループの不整合決定論理から生じる可能性があることを示している。
既存の公正規則化用語は、中間ニューロンアライメントを無視しながら最終層出力のみを制約するため、決定的合理的アライメントを達成することができない。
この問題に対処するために、フェアネスを新たなタスク、すなわち、DNNのニューロンが中間プロセスと最終予測の両方でサブグループに一貫した応答を要求される決定的合理性アライメントとして定式化する。
このアイデアを最適化中に実用的なものにするために, 主観的関数を緩和し, 勾配誘導パリティアライメントを提案する。
各種データセットに対する広範囲な実験により,高い精度を維持しながら公平性を著しく向上し,他の手法よりも広いマージンで優れることを示す。 Deep neural networks (DNNs) have made significant progress, but often suffer from fairness issues, as deep models typically show distinct accuracy differences among certain subgroups (e.g., males and females). Existing research addresses this critical issue by employing fairness-aware loss functions to constrain the last-layer outputs and directly regularize DNNs. Although the fairness of DNNs is improved, it is unclear how the trained network makes a fair prediction, which limits future fairness improvements. In this paper, we investigate fairness from the perspective of decision rationale and define the parameter parity score to characterize the fair decision process of networks by analyzing neuron influence in various subgroups. Extensive empirical studies show that the unfair issue could arise from the unaligned decision rationales of subgroups. Existing fairness regularization terms fail to achieve decision rationale alignment because they only constrain last-layer outputs while ignoring intermediate neuron alignment. To address the issue, we formulate the fairness as a new task, i.e., decision rationale alignment that requires DNNs' neurons to have consistent responses on subgroups at both intermediate processes and the final prediction. To make this idea practical during optimization, we relax the naive objective function and propose gradient-guided parity alignment, which encourages gradient-weighted consistency of neurons across subgroups. Extensive experiments on a variety of datasets show that our method can significantly enhance fairness while sustaining a high level of accuracy and outperforming other approaches by a wide margin. | 翻訳日:2023-06-28 14:10:14 公開日:2023-06-27 |
# BERTにおけるジェンダーバイアス-実効性下流分類タスクにおける感性評価によるバイアスの測定と解析 Gender Bias in BERT -- Measuring and Analysing Biases through Sentiment Rating in a Realistic Downstream Classification Task ( http://arxiv.org/abs/2306.15298v1 ) ライセンス: Link先を確認 | Sophie Jentzsch, Cigdem Turan | (参考訳) 事前学習された言語モデルは公開されており、様々な現実のアプリケーションのために常に微調整されている。
複雑な文脈情報を把握できるようになり、有害なバイアスがそれらのモデルとますます絡み合っている。
まず,女性と男性における感情評価の差としてバイアスを定義する,新しいバイアス尺度を導入する。
第2に,実写IMDB映画分類器の例として,BERTのバイアスを包括的に分析する。
トレーニングパイプラインの要素を体系的に変化させることで、最終モデルのバイアスに対する影響について結論付けることができる。
9つの訓練条件における7つの異なるパブリックBERTモデル、すなわち合計63モデルを比較した。
ほぼ全ての条件は有意な性別バイアスをもたらす。
その結果、反射バイアスはタスク固有のデータではなく、パブリックBERTモデルに由来することが示され、責任ある使用量の重みを強調している。 Pretrained language models are publicly available and constantly finetuned for various real-life applications. As they become capable of grasping complex contextual information, harmful biases are likely increasingly intertwined with those models. This paper analyses gender bias in BERT models with two main contributions: First, a novel bias measure is introduced, defining biases as the difference in sentiment valuation of female and male sample versions. Second, we comprehensively analyse BERT's biases on the example of a realistic IMDB movie classifier. By systematically varying elements of the training pipeline, we can conclude regarding their impact on the final model bias. Seven different public BERT models in nine training conditions, i.e. 63 models in total, are compared. Almost all conditions yield significant gender biases. Results indicate that reflected biases stem from public BERT models rather than task-specific data, emphasising the weight of responsible usage. | 翻訳日:2023-06-28 14:09:43 公開日:2023-06-27 |
# Groversアルゴリズムに基づく量子ベクトルデータベースの合成 Synthesis of Quantum Vector Databases Based on Grovers Algorithm ( http://arxiv.org/abs/2306.15295v1 ) ライセンス: Link先を確認 | Cesar Borisovich Pronin, Andrey Vladimirovich Ostroukh | (参考訳) 本稿では,groversアルゴリズムを用いて量子ベクトルデータベースを作成する手法について述べる。
この値は埋め込み値を表す。
意味のある埋め込みを生成するプロセスは古典的なコンピュータで処理され、探索プロセスは量子コンピュータで処理される。
提案回路は1つの量子レジスタ内に多数の埋め込みを同時に格納するため、量子コンピュータにデータを格納するための非常に量子効率(超高密度)な方法と見なすことができる。 This paper describes a method for using Grovers algorithm to create a quantum vector database, the database stores embeddings based on Controlled-S gates, which represent a binary numerical value. This value represents the embeddings value. The process of creating meaningful embeddings is handled by a classical computer and the search process is handled by the quantum computer. This search approach might be beneficial for a large enough database, or it could be seen as a very qubit-efficient (super dense) way for storing data on a quantum computer, since the proposed circuit stores many embeddings inside one quantum register simultaneously. | 翻訳日:2023-06-28 14:09:29 公開日:2023-06-27 |
# ショットノイズの存在下での量子同期 Quantum Synchronization in Presence of Shot Noise ( http://arxiv.org/abs/2306.15292v1 ) ライセンス: Link先を確認 | Florian H\"ohe, Ciprian Padurariu, Brecht I. C Donvil, Lukas Danner, Joachim Ankerhold and Bj\"orn Kubala | (参考訳) 同期は、非線形古典力学を持つ多くの自然系や工学系で見られる広範な現象である。
同期の概念とメカニズムが量子領域にどのように移行し、特徴が普遍的かプラットフォーム固有かは、基本的関心のタイムリーな疑問である。
本稿では、直流バイアスドジョセフソン接合がマイクロ波共振器内で(非古典的)光を発生させるジョセフソンフォトニクス素子の枠組みにおいて、同期に弱い非一貫性駆動の散逸量子系をモデル化する新しいアプローチを提案する。
結合量子化合物は、中性に安定な位相を有する自己維持発振器を構成する。
電流ノイズを光子放射の総計数統計値にリンクすることで位相拡散を捉えることができるが、その上、2つの装置の交流信号と相互同期に位相ロックを適用できる。
これにより、鋭い発光スペクトルにつながる位相安定化と、ショットノイズ誘起位相スリップを示すユニークな光子放出統計を観測することができる。
2回摂動理論は、古典同期理論の一般化におけるフォッカー・プランク方程式の形で振動子相ダイナミクスの還元記述を得るために用いられる。 Synchronization is a widespread phenomenon encountered in many natural and engineered systems with nonlinear classical dynamics. How synchronization concepts and mechanisms transfer to the quantum realm and whether features are universal or platform specific are timely questions of fundamental interest. Here, we present a new approach to model incoherently driven dissipative quantum systems susceptible to synchronization within the framework of Josephson photonics devices, where a dc-biased Josephson junction creates (non-classical) light in a microwave cavity. The combined quantum compound constitutes a self-sustained oscillator with a neutrally stable phase. Linking current noise to the full counting statistics of photon emission allows us to capture phase diffusion, but moreover permits phase locking to an ac-signal and mutual synchronization of two such devices. Thereby one can observe phase stabilization leading to a sharp emission spectrum as well as unique photon emission statistics revealing shot noise induced phase slips. Two-time perturbation theory is used to obtain a reduced description of the oscillators phase dynamics in form of a Fokker-Planck equation in generalization of classical synchronization theories. | 翻訳日:2023-06-28 14:09:19 公開日:2023-06-27 |
# 一定の速度の進行を伴う適応的アニール値サンプリング Adaptive Annealed Importance Sampling with Constant Rate Progress ( http://arxiv.org/abs/2306.15283v1 ) ライセンス: Link先を確認 | Shirin Goshtasbpour, Victor Cohen, Fernando Perez-Cruz | (参考訳) Annealed Importance Smpling (AIS)は、非正規化密度関数が与えられた場合の難解分布から重み付きサンプルを合成する。
このアルゴリズムは、一般に準最適と仮定される非正規化分布のよく知られた幾何学的平均経路のような、対象を初期抽出可能な分布にブリッジする補間分布の列に依存する。
本稿では,粒子分布の可逆的変化が制約された場合,現在の粒子分布と所望のターゲットとのklの発散を最小化する分布経路に幾何学的アニーリングが対応することを実証する。
この観測結果から,初期分布と目標分布との間のサンプル移動の困難さに応じてスケジュールを調整するアニーリングシーケンスの定率不定化スケジュールを導出する。
さらに、この結果をさらに$f$-divergencesまで拡張し、定数レートais(cr-ais)アルゴリズムと$\alpha$-divergencesの効率的な実装に基づくアニールシーケンスのそれぞれのダイナミクスを示す。
CR-AISは、既存のAdaptive AISの計算コストの高いチューニングループを回避しつつ、複数のベンチマーク分布でよく動作することを示す。 Annealed Importance Sampling (AIS) synthesizes weighted samples from an intractable distribution given its unnormalized density function. This algorithm relies on a sequence of interpolating distributions bridging the target to an initial tractable distribution such as the well-known geometric mean path of unnormalized distributions which is assumed to be suboptimal in general. In this paper, we prove that the geometric annealing corresponds to the distribution path that minimizes the KL divergence between the current particle distribution and the desired target when the feasible change in the particle distribution is constrained. Following this observation, we derive the constant rate discretization schedule for this annealing sequence, which adjusts the schedule to the difficulty of moving samples between the initial and the target distributions. We further extend our results to $f$-divergences and present the respective dynamics of annealing sequences based on which we propose the Constant Rate AIS (CR-AIS) algorithm and its efficient implementation for $\alpha$-divergences. We empirically show that CR-AIS performs well on multiple benchmark distributions while avoiding the computationally expensive tuning loop in existing Adaptive AIS. | 翻訳日:2023-06-28 14:09:02 公開日:2023-06-27 |
# 時系列モデリングのための変分潜在離散表現 Variational Latent Discrete Representation for Time Series Modelling ( http://arxiv.org/abs/2306.15282v1 ) ライセンス: Link先を確認 | Max Cohen, Maurice Charbit, Sylvain Le Corff | (参考訳) 離散潜在空間モデルは、最近、深部変分推論における連続的な空間と同等の性能を達成した。
彼らはまだ様々な実装課題に直面しているが、これらのモデルは自然に離散的な現象をより直接的に表現するだけでなく、潜在空間をよりよく解釈する機会を提供する。
最近のアプローチでは、離散潜在データ上で非常に高次元の事前モデルを個別に訓練することを提案している。
本稿では、離散状態がマルコフ連鎖であり、高速なエンドツーエンドトレーニングを可能にする潜在データモデルを提案する。
生成モデルの性能はビル管理データセットと一般公開されているElectricity Transformer Datasetに基づいて評価する。 Discrete latent space models have recently achieved performance on par with their continuous counterparts in deep variational inference. While they still face various implementation challenges, these models offer the opportunity for a better interpretation of latent spaces, as well as a more direct representation of naturally discrete phenomena. Most recent approaches propose to train separately very high-dimensional prior models on the discrete latent data which is a challenging task on its own. In this paper, we introduce a latent data model where the discrete state is a Markov chain, which allows fast end-to-end training. The performance of our generative model is assessed on a building management dataset and on the publicly available Electricity Transformer Dataset. | 翻訳日:2023-06-28 14:08:42 公開日:2023-06-27 |
# Few-Shot Segmentation-Extended Abstract に対する階層的密度相関蒸留法 Hierarchical Dense Correlation Distillation for Few-Shot Segmentation-Extended Abstract ( http://arxiv.org/abs/2306.15278v1 ) ライセンス: Link先を確認 | Bohao Peng, Zhuotao Tian, Xiaoyang Wu, Chengyao Wang, Shu Liu, Jingyong Su, Jiaya Jia | (参考訳) few-shot semantic segmentation (fss) は、わずか一握りのアノテーションでクラスに依存しないクラスをセグメンテーションすることを目的としている。
セマンティクスの特徴とプロトタイプ表現に限定された以前の手法では、粗いセグメンテーションの粒度と列車のセットオーバーフィッティングに苦しむ。
本研究では,トランスアーキテクチャに基づく階層型デカップリングマッチングネットワーク(HDMNet)マイニングピクセルレベルのサポート相関を設計する。
セルフアテンションモジュールは、クエリとサポート機能のカスケードマッチングを実現する手段として、階層的な密集した機能を確立するのに役立つ。
さらに,列車セットの過度適合を低減し,粗解からの意味対応を利用した相関蒸留を導入し,きめ細かなセグメンテーションを促進するためのマッチングモジュールを提案する。
我々の手法は実験で十分に機能する。
我々は,COCOデータセットの1ショット設定で50.0% mIoU,5ショットセグメンテーションで56.0%を達成する。
コードはプロジェクトのWebサイトから入手できる。
私たちは、アノテーションが限られている新しいクラスを適切に識別する必要がある、幅広い産業アプリケーションに役立つことを望んでいます。 Few-shot semantic segmentation (FSS) aims to form class-agnostic models segmenting unseen classes with only a handful of annotations. Previous methods limited to the semantic feature and prototype representation suffer from coarse segmentation granularity and train-set overfitting. In this work, we design Hierarchically Decoupled Matching Network (HDMNet) mining pixel-level support correlation based on the transformer architecture. The self-attention modules are used to assist in establishing hierarchical dense features, as a means to accomplish the cascade matching between query and support features. Moreover, we propose a matching module to reduce train-set overfitting and introduce correlation distillation leveraging semantic correspondence from coarse resolution to boost fine-grained segmentation. Our method performs decently in experiments. We achieve 50.0% mIoU on COCO dataset one-shot setting and 56.0% on five-shot segmentation, respectively. The code will be available on the project website. We hope our work can benefit broader industrial applications where novel classes with limited annotations are required to be decently identified. | 翻訳日:2023-06-28 14:08:32 公開日:2023-06-27 |
# 科学的インパクトの鍵となる知識の多様性--コンピュータ科学の分野における大規模分析 Diversity of Expertise is Key to Scientific Impact: a Large-Scale Analysis in the Field of Computer Science ( http://arxiv.org/abs/2306.15344v1 ) ライセンス: Link先を確認 | Angelo Salatino, Simone Angioni, Francesco Osborne, Diego Reforgiato Recupero, Enrico Motta | (参考訳) 研究チームの構成と研究論文の潜在的影響との関係を理解することは、研究企業を改善するための新たな科学政策の開発を主導する上で極めて重要である。
多くの研究は、研究チームの特性と多様性が、民族性、国際性、サイズなど、様々な面でパフォーマンスにどのように影響するかを評価する。
本稿では,著者の専門性の観点から多様性の影響について考察する。
この目的のために,コンピュータサイエンスの分野で114kの論文を検索し,研究チーム内の研究分野の多様性が,今後5年間の論文の引用数とどのように関係しているかを分析した。
その結果、専門知識の多様性を反映して定義した2つの異なる指標が、引用数と大きく関連していることがわかった。
これは、少なくともコンピュータ科学では、専門知識の多様性が科学的影響の鍵であることを示唆している。 Understanding the relationship between the composition of a research team and the potential impact of their research papers is crucial as it can steer the development of new science policies for improving the research enterprise. Numerous studies assess how the characteristics and diversity of research teams can influence their performance across several dimensions: ethnicity, internationality, size, and others. In this paper, we explore the impact of diversity in terms of the authors' expertise. To this purpose, we retrieved 114K papers in the field of Computer Science and analysed how the diversity of research fields within a research team relates to the number of citations their papers received in the upcoming 5 years. The results show that two different metrics we defined, reflecting the diversity of expertise, are significantly associated with the number of citations. This suggests that, at least in Computer Science, diversity of expertise is key to scientific impact. | 翻訳日:2023-06-28 14:02:07 公開日:2023-06-27 |
# 改良ミリ波イメージングシステムのためのハイブリッド学習アルゴリズム Novel Hybrid-Learning Algorithms for Improved Millimeter-Wave Imaging Systems ( http://arxiv.org/abs/2306.15341v1 ) ライセンス: Link先を確認 | Josiah Smith | (参考訳) ミリ波(mmWave)、30 GHzから300 GHz、テラヘルツ(THz)、300 GHzから10 THz、セキュリティセンシング、産業用包装、医療画像、非破壊検査などの応用が注目されている。
従来の知覚とイメージングの方法は、解像度、局在性、検出率を改善する新しいデータ駆動アルゴリズムによって挑戦される。
過去10年間、ディープラーニング技術は、特に知覚やコンピュータビジョンアプリケーションにおいて、かなりの人気を集めてきた。
従来の信号処理技術は様々な用途に容易に一般化されるが、信号処理と学習に基づくアルゴリズムをインターリーブするハイブリッドアプローチは、性能と一般化性の間に有望な妥協をもたらす。
さらに、これらのハイブリッドアルゴリズムは、無線周波数(RF)波形の既知の特性を活用してモデルトレーニングを改善し、より効率的に訓練されたディープラーニングアルゴリズムを提供し、従来の手法よりも高い性能を提供する。
この論文は、知覚とセンシングの多くの問題に適用可能なmm波イメージングシステムを改善するための新しいハイブリッド学習アルゴリズムを導入している。
静的および動的ジェスチャー分類、人間のコンピュータインタラクションの正確な手の位置決め、前方合成開口レーダ(SAR)を用いた高分解能近距離ミリ波イメージング、不規則な走査測地下でのSAR、ディープニューラルネットワーク(DNN)とビジョントランスフォーマー(ViT)アーキテクチャを用いたミリ波画像超解像、新しいハイブリッドラーニングアーキテクチャを用いたデータレベルマルチバンドレーダ融合など、様々な問題領域が検討されている。
さらに,ディープラーニングモデルのトレーニングとデータセット合成のための新しい手法をいくつか紹介する。 Increasing attention is being paid to millimeter-wave (mmWave), 30 GHz to 300 GHz, and terahertz (THz), 300 GHz to 10 THz, sensing applications including security sensing, industrial packaging, medical imaging, and non-destructive testing. Traditional methods for perception and imaging are challenged by novel data-driven algorithms that offer improved resolution, localization, and detection rates. Over the past decade, deep learning technology has garnered substantial popularity, particularly in perception and computer vision applications. Whereas conventional signal processing techniques are more easily generalized to various applications, hybrid approaches where signal processing and learning-based algorithms are interleaved pose a promising compromise between performance and generalizability. Furthermore, such hybrid algorithms improve model training by leveraging the known characteristics of radio frequency (RF) waveforms, thus yielding more efficiently trained deep learning algorithms and offering higher performance than conventional methods. This dissertation introduces novel hybrid-learning algorithms for improved mmWave imaging systems applicable to a host of problems in perception and sensing. Various problem spaces are explored, including static and dynamic gesture classification; precise hand localization for human computer interaction; high-resolution near-field mmWave imaging using forward synthetic aperture radar (SAR); SAR under irregular scanning geometries; mmWave image super-resolution using deep neural network (DNN) and Vision Transformer (ViT) architectures; and data-level multiband radar fusion using a novel hybrid-learning architecture. Furthermore, we introduce several novel approaches for deep learning model training and dataset synthesis. | 翻訳日:2023-06-28 14:01:52 公開日:2023-06-27 |
# numpyにおける高速区間演算のためのツールボックスとニューラルネットワーク制御系の形式検証への応用 A Toolbox for Fast Interval Arithmetic in numpy with an Application to Formal Verification of Neural Network Controlled Systems ( http://arxiv.org/abs/2306.15340v1 ) ライセンス: Link先を確認 | Akash Harapanahalli, Saber Jafarpour, Samuel Coogan | (参考訳) 本稿では,numpyにおける区間解析のためのツールボックスと,ニューラルネットワーク制御システムの形式検証への応用について述べる。
自然包含関数の概念を用いて、一般の写像のクラスに対する区間境界を体系的に構成する。
このツールボックスは、コンパイルされたCコードを使った自然な包摂関数の効率的な計算と、n次元配列、行列/ベクトル演算、ベクトル化などの標準的な特徴を持つnumpyの使い慣れたインタフェースを提供する。
次に、このツールボックスをニューラルネットワークコントローラによる動的システムの形式的検証に使用し、その包含関数の合成を行う。 In this paper, we present a toolbox for interval analysis in numpy, with an application to formal verification of neural network controlled systems. Using the notion of natural inclusion functions, we systematically construct interval bounds for a general class of mappings. The toolbox offers efficient computation of natural inclusion functions using compiled C code, as well as a familiar interface in numpy with its canonical features, such as n-dimensional arrays, matrix/vector operations, and vectorization. We then use this toolbox in formal verification of dynamical systems with neural network controllers, through the composition of their inclusion functions. | 翻訳日:2023-06-28 14:01:19 公開日:2023-06-27 |
# ホモロジカルニューラルネットワーク:多変量複雑性のためのスパースアーキテクチャ Homological Neural Networks: A Sparse Architecture for Multivariate Complexity ( http://arxiv.org/abs/2306.15337v1 ) ライセンス: Link先を確認 | Yuanrong Wang, Antonio Briola, Tomaso Aste | (参考訳) 人工知能研究の急速な進歩は、ますます複雑なディープラーニングモデルの開発に結びつき、計算複雑性、エネルギー効率、解釈可能性の面での課題が増大した。
本研究では,基礎データのホモロジー構造上に構築された低次高次グラフィカルアーキテクチャを特徴とする,新しいディープニューラルネットワークユニットの設計に,高度なネットワークベース情報フィルタリング手法を適用した。
従来のディープラーニングでは困難であった2つのアプリケーションドメイン – 表形式データと時系列回帰問題 – において,その効果を実証する。
その結果,最先端機械学習と深層学習モデルの結果を,パラメータのごく一部で結束・克服できる新しい設計の利点が示された。 The rapid progress of Artificial Intelligence research came with the development of increasingly complex deep learning models, leading to growing challenges in terms of computational complexity, energy efficiency and interpretability. In this study, we apply advanced network-based information filtering techniques to design a novel deep neural network unit characterized by a sparse higher-order graphical architecture built over the homological structure of underlying data. We demonstrate its effectiveness in two application domains which are traditionally challenging for deep learning: tabular data and time series regression problems. Results demonstrate the advantages of this novel design which can tie or overcome the results of state-of-the-art machine learning and deep learning models using only a fraction of parameters. | 翻訳日:2023-06-28 14:01:07 公開日:2023-06-27 |
# オンラインメンタルヘルスカウンセリングにおける顧客反応の理解 Understanding Client Reactions in Online Mental Health Counseling ( http://arxiv.org/abs/2306.15334v1 ) ライセンス: Link先を確認 | Anqi Li, Lizhi Ma, Yaling Mei, Hongliang He, Shuai Zhang, Huachuan Qiu, Zhenzhong Lan | (参考訳) コミュニケーションの成功は参加者の反応を読むことに大きく依存する。
このようなフィードバックは、クライアントの進捗を慎重に検討し、それに応じてアプローチを調整する必要があるメンタルヘルスカウンセラーにとって特に重要である。
しかし、カウンセリングに関するこれまでのnlpの研究は、カウンセラーの介入に対する反応よりもカウンセラーの介入戦略を主に研究している。
この研究はカウンセラーの戦略とクライアントの反応を包含する理論的根拠付きアノテーションフレームワークの開発によって、このギャップを埋めることを目的としている。
このフレームワークは、オンライン福祉カウンセリングプラットフォームから過去2年間に収集した、大規模で高品質なテキストベースのカウンセリングデータセットに対してテストされている。
本研究は,カウンセラーの戦略に対するクライアントの反応,カウンセラーの最終的な結果にどのような影響を及ぼすか,カウンセラーがカウンセラーの戦略をどのように調整できるかを示す。
また,本研究は,カウンセラーがクライアントの状態を自動予測する上で有効であることを示す。 Communication success relies heavily on reading participants' reactions. Such feedback is especially important for mental health counselors, who must carefully consider the client's progress and adjust their approach accordingly. However, previous NLP research on counseling has mainly focused on studying counselors' intervention strategies rather than their clients' reactions to the intervention. This work aims to fill this gap by developing a theoretically grounded annotation framework that encompasses counselors' strategies and client reaction behaviors. The framework has been tested against a large-scale, high-quality text-based counseling dataset we collected over the past two years from an online welfare counseling platform. Our study shows how clients react to counselors' strategies, how such reactions affect the final counseling outcomes, and how counselors can adjust their strategies in response to these reactions. We also demonstrate that this study can help counselors automatically predict their clients' states. | 翻訳日:2023-06-28 14:00:57 公開日:2023-06-27 |
# Shoggoth: 適応型オンライン学習による効率的なエッジクラウドコラボレーションリアルタイムビデオ推論を目指して Shoggoth: Towards Efficient Edge-Cloud Collaborative Real-Time Video Inference via Adaptive Online Learning ( http://arxiv.org/abs/2306.15333v1 ) ライセンス: Link先を確認 | Liang Wang and Kai Lu and Nan Zhang and Xiaoyang Qu and Jianzong Wang and Jiguang Wan and Guokuan Li and Jing Xiao | (参考訳) 本稿では,シーン変化のリアルタイムビデオにおける推論性能を向上させるために,効率的なエッジクラウド協調アーキテクチャであるShoggothを提案する。
Shoggoth氏は、オンライン知識蒸留を使用して、データドリフトに苦しむモデルの精度を改善し、ラベル付けプロセスをクラウドにオフロードし、エッジデバイスの制約されたリソースを軽減する。
そこで本研究では,限られた計算能力でモデルを適応させるために小バッチを用いた適応トレーニングと,ロバスト性と帯域幅の削減を目的としたトレーニングフレームの適応サンプリングをデザインする。
現実的なデータセットにおける評価は、エッジのみの戦略と比較して15%から20%の精度向上を示し、クラウドのみの戦略よりもネットワークコストの低減を示した。 This paper proposes Shoggoth, an efficient edge-cloud collaborative architecture, for boosting inference performance on real-time video of changing scenes. Shoggoth uses online knowledge distillation to improve the accuracy of models suffering from data drift and offloads the labeling process to the cloud, alleviating constrained resources of edge devices. At the edge, we design adaptive training using small batches to adapt models under limited computing power, and adaptive sampling of training frames for robustness and reducing bandwidth. The evaluations on the realistic dataset show 15%-20% model accuracy improvement compared to the edge-only strategy and fewer network costs than the cloud-only strategy. | 翻訳日:2023-06-28 14:00:38 公開日:2023-06-27 |
# 偽物シミュレーション Simulating counterfactuals ( http://arxiv.org/abs/2306.15328v1 ) ライセンス: Link先を確認 | Juha Karvanen, Santtu Tikka, Matti Vihola | (参考訳) 擬似推論は、現実の世界といくつかの証拠を共有する平行世界における仮説的介入を考察する。
証拠が多様体上の条件分布を明記するなら、反事実は解析的に解析可能である。
離散変数と連続変数の両方に条件を設定できる対実分布から値をシミュレートするアルゴリズムを提案する。
提案アルゴリズムは漸近的に妥当な推論につながる粒子フィルタとして提示できることを示す。
このアルゴリズムは信用スコアリングのフェアネス分析に適用される。 Counterfactual inference considers a hypothetical intervention in a parallel world that shares some evidence with the factual world. If the evidence specifies a conditional distribution on a manifold, counterfactuals may be analytically intractable. We present an algorithm for simulating values from a counterfactual distribution where conditions can be set on both discrete and continuous variables. We show that the proposed algorithm can be presented as a particle filter leading to asymptotically valid inference. The algorithm is applied to fairness analysis in credit scoring. | 翻訳日:2023-06-28 14:00:26 公開日:2023-06-27 |
# スコアに基づく生成モデルによるネットワークの異常検出 Anomaly Detection in Networks via Score-Based Generative Models ( http://arxiv.org/abs/2306.15324v1 ) ライセンス: Link先を確認 | Dmitrii Gavrilev, Evgeny Burnaev | (参考訳) 属性付きグラフにおけるノード異常検出は、異なるデータセットにまたがってうまく機能するメソッドがないという難しい問題である。
グラフ生成モデルにおけるスコアベースモデルの最先端結果に動機づけられ,上記の問題にそれらを組み込むことを提案する。
本手法は小規模グラフ上での競合結果を得る。
ジリクレエネルギーの実験的解析を行い,生成モデルがジリクレエネルギーの正確な再構成に支障をきたす可能性を示した。 Node outlier detection in attributed graphs is a challenging problem for which there is no method that would work well across different datasets. Motivated by the state-of-the-art results of score-based models in graph generative modeling, we propose to incorporate them into the aforementioned problem. Our method achieves competitive results on small-scale graphs. We provide an empirical analysis of the Dirichlet energy, and show that generative models might struggle to accurately reconstruct it. | 翻訳日:2023-06-28 14:00:19 公開日:2023-06-27 |
# 細粒度骨格に基づく行動認識のためのロバスト2重損失を有する多次元リファインメントグラフ畳み込みネットワーク Multi-Dimensional Refinement Graph Convolutional Network with Robust Decouple Loss for Fine-Grained Skeleton-Based Action Recognition ( http://arxiv.org/abs/2306.15321v1 ) ライセンス: Link先を確認 | Sheng-Lan Liu, Yu-Ning Ding, Jin-Rong Zhang, Kai-Yuan Liu, Si-Fan Zhang, Fei-Long Wang, and Gao Huang | (参考訳) グラフ畳み込みネットワークはスケルトンに基づく行動認識に広く使われている。
しかし,既存のアプローチでは,クラス間データの類似性から,細粒度動作認識に制限がある。
さらに、ポーズ抽出によるノイズデータにより、微粒化認識の課題が増大する。
本研究では,CVSTA(Channel-Variable Space-Temporal Attention)と呼ばれるフレキシブルアテンションブロックを提案し,空間的時間的関節の識別力を高め,よりコンパクトなクラス内特徴分布を得る。
CVSTAをベースとしたMDR-GCN(Multi-dimensional Refinement Graph Convolutional Network)を構築し,細粒度動作のためのチャネルレベル,ジョイントレベル,フレームレベルの特徴の識別性を向上する。
さらに,CVSTAの効果を著しく向上し,騒音の影響を低減するロバスト2次損失(RDL)を提案する。
提案手法は,MDR-GCNとRDLを組み合わせることで,詳細なデータセットであるFinGym99とFSD-10,さらに粗いデータセットであるNTU-RGB+D X-viewバージョンにおいて,最先端のスケルトンベースのアプローチよりも優れている。 Graph convolutional networks have been widely used in skeleton-based action recognition. However, existing approaches are limited in fine-grained action recognition due to the similarity of inter-class data. Moreover, the noisy data from pose extraction increases the challenge of fine-grained recognition. In this work, we propose a flexible attention block called Channel-Variable Spatial-Temporal Attention (CVSTA) to enhance the discriminative power of spatial-temporal joints and obtain a more compact intra-class feature distribution. Based on CVSTA, we construct a Multi-Dimensional Refinement Graph Convolutional Network (MDR-GCN), which can improve the discrimination among channel-, joint- and frame-level features for fine-grained actions. Furthermore, we propose a Robust Decouple Loss (RDL), which significantly boosts the effect of the CVSTA and reduces the impact of noise. The proposed method combining MDR-GCN with RDL outperforms the known state-of-the-art skeleton-based approaches on fine-grained datasets, FineGym99 and FSD-10, and also on the coarse dataset NTU-RGB+D X-view version. | 翻訳日:2023-06-28 14:00:12 公開日:2023-06-27 |
# Nano1D:低次元物体のセグメンテーションと解析のための高精度コンピュータビジョンモデル Nano1D: An accurate Computer Vision model for segmentation and analysis of low-dimensional objects ( http://arxiv.org/abs/2306.15319v1 ) ライセンス: Link先を確認 | Ehsan Moradpur-Tari (1), Sergei Vlassov (1,2), Sven Oras (1,2), Mart Ernits (1), Elyad Damerchi (1), Andreas Kyritsakis (1), and Veronika Zadin (1) | (参考訳) 顕微鏡画像は通常、質的または手作業で分析され、物体の自律的定量分析が必要となる。
本稿では,顕微鏡画像からの1次元不規則および変形可能な物体の正確なセグメンテーションと幾何解析のための物理計算モデルを提案する。
このモデルはNano1Dと呼ばれ、前処理、セグメンテーション、重なり合う物体と幾何学的測定の4つのステップを持つ。
このモデルはAgナノワイヤ上でテストされ、長さ、幅、分布などの幾何学的特性をセグメント化して解析することに成功した。
アルゴリズムの機能は、画像内のオブジェクトのサイズ、数、密度、方向、重なりによって損なわれない。
モデルの主な強みは、重なり合うオブジェクトを99%以上の精度でセグメント化および解析し、一方、現在の機械学習と計算モデルは、重なり合うオブジェクトをセグメント化できない不正確さに悩まされている。
Nano1Dは、ナノワイヤ、ナノチューブ、ナノロッドを含む1次元(1D)ナノ粒子を分析できる。 Microscopy images are usually analyzed qualitatively or manually and there is a need for autonomous quantitative analysis of objects. In this paper, we present a physics-based computational model for accurate segmentation and geometrical analysis of one-dimensional irregular and deformable objects from microscopy images. This model, named Nano1D, has four steps of preprocessing, segmentation, separating overlapped objects and geometrical measurements. The model is tested on Ag nanowires, and successfully segments and analyzes their geometrical characteristics including length, width and distributions. The function of the algorithm is not undermined by the size, number, density, orientation and overlapping of objects in images. The main strength of the model is shown to be its ability to segment and analyze overlapping objects successfully with more than 99% accuracy, while current machine learning and computational models suffer from inaccuracy and inability to segment overlapping objects. Nano1D can analyze one-dimensional (1D) nanoparticles including nanowires, nanotubes, nanorods in addition to other 1D features of microstructures like microcracks, dislocations etc. | 翻訳日:2023-06-28 13:59:46 公開日:2023-06-27 |
# Deep Metric Learningにおける平均場理論 Mean Field Theory in Deep Metric Learning ( http://arxiv.org/abs/2306.15368v1 ) ライセンス: Link先を確認 | Takuya Furusawa | (参考訳) 本稿では,統計物理学からの手法である平均場理論をディープメトリック学習に適用し,従来のメトリック学習損失関数に共通する高いトレーニング複雑性に対処する。
深度距離学習に平均場理論を適用することにより、ペアベースから分類に基づく損失関数を設計するアプローチが開発され、これはプロキシベースのアプローチと相補的なものと考えられる。
平均場理論を2つのペアベース損失関数に適用することにより、トレーニングの複雑さを低減し、MeanFieldContrastiveとMeanFieldClassWiseMultiSimilarity損失という2つの新しい損失関数を導出する。
3つの画像リトライバルデータセットにおけるこれら導出損失関数を広範囲に評価し、3つのデータセットのうち2つにおいて、損失関数がベースラインメソッドを上回ることを実証した。 In this paper, we explore the application of mean field theory, a technique from statistical physics, to deep metric learning and address the high training complexity commonly associated with conventional metric learning loss functions. By adapting mean field theory for deep metric learning, we develop an approach to design classification-based loss functions from pair-based ones, which can be considered complementary to the proxy-based approach. Applying the mean field theory to two pair-based loss functions, we derive two new loss functions, MeanFieldContrastive and MeanFieldClassWiseMultiSimilarity losses, with reduced training complexity. We extensively evaluate these derived loss functions on three image-retrieval datasets and demonstrate that our loss functions outperform baseline methods in two out of the three datasets. | 翻訳日:2023-06-28 13:51:58 公開日:2023-06-27 |
# Herb-Drug 相互作用:医療における全体的意思決定支援システム Herb-Drug Interactions: A Holistic Decision Support System in Healthcare ( http://arxiv.org/abs/2306.15365v1 ) ライセンス: Link先を確認 | Andreia Martins, Eva Maia, Isabel Pra\c{c}a | (参考訳) 補完薬や代替薬は、一般的に通常の薬と併用され、副作用や死亡に至る。
さらに、ハーブとドラッグの相互作用の可能性は、健康専門家がデータベースでそれらを記憶したり手動で検索するのを防ぐ。
意思決定支援システムは、臨床医が患者のケアで診断と治療の決定を行うのに役立つ強力なツールである。
そのため、ハーブとドラッグの相互作用を識別する独自のハイブリッドな意思決定支援システムが設計され、人工知能技術を用いて新たな相互作用を識別する。
異なる機械学習モデルを使用して、これらのケースで使用される典型的なルールエンジンを強化する。
したがって、提案システムを用いて、医療システム内での第一線である薬局コミュニティは、より良い、より正確な治療決定を行い、起こりうる有害事象を軽減することができる。 Complementary and alternative medicine are commonly used concomitantly with conventional medications leading to adverse drug reactions and even fatality in some cases. Furthermore, the vast possibility of herb-drug interactions prevents health professionals from remembering or manually searching them in a database. Decision support systems are a powerful tool that can be used to assist clinicians in making diagnostic and therapeutic decisions in patient care. Therefore, an original and hybrid decision support system was designed to identify herb-drug interactions, applying artificial intelligence techniques to identify new possible interactions. Different machine learning models will be used to strengthen the typical rules engine used in these cases. Thus, using the proposed system, the pharmacy community, people's first line of contact within the Healthcare System, will be able to make better and more accurate therapeutic decisions and mitigate possible adverse events. | 翻訳日:2023-06-28 13:51:41 公開日:2023-06-27 |
# 生物学的に妥当な言語器官の構造 The Architecture of a Biologically Plausible Language Organ ( http://arxiv.org/abs/2306.15364v1 ) ライセンス: Link先を確認 | Daniel Mitropolsky, Christos H. Papadimitriou | (参考訳) 本研究は,スタイリングされたが現実的なニューロン,シナプス,脳領域,可塑性,感覚知覚の簡易モデルからなる,生体可塑性言語器官について述べる。
実験を通して、このモデルが言語習得における重要な初期段階で成功することを示す。名詞、動詞、およびそれらの意味の学習は、ほんの数文の接頭辞から得られる。
このシステムの学習は、ヘビアン可塑性と、バックプロパゲーションなしで達成される。
私たちのモデルは、以前同様の環境で設計されたパーサーを超えており、成熟した脳で処理されただけでなく、幼児の脳内で言語がどのように取得できるかを生物学的に説明できる重要な説明が加わりました。 We present a simulated biologically plausible language organ, made up of stylized but realistic neurons, synapses, brain areas, plasticity, and a simplified model of sensory perception. We show through experiments that this model succeeds in an important early step in language acquisition: the learning of nouns, verbs, and their meanings, from the grounded input of only a modest number of sentences. Learning in this system is achieved through Hebbian plasticity, and without backpropagation. Our model goes beyond a parser previously designed in a similar environment, with the critical addition of a biologically plausible account for how language can be acquired in the infant's brain, not just processed by a mature brain. | 翻訳日:2023-06-28 13:51:27 公開日:2023-06-27 |
# 敵の移動性に攻撃者のシナリオを形式化する「アタック」 Your Attack Is Too DUMB: Formalizing Attacker Scenarios for Adversarial Transferability ( http://arxiv.org/abs/2306.15363v1 ) ライセンス: Link先を確認 | Marco Alecci, Mauro Conti, Francesco Marchiori, Luca Martinelli, Luca Pajola | (参考訳) 侵入攻撃は機械学習モデルに対する脅威であり、敵は悪意のあるサンプルを注入することで分類に影響を与えようとする。
回避攻撃の警告的な副作用は、異なるモデル間で転送する能力である。
したがって、攻撃者はカスタムモデル(surrogate)上で敵のサンプルを作成し、後で被害者の組織を攻撃することができる。
文献では敵が攻撃を伝達する方法が広く議論されているが、その実験的な設定は限定的であり現実とは程遠い。
例えば、アタッカーとディフェンダーの両方が同じデータセット、バランスレベル(すなわち、基底的真理の分散方法)、モデルアーキテクチャを共有していると考える実験が多い。
本研究では, 愚かな攻撃モデルを提案する。
このフレームワークは、サロゲートと犠牲者モデルのトレーニング条件が異なる場合、回避攻撃が転送に失敗した場合の分析を可能にする。
データセットのソース、モデルアーキテクチャ、基盤の真理のバランスなどだ。
次に,DuMBを用いた多数の最先端の回避攻撃を評価するための新しいテストベッドを提案する。テストベッドは3つのコンピュータビジョンタスクで構成され,それぞれ2つの異なるデータセット,4種類のバランスレベル,3つのモデルアーキテクチャで構成されている。
14件の異なる攻撃に対して13Kの試験を行った結果,サロゲートモデルを用いた移動可能な攻撃範囲の新たな発見が得られた。
特に、データセットのソース、バランスレベル、モデルアーキテクチャの点で、攻撃者と被害者のミスマッチは、攻撃性能の無視できない損失につながる。 Evasion attacks are a threat to machine learning models, where adversaries attempt to affect classifiers by injecting malicious samples. An alarming side-effect of evasion attacks is their ability to transfer among different models: this property is called transferability. Therefore, an attacker can produce adversarial samples on a custom model (surrogate) to conduct the attack on a victim's organization later. Although literature widely discusses how adversaries can transfer their attacks, their experimental settings are limited and far from reality. For instance, many experiments consider both attacker and defender sharing the same dataset, balance level (i.e., how the ground truth is distributed), and model architecture. In this work, we propose the DUMB attacker model. This framework allows analyzing if evasion attacks fail to transfer when the training conditions of surrogate and victim models differ. DUMB considers the following conditions: Dataset soUrces, Model architecture, and the Balance of the ground truth. We then propose a novel testbed to evaluate many state-of-the-art evasion attacks with DUMB; the testbed consists of three computer vision tasks with two distinct datasets each, four types of balance levels, and three model architectures. Our analysis, which generated 13K tests over 14 distinct attacks, led to numerous novel findings in the scope of transferable attacks with surrogate models. In particular, mismatches between attackers and victims in terms of dataset source, balance levels, and model architecture lead to non-negligible loss of attack performance. | 翻訳日:2023-06-28 13:51:16 公開日:2023-06-27 |
# ランドマークに基づくゴール認識の計画:初期状態ランドマークの使用は意味を成すか? Planning Landmark Based Goal Recognition Revisited: Does Using Initial State Landmarks Make Sense? ( http://arxiv.org/abs/2306.15362v1 ) ライセンス: Link先を確認 | Nils Wilken and Lea Cohausz and Christian Bartelt and Heiner Stuckenschmidt | (参考訳) ゴール認識は多くのアプリケーション領域(例えば、広範コンピューティング、侵入検出、コンピュータゲームなど)において重要な問題である。
多くのアプリケーションシナリオにおいて、ゴール認識アルゴリズムは観測エージェントの目標をできるだけ早く認識できることが重要である。
しかしながら、計画認識の分野における多くの初期のアプローチは、解を計算するのに非常に大量の計算時間を必要とする。
主にこの問題に対処するため、Pereiraらは最近、計画的なランドマークに基づくアプローチを開発し、以前のアプローチよりもはるかに計算効率が良い。
しかしながら、pereiraらによって提案されたこのアプローチは、自明なランドマーク(すなわち、初期状態と目標記述の一部である事実は定義上ランドマーク)も使用する。
本稿では,計画用ランドマークベースの目標認識手法において,初期状態の一部であるランドマークを使用するメリットは認められないことを示す。
その結果,初期状態ランドマークを省略することで目標認識性能が向上することがわかった。 Goal recognition is an important problem in many application domains (e.g., pervasive computing, intrusion detection, computer games, etc.). In many application scenarios, it is important that goal recognition algorithms can recognize goals of an observed agent as fast as possible. However, many early approaches in the area of Plan Recognition As Planning, require quite large amounts of computation time to calculate a solution. Mainly to address this issue, recently, Pereira et al. developed an approach that is based on planning landmarks and is much more computationally efficient than previous approaches. However, the approach, as proposed by Pereira et al., also uses trivial landmarks (i.e., facts that are part of the initial state and goal description are landmarks by definition). In this paper, we show that it does not provide any benefit to use landmarks that are part of the initial state in a planning landmark based goal recognition approach. The empirical results show that omitting initial state landmarks for goal recognition improves goal recognition performance. | 翻訳日:2023-06-28 13:50:50 公開日:2023-06-27 |
# 3D-Speaker: 大規模マルチデバイス, マルチディスタンス, マルチディレクトコーパスによる音声表現遠絡 3D-Speaker: A Large-Scale Multi-Device, Multi-Distance, and Multi-Dialect Corpus for Speech Representation Disentanglement ( http://arxiv.org/abs/2306.15354v1 ) ライセンス: Link先を確認 | Siqi Zheng, Luyao Cheng, Yafeng Chen, Hui Wang, Qian Chen | (参考訳) 発話における非相関情報の拡散は、音声コミュニティにおいて重要な研究課題である。
異なる音声関連タスクは、他の非相関情報の影響を最小限に抑えながら、異なる音声表現を抽出することに焦点を当てる。
本稿では,音声表現のゆがみの研究を容易にするための大規模音声コーパスを提案する。
3D-Speakerには10,000人以上のスピーカーが含まれており、それぞれが複数のデバイスによって同時に記録され、異なる距離に配置されている。
多次元オーディオデータの制御された組み合わせは、多様な音声表現の絡み合いの混合のマトリックスを生じさせ、興味をそそる方法の動機付けとなる。
3D-Speakerのマルチドメインの性質は、ドメイン外学習と自己教師型学習の大規模な普遍的な音声モデルと実験方法を評価するのに適している。
https://3dspeaker.github.io/ Disentangling uncorrelated information in speech utterances is a crucial research topic within speech community. Different speech-related tasks focus on extracting distinct speech representations while minimizing the affects of other uncorrelated information. We present a large-scale speech corpus to facilitate the research of speech representation disentanglement. 3D-Speaker contains over 10,000 speakers, each of whom are simultaneously recorded by multiple Devices, locating at different Distances, and some speakers are speaking multiple Dialects. The controlled combinations of multi-dimensional audio data yield a matrix of a diverse blend of speech representation entanglement, thereby motivating intriguing methods to untangle them. The multi-domain nature of 3D-Speaker also makes it a suitable resource to evaluate large universal speech models and experiment methods of out-of-domain learning and self-supervised learning. https://3dspeaker.github.io/ | 翻訳日:2023-06-28 13:50:31 公開日:2023-06-27 |
# CellViT: 精密セル分割と分類のための視覚変換器 CellViT: Vision Transformers for Precise Cell Segmentation and Classification ( http://arxiv.org/abs/2306.15350v1 ) ライセンス: Link先を確認 | Fabian H\"orst, Moritz Rempe, Lukas Heine, Constantin Seibold, Julius Keyl, Giulia Baldini, Selma Ugurel, Jens Siveke, Barbara Gr\"unwald, Jan Egger, Jens Kleesiek | (参考訳) ヘマトキシリンおよびエオシン染色(H&E)組織像における核の検出とセグメンテーションは重要な臨床課題であり、幅広い用途に欠かせない。
しかし、染色やサイズ、重なり合う境界、核のクラスタリングにおける核のばらつきのため、これは難しい課題である。
このタスクには畳み込みニューラルネットワークが広く使用されているが、この領域におけるTransformerベースのネットワークの可能性を探る。
そこで本研究では,視覚トランスフォーマーに基づく深層学習アーキテクチャであるcellvitを用いて,デジタル化組織試料中の細胞核のインスタンス分割を自動化する新しい手法を提案する。
CellViTは、19種類の組織で5つの臨床的に重要なクラスに20万近い注釈を付けた核インスタンスセグメンテーションデータセットの1つであるPanNukeデータセットで訓練され、評価されている。
最近発表されたsegment anythingモデルとvit-encoderを104万のヒストロジー画像パッチで事前トレーニングし,pannukeデータセットにおける最先端の核検出とインスタンスセグメンテーション性能を0.51,f1検出スコア0.83とすることで,大規模インドメインおよびアウト・オブ・ドメイン事前学習視覚トランスフォーマの優位性を実証した。
コードはhttps://github.com/TIO-IKIM/CellViTで公開されている。 Nuclei detection and segmentation in hematoxylin and eosin-stained (H&E) tissue images are important clinical tasks and crucial for a wide range of applications. However, it is a challenging task due to nuclei variances in staining and size, overlapping boundaries, and nuclei clustering. While convolutional neural networks have been extensively used for this task, we explore the potential of Transformer-based networks in this domain. Therefore, we introduce a new method for automated instance segmentation of cell nuclei in digitized tissue samples using a deep learning architecture based on Vision Transformer called CellViT. CellViT is trained and evaluated on the PanNuke dataset, which is one of the most challenging nuclei instance segmentation datasets, consisting of nearly 200,000 annotated Nuclei into 5 clinically important classes in 19 tissue types. We demonstrate the superiority of large-scale in-domain and out-of-domain pre-trained Vision Transformers by leveraging the recently published Segment Anything Model and a ViT-encoder pre-trained on 104 million histological image patches - achieving state-of-the-art nuclei detection and instance segmentation performance on the PanNuke dataset with a mean panoptic quality of 0.51 and an F1-detection score of 0.83. The code is publicly available at https://github.com/TIO-IKIM/CellViT | 翻訳日:2023-06-28 13:50:15 公開日:2023-06-27 |
# SSC-RS: 表現分離とBEV融合によるLiDARセマンティックシーンコンプリート SSC-RS: Elevate LiDAR Semantic Scene Completion with Representation Separation and BEV Fusion ( http://arxiv.org/abs/2306.15349v1 ) ライセンス: Link先を確認 | Jianbiao Mei, Yu Yang, Mengmeng Wang, Tianxin Huang, Xuemeng Yang and Yong Liu | (参考訳) セマンティックシーン補完(SSC)は、自律運転システムにおいて3次元シーン理解において重要な役割を果たす3次元シーン全体の意味と幾何学を共同で予測する。
SSCはセグメンテーションにおける意味的文脈の助けを借りて急速に進歩した。
しかし、セマンティックセグメンテーションにおける意味文脈とシーン完了における幾何学構造との関係を効果的に活用する方法は、まだ探索中である。
本稿では,表現分離とBEV融合の観点から,屋外SSCを解くことを提案する。
具体的には,意味的および幾何学的表現の学習手順を明示的に切り離すために,より深い監督を伴う分割枝を用いたSC-RSというネットワークを提案する。
また,提案したAdaptive Representation Fusion (ARF)モジュールを備えたBEV融合ネットワークを提示し,マルチスケール特徴を効果的かつ効率的に集約する。
計算負荷の低さと強力な表現能力により,実時間実行時の汎用性が向上した。
SemanticKITTIに関する大規模な実験は、SSC-RSが最先端の性能を達成することを実証している。 Semantic scene completion (SSC) jointly predicts the semantics and geometry of the entire 3D scene, which plays an essential role in 3D scene understanding for autonomous driving systems. SSC has achieved rapid progress with the help of semantic context in segmentation. However, how to effectively exploit the relationships between the semantic context in semantic segmentation and geometric structure in scene completion remains under exploration. In this paper, we propose to solve outdoor SSC from the perspective of representation separation and BEV fusion. Specifically, we present the network, named SSC-RS, which uses separate branches with deep supervision to explicitly disentangle the learning procedure of the semantic and geometric representations. And a BEV fusion network equipped with the proposed Adaptive Representation Fusion (ARF) module is presented to aggregate the multi-scale features effectively and efficiently. Due to the low computational burden and powerful representation ability, our model has good generality while running in real-time. Extensive experiments on SemanticKITTI demonstrate our SSC-RS achieves state-of-the-art performance. | 翻訳日:2023-06-28 13:49:47 公開日:2023-06-27 |
# PANet: スパースインスタンスの提案と集約によるLiDARパノプティブセグメンテーション PANet: LiDAR Panoptic Segmentation with Sparse Instance Proposal and Aggregation ( http://arxiv.org/abs/2306.15348v1 ) ライセンス: Link先を確認 | Jianbiao Mei, Yu Yang, Mengmeng Wang, Xiaojun Hou, Laijian Li and Yong Liu | (参考訳) セマンティックとインスタンスセグメンテーションの両方を含む信頼性の高いLiDARパン光学セグメンテーション(LPS)は、自律運転など多くのロボットアプリケーションにとって不可欠である。
この研究は、PANetと呼ばれる新しいLPSフレームワークを提案し、オフセットブランチへの依存を排除し、クラスタリングアルゴリズムによって常に過剰に分離される大規模なオブジェクトのパフォーマンスを改善する。
まず,sip(non-learning sparse instance proposal)モジュールを提案する。``sampling-shifting-grouping' スキームを用いて,オブジェクトポイントを生のポイントクラウドからインスタンスに直接グループ化する。
より具体的には、距離範囲にわたってより均一な点分布を持つスパースシードポイントを生成するためにバランスの取れた点サンプリングを導入する。
バブルシフトと呼ばれるシフトモジュールは、集束された中心へのシードポイントを縮小するために提案される。
次に,コネクテッドコンポーネントラベルアルゴリズムを用いてインスタンスの提案を行う。
さらに、インスタンス集約モジュールは、潜在的に断片化されたインスタンスを統合するために考案され、大きなオブジェクト上のSIPモジュールのパフォーマンスが向上する。
広範な実験により、panetはsemantickitii検証とpanopticセグメンテーションタスクのnuscenesバリデーションに関する出版作品の中で最先端のパフォーマンスを達成していることが示された。 Reliable LiDAR panoptic segmentation (LPS), including both semantic and instance segmentation, is vital for many robotic applications, such as autonomous driving. This work proposes a new LPS framework named PANet to eliminate the dependency on the offset branch and improve the performance on large objects, which are always over-segmented by clustering algorithms. Firstly, we propose a non-learning Sparse Instance Proposal (SIP) module with the ``sampling-shifting-grouping" scheme to directly group thing points into instances from the raw point cloud efficiently. More specifically, balanced point sampling is introduced to generate sparse seed points with more uniform point distribution over the distance range. And a shift module, termed bubble shifting, is proposed to shrink the seed points to the clustered centers. Then we utilize the connected component label algorithm to generate instance proposals. Furthermore, an instance aggregation module is devised to integrate potentially fragmented instances, improving the performance of the SIP module on large objects. Extensive experiments show that PANet achieves state-of-the-art performance among published works on the SemanticKITII validation and nuScenes validation for the panoptic segmentation task. | 翻訳日:2023-06-28 13:49:29 公開日:2023-06-27 |
# fedet:強化トランスフォーマーに基づく通信効率の高いフェデレーションクラスインクリメンタル学習フレームワーク FedET: A Communication-Efficient Federated Class-Incremental Learning Framework Based on Enhanced Transformer ( http://arxiv.org/abs/2306.15347v1 ) ライセンス: Link先を確認 | Chenghao Liu and Xiaoyang Qu and Jianzong Wang and Jing Xiao | (参考訳) フェデレーション学習(fl)は、データのプライバシを確保しながら分散学習を可能にすることに広く関心を寄せている。
しかし、既存のほとんどのメソッドは非現実的に、ローカルクライアントが遭遇するクラスは時間とともに固定されると仮定している。
新しいクラスを学習した後、この仮定はモデルが古いクラスを壊滅的に忘れることになる。
さらに,通信コストの制限により,予測精度に影響を与える大規模モデルをFLで使用することは困難である。
これらの課題に対処するため,我々はFedET(Federated Enhanced Transformer)という新しいフレームワークを提案する。
具体的には、FedETは小さなモジュールであるEnhancerを使用して、新しい知識を吸収し、伝達し、さまざまなEnhancerと事前訓練されたトランスフォーマーを組み合わせて、さまざまなタスクに高い精度で適用する。
新たなタスクのクラスや非i.d(非独立で同一の分散)クラスの不均衡によるグローバルな忘れを各ローカルクライアントに分散させるため,従来の知識と新しい知識の不均衡を修正し,非i.d.問題を修復するエンハンサー蒸留法を提案した。
実験の結果、FedETのベンチマークデータセットの平均精度は最先端の手法よりも14.1%高く、FedETは以前の手法に比べて通信コストの90%を節約していることがわかった。 Federated Learning (FL) has been widely concerned for it enables decentralized learning while ensuring data privacy. However, most existing methods unrealistically assume that the classes encountered by local clients are fixed over time. After learning new classes, this assumption will make the model's catastrophic forgetting of old classes significantly severe. Moreover, due to the limitation of communication cost, it is challenging to use large-scale models in FL, which will affect the prediction accuracy. To address these challenges, we propose a novel framework, Federated Enhanced Transformer (FedET), which simultaneously achieves high accuracy and low communication cost. Specifically, FedET uses Enhancer, a tiny module, to absorb and communicate new knowledge, and applies pre-trained Transformers combined with different Enhancers to ensure high precision on various tasks. To address local forgetting caused by new classes of new tasks and global forgetting brought by non-i.i.d (non-independent and identically distributed) class imbalance across different local clients, we proposed an Enhancer distillation method to modify the imbalance between old and new knowledge and repair the non-i.i.d. problem. Experimental results demonstrate that FedET's average accuracy on representative benchmark datasets is 14.1% higher than the state-of-the-art method, while FedET saves 90% of the communication cost compared to the previous method. | 翻訳日:2023-06-28 13:49:07 公開日:2023-06-27 |
# 算数変換器における長さ一般化 Length Generalization in Arithmetic Transformers ( http://arxiv.org/abs/2306.15400v1 ) ライセンス: Link先を確認 | Samy Jelassi, St\'ephane d'Ascoli, Carles Domingo-Enrich, Yuhuai Wu, Yuanzhi Li, Fran\c{c}ois Charton | (参考訳) 本稿では,変圧器が基本的な整数演算を学習し,学習中に見られるよりも長い列に一般化する2つの課題について検討する。
5ドル桁の数値で訓練されたモデルは15ドル桁の和を実行することができる。
しかし、この手法は乗算に失敗するため、トレーニングセットにいくつかの長いシーケンス($10$から$50$)を追加するためのプリミングのトレインセットを提案する。
プライミングでは、トレーニングされたモデルが$35\times $\times$ $3$-digitの乗算によって35\times 3$の例に一般化できる。
また,異なる一般化長に対してモデルがプライミングされ,プライミングサンプルサイズはトレーニングセットサイズの対数としてスケールすることを示した。
最後に,算術以外のプライミングの応用の可能性について論じる。 We examine how transformers cope with two challenges: learning basic integer arithmetic, and generalizing to longer sequences than seen during training. We find that relative position embeddings enable length generalization for simple tasks, such as addition: models trained on $5$-digit numbers can perform $15$-digit sums. However, this method fails for multiplication, and we propose train set priming: adding a few ($10$ to $50$) long sequences to the training set. We show that priming allows models trained on $5$-digit $\times$ $3$-digit multiplications to generalize to $35\times 3$ examples. We also show that models can be primed for different generalization lengths, and that the priming sample size scales as the logarithm of the training set size. Finally, we discuss potential applications of priming beyond arithmetic. | 翻訳日:2023-06-28 13:44:02 公開日:2023-06-27 |
# 学習データからの直接的エビデンスに基づく機械翻訳テキストの品質評価 Quality Estimation of Machine Translated Texts based on Direct Evidence from Training Data ( http://arxiv.org/abs/2306.15399v1 ) ライセンス: Link先を確認 | Vibhuti Kumari, Narayana Murthy Kavi | (参考訳) 現在の機械翻訳システムは、増え続ける様々な言語ペアとデータセットで非常に良い結果を得る。
しかし現在では、しばしば重要な意味の誤りを含むような、流動的な翻訳出力を生成することが知られている。
品質推定タスクは、参照翻訳に依存することなく、機械翻訳システムによって生成された翻訳品質の推定を扱う。
長年にわたり、いくつかのアプローチが提案されてきた。
本稿では,MTシステムの学習用トレーニングデータとして使用される並列コーパスが,MTシステムの翻訳品質を推定するための直接的な手がかりを持っていることを示す。
実験の結果,本手法は純粋にデータ駆動型機械翻訳システムによって生成された翻訳の品質評価に有効であることがわかった。 Current Machine Translation systems achieve very good results on a growing variety of language pairs and data sets. However, it is now well known that they produce fluent translation outputs that often can contain important meaning errors. Quality Estimation task deals with the estimation of quality of translations produced by a Machine Translation system without depending on Reference Translations. A number of approaches have been suggested over the years. In this paper we show that the parallel corpus used as training data for training the MT system holds direct clues for estimating the quality of translations produced by the MT system. Our experiments show that this simple and direct method holds promise for quality estimation of translations produced by any purely data driven machine translation system. | 翻訳日:2023-06-28 13:43:37 公開日:2023-06-27 |
# 協調作業における人工知能の説明可能性と受容 Requirements for Explainability and Acceptance of Artificial Intelligence in Collaborative Work ( http://arxiv.org/abs/2306.15394v1 ) ライセンス: Link先を確認 | Sabine Theis, Sophie Jentzsch, Fotini Deligiannaki, Charles Berro, Arne Peter Raulf, Carmen Bruder | (参考訳) 航空交通管制のような安全クリティカルな文脈における人工知能(AI)の普及は、実用的で効率的なシステムをもたらし、ある程度人間に信頼と受け入れが可能である。
本稿では,aiの説明可能性と受容の要件について,n = 236の論文を考察する。
結果には、AIを説明可能なものとして知覚するために必要な情報、AIを受け入れるために必要な情報、AIへの信頼を促進する表現と相互作用の方法に関するn = 48の記事の包括的なレビューが含まれている。
その結果,モデルの内部操作に関する情報を必要とする開発者と,AI結果や行動に関する情報を必要とするエンドユーザの2つの主要なグループが示唆された。
ユーザの情報のニーズは特異性、複雑さ、緊急性によって異なり、コンテキスト、ドメイン知識、ユーザの認知リソースを考慮する必要がある。
aiシステムの受容は、システムの機能とパフォーマンス、プライバシと倫理的配慮に関する情報と、システムの信頼を確立するための個人の選好と情報に合わせた目標支援情報に依存する。
システムの制限や潜在的な失敗に関する情報は、受け入れと信頼を高めることができる。
信頼された相互作用法は、自然言語、スピーチ、テキスト、グラフ、チャート、アニメーションなどの視覚表現を含む人間に似たものである。
我々の結果は、将来の人間中心AIシステムに重大な影響を及ぼす。
したがって、ユーザニーズのさらなるアプリケーション固有の調査のインプットとして適しています。 The increasing prevalence of Artificial Intelligence (AI) in safety-critical contexts such as air-traffic control leads to systems that are practical and efficient, and to some extent explainable to humans to be trusted and accepted. The present structured literature analysis examines n = 236 articles on the requirements for the explainability and acceptance of AI. Results include a comprehensive review of n = 48 articles on information people need to perceive an AI as explainable, the information needed to accept an AI, and representation and interaction methods promoting trust in an AI. Results indicate that the two main groups of users are developers who require information about the internal operations of the model and end users who require information about AI results or behavior. Users' information needs vary in specificity, complexity, and urgency and must consider context, domain knowledge, and the user's cognitive resources. The acceptance of AI systems depends on information about the system's functions and performance, privacy and ethical considerations, as well as goal-supporting information tailored to individual preferences and information to establish trust in the system. Information about the system's limitations and potential failures can increase acceptance and trust. Trusted interaction methods are human-like, including natural language, speech, text, and visual representations such as graphs, charts, and animations. Our results have significant implications for future human-centric AI systems being developed. Thus, they are suitable as input for further application-specific investigations of user needs. | 翻訳日:2023-06-28 13:43:28 公開日:2023-06-27 |
# 自動エンコーダ処理空間における決定木特性によるデータセット品質評価 Assessing Dataset Quality Through Decision Tree Characteristics in Autoencoder-Processed Spaces ( http://arxiv.org/abs/2306.15392v1 ) ライセンス: Link先を確認 | Szymon Mazurek, Maciej Wielgosz | (参考訳) 本稿では,機械学習分類タスクにおけるデータセット品質評価の批判的側面について考察する。
さまざまな9つの異なるデータセットを活用し、それぞれがさまざまな複雑性レベルを持つ分類タスクのために作られ、データセットの品質がモデルトレーニングとパフォーマンスに与える影響を説明している。
さらに,エントロピーの最大化と冗長性の向上という,特定のデータ条件を表現するように設計された2つのデータセットも導入する。
本研究は、高パフォーマンス機械学習モデルを実現する上で、適切な特徴選択、適切なデータ量、およびデータ品質の重要性を強調する。
研究者や実践者を支援するために,手前のデータセットが十分かどうか,特定のタスクに必要な品質を評価できる,データセット品質評価のための包括的なフレームワークを提案する。
この研究は、データアセスメントの実践に関する貴重な洞察を提供し、より正確で堅牢な機械学習モデルの開発に寄与する。 In this paper, we delve into the critical aspect of dataset quality assessment in machine learning classification tasks. Leveraging a variety of nine distinct datasets, each crafted for classification tasks with varying complexity levels, we illustrate the profound impact of dataset quality on model training and performance. We further introduce two additional datasets designed to represent specific data conditions - one maximizing entropy and the other demonstrating high redundancy. Our findings underscore the importance of appropriate feature selection, adequate data volume, and data quality in achieving high-performing machine learning models. To aid researchers and practitioners, we propose a comprehensive framework for dataset quality assessment, which can help evaluate if the dataset at hand is sufficient and of the required quality for specific tasks. This research offers valuable insights into data assessment practices, contributing to the development of more accurate and robust machine learning models. | 翻訳日:2023-06-28 13:43:07 公開日:2023-06-27 |
# DCP-NAS: 1ビットCNNにおける子領域ニューラルアーキテクチャ探索 DCP-NAS: Discrepant Child-Parent Neural Architecture Search for 1-bit CNNs ( http://arxiv.org/abs/2306.15390v1 ) ライセンス: Link先を確認 | Yanjing Li, Sheng Xu, Xianbin Cao, Li'an Zhuo, Baochang Zhang, Tian Wang, Guodong Guo | (参考訳) ニューラルアーキテクチャサーチ(NAS)は、アプリケーション適応型ニューラルアーキテクチャを生成することで、多くのタスクにおいて効果的なアプローチの1つであることが証明されている。
同時に、バイナリ重みとアクティベーションを備えた1ビット畳み込みニューラルネットワーク(CNN)は、リソース制限された組み込みデバイスの可能性を示している。
一つの自然なアプローチは、1ビットのcnnを使用して計算コストとnasのメモリコストを削減することであるが、1ビットのcnnの検索はより複雑なプロセスによってより困難である。
本稿では、実数値モデル(Parent)の監督のもと、1ビットモデル(Child)を探索する新しい枠組みに基づいて、1ビットCNNを効率的に探索するDisdisrepant Child-Parent Neural Architecture Search (DCP-NAS)を提案する。
特に,最適化された1ビット子を探索するタンジェント伝搬法を導入し,まず親モデルを用いてタンジェント方向を算出する。
このような微分可能なフレームワークに存在する重みとアーキテクチャパラメータの結合関係をさらに観察する。
そこで本研究では,最適化アーキテクチャを探索する分離最適化手法を提案する。
DCP-NASは,CIFAR-10データセットとImageNetデータセットの両方において,先行技術よりもはるかに優れた結果が得られることを示した。
特に, DCP-NASにより達成されたバックボーンは, 人物の再識別と物体検出において, 強力な一般化性能を発揮する。 Neural architecture search (NAS) proves to be among the effective approaches for many tasks by generating an application-adaptive neural architecture, which is still challenged by high computational cost and memory consumption. At the same time, 1-bit convolutional neural networks (CNNs) with binary weights and activations show their potential for resource-limited embedded devices. One natural approach is to use 1-bit CNNs to reduce the computation and memory cost of NAS by taking advantage of the strengths of each in a unified framework, while searching the 1-bit CNNs is more challenging due to the more complicated processes involved. In this paper, we introduce Discrepant Child-Parent Neural Architecture Search (DCP-NAS) to efficiently search 1-bit CNNs, based on a new framework of searching the 1-bit model (Child) under the supervision of a real-valued model (Parent). Particularly, we first utilize a Parent model to calculate a tangent direction, based on which the tangent propagation method is introduced to search the optimized 1-bit Child. We further observe a coupling relationship between the weights and architecture parameters existing in such differentiable frameworks. To address the issue, we propose a decoupled optimization method to search an optimized architecture. Extensive experiments demonstrate that our DCP-NAS achieves much better results than prior arts on both CIFAR-10 and ImageNet datasets. In particular, the backbones achieved by our DCP-NAS achieve strong generalization performance on person re-identification and object detection. | 翻訳日:2023-06-28 13:42:53 公開日:2023-06-27 |
# フェイク音声検出のためのRandomSpecmixを用いたマルチパースペクティブ情報融合Res2Net Multi-perspective Information Fusion Res2Net with RandomSpecmix for Fake Speech Detection ( http://arxiv.org/abs/2306.15389v1 ) ライセンス: Link先を確認 | Shunbo Dong, Jun Xue, Cunhang Fan, Kang Zhu, Yujie Chen, Zhao Lv | (参考訳) 本稿では,偽音声検出(FSD)のためのランダムなSpecmixを用いたMPIF (Multi-perspective Information fusion) Res2Netを提案する。
本システムの主な目的は、低品質シナリオにおけるFSDタスクの正確な偽情報学習能力を向上させることである。
データ拡張であるランダム・スペックミックスのタスクは、モデルの一般化能力を高め、モデルの識別情報を見つける能力を高めることである。
specmixは、同じサンプルでスペクトログラムの周波数次元情報をカット&ペーストすることで、他のデータを導入することなく、モデルが本当に有用な情報を見つけるのに役立ちます。
同時に、データ拡張のサンプルをランダムに選択して、すべてのデータを直接変更するデータ拡張の影響を低減する。
モデルが情報を見つけるのを助ける目的が達成されれば、不要な情報を減らすことも重要である。
MPIF-Res2Netの役割は、冗長な干渉情報を減らすことである。
単一視点からの偽情報は常に類似しており、この類似情報を学ぶモデルは冗長な偽情報を生成し、真に差別的な情報を妨害する。
提案するmpif-res2netは,異なる視点から情報を融合させ,モデルが学習する情報をより多様化し,類似情報による冗長性を低減し,識別情報の学習への干渉を回避する。
ASVspoof 2021 LAデータセットの結果は,提案手法の有効性を示し,EERとmin-tDCFはそれぞれ3.29%,0.2557であった。 In this paper, we propose the multi-perspective information fusion (MPIF) Res2Net with random Specmix for fake speech detection (FSD). The main purpose of this system is to improve the model's ability to learn precise forgery information for FSD task in low-quality scenarios. The task of random Specmix, a data augmentation, is to improve the generalization ability of the model and enhance the model's ability to locate discriminative information. Specmix cuts and pastes the frequency dimension information of the spectrogram in the same batch of samples without introducing other data, which helps the model to locate the really useful information. At the same time, we randomly select samples for augmentation to reduce the impact of data augmentation directly changing all the data. Once the purpose of helping the model to locate information is achieved, it is also important to reduce unnecessary information. The role of MPIF-Res2Net is to reduce redundant interference information. Deceptive information from a single perspective is always similar, so the model learning this similar information will produce redundant spoofing clues and interfere with truly discriminative information. The proposed MPIF-Res2Net fuses information from different perspectives, making the information learned by the model more diverse, thereby reducing the redundancy caused by similar information and avoiding interference with the learning of discriminative information. The results on the ASVspoof 2021 LA dataset demonstrate the effectiveness of our proposed method, achieving EER and min-tDCF of 3.29% and 0.2557, respectively. | 翻訳日:2023-06-28 13:42:09 公開日:2023-06-27 |
# TrickVOS:ビデオオブジェクトセグメンテーションのためのトリックの袋 TrickVOS: A Bag of Tricks for Video Object Segmentation ( http://arxiv.org/abs/2306.15377v1 ) ライセンス: Link先を確認 | Evangelos Skartados, Konstantinos Georgiadis, Mehmet Kerim Yucel, Koskinas Ioannis, Armando Domi, Anastasios Drosou, Bruno Manganelli, Albert Sa`a-Garriga | (参考訳) 空間時間メモリ(STM)ネットワーク手法は,その性能上,半教師付きビデオオブジェクトセグメンテーション(SVOS)において支配的であった。
本研究では,このような手法を改良できる3つの重要な側面を同定する。
一 監督信号
二 事前訓練及び訓練
iii) 空間意識。
次に、各側面に対処できる汎用的なメソッドに依存しないトリックバッグであるtrickvosを提案する。
一 構造対応ハイブリッド損失
二 簡易復号機事前訓練体制及び
三 モデル予測に空間的制約を課す安価な追跡装置
最後に、軽量なネットワークを提案し、TrickVOSでトレーニングすると、DAVISとYouTubeベンチマークの最先端メソッドと競合する結果が得られ、モバイルデバイス上でリアルタイムに実行できるSTMベースのSVOSメソッドの1つであることを示す。 Space-time memory (STM) network methods have been dominant in semi-supervised video object segmentation (SVOS) due to their remarkable performance. In this work, we identify three key aspects where we can improve such methods; i) supervisory signal, ii) pretraining and iii) spatial awareness. We then propose TrickVOS; a generic, method-agnostic bag of tricks addressing each aspect with i) a structure-aware hybrid loss, ii) a simple decoder pretraining regime and iii) a cheap tracker that imposes spatial constraints in model predictions. Finally, we propose a lightweight network and show that when trained with TrickVOS, it achieves competitive results to state-of-the-art methods on DAVIS and YouTube benchmarks, while being one of the first STM-based SVOS methods that can run in real-time on a mobile device. | 翻訳日:2023-06-28 13:41:05 公開日:2023-06-27 |
# 会話における感情認識のための擬似未来文脈の展開 Exploiting Pseudo Future Contexts for Emotion Recognition in Conversations ( http://arxiv.org/abs/2306.15376v1 ) ライセンス: Link先を確認 | Yinyi Wei, Shuaipeng Liu, Hailei Yan, Wei Ye, Tong Mo, Guanglu Wan | (参考訳) インターネット上での会話データの蓄積により、会話における感情認識(ERC)が注目されている。
このタスクの以前の取り組みは、主に文脈と話者特有の特徴の活用、または異種外部コモンセンスの知識の統合に焦点を当てていた。
そのうちのいくつかは将来の状況に大きく依存しているが、現実のシナリオでは必ずしも利用できない。
この事実は、ercを改善するために疑似未来コンテキストを生成することを促します。
具体的には,従来の言語モデルと同質な会話形式に付加的な有益な知識を含む可能性のある,事前学習された言語モデルを用いた未来の文脈を生成する。
これらの特徴は、疑似将来の文脈を歴史的文脈や歴史的話者特有の文脈と容易に融合させ、概念的に単純な枠組みを体系的にマルチコンテキストに統合する。
4つのercデータセットにおける実験結果から,本手法の優越性が示された。
さらなる詳細な分析により、疑似未来コンテキストは、特に比較的コンテキストに依存しない会話において、現実のコンテキストとある程度競合することが判明した。 With the extensive accumulation of conversational data on the Internet, emotion recognition in conversations (ERC) has received increasing attention. Previous efforts of this task mainly focus on leveraging contextual and speaker-specific features, or integrating heterogeneous external commonsense knowledge. Among them, some heavily rely on future contexts, which, however, are not always available in real-life scenarios. This fact inspires us to generate pseudo future contexts to improve ERC. Specifically, for an utterance, we generate its future context with pre-trained language models, potentially containing extra beneficial knowledge in a conversational form homogeneous with the historical ones. These characteristics make pseudo future contexts easily fused with historical contexts and historical speaker-specific contexts, yielding a conceptually simple framework systematically integrating multi-contexts. Experimental results on four ERC datasets demonstrate our method's superiority. Further in-depth analyses reveal that pseudo future contexts can rival real ones to some extent, especially in relatively context-independent conversations. | 翻訳日:2023-06-28 13:40:45 公開日:2023-06-27 |
# LeCo: シリアル相関学習による軽量圧縮 LeCo: Lightweight Compression via Learning Serial Correlations ( http://arxiv.org/abs/2306.15374v1 ) ライセンス: Link先を確認 | Yihao Liu, Xinyu Zeng, Huanchen Zhang | (参考訳) 軽量データ圧縮は、カラムストアが分析クエリのパフォーマンスを向上する鍵となる技術である。
シャノンのエントロピーに近づくための辞書ベースのエンコーディングに関する包括的な研究にもかかわらず、圧縮のための列のシリアル相関を体系的に利用した先行研究はほとんどない。
本稿では,機械学習を用いて値列の連続冗長性を自動的に除去し,優れた圧縮率と減圧縮性能を同時に達成するフレームワークであるleco(すなわち学習圧縮)を提案する。
LeCoはこの目的に対して一般的なアプローチを示し、既存の(アドホックな)アルゴリズムであるFrame-of-Reference(FOR)、Delta Encoding(Delta Encoding)、Run-Length Encoding(RLE)をフレームワークの下に置く。
3つの合成データと6つの実世界のデータセットを持つマイクロベンチマークは、lecoのプロトタイプが既存のソリューションよりも圧縮比とランダムアクセス速度の両方においてparetoの改善を達成していることを示している。
LeCoを広く使われているアプリケーションに組み込むと、Parquetファイルのフィルタスキャンで最大3.9倍のスピードで、Rocksdbのスループットは16%向上する。 Lightweight data compression is a key technique that allows column stores to exhibit superior performance for analytical queries. Despite a comprehensive study on dictionary-based encodings to approach Shannon's entropy, few prior works have systematically exploited the serial correlation in a column for compression. In this paper, we propose LeCo (i.e., Learned Compression), a framework that uses machine learning to remove the serial redundancy in a value sequence automatically to achieve an outstanding compression ratio and decompression performance simultaneously. LeCo presents a general approach to this end, making existing (ad-hoc) algorithms such as Frame-of-Reference (FOR), Delta Encoding, and Run-Length Encoding (RLE) special cases under our framework. Our microbenchmark with three synthetic and six real-world data sets shows that a prototype of LeCo achieves a Pareto improvement on both compression ratio and random access speed over the existing solutions. When integrating LeCo into widely-used applications, we observe up to 3.9x speed up in filter-scanning a Parquet file and a 16% increase in Rocksdb's throughput. | 翻訳日:2023-06-28 13:40:27 公開日:2023-06-27 |
# ソフトウェア欠陥予測のためのナイーブベイズとランダム森林のメタ解析的比較 A Meta-analytical Comparison of Naive Bayes and Random Forest for Software Defect Prediction ( http://arxiv.org/abs/2306.15369v1 ) ライセンス: Link先を確認 | Ch Muhammad Awais, Wei Gu, Gcinizwe Dlamini, Zamira Kholmatova, Giancarlo Succi | (参考訳) Naive BayesとRandom Forestの間には、ソフトウェア欠陥のリコール、F測定、精度の統計的違いがあるのだろうか?
体系的な文献レビューとメタ分析を活用することで、この問題に答える。
論文の検索と選択の基準を定め,体系的な文献レビューを行い,5つの研究結果を得た。
その後,5つの論文のメタデータとフォレストプロットを用いて,2つのモデルを比較するメタ分析を行った。
その結果,ナイーブベイズがランサムフォレストと異なり,リコール,F測定,精度の点で異なるという有意な統計的証拠は得られなかった。 Is there a statistical difference between Naive Bayes and Random Forest in terms of recall, f-measure, and precision for predicting software defects? By utilizing systematic literature review and meta-analysis, we are answering this question. We conducted a systematic literature review by establishing criteria to search and choose papers, resulting in five studies. After that, using the meta-data and forest-plots of five chosen papers, we conducted a meta-analysis to compare the two models. The results have shown that there is no significant statistical evidence that Naive Bayes perform differently from Random Forest in terms of recall, f-measure, and precision. | 翻訳日:2023-06-28 13:40:06 公開日:2023-06-27 |
# スマートフォン内蔵センサデータを用いたユーザの社会的状況と身近な場所のオンデバイスモデリング On-device modeling of user's social context and familiar places from smartphone-embedded sensor data ( http://arxiv.org/abs/2306.15437v1 ) ライセンス: Link先を確認 | Mattia Giovanni Campana, Franca Delmastro | (参考訳) コンテキストモデリングと認識は、適応型モバイルおよびユビキタスコンピューティングに不可欠である。
モバイル環境におけるコンテキスト認識は、文脈変化に対する迅速な反応に依存する。
しかし、現在のソリューションは、集中型アーキテクチャで処理される限られたコンテキスト情報、プライバシー漏洩のリスク、パーソナライゼーションの欠如に焦点を当てている。
オンデバイスコンテキストモデリングと認識は、これらの懸念に対処する新たな研究トレンドである。
社会的な交流と訪問場所は日常生活のシナリオを特徴づける重要な役割を担っている。
本稿では,ユーザの社会的状況や位置を直接モバイルデバイス上でモデル化する,教師なしで軽量なアプローチを提案する。
このシステムは、ego-networkモデルを利用して、スマートフォンに埋め込まれたセンサーデータから高レベルで意味豊かなコンテキスト特徴を抽出する。
ソーシャルなコンテキストにおいて、このアプローチはユーザーとそのデバイス間の物理的およびサイバーなソーシャルインタラクションのデータを利用する。
位置に関して、gps座標や近接デバイスなどの生の位置データよりも特定の場所の親密度のモデル化を優先する。
提案手法の有効性は,実世界の5つのデータセットを用いた3つの実験により実証された。
これらの実験は,ソーシャルネットワークとロケーションエゴネットワークの構造を評価し,提案モデルの意味的評価を行い,モバイルコンピューティングの性能を評価する。
最後に,3つの機械学習モデルの性能向上により,日常の状況を認識することで,抽出した特徴の関連性を示す。
物理的なコンテキストに関連する機能のみを使用する場合と比較して、提案手法はAUROCが3%改善し、精度が9%、リコールが5%向上した。 Context modeling and recognition are crucial for adaptive mobile and ubiquitous computing. Context-awareness in mobile environments relies on prompt reactions to context changes. However, current solutions focus on limited context information processed on centralized architectures, risking privacy leakage and lacking personalization. On-device context modeling and recognition are emerging research trends, addressing these concerns. Social interactions and visited locations play significant roles in characterizing daily life scenarios. This paper proposes an unsupervised and lightweight approach to model the user's social context and locations directly on the mobile device. Leveraging the ego-network model, the system extracts high-level, semantic-rich context features from smartphone-embedded sensor data. For the social context, the approach utilizes data on physical and cyber social interactions among users and their devices. Regarding location, it prioritizes modeling the familiarity degree of specific locations over raw location data, such as GPS coordinates and proximity devices. The effectiveness of the proposed approach is demonstrated through three sets of experiments, employing five real-world datasets. These experiments evaluate the structure of social and location ego networks, provide a semantic evaluation of the proposed models, and assess mobile computing performance. Finally, the relevance of the extracted features is showcased by the improved performance of three machine learning models in recognizing daily-life situations. Compared to using only features related to physical context, the proposed approach achieves a 3% improvement in AUROC, 9% in Precision, and 5% in Recall. | 翻訳日:2023-06-28 13:32:35 公開日:2023-06-27 |
# KnowPrefix-Tuning:知識付き対話生成のための2段階事前修正フレームワーク KnowPrefix-Tuning: A Two-Stage Prefix-Tuning Framework for Knowledge-Grounded Dialogue Generation ( http://arxiv.org/abs/2306.15430v1 ) ライセンス: Link先を確認 | Jiaqi Bai, Zhao Yan, Jian Yang, Xinnian Liang, Hongcheng Guo, Zhoujun Li | (参考訳) 既存のナレッジ・グラウンド・会話システムは、通常、レトリーブ・ザ・ジェネレーション方式で応答を生成する。
膨大な知識ベースと、時間とリソースを要する強力な知識検索コンポーネントが必要です。
本稿では,事前学習言語モデル(PLM)に符号化された固有知識を活用することで,課題に対処する。
本稿では,知識接地会話システムにおける検索プロセスを回避し,知識接頭辞に事前知識を注入する二段階チューニングフレームワークである知識有頭辞チューニング(knowprefix-tuning,knowprefix-tuning,knowprefix-tuning,knowprefix-tuning)を提案する。
知識接頭辞は、訓練中に学習できる連続した知識固有のベクトルの列である。
さらに,応答生成の最適化において,プレフィックスがplmと完全に相互作用できる新しい対話型再パラメータ化機構を提案する。
実験の結果、KnowPrefix-Tuningは微調整や他の軽量チューニング手法より優れており、推論中に3/times$の高速さで強力な検索ベースラインと互換性があることがわかった。 Existing knowledge-grounded conversation systems generate responses typically in a retrieve-then-generate manner. They require a large knowledge base and a strong knowledge retrieval component, which is time- and resource-consuming. In this paper, we address the challenge by leveraging the inherent knowledge encoded in the pre-trained language models (PLMs). We propose Knowledgeable Prefix Tuning (KnowPrefix-Tuning), a two-stage tuning framework, bypassing the retrieval process in a knowledge-grounded conversation system by injecting prior knowledge into the lightweight knowledge prefix. The knowledge prefix is a sequence of continuous knowledge-specific vectors that can be learned during training. In addition, we propose a novel interactive re-parameterization mechanism that allows the prefix to interact fully with the PLM during the optimization of response generation. Experimental results demonstrate that KnowPrefix-Tuning outperforms fine-tuning and other lightweight tuning approaches, and performs comparably with strong retrieval-based baselines while being $3\times$ faster during inference. | 翻訳日:2023-06-28 13:32:12 公開日:2023-06-27 |
# グラフニューラルネットワークの逆学習 Adversarial Training for Graph Neural Networks ( http://arxiv.org/abs/2306.15427v1 ) ライセンス: Link先を確認 | Lukas Gosch and Simon Geisler and Daniel Sturm and Bertrand Charpentier and Daniel Z\"ugner and Stephan G\"unnemann | (参考訳) 画像領域での成功にもかかわらず、敵対的トレーニングはグラフ構造摂動に対するグラフニューラルネットワーク(GNN)の効果的な防御として際立っているわけではない。
In the pursuit of fixing adversarial training (1) we show and overcome fundamental theoretical as well as practical limitations of the adopted graph learning setting in prior work; (2) we reveal that more flexible GNNs based on learnable graph diffusion are able to adjust to adversarial perturbations, while the learned message passing scheme is naturally interpretable; (3) we introduce the first attack for structure perturbations that, while targeting multiple nodes at once, is capable of handling global (graph-level) as well as local (node-level) constraints.
これらの貢献を含め、敵の訓練が対人構造摂動に対する最先端の防御であることを示す。 Despite its success in the image domain, adversarial training does not (yet) stand out as an effective defense for Graph Neural Networks (GNNs) against graph structure perturbations. In the pursuit of fixing adversarial training (1) we show and overcome fundamental theoretical as well as practical limitations of the adopted graph learning setting in prior work; (2) we reveal that more flexible GNNs based on learnable graph diffusion are able to adjust to adversarial perturbations, while the learned message passing scheme is naturally interpretable; (3) we introduce the first attack for structure perturbations that, while targeting multiple nodes at once, is capable of handling global (graph-level) as well as local (node-level) constraints. Including these contributions, we demonstrate that adversarial training is a state-of-the-art defense against adversarial structure perturbations. | 翻訳日:2023-06-28 13:31:52 公開日:2023-06-27 |
# 心臓スペクトルの位相空間解析 Phase Space Analysis of Cardiac Spectra ( http://arxiv.org/abs/2306.15425v1 ) ライセンス: Link先を確認 | Onder Pekcan, Taner Arsan | (参考訳) 心臓病は、近代的で工業化された社会における死亡の主な原因の1つであり、公衆衛生システムに高い費用がかかる。
したがって、心臓診断を改善する分析方法を開発することが重要である。
心臓の電気的活動は非線形微分方程式を用いて最初にモデル化された。
決定論的力学から生じる心スペクトルの変動について検討した。
正常なヒト心臓のパワースペクトルを分析し、フラクタルのような構造を持つHis-Purkinjeネットワークを示す。
ECGの時系列グラフから位相空間軌跡を抽出する。
フラクタル次元の低い値 D はよりコヒーレントな力学を示す。
d が 2 以上の非整数値を持つ場合、系がカオス的あるいは奇妙なアトラクタになる。
近年,多チャンネル生理学的信号に適用可能な高速で堅牢な手法の開発が報告されている。
本論文は,正常心と異常心の2種類の心電図システムについて検討し,心疾患診断のための補助相空間法と心電図信号の併用について述べる。
ここで、各人のデータは、それぞれv_4および修飾鉛iii(mliii)に基づく2つの信号を含む。
位相空間に構築された軌道に対してフラクタル解析法を用い、そこからボックスカウント法を用いてフラクタル次元Dを求める。
MLIII信号は第1信号(V_4)よりもD値が大きく、よりランダムでより多くの情報を予測する。
d (1.708) の最低値は正常心の完全振動を示し、d (1.863) の最高値は異常心のランダム性を示す。
私たちの重要な発見は、位相空間図が心電図スペクトルからのピーク高さの分布を示し、心電図と連動して心臓活動に関する貴重な情報を与えることである。 Cardiac diseases are one of the main reasons of mortality in modern, industrialized societies, and they cause high expenses in public health systems. Therefore, it is important to develop analytical methods to improve cardiac diagnostics. Electric activity of heart was first modeled by using a set of nonlinear differential equations. Latter, variations of cardiac spectra originated from deterministic dynamics are investigated. Analyzing the power spectra of a normal human heart presents His-Purkinje network, possessing a fractal like structure. Phase space trajectories are extracted from the time series graph of ECG. Lower values of fractal dimension, D indicate dynamics that are more coherent. If D has non-integer values greater than two when the system becomes chaotic or strange attractor. Recently, the development of a fast and robust method, which can be applied to multichannel physiologic signals, was reported. This manuscript investigates two different ECG systems produced from normal and abnormal human hearts to introduce an auxiliary phase space method in conjunction with ECG signals for diagnoses of heart diseases. Here, the data for each person includes two signals based on V_4 and modified lead III (MLIII) respectively. Fractal analysis method is employed on the trajectories constructed in phase space, from which the fractal dimension D is obtained using the box counting method. It is observed that, MLIII signals have larger D values than the first signals (V_4), predicting more randomness yet more information. The lowest value of D (1.708) indicates the perfect oscillation of the normal heart and the highest value of D (1.863) presents the randomness of the abnormal heart. Our significant finding is that the phase space picture presents the distribution of the peak heights from the ECG spectra, giving valuable information about heart activities in conjunction with ECG. | 翻訳日:2023-06-28 13:31:40 公開日:2023-06-27 |
# フリースタイル・高速3次元ポートレート合成 Free-style and Fast 3D Portrait Synthesis ( http://arxiv.org/abs/2306.15419v1 ) ライセンス: Link先を確認 | Tianxiang Ma, Kang Zhao, Jianxin Sun, Jing Dong, Tieniu Tan | (参考訳) 高品質で一貫性のあるフリースタイルの3Dポートレートを効果的に生成することは、有望だが難しい課題だ。
既存のほとんどのメソッドで生成されるポートレートスタイルは通常、FFHQのような特定の顔データセットで学習される3Dジェネレータによって制限される。
フリースタイルの3Dポートレートを得るには、大規模なマルチスタイルデータベースを構築して3Dジェネレータを再トレーニングするか、あるいはオフザシェルフツールを使ってスタイル翻訳を行うことができる。
しかし、データ収集とトレーニングプロセスのために前者は時間がかかり、後者はマルチビューの一貫性を損なう可能性がある。
この問題に対処するため,本論文では,テキストプロンプトを用いてスタイルを指定可能な高速な3次元肖像画合成フレームワークを提案する。
具体的には、3d対応ganジェネレータ (eg3d) とテキスト誘導画像エディタ (ip2p) の2つの生成前処理を利用して、数発のトレーニングセットを迅速に構築し、ip2pの推論プロセスを最適化し、編集をより安定させる。
次に、EG3Dの原型三葉機を2つの目的のためにImage-to-Triplane (I2T)モジュールに置き換える。
1) 少数ショットデータセット上でI2Tを微調整することにより,事前訓練したEG3Dのスタイル制約を解消する。
2) I2Tを除くEG3Dのすべての部分の固定による訓練効率の向上。
さらに,本手法のスケーラビリティと一般化を実証するために,マルチスタイルかつマルチidentity 3dポートレートデータベースを構築した。
実験の結果,高品質な3dポートレートを数分で合成でき,最新技術に匹敵することがわかった。 Efficiently generating a free-style 3D portrait with high quality and consistency is a promising yet challenging task. The portrait styles generated by most existing methods are usually restricted by their 3D generators, which are learned in specific facial datasets, such as FFHQ. To get a free-style 3D portrait, one can build a large-scale multi-style database to retrain the 3D generator, or use a off-the-shelf tool to do the style translation. However, the former is time-consuming due to data collection and training process, the latter may destroy the multi-view consistency. To tackle this problem, we propose a fast 3D portrait synthesis framework in this paper, which enable one to use text prompts to specify styles. Specifically, for a given portrait style, we first leverage two generative priors, a 3D-aware GAN generator (EG3D) and a text-guided image editor (Ip2p), to quickly construct a few-shot training set, where the inference process of Ip2p is optimized to make editing more stable. Then we replace original triplane generator of EG3D with a Image-to-Triplane (I2T) module for two purposes: 1) getting rid of the style constraints of pre-trained EG3D by fine-tuning I2T on the few-shot dataset; 2) improving training efficiency by fixing all parts of EG3D except I2T. Furthermore, we construct a multi-style and multi-identity 3D portrait database to demonstrate the scalability and generalization of our method. Experimental results show that our method is capable of synthesizing high-quality 3D portraits with specified styles in a few minutes, outperforming the state-of-the-art. | 翻訳日:2023-06-28 13:31:13 公開日:2023-06-27 |
# 波動関数と3次元空間の関係は、局所的可逆性と確率を持つ多くの世界を意味する The Relation between Wavefunction and 3D Space Implies Many Worlds with Local Beables and Probabilities ( http://arxiv.org/abs/2306.15417v1 ) ライセンス: Link先を確認 | Ovidiu Cristinel Stoica | (参考訳) 量子波動汎関数は測度によって集約された3次元空間上の古典場の集合として見ることができる。
古典的局所的可換性の観点から波動関数の完全な記述を得る。
この対応により、マクロレベルと確率の古典的な説明は、ほぼ直接量子に転移する。
重要な違いは、量子論において古典状態は平行に共存するので、確率は自己位置の不確かさから生じる。
これらの状態はボルン則に従って分布することを示す。
古典的状態の共存は、崩壊仮定を仮定しても、多くの世界が存在することを意味する。
これにより、多くの異論が自然に扱われる多世界解釈の新バージョンが自動的に作成される。
バックグラウンドフリーな量子重力は、この提案にさらなるサポートを提供し、なぜ分岐が起こるのかを示唆する。 We show that the quantum wavefunctional can be seen as a set of classical fields on the 3D space aggregated by a measure. We obtain a complete description of the wavefunctional in terms of classical local beables. With this correspondence, classical explanations of the macro level and of probabilities transfer almost directly to the quantum. A key difference is that, in quantum theory, the classical states coexist in parallel, so the probabilities come from self-location uncertainty. We show that these states are distributed according to the Born rule. The coexistence of classical states implies that there are many worlds, even if we assume the collapse postulate. This leads automatically to a new version of the many-worlds interpretation in which the major objections are addressed naturally. We show that background-free quantum gravity provides additional support for this proposal and suggests why branching happens toward the future. | 翻訳日:2023-06-28 13:30:45 公開日:2023-06-27 |
# 学習した位置認識記述子と点対ボクセルによるスパース双時間点雲の不規則変化検出 Irregular Change Detection in Sparse Bi-Temporal Point Clouds using Learned Place Recognition Descriptors and Point-to-Voxel Comparison ( http://arxiv.org/abs/2306.15416v1 ) ライセンス: Link先を確認 | Nikolaos Stathoulopoulos, Anton Koval and George Nikolakopoulos | (参考訳) 3Dポイントクラウドにおける変化検出と不規則なオブジェクト抽出は、自律的なナビゲーションだけでなく、様々な産業環境の既存のデジタルツインモデルを更新する上でも重要な課題である。
本稿では,voxel-to-point比較に基づく深層学習位置認識記述子と不規則物体抽出を用いた3次元点雲における変化検出手法を提案する。
提案手法はまず,共通座標フレームを確立するために,マップマージアルゴリズムを用いて両時間点雲を配向する。
そして、ディープラーニング技術を用いて、3Dポイントクラウドスキャンからロバストで差別的な特徴を抽出し、連続するポイントクラウドフレーム間の変化を検知し、変化した領域を見つける。
最後に、変化した領域をサンプリングし、2つのインスタンス間で比較し、その領域が変化した障害を抽出する。
提案手法は実世界の実地実験で評価され,オブジェクトやmuck-pileの付加・変位などの3次元点雲の異なる種類の変化を検知し,その効果を示した。
本研究は, 建設現場における安全・安全監視, 地図作成, 調査, 今後の研究方向性など, 様々な応用に重要な影響を示唆するものである。 Change detection and irregular object extraction in 3D point clouds is a challenging task that is of high importance not only for autonomous navigation but also for updating existing digital twin models of various industrial environments. This article proposes an innovative approach for change detection in 3D point clouds using deep learned place recognition descriptors and irregular object extraction based on voxel-to-point comparison. The proposed method first aligns the bi-temporal point clouds using a map-merging algorithm in order to establish a common coordinate frame. Then, it utilizes deep learning techniques to extract robust and discriminative features from the 3D point cloud scans, which are used to detect changes between consecutive point cloud frames and therefore find the changed areas. Finally, the altered areas are sampled and compared between the two time instances to extract any obstructions that caused the area to change. The proposed method was successfully evaluated in real-world field experiments, where it was able to detect different types of changes in 3D point clouds, such as object or muck-pile addition and displacement, showcasing the effectiveness of the approach. The results of this study demonstrate important implications for various applications, including safety and security monitoring in construction sites, mapping and exploration and suggests potential future research directions in this field. | 翻訳日:2023-06-28 13:30:33 公開日:2023-06-27 |
# パラメトリックPDEを解くための量子フーリエネットワーク Quantum Fourier Networks for Solving Parametric PDEs ( http://arxiv.org/abs/2306.15415v1 ) ライセンス: Link先を確認 | Nishant Jain, Jonas Landman, Natansh Mathur, Iordanis Kerenidis | (参考訳) 実世界の多くの問題、例えばモデリング環境力学、物理プロセス、時系列などは、問題固有の条件によってパラメータ化された部分微分方程式(PDE)を解決する。
近年、FNO(Fourier Neural Operator)と呼ばれるディープラーニングアーキテクチャは、入力としての初期条件に対して与えられたPDEファミリーの解を学習できることが判明した。
しかし、これはテスト中のPDEの評価回数に線形な時間複雑性をもたらす。
量子ハードウェアの進歩と近年の量子機械学習手法の成果を踏まえ、これらによって提供される実行効率を活用し、古典的なFNOにインスパイアされた量子アルゴリズムを提案する。
その中核として、一元符号化パラダイムと直交量子層を用い、一元的に量子フーリエ変換を行うための回路を導入する。
量子fnoを行うための3つの異なる量子回路を提案する。
提案は、その深さと古典 fno との類似性によって異なる。
また,提案手法を,バーガーズ方程式,ダーシー流方程式,ナビエ・ストークス方程式の3つのpde系で評価した。
その結果,我々の量子法は古典的FNOに匹敵する性能を示した。
また,提案手法が古典的cnnの性能に匹敵する小規模画像分類タスクの解析を行い,他の領域にも適用可能であることを証明した。 Many real-world problems, like modelling environment dynamics, physical processes, time series etc., involve solving Partial Differential Equations (PDEs) parameterised by problem-specific conditions. Recently, a deep learning architecture called Fourier Neural Operator (FNO) proved to be capable of learning solutions of given PDE families for any initial conditions as input. However, it results in a time complexity linear in the number of evaluations of the PDEs while testing. Given the advancements in quantum hardware and the recent results in quantum machine learning methods, we exploit the running efficiency offered by these and propose quantum algorithms inspired by the classical FNO, which result in time complexity logarithmic in the number of evaluations and are, therefore, expected to be substantially faster than their classical counterpart. At their core, we use the unary encoding paradigm and orthogonal quantum layers and introduce a circuit to perform quantum Fourier transform in the unary basis. We propose three different quantum circuits to perform a quantum FNO. The proposals differ in their depth and their similarity to the classical FNO. We also benchmark our proposed algorithms on three PDE families, namely Burgers' equation, Darcy's flow equation and the Navier-Stokes equation. The results show that our quantum methods are comparable in performance to the classical FNO. We also perform an analysis on small-scale image classification tasks where our proposed algorithms are at par with the performance of classical CNNs, proving their applicability to other domains as well. | 翻訳日:2023-06-28 13:30:10 公開日:2023-06-27 |
# AutoGraph:交通観測からレーングラフを予測する AutoGraph: Predicting Lane Graphs from Traffic Observations ( http://arxiv.org/abs/2306.15410v1 ) ライセンス: Link先を確認 | Jannik Z\"urn and Ingmar Posner and Wolfram Burgard | (参考訳) レーングラフ推定は、自律運転における長年の問題である。
それまでの作業は、大規模で手書きのレーングラフを頼りにすることで、この問題を解決するためのトレーニングモデルのためのデータボトルネックを導入していた。
この制限を克服するため,交通参加者の動作パターンをレーングラフアノテーションとして利用することを提案する。
オートグラフアプローチでは,事前トレーニングされたオブジェクトトラッカを使用して,車両やトラックなどのトラヒック参加者のトラックレットを収集します。
これらのトラックレットの位置に基づいて、人間の監督を必要としないオーバーヘッドRGB画像のみを用いて、後続車線グラフを初期位置から予測する。
その後の段階では、個々の後続予測を一貫したレーングラフに集約する方法を示す。
筆者らは,UrbanLaneGraphデータセットに対するアプローチの有効性を実証し,手書きグラフデータに基づいてトレーニングしたモデルとAutoGraphが同等であることを示す。
モデルとデータセットは再検討で利用可能になる。 Lane graph estimation is a long-standing problem in the context of autonomous driving. Previous works aimed at solving this problem by relying on large-scale, hand-annotated lane graphs, introducing a data bottleneck for training models to solve this task. To overcome this limitation, we propose to use the motion patterns of traffic participants as lane graph annotations. In our AutoGraph approach, we employ a pre-trained object tracker to collect the tracklets of traffic participants such as vehicles and trucks. Based on the location of these tracklets, we predict the successor lane graph from an initial position using overhead RGB images only, not requiring any human supervision. In a subsequent stage, we show how the individual successor predictions can be aggregated into a consistent lane graph. We demonstrate the efficacy of our approach on the UrbanLaneGraph dataset and perform extensive quantitative and qualitative evaluations, indicating that AutoGraph is on par with models trained on hand-annotated graph data. Model and dataset will be made available at redacted-for-review. | 翻訳日:2023-06-28 13:29:45 公開日:2023-06-27 |
# トポロジカル視点から見たニューラルネットワークの安全性検証 Verifying Safety of Neural Networks from Topological Perspectives ( http://arxiv.org/abs/2306.15403v1 ) ライセンス: Link先を確認 | Zhen Liang, Dejin Ren, Bai Xue, Ji Wang, Wenjing Yang and Wanwei Liu | (参考訳) ニューラルネットワーク(NN)は、自動運転車のような安全クリティカルなシステムにますます適用されている。
しかし、それらは脆弱であり、しばしば悪用される。
したがって、彼らの振る舞いは、実際にデプロイする前に厳格な保証を受けるべきである。
本稿では, NNの安全性検証問題に対するトポロジ的視点から検討する, 集合境界到達可能性法を提案する。
入力セットと安全セットを有するNNが与えられた場合、安全検証問題は、入力セットから生じるNNの出力が安全セットに該当するかどうかを決定することである。
本手法では, 入力集合の境界と出力集合の境界との間の厳密な保証を確立するため, NNの同相性および開写像特性を主に活用する。
これら2つの特性の活用により、入力セット全体ではなく、入力セットのサブセットを抽出することで、到達可能性解析におけるラップ効果を制御し、安全性検証のための計算負担の軽減を容易にする。
可逆残留ネットワーク (i-ResNets) やニューラル常微分方程式 (Neural ordinary differential equations) など、広く使われているいくつかのNNには同型性があり、開写像は同型性よりもより厳密で満足しやすい。
NNがこれらの特性のいずれかを確立するためには、セット境界到達可能性法は入力集合の境界における到達可能性解析のみを実行する必要がある。
さらに、入力集合に関してこれらの特性を特徴付けないNNに対して、局所同相性を確立するための入力集合の部分集合を探索し、到達可能性計算のためにこれらの部分集合を放棄する。
最後に,提案手法の性能を示す例を示す。 Neural networks (NNs) are increasingly applied in safety-critical systems such as autonomous vehicles. However, they are fragile and are often ill-behaved. Consequently, their behaviors should undergo rigorous guarantees before deployment in practice. In this paper, we propose a set-boundary reachability method to investigate the safety verification problem of NNs from a topological perspective. Given an NN with an input set and a safe set, the safety verification problem is to determine whether all outputs of the NN resulting from the input set fall within the safe set. In our method, the homeomorphism property and the open map property of NNs are mainly exploited, which establish rigorous guarantees between the boundaries of the input set and the boundaries of the output set. The exploitation of these two properties facilitates reachability computations via extracting subsets of the input set rather than the entire input set, thus controlling the wrapping effect in reachability analysis and facilitating the reduction of computation burdens for safety verification. The homeomorphism property exists in some widely used NNs such as invertible residual networks (i-ResNets) and Neural ordinary differential equations (Neural ODEs), and the open map is a less strict property and easier to satisfy compared with the homeomorphism property. For NNs establishing either of these properties, our set-boundary reachability method only needs to perform reachability analysis on the boundary of the input set. Moreover, for NNs that do not feature these properties with respect to the input set, we explore subsets of the input set for establishing the local homeomorphism property and then abandon these subsets for reachability computations. Finally, some examples demonstrate the performance of the proposed method. | 翻訳日:2023-06-28 13:29:28 公開日:2023-06-27 |
# 協力・競争:適応予算による多目的ロバストネスのプレイヤー支配を回避する Cooperation or Competition: Avoiding Player Domination for Multi-Target Robustness via Adaptive Budgets ( http://arxiv.org/abs/2306.15482v1 ) ライセンス: Link先を確認 | Yimu Wang, Dinghuai Zhang, Yihan Wu, Heng Huang, Hongyang Zhang | (参考訳) 驚くべき進歩にもかかわらず、深い学習は敵の攻撃を受けやすいことが示されている。
実証的および証明的にロバストなネットワークを訓練するための多くのアプローチが提案されている。
しかし、そのほとんどは1種類の攻撃に対してのみ防御するが、最近の研究は複数の攻撃に対して防御を行うための一歩を踏み出している。
本稿では,多目的ロバスト性を理解するために,パラメータ更新のジョイント方向に関する合意に達するために,異なるプレイヤー(敵)が交渉する交渉ゲームとしてこの問題を考察する。
我々は,バーゲティングゲームにおいて,MAXやMSDといった既存のマックスベースアプローチが収束しない現象を,プレイヤーが支配する現象を特定する。
理論的解析に基づいて,プレイヤーの優位性を回避するために,異なる敵の予算を調整する新しい枠組みを設計する。
標準ベンチマーク実験では,提案手法を既存手法に適用することで,多目的ロバスト性が著しく向上することが示された。 Despite incredible advances, deep learning has been shown to be susceptible to adversarial attacks. Numerous approaches have been proposed to train robust networks both empirically and certifiably. However, most of them defend against only a single type of attack, while recent work takes steps forward in defending against multiple attacks. In this paper, to understand multi-target robustness, we view this problem as a bargaining game in which different players (adversaries) negotiate to reach an agreement on a joint direction of parameter updating. We identify a phenomenon named player domination in the bargaining game, namely that the existing max-based approaches, such as MAX and MSD, do not converge. Based on our theoretical analysis, we design a novel framework that adjusts the budgets of different adversaries to avoid any player dominance. Experiments on standard benchmarks show that employing the proposed framework to the existing approaches significantly advances multi-target robustness. | 翻訳日:2023-06-28 13:23:26 公開日:2023-06-27 |
# 予測符号化による因果推論 Causal Inference via Predictive Coding ( http://arxiv.org/abs/2306.15479v1 ) ライセンス: Link先を確認 | Tommaso Salvatori, Luca Pinchetti, Amine M'Charrak, Beren Millidge, Thomas Lukasiewicz | (参考訳) ベイジアンと因果推論は知能の基本的なプロセスである。
ベイズ推論モデル 観測: 関連する変数 x を観測すれば y について何を推測できるだろうか?
因果推論モデル 介入: 直接 x を変更すると、y はどのように変化するか?
予測符号化は、局所情報のみを使用して連続状態変数のベイズ推論を実行するための神経科学に触発された手法である。
本研究では,ベイズ推定を超越し,因果グラフが知られているシナリオにおいて,予測符号化の推論過程の単純な変化が介入的および反事実的推論を可能にしていることを示す。
そして、この結果を拡張し、このグラフが未知のケースにどのように予測的コーディングを一般化できるかを示し、データから推論し、因果発見を行う。
結果は、予測コーディングに基づく構造因果モデルでエンドツーエンド因果推論を実行し、機械学習の潜在的な用途にその有用性を示す、新規で分かりやすいテクニックである。 Bayesian and causal inference are fundamental processes for intelligence. Bayesian inference models observations: what can be inferred about y if we observe a related variable x? Causal inference models interventions: if we directly change x, how will y change? Predictive coding is a neuroscience-inspired method for performing Bayesian inference on continuous state variables using local information only. In this work, we go beyond Bayesian inference, and show how a simple change in the inference process of predictive coding enables interventional and counterfactual inference in scenarios where the causal graph is known. We then extend our results, and show how predictive coding can be generalized to cases where this graph is unknown, and has to be inferred from data, hence performing causal discovery. What results is a novel and straightforward technique that allows us to perform end-to-end causal inference on predictive-coding-based structural causal models, and demonstrate its utility for potential applications in machine learning. | 翻訳日:2023-06-28 13:23:11 公開日:2023-06-27 |
# 医療用物体検出用タンピング検出トランス Taming Detection Transformers for Medical Object Detection ( http://arxiv.org/abs/2306.15472v1 ) ライセンス: Link先を確認 | Marc K. Ickler, Michael Baumgartner, Saikat Roy, Tassilo Wald, Klaus H. Maier-Hein | (参考訳) 医療画像中の疑わしい領域の正確な検出は、多くの定期的な診断手順で必要とされる、エラーを起こしやすい、時間を要するプロセスである。
この困難な作業で臨床医を支援するために、多くのハイパーパラメータを持つ複雑な方法に依存するいくつかの自動化ソリューションが提案された。
本研究では,量的医学的対象検出のための検出TR(Detection TRansformer)モデルの有効性について検討した。
従来の研究とは対照的に、これらのモデルは、オブジェクトを検出するために、アンカーの設計や非最大圧縮のような手動のヒューリスティックに頼ることなく、オブジェクトの集合を直接予測する。
4つのデータセット(cada, ribfrac, kits19, lidc)について、detr, conditional detr, dino detrの3つのモデルを用いて広範な実験を行い、これらの予測モデルが既存の手法と同等あるいはそれ以上の性能を発揮することを示した。
我々の実験で最も優れたモデルであるDINO DETRは、4つのデータセットのうち3つで強力なアンカーベースの1段階検出器であるRetina U-Netよりも優れた性能を示す。 The accurate detection of suspicious regions in medical images is an error-prone and time-consuming process required by many routinely performed diagnostic procedures. To support clinicians during this difficult task, several automated solutions were proposed relying on complex methods with many hyperparameters. In this study, we investigate the feasibility of DEtection TRansformer (DETR) models for volumetric medical object detection. In contrast to previous works, these models directly predict a set of objects without relying on the design of anchors or manual heuristics such as non-maximum-suppression to detect objects. We show by conducting extensive experiments with three models, namely DETR, Conditional DETR, and DINO DETR on four data sets (CADA, RibFrac, KiTS19, and LIDC) that these set prediction models can perform on par with or even better than currently existing methods. DINO DETR, the best-performing model in our experiments demonstrates this by outperforming a strong anchor-based one-stage detector, Retina U-Net, on three out of four data sets. | 翻訳日:2023-06-28 13:22:56 公開日:2023-06-27 |
# ビデオ音声合成のための大規模教師なし音声事前学習 Large-scale unsupervised audio pre-training for video-to-speech synthesis ( http://arxiv.org/abs/2306.15464v1 ) ライセンス: Link先を確認 | Triantafyllos Kefalas, Yannis Panagakis, Maja Pantic | (参考訳) 音声合成は、話者の無声映像から音声信号を再構成する作業である。
現在確立されているほとんどのアプローチは、2段階のプロセスであり、ビデオからの中間表現であるスペクトログラムが最初に抽出され、次にヴォコーダに渡されて生のオーディオが生成される。
最近の研究は、生音声と任意の中間表現の生成を共同で行うエンドツーエンド合成に焦点を当てている。
これらのアプローチはすべて、ほぼ独占的なオーディオ-視覚データセットのデータ、すなわち、すべてのオーディオサンプルが対応するビデオサンプルを持つデータのトレーニングを含む。
これにより、対応する視覚的モダリティ(例えば、オーディオブック、ラジオポッドキャスト、音声認識データセットなど)を持たない豊富なオーディオのみのデータセットや、オーディオ機械学習コミュニティによって長年開発されてきたオーディオのみのアーキテクチャの使用が妨げられる。
本稿では,24khzで3500時間以上の音声データに対してエンコーダ・デコーダモデルをトレーニングし,事前学習したデコーダを用いて音声デコーダを初期化する手法を提案する。
事前学習ステップは、オーディオサンプルのみを使用し、他のモダリティ(視覚、テキスト)からのラベルや対応するサンプルを必要としない。
我々は,この事前学習段階が再構成された音声を改善し,一方のモダリティからのサンプルを必要とせず,クロスモーダルタスクにおける生成器の品質を向上させるための未熟な方法であることを実証する。
ターゲット出力として生オーディオとメルスペクトログラムの両方を用いて実験を行い、既存の作業でモデルをベンチマークする。 Video-to-speech synthesis is the task of reconstructing the speech signal from a silent video of a speaker. Most established approaches to date involve a two-step process, whereby an intermediate representation from the video, such as a spectrogram, is extracted first and then passed to a vocoder to produce the raw audio. Some recent work has focused on end-to-end synthesis, whereby the generation of raw audio and any intermediate representations is performed jointly. All such approaches involve training on data from almost exclusively audio-visual datasets, i.e. every audio sample has a corresponding video sample. This precludes the use of abundant audio-only datasets which may not have a corresponding visual modality (e.g. audiobooks, radio podcasts, speech recognition datasets etc.), as well as audio-only architectures that have been developed by the audio machine learning community over the years. In this paper we propose to train encoder-decoder models on more than 3,500 hours of audio data at 24kHz, and then use the pre-trained decoders to initialize the audio decoders for the video-to-speech synthesis task. The pre-training step uses audio samples only and does not require labels or corresponding samples from other modalities (visual, text). We demonstrate that this pre-training step improves the reconstructed speech and that it is an unexplored way to improve the quality of the generator in a cross-modal task while only requiring samples from one of the modalities. We conduct experiments using both raw audio and mel spectrograms as target outputs and benchmark our models with existing work. | 翻訳日:2023-06-28 13:22:36 公開日:2023-06-27 |
# robust proxy: robust proxy learningによる敵対的ロバスト性の改善 Robust Proxy: Improving Adversarial Robustness by Robust Proxy Learning ( http://arxiv.org/abs/2306.15457v1 ) ライセンス: Link先を確認 | Hong Joo Lee, Yong Man Ro | (参考訳) 近年、ディープニューラルネットワークは敵の攻撃によって非常に脆弱で容易に破壊されることが広く知られている。
敵の脆弱性を軽減するため、多くの防御アルゴリズムが提案されている。
近年, 敵対的ロバスト性を改善するため, 識別的特徴に対してより直接的な監督を行うことで, 特徴表現の強化を試みている。
しかし、既存のアプローチでは、逆向きに堅牢な特徴表現を学習する理解が欠如している。
本稿では,ロバストプロキシ学習と呼ばれる新しい学習フレームワークを提案する。
提案手法では,ロバストなプロキシを持つロバストな特徴表現を明示的に学習する。
この目的のために,まず,クラス毎にロバストな摂動を追加することで,クラス表現型ロバストな特徴を生成できることを実証する。
次に、クラス代表機能を堅牢なプロキシとして使用します。
クラスレベルでの堅牢な機能では、提案された堅牢なプロキシ学習フレームワークを通じて、逆向きの堅牢な機能を明示的に学習する。
広範な実験を通じて、手動で堅牢な特徴を生成できることを確認し、提案する学習フレームワークにより、DNNの堅牢性を高めることができる。 Recently, it has been widely known that deep neural networks are highly vulnerable and easily broken by adversarial attacks. To mitigate the adversarial vulnerability, many defense algorithms have been proposed. Recently, to improve adversarial robustness, many works try to enhance feature representation by imposing more direct supervision on the discriminative feature. However, existing approaches lack an understanding of learning adversarially robust feature representation. In this paper, we propose a novel training framework called Robust Proxy Learning. In the proposed method, the model explicitly learns robust feature representations with robust proxies. To this end, firstly, we demonstrate that we can generate class-representative robust features by adding class-wise robust perturbations. Then, we use the class representative features as robust proxies. With the class-wise robust features, the model explicitly learns adversarially robust features through the proposed robust proxy learning framework. Through extensive experiments, we verify that we can manually generate robust features, and our proposed learning framework could increase the robustness of the DNNs. | 翻訳日:2023-06-28 13:22:09 公開日:2023-06-27 |
# ブースター信号注入による対人訓練の促進 Advancing Adversarial Training by Injecting Booster Signal ( http://arxiv.org/abs/2306.15451v1 ) ライセンス: Link先を確認 | Hong Joo Lee, Youngjoon Yu, Yong Man Ro | (参考訳) 近年の研究では、ディープニューラルネットワーク(DNN)が敵の攻撃に対して非常に脆弱であることが示されている。
敵の攻撃から守るために、多くの防衛戦略が提案されており、敵の訓練が最も効果的な戦略であることが示されている。
しかし、逆行訓練が自然の精度を損なうことが知られている。
その後、多くの作業が問題に対処するためにモデルパラメータの最適化に焦点を当てている。
本稿では,従来の手法とは異なり,モデルパラメータではなく外部信号を用いることで,対向ロバスト性を改善するための新しい手法を提案する。
提案手法では、ブースター信号と呼ばれる最適化された普遍的な外部信号が画像の外側に注入され、元のコンテンツと重複しない。
そして、敵対的堅牢性と自然な精度の両方を高める。
ブースター信号は、モデルパラメータを段階的にステップバイステップに並列に最適化される。
実験の結果, ブースタ信号は, 近年の対向訓練法よりも, 自然的, 強固なアキュラティーを向上できることがわかった。
また、ブースター信号の最適化は、既存の敵の訓練方法にも適用できるほど一般的かつ柔軟である。 Recent works have demonstrated that deep neural networks (DNNs) are highly vulnerable to adversarial attacks. To defend against adversarial attacks, many defense strategies have been proposed, among which adversarial training has been demonstrated to be the most effective strategy. However, it has been known that adversarial training sometimes hurts natural accuracy. Then, many works focus on optimizing model parameters to handle the problem. Different from the previous approaches, in this paper, we propose a new approach to improve the adversarial robustness by using an external signal rather than model parameters. In the proposed method, a well-optimized universal external signal called a booster signal is injected into the outside of the image which does not overlap with the original content. Then, it boosts both adversarial robustness and natural accuracy. The booster signal is optimized in parallel to model parameters step by step collaboratively. Experimental results show that the booster signal can improve both the natural and robust accuracies over the recent state-of-the-art adversarial training methods. Also, optimizing the booster signal is general and flexible enough to be adopted on any existing adversarial training methods. | 翻訳日:2023-06-28 13:21:52 公開日:2023-06-27 |
# EPIC-Kitchens-100 Multi-Instance Retrieval Challenge 2023参加報告 UniUD Submission to the EPIC-Kitchens-100 Multi-Instance Retrieval Challenge 2023 ( http://arxiv.org/abs/2306.15445v1 ) ライセンス: Link先を確認 | Alex Falcon, Giuseppe Serra | (参考訳) 本稿では,EPIC-Kitchens-100 Multi-Instance Retrieval Challenge 2023への提出の技術的詳細について述べる。
この課題に参加するために,トレーニングデータの25%に2つの異なる損失関数を訓練した2つのモデルを整理した。
我々の投稿は、公開リーダーボードに表示され、平均スコアは56.81% ndcg と 42.63% である。 In this report, we present the technical details of our submission to the EPIC-Kitchens-100 Multi-Instance Retrieval Challenge 2023. To participate in the challenge, we ensembled two models trained with two different loss functions on 25% of the training data. Our submission, visible on the public leaderboard, obtains an average score of 56.81% nDCG and 42.63% mAP. | 翻訳日:2023-06-28 13:21:19 公開日:2023-06-27 |
# 非漸近的超線形収束率を持つリミテッドメモリグリーディ準ニュートン法 Limited-Memory Greedy Quasi-Newton Method with Non-asymptotic Superlinear Convergence Rate ( http://arxiv.org/abs/2306.15444v1 ) ライセンス: Link先を確認 | Zhan Gao and Aryan Mokhtari and Alec Koppel | (参考訳) 準ニュートン法の非漸近収束解析は、o$((1/\sqrt{t})^t)$という明示的な超線形率を確立して注目されている。
しかし、この速度を得る方法にはよく知られた欠点があり、それらは以前のヘッセン近似行列の保存を必要とするか、現在のヘッセン逆近似を形成するために過去の曲率情報を全て保存する必要がある。
有名なL-BFGSのような準ニュートン法は、過去の曲率情報の限られた窓を利用してヘッセン逆近似を構築することでこの問題を緩和する。
結果として、イテレーション毎の複雑性とストレージ要件は O$(\tau d)$ であり、$\tau \le d$ はウィンドウのサイズであり、$d$ は O$(d^2)$ の計算コストと標準準ニュートン法のメモリ要件を減らす問題次元である。
しかしながら、我々の知る限り、任意の限定メモリ準ニュートン法に対して非漸近超線形収束率を示す結果は存在しない。
本研究では,非漸近的スーパーリニアレートを達成するための限定メモリの bfgs (lg-bfgs) 法を提案することで,このギャップを解消する。
本研究では, 変形後の勾配変動に, 変位分布, すなわちデコリレーション射影を組み込むとともに, ヘシアン推定の進捗測度を真のヘッシアンにグレッシィに最大化する可変変動に対する基底ベクトル選択スキームを組み込んだ。
それらの組み合わせにより、過去の曲率情報はスパース部分空間に留まり、完全な歴史の有効な表現が得られる。
興味深いことに、確立された非漸近超線形収束率は、我々の知る限りでは最初の収束速度とメモリ要求のトレードオフを示している。
数値実験の結果から,本手法の有効性が示唆された。 Non-asymptotic convergence analysis of quasi-Newton methods has gained attention with a landmark result establishing an explicit superlinear rate of O$((1/\sqrt{t})^t)$. The methods that obtain this rate, however, exhibit a well-known drawback: they require the storage of the previous Hessian approximation matrix or instead storing all past curvature information to form the current Hessian inverse approximation. Limited-memory variants of quasi-Newton methods such as the celebrated L-BFGS alleviate this issue by leveraging a limited window of past curvature information to construct the Hessian inverse approximation. As a result, their per iteration complexity and storage requirement is O$(\tau d)$ where $\tau \le d$ is the size of the window and $d$ is the problem dimension reducing the O$(d^2)$ computational cost and memory requirement of standard quasi-Newton methods. However, to the best of our knowledge, there is no result showing a non-asymptotic superlinear convergence rate for any limited-memory quasi-Newton method. In this work, we close this gap by presenting a limited-memory greedy BFGS (LG-BFGS) method that achieves an explicit non-asymptotic superlinear rate. We incorporate displacement aggregation, i.e., decorrelating projection, in post-processing gradient variations, together with a basis vector selection scheme on variable variations, which greedily maximizes a progress measure of the Hessian estimate to the true Hessian. Their combination allows past curvature information to remain in a sparse subspace while yielding a valid representation of the full history. Interestingly, our established non-asymptotic superlinear convergence rate demonstrates a trade-off between the convergence speed and memory requirement, which to our knowledge, is the first of its kind. Numerical results corroborate our theoretical findings and demonstrate the effectiveness of our method. | 翻訳日:2023-06-28 13:21:12 公開日:2023-06-27 |
# ノーマライズドアテンションとデュアルスケールインタラクションによる非サービスレール表面欠陥セグメンテーション No-Service Rail Surface Defect Segmentation via Normalized Attention and Dual-scale Interaction ( http://arxiv.org/abs/2306.15442v1 ) ライセンス: Link先を確認 | Gongyang Li and Chengjun Han and Zhi Liu | (参考訳) ノーサービスレール表面欠陥(NRSD)セグメンテーションは、ノーサービスレールの品質を知覚するための重要な方法である。
しかし,非サービスレールの複雑で多彩なアウトラインと低コントラストテクスチャのため,既存の自然画像分割法はNRSD画像,特に独特で困難なNRSDシーンにおいて有望な性能を達成できない。
そこで本稿では,正規化注意とデュアルスケールインタラクションに基づくNRSDのための新しいセグメンテーションネットワークNaDiNetを提案する。
具体的には、NaDiNetは拡張-相互作用パラダイムに従う。
正規化チャネルワイドセルフアテンションモジュール(NAM)とデュアルスケールインタラクションブロック(DIB)は、NaDiNetの2つの重要なコンポーネントである。
NAMは、低コントラストNRSD画像から抽出した特徴を高めるために、チャネルワイド自己保持機構(CAM)の特定の拡張である。
CAMのソフトマックス層は、低コントラスト特性向上に寄与しない非常に小さな相関係数を生成する。
その代わり、namではチャネル間の正規化相関係数を直接計算し、特徴分化を拡大する。
DIBは、拡張された機能のフィーチャインタラクションのために特別に設計されている。
双対のスケールを持つ2つの相互作用枝があり、1つは細かな手掛かり、もう1つは粗い手掛かりである。
両方のブランチが連携することで、dibは異なる粒度の欠陥領域を知覚することができる。
これらのモジュールが連携することで、NaDiNetは正確なセグメンテーションマップを生成することができます。
人為的および自然的NRSDを用いた公開NRSD-MNデータセットの広範な実験により,提案したNaDiNetのバックボーン(VGG,ResNet,DenseNet)は,常に10の最先端の手法より優れていることが示された。
このメソッドのコードと結果は、https://github.com/monxxcn/nadinet.comで入手できる。 No-service rail surface defect (NRSD) segmentation is an essential way for perceiving the quality of no-service rails. However, due to the complex and diverse outlines and low-contrast textures of no-service rails, existing natural image segmentation methods cannot achieve promising performance in NRSD images, especially in some unique and challenging NRSD scenes. To this end, in this paper, we propose a novel segmentation network for NRSDs based on Normalized Attention and Dual-scale Interaction, named NaDiNet. Specifically, NaDiNet follows the enhancement-interaction paradigm. The Normalized Channel-wise Self-Attention Module (NAM) and the Dual-scale Interaction Block (DIB) are two key components of NaDiNet. NAM is a specific extension of the channel-wise self-attention mechanism (CAM) to enhance features extracted from low-contrast NRSD images. The softmax layer in CAM will produce very small correlation coefficients which are not conducive to low-contrast feature enhancement. Instead, in NAM, we directly calculate the normalized correlation coefficient between channels to enlarge the feature differentiation. DIB is specifically designed for the feature interaction of the enhanced features. It has two interaction branches with dual scales, one for fine-grained clues and the other for coarse-grained clues. With both branches working together, DIB can perceive defect regions of different granularities. With these modules working together, our NaDiNet can generate accurate segmentation map. Extensive experiments on the public NRSD-MN dataset with man-made and natural NRSDs demonstrate that our proposed NaDiNet with various backbones (i.e., VGG, ResNet, and DenseNet) consistently outperforms 10 state-of-the-art methods. The code and results of our method are available at https://github.com/monxxcn/NaDiNet. | 翻訳日:2023-06-28 13:20:41 公開日:2023-06-27 |
# シミュレーションによる系統作物のナビゲーションベンチマークと知覚データ生成の強化 Enhancing Navigation Benchmarking and Perception Data Generation for Row-based Crops in Simulation ( http://arxiv.org/abs/2306.15517v1 ) ライセンス: Link先を確認 | Mauro Martini, Andrea Eirale, Brenno Tuberga, Marco Ambrosio, Andrea Ostuni, Francesco Messina, Luigi Mazzara, Marcello Chiaberge | (参考訳) service roboticsは最近、効率的な自律ナビゲーションソリューションに基づいた多くの自動化プロセスを可能にする精密農業を強化している。
しかし、データ生成と内界検証は大規模な自律プラットフォームの発展を妨げる。
シミュレーション環境と深い視覚知覚は、低コストのRGB-Dカメラによる堅牢なナビゲーションの開発をスピードアップする成功ツールとして普及している。
この文脈では、この研究の貢献は2つある: ナビゲーションアルゴリズムを高速に評価するための仮想シナリオの集合とともに、深いセマンティックセグメンテーションネットワークを訓練する合成データセットである。
さらに、異なるフィールドジオメトリや特徴を探索するための自動パラメトリックアプローチも開発されている。
シミュレーションフレームワークとデータセットは、異なる作物の深いセグメンテーションネットワークをトレーニングし、その結果のナビゲーションをベンチマークすることで評価されている。 Service robotics is recently enhancing precision agriculture enabling many automated processes based on efficient autonomous navigation solutions. However, data generation and infield validation campaigns hinder the progress of large-scale autonomous platforms. Simulated environments and deep visual perception are spreading as successful tools to speed up the development of robust navigation with low-cost RGB-D cameras. In this context, the contribution of this work is twofold: a synthetic dataset to train deep semantic segmentation networks together with a collection of virtual scenarios for a fast evaluation of navigation algorithms. Moreover, an automatic parametric approach is developed to explore different field geometries and features. The simulation framework and the dataset have been evaluated by training a deep segmentation network on different crops and benchmarking the resulting navigation. | 翻訳日:2023-06-28 13:12:55 公開日:2023-06-27 |
# Voxelsとのメッシュ: 異方性変形による腹部臓器の分節 Meshes Meet Voxels: Abdominal Organ Segmentation via Diffeomorphic Deformations ( http://arxiv.org/abs/2306.15515v1 ) ライセンス: Link先を確認 | Fabian Bongratz, Anne-Marie Rickmann, Christian Wachinger | (参考訳) CTとMRIによる腹部多臓器分割は,手術計画とコンピュータ支援ナビゲーションシステムにとって必須の要件である。
腹部形状の三次元数値表現は, 定量的, 統計学的にさらに重要である。
しかし、既存の手法では、滑らかで位相的に正しい、テンプレート上のポイントにマッチする高度に正確な3d表現を抽出できない。
本研究では,腹部臓器に対する新しい微分型形状変形法であるUNetFlowを提案する。
UNetFlowは3次元形状抽出のためのボクセルベースのアプローチとメッシュベースのアプローチの利点を組み合わせたものだ。
以上の結果より,手動注記CTデータに対する精度が向上し,従来法と比較して位相的正確性が向上した。
また,MRIへのUNetFlowの一般化について述べる。 Abdominal multi-organ segmentation from CT and MRI is an essential prerequisite for surgical planning and computer-aided navigation systems. Three-dimensional numeric representations of abdominal shapes are further important for quantitative and statistical analyses thereof. Existing methods in the field, however, are unable to extract highly accurate 3D representations that are smooth, topologically correct, and match points on a template. In this work, we present UNetFlow, a novel diffeomorphic shape deformation approach for abdominal organs. UNetFlow combines the advantages of voxel-based and mesh-based approaches for 3D shape extraction. Our results demonstrate high accuracy with respect to manually annotated CT data and better topological correctness compared to previous methods. In addition, we show the generalization of UNetFlow to MRI. | 翻訳日:2023-06-28 13:12:44 公開日:2023-06-27 |
# イベント誘導ビデオフレーム補間によるシャッターフレームの自己教師型学習 Self-supervised Learning of Event-guided Video Frame Interpolation for Rolling Shutter Frames ( http://arxiv.org/abs/2306.15507v1 ) ライセンス: Link先を確認 | Yunfan Lu, Guoqiang Liang, Lin Wang | (参考訳) 本稿では,新しいイベントカメラデータによって誘導される2つのローリングシャッター(rs)フレームから任意のフレームレートの潜在グローバルシャッター(gs)フレームを回収するという課題に取り組む最初の試みを行う。
イベントは高時間分解能を持ち、ビデオフレーム補間(VFI)に有用であるが、このタスクに取り組むハードルは、ペア化されたGSフレームの欠如である。
もう1つの課題は、rsフレームが動く物体をキャプチャする際に歪みやすいことである。
そこで本研究では,イベントを利用してrsフレーム補正とvfiを統一フレームワークでガイドする,新しい自己教師付きフレームワークを提案する。
我々のキーとなる考え方は、露光時間中に全画素の非直線密度3次元時空間情報を推定し、RSフレームとGSフレームの相互再構成と任意のフレームレートVFIを可能にすることである。
具体的には、RS歪みを補正し、GSフレームを1ステップで補間するイベントから時空間運動を推定するために、変位場推定(DFE)モジュールを提案する。
次に入力rsフレームとdfを組み合わせてrs-to-gsフレーム補間のためのマッピングを学ぶ。
しかし、写像は非常に制約が低いため、自己超越のために逆写像(GS-to-RS)とRSフレームワープ(RS-to-RS)を結合する。
評価のためのラベル付きデータセットがないため、2つの合成データセットを生成し、実際のデータセットを収集して、メソッドをトレーニングし、テストする。
実験結果から,本手法は従来手法と同等あるいは優れた性能を示すことがわかった。 This paper makes the first attempt to tackle the challenging task of recovering arbitrary frame rate latent global shutter (GS) frames from two consecutive rolling shutter (RS) frames, guided by the novel event camera data. Although events possess high temporal resolution, beneficial for video frame interpolation (VFI), a hurdle in tackling this task is the lack of paired GS frames. Another challenge is that RS frames are susceptible to distortion when capturing moving objects. To this end, we propose a novel self-supervised framework that leverages events to guide RS frame correction and VFI in a unified framework. Our key idea is to estimate the displacement field (DF) non-linear dense 3D spatiotemporal information of all pixels during the exposure time, allowing for the reciprocal reconstruction between RS and GS frames as well as arbitrary frame rate VFI. Specifically, the displacement field estimation (DFE) module is proposed to estimate the spatiotemporal motion from events to correct the RS distortion and interpolate the GS frames in one step. We then combine the input RS frames and DF to learn a mapping for RS-to-GS frame interpolation. However, as the mapping is highly under-constrained, we couple it with an inverse mapping (i.e., GS-to-RS) and RS frame warping (i.e., RS-to-RS) for self-supervision. As there is a lack of labeled datasets for evaluation, we generate two synthetic datasets and collect a real-world dataset to train and test our method. Experimental results show that our method yields comparable or better performance with prior supervised methods. | 翻訳日:2023-06-28 13:12:33 公開日:2023-06-27 |
# 優先順位付き軌道リプレイ:データ駆動強化学習のためのリプレイメモリ Prioritized Trajectory Replay: A Replay Memory for Data-driven Reinforcement Learning ( http://arxiv.org/abs/2306.15503v1 ) ライセンス: Link先を確認 | Jinyi Liu, Yi Ma, Jianye Hao, Yujing Hu, Yan Zheng, Tangjie Lv, Changjie Fan | (参考訳) 近年、オフラインRLとしても知られるデータ駆動強化学習(RL)が注目されている。
しかし、オフラインRLにおけるデータサンプリング技術の役割は、オンラインRLの性能を高める可能性にもかかわらず見過ごされている。
最近の研究は、状態遷移に直接サンプリング技術を適用することは、オフラインrlのパフォーマンスを一貫して改善しないことを示唆している。
そこで本研究では,限られたデータからより包括的な情報抽出を行うため,サンプリング視点をトラジェクトリに拡張するメモリ技術である(Prioritized) Trajectory Replay (TR/PTR)を提案する。
trは、後続の状態情報の使用を最適化する軌道を後方にサンプリングすることで学習効率を高める。
TRに基づいて、オフライントレーニングにおける見知らぬ動作のサンプリングを避けるために重み付けされた批評家ターゲットを構築し、様々な軌道優先指標によって優先順位付けされたより効率的な軌道サンプリングを可能にするPTR( Prioritized Trajectory Replay)を構築した。
D4RL上の既存のオフラインRLアルゴリズムとTRとPTRを統合する利点を示す。
本研究は,オフラインrlアルゴリズムの効率と性能を向上させる上で,軌道に基づくデータサンプリング技術が重要であることを強調する。 In recent years, data-driven reinforcement learning (RL), also known as offline RL, have gained significant attention. However, the role of data sampling techniques in offline RL has been overlooked despite its potential to enhance online RL performance. Recent research suggests applying sampling techniques directly to state-transitions does not consistently improve performance in offline RL. Therefore, in this study, we propose a memory technique, (Prioritized) Trajectory Replay (TR/PTR), which extends the sampling perspective to trajectories for more comprehensive information extraction from limited data. TR enhances learning efficiency by backward sampling of trajectories that optimizes the use of subsequent state information. Building on TR, we build the weighted critic target to avoid sampling unseen actions in offline training, and Prioritized Trajectory Replay (PTR) that enables more efficient trajectory sampling, prioritized by various trajectory priority metrics. We demonstrate the benefits of integrating TR and PTR with existing offline RL algorithms on D4RL. In summary, our research emphasizes the significance of trajectory-based data sampling techniques in enhancing the efficiency and performance of offline RL algorithms. | 翻訳日:2023-06-28 13:12:03 公開日:2023-06-27 |
# 分類タスクの説明可能性向上のための新しい構造化議論フレームワーク A novel structured argumentation framework for improved explainability of classification tasks ( http://arxiv.org/abs/2306.15500v1 ) ライセンス: Link先を確認 | Lucas Rizzo and Luca Longo | (参考訳) 本稿では,構造化議論のための新しいフレームワークであるextended argumentative decision graph(xadg$)を提案する。
これはダングの抽象的議論グラフの上に構築された議論的決定グラフの拡張である。
xADG$フレームワークは、引数が内部構造内でブール論理演算子と複数の前提(サポート)を使用することを可能にする。
この研究は、$xADGs$の構築方法を示し、そのサイズと予測能力について、様々な大きさの分類タスクについて評価する。
その結果、$xadgs$ は強い(バランスの取れた)精度を達成し、それは入力決定木によって達成され、また結論に達するのに必要なサポートの平均数を削減した。
さらに、予測能力と全体的なサイズで$ADGs$を構築する他の手法よりも優れた$xADGs$を構築することが可能であることを示した。
要約すると、$xADG$は、分類タスクや知識発見、取得、洗練に使用できるより簡潔な議論モデルを開発するための、有望なフレームワークであることを示唆している。 This paper presents a novel framework for structured argumentation, named extend argumentative decision graph ($xADG$). It is an extension of argumentative decision graphs built upon Dung's abstract argumentation graphs. The $xADG$ framework allows for arguments to use boolean logic operators and multiple premises (supports) within their internal structure, resulting in more concise argumentation graphs that may be easier for users to understand. The study presents a methodology for construction of $xADGs$ and evaluates their size and predictive capacity for classification tasks of varying magnitudes. Resulting $xADGs$ achieved strong (balanced) accuracy, which was accomplished through an input decision tree, while also reducing the average number of supports needed to reach a conclusion. The results further indicated that it is possible to construct plausibly understandable $xADGs$ that outperform other techniques for building $ADGs$ in terms of predictive capacity and overall size. In summary, the study suggests that $xADG$ represents a promising framework to developing more concise argumentative models that can be used for classification tasks and knowledge discovery, acquisition, and refinement. | 翻訳日:2023-06-28 13:11:43 公開日:2023-06-27 |
# 大規模言語モデルを用いたヒューマンチュータへの説明的フィードバック Using Large Language Models to Provide Explanatory Feedback to Human Tutors ( http://arxiv.org/abs/2306.15498v1 ) ライセンス: Link先を確認 | Jionghao Lin, Danielle R. Thomas, Feifei Han, Shivang Gupta, Wei Tan, Ngoc Dang Nguyen, Kenneth R. Koedinger | (参考訳) 研究は、推論を支持する説明を作成するプロセスに携わる学習者が、学習にポジティブな影響を与えることを実証する。
しかし,学習者にリアルタイムな説明的フィードバックを提供することは,特にドメイン固有の環境において,状況に複雑でニュアンスのある応答を含む分類精度に関する課題をしばしば提示する。
オンライン授業において,教師にリアルタイムフィードバックを提供するための2つのアプローチを提案する。
このワーク・イン・プログレスでは、効果的(F1スコア=0.811)と非効率(F1スコア=0.350)の2進的フィードバックのための二進的分類においてかなりの精度を示す。
さらに、大規模言語モデルに精通した名前付きエンティティ認識を用いて説明的フィードバックを提供することにより、授業中だけでなく、リアルタイムのチューターの動きも提案できる。
将来の作業は、データ拡張のために大規模な言語モデルを活用することで精度を向上させると同時に、説明的なフィードバックインターフェイスも開発する。 Research demonstrates learners engaging in the process of producing explanations to support their reasoning, can have a positive impact on learning. However, providing learners real-time explanatory feedback often presents challenges related to classification accuracy, particularly in domain-specific environments, containing situationally complex and nuanced responses. We present two approaches for supplying tutors real-time feedback within an online lesson on how to give students effective praise. This work-in-progress demonstrates considerable accuracy in binary classification for corrective feedback of effective, or effort-based (F1 score = 0.811), and ineffective, or outcome-based (F1 score = 0.350), praise responses. More notably, we introduce progress towards an enhanced approach of providing explanatory feedback using large language model-facilitated named entity recognition, which can provide tutors feedback, not only while engaging in lessons, but can potentially suggest real-time tutor moves. Future work involves leveraging large language models for data augmentation to improve accuracy, while also developing an explanatory feedback interface. | 翻訳日:2023-06-28 13:11:27 公開日:2023-06-27 |
# データプライバシコンプライアンスの技術的対策実施における実践的課題の特定 Identifying Practical Challenges in the Implementation of Technical Measures for Data Privacy Compliance ( http://arxiv.org/abs/2306.15497v1 ) ライセンス: Link先を確認 | Oleksandra Klymenko, Stephen Meisenbacher, Florian Matthes | (参考訳) 現代のプライバシー規制は、データ処理エンティティがコンプライアンスを示す適切な技術的措置を実行するための厳格な義務を与える。
実際には、特にプライバシー規制の曖昧なガイドラインに照らして、どの措置が本当に「適切」かを判断することは簡単ではない。
問題を悪化させるためには、技術的な措置自体の実装だけでなく、プライバシコンプライアンスを追求する役割、プロセス、決定、文化を含む様々な要因にも課題が発生する。
本稿では,プライバシ専門家16人のインタビューの質的分析から,プライバシコンプライアンスの技術的対策を実施する上で直面する33の課題について述べる。
さらに,質問紙調査における面接結果の評価を行い,その課題とその意義について考察した。 Modern privacy regulations provide a strict mandate for data processing entities to implement appropriate technical measures to demonstrate compliance. In practice, determining what measures are indeed "appropriate" is not trivial, particularly in light of vague guidelines provided by privacy regulations. To exacerbate the issue, challenges arise not only in the implementation of the technical measures themselves, but also in a variety of factors involving the roles, processes, decisions, and culture surrounding the pursuit of privacy compliance. In this paper, we present 33 challenges faced in the implementation of technical measures for privacy compliance, derived from a qualitative analysis of 16 interviews with privacy professionals. In addition, we evaluate the interview findings in a survey study, which gives way to a discussion of the identified challenges and their implications. | 翻訳日:2023-06-28 13:11:07 公開日:2023-06-27 |
# 古典および量子カクリングのエントロピーに関する研究 On Studies of Entropy of Classical and Quantum Kac Rings ( http://arxiv.org/abs/2306.15491v1 ) ライセンス: Link先を確認 | Niamat Gill and Nishchal Dwivedi | (参考訳) 統計物理学は相互作用する多くの天体の物理を理解する上で重要である。
これは歴史的に、衝突する気体を理解し、エントロピー、自由エネルギー、その他の熱力学量などの量を定量化する試みによって開発された。
統計物理学における重要な貢献は、H-理論の形でボルツマンによって行われ、粒子間の衝突を考慮し、分子カオスやストッツァランサッツを仮定してマクロ的な不可逆性を理解した。
これらのアイデアを解明するため、マーク・カックはカック環と呼ばれる古典的類似点を導入した。
本研究では、古典的なカック環の対応する傾向と比較・対比して、カック環に量子性を導入し、エントロピーと再帰性の研究を試みる。
量子ビットをポインタとするシステムにおける再帰時間の動向について考察する。
さらに,これらのシステムに対するエントロピーの時間分布について検討する。 Statistical physics is important in understanding the physics of interacting many bodies. This has been historically developed by attempts to understand colliding gases and quantifying quantities like entropy, free energy, and other thermodynamic quantities. An important contribution in statistical physics was by Boltzmann in the form of the H-theorem, which considered collisions between particles and used the assumption of molecular chaos or Stosszahlansatz to understand macroscopic irreversibility. To elucidate these ideas, Mark Kac introduced a classical analog called Kac rings. In this work, we attempt to introduce quantum-ness in a Kac ring and study its entropy and recurrence, comparing and contrasting to corresponding trends in a classical Kac ring. We look at the trends of recurrence time for a system with a qubit as a pointer. We further study the time distribution of entropy for these systems. | 翻訳日:2023-06-28 13:10:52 公開日:2023-06-27 |
# 頭部拡張現実デバイスを用いた反射型ツール追跡と空間再構成によるEVD手術誘導 EVD Surgical Guidance with Retro-Reflective Tool Tracking and Spatial Reconstruction using Head-Mounted Augmented Reality Device ( http://arxiv.org/abs/2306.15490v1 ) ライセンス: Link先を確認 | Haowei Li, Wenqing Yan, Du Liu, Long Qian, Yuxing Yang, Yihao Liu, Zhe Zhao, Hui Ding, Guangzhi Wang | (参考訳) Augmented Reality (AR) は、外室ドレイン(EVD)手術の外科的指導を促進するために使われており、手動操作におけるずれのリスクを低減する。
この過程で重要な課題は、AR環境における術前画像と実際の患者解剖との空間的関係を正確に推定することである。
本研究では、市販のARヘッドマウントデバイス(HMD)に組み込まれた飛行時間(ToF)深度センサを用いて、正確なEVD手術指導を行う新しいフレームワークを提案する。
従来,ToFセンサの深度誤差を実証してきたので,この誤差の特性をAR-HMDで総合的に評価した。
次に、正確な表面情報のために深さ誤差モデルと患者固有のパラメータ同定法を導入する。
その後, 反射マーカーと点雲を組み合わせた追跡手法が提案され, 頭部をToFセンサで再構成して空間登録し, 患者の頭蓋骨に厳密に追跡対象を固定しないようにした。
まず, 皮膚に7.580\pm 1.488 mm$ tofセンサの深さ値誤差が認められ, 深さ補正の意義が示唆された。
提案した頭部ファントムの深度補正法を用いて,ToFセンサの深度誤差を85%以上削減した。
一方、補正深度データで再構成した頭部は、サブミリ精度を実現した。
羊の頭部実験では0.79mmの再構成誤差が見られた。
さらに,5人の外科医が仮想誘導で頭部に9k線注入を行ったEVD手術において,提案したフレームワークの性能評価を行った。
この研究の結果、翻訳精度は2.09 pm 0.16 mm$、方位精度は2.97 pm 0.91 ^\circ$。 Augmented Reality (AR) has been used to facilitate surgical guidance during External Ventricular Drain (EVD) surgery, reducing the risks of misplacement in manual operations. During this procedure, the pivotal challenge is the accurate estimation of spatial relationship between pre-operative images and actual patient anatomy in AR environment. In this research, we propose a novel framework utilizing Time of Flight (ToF) depth sensors integrated in commercially available AR Head Mounted Devices (HMD) for precise EVD surgical guidance. As previous studies have proven depth errors for ToF sensors, we first conducted a comprehensive assessment for the properties of this error on AR-HMDs. Subsequently, a depth error model and patient-specific model parameter identification method, is introduced for accurate surface information. After that, a tracking procedure combining retro-reflective markers and point clouds is proposed for accurate head tracking, where head surface is reconstructed using ToF sensor data for spatial registration, avoiding fixing tracking targets rigidly on the patient's cranium. Firstly, $7.580\pm 1.488 mm$ ToF sensor depth value error was revealed on human skin, indicating the significance of depth correction. Our results showed that the ToF sensor depth error was reduced by over $85\%$ using proposed depth correction method on head phantoms in different materials. Meanwhile, the head surface reconstructed with corrected depth data achieved sub-millimeter accuracy. Experiment on a sheep head revealed $0.79 mm$ reconstruction error. Furthermore, a user study was conducted for the performance of proposed framework in simulated EVD surgery, where 5 surgeons performed 9 k-wire injections on a head phantom with virtual guidance. Results of this study revealed $2.09 \pm 0.16 mm$ translational accuracy and $2.97\pm 0.91 ^\circ$ orientational accuracy. | 翻訳日:2023-06-28 13:10:37 公開日:2023-06-27 |
# 不規則時系列の事前異常検出 Precursor-of-Anomaly Detection for Irregular Time Series ( http://arxiv.org/abs/2306.15489v1 ) ライセンス: Link先を確認 | Sheo Yon Jhin, Jaehoon Lee, Noseong Park | (参考訳) 異常検出は予期せぬパターンやデータポイントを特定することを目的とした重要な分野であり、金融、製造、サイバーセキュリティなどにおける多くの現実世界の問題と密接に関連している。
様々な分野で異常検出が広く研究されているが、今後の異常検出は未発見領域のままである。
本稿では,新しい種類の異常検出手法であるemph{\textbf{P}recursor-of-\textbf{A}nomaly (PoA) を提案する。
特定の時系列観測が異常であるか否かを決定する従来の異常検出とは異なり、PoA検出は将来の異常を検出することを目的としている。
両課題を同時に解決するために,ニューラル制御による微分方程式に基づくニューラルネットワークとそのマルチタスク学習アルゴリズムを提案する。
17のベースラインと3つのデータセットを使って、規則的および不規則な時系列を含む実験を行い、提案手法がほぼすべてのケースでベースラインを上回ることを実証した。
また, マルチタスクトレーニング手法は, 異常検出とpoa検出の両方において, 全体的な性能を著しく向上させることが示唆された。 Anomaly detection is an important field that aims to identify unexpected patterns or data points, and it is closely related to many real-world problems, particularly to applications in finance, manufacturing, cyber security, and so on. While anomaly detection has been studied extensively in various fields, detecting future anomalies before they occur remains an unexplored territory. In this paper, we present a novel type of anomaly detection, called \emph{\textbf{P}recursor-of-\textbf{A}nomaly} (PoA) detection. Unlike conventional anomaly detection, which focuses on determining whether a given time series observation is an anomaly or not, PoA detection aims to detect future anomalies before they happen. To solve both problems at the same time, we present a neural controlled differential equation-based neural network and its multi-task learning algorithm. We conduct experiments using 17 baselines and 3 datasets, including regular and irregular time series, and demonstrate that our presented method outperforms the baselines in almost all cases. Our ablation studies also indicate that the multitasking training method significantly enhances the overall performance for both anomaly and PoA detection. | 翻訳日:2023-06-28 13:10:05 公開日:2023-06-27 |
# CamemBERT-bio:美味しいフランス語モデル CamemBERT-bio: a Tasty French Language Model Better for your Health ( http://arxiv.org/abs/2306.15550v1 ) ライセンス: Link先を確認 | Rian Touchent, Laurent Romary, Eric de la Clergerie | (参考訳) 病院における臨床データは、臨床データウェアハウスを通じて研究に利用できるようになっているが、これらの文書は構造化されていない。
したがって、臨床研究を行うためには、医療報告から情報を抽出する必要がある。
CamemBERTのようなBERTライクなモデルによるトランスファーラーニングは、特に名前付きエンティティ認識において大きな進歩をもたらした。
しかし、これらのモデルは平易な言語で訓練されており、バイオメディカルデータでは効率が良くない。
そこで我々は,カマンベールの事前訓練を継続したフランスの新しい生物医学データセットを提案する。
そこで本研究では,フランスのバイオメディカルドメインであるcamimbert-bioの最初のバージョンを紹介し,f1スコアの2.54ポイント向上を示した。 Clinical data in hospitals are increasingly accessible for research through clinical data warehouses, however these documents are unstructured. It is therefore necessary to extract information from medical reports to conduct clinical studies. Transfer learning with BERT-like models such as CamemBERT has allowed major advances, especially for named entity recognition. However, these models are trained for plain language and are less efficient on biomedical data. This is why we propose a new French public biomedical dataset on which we have continued the pre-training of CamemBERT. Thus, we introduce a first version of CamemBERT-bio, a specialized public model for the French biomedical domain that shows 2.54 points of F1 score improvement on average on different biomedical named entity recognition tasks. | 翻訳日:2023-06-28 13:03:48 公開日:2023-06-27 |
# 幾何超音波局在顕微鏡 Geometric Ultrasound Localization Microscopy ( http://arxiv.org/abs/2306.15548v1 ) ライセンス: Link先を確認 | Christopher Hahne and Raphael Sznitman | (参考訳) 造影超音波(CEUS)は、医学診断における非侵襲的、動的可視化の有効な方法となっているが、超音波局在顕微鏡(ULM)は10倍の高分解能を提供することで、画期的なブレークスルーを実現している。
現在までに、遅延アンドサム(DAS)ビームフォーマを使用してULMフレームをレンダリングし、最終的に画像解像度の能力を決定する。
ULMを最大限に活用するために,本研究では,ビームフォーミングがULMの最も効果的な処理ステップであるかどうかを疑問視し,TDoA情報のみに依存する代替手法を提案する。
この目的のために, 既存のビームフォーミング限界を克服するために, 楕円交差による微小気泡局在のための新しい幾何学的枠組みを提案する。
本稿では,既存のベースライン法よりも精度と信頼性の面で優れており,利用可能なトランスデューサデータの一部のみを活用できる公開データセットに基づくベンチマーク比較を行う。 Contrast-Enhanced Ultra-Sound (CEUS) has become a viable method for non-invasive, dynamic visualization in medical diagnostics, yet Ultrasound Localization Microscopy (ULM) has enabled a revolutionary breakthrough by offering ten times higher resolution. To date, Delay-And-Sum (DAS) beamformers are used to render ULM frames, ultimately determining the image resolution capability. To take full advantage of ULM, this study questions whether beamforming is the most effective processing step for ULM, suggesting an alternative approach that relies solely on Time-Difference-of-Arrival (TDoA) information. To this end, a novel geometric framework for micro bubble localization via ellipse intersections is proposed to overcome existing beamforming limitations. We present a benchmark comparison based on a public dataset for which our geometric ULM outperforms existing baseline methods in terms of accuracy and reliability while only utilizing a portion of the available transducer data. | 翻訳日:2023-06-28 13:03:34 公開日:2023-06-27 |
# 基礎モデルが連合学習を満たすとき - モチベーション,課題,今後の方向性 When Foundation Model Meets Federated Learning: Motivations, Challenges, and Future Directions ( http://arxiv.org/abs/2306.15546v1 ) ライセンス: Link先を確認 | Weiming Zhuang, Chen Chen, Lingjuan Lyu | (参考訳) ファンデーションモデル(FM)とフェデレーテッドラーニング(FL)の交差点は、相互利益を提供し、AI研究における新たな可能性を開くユニークな機会を提供し、AIと現実世界のアプリケーションにおける重要な課題に対処する。
FLは、FMデータの可用性を拡張し、計算共有、トレーニングプロセスの分散、FL参加者の負担軽減を可能にする。
共同FM開発を促進し、プロセスを民主化し、傾倒と革新を促進する。
一方、FMは、その巨大なサイズ、事前訓練された知識、および例外的な性能を持つため、FLの堅牢な出発点として機能し、非IDデータの下での高速な収束とより良い性能を実現する。
さらに、FMを利用して合成データを生成し、データの多様性を高め、過度な適合を減らし、プライバシを保存する。
flとfmの相互作用を考察し,それらの相乗的関係の理解を深め,モチベーション,課題,今後の方向性を強調する。
FLとFMが個別に直面する課題とその相互接続の探索を通じて、我々は、両方の分野をさらに強化し、進歩を促進し、プライバシー保護とスケーラブルなAIシステムの開発を促進する将来の研究方向を刺激することを目指している。 The intersection of the Foundation Model (FM) and Federated Learning (FL) provides mutual benefits, presents a unique opportunity to unlock new possibilities in AI research, and address critical challenges in AI and real-world applications. FL expands the availability of data for FMs and enables computation sharing, distributing the training process and reducing the burden on FL participants. It promotes collaborative FM development, democratizing the process and fostering inclusivity and innovation. On the other hand, FM, with its enormous size, pre-trained knowledge, and exceptional performance, serves as a robust starting point for FL, facilitating faster convergence and better performance under non-iid data. Additionally, leveraging FM to generate synthetic data enriches data diversity, reduces overfitting, and preserves privacy. By examining the interplay between FL and FM, this paper aims to deepen the understanding of their synergistic relationship, highlighting the motivations, challenges, and future directions. Through an exploration of the challenges faced by FL and FM individually and their interconnections, we aim to inspire future research directions that can further enhance both fields, driving advancements and propelling the development of privacy-preserving and scalable AI systems. | 翻訳日:2023-06-28 13:03:17 公開日:2023-06-27 |
# ユーザーレビューの力を解き放つ: イタリアのカタニア空港で航空会社の選択を探求 Unleashing the Power of User Reviews: Exploring Airline Choices at Catania Airport, Italy ( http://arxiv.org/abs/2306.15541v1 ) ライセンス: Link先を確認 | Vincenzo Miracula, Antonio Picone | (参考訳) 本研究は, 航空産業における消費者の意思決定に影響を及ぼす要因の理解を深める上で, 社会的影響のメカニズムと航空会社の選択との関係について, 新たなツールの利用を通して検討することを目的とする。
trustpilot、google、twitterなど、よく知られたプラットフォームからユーザレビューを抽出するように選択しました。
Webスクレイピング技術を組み合わせることで、幅広いユーザの意見、フィードバック、評価を含む包括的なデータセットを収集できるようになりました。
その後、BERTモデルを洗練して、航空会社レビューの文脈における洞察に富んだ感情に焦点を当てました。
分析の結果,各航空会社の平均負の感情スコアが興味深い傾向を示し,航空会社間のダイナミクスに関する深い洞察を与え,所定の期間にカタニア空港の航空エコシステムにおいて中心的な役割を果たす重要なパートナーシップ,人気ルート,航空会社を特定するのに役立った。
調査の結果、航空会社が2021年から2022年までの2年間、欧州の低価格リーダーとして名高い賞を授与されたにもかかわらず、この「カタネーズ」ユーザーは他の企業の支配的な地位に苦しむ傾向にあることが判明しました。
ポジティブレビューの影響を理解し、感情分析を活用することで、航空会社は評判を高め、より多くの顧客を惹きつけ、最終的には市場で競争力のある優位性を得ることができる。 This study aims to investigate the possible relationship between the mechanisms of social influence and the choice of airline, through the use of new tools, with the aim of understanding whether they can contribute to a better understanding of the factors influencing the decisions of consumers in the aviation sector. We have chosen to extract user reviews from well-known platforms: Trustpilot, Google, and Twitter. By combining web scraping techniques, we have been able to collect a comprehensive dataset comprising a wide range of user opinions, feedback, and ratings. We then refined the BERT model to focus on insightful sentiment in the context of airline reviews. Through our analysis, we observed an intriguing trend of average negative sentiment scores across various airlines, giving us deeper insight into the dynamics between airlines and helping us identify key partnerships, popular routes, and airlines that play a central role in the aeronautical ecosystem of Catania airport during the specified period. Our investigation led us to find that, despite an airline having received prestigious awards as a low-cost leader in Europe for two consecutive years 2021 and 2022, the "Catanese" user tends to suffer the dominant position of other companies. Understanding the impact of positive reviews and leveraging sentiment analysis can help airlines improve their reputation, attract more customers, and ultimately gain a competitive edge in the marketplace. | 翻訳日:2023-06-28 13:02:51 公開日:2023-06-27 |
# DataCI: データストリーミングのためのデータ中心AIプラットフォーム DataCI: A Platform for Data-Centric AI on Streaming Data ( http://arxiv.org/abs/2306.15538v1 ) ライセンス: Link先を確認 | Huaizheng Zhang, Yizheng Huang, Yuanming Li | (参考訳) 動的ストリーミングデータ設定におけるデータ中心aiに特化した,包括的なオープンソースプラットフォームであるdataciを紹介する。
dataciが提供する
1)シームレスなストリーミングデータセット管理,データ中心パイプライン開発,ストリーミングシナリオの評価のためのリッチapiを備えたインフラストラクチャ
2)パイプライン系統を追跡するための注意深く設計されたバージョニング制御関数
3) インタラクティブなユーザエクスペリエンスを改善するための直感的なグラフィカルインターフェース。
データCIの使いやすさと有効性を証明する予備的な研究とデモは、ストリーミングデータコンテキストにおけるデータ中心AIの実践に革命をもたらす可能性を強調している。 We introduce DataCI, a comprehensive open-source platform designed specifically for data-centric AI in dynamic streaming data settings. DataCI provides 1) an infrastructure with rich APIs for seamless streaming dataset management, data-centric pipeline development and evaluation on streaming scenarios, 2) an carefully designed versioning control function to track the pipeline lineage, and 3) an intuitive graphical interface for a better interactive user experience. Preliminary studies and demonstrations attest to the easy-to-use and effectiveness of DataCI, highlighting its potential to revolutionize the practice of data-centric AI in streaming data contexts. | 翻訳日:2023-06-28 13:02:25 公開日:2023-06-27 |
# トポロジ的欠陥の存在下での電荷分解絡み Charge-resolved entanglement in the presence of topological defects ( http://arxiv.org/abs/2306.15532v1 ) ライセンス: Link先を確認 | David X. Horvath, Shachar Fraenkel, Stefano Scopa and Colin Rylands | (参考訳) ソリトンのようなトポロジカルな励起や欠陥は物理学の至るところに存在し、エキゾチックな統計と分数化電荷を持つゼロエネルギーモードのような多くの興味深い現象を支えている。
本稿では,対称解離絡みエントロピーのレンズを通してそのような物体を研究する。
具体的には,Su-Schrieffer-Heegerモデルの低次状態における一区間の電荷分解エントロピーをトポロジ的欠陥の存在下で計算する。
数値解析によって裏付けられた正確かつ漸近的な分析手法の組み合わせを用いて、未解決の手法と純粋なシステムと比較して、絡み合いのよりリッチな構造が現れる。
これには、欠陥の存在による構成的部分と揺らぎ部分の再分配と、絡み合う部分との興味深い相互作用が含まれる。
特に、欠陥を除外するサブシステムでは、等価は同一パリティの電荷セクタに制限され、一方、完全同分は欠陥を含む場合にのみ、関連するゼロモードが占有されていない場合にのみ復元される。
さらに,複数の欠陥の存在下でのエキサイティングなゼロモードにより,欠陥の電荷分割により,特定の電荷セクタにおける絡み合いが著しく向上するのを観察した。
これらは2つの異なるシナリオを構成する。
我々は,これら2つのシナリオの根底にある結合機構を,電荷分解型エンタングルメントハミルトニアンのスペクトルの縮退に関連付けることで明らかにする。 Topological excitations or defects such as solitons are ubiquitous throughout physics, supporting numerous interesting phenomena like zero energy modes with exotic statistics and fractionalized charges. In this paper, we study such objects through the lens of symmetry-resolved entanglement entropy. Specifically, we compute the charge-resolved entanglement entropy for a single interval in the low-lying states of the Su-Schrieffer-Heeger model in the presence of topological defects. Using a combination of exact and asymptotic analytic techniques, backed up by numerical analysis, we find that, compared to the unresolved counterpart and to the pure system, a richer structure of entanglement emerges. This includes a redistribution between its configurational and fluctuational parts due to the presence of the defect and an interesting interplay with entanglement equipartition. In particular, in a subsystem that excludes the defect, equipartition is restricted to charge sectors of the same parity, while full equipartition is restored only if the subsystem includes the defect, as long as the associated zero mode remains unoccupied. Additionally, by exciting zero modes in the presence of multiple defects, we observe a significant enhancement of entanglement in certain charge sectors, due to charge splitting on the defects. These constitute two different scenarios featuring the rare breakdown of entanglement equipartition. We unveil the joint mechanism underlying these two scenarios by relating them to degeneracies in the spectrum of the charge-resolved entanglement Hamiltonian. | 翻訳日:2023-06-28 13:02:16 公開日:2023-06-27 |
# 中間規模量子コンピュータにおける部分誤差補正の枠組み A framework of partial error correction for intermediate-scale quantum computers ( http://arxiv.org/abs/2306.15531v1 ) ライセンス: Link先を確認 | Nikolaos Koukoulekidis, Samson Wang, Tom O'Leary, Daniel Bultrini, Lukasz Cincio, Piotr Czarnik | (参考訳) 量子コンピューティングハードウェアは量子ビット数と品質が着実に向上するにつれて、ハードウェアノイズの影響を軽減するためにこれらのリソースをどのように割り当てるかが重要な問題である。
ノイズの多い小規模システムと完全にフォールトトレラントシステムの間の過渡期において、興味深い計算を行うのに必要なキュービットのごく一部を誤り訂正できるシナリオを考察する。
本研究では,ノイズの収集と誤り訂正論理キュービットの収集を組み合わせたシステム上で,論理演算の具体的構成を開発する。
この設定とパウリノイズの仮定の下では、ブロック層状回路は、完全にノイズの多い回路に比べて回路深さが増大する「無駄な」均一分布に対して平均的な低濃度で表示されているという解析的証拠を提供する。
実機にインスパイアされたノイズモデルの下で, 誤り訂正量子ビット数の増加とともに, 遅延デコヒーレンスを数値的に示し, 相関付けを行った。
この利点は、誤り訂正レジスタとノイズレジスタの結合数に依存する特定のしきい値を、エラー訂正キュービット数が通過した場合にのみ生じることが判明した。 As quantum computing hardware steadily increases in qubit count and quality, one important question is how to allocate these resources to mitigate the effects of hardware noise. In a transitional era between noisy small-scale and fully fault-tolerant systems, we envisage a scenario in which we are only able to error correct a small fraction of the qubits required to perform an interesting computation. In this work, we develop concrete constructions of logical operations on a joint system of a collection of noisy and a collection of error-corrected logical qubits. Within this setting and under Pauli noise assumptions, we provide analytical evidence that brick-layered circuits display on average slower concentration to the "useless" uniform distribution with increasing circuit depth compared to fully noisy circuits. We corroborate these findings by numerical demonstration of slower decoherence with an increasing fraction of error-corrected qubits under a noise model inspired by a real device. We find that this advantage only comes when the number of error-corrected qubits passes a specified threshold which depends on the number of couplings between error-corrected and noisy registers. | 翻訳日:2023-06-28 13:01:51 公開日:2023-06-27 |
# 共同分析によるストック選択のための高次グラフ注意ネットワーク Higher-order Graph Attention Network for Stock Selection with Joint Analysis ( http://arxiv.org/abs/2306.15526v1 ) ライセンス: Link先を確認 | Yang Qiao, Yiping Xia, Xiang Li, Zheng Li, Yan Ge | (参考訳) 株式選択は、投資家が利益のあるポートフォリオを構築するために重要である。
グラフニューラルネットワーク(GNN)は、関係モデリングと一般化の強い能力のために、ストック予測のために研究者を惹きつけている。
しかし、既存のGNN法は単純な対のストック関係にのみ焦点を当てており、2ノード以上の関係をモデル化する複雑な高次構造を捉えていない。
さらに、技術分析の要因と、株価トレンドに大きく影響を与える基本分析の見落とし要因のみを考慮する。
そこで本研究では,ジョイント分析(h-gat)を用いた高次グラフアテンションネットワークを提案する。
H-GATは高次構造を捉えることができ、基本解析の要素と技術解析の要素を併用することができる。
具体的には、h-gatのシーケンシャルな層は、長期記憶モデルの入力として両方の種類の要素を取り込む。
H-GATの関係埋め込み層は、高階グラフを構築し、GATでノード埋め込みを学ぶ。
次に株式リターンのランクを予測します。
H-GAT法がNSDAQおよびNYSEデータセットよりも利益性テストおよびシャープ比に優れていることを示す大規模な実験 Stock selection is important for investors to construct profitable portfolios. Graph neural networks (GNNs) are increasingly attracting researchers for stock prediction due to their strong ability of relation modelling and generalisation. However, the existing GNN methods only focus on simple pairwise stock relation and do not capture complex higher-order structures modelling relations more than two nodes. In addition, they only consider factors of technical analysis and overlook factors of fundamental analysis that can affect the stock trend significantly. Motivated by them, we propose higher-order graph attention network with joint analysis (H-GAT). H-GAT is able to capture higher-order structures and jointly incorporate factors of fundamental analysis with factors of technical analysis. Specifically, the sequential layer of H-GAT take both types of factors as the input of a long-short term memory model. The relation embedding layer of H-GAT constructs a higher-order graph and learn node embedding with GAT. We then predict the ranks of stock return. Extensive experiments demonstrate the superiority of our H-GAT method on the profitability test and Sharp ratio over both NSDAQ and NYSE datasets | 翻訳日:2023-06-28 13:01:34 公開日:2023-06-27 |
# 意味:ゼロショットセマンティックセマンティックセグメンテーションのマルチドメイン評価 What a MESS: Multi-Domain Evaluation of Zero-Shot Semantic Segmentation ( http://arxiv.org/abs/2306.15521v1 ) ライセンス: Link先を確認 | Benedikt Blumenstiel, Johannes Jakubik, Hilde K\"uhne and Michael V\"ossing | (参考訳) セマンティックセグメンテーションは過去にも大幅に改善されてきたが、いまだに重要なラベル付けの取り組みがあり、訓練中に存在しないクラスへの限定的な一般化の問題がある。
この問題を解決するために、ゼロショットセマンティックセグメンテーションは大きな自己教師付き視覚言語モデルを使用し、ゼロショットを見えないクラスに転送することができる。
本研究では、医学、工学、地球観測、生物学、農業など、幅広い分野にまたがるデータセットを対象とした総合的なパフォーマンス分析を可能にする意味セグメンテーション(mess)の多領域評価のためのベンチマークを構築した。
そこで我々は,120のデータセットをレビューし,分類法を開発し,開発した分類法に従ってデータセットを分類した。
我々は、22のデータセットからなる代表サブセットを選択し、MESSベンチマークとして提案する。
本研究では,提案するメッセベンチマークの8つのモデルを評価し,ゼロショット転送モデルの性能特性を解析した。
ツールキットはhttps://github.com/blumenstiel/MESSで入手できる。 While semantic segmentation has seen tremendous improvements in the past, there is still significant labeling efforts necessary and the problem of limited generalization to classes that have not been present during training. To address this problem, zero-shot semantic segmentation makes use of large self-supervised vision-language models, allowing zero-shot transfer to unseen classes. In this work, we build a benchmark for Multi-domain Evaluation of Semantic Segmentation (MESS), which allows a holistic analysis of performance across a wide range of domain-specific datasets such as medicine, engineering, earth monitoring, biology, and agriculture. To do this, we reviewed 120 datasets, developed a taxonomy, and classified the datasets according to the developed taxonomy. We select a representative subset consisting of 22 datasets and propose it as the MESS benchmark. We evaluate eight recently published models on the proposed MESS benchmark and analyze characteristics for the performance of zero-shot transfer models. The toolkit is available at https://github.com/blumenstiel/MESS. | 翻訳日:2023-06-28 13:01:19 公開日:2023-06-27 |
# 持続可能性開示分析におけるパラダイムシフト: 言語モデルベースツールCHATREPORTによるステークホルダの活用 Paradigm Shift in Sustainability Disclosure Analysis: Empowering Stakeholders with CHATREPORT, a Language Model-Based Tool ( http://arxiv.org/abs/2306.15518v1 ) ライセンス: Link先を確認 | Jingwei Ni, Julia Bingler, Chiara Colesanti-Senni, Mathias Kraus, Glen Gostlow, Tobias Schimanski, Dominik Stammbach, Saeid Ashraf Vaghefi, Qian Wang, Nicolas Webersinke, Tobias Wekhof, Tingyu Yu, Markus Leippold | (参考訳) 本稿では,気候関連財務開示タスクフォース(TCFD)の勧告に対して,企業サステナビリティレポートの分析を自動化するために,LLM(Large Language Models)を専門知識で拡張する新たなアプローチを提案する。
企業サステナビリティレポートは、組織の環境や社会的リスクや影響を評価する上で不可欠である。
しかし、これらの報告の膨大な情報を分析することは、しばしば人的分析にコストがかかる。
その結果、これらのレポートを分析するリソースを持つ組織は世界中でごくわずかであり、透明性の欠如につながる可能性がある。
aiを利用するツールは自動的にデータを分析するが、ドメイン固有の専門知識がないため、不正確になる。
本稿では,企業サステナビリティレポートの分析を自動化するための専門家知識によるllm強化手法を提案する。
当社のツールであるCHATREPORTを認定し,TFD勧告に従って企業の気候リスク開示を評価するための第1のユースケースに適用する。
CHATREPORTは、気候科学、金融、経済政策、コンピュータサイエンスの専門家と共同で、ドメインの専門家がAIツールの開発にどのように関与できるかを実証する。
透明性を促進するために、プロンプトテンプレート、生成されたデータ、スコアを公開しています。 This paper introduces a novel approach to enhance Large Language Models (LLMs) with expert knowledge to automate the analysis of corporate sustainability reports by benchmarking them against the Task Force for Climate-Related Financial Disclosures (TCFD) recommendations. Corporate sustainability reports are crucial in assessing organizations' environmental and social risks and impacts. However, analyzing these reports' vast amounts of information makes human analysis often too costly. As a result, only a few entities worldwide have the resources to analyze these reports, which could lead to a lack of transparency. While AI-powered tools can automatically analyze the data, they are prone to inaccuracies as they lack domain-specific expertise. This paper introduces a novel approach to enhance LLMs with expert knowledge to automate the analysis of corporate sustainability reports. We christen our tool CHATREPORT, and apply it in a first use case to assess corporate climate risk disclosures following the TCFD recommendations. CHATREPORT results from collaborating with experts in climate science, finance, economic policy, and computer science, demonstrating how domain experts can be involved in developing AI tools. We make our prompt templates, generated data, and scores available to the public to encourage transparency. | 翻訳日:2023-06-28 13:01:00 公開日:2023-06-27 |
# see through the fog: 医学画像における進行性咬合を伴うカリキュラム学習 See Through the Fog: Curriculum Learning with Progressive Occlusion in Medical Imaging ( http://arxiv.org/abs/2306.15574v1 ) ライセンス: Link先を確認 | Pradeep Singh, Kishore Babu Nampalle, Uppala Vivek Narayan, Balasubramanian Raman | (参考訳) 近年,深層学習モデルが医療画像解釈に革命をもたらし,診断精度が大幅に向上している。
しかし、これらのモデルは、重要な特徴が部分的にあるいは完全に隠蔽されている難解な画像に苦しむことが多い。
本稿では,隠蔽医療画像の処理を効果的に行うために,ディープラーニングモデルを訓練するためのカリキュラムベースの新しいアプローチを提案する。
本手法では, 明瞭で障害物のない画像から, 閉塞レベルが増大する画像へ徐々に移動し, 閉塞度を増大させる。
この順序付けられた学習プロセスは、人間学習と同様に、モデルがまず、単純で識別可能なパターンを把握し、その後、より複雑で難解なシナリオを理解するための知識を構築します。
さらに,WCL(Warsserstein Curriculum Learning),ial(Information Adaptive Learning),Geodesic Curriculum Learning(GCL)の3つの新しいオクルージョン合成手法を提案する。
各種医用画像データセットに関する広範な実験により,従来の訓練法に比べてモデル堅牢性と診断精度が大幅に向上した。 In recent years, deep learning models have revolutionized medical image interpretation, offering substantial improvements in diagnostic accuracy. However, these models often struggle with challenging images where critical features are partially or fully occluded, which is a common scenario in clinical practice. In this paper, we propose a novel curriculum learning-based approach to train deep learning models to handle occluded medical images effectively. Our method progressively introduces occlusion, starting from clear, unobstructed images and gradually moving to images with increasing occlusion levels. This ordered learning process, akin to human learning, allows the model to first grasp simple, discernable patterns and subsequently build upon this knowledge to understand more complicated, occluded scenarios. Furthermore, we present three novel occlusion synthesis methods, namely Wasserstein Curriculum Learning (WCL), Information Adaptive Learning (IAL), and Geodesic Curriculum Learning (GCL). Our extensive experiments on diverse medical image datasets demonstrate substantial improvements in model robustness and diagnostic accuracy over conventional training methodologies. | 翻訳日:2023-06-28 12:54:13 公開日:2023-06-27 |
# 基本可積分表現の生成 Generating Elementary Integrable Expressions ( http://arxiv.org/abs/2306.15572v1 ) ライセンス: Link先を確認 | Rashid Barket, Matthew England and J\"urgen Gerhard | (参考訳) 近年、シンボリック積分の顕著な部分分野を含む、コンピュータ代数の分野への機械学習の応用が増えている。
しかし、機械学習モデルは成功するために大量のデータを必要とし、必要なスケールに関するベンチマークは少ない。
新しいデータを生成する方法はすでに存在するが、いくつかの点で欠陥があり、トレーニングされた機械学習モデルのバイアスにつながる可能性がある。
本稿では,rischアルゴリズムを記号統合に利用し,基本可積分表現のデータセットを作成する方法について述べる。
さらに、この方法で生成されたデータにより、以前の手法で見つかったいくつかの欠陥が軽減されることを示す。 There has been an increasing number of applications of machine learning to the field of Computer Algebra in recent years, including to the prominent sub-field of Symbolic Integration. However, machine learning models require an abundance of data for them to be successful and there exist few benchmarks on the scale required. While methods to generate new data already exist, they are flawed in several ways which may lead to bias in machine learning models trained upon them. In this paper, we describe how to use the Risch Algorithm for symbolic integration to create a dataset of elementary integrable expressions. Further, we show that data generated this way alleviates some of the flaws found in earlier methods. | 翻訳日:2023-06-28 12:53:53 公開日:2023-06-27 |
# 同時ポンプビームと結晶ドメイン工学によるパラメトリックダウンコンバージョンにおける単一光子の純度向上 Enhancing Purity of Single Photons in Parametric Down-Conversion through Simultaneous Pump Beam and Crystal Domain Engineering ( http://arxiv.org/abs/2306.15569v1 ) ライセンス: Link先を確認 | Baghdasar Baghdasaryan, Fabian Steinlechner, Stephan Fritzsche | (参考訳) 自然パラメトリックダウンコンバージョン(SPDC)は、純粋で識別不能な単一光子の生成において大きな可能性を示している。
バルク結晶で生成される光子対は、横空間と周波数で高い相関を持つ。
これらの相関は光子の識別不可能性を制限し、非効率な光子源をもたらす。
ガウス非線形応答を持つ領域工学結晶はスペクトル相関を最小化するために研究されている。
本稿では,このような領域工学が生成光子の空間的相関に与える影響について検討する。
ガウス非線形応答を持つ結晶は光子間の空間相関を減少させる。
しかし、ガウスの非線形応答は空間相関を完全に排除するには十分ではない。
したがって、これらの相関を最小化する包括的手法の開発は、依然としてオープンな課題である。
この問題に対する我々の解決策は、ポンプビームと結晶の同時エンジニアリングである。
単一光子状態の純度は,空間フィルタを使わずに99 \%まで向上する。
本研究は, 構造化SPDC結晶の空間波形に関する貴重な知見を提供し, ボソンサンプリングなどの応用に寄与する。 Spontaneous parametric down-conversion (SPDC) has shown great promise in the generation of pure and indistinguishable single photons. Photon pairs produced in bulk crystals are highly correlated in terms of transverse space and frequency. These correlations limit the indistinguishability of photons and result in inefficient photon sources. Domain-engineered crystals with a Gaussian nonlinear response have been explored to minimize spectral correlations. Here, we study the impact of such domain engineering on spatial correlations of generated photons. We show that crystals with a Gaussian nonlinear response reduce the spatial correlations between photons. However, the Gaussian nonlinear response is not sufficient to fully eliminate the spatial correlations. Therefore, the development of a comprehensive method to minimize these correlations remains an open challenge. Our solution to this problem involves simultaneous engineering of the pump beam and crystal. We achieve purity of single-photon state up to 99 \% without any spatial filtering. Our findings provide valuable insights into the spatial waveform generated in structured SPDC crystals, with implications for applications such as Boson Sampling. | 翻訳日:2023-06-28 12:53:43 公開日:2023-06-27 |
# 3ウェイノット:プライバシ、フェアネス、予測パフォーマンスのダイナミクス A Three-Way Knot: Privacy, Fairness, and Predictive Performance Dynamics ( http://arxiv.org/abs/2306.15567v1 ) ライセンス: Link先を確認 | T\^ania Carvalho, Nuno Moniz and Lu\'is Antunes | (参考訳) 機械学習アプリケーションのフロンティアが人間のインタラクションへと進むにつれ、自動意思決定に関する複数の懸念が生じる。
最も重要な問題の2つは、公正性とデータのプライバシーである。
一方、自動化された決定が特定のグループ、特に保護されていない、あるいは疎外されていないグループに対して偏りがないことを保証しなければならない。
一方で、個人情報の使用がプライバシー規制に完全に従うこと、およびユーザーIDが安全であることを保証する必要がある。
プライバシと公平性と予測パフォーマンスのバランスは複雑です。
しかし,それらの社会的な影響はあるものの,これらの最適化ベクトル間のダイナミクスの理解が不十分であることを示す。
本稿では,この三方向張力と各ベクトルの最適化が他者に与える影響について検討し,将来的な安全なアプリケーション開発に資することを目的とした。
予測パフォーマンスと公平性を共同で最適化できるという主張に照らして、データプライバシを犠牲にしてのみ可能であることが分かりました。
全体として、実験の結果、どのベクトルを最適化するかに関わらず、ベクトルの1つがペナル化されることが示されている。
それでも、3つのベクトル間のより小さなトレードオフが観測される共同最適化ソリューションにおける今後の研究の道のりは期待できる。 As the frontier of machine learning applications moves further into human interaction, multiple concerns arise regarding automated decision-making. Two of the most critical issues are fairness and data privacy. On the one hand, one must guarantee that automated decisions are not biased against certain groups, especially those unprotected or marginalized. On the other hand, one must ensure that the use of personal information fully abides by privacy regulations and that user identities are kept safe. The balance between privacy, fairness, and predictive performance is complex. However, despite their potential societal impact, we still demonstrate a poor understanding of the dynamics between these optimization vectors. In this paper, we study this three-way tension and how the optimization of each vector impacts others, aiming to inform the future development of safe applications. In light of claims that predictive performance and fairness can be jointly optimized, we find this is only possible at the expense of data privacy. Overall, experimental results show that one of the vectors will be penalized regardless of which of the three we optimize. Nonetheless, we find promising avenues for future work in joint optimization solutions, where smaller trade-offs are observed between the three vectors. | 翻訳日:2023-06-28 12:53:31 公開日:2023-06-27 |
# 極低ビットレート画像圧縮でもっとマスクできる You Can Mask More For Extremely Low-Bitrate Image Compression ( http://arxiv.org/abs/2306.15561v1 ) ライセンス: Link先を確認 | Anqi Li, Feng Li, Jiaxin Han, Huihui Bai, Runmin Cong, Chunjie Zhang, Meng Wang, Weisi Lin, Yao Zhao | (参考訳) 近年,学習画像圧縮(lic)法は大きな進歩を遂げている。
しかし、これらの手法は主に中・高ビットレートでのレート歪み(R-D)性能の最適化に特化しているが、極低ビットレートの研究は限られている。
さらに、既存の手法では、画像圧縮に不可欠な画像構造やテクスチャコンポーネントを明示的に探究することはできず、ネットワーク内の非表現コンポーネントと同等に扱うことができる。
これは特に低ビットレートのシナリオにおいて、知覚品質の深刻な劣化を引き起こす可能性がある。
本研究は,多くの下流タスクにおけるマスク付きオートエンコーダ(MAE)の成功に触発されて,そのマスクサンプリング戦略を,高冗長性低減と識別的特徴表現のための構造的・テクスチャ的視点から再考することを提案する。
そこで本研究では,原画像の構造とテクスチャ分布に基づいて,可視パッチをサンプリングする二重適応マスキング手法(DA-Mask)を提案する。
マスキング画像モデリング(MIM)におけるDA-Maskと事前学習MAEを,情報的意味コンテキストとテクスチャ表現を抽象化する初期圧縮機として組み合わせた。
このようなパイプラインは、有望な再構築品質を維持しつつ、さらなる二次圧縮を達成するために、licネットワークとうまく連携することができる。
そこで本研究では,超低ビット画像圧縮のためにmimとlicをエンドツーエンドに統一する最初のフレームワークである,単純かつ効果的なマスク圧縮モデル(mcm)を提案する。
広範にわたる実験により、我々のアプローチは、r-dパフォーマンス、視覚品質、下流アプリケーションにおいて、非常に低いビットレートで最新の最先端の手法を上回ることが証明された。
私たちのコードはhttps://github.com/lianqi1008/MCM.gitで利用可能です。 Learned image compression (LIC) methods have experienced significant progress during recent years. However, these methods are primarily dedicated to optimizing the rate-distortion (R-D) performance at medium and high bitrates (> 0.1 bits per pixel (bpp)), while research on extremely low bitrates is limited. Besides, existing methods fail to explicitly explore the image structure and texture components crucial for image compression, treating them equally alongside uninformative components in networks. This can cause severe perceptual quality degradation, especially under low-bitrate scenarios. In this work, inspired by the success of pre-trained masked autoencoders (MAE) in many downstream tasks, we propose to rethink its mask sampling strategy from structure and texture perspectives for high redundancy reduction and discriminative feature representation, further unleashing the potential of LIC methods. Therefore, we present a dual-adaptive masking approach (DA-Mask) that samples visible patches based on the structure and texture distributions of original images. We combine DA-Mask and pre-trained MAE in masked image modeling (MIM) as an initial compressor that abstracts informative semantic context and texture representations. Such a pipeline can well cooperate with LIC networks to achieve further secondary compression while preserving promising reconstruction quality. Consequently, we propose a simple yet effective masked compression model (MCM), the first framework that unifies MIM and LIC end-to-end for extremely low-bitrate image compression. Extensive experiments have demonstrated that our approach outperforms recent state-of-the-art methods in R-D performance, visual quality, and downstream applications, at very low bitrates. Our code is available at https://github.com/lianqi1008/MCM.git. | 翻訳日:2023-06-28 12:53:11 公開日:2023-06-27 |
# RansomAI: ステルス暗号化のためのAIベースのランサムウェア RansomAI: AI-powered Ransomware for Stealthy Encryption ( http://arxiv.org/abs/2306.15559v1 ) ライセンス: Link先を確認 | Jan von der Assen, Alberto Huertas Celdr\'an, Janik Luechinger, Pedro Miguel S\'anchez S\'anchez, G\'er\^ome Bovet, Gregorio Mart\'inez P\'erez, Burkhard Stiller | (参考訳) サイバーセキュリティソリューションは、固定されたアルゴリズムと暗号化レートを使用するランサムウェアサンプルを検出する際の有望なパフォーマンスを示している。
しかし、現在の人工知能(AI)の爆発により、ランサムウェア(およびマルウェア全般)は、その暗号化動作が検出されないようにインテリジェントかつ動的に適応するAI技術を組み込むことになる。
結果として、非効率で時代遅れのサイバーセキュリティソリューションが生まれるかもしれないが、その文献には、それを検証するためのAIによるランサムウェアがない。
したがって、この研究は強化学習ベースのフレームワークであるRansomAIを提案し、既存のランサムウェアのサンプルに統合することで、暗号化動作に適応し、ファイルを暗号化しながらステルス性を保つことができる。
RansomAIは、最高の暗号化アルゴリズム、レート、期間を学習し、その損傷機能を最大化しつつ、その検出を最小化するエージェント(報酬機構と指紋認証システム)を提供する。
提案されたフレームワークはランサムウェアであるRansomware-PoCで検証され、Raspberry Pi 4がクラウドセンサーとして機能した。
深部Q-Learningと分離林(エージェントと検出システムにそれぞれ展開)による実験のプールでは、RansomAIがRaspberry Pi 4に影響を及ぼすRansomware-PoCの検出を、90%以上の精度で数分で回避することを示した。 Cybersecurity solutions have shown promising performance when detecting ransomware samples that use fixed algorithms and encryption rates. However, due to the current explosion of Artificial Intelligence (AI), sooner than later, ransomware (and malware in general) will incorporate AI techniques to intelligently and dynamically adapt its encryption behavior to be undetected. It might result in ineffective and obsolete cybersecurity solutions, but the literature lacks AI-powered ransomware to verify it. Thus, this work proposes RansomAI, a Reinforcement Learning-based framework that can be integrated into existing ransomware samples to adapt their encryption behavior and stay stealthy while encrypting files. RansomAI presents an agent that learns the best encryption algorithm, rate, and duration that minimizes its detection (using a reward mechanism and a fingerprinting intelligent detection system) while maximizing its damage function. The proposed framework was validated in a ransomware, Ransomware-PoC, that infected a Raspberry Pi 4, acting as a crowdsensor. A pool of experiments with Deep Q-Learning and Isolation Forest (deployed on the agent and detection system, respectively) has demonstrated that RansomAI evades the detection of Ransomware-PoC affecting the Raspberry Pi 4 in a few minutes with >90% accuracy. | 翻訳日:2023-06-28 12:52:40 公開日:2023-06-27 |
# 成功への簡単なステップ:距離ベースアルゴリズムの公理学 Simple Steps to Success: Axiomatics of Distance-Based Algorithmic Recourse ( http://arxiv.org/abs/2306.15557v1 ) ライセンス: Link先を確認 | Jenny Hamer, Jake Valladares, Vignesh Viswanathan, Yair Zick | (参考訳) 本稿では,予測結果の変更にユーザによる介入を提供する,新しいデータ駆動型手法を提案する。
例えば、基礎となる因果グラフへの介入やコスト関数の最小化などである。
しかし、これらの基準を満たすためには、基礎となるモデル構造に関する広範な知識が必要である。
本稿では,データ駆動型,計算効率のよいアルゴリズム手法を提案する。
私たちは、ユーザが予測結果を変更することができるデータ多様体の方向を提案することでそうします。
方向に基づくアルゴリズムの帰納法を計算するための公理的正当化フレームワークである stepwise explanationable paths (step) を提案する。
StEPの徹底的な実証と理論的研究を提供する。
StEPは、証明可能なプライバシとロバスト性保証を提供し、確立されたいくつかのデシダータの最先端を上回ります。 We propose a novel data-driven framework for algorithmic recourse that offers users interventions to change their predicted outcome. Existing approaches to compute recourse find a set of points that satisfy some desiderata -- e.g. an intervention in the underlying causal graph, or minimizing a cost function. Satisfying these criteria, however, requires extensive knowledge of the underlying model structure, often an unrealistic amount of information in several domains. We propose a data-driven, computationally efficient approach to computing algorithmic recourse. We do so by suggesting directions in the data manifold that users can take to change their predicted outcome. We present Stepwise Explainable Paths (StEP), an axiomatically justified framework to compute direction-based algorithmic recourse. We offer a thorough empirical and theoretical investigation of StEP. StEP offers provable privacy and robustness guarantees, and outperforms the state-of-the-art on several established recourse desiderata. | 翻訳日:2023-06-28 12:52:16 公開日:2023-06-27 |
# インテリジェンス様粒子の対話的コヒーレント絡みの理論 A Theory of Interactively Coherent Entanglement for Intelligence-Like Particles ( http://arxiv.org/abs/2306.15554v1 ) ライセンス: Link先を確認 | Leilei Shi, Bing-Hong Wang, Xinshuai Guo, Guocheng Wang | (参考訳) 複雑適応学習は知的であり、生命と非生命の複雑なシステムにおいて役割を果たす。
複雑なシステムは、相互作用する多くの個人または単位を含み、相互作用するときに隠れたパターンを示し、自然科学から社会科学まで、ほぼ全ての分野において広く起こる。
複雑な系の定式化のメカニズムを探求する科学者を刺激する。
しかし、それは非常に難しい。
ここで著者らは、取引量-価格確率波方程式から複素系の普遍的規則または相互作用コヒーレンス法則を抽出し、それを複素量子系に適用する。
粒子は強化された座標で複雑な適応学習や知性のような性質を持ち、金融市場のトレーダーの複雑な適応学習を量子物理学における非生物粒子に拡張できると仮定している。
これらの仮定を用いて、量子物理学における絡み合いを説明するために、インテリジェンスのような粒子の相互作用的にコヒーレントな絡み合いの理論を提案する。
量子の絡み合いは、コペンハーゲンの主流の思想的主張であるコヒーレント状態の重ね合わせの状態ではないと結論付けている。
これは、強化座標におけるインテリジェンスのような粒子によって生成される対話的にコヒーレントな絡み合いの状態である。
著者らは実験結果を楽しみ、その妥当性を検証し、完全になるまで理論をさらに改善し、新しい技術経路における絡み合い資源の工業生産と今後の量子通信への応用の可能性を提案する。
キーワード:複雑システム、複雑適応学習、知能様粒子、対話的コヒーレント絡み合い、財務複雑さ、体積-価格波方程式 Complex adaptive learning is intelligent and plays roles in living and non-living complex systems. A complex system comprises many interacting individuals or units, shows hidden patterns as they interact, and widely occurs in almost every discipline, from natural to social sciences. It stimulates scientists to explore the mechanism of complex systems formulation. However, it is very challenging. Here the authors extract a universal rule or a law for interactive coherence in complex systems from a trading volume-price probability wave equation and apply it to complex quantum systems as its application. It assumes that particles can have a complex adaptive learning- or intelligence-like property in a reinforced coordinate and extend complex adaptive learning of traders in the financial markets to that of non-living particles in quantum physics. With these assumptions, the authors propose a theory of interactively coherent entanglement for intelligence-like particles, attempting to explain entanglement in quantum physics. It concludes that quantum entanglement is not a state of the superposition of coherent states as the mainstream Copenhagen school of thought claims. It is a state of interactively coherent entanglement generated by intelligence-like particles in a reinforced coordinate. The authors look forward to the experimental results to examine its validity and further improve the theory until it is perfect, suggesting industrial production of entanglement resources in new technical routes available and its potential application to quantum communications in the future. Keywords: Complex systems; Complex adaptive learning; Intelligence-like particles; Interactive coherent entanglement; Finance complexity; Volume-price wave equation | 翻訳日:2023-06-28 12:52:03 公開日:2023-06-27 |
# 異種hpcプラットフォームのためのディープラーニングハードウェアアクセラレータに関する調査 A Survey on Deep Learning Hardware Accelerators for Heterogeneous HPC Platforms ( http://arxiv.org/abs/2306.15552v1 ) ライセンス: Link先を確認 | Cristina Silvano, Daniele Ielmini, Fabrizio Ferrandi, Leandro Fiorin, Serena Curzel, Luca Benini, Francesco Conti, Angelo Garofalo, Cristian Zambelli, Enrico Calore, Sebastiano Fabio Schifano, Maurizio Palesi, Giuseppe Ascia, Davide Patti, Stefania Perri, Nicola Petra, Davide De Caro, Luciano Lavagno, Teodoro Urso, Valeria Cardellini, Gian Carlo Cardarilli, Robert Birke | (参考訳) 近年のディープラーニング(DL)は、画像分類、コンピュータビジョン、音声認識などの高性能コンピューティング(HPC)アプリケーションにおいて、ハードウェアアクセラレーターを最も有効なソリューションとして採用している。
本調査は,HPCアプリケーションの性能要件に適合するDLアクセラレータの設計における最新の進歩を要約し,分類する。
特に、GPUやTPUベースのアクセラレータだけでなく、FPGAベースのアクセラレータやASICベースのアクセラレータ、Neural Processing Units、オープンハードウェアRISC-Vベースのアクセラレータ、コプロセッサといった、設計固有のハードウェアアクセラレータを含む、ディープラーニングアクセラレーションをサポートする最も高度なアプローチを強調している。
この調査はまた、インメモリコンピューティング、ニューロモルフィック処理ユニット、マルチチップモジュールに基づくアクセラレータを実装するために、3dスタックプロセッサインメモリ、不揮発性メモリ(主に抵抗性ram、フェーズチェンジメモリ)などの新しいメモリ技術とコンピューティングパラダイムに基づくアクセラレータについても記述している。
この調査は、急速に進化するディープラーニングの分野において、読者に包括的な視点を提供する目的で、過去数年間で最も影響力のあるアーキテクチャとテクノロジを分類している。
最後に、量子加速器やフォトニクスのようなDL加速器の今後の課題についての洞察を提供する。 Recent trends in deep learning (DL) imposed hardware accelerators as the most viable solution for several classes of high-performance computing (HPC) applications such as image classification, computer vision, and speech recognition. This survey summarizes and classifies the most recent advances in designing DL accelerators suitable to reach the performance requirements of HPC applications. In particular, it highlights the most advanced approaches to support deep learning accelerations including not only GPU and TPU-based accelerators but also design-specific hardware accelerators such as FPGA-based and ASIC-based accelerators, Neural Processing Units, open hardware RISC-V-based accelerators and co-processors. The survey also describes accelerators based on emerging memory technologies and computing paradigms, such as 3D-stacked Processor-In-Memory, non-volatile memories (mainly, Resistive RAM and Phase Change Memories) to implement in-memory computing, Neuromorphic Processing Units, and accelerators based on Multi-Chip Modules. The survey classifies the most influential architectures and technologies proposed in the last years, with the purpose of offering the reader a comprehensive perspective in the rapidly evolving field of deep learning. Finally, it provides some insights into future challenges in DL accelerators such as quantum accelerators and photonics. | 翻訳日:2023-06-28 12:51:24 公開日:2023-06-27 |
# CrunchGPT:科学機械学習のためのチャットGPT支援フレームワーク CrunchGPT: A chatGPT assisted framework for scientific machine learning ( http://arxiv.org/abs/2306.15551v1 ) ライセンス: Link先を確認 | Varun Kumar, Leonard Gleyzer, Adar Kahana, Khemraj Shukla, George Em Karniadakis | (参考訳) 科学機械学習(SciML)は最近、計算科学と工学の様々な領域で進歩している。
目的は、データ同化スキームを精巧かつ計算的に課税する必要なく、データと物理をシームレスに統合することである。
しかし、前処理、問題定式化、コード生成、後処理、分析はまだ時間がかかるため、scimlが産業アプリケーションやデジタルツインフレームワークで広く適用できない可能性がある。
そこで我々は,SciMLのさまざまなステージをChatGPTの傘の下で統合し,ユーザによる簡単なプロンプトに基づいてSciMLのワークフロー全体をオーケストレーションする指揮者の役割を担うCrunchGPTを定式化する。
具体的には,空気力学における翼最適化におけるCrunchGPTの有用性を実証する2つの例と,インタラクティブなモードで様々なジオメトリ内の流れ場を得る場合の検証段階を強調する。
crunchgptの流れを実証し、より広いビジョンを促進するインフラストラクチャを構築するために、包括的な要約レポートのオプションを含むwebappベースのガイド付きユーザインターフェースを構築しました。
全体的な目的は、CrunchGPTを拡張して、計算力学、設計、最適化、制御、SciMLに関わる一般的な科学計算タスクの様々な問題に対処することであり、そのため研究補助ツールとしてだけでなく教育ツールとしても使われる。
ここでは流体力学に焦点を当てるが、将来のバージョンでは固体力学と材料科学、地球物理学、システム生物学、バイオインフォマティクスを対象とする。 Scientific Machine Learning (SciML) has advanced recently across many different areas in computational science and engineering. The objective is to integrate data and physics seamlessly without the need of employing elaborate and computationally taxing data assimilation schemes. However, preprocessing, problem formulation, code generation, postprocessing and analysis are still time consuming and may prevent SciML from wide applicability in industrial applications and in digital twin frameworks. Here, we integrate the various stages of SciML under the umbrella of ChatGPT, to formulate CrunchGPT, which plays the role of a conductor orchestrating the entire workflow of SciML based on simple prompts by the user. Specifically, we present two examples that demonstrate the potential use of CrunchGPT in optimizing airfoils in aerodynamics, and in obtaining flow fields in various geometries in interactive mode, with emphasis on the validation stage. To demonstrate the flow of the CrunchGPT, and create an infrastructure that can facilitate a broader vision, we built a webapp based guided user interface, that includes options for a comprehensive summary report. The overall objective is to extend CrunchGPT to handle diverse problems in computational mechanics, design, optimization and controls, and general scientific computing tasks involved in SciML, hence using it as a research assistant tool but also as an educational tool. While here the examples focus in fluid mechanics, future versions will target solid mechanics and materials science, geophysics, systems biology and bioinformatics. | 翻訳日:2023-06-28 12:50:46 公開日:2023-06-27 |
# 冷間原子エレベータ:エッジ状態注入からチャーン絶縁体調製まで The cold-atom elevator: From edge-state injection to the preparation of fractional Chern insulators ( http://arxiv.org/abs/2306.15610v1 ) ライセンス: Link先を確認 | Botao Wang, Monika Aidelsburger, Jean Dalibard, Andr\'e Eckardt and Nathan Goldman | (参考訳) コールド原子の光ボックストラップは、量子ガス実験に新たな可能性をもたらす。
本稿では,光格子中のトポロジカル原子状態の生成と操作の観点から,ボックストラップを用いたシステム貯留層構成を設計することを提案する。
まず, 貯水池からシステムへの粒子注入について考察し, このシナリオはエネルギー選択性キラルエッジ電流の活性化に特に適しており, チャーン絶縁地盤の状態の分画にも適していることを示した。
次に、原子ガスをトポロジカルな基底状態へと効果的に冷却する実用的な蒸発冷却方式を考案する。
光格子設定に対する我々のオープンシステムアプローチは、強相関位相を含む超低温量子物質の研究の新しい経路を提供する。 Optical box traps for cold atoms offer new possibilities for quantum-gas experiments. Building on their exquisite spatial and temporal control, we propose to engineer system-reservoir configurations using box traps, in view of preparing and manipulating topological atomic states in optical lattices. First, we consider the injection of particles from the reservoir to the system: this scenario is shown to be particularly well suited to activate energy-selective chiral edge currents, but also, to prepare fractional Chern insulating ground states. Then, we devise a practical evaporative-cooling scheme to effectively cool down atomic gases into topological ground states. Our open-system approach to optical-lattice settings provides a new path for the investigation of ultracold quantum matter, including strongly-correlated and topological phases. | 翻訳日:2023-06-28 12:45:22 公開日:2023-06-27 |
# ニューラルマシン翻訳を用いた多言語コード探索データセットの構築 Constructing Multilingual Code Search Dataset Using Neural Machine Translation ( http://arxiv.org/abs/2306.15604v1 ) ライセンス: Link先を確認 | Ryo Sekizawa, Nan Duan, Shuai Lu, Hitomi Yanaka | (参考訳) コード検索は、与えられた自然言語クエリにセマンティックにマッチするプログラムコードを見つけるためのタスクである。
このタスクの既存のデータセットのいくつかはプログラミング言語側で多言語化されているが、クエリデータは英語のみである。
本研究では,ニューラルマシン翻訳モデルを用いて,自然言語と4つのプログラミング言語の多言語コード検索データセットを作成する。
データセットを使用して、Transformerベースのモデルを事前トレーニングし、微調整し、複数のコード検索テストセットで評価します。
その結果,すべての自然言語およびプログラミング言語データで事前学習されたモデルが,ほとんどのケースで最高の性能を示した。
データセットにバックトランスレーションデータフィルタリングを適用することで、翻訳品質がモデルの性能に一定の影響を及ぼすことを示すが、データサイズはより重要となる。 Code search is a task to find programming codes that semantically match the given natural language queries. Even though some of the existing datasets for this task are multilingual on the programming language side, their query data are only in English. In this research, we create a multilingual code search dataset in four natural and four programming languages using a neural machine translation model. Using our dataset, we pre-train and fine-tune the Transformer-based models and then evaluate them on multiple code search test sets. Our results show that the model pre-trained with all natural and programming language data has performed best in most cases. By applying back-translation data filtering to our dataset, we demonstrate that the translation quality affects the model's performance to a certain extent, but the data size matters more. | 翻訳日:2023-06-28 12:45:07 公開日:2023-06-27 |
# GINGERプロジェクトの現状 Status of the GINGER project ( http://arxiv.org/abs/2306.15603v1 ) ライセンス: Link先を確認 | Angela D. V. Di Virgilio (on behalf of GINGER Collaboration) | (参考訳) サニャック効果に基づく大きなフレームリングレーザージャイロスコープは、固定された恒星に対して角速度を測定するための最高感度計である。
GINGER (Gyroscopes IN GEneral Relativity) プロジェクトは、地球に固く接続された3つの大次元リング型レーザージャイロスコープのアレイの構築を予見する。
GINGERは、重力セクターにおける一般相対性効果とローレンツ振動を測定する可能性を持ち、一度地球回転率の10-9$以上の感度が得られる。
地殻に付着しているこのアレイは、地球物理学の調査に有用なデータを提供する。
この目的のために、現在はグランサッソ(英語版)(UGSS)の地下地球物理学と呼ばれる多成分天文台の一部として建設中である。
感度は、基礎科学におけるこの楽器の関連性を決定する重要なポイントである。
GINGERINOと呼ばれるリングレーザーのプロトタイプで得られた感度測定の最新の進歩は、GINGERが地球回転率の10–11}$で1のレベルに達することを示唆している。 Large frame Ring laser gyroscopes, based on the Sagnac effect, are top sensitivity instrumentation to measure angular velocity with respect to the fixed stars. GINGER (Gyroscopes IN GEneral Relativity) project foresees the construction of an array of three large dimension ring laser gyroscopes, rigidly connected to the Earth. GINGER has the potentiality to measure general relativity effects and Lorentz Violation in the gravity sector, once a sensitivity of $10^{-9}$, or better, of the Earth rotation rate is obtained. Being attached to the Earth crust, the array will also provide useful data for geophysical investigation. For this purpose, it is at present under construction as part of the multi-components observatory called Underground Geophysics at Gran Sasso (UGSS). Sensitivity is the key point to determine the relevance of this instrument for fundamental science. The most recent progress in the sensitivity measurement, obtained on a ring laser prototype called GINGERINO, indicates that GINGER should reach the level of 1 part in $10^{11}$ of the Earth rotation rate. | 翻訳日:2023-06-28 12:44:54 公開日:2023-06-27 |
# リアルタイム蛍光時間イメージングのための繰り返しニューラルネットワーク結合SPAD TCSPCシステム Recurrent Neural Network-coupled SPAD TCSPC System for Real-time Fluorescence Lifetime Imaging ( http://arxiv.org/abs/2306.15599v1 ) ライセンス: Link先を確認 | Yang Lin, Paul Mos, Andrei Ardelean, Claudio Bruschini, Edoardo Charbon | (参考訳) 近年,生物・医学研究における強力なイメージング技術として,蛍光寿命イメージング(FLI)が注目されている。
しかし、既存のFLIシステムは処理速度、精度、堅牢性のトレードオフに悩まされることが多い。
本稿では,FLI用リカレントニューラルネットワーク(RNN)に結合したSPAD TCSPCシステムを提案する。これはヒストグラムの代わりに生のタイムスタンプから直接フライ蛍光寿命を正確に推定し,データ転送速度とハードウェアリソースの利用を大幅に削減する。
合成データセット上でRNNの2つの変種を訓練し,CMM法とLSフィッティング法を用いて得られた変種と比較した。
その結果, ゲートリカレント・ユニット (GRU) と長短期記憶 (LSTM) の2つのRNN変種は, CMM と LS に匹敵し, 背景雑音の存在下でのCMM と LS の適合性に優れていた。
また, クレーマー・ラオ下界を考察し, RNNモデルが理論的最適値に近いことを示した。
実験データの解析結果から,本モデルは合成データセット上でトレーニングされ,実世界のデータでうまく機能することが示された。
実験室で開発された32ドルのSPADセンサであるPiccoloに基づく評価のためのFLI顕微鏡のセットアップを構築した。
最大400万光子を毎秒処理できる4つの量子化GRUコアがXilinx Kintex-7 FPGA上に展開されている。
GRUにより、FLIセットアップは、毎秒10フレームまでのリアルタイム蛍光寿命画像を取得することができる。
提案したFLIシステムは、高速移動細胞の生物学的イメージングから蛍光支援診断・手術まで、多くの重要なバイオメディカル応用に期待されている。 Fluorescence lifetime imaging (FLI) has been receiving increased attention in recent years as a powerful imaging technique in biological and medical research. However, existing FLI systems often suffer from a tradeoff between processing speed, accuracy, and robustness. In this paper, we propose a SPAD TCSPC system coupled to a recurrent neural network (RNN) for FLI that accurately estimates on the fly fluorescence lifetime directly from raw timestamps instead of histograms, which drastically reduces the data transfer rate and hardware resource utilization. We train two variants of the RNN on a synthetic dataset and compare the results to those obtained using the center-of-mass method (CMM) and least squares fitting (LS fitting) methods. The results demonstrate that two RNN variants, gated recurrent unit (GRU) and long short-term memory (LSTM), are comparable to CMM and LS fitting in terms of accuracy and outperform CMM and LS fitting by a large margin in the presence of background noise. We also look at the Cramer-Rao lower bound and detailed analysis showed that the RNN models are close to the theoretical optima. The analysis of experimental data shows that our model, which is purely trained on synthetic datasets, works well on real-world data. We build a FLI microscope setup for evaluation based on Piccolo, a 32$\times$32 SPAD sensor developed in our lab. Four quantized GRU cores, capable of processing up to 4 million photons per second, are deployed on a Xilinx Kintex-7 FPGA. Powered by the GRU, the FLI setup can retrieve real-time fluorescence lifetime images at up to 10 frames per second. The proposed FLI system is promising for many important biomedical applications, ranging from biological imaging of fast-moving cells to fluorescence-assisted diagnosis and surgery. | 翻訳日:2023-06-28 12:44:32 公開日:2023-06-27 |
# 位置補間による大規模言語モデルのコンテキストウィンドウの拡張 Extending Context Window of Large Language Models via Positional Interpolation ( http://arxiv.org/abs/2306.15595v1 ) ライセンス: Link先を確認 | Shouyuan Chen, Sherman Wong, Liangjian Chen, Yuandong Tian | (参考訳) LLaMAモデルのようなRoPEベースで事前訓練されたLLMのコンテキストウィンドウサイズを、最小限の微調整(1000ステップ以内)で最大32768まで拡張し、パスキー検索、言語モデリング、LLaMA 7Bから65Bまでの長い文書要約などの長いコンテキストを必要とするタスクに対して強力な実験結果を示す。
一方、位置補間による拡張モデルは、元のコンテキストウィンドウ内のタスクの質を比較的よく保っている。
この目的を達成するために、位置補間は入力位置指標を線形にダウンスケールし、トレーニングされたコンテキスト長を超えて外挿するのではなく、自己保持機構を完全に破壊する破滅的な高い注意スコアを与える。
我々の理論的研究は、補間上限が少なくとも$\sim 600 \times$は外挿限界よりも小さいことを示し、その安定性を示している。
位置補間によって拡張されたモデルは元のアーキテクチャを維持し、既存の最適化とインフラを再利用することができる。 We present Position Interpolation (PI) that extends the context window sizes of RoPE-based pretrained LLMs such as LLaMA models to up to 32768 with minimal fine-tuning (within 1000 steps), while demonstrating strong empirical results on various tasks that require long context, including passkey retrieval, language modeling, and long document summarization from LLaMA 7B to 65B. Meanwhile, the extended model by Position Interpolation preserve quality relatively well on tasks within its original context window. To achieve this goal, Position Interpolation linearly down-scales the input position indices to match the original context window size, rather than extrapolating beyond the trained context length which may lead to catastrophically high attention scores that completely ruin the self-attention mechanism. Our theoretical study shows that the upper bound of interpolation is at least $\sim 600 \times$ smaller than that of extrapolation, further demonstrating its stability. Models extended via Position Interpolation retain its original architecture and can reuse most pre-existing optimization and infrastructure. | 翻訳日:2023-06-28 12:43:55 公開日:2023-06-27 |
# 冠動脈周囲脂肪組織(PCAT)の心内CT灌流像による冠状動脈血行動態の検討 Cardiac CT perfusion imaging of pericoronary adipose tissue (PCAT) highlights potential confounds in coronary CTA ( http://arxiv.org/abs/2306.15593v1 ) ライセンス: Link先を確認 | Hao Wu, Yingnan Song, Ammar Hoori, Ananya Subramaniam, Juhwan Lee, Justin Kim, Tao Hu, Sadeer Al-Kindi, Wei-Ming Huang, Chun-Ho Yun, Chung-Lieh Hung, Sanjay Rajagopalan, David L. Wilson | (参考訳) 冠動脈ct angiography (ccta) による冠動脈周囲脂肪組織 (pcat) の特徴は炎症および心血管リスクと関連している。
PCATは冠動脈血管と血管系に結合しているため, ヨードの存在はPCAT HUとテクスチャの相違要因となる可能性が示唆された。
動的心肺CT灌流(CCTP)を用いてPCAT評価のコントラスト決定因子を通知する。
冠状動脈疾患患者における領域特異的PCAT,心筋,その他の脂肪沈着のHU動態をCCTPで解析した。
HU,血流,放射能を経時的に測定した。
cctaの時刻をモデル化するために選ばれたaorta time, paから変化が得られた。
PCATのHUは, 他の沈殿物よりも増加した。
PCATの血流量は心筋の約23%であった。
PCAT遠位端と近位端を有意な狭窄に比し,拡張度は低く,遠隔期が長かった。
2秒のオフセットは, PCATでは [4-HU, 3-HU] 差が認められた。
HUの変化によりPCAT容積は従来の脂肪窓を用いて第1スキャン(P1)からPaまで約15%減少した。
放射線学的特徴は時間とともに78%がP1に対して10%に変化した。
CCTPはPCATの血流を解明し、PCATの特徴を経時的に分析することができる。
PCATアセスメント(HU, 見かけの容積, 放射能)は, CCTA画像におけるPCATの解釈を裏付ける閉塞性狭窄の有無に敏感である。
データ正規化は順に行うことができる。 Features of pericoronary adipose tissue (PCAT) assessed from coronary computed tomography angiography (CCTA) are associated with inflammation and cardiovascular risk. As PCAT is vascularly connected with coronary vasculature, the presence of iodine is a potential confounding factor on PCAT HU and textures that has not been adequately investigated. Use dynamic cardiac CT perfusion (CCTP) to inform contrast determinants of PCAT assessment. From CCTP, we analyzed HU dynamics of territory-specific PCAT, myocardium, and other adipose depots in patients with coronary artery disease. HU, blood flow, and radiomics were assessed over time. Changes from peak aorta time, Pa, chosen to model the time of CCTA, were obtained. HU in PCAT increased more than in other adipose depots. The estimated blood flow in PCAT was ~23% of that in the contiguous myocardium. Comparing PCAT distal and proximal to a significant stenosis, we found less enhancement and longer time-to-peak distally. Two-second offsets [before, after] Pa resulted in [ 4-HU, 3-HU] differences in PCAT. Due to changes in HU, the apparent PCAT volume reduced ~15% from the first scan (P1) to Pa using a conventional fat window. Comparing radiomic features over time, 78% of features changed >10% relative to P1. CCTP elucidates blood flow in PCAT and enables analysis of PCAT features over time. PCAT assessments (HU, apparent volume, and radiomics) are sensitive to acquisition timing and the presence of obstructive stenosis, which may confound the interpretation of PCAT in CCTA images. Data normalization may be in order. | 翻訳日:2023-06-28 12:43:35 公開日:2023-06-27 |
# 帆走ネットワークへの学習 : 戦術環境における混雑制御のためのmarlin強化学習フレームワーク Learning to Sail Dynamic Networks: The MARLIN Reinforcement Learning Framework for Congestion Control in Tactical Environments ( http://arxiv.org/abs/2306.15591v1 ) ライセンス: Link先を確認 | Raffaele Galliera, Mattia Zaccarini, Alessandro Morelli, Roberto Fronteddu, Filippo Poltronieri, Niranjan Suri, Mauro Tortonesi | (参考訳) tcp立方体などの従来の混雑制御(cc)アルゴリズムは、パケット損失を誤解し、ネットワーク性能を混雑症状として変動させるため、戦術環境に苦しむ。
我々のMARLINを含む最近の取り組みは、強化学習(Reinforcement Learning, RL)をCCに使用することを検討したが、特に競争力、不安定、予期せぬシナリオにおいて、一般化に欠けることが多い。
これらの課題に対処するために,戦術ネットワークの条件を再現するために,正確な並列化可能なエミュレーション環境を利用するRLフレームワークを提案する。
また,複雑なシナリオで動作するエージェントに適した改良されたRL定式化および性能評価手法についても紹介する。
衛星通信(SATCOM)とUHFワイドバンド(UHF)の無線リンク間のボトルネックリンク遷移を再現した条件下で、MARLINエージェントを訓練することにより、我々のRL学習フレームワークを評価する。
最後に、転送制御プロトコル(tcp)キュービックと、モデット戦術通信ミドルウェアに実装されたデフォルト戦略とのファイル転送タスクにおける性能を比較した。
その結果,MARLIN RL エージェントはTCP と Mockets を異なる視点で比較し,戦術的ネットワーク環境における CC 最適化における特殊 RL ソリューションの有効性を強調した。 Conventional Congestion Control (CC) algorithms,such as TCP Cubic, struggle in tactical environments as they misinterpret packet loss and fluctuating network performance as congestion symptoms. Recent efforts, including our own MARLIN, have explored the use of Reinforcement Learning (RL) for CC, but they often fall short of generalization, particularly in competitive, unstable, and unforeseen scenarios. To address these challenges, this paper proposes an RL framework that leverages an accurate and parallelizable emulation environment to reenact the conditions of a tactical network. We also introduce refined RL formulation and performance evaluation methods tailored for agents operating in such intricate scenarios. We evaluate our RL learning framework by training a MARLIN agent in conditions replicating a bottleneck link transition between a Satellite Communication (SATCOM) and an UHF Wide Band (UHF) radio link. Finally, we compared its performance in file transfer tasks against Transmission Control Protocol (TCP) Cubic and the default strategy implemented in the Mockets tactical communication middleware. The results demonstrate that the MARLIN RL agent outperforms both TCP and Mockets under different perspectives and highlight the effectiveness of specialized RL solutions in optimizing CC for tactical network environments. | 翻訳日:2023-06-28 12:43:09 公開日:2023-06-27 |
# 強化学習を用いた相手ゴールによる信用限度調整の最適化 Optimizing Credit Limit Adjustments Under Adversarial Goals Using Reinforcement Learning ( http://arxiv.org/abs/2306.15585v1 ) ライセンス: Link先を確認 | Sherly Alfonso-S\'anchez, Jes\'us Solano, Alejandro Correa-Bahnsen, Kristina P. Sendova, and Cristi\'an Bravo | (参考訳) 強化学習は、決定論的環境を持つビデオゲームから、シナリオが確率的であるポートフォリオや運用管理まで、多くの問題に対して研究されてきたが、銀行問題においてこれらの手法をテストする試みは少ない。
本研究では,強化学習技術を用いて最適なクレジットカード制限調整策の発見と自動化を試みた。
特に、利用可能な履歴データのために、顧客ごとの2つの可能なアクション、すなわち、個人の現在のクレジット制限を増加または維持することを検討した。
この方針を見出すため、まずこの意思決定問題を、期待利益を最大化する最適化問題として定式化し、ポートフォリオ収益の最大化とポートフォリオ条項の最小化という2つの逆の目標をバランスさせた。
第2に、問題の特異性を考慮して、我々は、ラテンアメリカのスーパーアプリ(商品配達から金融商品までさまざまなサービスを提供するモバイルアプリケーション)からの履歴データに基づくアクションの影響をシミュレートするために、オフライン学習戦略を使用し、強化学習エージェントを訓練しました。
その結果、最適化されたハイパーパラメータを持つダブルq学習エージェントは、他の戦略よりも優れており、この決定の複雑な性質を反映した非自明な最適ポリシーを生成することができる。
本研究は、信頼限度調整に強化学習フレームワークを適用するための概念的構造を確立し、専門家主導のシステムにのみ依存するのではなく、主にデータ駆動方式に基づいて意思決定を行う客観的手法を提案するとともに、これらの修正を決定するための代替データ利用の効果に関する洞察を提供する。 Reinforcement learning has been explored for many problems, from video games with deterministic environments to portfolio and operations management in which scenarios are stochastic; however, there have been few attempts to test these methods in banking problems. In this study, we sought to find and automatize an optimal credit card limit adjustment policy by employing reinforcement learning techniques. In particular, because of the historical data available, we considered two possible actions per customer, namely increasing or maintaining an individual's current credit limit. To find this policy, we first formulated this decision-making question as an optimization problem in which the expected profit was maximized; therefore, we balanced two adversarial goals: maximizing the portfolio's revenue and minimizing the portfolio's provisions. Second, given the particularities of our problem, we used an offline learning strategy to simulate the impact of the action based on historical data from a super-app (i.e., a mobile application that offers various services from goods deliveries to financial products) in Latin America to train our reinforcement learning agent. Our results show that a Double Q-learning agent with optimized hyperparameters can outperform other strategies and generate a non-trivial optimal policy reflecting the complex nature of this decision. Our research not only establishes a conceptual structure for applying reinforcement learning framework to credit limit adjustment, presenting an objective technique to make these decisions primarily based on data-driven methods rather than relying only on expert-driven systems but also provides insights into the effect of alternative data usage for determining these modifications. | 翻訳日:2023-06-28 12:42:43 公開日:2023-06-27 |
# マトリックステンソル製品モデルのための近似メッセージパッシング Approximate Message Passing for the Matrix Tensor Product Model ( http://arxiv.org/abs/2306.15580v1 ) ライセンス: Link先を確認 | Riccardo Rossetti, Galen Reeves | (参考訳) 本研究では,標準スパイク行列モデルの一般化である行列テンソル積モデルの近似メッセージパッシング(amp)アルゴリズムを提案し,解析する。
このアルゴリズムの重要な革新は、各イテレーションで複数の見積もりを最適に重み付け、結合する方法である。
非分離関数に対するamp収束定理に基づいて、高次元極限におけるその性能の漸近的に正確な記述を与える非分離関数の状態進化を証明する。
我々は、この状態進化結果を利用して、関心の信号の回復に必要な十分な条件を提供する。
このような条件は、モデルに対する信号対雑音比の適切な一般化から導かれる線形作用素の特異値に依存する。
この結果は,最近提案されたコンテキストモデル(共変量クラスタリングなど)や不均質ノイズモデルに対する多くの手法として回復する。 We propose and analyze an approximate message passing (AMP) algorithm for the matrix tensor product model, which is a generalization of the standard spiked matrix models that allows for multiple types of pairwise observations over a collection of latent variables. A key innovation for this algorithm is a method for optimally weighing and combining multiple estimates in each iteration. Building upon an AMP convergence theorem for non-separable functions, we prove a state evolution for non-separable functions that provides an asymptotically exact description of its performance in the high-dimensional limit. We leverage this state evolution result to provide necessary and sufficient conditions for recovery of the signal of interest. Such conditions depend on the singular values of a linear operator derived from an appropriate generalization of a signal-to-noise ratio for our model. Our results recover as special cases a number of recently proposed methods for contextual models (e.g., covariate assisted clustering) as well as inhomogeneous noise models. | 翻訳日:2023-06-28 12:42:13 公開日:2023-06-27 |
# PyBADS: Pythonの高速で堅牢なブラックボックス最適化 PyBADS: Fast and robust black-box optimization in Python ( http://arxiv.org/abs/2306.15576v1 ) ライセンス: Link先を確認 | Gurjeet Sangra Singh, Luigi Acerbi | (参考訳) PyBADSは、高速で堅牢なブラックボックス最適化のためのBayesian Adaptive Direct Search (BADS)アルゴリズムのPython実装である(AcerbiとMa 2017)。
BADSは、目的関数が粗く(非凸、非平滑)、軽度に高価(例えば、関数評価は0.1秒以上)、ノイズがあり、勾配情報が利用できないという難しい最適化問題を効率的に解くために設計された最適化アルゴリズムである。
BADSでは、これらの問題はよく解決されており、最大形推定などの手法を用いて計算モデルを適合させるには優れた選択である。
このアルゴリズムは、最大$D \approx 20$連続入力パラメータを持つブラックボックス関数に効率よくスケールし、バウンダリをサポートする。
PyBADSには,アルゴリズムの実行と結果の検査を行うための,使い易いPythonicインターフェースが付属している。
PyBADSは、ユーザがターゲット関数やオプションで他の制約を評価するためにPython関数を提供する必要がある。
認知、行動、計算神経科学から引き出された、人工的なテスト問題と大規模な実モデル適合問題に関する広範囲なベンチマークは、BADSが他の多くの一般的な最先端のオプティマイザ(AcerbiとMa 2017)と同等以上のパフォーマンスを示し、高速で堅牢なソリューションを提供する一般的なモデル適合ツールであることを示している。 PyBADS is a Python implementation of the Bayesian Adaptive Direct Search (BADS) algorithm for fast and robust black-box optimization (Acerbi and Ma 2017). BADS is an optimization algorithm designed to efficiently solve difficult optimization problems where the objective function is rough (non-convex, non-smooth), mildly expensive (e.g., the function evaluation requires more than 0.1 seconds), possibly noisy, and gradient information is unavailable. With BADS, these issues are well addressed, making it an excellent choice for fitting computational models using methods such as maximum-likelihood estimation. The algorithm scales efficiently to black-box functions with up to $D \approx 20$ continuous input parameters and supports bounds or no constraints. PyBADS comes along with an easy-to-use Pythonic interface for running the algorithm and inspecting its results. PyBADS only requires the user to provide a Python function for evaluating the target function, and optionally other constraints. Extensive benchmarks on both artificial test problems and large real model-fitting problems models drawn from cognitive, behavioral and computational neuroscience, show that BADS performs on par with or better than many other common and state-of-the-art optimizers (Acerbi and Ma 2017), making it a general model-fitting tool which provides fast and robust solutions. | 翻訳日:2023-06-28 12:41:57 公開日:2023-06-27 |
# コサイクルを用いた非同期アルゴリズムアライメント Asynchronous Algorithmic Alignment with Cocycles ( http://arxiv.org/abs/2306.15632v1 ) ライセンス: Link先を確認 | Andrew Dudzik, Tamara von Glehn, Razvan Pascanu, Petar Veli\v{c}kovi\'c | (参考訳) 最先端のニューラルネットワーク推論器は、グラフニューラルネットワーク(GNN)でメッセージパッシングを利用する。
しかし、典型的なgnnはメッセージ関数の定義と呼び出しの区別を曖昧にし、ノードが各レイヤの近隣にメッセージを同期的に送らなければならない。
しかし、動的プログラミングアルゴリズムの実行を学ぶためにGNNを適用する場合、ほとんどのステップでは、送信すべき意味のあるアップデートはノードのごく一部に限られる。
したがって、多くの中間gnnステップがid関数を学ばなければならないため、グラフ全体にあまりにも多くの無関係なデータを送信することで、非効率なリスクを負うことになる。
この作業では、ノードの状態更新とメッセージ関数呼び出しの概念を明示的に分離します。
この分離により、アルゴリズムとニューラルネットワークの両方で非同期計算を推論できる数学的定式化が得られる。 State-of-the-art neural algorithmic reasoners make use of message passing in graph neural networks (GNNs). But typical GNNs blur the distinction between the definition and invocation of the message function, forcing a node to send messages to its neighbours at every layer, synchronously. When applying GNNs to learn to execute dynamic programming algorithms, however, on most steps only a handful of the nodes would have meaningful updates to send. One, hence, runs the risk of inefficiencies by sending too much irrelevant data across the graph -- with many intermediate GNN steps having to learn identity functions. In this work, we explicitly separate the concepts of node state update and message function invocation. With this separation, we obtain a mathematical formulation that allows us to reason about asynchronous computation in both algorithms and neural networks. | 翻訳日:2023-06-28 12:33:34 公開日:2023-06-27 |
# ニューラルガレルキンスキームにおける適応サンプリングのための結合パラメータと粒子動力学 Coupling parameter and particle dynamics for adaptive sampling in Neural Galerkin schemes ( http://arxiv.org/abs/2306.15630v1 ) ライセンス: Link先を確認 | Yuxiao Wen and Eric Vanden-Eijnden and Benjamin Peherstorfer | (参考訳) 偏微分方程式の数値近似解へのディープニューラルネットワークのような非線形パラメトリゼーションの訓練は、解析的に限られた設定でのみ使用可能な残差を含む損失を最小化することに基づいていることが多い。
同時に、特に波動やコヒーレント構造などの局所的な特徴を示す輸送支配的・高次元問題に対して、残留物や関連量の分散が大きいため、訓練損失を経験的に推定することは困難である。
したがって、不均一分布からのデータサンプルに基づく推定器は非効率である。
本研究は,粒子のアンサンブルによって経験的に表現される適応分布から,トレーニング損失を推定するニューラルガレルキンスキームを導入する。
アンサンブルは、解場の非線形パラメトリゼーションと結合した動力学を持つ粒子を進化させ、アンサンブルがトレーニング損失の推定に役立ち続けるように積極的に適応する。
数値実験により,局所的特徴や高次元空間領域の問題においても,トレーニング損失の正確な推定値を得るには,動的粒子が少ないことが示唆された。 Training nonlinear parametrizations such as deep neural networks to numerically approximate solutions of partial differential equations is often based on minimizing a loss that includes the residual, which is analytically available in limited settings only. At the same time, empirically estimating the training loss is challenging because residuals and related quantities can have high variance, especially for transport-dominated and high-dimensional problems that exhibit local features such as waves and coherent structures. Thus, estimators based on data samples from un-informed, uniform distributions are inefficient. This work introduces Neural Galerkin schemes that estimate the training loss with data from adaptive distributions, which are empirically represented via ensembles of particles. The ensembles are actively adapted by evolving the particles with dynamics coupled to the nonlinear parametrizations of the solution fields so that the ensembles remain informative for estimating the training loss. Numerical experiments indicate that few dynamic particles are sufficient for obtaining accurate empirical estimates of the training loss, even for problems with local features and with high-dimensional spatial domains. | 翻訳日:2023-06-28 12:33:21 公開日:2023-06-27 |
# ニュートラル原子NISQデバイスにおける機械学習に基づくノイズ特性と補正 Machine-learning based noise characterization and correction on neutral atoms NISQ devices ( http://arxiv.org/abs/2306.15628v1 ) ライセンス: Link先を確認 | Ettore Canonici, Stefano Martina, Riccardo Mengoni, Daniele Ottaviani, Filippo Caruso | (参考訳) 中性原子デバイスは、量子状態を制御するために原子と変調レーザーパルスを幾何学的に配置するために光学トワイザーを使用する有望な技術である。
中性原子ノイズ型中間スケール量子(nisq)デバイスは、最大100量子ビットで動作するルビジウム原子と共にpasqalによって開発された。
すべてのNISQデバイスは、計算結果に影響を及ぼすノイズに影響を受ける。
したがって、ノイズ源をよりよく理解し、特徴付けし、おそらく修正することが重要である。
ここでは、中性原子NISQデバイス上のノイズパラメータを特徴付け、補正する2つの手法を提案する。
特に、pasqalデバイスにフォーカスしており、これらの目的を追求するために機械学習(ml)技術が採用されている。
ノイズパラメータを特徴付けるために、いくつかのMLモデルをトレーニングし、原子の最終量子状態の測定のみを入力として、レーザー強度の変動とウェスト、温度、偽陽性および負の測定率を予測する。
さらに、システム内の原子数と入力として使用される測定値数をスケーリングして分析する。
また,MLの予測値と事前推定パラメータを実データで比較した。
最後に、RL(Reinforcement Learning)フレームワークを用いて、測定におけるノイズの影響を補正するためにパルスを設計する。
本研究で行った解析は、中性原子デバイスにおける量子力学のより深い理解と、このタイプのNISQデバイスの普及に有用であることが期待されている。 Neutral atoms devices represent a promising technology that uses optical tweezers to geometrically arrange atoms and modulated laser pulses to control the quantum states. A neutral atoms Noisy Intermediate Scale Quantum (NISQ) device is developed by Pasqal with rubidium atoms that will allow to work with up to 100 qubits. All NISQ devices are affected by noise that have an impact on the computations results. Therefore it is important to better understand and characterize the noise sources and possibly to correct them. Here, two approaches are proposed to characterize and correct noise parameters on neutral atoms NISQ devices. In particular the focus is on Pasqal devices and Machine Learning (ML) techniques are adopted to pursue those objectives. To characterize the noise parameters, several ML models are trained, using as input only the measurements of the final quantum state of the atoms, to predict laser intensity fluctuation and waist, temperature and false positive and negative measurement rate. Moreover, an analysis is provided with the scaling on the number of atoms in the system and on the number of measurements used as input. Also, we compare on real data the values predicted with ML with the a priori estimated parameters. Finally, a Reinforcement Learning (RL) framework is employed to design a pulse in order to correct the effect of the noise in the measurements. It is expected that the analysis performed in this work will be useful for a better understanding of the quantum dynamic in neutral atoms devices and for the widespread adoption of this class of NISQ devices. | 翻訳日:2023-06-28 12:33:02 公開日:2023-06-27 |
# leandojo: 検索型言語モデルによる定理証明 LeanDojo: Theorem Proving with Retrieval-Augmented Language Models ( http://arxiv.org/abs/2306.15626v1 ) ライセンス: Link先を確認 | Kaiyu Yang, Aidan M. Swope, Alex Gu, Rahul Chalamala, Peiyang Song, Shixing Yu, Saad Godil, Ryan Prenger, Anima Anandkumar | (参考訳) 大規模言語モデル(LLM)は、Leanのような証明アシスタントを使って形式的な定理を証明することを約束している。
しかし、既存のメソッドは、プライベートコード、データ、大規模な計算要求のため、複製や構築が困難である。
これは、定理証明のための機械学習手法の研究に重大な障壁を生み出した。
本稿では、ツールキット、データ、モデル、ベンチマークで構成されるオープンソースのリーングラウンドであるLeanDojoを導入することで、これらの障壁を取り除く。
LeanDojoはLeanからデータを抽出し、プログラムで証明環境とのインタラクションを可能にする。
これは証明における前提の詳細なアノテーションを含み、前提選択のための貴重なデータを提供する:定理証明における重要なボトルネックである。
このデータを用いて,大規模な数学ライブラリから敷地を選択するための検索機能を備えた最初のLCMベースの証明器であるReProver(Retrieval-Augmented Prover)を開発した。
価格は安く、gpuの1週間のトレーニングしか必要ない。
検索はLeanDojoのプログラム分析機能を利用して、アクセス可能な前提と厳しいネガティブな例を特定します。
さらに,Leanの数学ライブラリから抽出した96,962の定理と証明からなる新しいベンチマークを構築した。
これは、トレーニングで使われない新しい前提に依存する定理を一般化することを要求するデータ分割に挑戦する特徴である。
このベンチマークをトレーニングと評価に使用し,非検索ベースラインとGPT-4に対するReProverの有効性を実験的に検証した。
したがって、プロプライエタリなデータセットを使わずに、オープンソースのLCMベースの定理プローバーの最初のセットを提供し、さらなる研究を促進するために寛容なMITライセンスの下でリリースする。 Large language models (LLMs) have shown promise in proving formal theorems using proof assistants such as Lean. However, existing methods are difficult to reproduce or build on, due to private code, data, and large compute requirements. This has created substantial barriers to research on machine learning methods for theorem proving. This paper removes these barriers by introducing LeanDojo: an open-source Lean playground consisting of toolkits, data, models, and benchmarks. LeanDojo extracts data from Lean and enables interaction with the proof environment programmatically. It contains fine-grained annotations of premises in proofs, providing valuable data for premise selection: a key bottleneck in theorem proving. Using this data, we develop ReProver (Retrieval-Augmented Prover): the first LLM-based prover that is augmented with retrieval for selecting premises from a vast math library. It is inexpensive and needs only one GPU week of training. Our retriever leverages LeanDojo's program analysis capability to identify accessible premises and hard negative examples, which makes retrieval much more effective. Furthermore, we construct a new benchmark consisting of 96,962 theorems and proofs extracted from Lean's math library. It features challenging data split requiring the prover to generalize to theorems relying on novel premises that are never used in training. We use this benchmark for training and evaluation, and experimental results demonstrate the effectiveness of ReProver over non-retrieval baselines and GPT-4. We thus provide the first set of open-source LLM-based theorem provers without any proprietary datasets and release it under a permissive MIT license to facilitate further research. | 翻訳日:2023-06-28 12:32:37 公開日:2023-06-27 |
# オフポリティクス強化学習における価値認識重要度重み付け Value-aware Importance Weighting for Off-policy Reinforcement Learning ( http://arxiv.org/abs/2306.15625v1 ) ライセンス: Link先を確認 | Kristopher De Asis, Eric Graves, Richard S. Sutton | (参考訳) 重要度サンプリングは、強化学習におけるオフポリシー予測の基礎となる中心的なアイデアである。
分布からサンプルを再重み付けし、別の分布の下でバイアスのない見積もりを得る戦略を提供する。
しかし、重みをサンプリングする重要性は極端にばらつきがあり、しばしば実際には安定性の問題を引き起こす。
本研究では,非政治学習におけるサンプルの修正のために,より広範な重み付けを考察する。
対象分布下でのばらつきの小さいが偏りのない推定を提供するために,サンプル空間を考慮した$\textit{value-aware importance weights}$の使用を提案する。
このような重みをどのように計算できるかを導出し、結果として生じる重要重みの重要な特性を詳述する。
次に,いくつかの強化学習予測アルゴリズムを,これらの重み付けを用いてオフポリシー設定に拡張し,経験的に評価する。 Importance sampling is a central idea underlying off-policy prediction in reinforcement learning. It provides a strategy for re-weighting samples from a distribution to obtain unbiased estimates under another distribution. However, importance sampling weights tend to exhibit extreme variance, often leading to stability issues in practice. In this work, we consider a broader class of importance weights to correct samples in off-policy learning. We propose the use of $\textit{value-aware importance weights}$ which take into account the sample space to provide lower variance, but still unbiased, estimates under a target distribution. We derive how such weights can be computed, and detail key properties of the resulting importance weights. We then extend several reinforcement learning prediction algorithms to the off-policy setting with these weights, and evaluate them empirically. | 翻訳日:2023-06-28 12:32:10 公開日:2023-06-27 |
# SCENEREPLICA:再現可能なシーンの作成による実世界のロボット操作のベンチマーク SCENEREPLICA: Benchmarking Real-World Robot Manipulation by Creating Reproducible Scenes ( http://arxiv.org/abs/2306.15620v1 ) ライセンス: Link先を確認 | Ninad Khargonkar, Sai Haneesh Allu, Yangxiao Lu, Jishnu Jaykumar P, Balakrishnan Prabhakaran, Yu Xiang | (参考訳) 実世界におけるロボット操作の評価のための再現可能な新しいベンチマークを提案する。
我々のベンチマークでは、ロボットコミュニティでよく使われているデータセットであるYCBオブジェクトを使用して、結果が他の研究と比較されるようにしています。
さらに、このベンチマークは現実世界で容易に再現できるように設計されており、研究者や実践者が利用できる。
また, モデルベースおよびモデルフリーな6次元ロボットグルーピングのための実験結果と解析を行い, 対象認識, 把握計画, 動作計画のための代表アルゴリズムの評価を行った。
私たちのベンチマークは、ロボット操作の分野を前進させるための貴重なツールであると信じています。
標準化された評価フレームワークを提供することで、研究者は様々な技術やアルゴリズムをより簡単に比較でき、ロボット操作法の開発がより早く進められる。 We present a new reproducible benchmark for evaluating robot manipulation in the real world, specifically focusing on pick-and-place. Our benchmark uses the YCB objects, a commonly used dataset in the robotics community, to ensure that our results are comparable to other studies. Additionally, the benchmark is designed to be easily reproducible in the real world, making it accessible to researchers and practitioners. We also provide our experimental results and analyzes for model-based and model-free 6D robotic grasping on the benchmark, where representative algorithms are evaluated for object perception, grasping planning, and motion planning. We believe that our benchmark will be a valuable tool for advancing the field of robot manipulation. By providing a standardized evaluation framework, researchers can more easily compare different techniques and algorithms, leading to faster progress in developing robot manipulation methods. | 翻訳日:2023-06-28 12:31:56 公開日:2023-06-27 |
# dcid: 深い標準情報の分解 DCID: Deep Canonical Information Decomposition ( http://arxiv.org/abs/2306.15619v1 ) ライセンス: Link先を確認 | Alexander Rakowski and Christoph Lippert | (参考訳) 本稿では,2つの1次元対象変数間で共有される信号の同定問題について考察する。
カノニカル相関解析(CCA)に基づく手法は伝統的に共有変数の同定に用いられてきたが、多変量ターゲット用に設計されており、単変量の場合にのみ自明な解を提供する。
マルチタスク学習(MTL)の文脈では、複数のタスク間で疎結合で共有される特徴を学習するために様々なモデルを仮定した。
しかし、これらの手法は典型的には予測性能によって評価される。
我々の知識を最大限に活用するため、共有信号を正しく回復する観点でモデルを体系的に評価した先行研究は存在しなかった。
本稿では,不平等な共有情報検索の設定を定式化し,接地ラベルの存在下で使用できる評価指標であるicmを提案し,学習した共有特徴の3つの側面を定量化する。
さらに、共有変数を学習するための単純かつ効果的なアプローチとして、Deep Canonical Information Decomposition (DCID)を提案する。
我々は、既知の基底を持つ合成データに関する様々なシナリオでモデルをベンチマークし、幅広い設定でdcidがベースラインを上回ることを観測する。
最後に、脳磁気共鳴イメージング(MRI)データに対するDCIDの実際の応用を実証し、脳の領域や肥満の変化をより正確に予測できることを示した。
実験用のコードと補足資料はhttps://github.com/alexrakowski/dcidで閲覧できます。 We consider the problem of identifying the signal shared between two one-dimensional target variables, in the presence of additional multivariate observations. Canonical Correlation Analysis (CCA)-based methods have traditionally been used to identify shared variables, however, they were designed for multivariate targets and only offer trivial solutions for univariate cases. In the context of Multi-Task Learning (MTL), various models were postulated to learn features that are sparse and shared across multiple tasks. However, these methods were typically evaluated by their predictive performance. To the best of our knowledge, no prior studies systematically evaluated models in terms of correctly recovering the shared signal. Here, we formalize the setting of univariate shared information retrieval, and propose ICM, an evaluation metric which can be used in the presence of ground-truth labels, quantifying 3 aspects of the learned shared features. We further propose Deep Canonical Information Decomposition (DCID) - a simple, yet effective approach for learning the shared variables. We benchmark the models on a range of scenarios on synthetic data with known ground-truths and observe DCID outperforming the baselines in a wide range of settings. Finally, we demonstrate a real-life application of DCID on brain Magnetic Resonance Imaging (MRI) data, where we are able to extract more accurate predictors of changes in brain regions and obesity. The code for our experiments as well as the supplementary materials are available at https://github.com/alexrakowski/dcid | 翻訳日:2023-06-28 12:31:41 公開日:2023-06-27 |
# 動的モード分解による非自律システムの学習 Learning Nonautonomous Systems via Dynamic Mode Decomposition ( http://arxiv.org/abs/2306.15618v1 ) ライセンス: Link先を確認 | Hannah Lu and Daniel M. Tartakovsky | (参考訳) 本稿では,動的モード分解(dmd)に基づく時間依存入力を持つ未知非自律力学系に対するデータ駆動学習手法を提案する。
非自律系における時間依存koopman演算子の近似の難しさを回避するために、外部時間依存入力の局所パラメータ化から派生した修正システムを、元の非自律系への近似として採用する。
修正されたシステムは、パラメータ空間における次元減少と補間(drips)の枠組みを用いたパラメトリックサーロゲートモデルによりよく近似できる局所パラメトリック系の列からなる。
DRIPSのオフラインステップは、トレーニングデータからマッピングされた可観測性のために、リニアサロゲートモデルを構築するためにDMDに依存している。
そして、オフラインステップは、テスト外時間依存入力の局所パラメータ化によって目標/テストパラメータポイントが特定される適切な多様体上の補間から反復パラメトリックサロゲートモデルのシーケンスを構成する。
本稿では,本手法のロバスト性を示す数値例をいくつか提示し,その性能を同一設定のディープニューラルネットワークと比較する。 We present a data-driven learning approach for unknown nonautonomous dynamical systems with time-dependent inputs based on dynamic mode decomposition (DMD). To circumvent the difficulty of approximating the time-dependent Koopman operators for nonautonomous systems, a modified system derived from local parameterization of the external time-dependent inputs is employed as an approximation to the original nonautonomous system. The modified system comprises a sequence of local parametric systems, which can be well approximated by a parametric surrogate model using our previously proposed framework for dimension reduction and interpolation in parameter space (DRIPS). The offline step of DRIPS relies on DMD to build a linear surrogate model, endowed with reduced-order bases (ROBs), for the observables mapped from training data. Then the offline step constructs a sequence of iterative parametric surrogate models from interpolations on suitable manifolds, where the target/test parameter points are specified by the local parameterization of the test external time-dependent inputs. We present a number of numerical examples to demonstrate the robustness of our method and compare its performance with deep neural networks in the same settings. | 翻訳日:2023-06-28 12:31:17 公開日:2023-06-27 |
# 局所交換パルスと大域マイクロ波駆動を用いたスピンアレイの局所アドレス性向上 Enhanced local addressability of a spin array with local exchange pulses and global microwave driving ( http://arxiv.org/abs/2306.15615v1 ) ライセンス: Link先を確認 | Anoosha Fayyaz and Jason Kestner | (参考訳) 我々は,大域マイクロ波場と局所交換パルスによって促進される単一量子ビットゲートとSWAPゲートの組み合わせを用いて,g因子のランダム分布を持つ多数のスピン量子ビットの個々のスピンに対処する戦略を理論的に提案する。
その結果、ターゲットの量子ビットのみが所望の操作を実行し、他の全ての量子ビットは元の状態に戻る。
したがって、99%以上のゲートフィディティは、数十キュービットの配列に対して維持することができる。 We theoretically propose a strategy to address an individual spin in a large array of spin qubits with a random distribution of g-factors by employing a combination of single-qubit and SWAP gates facilitated by a global microwave field and local exchange pulses. Consequently, only the target qubit undergoes the desired operation and all other qubits return to their original states, even qubits that share the same Larmor frequency as the target. Gate fidelities above 99% can thus be maintained for arrays containing tens of qubits. | 翻訳日:2023-06-28 12:31:00 公開日:2023-06-27 |
# ステレオマッチングネットワークにおけるクロスエントロピー損失の再考 Rethinking Cross-Entropy Loss for Stereo Matching Networks ( http://arxiv.org/abs/2306.15612v1 ) ライセンス: Link先を確認 | Peng Xu, Zhiyu Xiang, Chenyu Qiao, Jingyun Fu, Xijun Zhao | (参考訳) ステレオマッチングにおけるディープラーニングの大きな成功にもかかわらず、正確で明確な不一致マップの復元は依然として難しい。
現在、L1損失とクロスエントロピー損失はステレオマッチングネットワークのトレーニングに最も広く使われているロス関数である。
前者と比較すると、後者は通常、コストボリュームに対する直接的な制約により、より良い結果が得られる。
しかし、この損失関数に対して合理的な接地分布を生成する方法はほとんど未利用である。
既存の作品では、全ての画素の接地面の周囲にユニモーダル分布を仮定しており、エッジピクセルがマルチモーダル分布を持つという事実を無視している。
本稿では,まず,全体差の精度に対するエッジの正しい監督の重要性を実験的に示す。
そこで,エッジおよび非エッジ画素の異なる分布パターンの生成を促す適応型多モードクロスエントロピー損失を提案する。
さらに, 推定段階における差分推定器を最適化し, エッジの出血や誤調整を緩和する。
提案手法は汎用的であり,従来のステレオマッチングモデルによる競合性能の回復を支援する。
GANetはKITTI 2015と2012のベンチマークで1位となり、最先端の手法を大きなマージンで上回っている。
一方,本手法は,より優れたクロスドメイン一般化能力を示し,既存の一般化特化手法を4つのポピュラーな実世界データセットに上回っている。 Despite the great success of deep learning in stereo matching, recovering accurate and clearly-contoured disparity map is still challenging. Currently, L1 loss and cross-entropy loss are the two most widely used loss functions for training the stereo matching networks. Comparing with the former, the latter can usually achieve better results thanks to its direct constraint to the the cost volume. However, how to generate reasonable ground-truth distribution for this loss function remains largely under exploited. Existing works assume uni-modal distributions around the ground-truth for all of the pixels, which ignores the fact that the edge pixels may have multi-modal distributions. In this paper, we first experimentally exhibit the importance of correct edge supervision to the overall disparity accuracy. Then a novel adaptive multi-modal cross-entropy loss which encourages the network to generate different distribution patterns for edge and non-edge pixels is proposed. We further optimize the disparity estimator in the inference stage to alleviate the bleeding and misalignment artifacts at the edge. Our method is generic and can help classic stereo matching models regain competitive performance. GANet trained by our loss ranks 1st on the KITTI 2015 and 2012 benchmarks and outperforms state-of-the-art methods by a large margin. Meanwhile, our method also exhibits superior cross-domain generalization ability and outperforms existing generalization-specialized methods on four popular real-world datasets. | 翻訳日:2023-06-28 12:30:51 公開日:2023-06-27 |
# 二項投票の歪みは期待を裏切る The Distortion of Binomial Voting Defies Expectation ( http://arxiv.org/abs/2306.15657v1 ) ライセンス: Link先を確認 | Yannai A. Gonczarowski, Gregory Kehne, Ariel D. Procaccia, Ben Schiffer, Shirley Zhang | (参考訳) 計算社会選択において、投票規則の歪みは、制限された選好情報を克服して社会的に望ましい結果を選択する程度を定量化する。
この概念は広く研究されてきたが、最悪のケースレンズでのみ研究されている。
代わりに、投票者ユーティリティーに対する基礎的な分布に関する投票規則の歪曲について検討する。
我々の主な貢献は、新しい直感的なルールである二項投票の設計と分析であり、全ての分布に対して強い歪み保証を提供する。 In computational social choice, the distortion of a voting rule quantifies the degree to which the rule overcomes limited preference information to select a socially desirable outcome. This concept has been investigated extensively, but only through a worst-case lens. Instead, we study the expected distortion of voting rules with respect to an underlying distribution over voter utilities. Our main contribution is the design and analysis of a novel and intuitive rule, binomial voting, which provides strong expected distortion guarantees for all distributions. | 翻訳日:2023-06-28 12:24:36 公開日:2023-06-27 |
# SparseOptimizer: Moreau-Yosida正規化による言語モデルのスパース化とコンパイラ共設計による高速化 SparseOptimizer: Sparsify Language Models through Moreau-Yosida Regularization and Accelerate through Compiler Co-design ( http://arxiv.org/abs/2306.15656v1 ) ライセンス: Link先を確認 | Fu-Ming Guo | (参考訳) 本稿では、モロー・ヨシダ正規化を利用してBERT、ALBERT、GPTなどの大規模言語モデルにおいて、自然に空間性を誘導する新しいディープラーニングオプティマイザであるSparseOptimizerを紹介する。
スパースオプティマイザの設計の鍵は、最適化プロセス内で直接スパース性を与える埋め込み縮小演算子である。
この演算子は、音理論の枠組みによって支えられ、解析的な解を含み、最適化者の堅牢性と有効性を補強する。
重要なことに、SparseOptimizerのプラグイン・アンド・プレイ機能は、コード修正の必要性を排除し、幅広い大きな言語モデルに対して普遍的に適応可能なツールである。
GLUE, RACE, SQuAD1, SQuAD2などのベンチマークデータセットに対する実証的な評価では、SparseOptimizerを使用してスパースされたSparseBERTとSparseALBERTが、密度の高いBERTとALBERTに匹敵するパフォーマンスを実現し、パラメータ数を大幅に削減した。
さらに本研究では,pytorch,tensorflow,llvmジェネリックコンパイルと比較して,sparsebertにおける推論加速度(\textbf{3.37x}, \textbf{6.30x}, \textbf{7.15x})の可能性を示す,革新的なオプティマイザ・コンパイラの共同設計戦略を提案する。
この研究は、効率的でスケーラブルでハイパフォーマンスな大規模言語モデルの進化における重要な一歩であり、この領域における将来の探索と最適化の先例となる。
SparseOptimizerコードとSparseALBERTモデルは、論文の受理時に利用可能になる。 This paper introduces SparseOptimizer, a novel deep learning optimizer that exploits Moreau-Yosida regularization to naturally induce sparsity in large language models such as BERT, ALBERT and GPT. Key to the design of SparseOptimizer is an embedded shrinkage operator, which imparts sparsity directly within the optimization process. This operator, backed by a sound theoretical framework, includes an analytical solution, thereby reinforcing the optimizer's robustness and efficacy. Crucially, SparseOptimizer's plug-and-play functionality eradicates the need for code modifications, making it a universally adaptable tool for a wide array of large language models. Empirical evaluations on benchmark datasets such as GLUE, RACE, SQuAD1, and SQuAD2 confirm that SparseBERT and SparseALBERT, when sparsified using SparseOptimizer, achieve performance comparable to their dense counterparts, BERT and ALBERT, while significantly reducing their parameter count. Further, this work proposes an innovative optimizer-compiler co-design strategy, demonstrating the potential of inference acceleration (\textbf{3.37x}, \textbf{6.30x}, and \textbf{7.15x} in comparison with Pytorch, TensorFlow, and LLVM generic compile, respectively) in SparseBERT when paired with an appropriately designed compiler. This study represents a significant step forward in the evolution of efficient, scalable, and high-performing large language models, setting a precedent for future exploration and optimization in this domain. The SparseOptimizer code and SparseALBERT model will be made available upon paper acceptance. | 翻訳日:2023-06-28 12:24:28 公開日:2023-06-27 |
# 混合量子古典力学の流体モデル Fluid models of mixed quantum-classical dynamics ( http://arxiv.org/abs/2306.15652v1 ) ライセンス: Link先を確認 | Fran\c{c}ois Gay-Balmaz, Cesare Tronci | (参考訳) 非線形分子動力学におけるいくつかの取り組みは、マデラングの原子運動の流体力学的記述に基づいており、電子成分は有限次元量子系として扱われる。
マデルングの流体力学における量子ポテンシャルは厳しい課題をもたらすため、しばしばその貢献を怠り、古典的核運動を近似しようとする。
そして、得られたモデルは、原子核の古典的流体力学と電子成分の量子運動とを結合する。
このような混合量子古典流体モデルは、液体溶媒と量子溶質分子のカップリングを記述するために溶媒和ダイナミクスにも現れている。
これらのアプローチは有望な方向を示すが、数学的構造にはある程度の注意が必要である。
場合によっては、挑戦的な二階勾配はこれらの方程式をほとんど引けない。
その他のケースでは、これらのモデルはよく知られた一貫性の問題に苦しむ位相空間の定式化に基づいている。
本稿ではこれらの問題を解く新しい量子古典流体システムを提案する。
一般的なアプローチとは異なり、現在のシステムは、原相空間モデルの作用原理のレベルで流体クロージャを適用し、変分構造とハミルトン構造を継承し、エネルギー/モメンタムバランスを確保することで得られる。
構造的特性と動的不変性について論じた後、純粋退化系の場合の流体モデルについて説明する。
いくつかの不変平面モデルのプレゼンテーションで結論付ける。 Several efforts in nonadiabatic molecular dynamics are based on Madelung's hydrodynamic description of nuclear motion, while the electronic component is treated as a finite-dimensional quantum system. As the quantum potential in Madelung hydrodynamics leads to severe challenges, one often seeks to neglect its contribution thereby approximating nuclear motion as classical. Then, the resulting model couples classical hydrodynamics for the nuclei to the quantum motion of the electronic component. Such mixed quantum-classical fluid models have also appeared in solvation dynamics to describe the coupling between liquid solvents and the quantum solute molecule. While these approaches represent a promising direction, their mathematical structure requires a certain care. In some cases, challenging second-order gradients make these equations hardly tractable. In other cases, these models are based on phase-space formulations that suffer from well-known consistency issues. Here, we present new quantum-classical fluid system that resolves these issues. Unlike common approaches, the current system is obtained by applying the fluid closure at the level of the action principle of the original phase-space model, thereby inheriting variational and Hamiltonian structures, and ensuring energy/momentum balance. After discussing some of its structural properties and dynamical invariants, we illustrate the proposed fluid model in the case of pure-dephasing systems. We conclude with a presentation of some invariant planar models. | 翻訳日:2023-06-28 12:23:49 公開日:2023-06-27 |
# 歯科臨床研究のための対照的なLanguage Image Retrieval Search Dental CLAIRES: Contrastive LAnguage Image REtrieval Search for Dental Research ( http://arxiv.org/abs/2306.15651v1 ) ライセンス: Link先を確認 | Tanjida Kabir, Luyao Chen, Muhammad F Walji, Luca Giancardo, Xiaoqian Jiang, Shayan Shams | (参考訳) 歯科医用X線写真から診断特徴と臨床情報を学ぶことは歯学研究にとって重要である。
しかし、専門家による注釈付きデータと便利な検索ツールの欠如が課題となっている。
本研究の目的は,ユーザの問合せを口頭調査に利用する検索ツールの設計である。
提案フレームワークであるContrastive LAnguage Image Retrieval Search for Dental Research, Dental CLAIRESは, 歯周診断, 人口統計情報など, 根尖部X線写真と関連する臨床情報を用いて, テキストクエリに基づいて最適な画像を取得する。
本研究では,正ペア(真のペア)の類似度スコアを最大化し,負ペア(ランダムペア)のスコアを最小化することにより,ユーザのテキストで記述した画像を見つけるために,コントラスト表現学習手法を適用した。
我々のモデルはヒット@3比96%、平均相反ランク(MRR)0.82を達成しました。
我々はまた、研究者がモデルの性能と相互作用を検証できるグラフィカルなユーザインタフェースを設計した。 Learning about diagnostic features and related clinical information from dental radiographs is important for dental research. However, the lack of expert-annotated data and convenient search tools poses challenges. Our primary objective is to design a search tool that uses a user's query for oral-related research. The proposed framework, Contrastive LAnguage Image REtrieval Search for dental research, Dental CLAIRES, utilizes periapical radiographs and associated clinical details such as periodontal diagnosis, demographic information to retrieve the best-matched images based on the text query. We applied a contrastive representation learning method to find images described by the user's text by maximizing the similarity score of positive pairs (true pairs) and minimizing the score of negative pairs (random pairs). Our model achieved a hit@3 ratio of 96% and a Mean Reciprocal Rank (MRR) of 0.82. We also designed a graphical user interface that allows researchers to verify the model's performance with interactions. | 翻訳日:2023-06-28 12:23:29 公開日:2023-06-27 |
# 距離空間における有効抵抗 Effective resistance in metric spaces ( http://arxiv.org/abs/2306.15649v1 ) ライセンス: Link先を確認 | Robi Bhattacharjee, Alexander Cloninger, Yoav Freund, Andreas Oslandsbotn | (参考訳) 有効抵抗(ER)はグラフの構造を問う魅力的な方法である。
これはグラフラプラシアンの固有ベクトルを計算するに代わるものである。
ERの魅力的な応用の1つは、頂点が計量空間上の分布からのIDサンプルに対応するグラフを点雲に向けることである。
残念なことに、任意の2点間のerは、サンプルのサイズが無限大になるにつれてグラフの構造に関する情報を持たない自明な量に収束する。
本研究では,一対の点ではなく,一対の小さな領域間の領域ベースERを考慮し,各領域の基底密度に対して適切なエッジ重みを拡大することにより,この自明な解を回避することができることを示す。
領域を固定し続けることにより、点数が無限大になるにつれて、領域ベースのERが非自明な極限に収束することを示す。
すなわち、計量空間上の ER である。
我々は数値実験で理論的な結果を支持する。 Effective resistance (ER) is an attractive way to interrogate the structure of graphs. It is an alternative to computing the eigenvectors of the graph Laplacian. One attractive application of ER is to point clouds, i.e. graphs whose vertices correspond to IID samples from a distribution over a metric space. Unfortunately, it was shown that the ER between any two points converges to a trivial quantity that holds no information about the graph's structure as the size of the sample increases to infinity. In this study, we show that this trivial solution can be circumvented by considering a region-based ER between pairs of small regions rather than pairs of points and by scaling the edge weights appropriately with respect to the underlying density in each region. By keeping the regions fixed, we show analytically that the region-based ER converges to a non-trivial limit as the number of points increases to infinity. Namely the ER on a metric space. We support our theoretical findings with numerical experiments. | 翻訳日:2023-06-28 12:23:10 公開日:2023-06-27 |
# 映像からのロボット行動系列獲得のためのスタイル伝達に基づく音声と音声の視覚的シーン理解 Style-transfer based Speech and Audio-visual Scene Understanding for Robot Action Sequence Acquisition from Videos ( http://arxiv.org/abs/2306.15644v1 ) ライセンス: Link先を確認 | Chiori Hori, Puyuan Peng, David Harwath, Xinyu Liu, Kei Ota, Siddarth Jain, Radu Corcodel, Devesh Jha, Diego Romeres, Jonathan Le Roux | (参考訳) ロボットとロボットの協調を実現するためには,ロボットは人間の指示に従って,事前知識を限定した行動を実行する必要がある。
人間の専門家は、デモでマルチモーダルな指示を通じてロボットとタスクを実行する方法に関する知識を共有し、長いホリゾン目標を達成するための一連の短いホリゾンステップを示すことができる。
本稿では,(1)音声視覚特徴と指示音声を動的移動プリミティブ(DMP)と呼ばれる一連のロボット動作に変換する音声視覚変換器と,(2)ビデオキャプションによるマルチタスク学習と,意味分類器による弱教師付き学習を併用して,不用意な映像行動データを利用するスタイルトランスファーベーストレーニングを提案する。
そこで我々は,ロボットが音声視覚変換器を用いて調理ビデオから取得したDMPシーケンスを実行する,様々な調理動作を行うシステムを構築した。
epic-kitchen-100,youcookii,queryd,in-houseのインストラクションビデオデータセットを用いた実験により,提案手法は,ベースライン・ビデオ・トゥ・アクショントランスフォーマによって得られた流星スコアの2.3倍のdmpシーケンスの品質向上を実現した。
モデルは、オブジェクトのタスク知識によって、タスクの成功率の32%を達成した。 To realize human-robot collaboration, robots need to execute actions for new tasks according to human instructions given finite prior knowledge. Human experts can share their knowledge of how to perform a task with a robot through multi-modal instructions in their demonstrations, showing a sequence of short-horizon steps to achieve a long-horizon goal. This paper introduces a method for robot action sequence generation from instruction videos using (1) an audio-visual Transformer that converts audio-visual features and instruction speech to a sequence of robot actions called dynamic movement primitives (DMPs) and (2) style-transfer-based training that employs multi-task learning with video captioning and weakly-supervised learning with a semantic classifier to exploit unpaired video-action data. We built a system that accomplishes various cooking actions, where an arm robot executes a DMP sequence acquired from a cooking video using the audio-visual Transformer. Experiments with Epic-Kitchen-100, YouCookII, QuerYD, and in-house instruction video datasets show that the proposed method improves the quality of DMP sequences by 2.3 times the METEOR score obtained with a baseline video-to-action Transformer. The model achieved 32% of the task success rate with the task knowledge of the object. | 翻訳日:2023-06-28 12:22:56 公開日:2023-06-27 |
# 検閲されたピーク・オーバー・スレッショルドモデルに対するラピッドフリーニューラルベイズ推定器 Likelihood-free neural Bayes estimators for censored peaks-over-threshold models ( http://arxiv.org/abs/2306.15642v1 ) ライセンス: Link先を確認 | Jordan Richards and Matthew Sainsbury-Dale and Andrew Zammit-Mangion and Rapha\"el Huser | (参考訳) 空間的極値依存モデルの推論は、難解かつ検閲された確率に依存するため、中程度から高次元の計算量的に負担となる。
ニューラルベイズ推定器(すなわちベイズ推定器を対象とするニューラルベイズ推定器)を用いた確率自由推定の最近の進歩として,ニューラルネットワークアーキテクチャにおける検閲情報の符号化により,検閲されたピークオースホールドモデルに対する高効率な推定器を構築する手法を開発した。
提案手法は,空間的極端に対する従来の検閲された確率に基づく推論に挑戦するパラダイムシフトを提供する。
シミュレーション研究は,max-stable,$r$-pareto,ランダムスケール混合プロセスなど,一般的な極値依存モデルの推論に新たな推定器を適用する場合,計算効率と統計効率の両方において有意な向上を示した。
また,一般検閲レベルの1つの推定器をトレーニングすることで,検閲レベルが変更された場合の再訓練の必要性を回避できることを示す。
サウジアラビア全土の粒子状物質2.5ミクロン以下 (PM2.5) 濃度を評価するために, 高次元空間超依存性モデル数百個を高速に推定することにより, 推定装置の有効性を検証した。 Inference for spatial extremal dependence models can be computationally burdensome in moderate-to-high dimensions due to their reliance on intractable and/or censored likelihoods. Exploiting recent advances in likelihood-free inference with neural Bayes estimators (that is, neural estimators that target Bayes estimators), we develop a novel approach to construct highly efficient estimators for censored peaks-over-threshold models by encoding censoring information in the neural network architecture. Our new method provides a paradigm shift that challenges traditional censored likelihood-based inference for spatial extremes. Our simulation studies highlight significant gains in both computational and statistical efficiency, relative to competing likelihood-based approaches, when applying our novel estimators for inference of popular extremal dependence models, such as max-stable, $r$-Pareto, and random scale mixture processes. We also illustrate that it is possible to train a single estimator for a general censoring level, obviating the need to retrain when the censoring level is changed. We illustrate the efficacy of our estimators by making fast inference on hundreds-of-thousands of high-dimensional spatial extremal dependence models to assess particulate matter 2.5 microns or less in diameter (PM2.5) concentration over the whole of Saudi Arabia. | 翻訳日:2023-06-28 12:22:30 公開日:2023-06-27 |
# 三電子系における強磁場二重イオン化:モーメント分布解析 Strong-Field Double Ionization in a Three-Electron System: Momentum Distribution Analysis ( http://arxiv.org/abs/2306.15637v1 ) ライセンス: Link先を確認 | Dmitry K. Efimov, Artur Maksymov, Jakub Zakrzewski, Jakub S. Prauzner-Bechcicki | (参考訳) 3電子系における強電界二重イオン化の研究を,3個の活性電子を用いた簡易な還元次元モデルを用いて行った。
波動関数の空間部分のスピン誘起対称性が最後の2光子運動量分布に及ぼす影響について考察した。
我々は、V構造と直イオン化の間の量子的支持接続を古典的に説明できるように、外部電子の異なるスピンの集合に由来する部分運動量分布を同定する。
簡易モデルで得られた運動量分布の変化は,文献から知られている実験データとよく関連していることが示された。
観察された依存関係と異なるイオン化機構の関係について論じる。 We study strong-field double ionization in a three-electron system by applying a simplified, reduced-dimensionality model with three active electrons. The influence of the spin-induced symmetry of the spatial part of the wavefunction on the final two-photoectron momentum distribution is discussed. We identify partial momentum distributions originating from different sets of spins of outgoing electrons providing in this way a quantum support connection between V-structure and direct ionization typically explained classically. Changes in the momentum distribution with increasing field amplitude obtained in our simplified model are shown to be well-correlated with experimental data known from the literature. The possible relation between the observed dependencies and different ionization mechanisms is discussed. | 翻訳日:2023-06-28 12:22:05 公開日:2023-06-27 |
# 合成表データ生成の有用性について On the Usefulness of Synthetic Tabular Data Generation ( http://arxiv.org/abs/2306.15636v1 ) ライセンス: Link先を確認 | Dionysis Manousakas and Serg\"ul Ayd\"ore | (参考訳) 近年の合成データ生成の進歩にもかかわらず、科学コミュニティはその有用性について統一的なコンセンサスを欠いている。
合成データは、データ交換と強化機械学習(ML)トレーニングの両方に使用できると一般的に信じられている。
プライバシを保存する合成データ生成は、下流タスクのデータ交換を加速するが、なぜ合成データがMLトレーニングを促進するのかを示す十分な証拠はない。
本研究では,データ共有,データ拡張,クラスバランス,データ要約の4つのユースケースを対象に,合成表データを用いたML性能のベンチマークを行った。
いくつかのデータセットにおけるバランシングユースケースの限界的な改善を観察した。
しかし,合成表型データがMLトレーニングに有用であることを示す証拠は十分ではないと結論づける。 Despite recent advances in synthetic data generation, the scientific community still lacks a unified consensus on its usefulness. It is commonly believed that synthetic data can be used for both data exchange and boosting machine learning (ML) training. Privacy-preserving synthetic data generation can accelerate data exchange for downstream tasks, but there is not enough evidence to show how or why synthetic data can boost ML training. In this study, we benchmarked ML performance using synthetic tabular data for four use cases: data sharing, data augmentation, class balancing, and data summarization. We observed marginal improvements for the balancing use case on some datasets. However, we conclude that there is not enough evidence to claim that synthetic tabular data is useful for ML training. | 翻訳日:2023-06-28 12:21:55 公開日:2023-06-27 |
# フランス語物語における直接音声の自動アノテーション Automatic Annotation of Direct Speech in Written French Narratives ( http://arxiv.org/abs/2306.15634v1 ) ライセンス: Link先を確認 | No\'e Durandard and Viet-Anh Tan and Gaspard Michel and Elena V. Epure | (参考訳) テキスト中の直接音声(aads)の自動注釈は、しばしば計算的な物語理解に使われている。
ルールやディープニューラルネットワークに基づく手法は、特に英語やドイツ語で研究されている。
しかし、フランス語では、我々の対象とする言語は多くはない。
私たちのゴールは、フランス語でAADSモデルを設計、評価するための統一されたフレームワークを作ることです。
そこで我々は,一語あたりのDSに注釈付けされた最大かつ最新のフランス語物語データセットを統合し,他の言語でのシーケンスラベリングやAADSから様々なベースラインを適応させ,一般化に焦点を当てた広範な評価を行った。
結果は,タスクにはまだかなりの努力が必要であり,各ベースラインの特徴を強調していることを示している。
このフレームワークは改善される可能性があるが、このトピックに関するさらなる研究を促進するための一歩である。 The automatic annotation of direct speech (AADS) in written text has been often used in computational narrative understanding. Methods based on either rules or deep neural networks have been explored, in particular for English or German languages. Yet, for French, our target language, not many works exist. Our goal is to create a unified framework to design and evaluate AADS models in French. For this, we consolidated the largest-to-date French narrative dataset annotated with DS per word; we adapted various baselines for sequence labelling or from AADS in other languages; and we designed and conducted an extensive evaluation focused on generalisation. Results show that the task still requires substantial efforts and emphasise characteristics of each baseline. Although this framework could be improved, it is a step further to encourage more research on the topic. | 翻訳日:2023-06-28 12:21:43 公開日:2023-06-27 |
# コンテキストインスタンスクエリによる3次元セマンティックシーン補完のシンフォナイズ Symphonize 3D Semantic Scene Completion with Contextual Instance Queries ( http://arxiv.org/abs/2306.15670v1 ) ライセンス: Link先を確認 | Haoyi Jiang and Tianheng Cheng and Naiyu Gao and Haoyang Zhang and Wenyu Liu and Xinggang Wang | (参考訳) 3Dセマンティックシーンコンプリート(SSC)は、部分的にLiDARや画像入力から3Dシーン内のボクセル当たりの占有率を予測することを含む、自動運転の初期段階で重要なタスクとして登場した。
既存のメソッドは主にvoxel-wise機能アグリゲーションにフォーカスしているが、インスタンス中心のセマンティクスやより広いコンテキストは無視している。
本稿では,SSCのためのシンフォニー(Scene-from-Insts)と呼ばれる新しいパラダイムを提案する。
クエリをインスタンスの特徴表現としてシーン内に組み込むことで、Symphonyはインスタンス中心のセマンティクスを動的にエンコードしてイメージとボリュームの特徴と相互作用し、密度の高いボクセルのモデリングを避ける。
同時に、シーン全体のコンテキストをキャプチャすることで、シナリオをより包括的に理解し、オクルージョンと視点誤差に由来する幾何学的曖昧さを緩和する。
交響曲は、挑戦的なセマンティックKITTIデータセット上で13.02 mIoUの最先端の結果を達成し、既存の手法を上回り、パラダイムの有望な進歩を示す。
コードは \url{https://github.com/hustvl/symphonies} で入手できる。 3D Semantic Scene Completion (SSC) has emerged as a nascent and pivotal task for autonomous driving, as it involves predicting per-voxel occupancy within a 3D scene from partial LiDAR or image inputs. Existing methods primarily focus on the voxel-wise feature aggregation, while neglecting the instance-centric semantics and broader context. In this paper, we present a novel paradigm termed Symphonies (Scene-from-Insts) for SSC, which completes the scene volume from a sparse set of instance queries derived from the input with context awareness. By incorporating the queries as the instance feature representations within the scene, Symphonies dynamically encodes the instance-centric semantics to interact with the image and volume features while avoiding the dense voxel-wise modeling. Simultaneously, it orchestrates a more comprehensive understanding of the scenario by capturing context throughout the entire scene, contributing to alleviating the geometric ambiguity derived from occlusion and perspective errors. Symphonies achieves a state-of-the-art result of 13.02 mIoU on the challenging SemanticKITTI dataset, outperforming existing methods and showcasing the promising advancements of the paradigm. The code is available at \url{https://github.com/hustvl/Symphonies}. | 翻訳日:2023-06-28 12:14:36 公開日:2023-06-27 |
# 運動からの検出器フリー構造 Detector-Free Structure from Motion ( http://arxiv.org/abs/2306.15669v1 ) ライセンス: Link先を確認 | Xingyi He, Jiaming Sun, Yifan Wang, Sida Peng, Qixing Huang, Hujun Bao, Xiaowei Zhou | (参考訳) そこで我々は,非秩序な画像から正確なカメラポーズと点雲を復元する新しい構造抽出フレームワークを提案する。
従来のsfmシステムは、複数のビューにまたがる反復可能なキーポイントの検出を第一歩として成功させるが、これはテクスチャパウアシーンでは困難であり、キーポイント検出の貧弱さはsfmシステム全体を壊す可能性がある。
本稿では,検出自由整合器の多視点不整合を解消しつつ,キーポイントの早期決定を回避するため,検出自由整合器の最近の成功の恩恵を受けるための新しい検出自由SfMフレームワークを提案する。
具体的には, 量子化検出器レスマッチングから粗いsfmモデルをまず再構成する。
次に,注意に基づくマルチビューマッチングモジュール間を反復して特徴トラックと幾何リファインメントモジュールを改良し,再構成精度を向上させる新しい反復リファインメントパイプラインにより,モデルを洗練する。
実験により、提案フレームワークは、一般的なベンチマークデータセット上で既存の検出器ベースのSfMシステムより優れていることが示された。
また,テクスチャポーアなSfMデータセットを収集し,テクスチャポーアなシーンを再構築するフレームワークの能力を実証する。
このフレームワークに基づいて、画像マッチングチャレンジ2023で$\textit{first place}$を取ります。 We propose a new structure-from-motion framework to recover accurate camera poses and point clouds from unordered images. Traditional SfM systems typically rely on the successful detection of repeatable keypoints across multiple views as the first step, which is difficult for texture-poor scenes, and poor keypoint detection may break down the whole SfM system. We propose a new detector-free SfM framework to draw benefits from the recent success of detector-free matchers to avoid the early determination of keypoints, while solving the multi-view inconsistency issue of detector-free matchers. Specifically, our framework first reconstructs a coarse SfM model from quantized detector-free matches. Then, it refines the model by a novel iterative refinement pipeline, which iterates between an attention-based multi-view matching module to refine feature tracks and a geometry refinement module to improve the reconstruction accuracy. Experiments demonstrate that the proposed framework outperforms existing detector-based SfM systems on common benchmark datasets. We also collect a texture-poor SfM dataset to demonstrate the capability of our framework to reconstruct texture-poor scenes. Based on this framework, we take $\textit{first place}$ in Image Matching Challenge 2023. | 翻訳日:2023-06-28 12:14:10 公開日:2023-06-27 |
# physion++: 異なる物理的特性のオンライン推論を必要とする物理シーン理解の評価 Physion++: Evaluating Physical Scene Understanding that Requires Online Inference of Different Physical Properties ( http://arxiv.org/abs/2306.15668v1 ) ライセンス: Link先を確認 | Hsiao-Yu Tung, Mingyu Ding, Zhenfang Chen, Daniel Bear, Chuang Gan, Joshua B. Tenenbaum, Daniel LK Yamins, Judith E Fan, Kevin A. Smith | (参考訳) 一般的な物理的シーン理解には、単にオブジェクトのローカライズと認識以上のものが必要です -- オブジェクトが異なる潜在性(例えば、質量や弾性)を持つことができ、それらの特性が物理的なイベントの結果に影響を与えるという知識が必要です。
近年、物理的およびビデオ予測モデルには大きな進歩があったが、パフォーマンスをテストするベンチマークは通常、オブジェクトが個々の物理的特性を持っていることを理解する必要はなく、最善の試験は直接観測可能な特性(サイズや色など)のみである。
この研究は、これらの予測がシーン内のオブジェクトの潜伏する物理的特性の正確な推定に依存する状況下で、人工システムにおける視覚的物理的予測を厳格に評価する新しいデータセットとベンチマークであるPhyllion++を提案する。
具体的には、正確な予測が質量、摩擦、弾性、変形性などの特性の推定に依存する場合と、物体が他の物体や流体とどのように動いたり相互作用したりするかを観察して、それらの特性の値を推測できる場合のシナリオをテストする。
我々は,様々なレベルの学習と組込み知識にまたがる最先端予測モデルの性能を評価し,その性能を人間の予測と比較した。
標準規則とデータセットを用いてトレーニングされたモデルは、潜在特性に関する推論を自発的に学習するだけでなく、対象性と物理的状態を符号化するモデルはより良い予測を行う傾向にある。
しかし、すべてのモデルと人間のパフォーマンスの間には依然として大きなギャップがあり、全てのモデルの予測は人間の予測と不相関であり、最先端のモデルが人間のように物理的な予測をすることを学んでいないことを示唆している。
プロジェクトページ: https://dingmyu.github.io/physion_v2/ General physical scene understanding requires more than simply localizing and recognizing objects -- it requires knowledge that objects can have different latent properties (e.g., mass or elasticity), and that those properties affect the outcome of physical events. While there has been great progress in physical and video prediction models in recent years, benchmarks to test their performance typically do not require an understanding that objects have individual physical properties, or at best test only those properties that are directly observable (e.g., size or color). This work proposes a novel dataset and benchmark, termed Physion++, that rigorously evaluates visual physical prediction in artificial systems under circumstances where those predictions rely on accurate estimates of the latent physical properties of objects in the scene. Specifically, we test scenarios where accurate prediction relies on estimates of properties such as mass, friction, elasticity, and deformability, and where the values of those properties can only be inferred by observing how objects move and interact with other objects or fluids. We evaluate the performance of a number of state-of-the-art prediction models that span a variety of levels of learning vs. built-in knowledge, and compare that performance to a set of human predictions. We find that models that have been trained using standard regimes and datasets do not spontaneously learn to make inferences about latent properties, but also that models that encode objectness and physical states tend to make better predictions. However, there is still a huge gap between all models and human performance, and all models' predictions correlate poorly with those made by humans, suggesting that no state-of-the-art model is learning to make physical predictions in a human-like way. Project page: https://dingmyu.github.io/physion_v2/ | 翻訳日:2023-06-28 12:13:48 公開日:2023-06-27 |
# PoseDiffusion: Diffusion-aided Bundle Adjustment によるPose推定の解法 PoseDiffusion: Solving Pose Estimation via Diffusion-aided Bundle Adjustment ( http://arxiv.org/abs/2306.15667v1 ) ライセンス: Link先を確認 | Jianyuan Wang, Christian Rupprecht, David Novotny | (参考訳) カメラポーズ推定は、従来は手作りのキーポイントマッチング、RANSAC、バンドル調整といった古典的な手法に依存していたコンピュータビジョンの問題である。
本稿では,入力画像に対するカメラポーズの条件分布をモデル化し,確率拡散フレームワーク内の運動からの構造 (sfm) を定式化する。
古い問題に対するこの新しい見方にはいくつかの利点がある。
(i)拡散フレームワークの性質は、バンドル調整の反復手順を反映している。
(ii)この定式化はエピポーラ幾何学からの幾何学的制約のシームレスな統合を可能にする。
(iii)広い基準線を持つスパースビューのような典型的な難易度シナリオに優れる。
(iv)任意の量の画像に対して内在性及び外在性を予測することができる。
提案手法は,従来のSfMパイプラインと実世界の2つのデータセットに対する学習アプローチよりも大幅に改善されていることを示す。
最後に,本手法がさらなるトレーニングを行なわずにデータセットをまたいで一般化できることが観察された。
プロジェクトページ: https://posediffusion.github.io/ Camera pose estimation is a long-standing computer vision problem that to date often relies on classical methods, such as handcrafted keypoint matching, RANSAC and bundle adjustment. In this paper, we propose to formulate the Structure from Motion (SfM) problem inside a probabilistic diffusion framework, modelling the conditional distribution of camera poses given input images. This novel view of an old problem has several advantages. (i) The nature of the diffusion framework mirrors the iterative procedure of bundle adjustment. (ii) The formulation allows a seamless integration of geometric constraints from epipolar geometry. (iii) It excels in typically difficult scenarios such as sparse views with wide baselines. (iv) The method can predict intrinsics and extrinsics for an arbitrary amount of images. We demonstrate that our method PoseDiffusion significantly improves over the classic SfM pipelines and the learned approaches on two real-world datasets. Finally, it is observed that our method can generalize across datasets without further training. Project page: https://posediffusion.github.io/ | 翻訳日:2023-06-28 12:13:19 公開日:2023-06-27 |
# ShuttleSet22: ストロークレベルバドミントンデータセットによるストローク予測のベンチマーク ShuttleSet22: Benchmarking Stroke Forecasting with Stroke-Level Badminton Dataset ( http://arxiv.org/abs/2306.15664v1 ) ライセンス: Link先を確認 | Wei-Yao Wang, Wei-Wei Du, Wen-Chih Peng | (参考訳) 近年、人工知能の進歩とデータ収集の効率化により、バドミントン分析が注目を集めている。
プレイヤーのパフォーマンスを改善し、調査するための効果的なアプリケーションはいくつかあるが、バドミントン領域以外の研究者に使用できる公開バドミントンデータセットはわずかである。
既存のバドミントンシングルスデータセットは特定のマッチアップに焦点を当てているが、異なるプレイヤーや様々なマッチアップに関する包括的な研究は提供できない。
本稿では,バドミントン・シングルス・データセットであるshuttleset22を2022年に高位の試合から収集した。
shuttleset22はトレーニングセット2,888回の30,172ストローク、バリデーションセット450回の1,400ストローク、ラリー内の詳細なストロークレベルメタデータを備えたテストセット654の2,040ストロークで構成される。
shuttleset22で既存の作業をベンチマークするために、shuttlenetという最先端のストローク予測手法をテストし、対応するストローク予測タスク、すなわち各ラリーの所定のストロークに基づいて将来のストロークを予測する。
また、coachai badminton challenge 2023で、バドミントン集会における今後のターンベースのストロークを予測することで、この問題に取り組む研究者を増やそうとしています。
ベースラインコードとデータセットはhttps://github.com/wywyWang/CoachAI-Projects/tree/main/CoachAI-Challenge-IJCAI2023/Track\%202\%3A\%2 0Stroke\%20Forecastingで利用可能になる。 In recent years, badminton analytics has drawn attention due to the advancement of artificial intelligence and the efficiency of data collection. While there is a line of effective applications to improve and investigate player performance, there are only a few public badminton datasets that can be used for researchers outside the badminton domain. Existing badminton singles datasets focus on specific matchups; however, they cannot provide comprehensive studies on different players and various matchups. In this paper, we provide a badminton singles dataset, ShuttleSet22, which is collected from high-ranking matches in 2022. ShuttleSet22 consists of 30,172 strokes in 2,888 rallies in the training set, 1,400 strokes in 450 rallies in the validation set, and 2,040 strokes in 654 rallies in the testing set with detailed stroke-level metadata within a rally. To benchmark existing work with ShuttleSet22, we test the state-of-the-art stroke forecasting approach, ShuttleNet, with the corresponding stroke forecasting task, i.e., predict the future strokes based on the given strokes of each rally. We also hold a challenge, Track 2: Forecasting Future Turn-Based Strokes in Badminton Rallies, at CoachAI Badminton Challenge 2023 to boost researchers to tackle this problem. The baseline codes and the dataset will be made available on https://github.com/wywyWang/CoachAI-Projects/tree/main/CoachAI-Challenge-IJCAI2023/Track\%202\%3A\%2 0Stroke\%20Forecasting. | 翻訳日:2023-06-28 12:13:04 公開日:2023-06-27 |
# 合成テンソルゲージ場 Synthetic tensor gauge fields ( http://arxiv.org/abs/2306.15663v1 ) ライセンス: Link先を確認 | Shaoliang Zhang, Chenwei Lv, Qi Zhou | (参考訳) 合成ゲージ場は物理学において様々な基本的な現象を探索するためのユニークなツールを物理学者に提供する。
しかし、現在実験で利用できるのは合成ベクトルゲージ場のみである。
フラクトン相において重要な役割を果たすテンソルゲージ場の研究は、純粋に理論的なものである。
本稿では,実験室で容易に利用できる技術を用いて合成テンソルゲージ場を実現する手法を提案する。
強い線形ポテンシャルと弱い二次ポテンシャルによって傾いた格子は、自然に粒子-ホール対によって形成されるリニアンのランク2電場を与える。
このようなランク2の電場は、単一の粒子も1つのホールも応答しないが、リネンが振動する新しいタイプのブロッホ振動をもたらす。
位置依存位相を持つ合成ベクトルゲージ場は、リネオンに対して同じ合成テンソルゲージ場を生成するために実装することもできる。
高次元では、相互作用とベクトルゲージポテンシャルの間の相互作用は、リング交換相互作用に位相を刻み込み、平面の合成テンソルゲージ場を生成する。
そのようなテンソルゲージ場は、実験室で双極子ハーパーホフシュタッターモデルを実現することができる。 Synthetic gauge fields have provided physicists with a unique tool to explore a wide range of fundamentally important phenomena in physics. However, only synthetic vector gauge fields are currently available in experiments. The study of tensor gauge fields, which play a vital role in fracton phase of matter, remains purely theoretical. Here, we propose schemes to realize synthetic tensor gauge fields using techniques readily available in laboratories. A lattice tilted by a strong linear potential and a weak quadratic potential naturally yields a rank-2 electric field for a lineon formed by a particle-hole pair. Such a rank-2 electric field leads to a new type of Bloch oscillations, where neither a single particle nor a single hole responds but a lineon vibrates. A synthetic vector gauge field carrying a position-dependent phase could also be implemented to produce the same synthetic tensor gauge field for a lineon. In higher dimensions, the interplay between interactions and vector gauge potentials imprints a phase to the ring-exchange interaction and thus generates synthetic tensor gauge fields for planons. Such tensor gauge fields make it possible to realize a dipolar Harper-Hofstadter model in laboratories. | 翻訳日:2023-06-28 12:12:30 公開日:2023-06-27 |
# 野生における測定されたアルベド:本質的評価におけるギャップを埋める Measured Albedo in the Wild: Filling the Gap in Intrinsics Evaluation ( http://arxiv.org/abs/2306.15662v1 ) ライセンス: Link先を確認 | Jiaye Wu, Sanjoy Chowdhury, Hariharmano Shanmugaraja, David Jacobs, and Soumyadip Sengupta | (参考訳) 固有画像分解と逆レンダリングは、コンピュータビジョンにおける長年の問題である。
アルベドの回収を評価するため、ほとんどのアルゴリズムはIIWデータセットの平均重み付き人体識別率(WHDR)測定値を用いて定量的な性能を報告している。
しかしながら、WHDRは比較的アルベド値にのみ焦点を合わせており、アルベドの全体的な品質を捉えることができないことが多い。
アルベドを包括的に評価するために、新しいデータセットである「MAW」を収集し、WHDRを補完する3つの新しい指標(強度、色度、テクスチャメトリクス)を提案する。
既存のアルゴリズムは、しばしばWHDRメトリックを改善するが、他のメトリクスでは性能が良くないことを示す。
そして、MAWデータセットに異なるアルゴリズムを微調整し、再構成されたアルベドの品質を定量的かつ質的に向上させる。
提案する強度,色度,テクスチャの測定値とWHDRは相補的であるため,平均性能を捉える相対的性能尺度も導入する。
既存のアルゴリズムを分析することで、改善の余地があることが分かる。
我々のデータセットと評価指標により、研究者はアルベド再構築を改善するアルゴリズムを開発できる。
コードとデータは、https://measuredalbedo.github.io/で入手できる。 Intrinsic image decomposition and inverse rendering are long-standing problems in computer vision. To evaluate albedo recovery, most algorithms report their quantitative performance with a mean Weighted Human Disagreement Rate (WHDR) metric on the IIW dataset. However, WHDR focuses only on relative albedo values and often fails to capture overall quality of the albedo. In order to comprehensively evaluate albedo, we collect a new dataset, Measured Albedo in the Wild (MAW), and propose three new metrics that complement WHDR: intensity, chromaticity and texture metrics. We show that existing algorithms often improve WHDR metric but perform poorly on other metrics. We then finetune different algorithms on our MAW dataset to significantly improve the quality of the reconstructed albedo both quantitatively and qualitatively. Since the proposed intensity, chromaticity, and texture metrics and the WHDR are all complementary we further introduce a relative performance measure that captures average performance. By analysing existing algorithms we show that there is significant room for improvement. Our dataset and evaluation metrics will enable researchers to develop algorithms that improve albedo reconstruction. Code and Data available at: https://measuredalbedo.github.io/ | 翻訳日:2023-06-28 12:12:11 公開日:2023-06-27 |
# 高次元小語彙データにおける表現学習の強化:組込みVAEを用いた分法とコンカレント法 Enhancing Representation Learning on High-Dimensional, Small-Size Tabular Data: A Divide and Conquer Method with Ensembled VAEs ( http://arxiv.org/abs/2306.15661v1 ) ライセンス: Link先を確認 | Navindu Leelarathna, Andrei Margeloiu, Mateja Jamnik, Nikola Simidjievski | (参考訳) 変分オートエンコーダとその多くの変種は、次元を減少させる素晴らしい能力を示し、しばしば最先端のパフォーマンスを達成している。
しかし、現在の多くの手法では、HDLSS(High dimensional, Low Sample Size)タスクで良い表現を学ぶのに苦労している。
この課題に対処するために,軽量vaesのアンサンブルを用いて特徴空間の部分集合の後方を学習し,新しい分割・結合アプローチで後方に集約する。
具体的には、より優れたサンプル効率をもたらす暗黙的データ拡張の形式を誘導する関節後部の代替因子化を提案する。
8つの実世界のデータセットに関する一連の実験を通じて,提案手法はhdlss設定でより優れた潜在表現を学習し,下流分類タスクにおいて高い精度をもたらすことを示した。
さらに,このアプローチが不等角化にポジティブな影響を与えることを検証し,学習表現に対する推定総相関を低下させる。
最後に,提案手法は部分的機能に対して頑健であり,ほとんどの機能が欠落していても,性能劣化が少ないことを示す。 Variational Autoencoders and their many variants have displayed impressive ability to perform dimensionality reduction, often achieving state-of-the-art performance. Many current methods however, struggle to learn good representations in High Dimensional, Low Sample Size (HDLSS) tasks, which is an inherently challenging setting. We address this challenge by using an ensemble of lightweight VAEs to learn posteriors over subsets of the feature-space, which get aggregated into a joint posterior in a novel divide-and-conquer approach. Specifically, we present an alternative factorisation of the joint posterior that induces a form of implicit data augmentation that yields greater sample efficiency. Through a series of experiments on eight real-world datasets, we show that our method learns better latent representations in HDLSS settings, which leads to higher accuracy in a downstream classification task. Furthermore, we verify that our approach has a positive effect on disentanglement and achieves a lower estimated Total Correlation on learnt representations. Finally, we show that our approach is robust to partial features at inference, exhibiting little performance degradation even with most features missing. | 翻訳日:2023-06-28 12:11:50 公開日:2023-06-27 |
# フラットバンド誘起局所ヒルベルト空間断片化 Flat-band induced local Hilbert space fragmentation ( http://arxiv.org/abs/2306.15660v1 ) ライセンス: Link先を確認 | Eul\`alia Nicolau, Anselmo M. Marques, Ricardo G. Dias, and Ver\`onica Ahufinger | (参考訳) 可換局所対称性を持つフラットバンド格子の完全なクラスが局所断片化されたヒルベルト空間を示すことを示す。
等式分割定理は、このタイプのフラットバンド格子とシステムの拡張固有状態に存在するコンパクト局所状態(CLS)に対して異なるパリティを保証する。
オンサイトボソニック相互作用の存在下では、そのようなモデルは保存された量を示し、単位セル内の全てのCLSに存在する粒子数のパリティを示す。
その結果、ヒルベルト空間は局所的な断片化を示し、これは単粒子レベルで cls を分解するハミルトニアンの基底を回転させることでのみ明らかにされる。
この断片化は長距離相互作用の付加に対して強固かつ強固であることがわかった。
例えば,非可積分セクタ,有効単粒子セクタ,凍結状態の両方を示す1次元ピロクロル鎖の断片化を数値的に解析する。
また, エンタングルメントエントロピーは, これらの断片化システムに典型的なネストドーム構造を形成し, 熱化は各サブセクタに制限されることを示した。 We demonstrate that a complete class of flat-band lattices with underlying commutative local symmetries exhibit a locally fragmented Hilbert space. The equitable partition theorem ensures distinct parities for the compact localized states (CLSs) present in this class of flat-band lattices and the extended eigenstates of the system. In the presence of on-site bosonic interactions, such models exhibit a conserved quantity, the parity of the number of particles located in all the CLSs in a unit cell. As a consequence, the Hilbert space presents local fragmentation, which is only revealed upon rotating the basis of the Hamiltonian that decouples the CLSs at the single-particle level. We find that the fragmentation is strong and also robust to the addition of long-range interactions. As an example, we numerically analyze the fragmentation of the one-dimensional Pyrochlore chain, which exhibits both nonintegrable sectors, effective single-particle sectors, and frozen states. We also show that the entanglement entropies form a nested-dome structure typical of these fragmented systems and that thermalization is restricted to each sub-sector. | 翻訳日:2023-06-28 12:11:26 公開日:2023-06-27 |
# CLIPA-v2: 81.1%ゼロショットイメージネットの精度を1万ドル予算内で拡張するCLIPトレーニング。 CLIPA-v2: Scaling CLIP Training with 81.1% Zero-shot ImageNet Accuracy within a \$10,000 Budget; An Extra \$4,000 Unlocks 81.8% Accuracy ( http://arxiv.org/abs/2306.15658v1 ) ライセンス: Link先を確認 | Xianhang Li, Zeyu Wang, Cihang Xie | (参考訳) 最近のCLIPAでは、CLIPトレーニングの逆スケーリング法が提案されている - 使用されるイメージ/テキストエンコーダが大きいほど、トレーニングに適用可能な画像/テキストトークンのシーケンス長が短くなる。
この発見により,計算量を大幅に削減した高性能CLIPモデルを訓練することができる。
この作業に基づいて、CLIPA-v2を2つの重要なコントリビューションで紹介します。
技術的には、この逆スケーリング法則は微調整段階にも適用でき、計算ニーズのさらなる削減を可能にする。
経験的に、私たちはclipaを大規模に調査し、トレーニング中に約13bのイメージテキストペアで実験をh/14モデルに拡張した。
私たちのCLIPモデルは1万ドルの予算のみを割り当てることで、81.1%の印象的なゼロショット画像ネット精度を実現し、以前の最高のCLIPモデル(OpenCLIP 80.1%)を1.0%上回り、計算コストを約39倍削減しました。
さらに、4000ドルの追加投資により、ゼロショットイメージネットの精度をさらに81.8%向上させることができる。
私たちのコードとモデルはhttps://github.com/UCSC-VLAA/CLIPAで公開されています。 The recent work CLIPA presents an inverse scaling law for CLIP training -- whereby the larger the image/text encoders used, the shorter the sequence length of image/text tokens that can be applied in training. This finding enables us to train high-performance CLIP models with significantly reduced computations. Building upon this work, we hereby present CLIPA-v2 with two key contributions. Technically, we find this inverse scaling law is also applicable in the finetuning stage, enabling further reduction in computational needs. Empirically, we explore CLIPA at scale, extending the experiments up to the H/14 model with ~13B image-text pairs seen during training. Our results are exciting -- by only allocating a budget of \$10,000, our CLIP model achieves an impressive zero-shot ImageNet accuracy of 81.1%, surpassing the prior best CLIP model (from OpenCLIP, 80.1%) by 1.0% and meanwhile reducing the computational cost by ~39X. Moreover, with an additional investment of $4,000, we can further elevate the zero-shot ImageNet accuracy to 81.8%. Our code and models are available at https://github.com/UCSC-VLAA/CLIPA. | 翻訳日:2023-06-28 12:11:09 公開日:2023-06-27 |
# 学習した準曲面を持つニューラル360$^\circ$構造光 Neural 360$^\circ$ Structured Light with Learned Metasurfaces ( http://arxiv.org/abs/2306.13361v2 ) ライセンス: Link先を確認 | Eunsue Choi, Gyeongtae Kim, Jooyeong Yun, Yujin Jeon, Junsuk Rho, Seung-Hwan Baek | (参考訳) 構造光は3Dイメージング、LiDAR、ホログラム光投射に役立っていることが証明されている。
準波長サイズのナノ構造からなる準曲面は180$^\circ$ field-of-view (FoV) 構造光を促進し、回折光学素子のような従来の光学系に固有の制限されたFoVを回避する。
しかし、現存するメタサーフェスフェシリット構造光は、エンドアプリケーションの目的を考慮しない周期ドットのようなヒューリスティックなパターン設計のため、下流タスクにおいて副最適性能を示す。
本稿では,学習した準曲面によって駆動されるニューラル360$^\circ$構造光について述べる。
本稿では,計算効率が180$^\circ$の波動伝播モデルとタスク固有の再構成器を包含する微分可能な枠組みを提案し,メタサーフェスの透過チャネルと反射チャネルの両方を利用する。
微分可能なフレームワーク内での1次オプティマイザを活用することで、準曲面設計を最適化し、ニューラルな360$^\circ$構造光を実現する。
我々はホログラフィック光投影と3次元イメージングにニューラル360$^\circ$構造光を利用した。
具体的には,rayleigh-sommerfeld伝播よりも5万ドル高速で計算的に評価可能な伝播モデルにより,複素パターンの最初の360$^\circ$光投射を実証する。
3次元イメージングでは、ヒューリスティックに設計された構造化光と比較して、rmseの深さ推定精度を5.9$\times$で向上する。
neural 360$^\circ$ structured lightは、ロボティクス、拡張現実システム、人間とコンピュータのインタラクションのためのロバストな360$^\circ$画像とディスプレイを約束する。 Structured light has proven instrumental in 3D imaging, LiDAR, and holographic light projection. Metasurfaces, comprised of sub-wavelength-sized nanostructures, facilitate 180$^\circ$ field-of-view (FoV) structured light, circumventing the restricted FoV inherent in traditional optics like diffractive optical elements. However, extant metasurface-facilitated structured light exhibits sub-optimal performance in downstream tasks, due to heuristic pattern designs such as periodic dots that do not consider the objectives of the end application. In this paper, we present neural 360$^\circ$ structured light, driven by learned metasurfaces. We propose a differentiable framework, that encompasses a computationally-efficient 180$^\circ$ wave propagation model and a task-specific reconstructor, and exploits both transmission and reflection channels of the metasurface. Leveraging a first-order optimizer within our differentiable framework, we optimize the metasurface design, thereby realizing neural 360$^\circ$ structured light. We have utilized neural 360$^\circ$ structured light for holographic light projection and 3D imaging. Specifically, we demonstrate the first 360$^\circ$ light projection of complex patterns, enabled by our propagation model that can be computationally evaluated 50,000$\times$ faster than the Rayleigh-Sommerfeld propagation. For 3D imaging, we improve depth-estimation accuracy by 5.09$\times$ in RMSE compared to the heuristically-designed structured light. Neural 360$^\circ$ structured light promises robust 360$^\circ$ imaging and display for robotics, extended-reality systems, and human-computer interactions. | 翻訳日:2023-06-28 10:27:29 公開日:2023-06-27 |
# 言語モデルは有界な実用的話者である Language Models are Bounded Pragmatic Speakers ( http://arxiv.org/abs/2305.17760v3 ) ライセンス: Link先を確認 | Khanh Nguyen | (参考訳) 言語モデルはどのように考えるのか?
本稿では,言語モデルの異なるバリエーションの操作を特徴付ける有界プラガマ話者と呼ばれる確率論的認知モデルを定式化する。
具体的には、人間のフィードバックから強化学習を施した大規模言語モデル(Ouyang et al., 2022)が、心理学者が人間に帰属する高速・低速モデル(Kahneman, 2011)と概念的に類似した思考モデルであることを示す。
本稿では,人間フィードバックからの強化学習の限界を思考の素早いモデルとして議論し,この枠組みを拡張するための道筋を提案する。
本研究は,言語モデルの理解,評価,発展に関する洞察を得るために,認知的確率的モデリングアプローチを採用することの価値を強調する。 How do language models "think"? This paper formulates a probabilistic cognitive model called the bounded pragmatic speaker, which can characterize the operation of different variations of language models. Specifically, we demonstrate that large language models fine-tuned with reinforcement learning from human feedback (Ouyang et al., 2022) embody a model of thought that conceptually resembles a fast-and-slow model (Kahneman, 2011), which psychologists have attributed to humans. We discuss the limitations of reinforcement learning from human feedback as a fast-and-slow model of thought and propose avenues for expanding this framework. In essence, our research highlights the value of adopting a cognitive probabilistic modeling approach to gain insights into the comprehension, evaluation, and advancement of language models. | 翻訳日:2023-06-28 10:27:01 公開日:2023-06-27 |
# R'enyi divergencesの有効性 Sufficiency of R\'enyi divergences ( http://arxiv.org/abs/2304.12989v4 ) ライセンス: Link先を確認 | Niklas Galke, Lauritz van Luijk, Henrik Wilming | (参考訳) 古典的あるいは量子的状態の集合が、古典的または量子的チャネルのペアが他方にセットされた場合、別のものと同値である。
ディコトミー(状態のペア)の場合、これは(古典的または量子的) R\'enyi divergences (RD) とデータ処理の不等式と密接に結びついている。
ここでは、古典的二分法について、RDs の等式だけでは、2つの方向のいずれかのチャネルの存在に十分であることを示すとともに、いくつかの応用について議論する。
最小量子RDの等式は量子の場合で十分であり、特殊の場合では証明できる。
また、ペッツ量子も最大量子RDも十分でないことを示す。
我々の手法の副作用として、古典、ペッツ量子、最大量子RDによって満たされる無限の不等式のリストを得る。
これらの不等式は最小量子rdsには当てはまらない。 A set of classical or quantum states is equivalent to another one if there exists a pair of classical or quantum channels mapping either set to the other one. For dichotomies (pairs of states) this is closely connected to (classical or quantum) R\'enyi divergences (RD) and the data-processing inequality: If a RD remains unchanged when a channel is applied to the dichotomy, then there is a recovery channel mapping the image back to the initial dichotomy. Here, we prove for classical dichotomies that equality of the RDs alone is already sufficient for the existence of a channel in any of the two directions and discuss some applications. We conjecture that equality of the minimal quantum RDs is sufficient in the quantum case and prove it for special cases. We also show that neither the Petz quantum nor the maximal quantum RDs are sufficient. As a side-result of our techniques we obtain an infinite list of inequalities fulfilled by the classical, the Petz quantum, and the maximal quantum RDs. These inequalities are not true for the minimal quantum RDs. | 翻訳日:2023-06-28 10:26:43 公開日:2023-06-27 |
# SpikeGPT:スパイクニューラルネットワークを用いた生成事前学習言語モデル SpikeGPT: Generative Pre-trained Language Model with Spiking Neural Networks ( http://arxiv.org/abs/2302.13939v4 ) ライセンス: Link先を確認 | Rui-Jie Zhu, Qihang Zhao, Guoqi Li, Jason K. Eshraghian | (参考訳) 大きな言語モデルのサイズが拡大し続けるにつれて、それを実行するのに必要な計算リソースも増えます。
spiking neural networks(snns)は、モデル推論に関連する計算オーバーヘッドを削減するためにスパースとイベント駆動のアクティベーションを活用する、ディープラーニングのエネルギー効率の高いアプローチとして登場した。
多くのコンピュータビジョンタスクにおける非スパイキングモデルと競合する一方で、SNNはトレーニングをより困難にしている。
その結果,それらの性能は現代のディープラーニングよりも遅れており,言語生成におけるSNNの有効性はまだ分かっていない。
本稿では,Receptance Weighted Key Value (RWKV)言語モデルにヒントを得て,イベント駆動型スパイクアクティベーションユニットを持つ生成言語モデルである 'SpikeGPT' の実装に成功した。
提案モデルを45mパラメータと216mパラメータの2つのモデルでトレーニングした。
我々の知る限り、SpikeGPTは今までで最大のバックプロパゲーション訓練SNNモデルであり、自然言語の生成と理解の両方に適している。
変換器ブロックを改良して,2次計算複雑性O(N^2)を2次計算複雑性O(N)に減らし,シーケンス長を増大させる。
入力トークンは、通常のSNNのように)注意機構に順次ストリームされます。
予備実験では、SpikeGPTはテストベンチマークの非スパイキングモデルと競合する一方で、スパースでイベント駆動のアクティベーションを活用できるニューロモルフィックハードウェアで処理した場合の操作数を20倍に抑えることができた。 As the size of large language models continue to scale, so does the computational resources required to run it. Spiking Neural Networks (SNNs) have emerged as an energy-efficient approach to deep learning that leverage sparse and event-driven activations to reduce the computational overhead associated with model inference. While they have become competitive with non-spiking models on many computer vision tasks, SNNs have also proven to be more challenging to train. As a result, their performance lags behind modern deep learning, and we are yet to see the effectiveness of SNNs in language generation. In this paper, inspired by the Receptance Weighted Key Value (RWKV) language model, we successfully implement `SpikeGPT', a generative language model with binary, event-driven spiking activation units. We train the proposed model on two model variants: 45M and 216M parameters. To the best of our knowledge, SpikeGPT is the largest backpropagation-trained SNN model to date, rendering it suitable for both the generation and comprehension of natural language. We achieve this by modifying the transformer block to replace multi-head self attention to reduce quadratic computational complexity O(N^2) to linear complexity O(N) with increasing sequence length. Input tokens are instead streamed in sequentially to our attention mechanism (as with typical SNNs). Our preliminary experiments show that SpikeGPT remains competitive with non-spiking models on tested benchmarks, while maintaining 20x fewer operations when processed on neuromorphic hardware that can leverage sparse, event-driven activations. | 翻訳日:2023-06-28 10:26:19 公開日:2023-06-27 |
# ニューラルネットワークとインデックスによるクラスタリング Clustering with Neural Network and Index ( http://arxiv.org/abs/2212.03853v4 ) ライセンス: Link先を確認 | Gangli Liu | (参考訳) ニューラルネットワークとインデックス(cnni)を用いたクラスタリングと呼ばれる新しいモデルを導入した。
CNNIはニューラルネットワークを使ってデータポイントをクラスタ化する。
ニューラルネットワークのトレーニングは教師付き学習を模倣し、内部クラスタリング評価指標が損失関数として機能する。
新しいモデルの実現可能性をテストする実験を行い、K平均やガウス混合モデル(GMM)のような他のクラスタリングモデルと比較した。
cnniはmmj-scを備えており、非凸形状(非平坦形状)データを扱うことができる最初のパラメトリック(誘導的)クラスタリングモデルを実現している。 A new model called Clustering with Neural Network and Index (CNNI) is introduced. CNNI uses a Neural Network to cluster data points. Training of the Neural Network mimics supervised learning, with an internal clustering evaluation index acting as the loss function. An experiment is conducted to test the feasibility of the new model, and compared with results of other clustering models like K-means and Gaussian Mixture Model (GMM). The result shows CNNI can work properly for clustering data; CNNI equipped with MMJ-SC, achieves the first parametric (inductive) clustering model that can deal with non-convex shaped (non-flat geometry) data. | 翻訳日:2023-06-28 10:25:47 公開日:2023-06-27 |
# LViT:医療画像セグメンテーションにおける視覚変換器 LViT: Language meets Vision Transformer in Medical Image Segmentation ( http://arxiv.org/abs/2206.14718v4 ) ライセンス: Link先を確認 | Zihan Li, Yunxiang Li, Qingde Li, Puyang Wang, Dazhou Guo, Le Lu, Dakai Jin, You Zhang, Qingqi Hong | (参考訳) 深層学習は医用画像のセグメンテーションやその他の側面で広く用いられている。
しかし,既存の医用画像分割モデルの性能は,データアノテーションコストの制約により,十分な高品質のラベル付きデータを得るという課題により制限されている。
この制限を緩和するため,新たなテキスト拡張医療画像分割モデルLViT(Language meets Vision Transformer)を提案する。
LViTモデルでは,画像データの品質低下を補うために医療用テキストアノテーションが組み込まれている。
さらに、テキスト情報により、セミ教師付き学習における品質の向上した擬似ラベルを生成することができる。
また,ピクセルレベルアテンションモジュール (plam) が局所的な画像特徴を半教師付きlvit設定で保存するための指数的擬似ラベル反復機構 (epi) を提案する。
我々のモデルでは、LV損失はテキスト情報を直接利用してラベルなし画像のトレーニングを監督するように設計されている。
評価のために,X線とCT画像を含む3つのマルチモーダル医療セグメントデータセット(画像+テキスト)を構築した。
実験の結果,LViTは完全教師付きと半教師付きの両方でセグメンテーション性能に優れていた。
コードとデータセットはhttps://github.com/huanglizi/lvitで入手できる。 Deep learning has been widely used in medical image segmentation and other aspects. However, the performance of existing medical image segmentation models has been limited by the challenge of obtaining sufficient high-quality labeled data due to the prohibitive data annotation cost. To alleviate this limitation, we propose a new text-augmented medical image segmentation model LViT (Language meets Vision Transformer). In our LViT model, medical text annotation is incorporated to compensate for the quality deficiency in image data. In addition, the text information can guide to generate pseudo labels of improved quality in the semi-supervised learning. We also propose an Exponential Pseudo label Iteration mechanism (EPI) to help the Pixel-Level Attention Module (PLAM) preserve local image features in semi-supervised LViT setting. In our model, LV (Language-Vision) loss is designed to supervise the training of unlabeled images using text information directly. For evaluation, we construct three multimodal medical segmentation datasets (image + text) containing X-rays and CT images. Experimental results show that our proposed LViT has superior segmentation performance in both fully-supervised and semi-supervised setting. The code and datasets are available at https://github.com/HUANGLIZI/LViT. | 翻訳日:2023-06-28 10:25:36 公開日:2023-06-27 |
# 脳腫瘍画像分割における適応的閾値設定法の導入 Introducing A Novel Method For Adaptive Thresholding In Brain Tumor Medical Image Segmentation ( http://arxiv.org/abs/2306.14250v2 ) ライセンス: Link先を確認 | Ali Fayzi, Mohammad Fayzi, Mostafa Forotan | (参考訳) 深層学習と医用画像セグメンテーションの分野で最も重要な課題の1つは、各ピクセルを分類するための適切なしきい値を決定することである。
このしきい値は、モデルの出力が特定のクラスに属すると考えられる値である。
個人の経験に基づく手動しきい値設定は、特に医療画像のような複雑な問題に対して、エラーを起こしやすく、時間を要する。
このような問題のしきい値を決定するのに従来のしきい値法は有効ではない。
この課題に対処するため,ディープラーニングを用いた自動しきい値設定手法が提案されている。
しかし,これらの手法の主な問題は,入力データの変化を考慮せずにしきい値が静的に決定されることである。
入力データは動的であり、時間とともに変化する可能性があるため、しきい値の決定は適応的で、入力データや環境条件を考慮すべきである。 One of the most significant challenges in the field of deep learning and medical image segmentation is to determine an appropriate threshold for classifying each pixel. This threshold is a value above which the model's output is considered to belong to a specific class. Manual thresholding based on personal experience is error-prone and time-consuming, particularly for complex problems such as medical images. Traditional methods for thresholding are not effective for determining the threshold value for such problems. To tackle this challenge, automatic thresholding methods using deep learning have been proposed. However, the main issue with these methods is that they often determine the threshold value statically without considering changes in input data. Since input data can be dynamic and may change over time, threshold determination should be adaptive and consider input data and environmental conditions. | 翻訳日:2023-06-28 10:20:00 公開日:2023-06-27 |
# 点雲分類のための相反蒸留 Feature Adversarial Distillation for Point Cloud Classification ( http://arxiv.org/abs/2306.14221v2 ) ライセンス: Link先を確認 | YuXing Lee, Wei Wu | (参考訳) 点雲の不規則で秩序のない幾何学構造のため、従来の知識蒸留技術は点雲のタスクで直接使われると多くの情報を失った。
本稿では, ポイントクラウド蒸留における一般対向損失関数であるFeature Adversarial Distillation (FAD)法を提案し, 知識伝達時の損失を低減する。
特徴抽出段階では、教師が抽出した特徴を判別器として使用し、生徒は訓練段階において新たな特徴を継続的に生成する。
生徒の特徴は、教師からのフィードバックを攻撃して、生徒が知識をよく学んだかどうかを判断するスコアを得ることによって得られる。
モデルNet40およびScanObjectNNデータセットの標準点クラウド分類実験において,40倍モデル圧縮における蒸留における知識伝達の情報損失を低減し,競争性能を維持した。 Due to the point cloud's irregular and unordered geometry structure, conventional knowledge distillation technology lost a lot of information when directly used on point cloud tasks. In this paper, we propose Feature Adversarial Distillation (FAD) method, a generic adversarial loss function in point cloud distillation, to reduce loss during knowledge transfer. In the feature extraction stage, the features extracted by the teacher are used as the discriminator, and the students continuously generate new features in the training stage. The feature of the student is obtained by attacking the feedback from the teacher and getting a score to judge whether the student has learned the knowledge well or not. In experiments on standard point cloud classification on ModelNet40 and ScanObjectNN datasets, our method reduced the information loss of knowledge transfer in distillation in 40x model compression while maintaining competitive performance. | 翻訳日:2023-06-28 10:19:47 公開日:2023-06-27 |
# 人工知能と生物学的誤用:言語モデルと生物学的デザインツールの差別化リスク Artificial intelligence and biological misuse: Differentiating risks of language models and biological design tools ( http://arxiv.org/abs/2306.13952v2 ) ライセンス: Link先を確認 | Jonas B. Sandbrink | (参考訳) 人工知能が生命科学の進歩を促進するにつれ、生物エージェントの兵器化や誤用も可能となるかもしれない。
本稿では,大規模言語モデル (LLM) と生物設計ツール (BDT) の2種類のAIツールを区別する。
gpt-4のようなllmはすでに、歴史的な生物学的兵器開発が成功するためのデュアルユース情報を提供することができる。
LLMを研究室のアシスタントや自律科学ツールに変えることで、研究を支援する能力はさらに向上する。
したがって、LDMは特に生物学的誤用に対する障壁を低くする。
対照的に、BDTは高度なアクターの能力を拡大する。
具体的には、BDTはパンデミックの病原体をこれまで見たことよりもはるかに悪化させ、予測可能で標的となる生物兵器の形式を可能にする可能性がある。
LLMとBDTが組み合わさると、生物剤による害の天井が上がり、広くアクセスできるようになる。
LLMとBDTの異なるリスクプロファイルは、リスク軽減に重要な意味を持つ。
LLMリスクは緊急行動を必要とし、危険な能力へのアクセスを制御することによって効果的に軽減される可能性がある。
開発者が危険な機能をなくすためには、必須のプレリリース評価が不可欠である可能性がある。
科学に特化したaiツールは、正当なユーザーへのアクセスを許可しながら誤用を防止するための差別化戦略を要求する。
一方、BDTからのリスクは定義されておらず、開発者や政策立案者による監視が必要である。
これらのリスクを減らす鍵は、遺伝子合成のスクリーニングを強化すること、高度なアクターによる生物学的誤用を防ぐための介入、BDTの特定の制御の探索である。 As advancements in artificial intelligence propel progress in the life sciences, they may also enable the weaponisation and misuse of biological agents. This article differentiates two classes of AI tools that pose such biosecurity risks: large language models (LLMs) and biological design tools (BDTs). LLMs, such as GPT-4, are already able to provide dual-use information that could have enabled historical biological weapons efforts to succeed. As LLMs are turned into lab assistants and autonomous science tools, this will further increase their ability to support research. Thus, LLMs will in particular lower barriers to biological misuse. In contrast, BDTs will expand the capabilities of sophisticated actors. Concretely, BDTs may enable the creation of pandemic pathogens substantially worse than anything seen to date and could enable forms of more predictable and targeted biological weapons. In combination, LLMs and BDTs could raise the ceiling of harm from biological agents and could make them broadly accessible. The differing risk profiles of LLMs and BDTs have important implications for risk mitigation. LLM risks require urgent action and might be effectively mitigated by controlling access to dangerous capabilities. Mandatory pre-release evaluations could be critical to ensure that developers eliminate dangerous capabilities. Science-specific AI tools demand differentiated strategies to allow access to legitimate users while preventing misuse. Meanwhile, risks from BDTs are less defined and require monitoring by developers and policymakers. Key to reducing these risks will be enhanced screening of gene synthesis, interventions to deter biological misuse by sophisticated actors, and exploration of specific controls of BDTs. | 翻訳日:2023-06-28 10:19:21 公開日:2023-06-27 |
# 説明可能なaiにおける操作リスク--不一致問題の意味 Manipulation Risks in Explainable AI: The Implications of the Disagreement Problem ( http://arxiv.org/abs/2306.13885v2 ) ライセンス: Link先を確認 | Sofie Goethals and David Martens and Theodoros Evgeniou | (参考訳) ai(artificial intelligence, 人工知能)システムは、私たちの生活の高リスク領域でますます使われており、これらの決定を説明し、彼らがどのように意思決定をしたいかと一致しているかを確認する必要性が高まっている。
説明可能なAI(XAI)の分野が登場した。
しかし、同じaiの決定や予測に対して複数の説明が可能となる不一致問題として知られる重大な課題に直面している。
不一致問題の存在は認識されているが、この問題に関連する潜在的な影響はまだ広く研究されていない。
まず、返された説明を彼らの利益に適応させるために、プロバイダがデプロイできるさまざまな戦略の概要を提供する。
我々は、説明に影響を与えるために機械学習モデルや基礎となるデータを攻撃する戦略と、説明フェーズを直接活用する戦略とを区別する。
次に、提供者がこの行動に関与しなければならないいくつかの目的と具体的なシナリオを分析し、このマニピュレーション行動が社会に与える影響の可能性について分析する。
我々は,これらの手法が広く実施される前に,この問題を調査することが重要であることを強調し,緩和戦略を提案する。 Artificial Intelligence (AI) systems are increasingly used in high-stakes domains of our life, increasing the need to explain these decisions and to make sure that they are aligned with how we want the decision to be made. The field of Explainable AI (XAI) has emerged in response. However, it faces a significant challenge known as the disagreement problem, where multiple explanations are possible for the same AI decision or prediction. While the existence of the disagreement problem is acknowledged, the potential implications associated with this problem have not yet been widely studied. First, we provide an overview of the different strategies explanation providers could deploy to adapt the returned explanation to their benefit. We make a distinction between strategies that attack the machine learning model or underlying data to influence the explanations, and strategies that leverage the explanation phase directly. Next, we analyse several objectives and concrete scenarios the providers could have to engage in this behavior, and the potential dangerous consequences this manipulative behavior could have on society. We emphasize that it is crucial to investigate this issue now, before these methods are widely implemented, and propose some mitigation strategies. | 翻訳日:2023-06-28 10:18:46 公開日:2023-06-27 |
# マルチモーダルデュアルアテンション変換器を用いた言語間音声認識 Cross-Language Speech Emotion Recognition Using Multimodal Dual Attention Transformers ( http://arxiv.org/abs/2306.13804v2 ) ライセンス: Link先を確認 | Syed Aun Muhammad Zaidi, Siddique Latif, Junaid Qadir | (参考訳) 近年の音声感情認識(SER)の進歩にもかかわらず、最先端のシステムではクロス言語環境での性能向上が達成できない。
本稿では,多言語SERを改善するためのマルチモーダルデュアルアテンショントランス(MDAT)モデルを提案する。
本モデルでは,マルチモーダル特徴抽出のための事前学習モデルを利用し,グラフ注意とコアテンションを含む2重注意機構を備え,異なるモーダル性にまたがる複雑な依存関係をキャプチャし,最小のターゲット言語データを用いて言語横断型ser結果の改善を実現する。
さらに,このモデルでは,高レベル特徴表現のためのトランスフォーマーエンコーダ層を利用して感情分類精度を向上させる。
このように、MDATは様々な段階で特徴表現の洗練を行い、分類層に感情的な健全な特徴を提供する。
この新たなアプローチは、モダリティ特有の感情情報の保存と、モダリティ間および言語間インタラクションの強化も保証する。
我々は,4つの公開SERデータセット上でのモデルの性能を評価し,最近のアプローチやベースラインモデルと比較して優れた有効性を示す。 Despite the recent progress in speech emotion recognition (SER), state-of-the-art systems are unable to achieve improved performance in cross-language settings. In this paper, we propose a Multimodal Dual Attention Transformer (MDAT) model to improve cross-language SER. Our model utilises pre-trained models for multimodal feature extraction and is equipped with a dual attention mechanism including graph attention and co-attention to capture complex dependencies across different modalities and achieve improved cross-language SER results using minimal target language data. In addition, our model also exploits a transformer encoder layer for high-level feature representation to improve emotion classification accuracy. In this way, MDAT performs refinement of feature representation at various stages and provides emotional salient features to the classification layer. This novel approach also ensures the preservation of modality-specific emotional information while enhancing cross-modality and cross-language interactions. We assess our model's performance on four publicly available SER datasets and establish its superior effectiveness compared to recent approaches and baseline models. | 翻訳日:2023-06-28 10:18:27 公開日:2023-06-27 |
# QNNRepair: 量子ニューラルネットワークの修復 QNNRepair: Quantized Neural Network Repair ( http://arxiv.org/abs/2306.13793v2 ) ライセンス: Link先を確認 | Xidan Song, Youcheng Sun, Mustafa A. Mustafa, and Lucas C. Cordeiro | (参考訳) 本稿では,量子化ニューラルネットワーク (QNN) の修復手法であるQNNRepairを提案する。
QNNRepairは、量子化後のニューラルネットワークモデルの精度向上を目的としている。
完全な精度と重み付けのニューラルネットワークと、合格テストと失敗テストの修復データセットを受け入れる。
はじめに、QNNRepairは、ニューラルネットワーク量子化時にパフォーマンス劣化を引き起こすニューロンを特定するために、ソフトウェア障害ローカライズ手法を適用した。
そして、修復問題をニューロン重みパラメータを解く線形計画問題に定式化し、合格テストにおける性能を損なうことなく、故障テストにおけるqnnの性能を補正する。
我々は、高解像度画像を含む一般的なデータセット上で、MobileNetV2、ResNet、VGGNetなどの広く使われているニューラルネットワークアーキテクチャを用いて、QNNRepairを評価する。
また,QNNRepairと最先端データ自由量子化手法SQuantを比較した。
実験の結果,QNNRepairは,ほとんどの場合において量子化モデルの性能向上に有効であることがわかった。
修復されたモデルは、独立した検証セット、特にImageNetデータセットにおいて、SQuantよりも24%高い精度を持つ。 We present QNNRepair, the first method in the literature for repairing quantized neural networks (QNNs). QNNRepair aims to improve the accuracy of a neural network model after quantization. It accepts the full-precision and weight-quantized neural networks and a repair dataset of passing and failing tests. At first, QNNRepair applies a software fault localization method to identify the neurons that cause performance degradation during neural network quantization. Then, it formulates the repair problem into a linear programming problem of solving neuron weights parameters, which corrects the QNN's performance on failing tests while not compromising its performance on passing tests. We evaluate QNNRepair with widely used neural network architectures such as MobileNetV2, ResNet, and VGGNet on popular datasets, including high-resolution images. We also compare QNNRepair with the state-of-the-art data-free quantization method SQuant. According to the experiment results, we conclude that QNNRepair is effective in improving the quantized model's performance in most cases. Its repaired models have 24% higher accuracy than SQuant's in the independent validation set, especially for the ImageNet dataset. | 翻訳日:2023-06-28 10:18:07 公開日:2023-06-27 |
# ボットネット検出における量子サイバーセキュリティ分析の活用:ツリーアルゴリズムによる安定したアーキテクチャとスピードアップ Enabling Quantum Cybersecurity Analytics in Botnet Detection: Stable Architecture and Speed-up through Tree Algorithms ( http://arxiv.org/abs/2306.13727v2 ) ライセンス: Link先を確認 | Madjid Tehrani, Eldar Sultanow, William J Buchanan, Malik Amir, Anja Jeschke, Raymond Chow, Mouad Lemoudden | (参考訳) 最初に、100個のデータサンプルと、5000個のデータサンプルを持つ実デバイスベースのシミュレーションを備えた実量子コンピュータ上で、ハイブリッド機械学習手法の実行を可能にし、2022年以降、1000個のデータサンプルに対処し、量子実デバイス上でのシミュレーションではなく、量子シミュレータ(純粋なソフトウェアベースのエミュレータ)上でのみ、現在よりも優れている。
さらに、報告された精度76.8%を平均精度89.0%で上回り、全計算時間は382秒に過ぎなかった。
彼らは実行時間を報告しなかった。
まず、実際の量子デバイス上でHQMLアルゴリズムの実行を可能にする安定化された量子アーキテクチャを提供する。
第二に、Hoeffding決定木アルゴリズムに基づくハイブリッド量子二項分類アルゴリズムの新たな形式を設計する。
これらのアルゴリズムは、通常のループベースのオプティマイザと比較して実際の量子デバイスに必要なショット数を大幅に削減するために、バッチ実行を通じて前述のスピードアップを導く。
そのインクリメンタルな性質は、DGAボットネット検出のためのビッグデータオンラインストリーミングの目的に役立つ。
これらの2つのステップにより、DGAボットネット検出の例と量子強化SIEMの例に基づいて、ハイブリッド量子機械学習をサイバーセキュリティ分析の分野に適用し、量子サイバーセキュリティ分析を可能にする。
量子シミュレータ aer とライブラリ qiskit を用いて実験を行い,ms azure quantum から ionq, rigetti, quantinuum の3種類の量子デバイスについて実験を行った。
これらのツールが組み合わされたのは初めてです。 For the first time, we enable the execution of hybrid machine learning methods on real quantum computers, with 100 data samples, and also with real-device-based simulations, with 5,000 data samples and thereby outperforming the current state of research of Suryotrisongko and Musashi from the year 2022 who were dealing with 1,000 data samples and not with simulations on quantum real devices but on quantum simulators (i.e. pure software-based emulators) only. Additionally, we beat their reported accuracy of 76.8% by an average accuracy of 89.0%, all of this in a total computation time of 382 seconds only. They did not report the execution time. We gain this significant progress by a two-fold strategy: First, we provide a stabilized quantum architecture that enables us to execute HQML algorithms on real quantum devices. Second, we design a new form of hybrid quantum binary classification algorithms that are based on Hoeffding decision tree algorithms. These algorithms lead to the mentioned speed-up through their batch-wise execution in order to drastically reduce the number of shots needed for the real quantum device compared to standard loop-based optimizers. Their incremental nature serves the purpose of big data online streaming for DGA botnet detection. These two steps allow us to apply hybrid quantum machine learning to the field of cybersecurity analytics on the example of DGA botnet detection and how quantum-enhanced SIEM and, thereby, quantum cybersecurity analytics is made possible. We conduct experiments using the library Qiskit with quantum simulator Aer as well as on three different real quantum devices from MS Azure Quantum, naming IonQ, Rigetti and Quantinuum. It is the first time that these tools have been combined. | 翻訳日:2023-06-28 10:17:50 公開日:2023-06-27 |
# 留意機構におけるマックスマージントークンの選択 Max-Margin Token Selection in Attention Mechanism ( http://arxiv.org/abs/2306.13596v2 ) ライセンス: Link先を確認 | Davoud Ataee Tarzanagh, Yingcong Li, Xuechen Zhang, Samet Oymak | (参考訳) 注意機構はトランスフォーマーアーキテクチャの中心的な構成要素であり、大きな言語モデルの驚くべき成功につながった。
しかし、注意機構の根底にある理論原理は、特に非凸最適化力学の理解が不十分である。
この研究において、seminal softmax-attention model $f(\boldsymbol{x})=\langle \boldsymbol{xv}, \textt{softmax}(\boldsymbol{xwp})\rangle$、ここで$\boldsymbol{x}$はトークンシーケンス、$(\boldsymbol{v},\boldsymbol{w},\boldsymbol{p})$はトレーニング可能なパラメータである。
我々は、$\boldsymbol{p}$ あるいは $\boldsymbol{W}$ の勾配勾配が、最適でないものから $\textit{locally-optimal}$ トークンを分離する最大マルジン解に収束することを証明している。
これは注意を最適なトークン選択機構として明確に定式化する。
注目すべきは、我々の結果は一般的なデータに適用でき、$\textit{optimality}$を値埋め込みの$\boldsymbol{Xv}$と問題幾何学で正確に特徴付けることである。
また,非線形予測ヘッドにおいても注意の限界を最大化する広い正規化経路解析を提供する。
ロジスティック損失とともに$\boldsymbol{v}$と$\boldsymbol{p}$を最適化するとき、正規化パスがそれぞれのハードマージンSVMソリューションに方向収束する条件を特定し、$\boldsymbol{v}$はラベルに基づいて入力特徴を分離する。
興味深いことに、$\boldsymbol{p}$のsvm定式化は$\boldsymbol{v}$のサポートベクトル幾何に影響されている。
最後に, 数値実験により理論的知見を検証し, 洞察を与える。 Attention mechanism is a central component of the transformer architecture which led to the phenomenal success of large language models. However, the theoretical principles underlying the attention mechanism are poorly understood, especially its nonconvex optimization dynamics. In this work, we explore the seminal softmax-attention model $f(\boldsymbol{X})=\langle \boldsymbol{Xv}, \texttt{softmax}(\boldsymbol{XWp})\rangle$, where $\boldsymbol{X}$ is the token sequence and $(\boldsymbol{v},\boldsymbol{W},\boldsymbol{p})$ are trainable parameters. We prove that running gradient descent on $\boldsymbol{p}$, or equivalently $\boldsymbol{W}$, converges in direction to a max-margin solution that separates $\textit{locally-optimal}$ tokens from non-optimal ones. This clearly formalizes attention as an optimal token selection mechanism. Remarkably, our results are applicable to general data and precisely characterize $\textit{optimality}$ of tokens in terms of the value embeddings $\boldsymbol{Xv}$ and problem geometry. We also provide a broader regularization path analysis that establishes the margin maximizing nature of attention even for nonlinear prediction heads. When optimizing $\boldsymbol{v}$ and $\boldsymbol{p}$ simultaneously with logistic loss, we identify conditions under which the regularization paths directionally converge to their respective hard-margin SVM solutions where $\boldsymbol{v}$ separates the input features based on their labels. Interestingly, the SVM formulation of $\boldsymbol{p}$ is influenced by the support vector geometry of $\boldsymbol{v}$. Finally, we verify our theoretical findings via numerical experiments and provide insights. | 翻訳日:2023-06-28 10:17:20 公開日:2023-06-27 |
# 半透過的最大度推定による学習記述型画像キャプション Learning Descriptive Image Captioning via Semipermeable Maximum Likelihood Estimation ( http://arxiv.org/abs/2306.13460v2 ) ライセンス: Link先を確認 | Zihao Yue, Anwen Hu, Liang Zhang, Qin Jin | (参考訳) 画像キャプションは自然言語で視覚的なコンテンツを記述することを目的としている。
「絵は千語の価値ある」ため、画像には様々な正しい記述がある可能性がある。
しかし、最大確率推定を訓練対象とし、その予測がラベルとミスマッチするたびに、キャプションモデルにペナルティが課される。
例えば、ラベルよりもリッチなセマンティクスを表現する単語を予測する場合、簡潔さ最適化と呼ばれるより簡潔な表現を好むようにペナル化され最適化される。
対照的に、ラベルよりも簡潔な予測はリッチネス最適化につながる。
このような矛盾する最適化方向は、最終的にモデルが一般的な記述を生成することになる。
本研究では,簡潔さの最適化をブロックしながらリッチネスの最適化を可能にする半透過最大推定法(smile)を導入することで,より詳細なキャプションを生成することができる。
MSCOCOとFlickr30Kの2つの主流画像キャプションデータセットに対する大規模な実験により、SMILEは生成されたキャプションの記述性を著しく向上することが示された。
SMILEの動作をより深く理解するための詳細な調査も行っている。 Image captioning aims to describe visual content in natural language. As 'a picture is worth a thousand words', there could be various correct descriptions for an image. However, with maximum likelihood estimation as the training objective, the captioning model is penalized whenever its prediction mismatches with the label. For instance, when the model predicts a word expressing richer semantics than the label, it will be penalized and optimized to prefer more concise expressions, referred to as conciseness optimization. In contrast, predictions that are more concise than labels lead to richness optimization. Such conflicting optimization directions could eventually result in the model generating general descriptions. In this work, we introduce Semipermeable MaxImum Likelihood Estimation (SMILE), which allows richness optimization while blocking conciseness optimization, thus encouraging the model to generate longer captions with more details. Extensive experiments on two mainstream image captioning datasets MSCOCO and Flickr30K demonstrate that SMILE significantly enhances the descriptiveness of generated captions. We further provide in-depth investigations to facilitate a better understanding of how SMILE works. | 翻訳日:2023-06-28 10:16:39 公開日:2023-06-27 |
# 軌道サンプリングによるニューラルネットワークアンサンブルのミニバッチトレーニング Minibatch training of neural network ensembles via trajectory sampling ( http://arxiv.org/abs/2306.13442v2 ) ライセンス: Link先を確認 | Jamie F. Mair, Luke Causer, Juan P. Garrahan | (参考訳) ほとんどの反復型ニューラルネットワークトレーニング手法では、データの小さなランダムなサブセット(あるいはミニバッチ)に対する損失関数の見積を使用してパラメータを更新することで、トレーニングデータセットの(非常に大きな)サイズからトレーニング時間を分離する。
本稿では,軌道法を用いてニューラルネットワークアンサンブル(nnes)を高度に効率的に学習するために,ミニバッチアプローチが有効であることを示す。
MNISTデータセット内の画像を分類するためにNNEを訓練することで、このアプローチを説明する。
この方法では、トレーニング時間を改善し、データセットのサイズと平均的なミニバッチサイズの比率としてスケールすることが可能であり、mnistの場合、典型的には2桁の数値改善を与える。
NNEの表現に長い軌跡を用いることの利点は、推論精度の向上と、ミニバッチ更新に必要なサンプルの更新コストの削減である。 Most iterative neural network training methods use estimates of the loss function over small random subsets (or minibatches) of the data to update the parameters, which aid in decoupling the training time from the (often very large) size of the training datasets. Here, we show that a minibatch approach can also be used to train neural network ensembles (NNEs) via trajectory methods in a highly efficient manner. We illustrate this approach by training NNEs to classify images in the MNIST datasets. This method gives an improvement to the training times, allowing it to scale as the ratio of the size of the dataset to that of the average minibatch size which, in the case of MNIST, gives a computational improvement typically of two orders of magnitude. We highlight the advantage of using longer trajectories to represent NNEs, both for improved accuracy in inference and reduced update cost in terms of the samples needed in minibatch updates. | 翻訳日:2023-06-28 10:16:22 公開日:2023-06-27 |
# InterCode: 実行フィードバックによるインタラクティブコーディングの標準化とベンチマーク InterCode: Standardizing and Benchmarking Interactive Coding with Execution Feedback ( http://arxiv.org/abs/2306.14898v2 ) ライセンス: Link先を確認 | John Yang, Akshara Prabhakar, Karthik Narasimhan, Shunyu Yao | (参考訳) 人間は基本的にインタラクティブな方法でコードを書き、エラーを修正し、曖昧さを解決し、タスクを分解するために一定の実行フィードバックに頼る。
LLMは最近、有望なコーディング機能を示したが、現在のコーディングベンチマークは、主に静的命令からコードへのシーケンスのトランスダクションプロセスを検討しており、エラーの伝播や生成されたコードと最終的な実行環境との切り離しが可能である。
このギャップに対処するため、対話型コーディングの軽量でフレキシブルで使いやすいフレームワークであるInterCodeを標準強化学習(RL)環境として導入し、コードをアクションとして、実行フィードバックを観察する。
私たちのフレームワークは言語とプラットフォームに依存しず、自己完結型のDocker環境を使用して安全で再現可能な実行を提供し、従来のseq2seqコーディングメソッドと互換性があり、インタラクティブなコード生成のための新しいメソッドの開発を可能にします。
私たちはInterCodeを使って、静的スパイダーとNL2Bashデータセットのデータを活用して、BashとSQLをアクションスペースとして2つのインタラクティブなコード環境を作成しています。
我々は、ReActやPlan & Solveといった様々なプロンプト戦略で構成された複数の最先端LLMを評価することで、InterCodeの生存性をテストベッドとして示す。
その結果,インタラクティブなコード生成の利点が示され,コード理解と生成能力向上のための難解なベンチマークとしてインターコードの利用が期待できることを示した。
intercodeは簡単に拡張できるように設計されているが、capture the flagのような新しいタスクを組み込むこともできる。
コードとデータを持つプロジェクトサイト: https://intercode-benchmark.github.io Humans write code in a fundamentally interactive manner and rely on constant execution feedback to correct errors, resolve ambiguities, and decompose tasks. While LLMs have recently exhibited promising coding capabilities, current coding benchmarks mostly consider a static instruction-to-code sequence transduction process, which has the potential for error propagation and a disconnect between the generated code and its final execution environment. To address this gap, we introduce InterCode, a lightweight, flexible, and easy-to-use framework of interactive coding as a standard reinforcement learning (RL) environment, with code as actions and execution feedback as observations. Our framework is language and platform agnostic, uses self-contained Docker environments to provide safe and reproducible execution, and is compatible out-of-the-box with traditional seq2seq coding methods, while enabling the development of new methods for interactive code generation. We use InterCode to create two interactive code environments with Bash and SQL as action spaces, leveraging data from the static Spider and NL2Bash datasets. We demonstrate InterCode's viability as a testbed by evaluating multiple state-of-the-art LLMs configured with different prompting strategies such as ReAct and Plan & Solve. Our results showcase the benefits of interactive code generation and demonstrate that InterCode can serve as a challenging benchmark for advancing code understanding and generation capabilities. InterCode is designed to be easily extensible and can even be used to incorporate new tasks such as Capture the Flag, a popular coding puzzle that is inherently multi-step and involves multiple programming languages. Project site with code and data: https://intercode-benchmark.github.io | 翻訳日:2023-06-28 10:10:39 公開日:2023-06-27 |
# メタポピュレーショングラフニューラルネットワーク:ヒト運動を用いた深部メタポピュレーションエピデミックモデリング Metapopulation Graph Neural Networks: Deep Metapopulation Epidemic Modeling with Human Mobility ( http://arxiv.org/abs/2306.14857v2 ) ライセンス: Link先を確認 | Qi Cao, Renhe Jiang, Chuang Yang, Zipei Fan, Xuan Song, Ryosuke Shibasaki | (参考訳) 流行予測は疫病対策と予防の基本的な課題である。
多くの力学モデルとディープラーニングモデルがこのタスクのために構築されている。
しかし、ほとんどの機械モデルでは時間/地域変動の疫学パラメータの推定が困難であるが、深層学習モデルは疫学領域知識の指導や予測結果の解釈可能性に欠ける。
本研究では,グラフニューラルネットワーク(GNN)とグラフ学習機構をメタポピュレーションSIRモデルに組み込んだ多段階多地点流行予測のためのMepoGNNというハイブリッドモデルを提案する。
本モデルでは, 診断された症例数だけでなく, 不均一なデータから疫学的パラメータや流行伝播グラフをエンド・ツー・エンドで明示的に学習する。
日本における多ソース流行関連データと移動データを収集処理し,実験用データセットを作成する。
実験により,我々のモデルは,既存の力学モデルやディープラーニングモデルよりも大きなマージンで優れていることを示した。
さらに, 学習パラメータの解析により, モデルの信頼性と解釈性が向上し, 感染拡大の理解を深めることができた。
さらに,不利用可能なモビリティデータの問題に対処するモビリティ生成手法を提案し,本モデルに対する入力として生成されたモビリティデータの有効性を実験的に示す。 Epidemic prediction is a fundamental task for epidemic control and prevention. Many mechanistic models and deep learning models are built for this task. However, most mechanistic models have difficulty estimating the time/region-varying epidemiological parameters, while most deep learning models lack the guidance of epidemiological domain knowledge and interpretability of prediction results. In this study, we propose a novel hybrid model called MepoGNN for multi-step multi-region epidemic forecasting by incorporating Graph Neural Networks (GNNs) and graph learning mechanisms into Metapopulation SIR model. Our model can not only predict the number of confirmed cases but also explicitly learn the epidemiological parameters and the underlying epidemic propagation graph from heterogeneous data in an end-to-end manner. The multi-source epidemic-related data and mobility data of Japan are collected and processed to form the dataset for experiments. The experimental results demonstrate our model outperforms the existing mechanistic models and deep learning models by a large margin. Furthermore, the analysis on the learned parameters illustrate the high reliability and interpretability of our model and helps better understanding of epidemic spread. In addition, a mobility generation method is presented to address the issue of unavailable mobility data, and the experimental results demonstrate effectiveness of the generated mobility data as an input to our model. | 翻訳日:2023-06-28 10:10:09 公開日:2023-06-27 |
# 熱処理と断熱にショートカットを施した量子オットーエンジン A Quantum Otto Engine with Shortcuts to Thermalization and Adiabaticity ( http://arxiv.org/abs/2306.14847v2 ) ライセンス: Link先を確認 | Ali Pedram, Serhat C. Kad{\i}o\u{g}lu, Alkan Kabak\c{c}{\i}o\u{g}lu, \"Ozg\"ur E. M\"ustecapl{\i}o\u{g}lu | (参考訳) 我々は, 量子調和振動子オットーエンジンを, 短絡(パワーストローク, 圧縮ストローク)と平衡(ホットアイソコール)に, 反断熱駆動(CD)により加速させるエネルギー的優位性について検討した。
各種プロトコルとCD駆動との比較により, 運転コストを考慮した場合においても, 双方のショートカットを適用すれば, パワーと効率が向上することがわかった。
ハイブリッドプロトコルはリミットサイクルにおいてその優位性を保持するだけでなく、未制御の有限時間オットーサイクルが失敗するパラメータレジームにおけるエンジン機能(すなわち正の出力)を回復する。
サイクルの3ストロークの制御は,2つのアディバティックストロークの制御に比べ,パフォーマンス指標の全体的な改善につながることを示す。
さらに, エンジンのリミットサイクル挙動を数値的に計算し, この動作モードでは, イソコリックおよび断熱ストロークを加速したエンジンが優れた出力を示すことを示す。 We investigate the energetic advantage of accelerating a quantum harmonic oscillator Otto engine by use of shortcuts to adiabaticity (for the power and compression strokes) and to equilibrium (for the hot isochore), by means of counter-diabatic (CD) driving. By comparing various protocols with and without CD driving, we find that, applying both type of shortcuts leads to enhanced power and efficiency even after the driving costs are taken into account. The hybrid protocol not only retains its advantage in the limit cycle, but also recovers engine functionality (i.e., a positive power output) in parameter regimes where an uncontrolled, finite-time Otto cycle fails. We show that controlling three strokes of the cycle leads to an overall improvement of the performance metrics compared with controlling only the two adiabatic strokes. Moreover, we numerically calculate the limit cycle behavior of the engine and show that the engines with accelerated isochoric and adiabatic strokes display a superior power output in this mode of operation. | 翻訳日:2023-06-28 10:09:45 公開日:2023-06-27 |
# kosmos-2: マルチモーダル大規模言語モデルの世界への接地 Kosmos-2: Grounding Multimodal Large Language Models to the World ( http://arxiv.org/abs/2306.14824v2 ) ライセンス: Link先を確認 | Zhiliang Peng, Wenhui Wang, Li Dong, Yaru Hao, Shaohan Huang, Shuming Ma, Furu Wei | (参考訳) マルチモーダル大言語モデル(MLLM)であるKosmos-2を導入し,オブジェクト記述(バウンディングボックスなど)の認識と,視覚の世界へのテキストの接地を可能にする。
具体的には、オブジェクト記述が位置トークンのシーケンスである``[text span](bounding box)''のリンクとして参照表現を表現する。
マルチモーダルコーパスとともに、グラウンドドイメージテキストペア(GrIT)の大規模データを構築し、モデルを訓練する。
MLLMの既存の機能(例えば、一般的なモダリティの知覚、命令の追従、テキスト内学習の実行など)に加えて、Kosmos-2はダウンストリームアプリケーションにグラウンド機能を統合する。
我々はKosmos-2を幅広いタスクで評価する。
(i)表現の理解や句の接頭辞など多様接頭辞
(ii)表現生成の参照等の多元的参照
(iii)知覚言語課題、及び
(4)言語理解と生成。
本研究は、具体化aiの開発の基礎を整理し、人工知能への重要な一歩である言語、マルチモーダル知覚、行動、世界モデリングの大規模な収束に光を当てる。
データ、デモ、事前訓練されたモデルはhttps://aka.ms/kosmos-2.comで入手できる。 We introduce Kosmos-2, a Multimodal Large Language Model (MLLM), enabling new capabilities of perceiving object descriptions (e.g., bounding boxes) and grounding text to the visual world. Specifically, we represent refer expressions as links in Markdown, i.e., ``[text span](bounding boxes)'', where object descriptions are sequences of location tokens. Together with multimodal corpora, we construct large-scale data of grounded image-text pairs (called GrIT) to train the model. In addition to the existing capabilities of MLLMs (e.g., perceiving general modalities, following instructions, and performing in-context learning), Kosmos-2 integrates the grounding capability into downstream applications. We evaluate Kosmos-2 on a wide range of tasks, including (i) multimodal grounding, such as referring expression comprehension, and phrase grounding, (ii) multimodal referring, such as referring expression generation, (iii) perception-language tasks, and (iv) language understanding and generation. This work lays out the foundation for the development of Embodiment AI and sheds light on the big convergence of language, multimodal perception, action, and world modeling, which is a key step toward artificial general intelligence. Data, demo, and pretrained models are available at https://aka.ms/kosmos-2. | 翻訳日:2023-06-28 10:09:23 公開日:2023-06-27 |
# PMaF: 主要なマトリックス機能のための深い宣言層 PMaF: Deep Declarative Layers for Principal Matrix Features ( http://arxiv.org/abs/2306.14759v2 ) ライセンス: Link先を確認 | Zhiwei Xu, Hao Wang, Yanbin Liu, Stephen Gould | (参考訳) 主行列特徴(PMaF)を学習するために、球面上の最小二乗(LESS)と暗示固有分解(IED)の2つの微分可能な深い宣言層を探索する。
これは、高次元行列から支配的な情報を含む低次元ベクトルでデータ特徴を表現するのに用いられる。
まず、前方通過における反復最適化の問題を解き、二段階最適化フレームワークの下で暗黙の勾配を求める解をバックプロパゲートする。
特に,LESSの前方通過効率を向上させるために,バックトラックライン探索法とタンジェント空間における降下崩壊を用いた適応降下ステップについて検討した。
一方、悪用されたデータ構造は、LESSとIEDの後方通過における計算複雑性を大幅に低減するために使用される。
実験では, 解の最適性と計算要件を比較することにより, 既定ベースラインよりも上層部が優れていることを示す。 We explore two differentiable deep declarative layers, namely least squares on sphere (LESS) and implicit eigen decomposition (IED), for learning the principal matrix features (PMaF). This can be used to represent data features with a low-dimension vector containing dominant information from a high-dimension matrix. We first solve the problems with iterative optimization in the forward pass and then backpropagate the solution for implicit gradients under a bi-level optimization framework. Particularly, adaptive descent steps with the backtracking line search method and descent decay in the tangent space are studied to improve the forward pass efficiency of LESS. Meanwhile, exploited data structures are used to greatly reduce the computational complexity in the backward pass of LESS and IED. Empirically, we demonstrate the superiority of our layers over the off-the-shelf baselines by comparing the solution optimality and computational requirements. | 翻訳日:2023-06-28 10:09:01 公開日:2023-06-27 |
# 夜間深度知覚のための学習可能ディファレンスセンター Learnable Differencing Center for Nighttime Depth Perception ( http://arxiv.org/abs/2306.14538v2 ) ライセンス: Link先を確認 | Zhiqiang Yan and Yupeng Zheng and Kun Wang and Xiang Li and Zhenyu Zhang and Shuo Chen and Jun Li and Jian Yang | (参考訳) 深度完了は、通常カラー画像の助けを借りて、スパースマップから深度マップを復元する作業である。
既存の画像誘導方式は、昼間の深度知覚自動運転ベンチマークではよく機能するが、夜間のシナリオでは視界が悪く、複雑な照明が難しい。
これらの課題に対処するために, LDCNet というシンプルなフレームワークを提案する。
我々のキーとなる考え方は、リカレント・インターコンボリューション・ディフレクション(RICD)とイルミネーション・アフィニティブ・イントラコンボリューション・ディフレクション(IAICD)を使用して、夜間のカラー画像を強化し、様々な照明の負の効果を低減することである。
RICDは、異なるカーネルと異なる2つのコンボリューションを区別して、大カーネルコンボリューション機能の中心として扱うことで、グローバル照明を明示的に推定する。
IAICDは、隣接する画素とRICDの推定照明マップに基づいて、中心を動的に集約する単一の畳み込みを区別することにより、局所的な相対光強度をソフトに緩和する。
夜間の深度推定と深度推定の両課題において, LDCNetの有効性を実証し, 最先端技術に到達した。 Depth completion is the task of recovering dense depth maps from sparse ones, usually with the help of color images. Existing image-guided methods perform well on daytime depth perception self-driving benchmarks, but struggle in nighttime scenarios with poor visibility and complex illumination. To address these challenges, we propose a simple yet effective framework called LDCNet. Our key idea is to use Recurrent Inter-Convolution Differencing (RICD) and Illumination-Affinitive Intra-Convolution Differencing (IAICD) to enhance the nighttime color images and reduce the negative effects of the varying illumination, respectively. RICD explicitly estimates global illumination by differencing two convolutions with different kernels, treating the small-kernel-convolution feature as the center of the large-kernel-convolution feature in a new perspective. IAICD softly alleviates local relative light intensity by differencing a single convolution, where the center is dynamically aggregated based on neighboring pixels and the estimated illumination map in RICD. On both nighttime depth completion and depth estimation tasks, extensive experiments demonstrate the effectiveness of our LDCNet, reaching the state of the art. | 翻訳日:2023-06-28 10:08:44 公開日:2023-06-27 |
# 形式的感性機械翻訳のためのデータ駆動型アプローチ:言語特化処理と合成データ生成 Data-Driven Approach for Formality-Sensitive Machine Translation: Language-Specific Handling and Synthetic Data Generation ( http://arxiv.org/abs/2306.14514v2 ) ライセンス: Link先を確認 | Seugnjun Lee, Hyeonseok Moon, Chanjun Park, Heuiseok Lim | (参考訳) 本稿では,4つの対象言語の固有言語特性に対応する形式性感応機械翻訳(fsmt)のためのデータ駆動手法を提案する。
私たちの方法論は2つの戦略に集中しています
1)言語固有のデータ処理、および
2)大規模言語モデルと経験的プロンプト工学を用いた合成データ生成
このアプローチはベースラインを大きく改善し、データ中心の技術の有効性を強調している。
提案手法は, 優れた合成翻訳例を作成することにより, 性能をさらに向上させる。 In this paper, we introduce a data-driven approach for Formality-Sensitive Machine Translation (FSMT) that caters to the unique linguistic properties of four target languages. Our methodology centers on two core strategies: 1) language-specific data handling, and 2) synthetic data generation using large-scale language models and empirical prompt engineering. This approach demonstrates a considerable improvement over the baseline, highlighting the effectiveness of data-centric techniques. Our prompt engineering strategy further improves performance by producing superior synthetic translation examples. | 翻訳日:2023-06-28 10:08:20 公開日:2023-06-27 |
# 適応性制約下における逐次意思決定の一般的な枠組み A General Framework for Sequential Decision-Making under Adaptivity Constraints ( http://arxiv.org/abs/2306.14468v2 ) ライセンス: Link先を確認 | Nuoya Xiong, Zhaoran Wang, Zhuoran Yang | (参考訳) 適応性制約(まれなポリシースイッチ)とバッチ学習(バッチ学習)という2つの制約の下で、一般的なシーケンシャルな意思決定を研究するための第一歩を踏み出します。
まず,多種多様な強化学習クラスを含むeluder条件クラスと呼ばれる一般クラスを提供する。
そして、まれなポリシースイッチの制約に対して、EC クラスで $\widetilde{\mathcal{O}}(\log K) $ switch cost を $\widetilde{\mathcal{O}}(\sqrt{K})$ regret で達成するための一般的なアルゴリズムを提供する。
バッチ学習制約に対しては、バッチ数$bで$\widetilde{\mathcal{o}}(\sqrt{k}+k/b)$ regretを提供するアルゴリズムを提供する。
$ This paper is the first work considering rare policy switch and batch learning under general function classes, which covers nearly all the models studied in the previous works such as tabular MDP (Bai et al. 2019; Zhang et al. 2020), linear MDP (Wang et al. 2021; Gao et al. 2021), low eluder dimension MDP (Kong et al. 2021; Gao et al. 2021), generalized linear function approximation (Qiao et al. 2023), and also some new classes such as the low $D_\Delta$-type Bellman eluder dimension problem, linear mixture MDP, kernelized nonlinear regulator and undercomplete partially observed Markov decision process (POMDP). We take the first step in studying general sequential decision-making under two adaptivity constraints: rare policy switch and batch learning. First, we provide a general class called the Eluder Condition class, which includes a wide range of reinforcement learning classes. Then, for the rare policy switch constraint, we provide a generic algorithm to achieve a $\widetilde{\mathcal{O}}(\log K) $ switching cost with a $\widetilde{\mathcal{O}}(\sqrt{K})$ regret on the EC class. For the batch learning constraint, we provide an algorithm that provides a $\widetilde{\mathcal{O}}(\sqrt{K}+K/B)$ regret with the number of batches $B.$ This paper is the first work considering rare policy switch and batch learning under general function classes, which covers nearly all the models studied in the previous works such as tabular MDP (Bai et al. 2019; Zhang et al. 2020), linear MDP (Wang et al. 2021; Gao et al. 2021), low eluder dimension MDP (Kong et al. 2021; Gao et al. 2021), generalized linear function approximation (Qiao et al. 2023), and also some new classes such as the low $D_\Delta$-type Bellman eluder dimension problem, linear mixture MDP, kernelized nonlinear regulator and undercomplete partially observed Markov decision process (POMDP). | 翻訳日:2023-06-28 10:08:12 公開日:2023-06-27 |
# DragDiffusion:インタラクティブなポイントベース画像編集のための拡散モデル DragDiffusion: Harnessing Diffusion Models for Interactive Point-based Image Editing ( http://arxiv.org/abs/2306.14435v2 ) ライセンス: Link先を確認 | Yujun Shi, Chuhui Xue, Jiachun Pan, Wenqing Zhang, Vincent Y. F. Tan, Song Bai | (参考訳) 正確かつ制御可能な画像編集は、大きな注目を集めている課題である。
近年、DragGANはインタラクティブな点ベース画像編集フレームワークを提供し、画素レベルの精度で印象的な編集結果を実現する。
しかし, この手法はGAN(Generative Adversarial Network)に基づくため, 事前学習したGANモデルの容量により, 一般性は上界となる。
本研究では,このようなフレームワークを拡散モデルに拡張し,DragDiffusionを提案する。
大規模事前学習された拡散モデルを利用することにより,実世界シナリオにおける対話型ポイントベース編集の適用性が大幅に向上する。
既存の拡散ベースの画像編集手法はテキスト埋め込みで動作するが、dragdiffusionは拡散潜時を最適化して正確な空間制御を実現する。
拡散モデルは反復的に画像を生成するが、一つのステップで拡散遅延を最適化すればコヒーレントな結果が得られ、DragDiffusionが効率よく高品質な編集を完了できることを実証的に示す。
幅広い挑戦的なケース(マルチオブジェクト、多様なオブジェクトカテゴリ、様々なスタイルなど)にわたる広範な実験は、dragdiffusionの汎用性と汎用性を示している。 Precise and controllable image editing is a challenging task that has attracted significant attention. Recently, DragGAN enables an interactive point-based image editing framework and achieves impressive editing results with pixel-level precision. However, since this method is based on generative adversarial networks (GAN), its generality is upper-bounded by the capacity of the pre-trained GAN models. In this work, we extend such an editing framework to diffusion models and propose DragDiffusion. By leveraging large-scale pretrained diffusion models, we greatly improve the applicability of interactive point-based editing in real world scenarios. While most existing diffusion-based image editing methods work on text embeddings, DragDiffusion optimizes the diffusion latent to achieve precise spatial control. Although diffusion models generate images in an iterative manner, we empirically show that optimizing diffusion latent at one single step suffices to generate coherent results, enabling DragDiffusion to complete high-quality editing efficiently. Extensive experiments across a wide range of challenging cases (e.g., multi-objects, diverse object categories, various styles, etc.) demonstrate the versatility and generality of DragDiffusion. | 翻訳日:2023-06-28 10:07:43 公開日:2023-06-27 |
# 低リソース言語のための弱教師付きシーンテキスト生成 Weakly Supervised Scene Text Generation for Low-resource Languages ( http://arxiv.org/abs/2306.14269v2 ) ライセンス: Link先を確認 | Yangchen Xie, Xinyuan Chen, Hongjian Zhan, Palaiahankote Shivakum, Bing Yin, Cong Liu, Yue Lu | (参考訳) シーンテキスト認識モデルのトレーニングには,多数の注釈付きトレーニング画像が不可欠である。
しかし、十分なデータセットの収集は、特に低リソース言語において、労働集約的でコストのかかるプロセスになり得る。
この課題に対処するため、テキストデータの自動生成は問題を緩和する可能性を示している。
残念ながら、既存のシーンテキスト生成手法は、典型的には大量のペアデータに依存しており、低リソース言語では入手が困難である。
本稿では,いくつかの認識レベルラベルを弱い監督として利用する,新しい弱教師付きシーンテキスト生成手法を提案する。
提案手法では,多彩な背景やフォントスタイルを持つシーンテキストを言語横断生成により大量生成することができる。
本手法では,テキスト情報を表す前者,フォント,アライメント,背景などの特徴を表す後者と,シーンテキスト画像の内容とスタイルの特徴を区別する。
生成された画像の完全なコンテンツ構造を維持するため,注意モジュールを統合的に導入する。
さらに、異なる言語スタイルのスタイルギャップをブリッジするために、事前学習されたフォント分類器を組み込む。
本手法は最先端のテキスト認識モデルを用いて評価する。
実験により,生成したシーンテキストがシーン認識精度を大幅に向上し,他の生成手法を補完する場合の精度向上に寄与することを示した。 A large number of annotated training images is crucial for training successful scene text recognition models. However, collecting sufficient datasets can be a labor-intensive and costly process, particularly for low-resource languages. To address this challenge, auto-generating text data has shown promise in alleviating the problem. Unfortunately, existing scene text generation methods typically rely on a large amount of paired data, which is difficult to obtain for low-resource languages. In this paper, we propose a novel weakly supervised scene text generation method that leverages a few recognition-level labels as weak supervision. The proposed method is able to generate a large amount of scene text images with diverse backgrounds and font styles through cross-language generation. Our method disentangles the content and style features of scene text images, with the former representing textual information and the latter representing characteristics such as font, alignment, and background. To preserve the complete content structure of generated images, we introduce an integrated attention module. Furthermore, to bridge the style gap in the style of different languages, we incorporate a pre-trained font classifier. We evaluate our method using state-of-the-art scene text recognition models. Experiments demonstrate that our generated scene text significantly improves the scene text recognition accuracy and help achieve higher accuracy when complemented with other generative methods. | 翻訳日:2023-06-28 10:07:23 公開日:2023-06-27 |