このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230530となっている論文です。

PDF登録状況(公開日: 20230530)

TitleAuthorsAbstract論文公表日・翻訳日
# モバイルアプリのユーザ駆動機能削除

User Driven Functionality Deletion for Mobile Apps ( http://arxiv.org/abs/2305.19384v1 )

ライセンス: Link先を確認
Maleknaz Nayebi, Konstantin Kuznetsov, Andreas Zeller, Guenther Ruhe(参考訳) 機能を増やしてソフトウェアを進化させるのは理解が難しく、使うのが難しくなります。 ソフトウェアリリース計画は、これらの追加を計画することに関心がある。 さらに、サイズが大きくなるソフトウェアはメンテナンスにより多くの労力を要する。 モバイルアプリの分野では、過剰な機能が使いやすさ、保守性、リソース消費に簡単に影響を与えます。 したがって,モバイルアプリに継続的成長の法則が適用される範囲を理解することは重要である。 以前の研究では、機能の削除は一般的であり、ユーザーレビューによって引き起こされることがある。 しかし、これらの削除がアプリユーザーに見えているか、重要かどうかは不明だ。 本研究では,297人のモバイルアプリユーザを対象に,機能削除の意義について調査を行った。 その結果、大部分のユーザーにとって、機能の削除はネガティブな感情や使用状況の変化に対応していることがわかった。 これらの予備的な結果により、ユーザレビューを入力し、アプリのユーザインタフェース(UI)から何らかの機能を削除すべきかどうかを推奨するRADIATIONを提案する。 歴史的データを用いて放射線評価を行い,開発者の意見を調査する。 ランダムに選択された115のアプリから190,062件のレビューを分析した結果,radiationでは,平均f-scoreが74%で機能削除を推奨できることが分かった。

Evolving software with an increasing number of features is harder to understand and thus harder to use. Software release planning has been concerned with planning these additions. Moreover, software of increasing size takes more effort to be maintained. In the domain of mobile apps, too much functionality can easily impact usability, maintainability, and resource consumption. Hence, it is important to understand the extent to which the law of continuous growth applies to mobile apps. Previous work showed that the deletion of functionality is common and sometimes driven by user reviews. However, it is not known if these deletions are visible or important to the app users. In this study, we performed a survey study with 297 mobile app users to understand the significance of functionality deletion for them. Our results showed that for the majority of users, the deletion of features corresponds with negative sentiments and change in usage and even churn. Motivated by these preliminary results, we propose RADIATION to input user reviews and recommend if any functionality should be deleted from an app's User Interface (UI). We evaluate RADIATION using historical data and surveying developers' opinions. From the analysis of 190,062 reviews from 115 randomly selected apps, we show that RADIATION can recommend functionality deletion with an average F-Score of 74% and if sufficiently many negative user reviews suggest so.
翻訳日:2023-10-24 05:05:45 公開日:2023-05-30
# 正当性維持保証下の統合プロセスの責任構成と最適化

Responsible Composition and Optimization of Integration Processes under Correctness Preserving Guarantees ( http://arxiv.org/abs/2305.19196v1 )

ライセンス: Link先を確認
Daniel Ritter, Fredrik Nordvall Forsberg, Stefanie Rinderle-Ma(参考訳) エンタープライズアプリケーション統合は異種アプリケーション接続の問題を扱うもので、現在のオンプレミス、クラウド、デバイス統合シナリオの中心的な要素である。 統合シナリオでは、プロセスへのパターンの構造化と統合プロセスの改善が重要です。 そこで我々は,それらの特徴に基づいて統合パターンの構成を定式化し,モデル複雑性の低減に役立つ最適化戦略を記述し,設計時の手法を用いてプロセス実行効率を向上する。 時間付きdb-nets - ペトリネットの改良 - を形式化することで、制御とデータフロー、トランザクションデータストレージ、補償と例外処理、そして再帰的なソリューションに存在する時間的側面といった統合ロジック機能を別々の統合パターンとしてモデル化します。 次に、グラフ書き換えによる最適化戦略の実現を提案し、構造的および機能的正当性の両方を考慮に入れた最適化を実証する。 900以上の統合プロセスを含む実世界のパターン合成カタログの改善を評価し,これら2つのプロセスに基づくケーススタディにおける正しさ特性について述べる。

Enterprise Application Integration deals with the problem of connecting heterogeneous applications, and is the centerpiece of current on-premise, cloud and device integration scenarios. For integration scenarios, structurally correct composition of patterns into processes and improvements of integration processes are crucial. In order to achieve this, we formalize compositions of integration patterns based on their characteristics, and describe optimization strategies that help to reduce the model complexity, and improve the process execution efficiency using design time techniques. Using the formalism of timed DB-nets - a refinement of Petri nets - we model integration logic features such as control- and data flow, transactional data storage, compensation and exception handling, and time aspects that are present in reoccurring solutions as separate integration patterns. We then propose a realization of optimization strategies using graph rewriting, and prove that the optimizations we consider preserve both structural and functional correctness. We evaluate the improvements on a real-world catalog of pattern compositions, containing over 900 integration processes, and illustrate the correctness properties in case studies based on two of these processes.
翻訳日:2023-10-24 05:05:24 公開日:2023-05-30
# マイクロサービスシステムのロバストマルチモーダル故障検出

Robust Multimodal Failure Detection for Microservice Systems ( http://arxiv.org/abs/2305.18985v1 )

ライセンス: Link先を確認
Chenyu Zhao, Minghua Ma, Zhenyu Zhong, Shenglin Zhang, Zhiyuan Tan, Xiao Xiong, LuLu Yu, Jiayi Feng, Yongqian Sun, Yuzhi Zhang, Dan Pei, Qingwei Lin, Dongmei Zhang(参考訳) インスタンス障害がシステム全体に伝播し、システムパフォーマンスが低下する可能性があるため、マイクロサービスシステムでは、インスタンスの積極的な障害検出が極めて不可欠である。 長年にわたり、多くの単一モーダル(メトリクス、ログ、トレース)がデータに基づく異常検出手法として提案されてきた。 しかし,マルチモーダルデータの相関を無視するため,多数の障害を見逃し,多数の誤報を発生させる傾向がある。 本研究では,マイクロサービスシステムにおけるマルチモーダルデータによるインスタンス障害を積極的に検出する,教師なし障害検出手法であるanofusionを提案する。 ヘテロジニアスマルチモーダルデータの相関を学習するためにグラフトランスフォーマーネットワーク(gtn)を適用し、グラフアテンションネットワーク(gat)とゲートリカレントユニット(gru)を統合し、動的にマルチモーダルデータを変更することによって生じる課題に対処する。 2つのデータセットを用いてAnoFusionの性能を評価し,F1スコアの0.857と0.922をそれぞれ達成し,最先端の故障検出手法よりも優れていることを示した。

Proactive failure detection of instances is vitally essential to microservice systems because an instance failure can propagate to the whole system and degrade the system's performance. Over the years, many single-modal (i.e., metrics, logs, or traces) data-based nomaly detection methods have been proposed. However, they tend to miss a large number of failures and generate numerous false alarms because they ignore the correlation of multimodal data. In this work, we propose AnoFusion, an unsupervised failure detection approach, to proactively detect instance failures through multimodal data for microservice systems. It applies a Graph Transformer Network (GTN) to learn the correlation of the heterogeneous multimodal data and integrates a Graph Attention Network (GAT) with Gated Recurrent Unit (GRU) to address the challenges introduced by dynamically changing multimodal data. We evaluate the performance of AnoFusion through two datasets, demonstrating that it achieves the F1-score of 0.857 and 0.922, respectively, outperforming the state-of-the-art failure detection approaches.
翻訳日:2023-10-24 05:05:06 公開日:2023-05-30
# ポケット特異的分子生成とエレーボレーションのための機能群に基づく拡散

Functional-Group-Based Diffusion for Pocket-Specific Molecule Generation and Elaboration ( http://arxiv.org/abs/2306.13769v1 )

ライセンス: Link先を確認
Haitao Lin, Yufei Huang, Haotian Zhang, Lirong Wu, Siyuan Li, Zhiyuan Chen, Stan Z. Li(参考訳) 近年、標的タンパク質のポケットの構造から分子を生成するためにAIによる薬物設計法が提案されている。 その多くは原子レベルに基づく手法であり、原子を基本成分とみなし、原子の位置と型を生成する。 しかし、このように複雑な構造を持つ現実的な断片を生成することは困難である。 そこで本稿では,ポケット特異的分子生成・創製のための関数群に基づく拡散モデルであるd3fgを提案する。 d3fgは分子を2つの構成要素に分解する: 剛体として定義される官能基と質量点としてリンカーである。 そしてこの2種類の成分は、リガンドとタンパク質の相互作用を強化する複雑な断片を形成することができる。 具体的には、拡散過程において、D3FGは、コンポーネントの位置、向き、タイプのデータ分布を事前分布に拡散させ、生成過程において、設計された同変グラフニューラルネットワークでパラメータ化されたデノイザーにより、3変数からノイズを徐々に除去する。 実験では, より現実的な3次元構造, タンパク質標的に対する競合親和性, 薬物特性の良好な分子を生成できる。 さらに、D3FGは分子の発見の新たな課題の解決策として、既存のリガンドと標的タンパク質のホットスポットに基づいて高い親和性を持つ分子を生成することができる。

In recent years, AI-assisted drug design methods have been proposed to generate molecules given the pockets' structures of target proteins. Most of them are atom-level-based methods, which consider atoms as basic components and generate atom positions and types. In this way, however, it is hard to generate realistic fragments with complicated structures. To solve this, we propose D3FG, a functional-group-based diffusion model for pocket-specific molecule generation and elaboration. D3FG decomposes molecules into two categories of components: functional groups defined as rigid bodies and linkers as mass points. And the two kinds of components can together form complicated fragments that enhance ligand-protein interactions. To be specific, in the diffusion process, D3FG diffuses the data distribution of the positions, orientations, and types of the components into a prior distribution; In the generative process, the noise is gradually removed from the three variables by denoisers parameterized with designed equivariant graph neural networks. In the experiments, our method can generate molecules with more realistic 3D structures, competitive affinities toward the protein targets, and better drug properties. Besides, D3FG as a solution to a new task of molecule elaboration, could generate molecules with high affinities based on existing ligands and the hotspots of target proteins.
翻訳日:2023-07-02 13:36:26 公開日:2023-05-30
# 深層学習を用いたダークウェブ活動分類

Dark web activity classification using deep learning ( http://arxiv.org/abs/2306.07980v1 )

ライセンス: Link先を確認
Ali Fayzi(参考訳) 本稿では,ダークウェブ上での違法行為の特定と制御の必要性を強調する。 インターネット上で利用できる情報のわずか4%は通常の検索エンジンからアクセス可能であるが、ディープウェブには、検索エンジンによってインデックス化されていない個人情報やオンラインアカウントを含む大量の情報が含まれている。 ディープウェブのサブセットを構成するダークウェブは、麻薬密売、武器販売、マネーロンダリングなど様々な違法行為の繁殖地として悪名高い。 この背景に対して、著者らは深層学習を利用してダークウェブ上の不正行為に関連する関連画像を特定し抽出する新しい検索エンジンを提案する。 具体的には、ダークウェブ上で違法な活動のタイトルを検出し、.NETのWebサイトから関連する画像を取得する。 オニオン拡張。 筆者らはdarkoobという包括的なデータセットを収集し,提案手法はテストデータセット上で94%の精度を実現する。 全体として、提案する検索エンジンは、ダークウェブ上の不正行為を特定し、制御するための重要な一歩である。 インターネットやコミュニティのセキュリティに貢献することで、この技術はダークウェブ上の違法な活動から生じる幅広い社会的、経済的、政治的課題を軽減する可能性がある。

The present article highlights the pressing need for identifying and controlling illicit activities on the dark web. While only 4% of the information available on the internet is accessible through regular search engines, the deep web contains a plethora of information, including personal data and online accounts, that is not indexed by search engines. The dark web, which constitutes a subset of the deep web, is a notorious breeding ground for various illegal activities, such as drug trafficking, weapon sales, and money laundering. Against this backdrop, the authors propose a novel search engine that leverages deep learning to identify and extract relevant images related to illicit activities on the dark web. Specifically, the system can detect the titles of illegal activities on the dark web and retrieve pertinent images from websites with a .onion extension. The authors have collected a comprehensive dataset named darkoob and the proposed method achieves an accuracy of 94% on the test dataset. Overall, the proposed search engine represents a significant step forward in identifying and controlling illicit activities on the dark web. By contributing to internet and community security, this technology has the potential to mitigate a wide range of social, economic, and political challenges arising from illegal activities on the dark web.
翻訳日:2023-06-18 12:20:41 公開日:2023-05-30
# キーワード検出におけるソーシャルメディア属性の活用--sina weiboに適用したidf-ldaモデル

Utilizing Social Media Attributes for Enhanced Keyword Detection: An IDF-LDA Model Applied to Sina Weibo ( http://arxiv.org/abs/2306.07978v1 )

ライセンス: Link先を確認
Yifei Yue(参考訳) twitterやweiboといったソーシャルメディアの急速な発展に伴い、大量のテキストデータストリームからキーワードをリアルタイムで検出することが重要な問題となっている。 キーワード検出問題は、重要なイベントやトピックを反映した大量のテキストデータから重要な情報を検索することを目的としている。 しかしながら、ソーシャルメディアデータは通常、文書は短く、言語は口語であり、データは重要な時間パターンを持つ可能性が高いというユニークな特徴を持っている。 したがって、これらのテキストストリームから重要な情報を見つけることは困難である。 本稿では,ソーシャルメディアにおけるキーワード検出問題に対処する新しい手法を提案する。 我々のモデルは、逆文書頻度(IDF)と遅延ディリクレ割当(LDA)モデルを組み合わせて、いいね!、コメント、リツイートの回数など、ソーシャルメディアデータの異なる属性に対処する。 これらの属性に基づいて各文書の重要性を重み付けすることにより,時間とともにより代表的キーワードを効果的に検出できる。 weiboデータに関する様々な条件下での包括的な実験により,本手法は,複数の問題設定に対する精度やリコールなど,様々な評価指標のベースラインを上回っていることが示された。

With the rapid development of social media such as Twitter and Weibo, detecting keywords from a huge volume of text data streams in real-time has become a critical problem. The keyword detection problem aims at searching important information from massive text data to reflect the most important events or topics. However, social media data usually has unique features: the documents are usually short, the language is colloquial, and the data is likely to have significant temporal patterns. Therefore, it could be challenging to discover critical information from these text streams. In this paper, we propose a novel method to address the keyword detection problem in social media. Our model combines the Inverse Document Frequency (IDF) and Latent Dirichlet Allocation (LDA) models to better cope with the distinct attributes of social media data, such as the number of likes, comments, and retweets. By weighting the importance of each document based on these attributes, our method can effectively detect more representative keywords over time. Comprehensive experiments conducted under various conditions on Weibo data illustrate that our approach outperforms the baselines in various evaluation metrics, including precision and recall for multiple problem settings.
翻訳日:2023-06-18 12:20:23 公開日:2023-05-30
# ポイントクラウドセグメンテーションのための動的クラスタリングトランスフォーマーネットワーク

Dynamic Clustering Transformer Network for Point Cloud Segmentation ( http://arxiv.org/abs/2306.08073v1 )

ライセンス: Link先を確認
Dening Lu, Jun Zhou, Kyle Yilin Gao, Dilong Li, Jing Du, Linlin Xu, Jonathan Li(参考訳) ポイントクラウドセグメンテーションは、広く科学的、工業的、商業的な用途でコンピュータビジョンにおいて最も重要なタスクの1つである。 この研究は、3dオブジェクトとシーン理解に多くのブレークスルーをもたらした。 従来は階層型アーキテクチャを特徴表現に利用していた。 しかし、階層型ネットワークにおけるサンプリングとグループ化の手法は、ポイントクラスタの局所的意味的均一性を無視した、ポイントワイドな3次元座標のみに基づいている。 さらに、FPS(Farthest Point Sampling)法はしばしば計算ボトルネックとなる。 そこで本稿では,DCTNet(Dynamic Clustering Transformer Network)と呼ばれる新しい3Dポイントクラウド表現ネットワークを提案する。 エンコーダ-デコーダアーキテクチャがあり、ローカルとグローバルの両方の機能学習が可能である。 具体的には,局所的特徴集合に対する局所的意味的同質性をモデルが認識できるように,エンコーダにおける新しい意味的特徴に基づく動的サンプリングおよびクラスタリング手法を提案する。 さらに,デコーダでは,効率的な特徴ガイダンスアップサンプリング手法を提案する。 提案手法は、オブジェクトベースデータセット(ShapeNet)、都市ナビゲーションデータセット(Toronto-3D)、マルチスペクトルLiDARデータセットを用いて評価し、多種多様な実用工学的応用におけるDCTNetの性能を検証した。 DCTNetの推論速度は、ShapeNetデータセット上の既存のState-of-the-Art(SOTA)モデルよりも3.8-16.8$\times$速く、インスタンスワイドのmIoUは8.6\%である。 同様に,本手法は他のデータセットよりも優れており,ポイントクラウドセグメンテーションにおける新しいState-of-the-Artとして検証されている。

Point cloud segmentation is one of the most important tasks in computer vision with widespread scientific, industrial, and commercial applications. The research thereof has resulted in many breakthroughs in 3D object and scene understanding. Previous methods typically utilized hierarchical architectures for feature representation. However, the commonly used sampling and grouping methods in hierarchical networks are only based on point-wise three-dimensional coordinates, ignoring local semantic homogeneity of point clusters. Additionally, the prevalent Farthest Point Sampling (FPS) method is often a computational bottleneck. To address these issues, we propose a novel 3D point cloud representation network, called Dynamic Clustering Transformer Network (DCTNet). It has an encoder-decoder architecture, allowing for both local and global feature learning. Specifically, we propose novel semantic feature-based dynamic sampling and clustering methods in the encoder, which enables the model to be aware of local semantic homogeneity for local feature aggregation. Furthermore, in the decoder, we propose an efficient semantic feature-guided upsampling method. Our method was evaluated on an object-based dataset (ShapeNet), an urban navigation dataset (Toronto-3D), and a multispectral LiDAR dataset, verifying the performance of DCTNet across a wide variety of practical engineering applications. The inference speed of DCTNet is 3.8-16.8$\times$ faster than existing State-of-the-Art (SOTA) models on the ShapeNet dataset, while achieving an instance-wise mIoU of $86.6\%$, the current top score. Our method similarly outperforms previous methods on the other datasets, verifying it as the new State-of-the-Art in point cloud segmentation.
翻訳日:2023-06-18 12:10:35 公開日:2023-05-30
# 多元的複素ハダマール行列

Multi-Unitary Complex Hadamard Matrices ( http://arxiv.org/abs/2306.00999v1 )

ライセンス: Link先を確認
Wojciech Bruzda, Grzegorz Rajchel-Mieldzio\'c, Karol \.Zyczkowski(参考訳) 実および複素アダマール行列の集合を追加の対称性制約で解析する。 特に、次数$N=d^k$の複素アダマール行列の集合にそれぞれ$d$レベルを持つ2k$サブシステムの最大絡み合わされた多部状態の存在の問題を関連付ける。 この目的のために、このような行列の部分集合は、双対で強い双対(h=h^{\rm r}$ または $h=h^{\rm\gamma}$)、2ユニタリ(h^r$ と $h^{\gamma}$ はユニタリ)、または $k$-ユニタリである。 ここで、$x^{\rm r}$ は二成分系を記述する行列 $x$ の再帰を意味し、$x^{\rm \gamma}$ はその部分転置である。 そのような行列は、量子多体理論、テンソルネットワーク、多部量子絡み合いの分類、および1+1$次元で解析的に解ける量子モデルの幅広いクラスにおいていくつかの応用を見出した。

We analyze the set of real and complex Hadamard matrices with additional symmetry constrains. In particular, we link the problem of existence of maximally entangled multipartite states of $2k$ subsystems with $d$ levels each to the set of complex Hadamard matrices of order $N=d^k$. To this end, we investigate possible subsets of such matrices which are, dual, strongly dual ($H=H^{\rm R}$ or $H=H^{\rm\Gamma}$), two-unitary ($H^R$ and $H^{\Gamma}$ are unitary), or $k$-unitary. Here $X^{\rm R}$ denotes reshuffling of a matrix $X$ describing a bipartite system, and $X^{\rm \Gamma}$ its partial transpose. Such matrices find several applications in quantum many-body theory, tensor networks and classification of multipartite quantum entanglement and imply a broad class of analytically solvable quantum models in $1+1$ dimensions.
翻訳日:2023-06-11 14:13:39 公開日:2023-05-30
# ASRトレーニング強化のためのテキスト音声データの選択に向けて

Towards Selection of Text-to-speech Data to Augment ASR Training ( http://arxiv.org/abs/2306.00998v1 )

ライセンス: Link先を確認
Shuo Liu, Leda Sar{\i}, Chunyang Wu, Gil Keren, Yuan Shangguan, Jay Mahadeokar, Ozlem Kalinli(参考訳) 本稿では,自動音声認識(ASR)モデルのための補助訓練データとして,所定の大文字合成音声データセットから適切な合成音声サンプルを選択する方法を提案する。 我々は、交叉エントロピー損失やArcface損失を用いて最適化できるニューラルネットワークを訓練し、合成データの実際の音声との類似性を測定した。 その結果,asr訓練において,実音声とかなりの類似性を持つ合成サンプルを組み込むことが認識性能の向上に不可欠であることがわかった。 Librispeechテストセットの実験結果から,すべてのTSデータを使用する場合と同じ音声認識精度を維持するため,提案手法は,TTSデータのサイズを,複数のベースライン法よりも優れている30,\%$以下に抑えることができることがわかった。

This paper presents a method for selecting appropriate synthetic speech samples from a given large text-to-speech (TTS) dataset as supplementary training data for an automatic speech recognition (ASR) model. We trained a neural network, which can be optimised using cross-entropy loss or Arcface loss, to measure the similarity of a synthetic data to real speech. We found that incorporating synthetic samples with considerable dissimilarity to real speech, owing in part to lexical differences, into ASR training is crucial for boosting recognition performance. Experimental results on Librispeech test sets indicate that, in order to maintain the same speech recognition accuracy as when using all TTS data, our proposed solution can reduce the size of the TTS data down below its $30\,\%$, which is superior to several baseline methods.
翻訳日:2023-06-11 14:13:17 公開日:2023-05-30
# 時間依存schr\"odinger方程式の数値解について

On numerical solutions of the time-dependent Schr\"odinger equation ( http://arxiv.org/abs/2306.00997v1 )

ライセンス: Link先を確認
Wytse van Dijk(参考訳) 我々は、概念的には単純で、精度と効率がかなり高いシュリンガー方程式の数値解を得るための明示的なアプローチをレビューする。 この方法とその効果をいくつかの例で示す。 その明示的な性質から、このアルゴリズムはより多くの空間次元を持つ系に容易に拡張することができる。 本手法は, visscher のスタッガー時間アプローチを一般化し, 波動関数の実部と虚部を別々に正確に計算できることを示す。

We review an explicit approach to obtaining numerical solutions of the Schr\"odinger equation that is conceptionally straightforward and capable of significant accuracy and efficiency. The method and its efficacy are illustrated with several examples. Because of its explicit nature, the algorithm can be readily extended to systems with a higher number of spatial dimensions. We show that the method also generalizes the staggered-time approach of Visscher and allows for the accurate calculation of the real and imaginary parts of the wave function separately.
翻訳日:2023-06-11 14:13:03 公開日:2023-05-30
# 音素レベルモデリングを用いた弱教師付き不規則音声の強制アライメント

Weakly-supervised forced alignment of disfluent speech using phoneme-level modeling ( http://arxiv.org/abs/2306.00996v1 )

ライセンス: Link先を確認
Theodoros Kouzelis, Georgios Paraskevopoulos, Athanasios Katsamanis, Vassilis Katsouros(参考訳) 言語障害の研究は、時間に合わせたデータから大きな利益を得られる。 しかし, 音声テキストによる不一致は, 現代音声コーディネータの急速な性能劣化を引き起こし, 自動的アプローチの妨げとなる。 本研究では,重み付き有限状態変換器を用いたCTCモデルにおけるアライメントグラフ構築の簡易かつ効果的な修正を提案する。 提案手法は, 強制アライメントのための音声不一致の動詞的書き起こしの必要性を軽減する。 グラフ構築中は、共通の発話の相違、すなわち繰り返しや省略のモデル化が可能である。 さらに,Oracle Error Rateを用いて音声テキストのミスマッチの度合いを評価することにより,本手法を野生で有効に活用できることが示唆された。 TIMITテストセットとUCLASSデータセットの劣化バージョンに対する評価は、特にリコールにおいて、ベースラインよりも23-25%の相対的な改善を実現していることを示す。

The study of speech disorders can benefit greatly from time-aligned data. However, audio-text mismatches in disfluent speech cause rapid performance degradation for modern speech aligners, hindering the use of automatic approaches. In this work, we propose a simple and effective modification of alignment graph construction of CTC-based models using Weighted Finite State Transducers. The proposed weakly-supervised approach alleviates the need for verbatim transcription of speech disfluencies for forced alignment. During the graph construction, we allow the modeling of common speech disfluencies, i.e. repetitions and omissions. Further, we show that by assessing the degree of audio-text mismatch through the use of Oracle Error Rate, our method can be effectively used in the wild. Our evaluation on a corrupted version of the TIMIT test set and the UCLASS dataset shows significant improvements, particularly for recall, achieving a 23-25% relative improvement over our baselines.
翻訳日:2023-06-11 14:12:54 公開日:2023-05-30
# 大規模言語モデルを用いた概念設計生成

Conceptual Design Generation Using Large Language Models ( http://arxiv.org/abs/2306.01779v1 )

ライセンス: Link先を確認
Kevin Ma, Daniele Grandi, Christopher McComb, Kosa Goucher-Lambert(参考訳) 概念生成は概念設計フェーズにおける創造的なステップであり、デザイナはドメインに関する自身の知識を補完するために、ブレインストーミング、マインドマッピング、あるいはクラウドソーシングデザインのアイデアに目を向ける。 自然言語処理(NLP)と機械学習(ML)の最近の進歩は、テキストプロンプトから一見創造的な出力を生成することができる大規模言語モデル(LLM)の台頭につながっている。 これらのモデルの成功は、アート、エンターテイメント、その他のクリエイティブな仕事を含む様々な領域の統合と応用につながった。 本稿では,LLMを活用して,12の設計問題に対するソリューションを生成し,それらをクラウドソーシングソリューションのベースラインと比較する。 本稿では,人間のエキスパート評価や計算指標など,複数の視点から生成・クラウドソーシングした設計ソリューションの違いを評価する。 LLM生成ソリューションは,クラウドソースソリューションがより斬新であるのに対して,平均実現可能性と有用性が高いことを示す。 私たちはプロンプトエンジニアリングを試し、少数の学習を活用することで、クラウドソースのソリューションにもっと似たソリューションを生み出すことができることを見出します。 これらの知見は、LLMで生成される設計ソリューションの品質に関する洞察を与え、LLMと相乗的に高品質な設計ソリューションを生成するために、実践者が活用できる迅速な技術技術の評価を始めます。

Concept generation is a creative step in the conceptual design phase, where designers often turn to brainstorming, mindmapping, or crowdsourcing design ideas to complement their own knowledge of the domain. Recent advances in natural language processing (NLP) and machine learning (ML) have led to the rise of Large Language Models (LLMs) capable of generating seemingly creative outputs from textual prompts. The success of these models has led to their integration and application across a variety of domains, including art, entertainment, and other creative work. In this paper, we leverage LLMs to generate solutions for a set of 12 design problems and compare them to a baseline of crowdsourced solutions. We evaluate the differences between generated and crowdsourced design solutions through multiple perspectives, including human expert evaluations and computational metrics. Expert evaluations indicate that the LLM-generated solutions have higher average feasibility and usefulness while the crowdsourced solutions have more novelty. We experiment with prompt engineering and find that leveraging few-shot learning can lead to the generation of solutions that are more similar to the crowdsourced solutions. These findings provide insight into the quality of design solutions generated with LLMs and begins to evaluate prompt engineering techniques that could be leveraged by practitioners to generate higher-quality design solutions synergistically with LLMs.
翻訳日:2023-06-11 13:46:15 公開日:2023-05-30
# 量子意思決定と探索アルゴリズムの統一的情報動的解析:計算知性尺度

Unified Information Dynamic Analysis of Quantum Decision-Making and Search Algorithms: Computational Intelligence Measure ( http://arxiv.org/abs/2306.03233v1 )

ライセンス: Link先を確認
Sergey V. Ulyanov, Fabio Ghisi, Ichiro Kurawaki and Viktor S. Ulyanov(参考訳) 例えば、Fast Fourier Transform (FFT) では、Divide-and-Conquer と Transform-and-Conquer の両方のテクニックを採用している。 本稿では,情報理論の観点から量子アルゴリズム(QA)の進化を考察する。 量子アルゴリズムゲート - qag に入る複素ベクトルは、古典レベルと量子レベルの両方からの情報源と見なされる。 Deutsch-Jozsa, Shor, Groverアルゴリズムにおける古典的および量子的情報フローの解析が用いられる。 入力ベクトルに作用する時、qagは状態の重ね合わせ、量子の絡み合い、干渉に基づき、古典的なシャノンエントロピーと量子フォン・ノイマンエントロピーの間のギャップを最小にし、システム状態に情報を格納する。 シャノンとフォン・ノイマンのエントロピーのギャップを最小化することは、QA計算知能測定の終了基準と見なされている。

There are important algorithms built upon a mixture of basic techniques described; for example, the Fast Fourier Transform (FFT) employs both Divide-and-Conquer and Transform-and-Conquer techniques. In this article, the evolution of a quantum algorithm (QA) is examined from an information theory viewpoint. The complex vector entering the quantum algorithmic gate - QAG is considered as an information source both from the classical and the quantum level. The analysis of the classical and quantum information flow in Deutsch-Jozsa, Shor and Grover algorithms is used. It is shown that QAG, based on superposition of states, quantum entanglement and interference, when acting on the input vector, stores information into the system state, minimizing the gap between classical Shannon entropy and quantum von Neumann entropy. Minimizing of the gap between Shannon and von Neumann entropies is considered as a termination criterion of QA computational intelligence measure.
翻訳日:2023-06-11 13:37:20 公開日:2023-05-30
# 雑草以外の種を見る - 有効利用のためのグリーンチーム生成AI

Seeing Seeds Beyond Weeds: Green Teaming Generative AI for Beneficial Uses ( http://arxiv.org/abs/2306.03097v1 )

ライセンス: Link先を確認
Logan Stapleton, Jordan Taylor, Sarah Fox, Tongshuang Wu, Haiyi Zhu(参考訳) GPTやDALL-Eのような大規模な生成AIモデル(GM)は、一般的な広義の目的のためにコンテンツを生成するように訓練されている。 GMコンテンツフィルタは、ヘイトスピーチなど多くのケースで害のリスクがあるコンテンツをフィルタリングするために一般化される。 しかし、禁止されたコンテンツが必ずしも有害とは限らない。 そのため、GMがコンテンツをフィルタリングすると、有害なものとともに有益なユースケースを防ぎます。 どのユースケースが排除されているかは、GMコンテンツフィルタリングに埋め込まれた値を反映している。 近年, 有害なコンテンツを生成するために, GMコンテントフィルタをバイパスする方法が提案されている。 我々は、GMコンテンツフィルタをバイパスして有益なユースケースを設計する手法を記述するために、グリーンチームという用語を作った。 グリーンチームを紹介します。 1) chatgpt を仮想患者として使用し,自殺支援訓練に自殺思想を有する者をシミュレートすること。 2)Codexを使って意図的にバグの解決策を生成して,生徒にデバッグを指導し, 3)Midjourneyを使ってInstagramページを調べて、反LGBTQ+政治家の画像をドラッグで生成する。 最後に、我々のユースケースがグリーンなチーム化を実践的な設計方法と批判のモードの両方として示す方法について議論する。

Large generative AI models (GMs) like GPT and DALL-E are trained to generate content for general, wide-ranging purposes. GM content filters are generalized to filter out content which has a risk of harm in many cases, e.g., hate speech. However, prohibited content is not always harmful -- there are instances where generating prohibited content can be beneficial. So, when GMs filter out content, they preclude beneficial use cases along with harmful ones. Which use cases are precluded reflects the values embedded in GM content filtering. Recent work on red teaming proposes methods to bypass GM content filters to generate harmful content. We coin the term green teaming to describe methods of bypassing GM content filters to design for beneficial use cases. We showcase green teaming by: 1) Using ChatGPT as a virtual patient to simulate a person experiencing suicidal ideation, for suicide support training; 2) Using Codex to intentionally generate buggy solutions to train students on debugging; and 3) Examining an Instagram page using Midjourney to generate images of anti-LGBTQ+ politicians in drag. Finally, we discuss how our use cases demonstrate green teaming as both a practical design method and a mode of critique, which problematizes and subverts current understandings of harms and values in generative AI.
翻訳日:2023-06-11 13:36:19 公開日:2023-05-30
# 先進運転支援システムにおける無聴コマンド攻撃に対する信頼性の高いセンサ融合

Trustworthy Sensor Fusion against Inaudible Command Attacks in Advanced Driver-Assistance System ( http://arxiv.org/abs/2306.05358v1 )

ライセンス: Link先を確認
Jiwei Guan, Lei Pan, Chen Wang, Shui Yu, Longxiang Gao, Xi Zheng(参考訳) 自動運転車に対する悪意ある攻撃に対する懸念が高まっている。 特に、音声コマンド攻撃は、自律運転システムで音声コマンドが利用可能になると重大な脅威となる。 これらの難解な攻撃に対して実証的に防御する方法は、未解決の問題だ。 信頼度モデルの不確実性を考慮せずに, 深層学習に基づくマルチモーダル融合の防衛効果について検討した。 深層学習はますます敏感なタスクに応用されているため、特にミッションクリティカルなシナリオにおいて、モデルのロバスト性を改善するのに不確実性の測定が不可欠である。 本稿では,音声コマンド攻撃を防御するインテリジェントセキュリティシステムとして,マルチモーダル融合フレームワーク(mff)を提案する。 MFFは、VGGファミリーニューラルネットワークを用いて異種オーディオビジョンモダリティを融合し、比較融合法実証研究において92.25%の精度で検出する。 さらに、オーディオビジョンタスクに関する広範な実験は、モデルの不確実性を明らかにする。 予測キャリブレーション誤差を用いてキャリブレーション誤差とモンテカルロドロップアウトを測定し,提案モデルの予測分布を推定した。 実験により,頑健なマルチモーダルモデルのトレーニング,標準精度の向上,解釈可能性向上に向けたさらなるステップが示された。 最後に、我々のアプローチの長所と短所と、先進運転支援システムへの適用性について論じる。

There are increasing concerns about malicious attacks on autonomous vehicles. In particular, inaudible voice command attacks pose a significant threat as voice commands become available in autonomous driving systems. How to empirically defend against these inaudible attacks remains an open question. Previous research investigates utilizing deep learning-based multimodal fusion for defense, without considering the model uncertainty in trustworthiness. As deep learning has been applied to increasingly sensitive tasks, uncertainty measurement is crucial in helping improve model robustness, especially in mission-critical scenarios. In this paper, we propose the Multimodal Fusion Framework (MFF) as an intelligent security system to defend against inaudible voice command attacks. MFF fuses heterogeneous audio-vision modalities using VGG family neural networks and achieves the detection accuracy of 92.25% in the comparative fusion method empirical study. Additionally, extensive experiments on audio-vision tasks reveal the model's uncertainty. Using Expected Calibration Errors, we measure calibration errors and Monte-Carlo Dropout to estimate the predictive distribution for the proposed models. Our findings show empirically to train robust multimodal models, improve standard accuracy and provide a further step toward interpretability. Finally, we discuss the pros and cons of our approach and its applicability for Advanced Driver Assistance Systems.
翻訳日:2023-06-11 13:18:30 公開日:2023-05-30
# 血行動態モニタリングによる脳卒中予測モデルと診断モデル

Predictive and diagnosis models of stroke from hemodynamic signal monitoring ( http://arxiv.org/abs/2306.05289v1 )

ライセンス: Link先を確認
Luis Garc\'ia-Terriza, Jos\'e L. Risco-Mart\'in, Gemma Reig Rosell\'o and Jos\'e L. Ayala(参考訳) 本研究は急性期脳卒中の臨床管理における新規かつ有望なアプローチである。 機械学習技術を用いて,血行動態データから正確な診断・予測モデルの開発に成功した。 これらのモデルは、30分間のモニタリングで脳卒中サブタイプを診断し、最初の3時間のモニタリングで出口を予測し、わずか15分で脳卒中再発を予測することができる。 acrshort{ct}スキャンが難しい患者、そして専門病院の脳卒中単位に到達する患者は、これらの陽性結果の恩恵を受けるだろう。 実時間モデルから得られた結果は以下のとおりである: 脳卒中診断の精度は$98\%$ (97.8\%$ sensitivity, $99.5\%$ specificity)、終了予測は$99.8\%$ precision (99.8\%$ sens)。 スペックは99.9ドル。 9%)および9,8 %$精度予測脳卒中再発(98 %$ Sens)。 99.99 %$ スペック。 ).

This work presents a novel and promising approach to the clinical management of acute stroke. Using machine learning techniques, our research has succeeded in developing accurate diagnosis and prediction real-time models from hemodynamic data. These models are able to diagnose stroke subtype with 30 minutes of monitoring, to predict the exitus during the first 3 hours of monitoring, and to predict the stroke recurrence in just 15 minutes of monitoring. Patients with difficult access to a \acrshort{CT} scan, and all patients that arrive at the stroke unit of a specialized hospital will benefit from these positive results. The results obtained from the real-time developed models are the following: stroke diagnosis around $98\%$ precision ($97.8\%$ Sensitivity, $99.5\%$ Specificity), exitus prediction with $99.8\%$ precision ($99.8\%$ Sens., $99.9\%$ Spec.) and $98\%$ precision predicting stroke recurrence ($98\%$ Sens., $99\%$ Spec.).
翻訳日:2023-06-11 13:17:52 公開日:2023-05-30
# センサに基づく人間行動認識のための教師なし特徴量拡散モデル

Unsupervised Statistical Feature-Guided Diffusion Model for Sensor-based Human Activity Recognition ( http://arxiv.org/abs/2306.05285v1 )

ライセンス: Link先を確認
Si Zuo, Vitor Fortes Rey, Sungho Suh, Stephan Sigg, Paul Lukowicz(参考訳) センサデータから人的活動を認識することは、様々な領域において重要な課題であるが、多様なラベル付きセンサデータを取得することは困難かつコストがかかる。 本稿では,センサを用いた人間行動認識のための統計的特徴誘導拡散モデルを提案する。 提案手法は,ラベル付きデータに頼らずに合成時系列センサデータを生成することを目的として,実世界のセンサデータに係わる不足やアノテーションの問題に対処する。 拡散モデルを平均,標準偏差,zスコア,傾きなどの統計情報に条件付けすることにより,多様で代表的なセンサデータを生成する。 本研究では, 公共活動認識データセットの実験を行い, 提案手法を従来のオーバーサンプリング手法と, 最先端の敵対的ネットワーク手法と比較した。 実験の結果,提案手法は人間の活動認識性能を向上し,既存の技術より優れることが示された。

Recognizing human activities from sensor data is a vital task in various domains, but obtaining diverse and labeled sensor data remains challenging and costly. In this paper, we propose an unsupervised statistical feature-guided diffusion model for sensor-based human activity recognition. The proposed method aims to generate synthetic time-series sensor data without relying on labeled data, addressing the scarcity and annotation difficulties associated with real-world sensor data. By conditioning the diffusion model on statistical information such as mean, standard deviation, Z-score, and skewness, we generate diverse and representative synthetic sensor data. We conducted experiments on public human activity recognition datasets and compared the proposed method to conventional oversampling methods and state-of-the-art generative adversarial network methods. The experimental results demonstrate that the proposed method can improve the performance of human activity recognition and outperform existing techniques.
翻訳日:2023-06-11 13:17:05 公開日:2023-05-30
# 動的特徴再構成信号グラフに基づく回転機械の故障同定

Fault Identification of Rotating Machinery Based on Dynamic Feature Reconstruction Signal Graph ( http://arxiv.org/abs/2306.05281v1 )

ライセンス: Link先を確認
Wenbin He, Jianxu Mao, Zhe Li, Yaonan Wang, Qiu Fang, Haotian Wu(参考訳) 回転機械の強騒音下での故障を識別する性能を向上させるため,提案したエンドツーエンド故障診断モデルの重要な役割を担う動的特徴再構成信号グラフ法を提案する。 具体的には、最初にウェーブレットパケット分解(wpd)により元のメカニカル信号が分解され、係数行列を含む複数のサブバンドが得られる。 次に、当初定義された2つの特徴抽出因子MDDとDDDを用いて、標準エネルギーの分布の違いに基づいてWPDの特徴係数行列を動的に選択し、各サブシグナルが適応的な信号再構成を行うことのできるL2エネルギーノルム(DFSL)に基づく動的特徴選択法を提案する。 次に、最適な特徴サブバンドの係数行列を再構成して再構成し、特徴信号グラフを得る。 最後に、2D-畳み込みニューラルネットワーク(2D-CNN)により特徴信号グラフから深い特徴を抽出する。 軸受の公開データプラットフォームとロボット研削実験プラットフォームにおける実験結果から, この手法は騒音強度の異なる既存の手法よりも優れていることがわかった。

To improve the performance in identifying the faults under strong noise for rotating machinery, this paper presents a dynamic feature reconstruction signal graph method, which plays the key role of the proposed end-to-end fault diagnosis model. Specifically, the original mechanical signal is first decomposed by wavelet packet decomposition (WPD) to obtain multiple subbands including coefficient matrix. Then, with originally defined two feature extraction factors MDD and DDD, a dynamic feature selection method based on L2 energy norm (DFSL) is proposed, which can dynamically select the feature coefficient matrix of WPD based on the difference in the distribution of norm energy, enabling each sub-signal to take adaptive signal reconstruction. Next the coefficient matrices of the optimal feature sub-bands are reconstructed and reorganized to obtain the feature signal graphs. Finally, deep features are extracted from the feature signal graphs by 2D-Convolutional neural network (2D-CNN). Experimental results on a public data platform of a bearing and our laboratory platform of robot grinding show that this method is better than the existing methods under different noise intensities.
翻訳日:2023-06-11 13:16:32 公開日:2023-05-30
# 説明可能で言語非依存なllmに向けて:大規模言語のシンボリックリバースエンジニアリング

Towards Explainable and Language-Agnostic LLMs: Symbolic Reverse Engineering of Language at Scale ( http://arxiv.org/abs/2306.00017v1 )

ライセンス: Link先を確認
Walid S. Saba(参考訳) 大規模言語モデル(llm)は、undenia-blyが多くの人工知能(ai)に対する信念を変えたマイルストーンを達成した。 しかし、深層ニューラルネットワークの下位アーキテクチャの副産物である真の言語理解に関しては、これらのLLMには多くの制限がある。 さらに、それらのサブシンボリックな性質のため、これらのモデルが言語がどのように機能するかに関する知識は、常に何十億ものマイクロファチュア(重み)に埋もれてしまう。 これらの制約に対処するため、我々は記号表現の強さとLLMの成功の鍵となるもの、すなわち大規模言語におけるボトムアップ・リバースエンジニアリングの成功を組み合わせることを提案する。 このように、我々はボトムアップな言語リバースエンジニアリングをシンボリックな設定で議論する。 このプロジェクトのヒントは、何人かの著者によって提案されており、このプロジェクトをどのように達成できるかについて、いくつかの詳細を議論している。

Large language models (LLMs) have achieved a milestone that undenia-bly changed many held beliefs in artificial intelligence (AI). However, there remains many limitations of these LLMs when it comes to true language understanding, limitations that are a byproduct of the under-lying architecture of deep neural networks. Moreover, and due to their subsymbolic nature, whatever knowledge these models acquire about how language works will always be buried in billions of microfeatures (weights), none of which is meaningful on its own, making such models hopelessly unexplainable. To address these limitations, we suggest com-bining the strength of symbolic representations with what we believe to be the key to the success of LLMs, namely a successful bottom-up re-verse engineering of language at scale. As such we argue for a bottom-up reverse engineering of language in a symbolic setting. Hints on what this project amounts to have been suggested by several authors, and we discuss in some detail here how this project could be accomplished.
翻訳日:2023-06-02 20:48:05 公開日:2023-05-30
# 離散的選択モデルのためのディープニューラルネットワークにドメイン知識を組み込む

Incorporating Domain Knowledge in Deep Neural Networks for Discrete Choice Models ( http://arxiv.org/abs/2306.00016v1 )

ライセンス: Link先を確認
Shadi Haj-Yahia, Omar Mansour, Tomer Toledo(参考訳) 離散選択モデル(DCM)は、選択行動の理解と予測のための強力な理論的計量フレームワークとして、旅行需要分析に広く利用されている。 DCMはランダムユーティリティモデル(RUM)として形成され、その重要な利点は解釈可能性である。 しかしながら、これらのモデル推定のコア要件は、関連するユーティリティ関数の事前仕様であり、モデリング者の主観的信念に敏感である。 近年、機械学習(ML)アプローチは、DCMにおける観測されていない非線形関係を学習するための有望な道として現れている。 しかし、MLモデルは「ブラックボックス」と見なされ、期待される関係とは一致しないかもしれない。 本稿では,ドメイン知識と事前信念を制約を通じて組み込んだ解釈可能なモデルの開発を支援することにより,DCMにおけるデータ駆動アプローチの可能性を拡張する枠組みを提案する。 提案フレームワークは,要求される関係を表す擬似データサンプルと,モデルトレーニングのための観測データとともに,その達成度を測定する損失関数を含む。 このフレームワークは、mlの仕様の柔軟性と計量学と解釈可能な行動分析を組み合わせることで、モデル解釈性を改善することを目的としている。 ケーススタディは、このフレームワークの個別選択分析の可能性を示している。

Discrete choice models (DCM) are widely employed in travel demand analysis as a powerful theoretical econometric framework for understanding and predicting choice behaviors. DCMs are formed as random utility models (RUM), with their key advantage of interpretability. However, a core requirement for the estimation of these models is a priori specification of the associated utility functions, making them sensitive to modelers' subjective beliefs. Recently, machine learning (ML) approaches have emerged as a promising avenue for learning unobserved non-linear relationships in DCMs. However, ML models are considered "black box" and may not correspond with expected relationships. This paper proposes a framework that expands the potential of data-driven approaches for DCM by supporting the development of interpretable models that incorporate domain knowledge and prior beliefs through constraints. The proposed framework includes pseudo data samples that represent required relationships and a loss function that measures their fulfillment, along with observed data, for model training. The developed framework aims to improve model interpretability by combining ML's specification flexibility with econometrics and interpretable behavioral analysis. A case study demonstrates the potential of this framework for discrete choice analysis.
翻訳日:2023-06-02 20:47:45 公開日:2023-05-30
# graphcleaner: 一般的なグラフ学習ベンチマークで誤ったサンプルを検出する

GraphCleaner: Detecting Mislabelled Samples in Popular Graph Learning Benchmarks ( http://arxiv.org/abs/2306.00015v1 )

ライセンス: Link先を確認
Yuwen Li, Miao Xiong, Bryan Hooi(参考訳) ラベルエラーは、一般的なテキスト、ビジョン、オーディオデータセットで広く発生しており、機械学習アルゴリズムの安全な開発と評価に大きな影響を与えている。 画像やテキストなどの汎用データ型の品質向上への取り組みが増えているが、グラフデータの誤ラベル検出の問題は未解決のままである。 このギャップを埋めるために,一般的な実世界のグラフデータセットにおけるミスラベリング問題を調査し,グラフデータセットにおけるミスラベリングノードの検出と修正を行うポストホックな手法であるgraphcleanerを提案する。 GraphCleanerは、新しいアイデアを組み合わせる 1)現実的なミスラベルの生成を目指す合成ミスラベルデータセット生成,及び 2)近傍依存がラベルとベース分類器の両方の予測で悪用される近傍認識ミスラベル検出。 6つのデータセットと6つの実験的な設定に関する実証的な評価は、GraphCleanerがF1スコアで0.14、MCCで0.16という、最も近いベースラインを上回っていることを示している。 PubMed, Cora, CiteSeer, OGB-arxiv; PubMedデータの少なくとも6.91%は不正または曖昧であり、これらの不正データを削除するだけで、評価性能が86.71%から89.11%に向上する。

Label errors have been found to be prevalent in popular text, vision, and audio datasets, which heavily influence the safe development and evaluation of machine learning algorithms. Despite increasing efforts towards improving the quality of generic data types, such as images and texts, the problem of mislabel detection in graph data remains underexplored. To bridge the gap, we explore mislabelling issues in popular real-world graph datasets and propose GraphCleaner, a post-hoc method to detect and correct these mislabelled nodes in graph datasets. GraphCleaner combines the novel ideas of 1) Synthetic Mislabel Dataset Generation, which seeks to generate realistic mislabels; and 2) Neighborhood-Aware Mislabel Detection, where neighborhood dependency is exploited in both labels and base classifier predictions. Empirical evaluations on 6 datasets and 6 experimental settings demonstrate that GraphCleaner outperforms the closest baseline, with an average improvement of 0.14 in F1 score, and 0.16 in MCC. On real-data case studies, GraphCleaner detects real and previously unknown mislabels in popular graph benchmarks: PubMed, Cora, CiteSeer and OGB-arxiv; we find that at least 6.91% of PubMed data is mislabelled or ambiguous, and simply removing these mislabelled data can boost evaluation performance from 86.71% to 89.11%.
翻訳日:2023-06-02 20:47:30 公開日:2023-05-30
# prequant:事前学習された言語モデルに対するタスク非依存量子化アプローチ

PreQuant: A Task-agnostic Quantization Approach for Pre-trained Language Models ( http://arxiv.org/abs/2306.00014v1 )

ライセンス: Link先を確認
Zhuocheng Gong, Jiahao Liu, Qifan Wang, Yang Yang, Jingang Wang, Wei Wu, Yunsen Xian, Dongyan Zhao, Rui Yan(参考訳) トランスフォーマーベースの事前学習言語モデル(PLM)は多くのNLPアプリケーションを支配しているが、これらのモデルはデプロイに重く、使用には高価である。 そのため、大規模plmの効果的圧縮はますます重要な問題となっている。 低ビットの固定点形式を持つ高精度テンソルを表す量子化は実現可能な解である。 しかし、既存の量子化手法のほとんどはタスク固有であり、個々のタスクに多くのトレーニング可能なパラメータを持つカスタマイズされたトレーニングと量子化を必要とする。 本研究は, PLMの過度パラメータ化特性により, 微調整段階におけるパラメータの大部分を凍結することができるという観察に着想を得て, 量子化学習と後学習量子化の両方とは異なる「微調整前の量子化」フレームワークPreQuantを提案する。 PreQuantは様々な量子化戦略と互換性があり、出力された量子化誤差を修正するために、パラメーター効率の高い微調整が組み込まれている。 BERT,RoBERTa,T5を用いたGLUEベンチマークにおけるPreQuantの有効性を示す。 また,prequantのワークフローについて実証的な調査を行い,その効果を明らかにした。

While transformer-based pre-trained language models (PLMs) have dominated a number of NLP applications, these models are heavy to deploy and expensive to use. Therefore, effectively compressing large-scale PLMs becomes an increasingly important problem. Quantization, which represents high-precision tensors with low-bit fix-point format, is a viable solution. However, most existing quantization methods are task-specific, requiring customized training and quantization with a large number of trainable parameters on each individual task. Inspired by the observation that the over-parameterization nature of PLMs makes it possible to freeze most of the parameters during the fine-tuning stage, in this work, we propose a novel ``quantize before fine-tuning'' framework, PreQuant, that differs from both quantization-aware training and post-training quantization. PreQuant is compatible with various quantization strategies, with outlier-aware parameter-efficient fine-tuning incorporated to correct the induced quantization error. We demonstrate the effectiveness of PreQuant on the GLUE benchmark using BERT, RoBERTa, and T5. We also provide an empirical investigation into the workflow of PreQuant, which sheds light on its efficacy.
翻訳日:2023-06-02 20:47:06 公開日:2023-05-30
# がん組織協会と分類のための機械学習アプローチ

Machine Learning Approach for Cancer Entities Association and Classification ( http://arxiv.org/abs/2306.00013v1 )

ライセンス: Link先を確認
G. Jeyakodi, Arkadeep Pal, Debapratim Gupta, K. Sarukeswari, V. Amouda(参考訳) 世界保健機関(who)によると、がんは世界で2番目に多い死因である。 さまざまな種類のがんに関する科学的研究は、毎年大量の研究論文を発行し、増加傾向にある。 遺伝子に関連する薬物、診断、リスク、症状、治療等の洞察情報と知識は、がん研究の進展を探索し進展させる重要な要因である。 このような大量の記事の手作業によるスクリーニングは、仮説を定式化するのに非常に手間と時間を要する。 この研究は、非自明な2つのNLP、自然言語処理機能、エンティティ認識、テキスト分類を用いて、生物医学文献から知識を発見する。 名前付きエンティティ認識(ner)は、非構造化テキストから、ユーザフレンドリーなインターフェースと内蔵辞書のサポートによって、癌に関連する事前定義されたエンティティを認識し、抽出する。 テキスト分類は、テキストに対する洞察を探索し、データの分類、クエリ、記事のスクリーニングを簡単にするのに役立つ。 マシンラーニングの分類器は分類モデルの構築にも使用され、構造化クエリ言語(sql)は重要な予測につながる隠れた関係を特定するために使用される。

According to the World Health Organization (WHO), cancer is the second leading cause of death globally. Scientific research on different types of cancers grows at an ever-increasing rate, publishing large volumes of research articles every year. The insight information and the knowledge of the drug, diagnostics, risk, symptoms, treatments, etc., related to genes are significant factors that help explore and advance the cancer research progression. Manual screening of such a large volume of articles is very laborious and time-consuming to formulate any hypothesis. The study uses the two most non-trivial NLP, Natural Language Processing functions, Entity Recognition, and text classification to discover knowledge from biomedical literature. Named Entity Recognition (NER) recognizes and extracts the predefined entities related to cancer from unstructured text with the support of a user-friendly interface and built-in dictionaries. Text classification helps to explore the insights into the text and simplifies data categorization, querying, and article screening. Machine learning classifiers are also used to build the classification model and Structured Query Languages (SQL) is used to identify the hidden relations that may lead to significant predictions.
翻訳日:2023-06-02 20:46:46 公開日:2023-05-30
# 時空間データのためのグラフニューラルネットワーク:手法と応用

Graph Neural Network for spatiotemporal data: methods and applications ( http://arxiv.org/abs/2306.00012v1 )

ライセンス: Link先を確認
Yun Li, Dazhou Yu, Zhenke Liu, Minxing Zhang, Xiaoyun Gong, Liang Zhao(参考訳) ビッグデータの時代には、リッチな空間的情報と時間的情報を含むデータの可用性が急増し、気象予報、自然災害管理、インテリジェントな輸送システム、精密農業といった応用のための動的システムとプロセスに関する貴重な洞察を提供している。 グラフニューラルネットワーク(GNN)は、空間的および時間的依存関係などの相互依存によるデータのモデリングと理解のための強力なツールとして登場した。 GNNを用いた時空間データの複雑な空間的および時間的依存関係に対処することに焦点を当てた既存の研究が多数存在する。 しかし、時空間データの強い学際的性質は、異なるアプリケーションドメイン用に特別に設計された多くのGNNの変種を生み出している。 これらの手法は、一般に様々な領域に適用されるが、時空間データに対するGNNに関する包括的な文献レビューがないため、相互参照は依然として不可欠である。 本稿では、時空間領域におけるGNNの技術と応用の体系的かつ包括的な概要を提供する。 まず、時空間データからグラフを構築する方法をまとめ、ドメインの専門家が様々な時空間データからグラフを生成する方法を理解するのに役立つ。 そして,既存の時空間GNNの体系的分類と要約を提示し,ドメインエキスパートが適切なテクニックを識別し,モデル開発者が研究を進めるのを支援する。 さらに、時空間領域における重要なアプリケーションの包括的概要は、開発者やドメインの専門家をモデル化するための幅広いアプリケーションを導入し、潜在的な研究トピックを探究し、彼らの仕事の影響を高めるのに役立ちます。 最後に、オープンチャレンジと今後の方向性について論じる。

In the era of big data, there has been a surge in the availability of data containing rich spatial and temporal information, offering valuable insights into dynamic systems and processes for applications such as weather forecasting, natural disaster management, intelligent transport systems, and precision agriculture. Graph neural networks (GNNs) have emerged as a powerful tool for modeling and understanding data with dependencies to each other such as spatial and temporal dependencies. There is a large amount of existing work that focuses on addressing the complex spatial and temporal dependencies in spatiotemporal data using GNNs. However, the strong interdisciplinary nature of spatiotemporal data has created numerous GNNs variants specifically designed for distinct application domains. Although the techniques are generally applicable across various domains, cross-referencing these methods remains essential yet challenging due to the absence of a comprehensive literature review on GNNs for spatiotemporal data. This article aims to provide a systematic and comprehensive overview of the technologies and applications of GNNs in the spatiotemporal domain. First, the ways of constructing graphs from spatiotemporal data are summarized to help domain experts understand how to generate graphs from various types of spatiotemporal data. Then, a systematic categorization and summary of existing spatiotemporal GNNs are presented to enable domain experts to identify suitable techniques and to support model developers in advancing their research. Moreover, a comprehensive overview of significant applications in the spatiotemporal domain is offered to introduce a broader range of applications to model developers and domain experts, assisting them in exploring potential research topics and enhancing the impact of their work. Finally, open challenges and future directions are discussed.
翻訳日:2023-06-02 20:46:26 公開日:2023-05-30
# LinkedInにおけるAIフェアネスの分離と運用

Disentangling and Operationalizing AI Fairness at LinkedIn ( http://arxiv.org/abs/2306.00025v1 )

ライセンス: Link先を確認
Joaquin Qui\~nonero-Candela, Yuwen Wu, Brian Hsu, Sakshi Jain, Jen Ramos, Jon Adams, Robert Hallman, Kinjal Basu(参考訳) linkedinのスケールでのaiフェアネスの運用は、フェアネスの相互に互換性のない定義が複数存在するだけでなく、フェアネスの定義がaiがデプロイされる製品の仕様やコンテキストに依存するため、難しい。 さらに、AI実践者は、AIレベルでの公正性の期待に対処する必要があるかを明確にする必要がある。 本稿では、これらの3つの課題に対処するためにLinkedInで使用されている進化中のAIフェアネスフレームワークについて述べる。 このフレームワークは、平等な処理と同等な製品期待を分離することで、AIフェアネスを歪めます。 このフレームワークは、2つの対立する公正性の解釈のトレードオフを示すのではなく、プロダクトエクイティ戦略を補完する同等のAI処理を運用するための明確なガイドラインを提供する。 本稿では、LinkedInのAIフェアネスフレームワークの平等なAI処理コンポーネントに焦点を当て、それをサポートする原則を共有し、ケーススタディを通じてそれらのアプリケーションを説明する。 この論文は、他の大企業が、大規模にAIフェアネスを運用するためのアプローチを共有する上で、私たちに参加することを奨励してくれることを願っている。

Operationalizing AI fairness at LinkedIn's scale is challenging not only because there are multiple mutually incompatible definitions of fairness but also because determining what is fair depends on the specifics and context of the product where AI is deployed. Moreover, AI practitioners need clarity on what fairness expectations need to be addressed at the AI level. In this paper, we present the evolving AI fairness framework used at LinkedIn to address these three challenges. The framework disentangles AI fairness by separating out equal treatment and equitable product expectations. Rather than imposing a trade-off between these two commonly opposing interpretations of fairness, the framework provides clear guidelines for operationalizing equal AI treatment complemented with a product equity strategy. This paper focuses on the equal AI treatment component of LinkedIn's AI fairness framework, shares the principles that support it, and illustrates their application through a case study. We hope this paper will encourage other big tech companies to join us in sharing their approach to operationalizing AI fairness at scale, so that together we can keep advancing this constantly evolving field.
翻訳日:2023-06-02 20:37:33 公開日:2023-05-30
# 自己検証が臨床情報抽出を改善

Self-Verification Improves Few-Shot Clinical Information Extraction ( http://arxiv.org/abs/2306.00024v1 )

ライセンス: Link先を確認
Zelalem Gero, Chandan Singh, Hao Cheng, Tristan Naumann, Michel Galley, Jianfeng Gao, Hoifung Poon(参考訳) 非構造化テキストから患者情報を抽出することは、健康決定と臨床研究において重要な課題である。 大規模言語モデル(LLM)は、よりコストのかかる人間のアノテーションを必要とする教師あり学習とは対照的に、数ショットのインコンテキスト学習によって臨床キュレーションを加速する可能性を示している。 しかしながら、gpt-4のような現代のllmの劇的な進歩にもかかわらず、特に健康のようなミッションクリティカルな領域において、正確性や解釈性に関する問題に苦しむ。 本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。 これは検証と生成の間の非対称性によって実現され、後者はしばしば前者よりもずっと容易である。 実験結果から,標準的な臨床情報抽出作業における各種LCMの精度を一貫して向上することが示された。 さらに、自己検証は、各アウトプットに対応する短いテキストスパンの形で解釈し、人間の専門家が結果の監査を非常に効率的にし、リソース制約のあるシナリオにおいて、信頼できる臨床情報抽出への道を開く。 この方向への今後の研究を促進するために、コードとプロンプトをリリースします。

Extracting patient information from unstructured text is a critical task in health decision-support and clinical research. Large language models (LLMs) have shown the potential to accelerate clinical curation via few-shot in-context learning, in contrast to supervised learning which requires much more costly human annotations. However, despite drastic advances in modern LLMs such as GPT-4, they still struggle with issues regarding accuracy and interpretability, especially in mission-critical domains such as health. Here, we explore a general mitigation framework using self-verification, which leverages the LLM to provide provenance for its own extraction and check its own outputs. This is made possible by the asymmetry between verification and generation, where the latter is often much easier than the former. Experimental results show that our method consistently improves accuracy for various LLMs in standard clinical information extraction tasks. Additionally, self-verification yields interpretations in the form of a short text span corresponding to each output, which makes it very efficient for human experts to audit the results, paving the way towards trustworthy extraction of clinical information in resource-constrained scenarios. To facilitate future research in this direction, we release our code and prompts.
翻訳日:2023-06-02 20:37:15 公開日:2023-05-30
# 機械学習アルゴリズムによる心臓疾患の予測とサーベイ時間短縮

Predicting Heart Disease and Reducing Survey Time Using Machine Learning Algorithms ( http://arxiv.org/abs/2306.00023v1 )

ライセンス: Link先を確認
Salahaldeen Rababa, Asma Yamin, Shuxia Lu and Ashraf Obaidat(参考訳) 現在、多くの研究者やアナリストが様々な疾患の診断強化に取り組んでいる。 心臓病は、世界中で死亡の重要な原因と見なされる一般的な疾患の1つである。 心臓疾患の早期発見は、心不全のリスクを著しく軽減するのに役立つ。 その結果、CDC (Centers for Disease Control and Prevention) は毎年40万人以上の参加者から健康に関する電話調査を行っている。 しかし、心疾患の予測におけるデータの信頼性や、すべての調査質問が強く関連しているかどうかについて、いくつかの懸念が生まれている。 本研究の目的は、アメリカにおけるCDCの心臓疾患調査の正確性を調べるために、サポートベクターマシンやロジスティック回帰などの機械学習技術を活用することである。 さらに,様々な特徴選択法を用いて,心臓の状態を予測できる質問の最も関連性の高いサブセットを特定する。 頑健な結論に達するために,データをランダムに300回サンプリングして安定解析を行う。 実験結果から, 血液検査前の診断過程を大幅に改善する心疾患の予測において, 調査データは最大80%まで有用であることが示唆された。 さらに、同じレベルのパフォーマンスを維持しながら、調査に費やした時間を77%削減することができる。

Currently, many researchers and analysts are working toward medical diagnosis enhancement for various diseases. Heart disease is one of the common diseases that can be considered a significant cause of mortality worldwide. Early detection of heart disease significantly helps in reducing the risk of heart failure. Consequently, the Centers for Disease Control and Prevention (CDC) conducts a health-related telephone survey yearly from over 400,000 participants. However, several concerns arise regarding the reliability of the data in predicting heart disease and whether all of the survey questions are strongly related. This study aims to utilize several machine learning techniques, such as support vector machines and logistic regression, to investigate the accuracy of the CDC's heart disease survey in the United States. Furthermore, we use various feature selection methods to identify the most relevant subset of questions that can be utilized to forecast heart conditions. To reach a robust conclusion, we perform stability analysis by randomly sampling the data 300 times. The experimental results show that the survey data can be useful up to 80% in terms of predicting heart disease, which significantly improves the diagnostic process before bloodwork and tests. In addition, the amount of time spent conducting the survey can be reduced by 77% while maintaining the same level of performance.
翻訳日:2023-06-02 20:36:54 公開日:2023-05-30
# モデル非依存手法によるヘイトスピーチ分類の説明

Explaining Hate Speech Classification with Model Agnostic Methods ( http://arxiv.org/abs/2306.00021v1 )

ライセンス: Link先を確認
Durgesh Nandini and Ute Schmid(参考訳) 機械学習と人工知能には驚くべきブレークスルーがあり、特に自然言語処理とディープラーニングの分野では顕著だ。 さらに、対話におけるヘイトスピーチの検出は、ソーシャルメディアの利用が増加している自然言語処理研究者の間で人気を集めている。 しかし、最近の傾向が示すように、AIモデルにおける説明可能性と解釈可能性の次元の必要性は深く認識されている。 上記の要因に留意して,本研究の目的は,ヘイトスピーチの予測と,その決定を支持するシステムによって生成された説明とのギャップを埋めることである。 これは、まずテキストの分類を予測し、その後、説明可能性とモデルのバイアスを防ぐために、ポストホックでモデル非依存で代理的な解釈可能性アプローチを提供することによって達成された。 双方向トランスフォーマーモデルBERTは、他の機械学習モデルよりも芸術効率が高いため、予測に使用されている。 モデル非依存アルゴリズムLIMEは、訓練された分類器の出力に関する説明を生成し、モデル決定に影響を与える特徴を予測する。 モデルから生成された予測は手動で評価され、徹底的な評価の後、モデルが予測と説明を効率的に行うことを観察した。 最後に,提案する研究成果の拡大に向けたさらなる方向性を提案する。

There have been remarkable breakthroughs in Machine Learning and Artificial Intelligence, notably in the areas of Natural Language Processing and Deep Learning. Additionally, hate speech detection in dialogues has been gaining popularity among Natural Language Processing researchers with the increased use of social media. However, as evidenced by the recent trends, the need for the dimensions of explainability and interpretability in AI models has been deeply realised. Taking note of the factors above, the research goal of this paper is to bridge the gap between hate speech prediction and the explanations generated by the system to support its decision. This has been achieved by first predicting the classification of a text and then providing a posthoc, model agnostic and surrogate interpretability approach for explainability and to prevent model bias. The bidirectional transformer model BERT has been used for prediction because of its state of the art efficiency over other Machine Learning models. The model agnostic algorithm LIME generates explanations for the output of a trained classifier and predicts the features that influence the model decision. The predictions generated from the model were evaluated manually, and after thorough evaluation, we observed that the model performs efficiently in predicting and explaining its prediction. Lastly, we suggest further directions for the expansion of the provided research work.
翻訳日:2023-06-02 20:36:35 公開日:2023-05-30
# GPT4GEO: 言語モデルが世界の地理を見る方法

GPT4GEO: How a Language Model Sees the World's Geography ( http://arxiv.org/abs/2306.00020v1 )

ライセンス: Link先を確認
Jonathan Roberts, Timo L\"uddecke, Sowmen Das, Kai Han, Samuel Albanie(参考訳) 大規模言語モデル(LLM)は、質問応答や一貫性のあるテキストやコードの生成を含む幅広いタスクで顕著な機能を示している。 LLMの長所と短所を包括的に理解することは、安全性、下流アプリケーション、性能向上に有用である。 本稿では,GPT-4が実際の地理的知識を習得し,その知識を解釈的推論に利用できる程度について検討する。 この目的のために,我々は,場所,距離,標高推定といった実際のタスクから,国の概要や旅行ネットワークの生成,制約下での経路探索,サプライチェーン分析など,より複雑な問題まで,様々な実験を設計・実施する。 我々は、GPT-4(プラグインやインターネットアクセスなしで)が世界について知っていることを広く表現し、驚くべき能力と制限の両方を強調します。

Large language models (LLMs) have shown remarkable capabilities across a broad range of tasks involving question answering and the generation of coherent text and code. Comprehensively understanding the strengths and weaknesses of LLMs is beneficial for safety, downstream applications and improving performance. In this work, we investigate the degree to which GPT-4 has acquired factual geographic knowledge and is capable of using this knowledge for interpretative reasoning, which is especially important for applications that involve geographic data, such as geospatial analysis, supply chain management, and disaster response. To this end, we design and conduct a series of diverse experiments, starting from factual tasks such as location, distance and elevation estimation to more complex questions such as generating country outlines and travel networks, route finding under constraints and supply chain analysis. We provide a broad characterisation of what GPT-4 (without plugins or Internet access) knows about the world, highlighting both potentially surprising capabilities but also limitations.
翻訳日:2023-06-02 20:36:17 公開日:2023-05-30
# フィリピンにおけるニュースツイートの信頼性検証における多項ナイーブベイズアルゴリズムと項周波数逆文書周波数(tf-idfベクタライザ)の利用

Utilization of Multinomial Naive Bayes Algorithm and Term Frequency Inverse Document Frequency (TF-IDF Vectorizer) in Checking the Credibility of News Tweet in the Philippines ( http://arxiv.org/abs/2306.00018v1 )

ライセンス: Link先を確認
Neil Christian R. Riego and Danny Bell Villarba(参考訳) ニュースメディアのデジタル化は、さらなる脅威への進展とシグナルのよい指標となる。 メディア偽情報や偽ニュースはこれらの脅威の1つであり、偽情報と戦うためにはいかなる行動も取らなければならない。 本稿では,ニュース記事の特徴抽出として,基底的真理に基づくアノテーションとtf-idfを活用し,多項ベイのための学習データセットとして用いる。 このモデルはトレーニングで99.46%、見えないデータを予測するのに88.98%の精度を持つ。 偽ニュースを実ニュースとしてタグ付けすることは、F1スコア89.68%で示される予測に関する問題である。 これは悪影響をもたらす可能性がある。 これを防止するため、コーパス収集をさらに改善し、アンサンブル機械学習を用いて予測を強化することが提案されている。

The digitalization of news media become a good indicator of progress and signal to more threats. Media disinformation or fake news is one of these threats, and it is necessary to take any action in fighting disinformation. This paper utilizes ground truth-based annotations and TF-IDF as feature extraction for the news articles which is then used as a training data set for Multinomial Naive Bayes. The model has an accuracy of 99.46% in training and 88.98% in predicting unseen data. Tagging fake news as real news is a concerning point on the prediction that is indicated in the F1 score of 89.68%. This could lead to a negative impact. To prevent this to happen it is suggested to further improve the corpus collection, and use an ensemble machine learning to reinforce the prediction
翻訳日:2023-06-02 20:36:01 公開日:2023-05-30
# モノクロームd'opacit\'es変数の重ね合わせ

Superposition de calques monochromes d'opacit\'es variables ( http://arxiv.org/abs/1707.09839v4 )

ライセンス: Link先を確認
Alexandre Bali(参考訳) モノクロ層$x$ of opacity $0\le o_x\le1 $ put on another monochrome layer of opacity 1 に対し、標準式によって与えられる結果は$$\small\pi\left({\bf c}_\varphi\right)=1+\sum_{n=1}^2\left(2-n-(-1)^no_{\chi(\varphi+1)}\right)\left(\chi(n+\varphi-1)-o_{\chi(n+\varphi-1)}\right)$$$ である。 最終的に、非常に単純な定理を導出し、それを一般化し、この標準に同じ主性質を含む別の公式でその妥当性を見出す。

For a monochrome layer $x$ of opacity $0\le o_x\le1 $ placed on another monochrome layer of opacity 1, the result given by the standard formula is $$\small\Pi\left({\bf C}_\varphi\right)=1+\sum_{n=1}^2\left(2-n-(-1)^no_{\chi(\varphi+1)}\right)\left(\chi(n+\varphi-1)-o_{\chi(n+\varphi-1)}\right),$$ the formula being of course explained in detail in this paper. We will eventually deduce a very simple theorem, generalize it and then see its validity with alternative formulas to this standard containing the same main properties here exposed.
翻訳日:2023-06-02 05:24:54 公開日:2023-05-30
# 絡み合い収穫が本当に収穫されないとき

When entanglement harvesting is not really harvesting ( http://arxiv.org/abs/2109.11561v3 )

ライセンス: Link先を確認
Erickson Tjoa and Eduardo Mart\'in-Mart\'inez(参考訳) 2つの検出器が因果接触している場合、絡み合い収穫プロトコルを再検討する。 量子場と相互作用する2つの検出器間の絡み合い生成における場媒介通信の役割について検討した。 実際の絡み合い収穫に対するコミュニケーションの相対的寄与を定量的に推定する。 平らな時空における無質量スカラー場の場合、2つの検出器がフィールドを介して通信できる場合、検出器はフィールドから絡み合いを取り出すのではなく、フィールドを介する通信チャネルを介してのみ絡み合うことを示す。 言い換えれば、これらのシナリオにおいて、絡み合い収穫プロトコルは、検出器が通信できない場合にのみ、フィールドから「絡み合いをなくす」ものである。 対照的に、巨大なスカラー場では、通信と本物の収穫の両方が、検出器が因果関係にある場合、二成分の絡み合いに等しく寄与する。 これらの結果は、この相対論的量子情報プロトコルに関わる2つの当事者間の因果関係を考慮に入れることが重要であることを強調する。

We revisit the entanglement harvesting protocol when two detectors are in causal contact. We study the role of field-mediated communication in generating entanglement between the two detectors interacting with a quantum field. We provide a quantitative estimator of the relative contribution of communication versus genuine entanglement harvesting. For massless scalar fields in flat spacetime, we show that when two detectors can communicate via the field, the detectors do not really harvest entanglement from the field, and instead they get entangled only via the field-mediated communication channel. In other words, in these scenarios the entanglement harvesting protocol is truly "harvesting entanglement" from the field only when the detectors are not able to communicate. In contrast, for massive scalar fields both communication and genuine harvesting contribute equally to the bipartite entanglement when the detectors are causally connected. These results emphasize the importance of taking into account the causal relationships between two parties involved in this relativistic quantum information protocol before we can declare that it is truly entanglement harvesting.
翻訳日:2023-06-02 05:00:01 公開日:2023-05-30
# マイクロ波量子状態ルータを用いた脱着型量子モジュール間の全対全結合の実現

Realizing all-to-all couplings among detachable quantum modules using a microwave quantum state router ( http://arxiv.org/abs/2109.06848v4 )

ライセンス: Link先を確認
Chao Zhou, Pinlei Lu, Matthieu Praquin, Tzu-Chiao Chien, Ryan Kaufman, Xi Cao, Mingkang Xia, Roger Mong, Wolfgang Pfaff, David Pekker and Michael Hatridge(参考訳) 大規模量子プロセッサを実現する上での大きな課題の1つは、相互作用強度、接続性、モード閉じ込めのバランスをとる量子ビット結合の実現である。 さらに、デバイス要素を分解可能とし、コンポーネントを独立して構築し、テストし、置き換えることが非常に望ましい。 本研究では,パラメトリック駆動のジョセフソン接合に基づく3波混合を中心とするマイクロ波量子状態ルータを提案し,4つの分離可能な量子モジュール間の全対全結合を実現する。 我々は,4つの通信モード間のコヒーレント交換を,平均全iSWAP時間は764nsであり,平均推定モジュール間交換忠実度は0.969であり,モードコヒーレンスによって制限されていることを示す。 また、モジュールキュービット間の光子移動とペア交絡、およびルータ間の同時iSWAP交換の並列動作を実証する。 我々のルータモジュールアーキテクチャは、超伝導量子ビットとキャビティの柔軟で実装可能な大規模量子ネットワークを実現する大きな可能性を持つモジュラー量子コンピュータのプロトタイプとして機能する。

One of the primary challenges in realizing large-scale quantum processors is the realization of qubit couplings that balance interaction strength, connectivity, and mode confinement. Moreover, it is very desirable for the device elements to be detachable, allowing components to be built, tested, and replaced independently. In this work, we present a microwave quantum state router, centered on parametrically driven, Josephson-junction based three-wave mixing, that realizes all-to-all couplings among four detachable quantum modules. We demonstrate coherent exchange among all four communication modes, with an average full-iSWAP time of 764ns and average inferred inter-module exchange fidelity of 0.969, limited by mode coherence. We also demonstrate photon transfer and pairwise entanglement between module qubits, and parallel operation of simultaneous iSWAP exchange across the router. Our router-module architecture serves as a prototype of modular quantum computer that has great potential for enabling flexible, demountable, large-scale quantum networks of superconducting qubits and cavities.
翻訳日:2023-06-02 04:59:36 公開日:2023-05-30
# 質問応答モデリングの改善はベンチマーク全体を支えるか?

Do Question Answering Modeling Improvements Hold Across Benchmarks? ( http://arxiv.org/abs/2102.01065v3 )

ライセンス: Link先を確認
Nelson F. Liu and Tony Lee and Robin Jia and Percy Liang(参考訳) 質問応答(QA)モデリングの改善(アーキテクチャの選択やトレーニング手順など)は、QAベンチマークのさまざまな状況で一貫して維持されますか? この問題を研究するために,2つのベンチマークは,モデルアプローチを同様にランク付けした場合に,一連のモデリングアプローチに対して高い精度を持つ。 20種類の多様なモデリング手法を用いて32のQAベンチマークの一致を計測し、その通過と問合せの分布が全く異なる場合でも、人為的なベンチマークは互いに高い一致性を持つことを示した。 驚くべきことに、人体構築ベンチマーク(例えば、少ないデータ収集)やプログラムで生成されたベンチマーク(例えば、クローゼフォーマットの例)でさえ、人体構築ベンチマークと高い精度を持つ。 これらの結果は、コミュニティが少数のベンチマークに力を入れてきたにもかかわらず、研究対象のモデリング改善は広範に維持されていることを示唆している。

Do question answering (QA) modeling improvements (e.g., choice of architecture and training procedure) hold consistently across the diverse landscape of QA benchmarks? To study this question, we introduce the notion of concurrence -- two benchmarks have high concurrence on a set of modeling approaches if they rank the modeling approaches similarly. We measure the concurrence between 32 QA benchmarks on a set of 20 diverse modeling approaches and find that human-constructed benchmarks have high concurrence amongst themselves, even if their passage and question distributions are very different. Surprisingly, even downsampled human-constructed benchmarks (i.e., collecting less data) and programmatically-generated benchmarks (e.g., cloze-formatted examples) have high concurrence with human-constructed benchmarks. These results indicate that, despite years of intense community focus on a small number of benchmarks, the modeling improvements studied hold broadly.
翻訳日:2023-06-02 04:58:39 公開日:2023-05-30
# 脚部移動における実現可能性保証のための効率的パラダイム

An Efficient Paradigm for Feasibility Guarantees in Legged Locomotion ( http://arxiv.org/abs/2011.07967v2 )

ライセンス: Link先を確認
Abdelrahman Abdallah, Michele Focchi, Romeo Orsolino and Claudio Semini(参考訳) 任意の地形における足場システムのための実現可能な身体軌道の開発は難しい課題である。 本稿では,実現可能な質量中心(CoM)と身体軌道を効率的に設計できるパラダイムを提案する。 先行研究 [1] では,提案する許容領域内でcomのプロジェクションが嘘をつくたびに,静的バランスと関節トルク限界の満足度が保証された2次元実現可能領域の概念を導入した。 本研究では, 関節トルクと運動量制限の満足度を両立させ, 動的バランスを保証する改良可能な領域の汎用的な定式化を提案する。 キネマティック限界の実現可能性を考慮するために,comの到達可能な領域を計算するアルゴリズムを提案する。 さらに, 改良された実現可能領域を利用して, 実現可能なcomおよびボディオリエンテーショントラジェクタを設計する効率的な計画戦略を提案する。 最後に,90kgのHydraulally Actuated Quadruped(HyQ)と21kgのAliengoロボットのシミュレーションと実験を用いて,改良可能な領域の能力と計画戦略の有効性を検証した。

Developing feasible body trajectories for legged systems on arbitrary terrains is a challenging task. In this paper, we present a paradigm that allows to design feasible Center of Mass (CoM) and body trajectories in an efficient manner. In our previous work [1], we introduced the notion of the 2D feasible region, where static balance and the satisfaction of joint torque limits were guaranteed, whenever the projection of the CoM lied inside the proposed admissible region. In this work we propose a general formulation of the improved feasible region that guarantees dynamic balance alongside the satisfaction of both joint-torque and kinematic limits in an efficient manner. To incorporate the feasibility of the kinematic limits, we introduce an algorithm that computes the reachable region of the CoM. Furthermore, we propose an efficient planning strategy that utilizes the improved feasible region to design feasible CoM and body orientation trajectories. Finally, we validate the capabilities of the improved feasible region and the effectiveness of the proposed planning strategy, using simulations and experiments on the 90 kg Hydraulically actuated Quadruped (HyQ) and the 21 kg Aliengo robots.
翻訳日:2023-06-02 04:58:22 公開日:2023-05-30
# ロバストリスク最小化器の漸近正規性

Asymptotic normality of robust risk minimizers ( http://arxiv.org/abs/2004.02328v4 )

ライセンス: Link先を確認
Stanislav Minsker(参考訳) 本稿では,古典的経験的リスク最小化の頑健な類似と見なせるアルゴリズムの漸近特性について検討する。 これらの戦略は、平均推定器の中央値(反転)のような平均の堅牢なプロキシによって、通常の経験的平均を置き換えることに基づいている。 結果として生じる推定子の過剰なリスクは、しばしば「古典的」な仮定よりもはるかに弱い仮定の下で最適な速度でゼロに収束することが知られている。 しかし、最大極大推定器のロバストなアナログが漸近的に効率的かどうかなど、推定器自体の漸近的性質についてはあまり知られていない。 我々はこれらの疑問に答え、幅広いパラメトリックな問題に対して、リスクの適切に定義されたロバストなプロキシの最小化が、同じ速度で真のリスクの最小化に収束し、通常の経験的リスクを最小化して得られる推定値と同じ漸近的な分散を持つことを示す。

This paper investigates asymptotic properties of algorithms that can be viewed as robust analogues of the classical empirical risk minimization. These strategies are based on replacing the usual empirical average by a robust proxy of the mean, such as the (version of) the median of means estimator. It is well known by now that the excess risk of resulting estimators often converges to zero at optimal rates under much weaker assumptions than those required by their ``classical'' counterparts. However, less is known about the asymptotic properties of the estimators themselves, for instance, whether robust analogues of the maximum likelihood estimators are asymptotically efficient. We make a step towards answering these questions and show that for a wide class of parametric problems, minimizers of the appropriately defined robust proxy of the risk converge to the minimizers of the true risk at the same rate, and often have the same asymptotic variance, as the estimators obtained by minimizing the usual empirical risk.
翻訳日:2023-06-02 04:57:42 公開日:2023-05-30
# 高速相互作用による相対論的量子通信のチャネル容量

Channel capacity of relativistic quantum communication with rapid interaction ( http://arxiv.org/abs/2202.12301v5 )

ライセンス: Link先を確認
Erickson Tjoa and Kensuke Gallock-Yoshimura(参考訳) 本研究では,2つの量子ビット検出器間の通信チャネルがデルタカップリング相互作用を介して量子化された質量のないスカラー場と相互作用する双曲的時空における古典的情報と量子情報の非摂動的伝達について研究する。 この相互作用は非常に高速な検出器と磁場の相互作用を近似し、検出器ごとに1つの瞬間に事実上発生する。 両検出器がデルタカップリングを介して相互作用する場合、Landulfo [PRD 93, 104019] の \textit{gapless detector} を用いて非摂動的に構築された量子チャネルと同程度に(少なくとも)チャネルキャパシティを調整できることを示す。 さらに、このチャネル容量が実際に最適であること、すなわち両非摂動法が本質的に同じチャネル容量を与えることを証明し、相対論的量子通信に関する限り、この2つの方法が等価であると考えることができる。

In this work we study nonperturbatively the transmission of classical and quantum information in globally hyperbolic spacetimes, where the communication channel is between two qubit detectors interacting with a quantized massless scalar field via delta-coupling interaction. This interaction approximates very rapid detector-field interaction, effectively occurring at a single instant in time for each detector. We show that when both detectors interact via delta-coupling, one can arrange and tune the detectors so that the channel capacity is (at least) as good as the quantum channel constructed nonperturbatively using \textit{gapless detectors} by Landulfo [PRD 93, 104019]. Furthermore, we prove that this channel capacity is in fact optimal, i.e., both nonperturbative methods give essentially the same channel capacity, thus there is a sense in which the two methods can be regarded as equivalent as far as relativistic quantum communication is concerned.
翻訳日:2023-06-02 04:49:43 公開日:2023-05-30
# 誤った予測の最大エントロピー(meep) : 医用画像分割のためのモデルキャリブレーションの改善

Maximum Entropy on Erroneous Predictions (MEEP): Improving model calibration for medical image segmentation ( http://arxiv.org/abs/2112.12218v2 )

ライセンス: Link先を確認
Agostina Larrazabal, Cesar Martinez, Jose Dolz, Enzo Ferrante(参考訳) 現代のディープニューラルネットワークは、医療画像分割タスクにおいて著しく進歩した。 しかし、最近は不確実度の高い状況でも自信過剰な推定を生じる傾向があり、不正確で信頼性の低いモデルに繋がる傾向があることが観測されている。 本研究では,過密予測を選択的にペナルティ化するセグメンテーションネットワークのためのトレーニング戦略であるerroneous predictions (meep) の最大エントロピーを導入する。 本手法はニューラルアーキテクチャに依存せず,モデルの複雑さを増すことなく,複数のセグメンテーション損失関数と結合することができる。 脳の磁気共鳴画像(MRI)における白質高強度病変と、心臓MRIにおける心房細動の2つの課題について、提案手法をベンチマークした。 実験結果から,MEEPと標準セグメンテーション損失の結合がモデル校正だけでなく,セグメンテーション品質の向上につながることが示された。

Modern deep neural networks achieved remarkable progress in medical image segmentation tasks. However, it has recently been observed that they tend to produce overconfident estimates, even in situations of high uncertainty, leading to poorly calibrated and unreliable models. In this work we introduce Maximum Entropy on Erroneous Predictions (MEEP), a training strategy for segmentation networks which selectively penalizes overconfident predictions, focusing only on misclassified pixels. Our method is agnostic to the neural architecture, does not increase model complexity and can be coupled with multiple segmentation loss functions. We benchmark the proposed strategy in two challenging segmentation tasks: white matter hyperintensity lesions in magnetic resonance images (MRI) of the brain, and atrial segmentation in cardiac MRI. The experimental results demonstrate that coupling MEEP with standard segmentation losses leads to improvements not only in terms of model calibration, but also in segmentation quality.
翻訳日:2023-06-02 04:47:34 公開日:2023-05-30
# Saliency Cards: Saliencyメソッドの特徴付けと比較のためのフレームワーク

Saliency Cards: A Framework to Characterize and Compare Saliency Methods ( http://arxiv.org/abs/2206.02958v2 )

ライセンス: Link先を確認
Angie Boggust, Harini Suresh, Hendrik Strobelt, John V. Guttag, Arvind Satyanarayan(参考訳) Saliency Methodは、モデルの出力に対する各入力機能がどれだけ重要かを計算する機械学習の解釈可能性テクニックの一般的なクラスである。 私たちは、急速な開発ペースで、新しい方法の長所と限界を知らしめるのに苦労し、その結果、予期せぬ理由(例えば人気)の方法を選ぶことがわかりました。 さらに,評価指標の上昇にも拘わらず,既存のアプローチでは,多様なユーザニーズを考慮しないサリエンシ手法(忠実性など)の普遍的なデシラタを前提としている。 これに応答して、私たちはsaliency cardを紹介します。saliencyメソッドの動作方法とそれらのパフォーマンスに関する構造化ドキュメンテーション。 25紙と33本の方法評価のレビューを通じて,提案手法を選択する際,ユーザが考慮すべき属性を10個同定する。 我々は,これらの属性を3つのカテゴリに分類し,その特性をコンピュータのプロセスにまたがってサリエンシーを解釈する:方法論,あるいはサリエンシーの計算方法,感度,あるいはサリエンシーと基礎となるモデルとデータの関係,そしてパーセプティビリティ,最終的にエンドユーザが結果をどのように解釈するか。 この情報を照合することで、ユーザーは様々な方法の影響をより全体的に評価し比較することができる。 研究者や放射線学者、計算生物学者など、さまざまなバックグラウンドを持つユーザとの9つの半構造化インタビューを通じて、サリエンシーカードは個々の方法を議論するための詳細な語彙を提供し、タスクに適した方法をより体系的に選択できることがわかった。 さらに,saliency cardを使えば,より構造化された方法で研究環境を分析し,ユーザニーズに適合しない新しい手法や評価指標の機会を特定することができる。

Saliency methods are a common class of machine learning interpretability techniques that calculate how important each input feature is to a model's output. We find that, with the rapid pace of development, users struggle to stay informed of the strengths and limitations of new methods and, thus, choose methods for unprincipled reasons (e.g., popularity). Moreover, despite a corresponding rise in evaluation metrics, existing approaches assume universal desiderata for saliency methods (e.g., faithfulness) that do not account for diverse user needs. In response, we introduce saliency cards: structured documentation of how saliency methods operate and their performance across a battery of evaluative metrics. Through a review of 25 saliency method papers and 33 method evaluations, we identify 10 attributes that users should account for when choosing a method. We group these attributes into three categories that span the process of computing and interpreting saliency: methodology, or how the saliency is calculated; sensitivity, or the relationship between the saliency and the underlying model and data; and, perceptibility, or how an end user ultimately interprets the result. By collating this information, saliency cards allow users to more holistically assess and compare the implications of different methods. Through nine semi-structured interviews with users from various backgrounds, including researchers, radiologists, and computational biologists, we find that saliency cards provide a detailed vocabulary for discussing individual methods and allow for a more systematic selection of task-appropriate methods. Moreover, with saliency cards, we are able to analyze the research landscape in a more structured fashion to identify opportunities for new methods and evaluation metrics for unmet user needs.
翻訳日:2023-06-02 04:42:28 公開日:2023-05-30
# 微分プライベート最適化における定点収束の高速化

Faster Rates of Convergence to Stationary Points in Differentially Private Optimization ( http://arxiv.org/abs/2206.00846v2 )

ライセンス: Link先を確認
Raman Arora, Raef Bassily, Tom\'as Gonz\'alez, Crist\'obal Guzm\'an, Michael Menart, Enayat Ullah(参考訳) リプシッツの定常点と滑らかな関数を$(\varepsilon,\delta)$-differential privacy (DP)の下で有限サムと確率の両方で近似する問題について検討する。 点 $\widehat{w}$ は関数 $f:\mathbb{r}^d\rightarrow\mathbb{r}$ if $\|\nabla f(\widehat{w})\|\leq \alpha$ の$\alpha$-stationary point と呼ばれる。 有限サム設定において、$n$ がサンプル数である有限サム設定において、$\tilde{o}\big(\big[\frac{\sqrt{d}}{n\varepsilon}\big]^{2/3}\big)$-定常点を求める新しい効率的なアルゴリズムを提供する。 これは、以前の最高レート$\tilde{o}\big(\big[\frac{\sqrt{d}}{n\varepsilon}\big]^{1/2}\big)$で改善される。 また, 人口リスクの近似定常点を求めることを目的として, 確率的最適化設定における既存レートを改良する新しい構成法を提案する。 我々の構成は、$\tilde{O}\big(\frac{1}{n^{1/3}} + \big[\frac{\sqrt{d}}{n\varepsilon}\big]^{1/2}\big)$-stationary point of the population risk in time linear in $n$である。 さらに、凸性のさらなる仮定の下で、人口リスクの定常点(ポリログ因子まで)を見つけるためのサンプルの複雑さを完全に特徴づけ、人口定常性の最適率は$\tilde \Theta\big(\frac{1}{\sqrt{n}}+\frac{\sqrt{d}}{n\varepsilon}\big)$であることを示す。 最後に, 一般線形モデル (GLM) の集団定常性について, $rank$ が設計行列のランクである場合, $O\big(\frac{1}{\sqrt{n}}+\min\big(\big[\frac{\sqrt{rank}}{n\varepsilon}\big]^{2/3},\frac{1}{(n\varepsilon)^{2/5}}\big)\big)$ であることを示す。

We study the problem of approximating stationary points of Lipschitz and smooth functions under $(\varepsilon,\delta)$-differential privacy (DP) in both the finite-sum and stochastic settings. A point $\widehat{w}$ is called an $\alpha$-stationary point of a function $F:\mathbb{R}^d\rightarrow\mathbb{R}$ if $\|\nabla F(\widehat{w})\|\leq \alpha$. We provide a new efficient algorithm that finds an $\tilde{O}\big(\big[\frac{\sqrt{d}}{n\varepsilon}\big]^{2/3}\big)$-stationary point in the finite-sum setting, where $n$ is the number of samples. This improves on the previous best rate of $\tilde{O}\big(\big[\frac{\sqrt{d}}{n\varepsilon}\big]^{1/2}\big)$. We also give a new construction that improves over the existing rates in the stochastic optimization setting, where the goal is to find approximate stationary points of the population risk. Our construction finds a $\tilde{O}\big(\frac{1}{n^{1/3}} + \big[\frac{\sqrt{d}}{n\varepsilon}\big]^{1/2}\big)$-stationary point of the population risk in time linear in $n$. Furthermore, under the additional assumption of convexity, we completely characterize the sample complexity of finding stationary points of the population risk (up to polylog factors) and show that the optimal rate on population stationarity is $\tilde \Theta\big(\frac{1}{\sqrt{n}}+\frac{\sqrt{d}}{n\varepsilon}\big)$. Finally, we show that our methods can be used to provide dimension-independent rates of $O\big(\frac{1}{\sqrt{n}}+\min\big(\big[\frac{\sqrt{rank}}{n\varepsilon}\big]^{2/3},\frac{1}{(n\varepsilon)^{2/5}}\big)\big)$ on population stationarity for Generalized Linear Models (GLM), where $rank$ is the rank of the design matrix, which improves upon the previous best known rate.
翻訳日:2023-06-02 04:41:52 公開日:2023-05-30
# まだ古い? 携帯電話データを用いたデータ融合による旅行調査からの交通分布の更新

Feel Old Yet? Updating Mode of Transportation Distributions from Travel Surveys using Data Fusion with Mobile Phone Data ( http://arxiv.org/abs/2204.09482v3 )

ライセンス: Link先を確認
Eduardo Graells-Garrido, Daniela Opitz, Francisco Rowe, Jacqueline Arriagada(参考訳) 交通状況の監視や都市交通計画の迅速な介入を評価するための様々な移動モードに関する最新の情報はしばしば不足している。 トランスポートシステムは、通常、データレイテンシ、頻繁なデータ収集、高コストのために、時代遅れのデータを提供する従来のデータソースに依存します。 この問題に対処するために,携帯電話データを低コストで豊富な地理空間情報源として活用し,従来の時空間分解能で現在の人間の移動パターンを捉える手法を提案する。 提案手法では、携帯電話の位置情報データに基づいて、自転車や配車サービス(タクシー)の識別が困難な交通手段を推測するために、携帯電話のアプリケーション利用トレースを用いる。 データ融合と行列分解技術を用いて,携帯電話アプリケーション利用データと公式データソース(住宅調査と国勢調査データ)を統合する。 この統合により、公式データを再構築し、アプリケーション使用時のデジタルフットプリントデータからの洞察を組み込んだ更新データセットを作成することができます。 本手法は,チリのサンティアゴを事例として,大量輸送,自動車化,アクティブ,タクシーの4つの交通手段を推算した。 分析の結果,2012年から2020年の間に交通パターンが大きく変化した。 我々は,最近導入されたメトロ・レール線を除き,サンティアゴの自治体間での大量輸送量の減少を定量化し,これらのインフラ強化の公共交通網へのレジリエンスを強調する。 さらに,サンティアゴ全域における自動車輸送の全体的な増加を実証し,都市における持続的交通の促進における課題を明らかにした。 我々は、最新の見積と公式のスマートカードトランザクションデータを比較した結果を検証する。

Up-to-date information on different modes of travel to monitor transport traffic and evaluate rapid urban transport planning interventions is often lacking. Transport systems typically rely on traditional data sources providing outdated mode-of-travel data due to their data latency, infrequent data collection and high cost. To address this issue, we propose a method that leverages mobile phone data as a cost-effective and rich source of geospatial information to capture current human mobility patterns at unprecedented spatiotemporal resolution. Our approach employs mobile phone application usage traces to infer modes of transportation that are challenging to identify (bikes and ride-hailing/taxi services) based on mobile phone location data. Using data fusion and matrix factorization techniques, we integrate official data sources (household surveys and census data) with mobile phone application usage data. This integration enables us to reconstruct the official data and create an updated dataset that incorporates insights from digital footprint data from application usage. We illustrate our method using a case study focused on Santiago, Chile successfully inferring four modes of transportation: mass-transit, motorised, active, and taxi. Our analysis revealed significant changes in transportation patterns between 2012 and 2020. We quantify a reduction in mass-transit usage across municipalities in Santiago, except where metro/rail lines have been more recently introduced, highlighting added resilience to the public transport network of these infrastructure enhancements. Additionally, we evidence an overall increase in motorised transport throughout Santiago, revealing persistent challenges in promoting urban sustainable transportation. We validate our findings comparing our updated estimates with official smart card transaction data.
翻訳日:2023-06-02 04:38:05 公開日:2023-05-30
# 位相的領域壁を介する高速量子移動

Fast quantum transfer mediated by topological domain walls ( http://arxiv.org/abs/2208.00797v3 )

ライセンス: Link先を確認
Juan Zurita, Charles E. Creffield and Gloria Platero(参考訳) 1次元位相モデルにおける双方向転送プロトコルの持続時間は、通常、距離とともに指数関数的にスケールする。 本研究では,マルチドメインSSHチェーンとクロイツはしごの転送プロトコルを提案する。これは指数的依存をなくし,単一ドメインに対するプロセスを大幅に高速化し,エラーの蓄積を低減し,対称性破壊障害があってもその性能を大幅に向上させる。 また,各ドメイン壁ごとに2つのローカライズモードを持つcreutzラダーのローカライズ特性を利用して,トランスファープロトコル中に交換されるラダーに沿った2つの状態を,中間壁に位置する状態を乱すことなく選択する方法についても検討した。 これは、量子情報目的に役立つすべての接続性を持つ1dネットワークを提供する。

The duration of bidirectional transfer protocols in 1D topological models usually scales exponentially with distance. In this work, we propose transfer protocols in multidomain SSH chains and Creutz ladders that lose the exponential dependence, greatly speeding up the process with respect to their single-domain counterparts, reducing the accumulation of errors and drastically increasing their performance, even in the presence of symmetry-breaking disorder. We also investigate how to harness the localization properties of the Creutz ladder-with two localized modes per domain wall-to choose the two states along the ladder that will be swapped during the transfer protocol, without disturbing the states located in the intermediate walls between them. This provides a 1D network with all-to-all connectivity that can be helpful for quantum information purposes.
翻訳日:2023-06-02 04:30:16 公開日:2023-05-30
# パラメータ推定を用いた近似メッセージパッシングによるロバストな定量的サセプティビリティマッピング

Robust Quantitative Susceptibility Mapping via Approximate Message Passing with Parameter Estimation ( http://arxiv.org/abs/2207.14709v3 )

ライセンス: Link先を確認
Shuai Huang, James J. Lah, Jason W. Allen, Deqiang Qiu(参考訳) 目的: 量的感受性マッピング (qsm) では, 臨床設定における接地率の欠如は, 双極子反転に適したパラメータを決定するのに困難である。 パラメータ推定を組み込んだQSMに対する確率ベイズ的手法を提案し, 双極子反転の非線形定式化を取り入れ, 感受性マップの頑健な回復を実現する。 理論:ベイズの観点からは、画像ウェーブレット係数は概してスパースであり、ラプラス分布によってモデル化される。 測定ノイズは、2つの成分からなるガウス混合分布でモデル化され、第2成分はノイズ出力のモデル化に使用される。 確率的推論により、確率マップと分布パラメータを近似メッセージパッシング(AMP)を用いて共同で復元することができる。 方法: 提案したAMPと組込みパラメータ推定(AMP-PE)と, 模擬および生体内データセットに対する最先端L1-QSM, FANSI, MEDIアプローチを比較し, AMP-PEの最適設定を探索する実験を行った。 再現可能なコードはhttps://github.com/EmoryCN2L/QSM_AMP_PE results: シミュレーションされたSim2Snr1データセットでは、AMP-PEは最低のNRMSE、DFCM、最高のSSIMを獲得し、MEDIは最低のHFENを達成した。 in vivoデータセットでは、amp-peはロバストであり、推定パラメーターを使用してサセプティビリティマップを回復するが、l1-qsm、fansi、mediは通常、作業パラメータの選択または二重チェックのために視覚的な微調整が必要となる。 結論: AMP-PEはQSMの自動的適応パラメータ推定を提供し, 視覚的微調整の段階から主観性を回避し, 臨床環境に優れた選択である。

Purpose: For quantitative susceptibility mapping (QSM), the lack of ground-truth in clinical settings makes it challenging to determine suitable parameters for the dipole inversion. We propose a probabilistic Bayesian approach for QSM with built-in parameter estimation, and incorporate the nonlinear formulation of the dipole inversion to achieve a robust recovery of the susceptibility maps. Theory: From a Bayesian perspective, the image wavelet coefficients are approximately sparse and modelled by the Laplace distribution. The measurement noise is modelled by a Gaussian-mixture distribution with two components, where the second component is used to model the noise outliers. Through probabilistic inference, the susceptibility map and distribution parameters can be jointly recovered using approximate message passing (AMP). Methods: We compare our proposed AMP with built-in parameter estimation (AMP-PE) to the state-of-the-art L1-QSM, FANSI and MEDI approaches on the simulated and in vivo datasets, and perform experiments to explore the optimal settings of AMP-PE. Reproducible code is available at https://github.com/EmoryCN2L/QSM_AMP_PE Results: On the simulated Sim2Snr1 dataset, AMP-PE achieved the lowest NRMSE, DFCM and the highest SSIM, while MEDI achieved the lowest HFEN. On the in vivo datasets, AMP-PE is robust and successfully recovers the susceptibility maps using the estimated parameters, whereas L1-QSM, FANSI and MEDI typically require additional visual fine-tuning to select or double-check working parameters. Conclusion: AMP-PE provides automatic and adaptive parameter estimation for QSM and avoids the subjectivity from the visual fine-tuning step, making it an excellent choice for the clinical setting.
翻訳日:2023-06-02 04:29:45 公開日:2023-05-30
# ドメイン適応による公平な分類:双対対学習アプローチ

Fair Classification via Domain Adaptation: A Dual Adversarial Learning Approach ( http://arxiv.org/abs/2206.03656v2 )

ライセンス: Link先を確認
Yueqing Liang, Canyu Chen, Tian Tian, Kai Shu(参考訳) 現代の機械学習(ML)モデルはますます普及し、意思決定システムで広く使われている。 しかし、研究はMLの差別と不公平性の重大な問題を示しており、高い評価の応用に採用を妨げている。 公正分類器に関する最近の研究は、公平性と良好な分類性能を達成する効果的なアルゴリズムの開発に多大な注目を集めている。 これらフェアネスを意識した機械学習モデルの成功にもかかわらず、既存のモデルの多くはデータを前処理したり、モデル学習や後処理の予測を適切に予測するために、センシティブな属性を必要とする。 しかし、機密性の高い属性は、しばしば、プライバシー、法律、規制の制約のために不完全または不完全である。 ターゲットドメインで公正なモデルをトレーニングするためのセンシティブな属性はないが、センシティブな属性を持つ同様のドメインが存在するかもしれない。 したがって、類似ドメインからの補助情報を活用して、対象ドメインの公平な分類を改善することが重要である。 そこで本稿では,公平な分類のための領域適応の新たな課題について検討する。 対象領域における公平な分類のために、ソースドメインから機密性の高い属性を適応させることを学ぶための新しいフレームワークを提案する。 実世界のデータセットに対する大規模な実験は、対象領域にセンシティブな属性が存在しない場合でも、フェア分類のためのモデルの有効性を示す。

Modern machine learning (ML) models are becoming increasingly popular and are widely used in decision-making systems. However, studies have shown critical issues of ML discrimination and unfairness, which hinder their adoption on high-stake applications. Recent research on fair classifiers has drawn significant attention to developing effective algorithms to achieve fairness and good classification performance. Despite the great success of these fairness-aware machine learning models, most of the existing models require sensitive attributes to pre-process the data, regularize the model learning or post-process the prediction to have fair predictions. However, sensitive attributes are often incomplete or even unavailable due to privacy, legal or regulation restrictions. Though we lack the sensitive attribute for training a fair model in the target domain, there might exist a similar domain that has sensitive attributes. Thus, it is important to exploit auxiliary information from a similar domain to help improve fair classification in the target domain. Therefore, in this paper, we study a novel problem of exploring domain adaptation for fair classification. We propose a new framework that can learn to adapt the sensitive attributes from a source domain for fair classification in the target domain. Extensive experiments on real-world datasets illustrate the effectiveness of the proposed model for fair classification, even when no sensitive attributes are available in the target domain.
翻訳日:2023-06-02 04:27:17 公開日:2023-05-30
# ワンショットタスク一般化のための抽象実行可能軌道変換

Abstract-to-Executable Trajectory Translation for One-Shot Task Generalization ( http://arxiv.org/abs/2210.07658v2 )

ライセンス: Link先を確認
Stone Tao, Xiaochen Li, Tongzhou Mu, Zhiao Huang, Yuzhe Qin and Hao Su(参考訳) 複雑な物理的環境での長距離ロボット政策の訓練は、ロボット操作のような多くのアプリケーションにとって不可欠である。 しかし、目に見えないタスクに一般化できるポリシーを学ぶことは難しい。 本研究では,計画生成と計画実行を分離してワンショットタスクの一般化を実現することを提案する。 具体的には、幾何学と物理学を単純化して対の抽象環境を構築し、抽象的軌跡を生成し、抽象から実行可能な軌道変換器によって元のタスクを解決する。 抽象的な環境では、物理的操作のような複雑な力学が取り除かれ、抽象的な軌道が生成しやすくなる。 しかし、抽象トラジェクトリと実際の実行トラジェクトリとの間の大きなドメインギャップは、抽象トラジェクトリは低レベルの詳細を欠いているため、実行トラジェクトリとフレーム間の整合性がないためである。 言語翻訳を思い起こさせる方法で、このアプローチでは、seq-to-seqモデルを利用して、抽象と実行可能な軌道の間の大きなドメイン間ギャップを克服し、低レベルのポリシーが抽象的軌道に従うことができる。 ロボットの実施形態が異なる様々な不明瞭な長軸タスクの実験結果から,ワンショットタスクの一般化を実現するための手法の実践性を示す。

Training long-horizon robotic policies in complex physical environments is essential for many applications, such as robotic manipulation. However, learning a policy that can generalize to unseen tasks is challenging. In this work, we propose to achieve one-shot task generalization by decoupling plan generation and plan execution. Specifically, our method solves complex long-horizon tasks in three steps: build a paired abstract environment by simplifying geometry and physics, generate abstract trajectories, and solve the original task by an abstract-to-executable trajectory translator. In the abstract environment, complex dynamics such as physical manipulation are removed, making abstract trajectories easier to generate. However, this introduces a large domain gap between abstract trajectories and the actual executed trajectories as abstract trajectories lack low-level details and are not aligned frame-to-frame with the executed trajectory. In a manner reminiscent of language translation, our approach leverages a seq-to-seq model to overcome the large domain gap between the abstract and executable trajectories, enabling the low-level policy to follow the abstract trajectory. Experimental results on various unseen long-horizon tasks with different robot embodiments demonstrate the practicability of our methods to achieve one-shot task generalization.
翻訳日:2023-06-02 04:09:13 公開日:2023-05-30
# 参照解決のための効率的なドメイン適応を可能にするメンションアノテーション

Mention Annotations Alone Enable Efficient Domain Adaptation for Coreference Resolution ( http://arxiv.org/abs/2210.07602v2 )

ライセンス: Link先を確認
Nupoor Gandhi, Anjalie Field, Emma Strubell(参考訳) コア参照解決のための最近のニューラルモデルは、ベンチマークデータセットを大幅に改善したが、これらのモデルを語彙外スパンを含む新しいターゲットドメインに転送し、異なるアノテーションスキームを必要とすることは、依然として困難である。 典型的なアプローチは、アノテートされたターゲットドメインデータの継続的なトレーニングを含むが、アノテーションの取得はコストと時間を要する。 注記のみをアノテートすることは、完全なコリファレンスチェーンのアノテートのほぼ2倍の速度であることを示している。 そこで本研究では,高い精度の参照検出目標を含む,対象領域の参照のみをアノテートする必要があるコリファレンスモデルを効率的に適応する手法を提案する。 conll-2012 (news/conversation), i2b2/va (medical notes), and prior unstudied child welfare notes) の3つの英語コリファレンスデータセットで広範な評価を行った結果,アノテーション効率が向上し,アノテータ時間を増加させることなく平均f1が7~14%向上した。

Although recent neural models for coreference resolution have led to substantial improvements on benchmark datasets, transferring these models to new target domains containing out-of-vocabulary spans and requiring differing annotation schemes remains challenging. Typical approaches involve continued training on annotated target-domain data, but obtaining annotations is costly and time-consuming. We show that annotating mentions alone is nearly twice as fast as annotating full coreference chains. Accordingly, we propose a method for efficiently adapting coreference models, which includes a high-precision mention detection objective and requires annotating only mentions in the target domain. Extensive evaluation across three English coreference datasets: CoNLL-2012 (news/conversation), i2b2/VA (medical notes), and previously unstudied child welfare notes, reveals that our approach facilitates annotation-efficient transfer and results in a 7-14% improvement in average F1 without increasing annotator time.
翻訳日:2023-06-02 04:08:40 公開日:2023-05-30
# 教師なし騒音の評価

Evaluating Unsupervised Denoising Requires Unsupervised Metrics ( http://arxiv.org/abs/2210.05553v3 )

ライセンス: Link先を確認
Adria Marcos-Morales, Matan Leibovich, Sreyas Mohan, Joshua Lawrence Vincent, Piyush Haluai, Mai Tan, Peter Crozier, Carlos Fernandez-Granda(参考訳) 教師なしのデノイジングは、実世界のイメージングアプリケーションにおいて重要な課題である。 教師なしのディープラーニング手法は、合成ノイズに基づくベンチマークで印象的な性能を示した。 しかし、これらの手法を教師なしで評価する指標は存在しない。 これは、地上のクリーンなイメージが利用できない多くの実用的なアプリケーションにとって、非常に問題となる。 本研究では,教師なし平均二乗誤差 (unsupervised mean squared error, mse) と教師なしピーク信号対雑音比 (unsupervised peak signal-to-noise ratio, psnr) の2つの新しい指標を提案する。 我々はこれらの指標の理論的解析を行い、それらが教師付きMSEとPSNRの漸近的に一貫した推定値であることを示す。 合成雑音による制御された数値実験は、実際に正確な近似を与えることを確認した。 生のフォーマットによるビデオと透過型電子顕微鏡の2つの画像モダリティから実世界のデータに対するアプローチを検証する。 その結果,提案手法は雑音データのみに基づいて非教師なし評価が可能となった。

Unsupervised denoising is a crucial challenge in real-world imaging applications. Unsupervised deep-learning methods have demonstrated impressive performance on benchmarks based on synthetic noise. However, no metrics are available to evaluate these methods in an unsupervised fashion. This is highly problematic for the many practical applications where ground-truth clean images are not available. In this work, we propose two novel metrics: the unsupervised mean squared error (MSE) and the unsupervised peak signal-to-noise ratio (PSNR), which are computed using only noisy data. We provide a theoretical analysis of these metrics, showing that they are asymptotically consistent estimators of the supervised MSE and PSNR. Controlled numerical experiments with synthetic noise confirm that they provide accurate approximations in practice. We validate our approach on real-world data from two imaging modalities: videos in raw format and transmission electron microscopy. Our results demonstrate that the proposed metrics enable unsupervised evaluation of denoising methods based exclusively on noisy data.
翻訳日:2023-06-02 04:07:32 公開日:2023-05-30
# gradskip:より良い計算複雑性を持つ通信促進局所勾配法

GradSkip: Communication-Accelerated Local Gradient Methods with Better Computational Complexity ( http://arxiv.org/abs/2210.16402v2 )

ライセンス: Link先を確認
Artavazd Maranjyan, Mher Safaryan, Peter Richt\'arik(参考訳) 本研究では,クライアントが通信に先立って複数の局所勾配型訓練を行えるようにすることで,通信コストの低減を図る分散最適化アルゴリズムについて検討する。 このタイプの手法はおよそ10年間研究されてきたが、ローカルトレーニングの実験的に観察された加速度特性は、理論的な理解のあらゆる試みを解明した。 最近のブレークスルーで、Mishchenko et al. (ICML 2022) は、局所的な訓練が適切に実行されると、証明可能な通信加速につながることを証明した。 しかしながら、彼らの方法であるProxSkipでは、すべてのクライアントが各通信ラウンドで同じ数のローカルトレーニングステップを取る必要がある。 一般的な感覚の直感にインスパイアされ、我々は'less important'データを持つクライアントが、メソッドの全体的なコミュニケーションの複雑さに影響を与えることなく、より少ないローカルトレーニングステップで逃げることができるべきだと結論付け、調査を開始します。 この直感は正しいことが分かりました。私たちは、これを達成するためにオリジナルのProxSkipメソッドを再設計しました。 特に, gradskip と名づけた修正手法は, 同一の仮定の下で線形収束するが, 通信複雑性が同じであり, 局所勾配ステップの数は局所条件数に対して減少する。 さらに, 確率的交替のランダム性を任意の非バイアス圧縮作用素に拡張し, 汎用的公理正規化子を考えることにより, 提案手法をさらに一般化する。 この一般化はGradSkip+と呼ばれ、特殊なケースとして文学におけるいくつかの関連する手法を復元する。 最後に, 注意深い設計を施した玩具問題に関する実証研究を行い, 理論的な主張を確認した。

We study a class of distributed optimization algorithms that aim to alleviate high communication costs by allowing the clients to perform multiple local gradient-type training steps prior to communication. While methods of this type have been studied for about a decade, the empirically observed acceleration properties of local training eluded all attempts at theoretical understanding. In a recent breakthrough, Mishchenko et al. (ICML 2022) proved that local training, when properly executed, leads to provable communication acceleration, and this holds in the strongly convex regime without relying on any data similarity assumptions. However, their method ProxSkip requires all clients to take the same number of local training steps in each communication round. Inspired by a common sense intuition, we start our investigation by conjecturing that clients with ``less important'' data should be able to get away with fewer local training steps without this impacting the overall communication complexity of the method. It turns out that this intuition is correct: we managed to redesign the original ProxSkip method to achieve this. In particular, we prove that our modified method, for which coin the name GradSkip, converges linearly under the same assumptions, has the same accelerated communication complexity, while the number of local gradient steps can be reduced relative to a local condition number. We further generalize our method by extending the randomness of probabilistic alternations to arbitrary unbiased compression operators and considering a generic proximable regularizer. This generalization, which we call GradSkip+, recovers several related methods in the literature as special cases. Finally, we present an empirical study on carefully designed toy problems that confirm our theoretical claims.
翻訳日:2023-06-02 04:00:04 公開日:2023-05-30
# 教師なし音声表現における文脈不変性の評価

Evaluating context-invariance in unsupervised speech representations ( http://arxiv.org/abs/2210.15775v2 )

ライセンス: Link先を確認
Mark Hallap, Emmanuel Dupoux, Ewan Dunbar(参考訳) 教師なし音声表現(superb、zerospeech)は、半教師なし音声認識、音声合成、音声認識のみの言語モデリングにおいて大きな進歩を示している。 着想は、言語や類似の低ビットレートエンコーディングの ``discovering the phonemes''' という約束に由来する。 しかし、音素の書き起こしの批判的性質の1つは文脈不変性であり、音声の音声的文脈は発音の仕方に大きな影響を与えうるが、テキストは安定している。 これは、同じ単語のトークンが同じ書き起こしを持つことができることです -- 言語理解の鍵です。 現在のベンチマークではコンテキスト不変性は測定されない。 我々は,コンテキスト不変性を測定するzerospeech abxベンチマークの新バージョンを開発し,最近の自己教師付き表現に適用する。 表現の文脈依存性は単語レベルの表現の安定性の予測であることを示す。 本研究では,自己監督型および非教師型表現の文脈依存性の向上に焦点をあてる。

Unsupervised speech representations have taken off, with benchmarks (SUPERB, ZeroSpeech) demonstrating major progress on semi-supervised speech recognition, speech synthesis, and speech-only language modelling. Inspiration comes from the promise of ``discovering the phonemes'' of a language or a similar low-bitrate encoding. However, one of the critical properties of phoneme transcriptions is context-invariance: the phonetic context of a speech sound can have massive influence on the way it is pronounced, while the text remains stable. This is what allows tokens of the same word to have the same transcriptions -- key to language understanding. Current benchmarks do not measure context-invariance. We develop a new version of the ZeroSpeech ABX benchmark that measures context-invariance, and apply it to recent self-supervised representations. We demonstrate that the context-independence of representations is predictive of the stability of word-level representations. We suggest research concentrate on improving context-independence of self-supervised and unsupervised representations.
翻訳日:2023-06-02 03:59:11 公開日:2023-05-30
# ランダム力学系に対する濃度現象:作用素論的アプローチ

Concentration Phenomenon for Random Dynamical Systems: An Operator Theoretic Approach ( http://arxiv.org/abs/2212.03670v2 )

ライセンス: Link先を確認
Muhammad Abdullah Naeem and Miroslav Pajic(参考訳) 作用素論的手法により、離散時間マルコフ連鎖の与えられた観測可能な `$r$' の濃度現象を「$\mu_{\pi}$' を不変エルゴード測度として定式化し、おそらく非有界状態空間への支持を持つ。 この論文の主な貢献は、マルコフ遷移作用素 $P$ の合成と、$e^{r}$ で定義される乗算作用素の研究によって、退屈な確率的方法を回避することである。 観測可能/報酬関数が非有界であるとしても、ある$q>2$, $\|e^{r}\|_{q \rightarrow 2} \propto \exp\big(\mu_{\pi}(r) +\frac{2q}{q-2}\big) $ and $P$ is hyperbounded with norm control $\|P\|_{2 \rightarrow q }< e^{\frac{1}{2}[\frac{1}{2}-\frac{1}{q}]} の場合、シャープな非漸近濃度境界は従う。 emph{transport-entropy} 不等式は、上述の乗算作用素上の上限をすべての$q>2$に対して保証する。 濃度現象における 'emph{reversibility} の役割は脱線化される。 これらの結果は、システムに関する正確な知識が得られていないような、集中不等式 w.r.t 標準の非有界オブザーバブル/逆関数を許容するコミュニティの強化学習や制御に特に有用である。

Via operator theoretic methods, we formalize the concentration phenomenon for a given observable `$r$' of a discrete time Markov chain with `$\mu_{\pi}$' as invariant ergodic measure, possibly having support on an unbounded state space. The main contribution of this paper is circumventing tedious probabilistic methods with a study of a composition of the Markov transition operator $P$ followed by a multiplication operator defined by $e^{r}$. It turns out that even if the observable/ reward function is unbounded, but for some for some $q>2$, $\|e^{r}\|_{q \rightarrow 2} \propto \exp\big(\mu_{\pi}(r) +\frac{2q}{q-2}\big) $ and $P$ is hyperbounded with norm control $\|P\|_{2 \rightarrow q }< e^{\frac{1}{2}[\frac{1}{2}-\frac{1}{q}]}$, sharp non-asymptotic concentration bounds follow. \emph{Transport-entropy} inequality ensures the aforementioned upper bound on multiplication operator for all $q>2$. The role of \emph{reversibility} in concentration phenomenon is demystified. These results are particularly useful for the reinforcement learning and controls communities as they allow for concentration inequalities w.r.t standard unbounded obersvables/reward functions where exact knowledge of the system is not available, let alone the reversibility of stationary measure.
翻訳日:2023-06-02 03:49:34 公開日:2023-05-30
# 視覚・言語モデルへの構造的視覚・言語概念の教育

Teaching Structured Vision&Language Concepts to Vision&Language Models ( http://arxiv.org/abs/2211.11733v2 )

ライセンス: Link先を確認
Sivan Doveh, Assaf Arbelle, Sivan Harary, Rameswar Panda, Roei Herzig, Eli Schwartz, Donghyun Kim, Raja Giryes, Rogerio Feris, Shimon Ullman, Leonid Karlinsky(参考訳) vision and language (vl) モデルは様々なタスクで顕著なゼロショット性能を示している。 しかし、複雑な言語理解のいくつかの側面は依然として課題である。 本稿では、テキスト中に存在し、画像で見えるオブジェクト属性、関係、状態を含む構造化視覚言語概念(svlc)の集団概念を紹介する。 近年の研究では、最高のVLモデルでさえSVLCと競合することが示されている。 この問題を解決する方法は、各svlcタイプを教える専用のデータセットを収集することですが、これは高価で時間がかかります。 代わりに、既存のVL事前学習データセットをより効果的に活用し、追加データを必要としないVLモデルのSVLC理解を強化するための、よりエレガントなデータ駆動アプローチを提案する。 画像構造の自動理解はいまだほとんど未解決であるが、言語構造はより良くモデル化され理解されており、VLモデルを効果的に活用することができる。 本稿では,市販VLデータセットのテキスト部分を操作可能な言語構造理解に基づく様々な手法を提案する。 更新されたデータでトレーニングされたVLモデルは、ゼロショット能力の軽微な低下と、事前訓練されたモデルの微調整の両方で、SVLC理解の最大15%の改善を示す。

Vision and Language (VL) models have demonstrated remarkable zero-shot performance in a variety of tasks. However, some aspects of complex language understanding still remain a challenge. We introduce the collective notion of Structured Vision&Language Concepts (SVLC) which includes object attributes, relations, and states which are present in the text and visible in the image. Recent studies have shown that even the best VL models struggle with SVLC. A possible way of fixing this issue is by collecting dedicated datasets for teaching each SVLC type, yet this might be expensive and time-consuming. Instead, we propose a more elegant data-driven approach for enhancing VL models' understanding of SVLCs that makes more effective use of existing VL pre-training datasets and does not require any additional data. While automatic understanding of image structure still remains largely unsolved, language structure is much better modeled and understood, allowing for its effective utilization in teaching VL models. In this paper, we propose various techniques based on language structure understanding that can be used to manipulate the textual part of off-the-shelf paired VL datasets. VL models trained with the updated data exhibit a significant improvement of up to 15% in their SVLC understanding with only a mild degradation in their zero-shot capabilities both when training from scratch or fine-tuning a pre-trained model.
翻訳日:2023-06-02 03:47:50 公開日:2023-05-30
# ClarifyDelphi: 社会的・道徳的状況に対する理解度を低下させる質問

ClarifyDelphi: Reinforced Clarification Questions with Defeasibility Rewards for Social and Moral Situations ( http://arxiv.org/abs/2212.10409v3 )

ライセンス: Link先を確認
Valentina Pyatkin, Jena D. Hwang, Vivek Srikumar, Ximing Lu, Liwei Jiang, Yejin Choi, Chandra Bhagavatula(参考訳) コンテキストは、常識的な道徳的推論でさえ、すべてです。 文脈の変化は、行動の道徳的判断を覆す可能性がある;「友人に嘘をつく」ことは一般に間違っているが、もしそれが彼らの人生を守ることを意図しているなら、道徳的に受け入れられるかもしれない。 我々はClarifyDelphiという対話型システムを紹介し、社会的または道徳的な状況の付加的な状況を引き出すために、明確化の質問(例えば、なぜ友達に嘘をついたのか? 我々は、潜在的な答えが道徳的判断の多様化に繋がる質問が最も有益であると仮定する。 そこで本稿では,質問に対する仮説的回答の道徳的判断の偏りを最大化することを目的とした,実現可能性報酬付き強化学習フレームワークを提案する。 人的評価により,本システムは,競争ベースラインと比較して,より関連性の高い,有益で難解な質問を生成できることが示される。 我々の研究は、究極的には、道徳的認知の柔軟性(道徳的規則が曲げられる様々な文脈)を研究してきた認知科学の研究に触発され、この方向の研究が道徳的判断の認知的および計算的調査の両方に役立つことを願っている。

Context is everything, even in commonsense moral reasoning. Changing contexts can flip the moral judgment of an action; "Lying to a friend" is wrong in general, but may be morally acceptable if it is intended to protect their life. We present ClarifyDelphi, an interactive system that learns to ask clarification questions (e.g., why did you lie to your friend?) in order to elicit additional salient contexts of a social or moral situation. We posit that questions whose potential answers lead to diverging moral judgments are the most informative. Thus, we propose a reinforcement learning framework with a defeasibility reward that aims to maximize the divergence between moral judgments of hypothetical answers to a question. Human evaluation demonstrates that our system generates more relevant, informative and defeasible questions compared to competitive baselines. Our work is ultimately inspired by studies in cognitive science that have investigated the flexibility in moral cognition (i.e., the diverse contexts in which moral rules can be bent), and we hope that research in this direction can assist both cognitive and computational investigations of moral judgments.
翻訳日:2023-06-02 03:38:46 公開日:2023-05-30
# グラフ帯域制限によるグラフ生成の改善

Improving Graph Generation by Restricting Graph Bandwidth ( http://arxiv.org/abs/2301.10857v2 )

ライセンス: Link先を確認
Nathaniel Diamant, Alex M. Tseng, Kangway V. Chuang, Tommaso Biancalani, Gabriele Scalia(参考訳) ディープグラフ生成モデリングは、実世界のグラフを特徴付ける複雑なマルチスケール構造の分布を学習できることが証明されている。 しかし、既存の手法の主な限界の1つは、生成のスケーラビリティを制限し、基礎となる分布の正確なモデリングを妨げる大きな出力空間である。 これらの制約を克服するために,既存のグラフ生成モデルの出力空間を大幅に削減する新しい手法を提案する。 具体的には、多くの実世界のグラフが低いグラフ帯域を持つという観察から始め、トレーニングと生成の間にグラフ帯域を制限する。 私たちの戦略は、アーキテクチャの複雑さを増大させることなく、スケーラビリティと品質の両方を改善します。 提案手法は既存のグラフ生成手法と互換性があり,自動回帰モデルとワンショットモデルの両方への応用について述べる。 分子グラフを含む合成および実データに対する我々の戦略を幅広く検証する。 提案手法は, 生成効率の向上に加えて, 生成品質と復元精度を常に向上することを示す。 実装は利用可能である。

Deep graph generative modeling has proven capable of learning the distribution of complex, multi-scale structures characterizing real-world graphs. However, one of the main limitations of existing methods is their large output space, which limits generation scalability and hinders accurate modeling of the underlying distribution. To overcome these limitations, we propose a novel approach that significantly reduces the output space of existing graph generative models. Specifically, starting from the observation that many real-world graphs have low graph bandwidth, we restrict graph bandwidth during training and generation. Our strategy improves both generation scalability and quality without increasing architectural complexity or reducing expressiveness. Our approach is compatible with existing graph generative methods, and we describe its application to both autoregressive and one-shot models. We extensively validate our strategy on synthetic and real datasets, including molecular graphs. Our experiments show that, in addition to improving generation efficiency, our approach consistently improves generation quality and reconstruction accuracy. The implementation is made available.
翻訳日:2023-06-02 03:30:17 公開日:2023-05-30
# クロスドメインリモートセンシング画像セマンティックセマンティックセグメンテーションのための自己学習ガイド付きアンタングル適応

Self-Training Guided Disentangled Adaptation for Cross-Domain Remote Sensing Image Semantic Segmentation ( http://arxiv.org/abs/2301.05526v3 )

ライセンス: Link先を確認
Qi Zhao, Shuchang Lyu, Binghao Liu, Lijiang Chen, Hongbo Zhao(参考訳) 深部畳み込みニューラルネットワーク(DCNN)に基づくリモートセンシング(RS)画像セマンティックセグメンテーション技術は、地理的要素解析などの現実世界の多くの応用で大きな成功を収めている。 しかし、特定のシーンの注釈付きデータへの強い依存は、DCNNが異なるRSシーンに適合することを難しくする。 この問題を解決するため、近年では、クロスドメインrs画像セマンティクスセグメンテーションタスクに徐々に焦点が当てられている。 この課題では, 地中サンプリング距離, リモートセンシングセンサの変動, 地形の異なる3つの要因が, ソース画像とターゲット画像の間で劇的な領域シフトを引き起こしている。 ドメインシフトの負の影響を低減するために,自己学習型不等角化適応ネットワーク(st-dasegnet)を提案する。 まず,ソースとターゲットの両方のイメージに対して,ソーススタイルとターゲットスタイルの特徴をそれぞれ抽出するために,ソース学生のバックボーンとターゲット学生のバックボーンを提案する。 各バックボーンの中間出力特徴マップに向けて,アライメントに逆学習を採用する。 そこで本研究では, 共通特徴を抽出し, ソーススタイルとターゲットスタイルの特徴を識別するドメイン・アンタングル・モジュールを提案する。 最後に、これら2つの機能は融合され、ソース学生デコーダとターゲット学生デコーダの入力として機能し、最終的な予測を生成する。 提案するドメイン異方性モジュールに基づいて,さらに指数的移動平均(ema)に基づくクロスドメイン分離自己学習機構を提案し,逆最適化時の不安定性と不利な効果を緩和する。 ベンチマークRSデータセットの大規模な実験と分析により、ST-DASegNetはクロスドメインRS画像セマンティックセグメンテーションタスクにおいて従来の手法よりも優れており、最先端(SOTA)の結果が得られた。 私たちのコードはhttps://github.com/cv516Buaa/ST-DASegNetで利用可能です。

Deep convolutional neural networks (DCNNs) based remote sensing (RS) image semantic segmentation technology has achieved great success used in many real-world applications such as geographic element analysis. However, strong dependency on annotated data of specific scene makes it hard for DCNNs to fit different RS scenes. To solve this problem, recent works gradually focus on cross-domain RS image semantic segmentation task. In this task, different ground sampling distance, remote sensing sensor variation and different geographical landscapes are three main factors causing dramatic domain shift between source and target images. To decrease the negative influence of domain shift, we propose a self-training guided disentangled adaptation network (ST-DASegNet). We first propose source student backbone and target student backbone to respectively extract the source-style and target-style feature for both source and target images. Towards the intermediate output feature maps of each backbone, we adopt adversarial learning for alignment. Then, we propose a domain disentangled module to extract the universal feature and purify the distinct feature of source-style and target-style features. Finally, these two features are fused and served as input of source student decoder and target student decoder to generate final predictions. Based on our proposed domain disentangled module, we further propose exponential moving average (EMA) based cross-domain separated self-training mechanism to ease the instability and disadvantageous effect during adversarial optimization. Extensive experiments and analysis on benchmark RS datasets show that ST-DASegNet outperforms previous methods on cross-domain RS image semantic segmentation task and achieves state-of-the-art (SOTA) results. Our code is available at https://github.com/cv516Buaa/ST-DASegNet.
翻訳日:2023-06-02 03:28:25 公開日:2023-05-30
# 存在への闘争:時間、記憶、肥大

The Struggle for Existence: Time, Memory and Bloat ( http://arxiv.org/abs/2302.03096v2 )

ライセンス: Link先を確認
John C Stevenson(参考訳) 繁殖生態系の時空間的多エージェントモデルと、エージェントの行動に関する線形で遺伝的にプログラムされた規則を組み合わせることで、暗黙的、内在的、客観的な機能と選択アルゴリズムが「自然選択」に基づいて生まれる。 生物学的システムの研究における遺伝的プログラムの暗黙の最適化は、人工採餌生態系に適用され、確立された生物学的、生態学的、確率的遺伝子拡散モデルと比較される。 制限されたプログラムメモリと実行時間の制約は、物理および生物システムのリアルタイムおよび同時特性をエミュレートし、最適化アルゴリズムをストレステストする。 これらの制約の関数としてのエージェントのプログラムの相対的適合性と結果の集団の効率は、最適化の効率と効率を計測する。 新しいソリューションは最適化プロセスの創造性を確認し、中性的なコードの膨れあがる仮説を実験的にテストするユニークな機会を提供する。 この暗黙的、内因的、進化的最適化による空間的に相互作用する、遺伝的にプログラムされた化合物の使用は、生物システムと一貫性があり、適合性や新しい解の発見に効果的かつ効率的であることが示されている。

Combining a spatiotemporal, multi-agent based model of a foraging ecosystem with linear, genetically programmed rules for the agents' behaviors results in implicit, endogenous, objective functions and selection algorithms based on "natural selection". Use of this implicit optimization of genetic programs for study of biological systems is tested by application to an artificial foraging ecosystem, and compared with established biological, ecological, and stochastic gene diffusion models. Limited program memory and execution time constraints emulate real-time and concurrent properties of physical and biological systems, and stress test the optimization algorithms. Relative fitness of the agents' programs and efficiency of the resultant populations as functions of these constraints gauge optimization effectiveness and efficiency. Novel solutions confirm the creativity of the optimization process and provide an unique opportunity to experimentally test the neutral code bloating hypotheses. Use of this implicit, endogenous, evolutionary optimization of spatially interacting, genetically programmed agents is thus shown to be novel, consistent with biological systems, and effective and efficient in discovering fit and novel solutions.
翻訳日:2023-06-02 03:22:36 公開日:2023-05-30
# 単一固定サイズReLUネットワークの構成による表現力向上について

On Enhancing Expressive Power via Compositions of Single Fixed-Size ReLU Network ( http://arxiv.org/abs/2301.12353v2 )

ライセンス: Link先を確認
Shijun Zhang, Jianfeng Lu, Hongkai Zhao(参考訳) 本稿では,関数合成の枠組みによるディープニューラルネットワークの表現力について考察する。 本稿では,単一固定サイズのreluネットワークの繰り返し構成が,個々のネットワーク自体の表現能力に制限があるにもかかわらず,驚くべき表現力を示すことを示す。 具体的には、$\mathcal{l}_2\circ \boldsymbol{g}^{\circ r}\circ \boldsymbol{\mathcal{l}}_1$ が、$[0,1]^d$ で$\mathcal{o}(r^{-1/d})$ の誤差を持つ$[0,1]^d$ のリプシッツ連続関数を近似し、$\boldsymbol{g}$ は固定サイズのreluネットワークによって実現され、$\boldsymbol{\mathcal{l}}_1$ と $\mathcal{l}_2$ は次元に一致する2つのアフィン線型写像であり、$\boldsymbol{g}^{\circ r}$ は$r$ である。 さらに、そのような結果を$[0,1]^d$上の一般連続関数に拡張し、近似誤差は連続性の係数によって特徴づけられる。 この結果から, 動的システムによる連続深度ネットワークは, 動的関数が時間非依存であり, 固定サイズReLUネットワークによって実現されたとしても, 膨大な近似能力を有することがわかった。

This paper explores the expressive power of deep neural networks through the framework of function compositions. We demonstrate that the repeated compositions of a single fixed-size ReLU network exhibit surprising expressive power, despite the limited expressive capabilities of the individual network itself. Specifically, we prove by construction that $\mathcal{L}_2\circ \boldsymbol{g}^{\circ r}\circ \boldsymbol{\mathcal{L}}_1$ can approximate $1$-Lipschitz continuous functions on $[0,1]^d$ with an error $\mathcal{O}(r^{-1/d})$, where $\boldsymbol{g}$ is realized by a fixed-size ReLU network, $\boldsymbol{\mathcal{L}}_1$ and $\mathcal{L}_2$ are two affine linear maps matching the dimensions, and $\boldsymbol{g}^{\circ r}$ denotes the $r$-times composition of $\boldsymbol{g}$. Furthermore, we extend such a result to generic continuous functions on $[0,1]^d$ with the approximation error characterized by the modulus of continuity. Our results reveal that a continuous-depth network generated via a dynamical system has immense approximation power even if its dynamics function is time-independent and realized by a fixed-size ReLU network.
翻訳日:2023-06-02 03:20:40 公開日:2023-05-30
# データ効率のよいコントラスト型自己教師型学習:最善を貢献する教師付き学習の最も便利な例

Data-Efficient Contrastive Self-supervised Learning: Most Beneficial Examples for Supervised Learning Contribute the Least ( http://arxiv.org/abs/2302.09195v4 )

ライセンス: Link先を確認
Siddharth Joshi and Baharan Mirzasoleiman(参考訳) 自己教師付き学習(SSL)は、ラベルなしトレーニングデータの大規模なプールから高品質な表現を学ぶ。 データセットが大きくなるにつれて、そのような表現の学習に最も寄与する例を特定することが重要になる。 これにより、必要なデータ量を減らすことで効率的なSSLが可能になる。 それでもSSLの例の定量化は未解決の問題である。 本研究では,SSLに最も貢献する例が,予想される他の例と最もよく似た拡張であることを示すことによって,この問題に初めて対処する。 このような部分集合に対するコントラスト学習の一般化性能の厳密な保証を提供する。 CIFAR100から20%、STL10やTinyImageNetから40%のサンプルを安全に取り除き、ダウンストリームタスクのパフォーマンスに影響を与えないことを示す。 一般に,本手法で選択したサブセットは,これらのデータセットにおいて,ランダムサブセットを3%以上上回っている。 興味深いことに、対照的な学習に最も寄与する部分集合は、教師付き学習に最も貢献しない部分集合である。

Self-supervised learning (SSL) learns high-quality representations from large pools of unlabeled training data. As datasets grow larger, it becomes crucial to identify the examples that contribute the most to learning such representations. This enables efficient SSL by reducing the volume of data required. Nevertheless, quantifying the value of examples for SSL has remained an open question. In this work, we address this problem for the first time, by proving that examples that contribute the most to contrastive SSL are those that have the most similar augmentations to other examples, in expectation. We provide rigorous guarantees for the generalization performance of contrastive learning on such subsets. Through extensive experiments, we show that we can safely exclude 20% of examples from CIFAR100 and 40% from STL10 and TinyImageNet, without affecting downstream task performance. In general, subsets selected by our method outperform random subsets by over 3% across these datasets. Interestingly, we also discover the subsets that contribute the most to contrastive learning are those that contribute the least to supervised learning.
翻訳日:2023-06-02 03:10:47 公開日:2023-05-30
# 階層型多解グラフ生成モデルについて

On Hierarchical Multi-Resolution Graph Generative Models ( http://arxiv.org/abs/2303.03293v2 )

ライセンス: Link先を確認
Mahdi Karami, Jun Luo(参考訳) 実世界の領域では、ほとんどのグラフは自然に階層構造を示す。 しかし、データ駆動グラフ生成はそのような構造を効果的に捉えていない。 そこで本稿では,階層の各レベルでのトレーニングデータ分布に準拠した生成構造を複数解像度で再帰的に生成する新しい手法を提案する。 グラフ生成は、すべてのサブ構造を並列に生成できる粗大な生成モデルのシーケンスとして設計されており、高いスケーラビリティをもたらす。 提案手法は,複数のグラフデータセットにおける生成的性能向上を示す。

In real world domains, most graphs naturally exhibit a hierarchical structure. However, data-driven graph generation is yet to effectively capture such structures. To address this, we propose a novel approach that recursively generates community structures at multiple resolutions, with the generated structures conforming to training data distribution at each level of the hierarchy. The graphs generation is designed as a sequence of coarse-to-fine generative models allowing for parallel generation of all sub-structures, resulting in a high degree of scalability. Our method demonstrates generative performance improvement on multiple graph datasets.
翻訳日:2023-06-02 03:01:57 公開日:2023-05-30
# ファジィ時空:量子光学ホログラフィックバルク再構成の基本限界

Fuzzy spacetime: fundamental limits of quantum-optical holographic bulk reconstruction ( http://arxiv.org/abs/2303.16326v2 )

ライセンス: Link先を確認
Erickson Tjoa(参考訳) 本稿では,相対論的量子情報における粒子検出器の量子光学モデルを用いた計量再構成の具体的かつ非摂動的実現について述べる。 非摂動的アプローチにより、量子重力状態に達する前にプランクスケールよりもはるかに上回ったケンプのアイデア「短距離物理学は統計学に準じる」バージョンを実現することができる。 特に、操作測定プロトコルから生じる時空の「曖昧さ」は、漸近的に平坦な時空におけるスカラー相関子間のバルク対境界対応を用いてホログラフィック双対解釈を与えることができる。 ホログラフィック解釈は、将来のヌル無限遠点の普遍性のために原理的にも不完全な計量再構成を必要とする。

In this Essay we construct a concrete, non-perturbative realization of metric reconstruction using quantum-optical model of particle detectors in relativistic quantum information. The non-perturbative approach allows us to realize a version of "short-distance physics corresponds to poor statistics" idea by Kempf which occurs way above the Planck scale before one reaches the quantum-gravitational regime. In particular, the "fuzziness" of spacetime that arise from operational measurement protocols can be given a holographic dual interpretation using bulk-to-boundary correspondence between scalar correlators in asymptotically flat spacetimes. The holographic interpretation necessitates imperfect metric reconstruction even in principle due to the universality of future null infinity.
翻訳日:2023-06-02 02:51:58 公開日:2023-05-30
# チンチラを捕まえるのに何が必要ですか。 計算モニタリングによる大規模ニューラルネットワークトレーニングのルール検証

What does it take to catch a Chinchilla? Verifying Rules on Large-Scale Neural Network Training via Compute Monitoring ( http://arxiv.org/abs/2303.11341v2 )

ライセンス: Link先を確認
Yonadav Shavit(参考訳) 先進的な機械学習システムの能力が地政学・社会秩序において重要な役割を担い始めるにつれ、(1)政府は国境内における先進的なMLシステムの開発に関する規則を執行でき、(2)先進的なML開発に関する将来の国際協定に対する各国のコンプライアンスを検証できることが重要になる。 この研究は、大規模NNトレーニングに使用されるコンピューティングハードウェアを監視することによって、これを実現するための1つのメカニズムを分析する。 このフレームワークの主な目標は、合意されたルールに違反したトレーニングを実行するために、アクターが大量の特殊なMLチップを使用していないことを、政府に高い信頼を提供することである。 同時に、システムはコンシューマコンピューティングデバイスの使用を制限せず、ML実践者のモデル、データ、ハイパーパラメータのプライバシと機密性を維持する。 The system consists of interventions at three stages: (1) using on-chip firmware to occasionally save snapshots of the the neural network weights stored in device memory, in a form that an inspector could later retrieve; (2) saving sufficient information about each training run to prove to inspectors the details of the training run that had resulted in the snapshotted weights; and (3) monitoring the chip supply chain to ensure that no actor can avoid discovery by amassing a large quantity of un-tracked chips. 提案した設計は、MLトレーニングルール検証問題を、Proof-of-Learning問題[Jia et al. '21]の新しい変種を含む、一連の狭い技術的課題に分解する。

As advanced machine learning systems' capabilities begin to play a significant role in geopolitics and societal order, it may become imperative that (1) governments be able to enforce rules on the development of advanced ML systems within their borders, and (2) countries be able to verify each other's compliance with potential future international agreements on advanced ML development. This work analyzes one mechanism to achieve this, by monitoring the computing hardware used for large-scale NN training. The framework's primary goal is to provide governments high confidence that no actor uses large quantities of specialized ML chips to execute a training run in violation of agreed rules. At the same time, the system does not curtail the use of consumer computing devices, and maintains the privacy and confidentiality of ML practitioners' models, data, and hyperparameters. The system consists of interventions at three stages: (1) using on-chip firmware to occasionally save snapshots of the the neural network weights stored in device memory, in a form that an inspector could later retrieve; (2) saving sufficient information about each training run to prove to inspectors the details of the training run that had resulted in the snapshotted weights; and (3) monitoring the chip supply chain to ensure that no actor can avoid discovery by amassing a large quantity of un-tracked chips. The proposed design decomposes the ML training rule verification problem into a series of narrow technical challenges, including a new variant of the Proof-of-Learning problem [Jia et al. '21].
翻訳日:2023-06-02 02:51:29 公開日:2023-05-30
# Unit Scaling: アウトオブボックスの低精度トレーニング

Unit Scaling: Out-of-the-Box Low-Precision Training ( http://arxiv.org/abs/2303.11257v2 )

ライセンス: Link先を確認
Charlie Blake, Douglas Orr, Carlo Luschi(参考訳) 我々は,低精度数形式の使用を単純化する深層学習モデルを設計するためのパラダイムであるユニットスケーリングを提案する。 FP16や最近提案されたFP8フォーマットでのトレーニングは、大幅な効率向上をもたらすが、アウト・オブ・ザ・ボックスのトレーニングには十分な範囲がない。 ユニットスケーリングは、初期化時にすべてのウェイト、アクティベーション、勾配の単位分散を求めるという、数値モデルへの原則的なアプローチを導入することで、これに対処する。 代替手法とは異なり、このアプローチは適切なスケールを見つけるために複数のトレーニングを実行する必要はなく、計算オーバーヘッドも大きい。 様々なモデルとオプティマイザにまたがるユニットスケーリングの有効性を実証する。 さらに、既存のモデルを単位スケールに適応させ、FP16でBERTラージを訓練し、FP8で精度を劣化させることなくFP8を訓練できることを示す。

We present unit scaling, a paradigm for designing deep learning models that simplifies the use of low-precision number formats. Training in FP16 or the recently proposed FP8 formats offers substantial efficiency gains, but can lack sufficient range for out-of-the-box training. Unit scaling addresses this by introducing a principled approach to model numerics: seeking unit variance of all weights, activations and gradients at initialisation. Unlike alternative methods, this approach neither requires multiple training runs to find a suitable scale nor has significant computational overhead. We demonstrate the efficacy of unit scaling across a range of models and optimisers. We further show that existing models can be adapted to be unit-scaled, training BERT-Large in FP16 and then FP8 with no degradation in accuracy.
翻訳日:2023-06-02 02:51:04 公開日:2023-05-30
# 2023年。 実世界展開のための良質なレコメンダシステム

EvalRS 2023. Well-Rounded Recommender Systems For Real-World Deployments ( http://arxiv.org/abs/2304.07145v3 )

ライセンス: Link先を確認
Federico Bianchi, Patrick John Chia, Ciro Greco, Claudio Pomo, Gabriel Moreira, Davide Eynard, Fahd Husain, Jacopo Tagliabue(参考訳) EvalRSは、業界や学界の実践者たちを集めて、さまざまなデプロイメントシナリオにおける現実の影響に焦点を当てた、レコメンダシステムの丸い評価に関する議論を促進することを目的としている。 レコメンダシステムは、しばしば精度の指標によってのみ評価され、それらの一般化能力を完全に特徴づけることができず、公正性、バイアス、有用性、情報性といった重要な側面を見逃す。 このワークショップは、CIKMでの昨年のワークショップの成功に基づいているが、幅広いスコープとインタラクティブなフォーマットがある。

EvalRS aims to bring together practitioners from industry and academia to foster a debate on rounded evaluation of recommender systems, with a focus on real-world impact across a multitude of deployment scenarios. Recommender systems are often evaluated only through accuracy metrics, which fall short of fully characterizing their generalization capabilities and miss important aspects, such as fairness, bias, usefulness, informativeness. This workshop builds on the success of last year's workshop at CIKM, but with a broader scope and an interactive format.
翻訳日:2023-06-02 02:41:42 公開日:2023-05-30
# 微調整時のマルチモーダルモデルにおけるスプリアス相関の緩和

Mitigating Spurious Correlations in Multi-modal Models during Fine-tuning ( http://arxiv.org/abs/2304.03916v2 )

ライセンス: Link先を確認
Yu Yang, Besmira Nushi, Hamid Palangi, Baharan Mirzasoleiman(参考訳) モデル一般化を劣化させたり、間違った理由でモデルが正しいように導くような散発的な相関は、現実世界のデプロイメントにおける主要な強固な懸念の1つです。 しかしながら、大規模モデルの事前トレーニング中にこれらの相関を緩和することは、特に高性能コンピューティングリソースにアクセスできない人々にとって、コスト的かつ非実用的である。 本稿では,特定の関心領域の微調整における散発的相関に対処するための新しい手法を提案する。 提案手法は,マルチモーダルモデル(例えばCLIP)に焦点をあて,これらのモデルにおける異なるモダリティを活用して,言語を通してスプリアス関係を表現するマルチモーダルコントラスト損失関数を用いて,影響を受けるクラスからスプリアス属性を検出し,明示的に設定する。 このような介入が効果的に有効であることを示す実験結果とCLIPの詳細な可視化 一 突発的属性が存在しないときのモデルの精度を向上し、 ii) モデルのアクティベーションマップは、存在する場合のスプリアス属性ではなく、実際のクラスに向けられる。 特にwaterbirdsデータセットでは,resnet-50バックボーンを持つクリップのermよりも23%,vitバックボーンを持つクリップでは32%,ermと同じ平均精度を維持しながら,最悪のグループ精度を達成した。

Spurious correlations that degrade model generalization or lead the model to be right for the wrong reasons are one of the main robustness concerns for real-world deployments. However, mitigating these correlations during pre-training for large-scale models can be costly and impractical, particularly for those without access to high-performance computing resources. This paper proposes a novel approach to address spurious correlations during fine-tuning for a given domain of interest. With a focus on multi-modal models (e.g., CLIP), the proposed method leverages different modalities in these models to detect and explicitly set apart spurious attributes from the affected class, achieved through a multi-modal contrastive loss function that expresses spurious relationships through language. Our experimental results and in-depth visualizations on CLIP show that such an intervention can effectively i) improve the model's accuracy when spurious attributes are not present, and ii) directs the model's activation maps towards the actual class rather than the spurious attribute when present. In particular, on the Waterbirds dataset, our algorithm achieved a worst-group accuracy 23% higher than ERM on CLIP with a ResNet-50 backbone, and 32% higher on CLIP with a ViT backbone, while maintaining the same average accuracy as ERM.
翻訳日:2023-06-02 02:41:32 公開日:2023-05-30
# ID3モデル決定木を用いたIoTエッジデバイスのための歩行者意図分類器

Pedestrian Intention Classifier using ID3 Modelled Decision Trees for IoT Edge Devices ( http://arxiv.org/abs/2304.00206v2 )

ライセンス: Link先を確認
Sriram Radhakrishna, Adithya Balasubramanyam(参考訳) 自動運転車による交通事故は通常、(ペデストリアン)障害物が、非常に突然の時間間隔で移動中の車両の経路に現れる状況で発生し、ロボットがシーンの変化に反応する時間はさらに少なくなる。 本研究では,2次元フレームにおいて任意に選択された歩行者の意図を,メディアパイプポーズ推定モデルから生成された四元数を用いて手続き的に論理状態に分類するアルゴリズムの実装を提案する。 これは、主に深度認識の必要性の欠如と、ほとんどのIoTエッジデバイスに存在する計算リソースに対する暗黙の上限のため、比較的レイテンシの高いディープラーニングアルゴリズムを採用する必要性を回避している。 このモデルは平均的なテスト精度が83.56%、信頼性のある分散が0.0042であり、平均レイテンシ48ミリ秒で動作し、これらの知覚的タスクに時空間畳み込みネットワークを使用する現在の標準よりも、複数の顕著な利点を示した。

Road accidents involving autonomous vehicles commonly occur in situations where a (pedestrian) obstacle presents itself in the path of the moving vehicle at very sudden time intervals, leaving the robot even lesser time to react to the change in scene. In order to tackle this issue, we propose a novel algorithmic implementation that classifies the intent of a single arbitrarily chosen pedestrian in a two dimensional frame into logic states in a procedural manner using quaternions generated from a MediaPipe pose estimation model. This bypasses the need to employ any relatively high latency deep-learning algorithms primarily due to the lack of necessity for depth perception as well as an implicit cap on the computational resources that most IoT edge devices present. The model was able to achieve an average testing accuracy of 83.56% with a reliable variance of 0.0042 while operating with an average latency of 48 milliseconds, demonstrating multiple notable advantages over the current standard of using spatio-temporal convolutional networks for these perceptive tasks.
翻訳日:2023-06-02 02:40:14 公開日:2023-05-30
# 名前付きエンティティ認識におけるグローバルコンテキストとローカルコンテキストの役割

The Role of Global and Local Context in Named Entity Recognition ( http://arxiv.org/abs/2305.03132v2 )

ライセンス: Link先を確認
Arthur Amalvy, Vincent Labatut, Richard Dufour(参考訳) Named Entity Recognition (NER)に適用した場合、事前訓練されたトランスフォーマーベースのモデルの性能が向上した。 自己追跡機構の複雑さにより、長い文書を一度に処理できないため、これらのモデルは通常シーケンシャルに適用される。 このようなアプローチは、残念ながらローカルコンテキストのみを取り入れており、小説などの長文文書におけるグローバルドキュメントコンテキストの活用を妨げている。 本稿では,グローバルな文書コンテキストの影響と,そのローカルなコンテキストとの関係について考察する。 グローバルなドキュメントコンテキストを正しく取得することは、ローカルコンテキストのみを活用することよりもパフォーマンスに大きな影響を与え、そのコンテキストをよりよく取得する方法のさらなる研究を促す。

Pre-trained transformer-based models have recently shown great performance when applied to Named Entity Recognition (NER). As the complexity of their self-attention mechanism prevents them from processing long documents at once, these models are usually applied in a sequential fashion. Such an approach unfortunately only incorporates local context and prevents leveraging global document context in long documents such as novels, which might hinder performance. In this article, we explore the impact of global document context, and its relationships with local context. We find that correctly retrieving global document context has a greater impact on performance than only leveraging local context, prompting for further research on how to better retrieve that context.
翻訳日:2023-06-02 02:30:47 公開日:2023-05-30
# Moccasin: ニューラルネットワークのための効率的なテンソルリマテリアル化

Moccasin: Efficient Tensor Rematerialization for Neural Networks ( http://arxiv.org/abs/2304.14463v2 )

ライセンス: Link先を確認
Burak Bartan, Haoming Li, Harris Teague, Christopher Lott, Bistra Dilkina(参考訳) エッジコンピューティングデバイスへのニューラルネットワークのデプロイとトレーニングは多くの課題を生んでいる。 エッジデバイスの低メモリ性は、大規模ニューラルネットワークモデルの展開において遭遇する最大の制限要因の1つである。 テンソルのリマテリアル化や再計算は、ニューラルネットワークのトレーニングと推論のための高メモリ要求に対処する方法である。 本稿では,メモリ予算を考慮した計算グラフの実行時間最小化の問題について考察する。 特に,計算グラフ内のノード数である$n$を整数変数として,$O(n)$のみを含む,新しい制約プログラミング式である‘textsc{Moccasin} を開発した。 これは、$O(n^2)$ Boolean変数の定式化を提案する最近の文献の作業よりも大幅に改善されている。 本稿では,近年の研究,特に大規模グラフに対するアプローチが最大で1桁高速であることを示す数値研究を行う。

The deployment and training of neural networks on edge computing devices pose many challenges. The low memory nature of edge devices is often one of the biggest limiting factors encountered in the deployment of large neural network models. Tensor rematerialization or recompute is a way to address high memory requirements for neural network training and inference. In this paper we consider the problem of execution time minimization of compute graphs subject to a memory budget. In particular, we develop a new constraint programming formulation called \textsc{Moccasin} with only $O(n)$ integer variables, where $n$ is the number of nodes in the compute graph. This is a significant improvement over the works in the recent literature that propose formulations with $O(n^2)$ Boolean variables. We present numerical studies that show that our approach is up to an order of magnitude faster than recent work especially for large-scale graphs.
翻訳日:2023-06-02 02:29:29 公開日:2023-05-30
# ゼノ効果の様々な形態からのグローバースピードアップ

Grover Speedup from Many Forms of the Zeno Effect ( http://arxiv.org/abs/2305.11146v2 )

ライセンス: Link先を確認
Jesse Berwald, Nick Chancellor, Raouf Dridi(参考訳) 従来、固有状態間の動的位相による連続的ゼノ効果に基づく断熱量子計算は、グローバーのような量子スピードアップを最適に実現できることが確立されてきた。 言い換えれば、Groverのオリジナルのアルゴリズムと同じ$\sqrt{N}$スケールで、構造化されていない探索問題を解くことができる。 自然な疑問は、ゼノ効果の他の表現が物理的に現実的なモデルにおいて最適なスピードアップをサポートすることができるかどうかである(普遍ゲート集合を間接的にサポートするのではなく、直接アナログアプリケーションを通して)。 本稿では, 励起状態の測定, デコヒーレンス, 破壊等により, 計算上役に立たない状態まで, 速度アップを支援できることを示す。 また,zenoの動作に依存しないスピードアップを実現するための多種多様な手法を提案する。 これらのアルゴリズムを3つのファミリーに分類し,速度向上の方法に関する構造化理解を促進する。1つは断熱計算と連続時間量子ウォークを含む位相キック,もう1つは強調と測定,もう1つは励起状態における振幅の破壊に基づく。 これらの結果から,アナログ量子コンピューティングの新たなパラダイムが期待できる可能性が示唆された。

It has previously been established that adiabatic quantum computation, operating based on a continuous Zeno effect due to dynamical phases between eigenstates, is able to realise an optimal Grover-like quantum speedup. In other words is able to solve an unstructured search problem with the same $\sqrt{N}$ scaling as Grover's original algorithm. A natural question is whether other manifestations of the Zeno effect can also support an optimal speedup in a physically realistic model (through direct analog application rather than indirectly by supporting a universal gateset). In this paper we show that they can support such a speedup, whether due to measurement, decoherence, or even decay of the excited state into a computationally useless state. Our results also suggest a wide variety of methods to realise speedup which do not rely on Zeno behaviour. We group these algorithms into three families to facilitate a structured understanding of how speedups can be obtained: one based on phase kicks, containing adiabatic computation and continuous-time quantum walks; one based on dephasing and measurement; and finally one based on destruction of the amplitude within the excited state, for which we are not aware of any previous results. These results suggest that there may be exciting opportunities for new paradigms of analog quantum computing based on these effects.
翻訳日:2023-06-02 02:23:17 公開日:2023-05-30
# 土地被覆分類における信頼指導型半教師あり学習

Confidence-Guided Semi-supervised Learning in Land Cover Classification ( http://arxiv.org/abs/2305.10344v2 )

ライセンス: Link先を確認
Wanli Ma, Oktay Karakus, Paul L. Rosin(参考訳) 半教師付き学習は、大量の未ラベルデータを活用することで、手動ラベリングのコスト削減に有効である。 特に土地被覆分類の適用において,大規模画像におけるピクセルレベルの手動ラベリングは,労働集約的,時間消費的,高価である。 しかし,既存の半教師あり学習手法は,トレーニングデータの品質がネットワーク性能を決定する重要な要因の1つであるにもかかわらず,トレーニング中の擬似ラベルの品質に限定的に注意を払っている。 このギャップを埋めるために,信頼度に基づく半教師付き学習(cgssl)手法を開発し,信頼度の高い擬似ラベルを活用し,低信頼学習による土地被覆分類の悪影響を低減した。 一方,提案手法では,複数のネットワークアーキテクチャを用いて擬似ラベルの多様性を向上させる。 提案手法は,従来の半教師付き学習手法と比較して,土地被覆分類の性能を著しく向上させるとともに,ベンチマークポツダム土地被覆データセットのラベル付き画像の完全なセットで完全に教師付き学習を上回ります。

Semi-supervised learning has been well developed to help reduce the cost of manual labelling by exploiting a large quantity of unlabelled data. Especially in the application of land cover classification, pixel-level manual labelling in large-scale imagery is labour-intensive, time-consuming and expensive. However, existing semi-supervised learning methods pay limited attention to the quality of pseudo-labels during training even though the quality of training data is one of the critical factors determining network performance. In order to fill this gap, we develop a confidence-guided semi-supervised learning (CGSSL) approach to make use of high-confidence pseudo labels and reduce the negative effect of low-confidence ones for land cover classification. Meanwhile, the proposed semi-supervised learning approach uses multiple network architectures to increase the diversity of pseudo labels. The proposed semi-supervised learning approach significantly improves the performance of land cover classification compared to the classic semi-supervised learning methods and even outperforms fully supervised learning with a complete set of labelled imagery of the benchmark Potsdam land cover dataset.
翻訳日:2023-06-02 02:21:46 公開日:2023-05-30
# Davinci the Dualist : 大きな言語モデルと人間の学習者における心身分割

Davinci the Dualist: the mind-body divide in large language models and in human learners ( http://arxiv.org/abs/2305.07667v2 )

ライセンス: Link先を確認
Iris Berent, Alexzander Sansiveri(参考訳) 大きな文献では、人々は直感的な双対主義者であることを示唆している。 過去の研究は、デュアラリズムが学習を通して現れることも示している(例えば、Barlev & Shtulman, 2021)。 しかし、人間の学習者からの証拠は、人間は一般の学習能力だけでなく、コアとなる知識能力も与えられているため、この疑問に答えている。 そして最近の結果は、コア知識が双対性(berent, theodore & valencia, 2021; berent, 2023)をもたらすことを示唆している。 学習の役割を評価するために,本研究は,本研究のコア知識を欠く大規模言語モデル(llm)のdavinciにおける心身分断について検討する。 ダヴィンチは依然として双対主義に傾き、このバイアスは学習者の帰納的ポテンシャルとともに体系的に増加する。 したがって、davinci(GPT-3モデル)は緩やかなデュアル傾向を示し、その子孫であるtext-davinci-003(GPT-3.5モデル)は完全なバイアスを示す。 思考(感情状態)を身体(脳内)に現れることはありそうにないが、その不在(死後)には現れない、と選択的に考える。 ダヴィンチのパフォーマンスは構文上の制限によって制限され、人間とは異なるが、双対バイアスは頑健である。 これらの結果は、心の分裂が経験から部分的に学べることを示しており、LLMが人間の物語に触れるにつれて、人間の知識だけでなく人間のバイアスも引き起こすことを示す。

A large literature suggests that people are intuitive Dualists--they consider the mind ethereal, distinct from the body. Past research also shows that Dualism emerges, in part, via learning (e.g., Barlev & Shtulman, 2021). But whether learning is sufficient to give rise to Dualism is unknown.The evidence from human learners does address this question because humans are endowed not only with general learning capacities but also with core knowledge capacities. And recent results suggest that core knowledge begets Dualism (Berent, Theodore & Valencia, 2021; Berent, 2023). To evaluate the role of learning, here, we probe for a mind-body divide in Davinci--a large language model (LLM) that is devoid of any innate core knowledge. We show that Davinci still leans towards Dualism, and that this bias increases systematically with the learner's inductive potential. Thus, davinci (a GPT-3 model) exhibits mild Dualist tendencies, whereas its descendent, text-davinci-003 (a GPT-3.5 model), shows a full-blown bias. It selectively considers thoughts (epistemic states) as disembodied--as unlikely to show up in the body (in the brain), but not in its absence (after death). While Davinci's performance is constrained by its syntactic limitations, and it differs from humans, its Dualist bias is robust. These results demonstrate that the mind-body divide is partly learnable from experience.They also show how, as LLM's are exposed to human narratives, they induce not only human knowledge but also human biases.
翻訳日:2023-06-02 02:20:23 公開日:2023-05-30
# 量子力学における時間矢印の起源について

On the Origin of Time's Arrow in Quantum Mechanics ( http://arxiv.org/abs/2305.15468v2 )

ライセンス: Link先を確認
Nemanja Kaloper(参考訳) 時間矢印は量子力学的進化によって生成され、系が非退化状態の非常に多くの${\cal N}$を持ち、下からハミルトニアンが有界であるときに発生する。 もし${\cal N}$が有限であれば、矢印は不完全であり、進化は過去の状態を復活させることができる。 極限${\cal N} \rightarrow \infty$ では、矢印は 'tooth of time' によって固定される: 自発放出によって引き起こされる励起状態の基底状態への崩壊は、相互作用と無限大へのエネルギーと情報を運ぶ多数の崩壊生成物によって仲介される。

We point out that time's arrow is generated by quantum mechanical evolution, whenever the systems have a very large number ${\cal N}$ of non-degenerate states and a Hamiltonian bounded from below. When ${\cal N}$ is finite, the arrow can be imperfect, since evolution can resurrect past states. In the limit ${\cal N} \rightarrow \infty$ the arrow is fixed by the ``tooth of time": the decay of excited states induced by {\it spontaneous emission} to the ground state, mediated by interactions and a large number of decay products which carry energy and information to infinity.
翻訳日:2023-06-02 02:11:30 公開日:2023-05-30
# ハニー、私は言語を縮小した: 縮小されたスケールでの言語モデル行動

Honey, I Shrunk the Language: Language Model Behavior at Reduced Scale ( http://arxiv.org/abs/2305.17266v2 )

ライセンス: Link先を確認
Vijeta Deshpande, Dan Pechi, Shree Thatte, Vladislav Lialin, Anna Rumshisky(参考訳) 近年,言語モデルのサイズが大幅に拡大し,これらのモデルの能力は大規模に向上することが示されている。 近年のスケーリング法則の大部分がハイコンピュートなハイパラメータ数の設定に焦点を合わせており、これらの能力がいつ出現し始めるのかという疑問が残されている。 本稿では,問題の大きさが小さくなったら事前学習の効果を観察できるかどうかを,より小さく,少ない語彙言語をモデル化して検討する。 マスク付き言語モデリング(MLM)モデルにおける事前学習の利点を1.25Mパラメータとして示すとともに、事前学習の難易度とダウンストリーム性能(GLUEベンチマーク)の強い相関性を確立する。 スケール法則を約1Mパラメータのモデルに拡張し,ダウンスケーリング効果を検討した。 このスケールでは、計算最適モデルに対する電力法則の破れを観察し、計算コスト (FLOPs) が 2.2 \times 10^{15}$ FLOPs 以下である場合、MLM損失はスムーズにスケールしないことを示す。 また、レイヤの追加が下流のパフォーマンスに必ずしも利益をもたらすとは限らないことも分かりました。

In recent years, language models have drastically grown in size, and the abilities of these models have been shown to improve with scale. The majority of recent scaling laws studies focused on high-compute high-parameter count settings, leaving the question of when these abilities begin to emerge largely unanswered. In this paper, we investigate whether the effects of pre-training can be observed when the problem size is reduced, modeling a smaller, reduced-vocabulary language. We show the benefits of pre-training with masked language modeling (MLM) objective in models as small as 1.25M parameters, and establish a strong correlation between pre-training perplexity and downstream performance (GLUE benchmark). We examine downscaling effects, extending scaling laws to models as small as ~1M parameters. At this scale, we observe a break of the power law for compute-optimal models and show that the MLM loss does not scale smoothly with compute-cost (FLOPs) below $2.2 \times 10^{15}$ FLOPs. We also find that adding layers does not always benefit downstream performance.
翻訳日:2023-06-02 02:03:41 公開日:2023-05-30
# パワーロー相互作用を持つ2次元スピン模型におけるテンソルネットワークを用いた位相空間法の検証

Validating phase-space methods with tensor networks in two-dimensional spin models with power-law interactions ( http://arxiv.org/abs/2305.17242v2 )

ライセンス: Link先を確認
Sean R. Muleady, Mingru Yang, Steven R. White, Ana Maria Rey(参考訳) 最近開発された行列積状態の時間依存性変動原理の拡張を用いて、様々な実験プラットフォームで実装可能な2次元パワーロー相互作用XXZモデルのダイナミクスを評価する。 系の相関の尺度としてスピンスクイージングを計算し、離散切断ウィグナー近似(dtwa)を用いた半古典的位相空間計算と比較する。 これらのシステムでは, 相対的に資源集約的なテンソルネットワーク表現にもかかわらず, システムサイズとの絡み合いのスケーリングを効率よく, 正確に把握する。 またDTWAの定常挙動と熱アンサンブル計算をテンソルネットワークと比較した。 この結果から,2次元量子系の動的計算をベンチマークし,拡張性のある絡み合った資源の生成に関する最近の予測を厳密に検証することが可能になる。

Using a recently developed extension of the time-dependent variational principle for matrix product states, we evaluate the dynamics of 2D power-law interacting XXZ models, implementable in a variety of state-of-the-art experimental platforms. We compute the spin squeezing as a measure of correlations in the system, and compare to semiclassical phase-space calculations utilizing the discrete truncated Wigner approximation (DTWA). We find the latter efficiently and accurately captures the scaling of entanglement with system size in these systems, despite the comparatively resource-intensive tensor network representation of the dynamics. We also compare the steady-state behavior of DTWA to thermal ensemble calculations with tensor networks. Our results open a way to benchmark dynamical calculations for two-dimensional quantum systems, and allow us to rigorously validate recent predictions for the generation of scalable entangled resources for metrology in these systems.
翻訳日:2023-06-02 02:03:04 公開日:2023-05-30
# ユニバーサル量子技術教育プログラム

A Universal Quantum Technology Education Program ( http://arxiv.org/abs/2305.15959v2 )

ライセンス: Link先を確認
Sanjay Vishwakarma, Shalini D, Srinjoy Ganguly, Sai Nandan Morapakula(参考訳) 量子技術は、物理学、数学、その他の科学分野における計算と研究の新しいパラダイムを提供する新しい最先端分野である。 この技術は、世界中の政府にとって戦略的に重要であり、軍事、宇宙、教育の面で競争上の優位性を得るために、多額の投資と予算が認可されている。 このため、この技術を大規模に実装するために必要な教育と研究の必要性を理解することが重要である。 本稿では,量子ハードウェアとソフトウェアスキルのバランスを保ち,専門家の活用性を高めることにより,今日の学術機関や組織が直面するスキル不足を低減できる,新しいユニバーサル量子技術マスターズカリキュラムを提案する。 提案カリキュラムは、スタートアップが直面するPhDの採用圧力を減らし、量子研究におけるバランスのとれた科学思想の成長を促進することにより、量子教育エコシステムに革命をもたらす可能性を秘めている。

Quantum technology is an emerging cutting-edge field which offers a new paradigm for computation and research in the field of physics, mathematics and other scientific disciplines. This technology is of strategic importance to governments globally and heavy investments and budgets are being sanctioned to gain competitive advantage in terms of military, space and education. Due to this, it is important to understand the educational and research needs required to implement this technology at a large scale. Here, we propose a novel universal quantum technology master's curriculum which comprises a balance between quantum hardware and software skills to enhance the employability of professionals thereby reducing the skill shortage faced by the academic institutions and organizations today. The proposed curriculum holds the potential to revolutionize the quantum education ecosystem by reducing the pressure of hiring PhDs faced by startups and promoting the growth of a balanced scientific mindset in quantum research.
翻訳日:2023-06-02 02:00:39 公開日:2023-05-30
# Happenstance: セマンティック検索を利用して、Reddit上のロシア・ウクライナ戦争に関するロシア国営メディアのナラティブを追跡

Happenstance: Utilizing Semantic Search to Track Russian State Media Narratives about the Russo-Ukrainian War On Reddit ( http://arxiv.org/abs/2205.14484v3 )

ライセンス: Link先を確認
Hans W. A. Hanley, Deepak Kumar, Zakir Durumeric(参考訳) ロシア連邦がウクライナに侵攻してから数週間の間に、ロシア国営メディアは誤った情報や全くの虚偽情報を流し出した。 本研究では,この協調情報キャンペーンについて,ロシア政府から英語を話す聴衆に伝えられる最も顕著なメディアの物語を理解するために検討した。 そこで,我々はまず,ロシア親ロシア派のプロパガンダサイトであるwaronfakes.comを含む10種類の記事に対して,大言語モデルmpnetを用いて文レベルの話題分析を行った。 このエコシステム内では、Katehon.comのような小さなWebサイトが、後に他のロシアのサイトによって反映されたトピックのパブリッシングに非常に効果的であったことを示す。 ロシアの情報ナラティブを分析した後、r/russiaと他の10の政治サブredditに関するナラティブとトピックの対応を分析する。 MPNetとセマンティックサーチアルゴリズムを用いて、これらのサブレディットのコメントをロシアのウェブサイトから抽出したトピックの集合にマッピングし、r/ロシアコメントの39.6%がロシアのプロパガンダウェブサイトの物語に対応していることがわかった。

In the buildup to and in the weeks following the Russian Federation's invasion of Ukraine, Russian state media outlets output torrents of misleading and outright false information. In this work, we study this coordinated information campaign in order to understand the most prominent state media narratives touted by the Russian government to English-speaking audiences. To do this, we first perform sentence-level topic analysis using the large-language model MPNet on articles published by ten different pro-Russian propaganda websites including the new Russian "fact-checking" website waronfakes.com. Within this ecosystem, we show that smaller websites like katehon.com were highly effective at publishing topics that were later echoed by other Russian sites. After analyzing this set of Russian information narratives, we then analyze their correspondence with narratives and topics of discussion on the r/Russia and 10 other political subreddits. Using MPNet and a semantic search algorithm, we map these subreddits' comments to the set of topics extracted from our set of Russian websites, finding that 39.6% of r/Russia comments corresponded to narratives from pro-Russian propaganda websites compared to 8.86% on r/politics.
翻訳日:2023-06-01 23:36:22 公開日:2023-05-30
# 地図の再分割に対する距離の影響:中央地図と外部地図

Implications of Distance over Redistricting Maps: Central and Outlier Maps ( http://arxiv.org/abs/2203.00872v4 )

ライセンス: Link先を確認
Seyed A. Esmaeili, Darshan Chakrabarti, Hayley Grape, Brian Brubach(参考訳) 代表制民主主義では、選挙区を選挙区に分割し、それぞれが代表を選出する再選地図が選択される。 有効な再限定写像は、コンパクトで連続であり、ほぼ同じ人口の制約の集合を満たさなければならない。 しかし、これらの制約は、有効な再限定写像の巨大なアンサンブルを可能にするのに十分緩い。 この事実は地図の再区画化の難しさを招き、党派議会が不公平に好む地図を選ぶことで、おそらくはゲリマンダーにすることができる。 本稿では、選挙結果を使用しない再限定地図に対する解釈可能かつトラクタブルな距離測度を導入し、再限定地図のアンサンブルに対する影響について検討する。 具体的には、中央の地図を「最も典型的な」と見なすことができ、それに対する厳密な正当性を示すために、再配置された地図の集合について委員会が投票するシナリオにおいて、それがケメニーのランキングを反映していることを示す。 我々は,アルゴリズムを用いて保持する負の結果を含む,実行時およびサンプルの複雑性分析を含む。 さらに,この距離測定に基づいて外乱検出を行う。 より正確には、我々の中心地図から非常に遠く離れたゲリーマンダーマップと、有効な再分節マップの大規模なアンサンブルを示す。 我々の距離尺度は選挙結果に依存しないので、従来の方法に欠けているゲリーマンデリング検出において大きな利点がある。

In representative democracy, a redistricting map is chosen to partition an electorate into a collection of districts each of which elects a representative. A valid redistricting map must satisfy a collection of constraints such as being compact, contiguous, and of almost equal population. However, these imposed constraints are still loose enough to enable an enormous ensemble of valid redistricting maps. This fact introduces a difficulty in drawing redistricting maps and it also enables a partisan legislature to possibly gerrymander by choosing a map which unfairly favors it. In this paper, we introduce an interpretable and tractable distance measure over redistricting maps which does not use election results and study its implications over the ensemble of redistricting maps. Specifically, we define a central map which may be considered as being "most typical" and give a rigorous justification for it by showing that it mirrors the Kemeny ranking in a scenario where we have a committee voting over a collection of redistricting maps to be drawn. We include run-time and sample complexity analysis for our algorithms, including some negative results which hold using any algorithm. We further study outlier detection based on this distance measure. More precisely, we show gerrymandered maps that lie very far away from our central maps in comparison to a large ensemble of valid redistricting maps. Since our distance measure does not rely on election results, this gives a significant advantage in gerrymandering detection which is lacking in all previous methods.
翻訳日:2023-06-01 23:35:56 公開日:2023-05-30
# 多目的マルチアームバンドにおけるパレートレグレス解析

Pareto Regret Analyses in Multi-objective Multi-armed Bandit ( http://arxiv.org/abs/2212.00884v2 )

ライセンス: Link先を確認
Mengfan Xu, Diego Klabjan(参考訳) 本研究では,多目的多目的多目的バンディットのパレート最適性を,対向多目的多目的バンディットの定式化と,対向的および対向的両方の設定に適用可能なパレートの後悔を定義することによって検討する。 後悔はいかなるスカラー化機能にも依存せず、スカラー化された後悔と比べてパレートの最適性を反映している。 また,多目的多目的バンディット設定の事前情報と不要情報の両方を仮定する新しいアルゴリズムを提案する。 これらのアルゴリズムは, 対数的設定において最適であり, 確率的設定における対数的要素までほぼ最適である。 さらに, 下部境界解析により, 新たな後悔は確率的設定に対する既存のパレートの後悔と一致し, バンディットから多目的攻撃へ敵意攻撃機構を拡張できることを示した。

We study Pareto optimality in multi-objective multi-armed bandit by providing a formulation of adversarial multi-objective multi-armed bandit and defining its Pareto regrets that can be applied to both stochastic and adversarial settings. The regrets do not rely on any scalarization functions and reflect Pareto optimality compared to scalarized regrets. We also present new algorithms assuming both with and without prior information of the multi-objective multi-armed bandit setting. The algorithms are shown optimal in adversarial settings and nearly optimal up to a logarithmic factor in stochastic settings simultaneously by our established upper bounds and lower bounds on Pareto regrets. Moreover, the lower bound analyses show that the new regrets are consistent with the existing Pareto regret for stochastic settings and extend an adversarial attack mechanism from bandit to the multi-objective one.
翻訳日:2023-06-01 23:29:02 公開日:2023-05-30
# サンプル効率の良いNLPモデルはよりロバストか?

Are Sample-Efficient NLP Models More Robust? ( http://arxiv.org/abs/2210.06456v2 )

ライセンス: Link先を確認
Nelson F. Liu and Ananya Kumar and Percy Liang and Robin Jia(参考訳) 近年,画像分類と抽出的質問応答の結果から,学習済みの学習モデルの方が,分散性能が向上していることがわかった。 しかし、これらの傾向がどの程度広まるかは不明である。 3つのタスク,3つの広く適用可能なモデリング介入(モデルサイズの向上,異なる適応法の使用,より多くのデータへの事前トレーニング),14の多様なデータセットを用いて,サンプル効率(所定のid精度に達するために必要なデータ量)とロバスト性(モデルがood評価にどう影響するか)の関係を調査した。 高いサンプル効率は、いくつかのモデリング介入やタスクにおいて、より平均的なOODロバスト性にのみ相関するが、それ以外は相関しない。 個々のデータセットでは、サンプル効率の低いモデルの方がより堅牢である。 これらの結果から,サンプル効率向上のための汎用手法は,データセットとタスクに依存した汎用的なOODロバスト性向上をもたらす可能性が示唆された。 大規模な多目的事前訓練モデルの時代でさえ、OOD一般化にはタスク固有の決定がしばしば必要である。

Recent results in image classification and extractive question answering have observed that pre-trained models trained on less in-distribution data have better out-of-distribution performance. However, it is unclear how broadly these trends hold. We conduct a large empirical study across three tasks, three broadly-applicable modeling interventions (increasing model size, using a different adaptation method, and pre-training on more data), and 14 diverse datasets to investigate the relationship between sample efficiency (amount of data needed to reach a given ID accuracy) and robustness (how models fare on OOD evaluation). We find that higher sample efficiency is only correlated with better average OOD robustness on some modeling interventions and tasks, but not others. On individual datasets, models with lower sample efficiency can even be more robust. These results suggest that general-purpose methods for improving sample efficiency are unlikely to yield universal OOD robustness improvements, since such improvements are highly dataset- and task-dependent. Even in an era of large, multi-purpose pretrained models, task-specific decisions may often be necessary for OOD generalization.
翻訳日:2023-06-01 23:27:22 公開日:2023-05-30
# 多次元時空間データに対するベイズ補間学習

Bayesian Complementary Kernelized Learning for Multidimensional Spatiotemporal Data ( http://arxiv.org/abs/2208.09978v2 )

ライセンス: Link先を確認
Mengying Lei, Aurelie Labbe, Lijun Sun(参考訳) 多次元時空間データの確率的モデリングは多くの実世界応用に不可欠である。 実世界の時空間データは、しばしば非定常かつ非分離的な複雑な依存関係を示すため、長距離と短スケールの両方の変動を含む非定常/非分離プロセスに対応する、効率的で効率的な統計モデルを開発することは、特に様々な汚職/欠落構造を持つ大規模データセットにとって難しい課題となる。 本稿では,多次元時空間データに対するスケーラブルな確率的モデリングを実現するため,ベイズ補足化学習(BCKL)という新しい統計フレームワークを提案する。 複雑な依存関係を効果的に特徴づけるために、BCKLは2つの補完的なアプローチ、カーネル化された低ランクテンソル因子化と短距離時空間ガウス過程を統合する。 具体的には,データ内の大域的/長期的相関を捉えるために,マルチ線形低ランク分解成分を用い,コンパクトにサポートされたカーネル関数に基づく付加的短スケールGPを導入し,残りの局所変数を特徴付ける。 モデル推論のための効率的なマルコフ連鎖モンテカルロ (MCMC) アルゴリズムを開発し, 合成および実世界の時空間データセット上でのBCKLフレームワークの評価を行った。 実験結果から,BCKLは高精度な後部平均値と高品質な不確実性推定値を提供することで,時空間データモデリングにおいてグローバル成分と局所成分の両方が重要であることを確認した。

Probabilistic modeling of multidimensional spatiotemporal data is critical to many real-world applications. As real-world spatiotemporal data often exhibits complex dependencies that are nonstationary and nonseparable, developing effective and computationally efficient statistical models to accommodate nonstationary/nonseparable processes containing both long-range and short-scale variations becomes a challenging task, in particular for large-scale datasets with various corruption/missing structures. In this paper, we propose a new statistical framework -- Bayesian Complementary Kernelized Learning (BCKL) -- to achieve scalable probabilistic modeling for multidimensional spatiotemporal data. To effectively characterize complex dependencies, BCKL integrates two complementary approaches -- kernelized low-rank tensor factorization and short-range spatiotemporal Gaussian Processes. Specifically, we use a multi-linear low-rank factorization component to capture the global/long-range correlations in the data and introduce an additive short-scale GP based on compactly supported kernel functions to characterize the remaining local variabilities. We develop an efficient Markov chain Monte Carlo (MCMC) algorithm for model inference and evaluate the proposed BCKL framework on both synthetic and real-world spatiotemporal datasets. Our experiment results show that BCKL offers superior performance in providing accurate posterior mean and high-quality uncertainty estimates, confirming the importance of both global and local components in modeling spatiotemporal data.
翻訳日:2023-06-01 23:26:16 公開日:2023-05-30
# Decoder-Only Transformer言語モデルの計算力について

On the Computational Power of Decoder-Only Transformer Language Models ( http://arxiv.org/abs/2305.17026v2 )

ライセンス: Link先を確認
Jesse Roberts(参考訳) 本稿ではデコーダのみの変圧器モデルの計算普遍性を理論的に評価する。 トランスフォーマモデルに関する理論的文献を拡張し、デコーダのみのトランスフォーマアーキテクチャ(単層と単層のみ)が妥当な仮定の下でチューリング完全であることを示す。 理論的解析から,単語埋め込みがチューリング完全性を保持するために必要な条件であることを示す。

This article presents a theoretical evaluation of the computational universality of decoder-only transformer models. We extend the theoretical literature on transformer models and show that decoder-only transformer architectures (even with only a single layer and single attention head) are Turing complete under reasonable assumptions. From the theoretical analysis, we show sparsity/compressibility of the word embedding to be a necessary condition for Turing completeness to hold.
翻訳日:2023-06-01 23:16:59 公開日:2023-05-30
# 英語の中型GPTモデルをスペイン語の小さな閉領域にアライメントする

Aligning a medium-size GPT model in English to a small closed domain in Spanish ( http://arxiv.org/abs/2303.17649v3 )

ライセンス: Link先を確認
Oscar R. Navarrete-Parra, Victor Uc-Cetina, Jorge Reyes-Magana(参考訳) 本稿では,もともとオープンドメインのために英語で訓練された中規模gptモデルを,スペイン語の小さなクローズドドメインに整合させる手法を提案する。 モデルを微調整したアプリケーションは、質問応答タスクである。 これを実現するためには、別のニューラルネットワーク(報酬モデルと呼んでいます)をトレーニングし、実装する必要があります。 このコンポーネントは、システムのデコードと応答の生成を改善するのに役立った。 BLEUやパープレキシティなどの数値指標をモデル評価に使用し、デコード手法と他の手法との比較にも人的判断を用いた。 その結果,提案手法が好適であり,報奨モデルを用いて応答の生成を調整することが可能であることが判明した。

In this paper, we propose a methodology to align a medium-sized GPT model, originally trained in English for an open domain, to a small closed domain in Spanish. The application for which the model is finely tuned is the question answering task. To achieve this we also needed to train and implement another neural network (which we called the reward model) that could score and determine whether an answer is appropriate for a given question. This component served to improve the decoding and generation of the answers of the system. Numerical metrics such as BLEU and perplexity were used to evaluate the model, and human judgment was also used to compare the decoding technique with others. Finally, the results favored the proposed method, and it was determined that it is feasible to use a reward model to align the generation of responses.
翻訳日:2023-06-01 23:16:04 公開日:2023-05-30
# int4量子化のトランスフォーマモデルへの応用 : レイテンシ高速化,コンポーザビリティ,障害ケース

Understanding INT4 Quantization for Transformer Models: Latency Speedup, Composability, and Failure Cases ( http://arxiv.org/abs/2301.12017v2 )

ライセンス: Link先を確認
Xiaoxia Wu, Cheng Li, Reza Yazdani Aminabadi, Zhewei Yao, Yuxiong He(参考訳) 高い計算コストとメモリコストを考えると、トランスフォーマーベースの言語モデルのデプロイ効率の向上は困難である。 INT8量子化は、モデル精度を維持しながらメモリコストとレイテンシの両方を削減するのに有効であることが最近示されているが、INT4(ハードウェアスループットのピークを2倍にする)を活用してさらなるレイテンシ改善を実現することができるかどうかは不明だ。 本研究では、言語モデルにおけるINT4重みとアクティベーション(W4A4)量子化の実現可能性について検討する。 以上の結果から,w4a4量子化ではエンコーダのみおよびエンコーダデコーダモデルでは精度低下が認められず,デコーダのみモデルでは大きな精度低下がみられた。 w4a4を用いた性能向上を実現するため、異なる量子化戦略をサポートする高度に最適化されたエンドツーエンドw4a4エンコーダ推論パイプラインを開発した。 私たちのINT4パイプラインは、レイテンシ指向のシナリオでは8.5\times$、スループット指向のシナリオでは最大$3\times$でFP16の推論よりも高速です。 我々は、デコーダのみのモデルにw4a4を適用する場合の障害事例に関する洞察を提供し、さらにpruningやlayer reductionといった他の圧縮手法とのint4量子化の互換性について検討する。

Improving the deployment efficiency of transformer-based language models has been challenging given their high computation and memory cost. While INT8 quantization has recently been shown to be effective in reducing both the memory cost and latency while preserving model accuracy, it remains unclear whether we can leverage INT4 (which doubles peak hardware throughput) to achieve further latency improvement. In this study, we explore the feasibility of employing INT4 weight and activation (W4A4) quantization for language models. Our findings indicate that W4A4 quantization introduces no to negligible accuracy degradation for encoder-only and encoder-decoder models, but causes a significant accuracy drop for decoder-only models. To materialize the performance gain using W4A4, we develop a highly optimized end-to-end W4A4 encoder inference pipeline supporting different quantization strategies. Our INT4 pipeline is $8.5\times$ faster for latency-oriented scenarios and up to $3\times$ for throughput-oriented scenarios compared to the inference of FP16, and improves the SOTA BERT INT8 performance from FasterTransformer by up to $1.7\times$. We provide insights into the failure cases when applying W4A4 to decoder-only models, and further explore the compatibility of INT4 quantization with other compression methods, like pruning and layer reduction.
翻訳日:2023-06-01 23:15:17 公開日:2023-05-30
# I Cast Detectings: Learning to Converses and Guide with Intents and-of-Mind in Dungeons and Dragons

I Cast Detect Thoughts: Learning to Converse and Guide with Intents and Theory-of-Mind in Dungeons and Dragons ( http://arxiv.org/abs/2212.10060v2 )

ライセンス: Link先を確認
Pei Zhou, Andrew Zhu, Jennifer Hu, Jay Pujara, Xiang Ren, Chris Callison-Burch, Yejin Choi, Prithviraj Ammanabrolu(参考訳) 本稿では,教師と生徒の自然言語相互作用を目標駆動環境と接地環境において学習するための新しいタスクg4cを提案する。 ダンジョンズ&ドラゴンズ(d&d)はロールプレイングゲームであり、そのような相互作用を調査するのに理想的な設定を提供する。 ここで、ダンジョンマスター(dungeon master、dm)は、ファンタジーの世界に根ざした共通の目標を達成するために、数人のプレイヤー(それぞれが個性と能力を持つ学生)の行動を指導する。 我々のアプローチは,(1)プレイヤーを目標に向かって誘導するDMの意図,(2)その意図を表現しているプレイヤーへのDMの指示発声,(3)プレイヤーの指導に対する反応を予測して未来へと導くToM(理論オブミンド)モデルに分解・モデル化することである。 本研究では,ToMが予測する選手行動と一致した発話に報奨を与えることで,選手の指導を生成するDMを訓練するための新しい強化学習法(RL)を開発した。 人間と自動評価は、DMが意図を明示的にモデル化し、RLを使用するプレイヤーのToMを組み込むことで、バニラ自然言語生成(NLG)アプローチよりもDMの意図を満たす可能性が3倍高い良質なガイダンスを生成することを示している。

We propose a novel task, G4C, to study teacher-student natural language interactions in a goal-driven and grounded environment. Dungeons and Dragons (D&D), a role-playing game, provides an ideal setting to investigate such interactions. Here, the Dungeon Master (DM), i.e., the teacher, guides the actions of several players -- students, each with their own personas and abilities -- to achieve shared goals grounded in a fantasy world. Our approach is to decompose and model these interactions into (1) the DM's intent to guide players toward a given goal; (2) the DM's guidance utterance to the players expressing this intent; and (3) a theory-of-mind (ToM) model that anticipates the players' reaction to the guidance one turn into the future. We develop a novel reinforcement learning (RL) method for training a DM that generates guidance for players by rewarding utterances where the intent matches the ToM-anticipated player actions. Human and automated evaluations show that a DM trained to explicitly model intents and incorporate ToM of the players using RL generates better-quality guidance that is 3x more likely to fulfill the DM's intent than a vanilla natural language generation (NLG) approach.
翻訳日:2023-06-01 23:14:07 公開日:2023-05-30
# 複数のスケールでの位相特異性検出

Topological Singularity Detection at Multiple Scales ( http://arxiv.org/abs/2210.00069v3 )

ライセンス: Link先を確認
Julius von Rohrscheidt and Bastian Rieck(参考訳) データが低本質次元の未知多様体上またはその近くにあると仮定する多様体仮説は、現代の機械学習研究の出発点である。 しかし、最近の研究により、実世界のデータは、特異点、すなわち誤った発見につながる可能性のある異なる非多様体構造を示すことが示されている。 このような特異点の検出は補間および推論タスクの前駆体として重要である。 この問題に対処するために、我々はトポロジカルな枠組みを開発します。 (i)局所的な内在次元を定量化し、 (ii)複数の尺度に沿った点の「多様体性」を評価するためのユークリディシティスコアを得る。 画像データの特異構造や局所幾何学的複雑性を捉えながら,複素空間の特異点を同定する。

The manifold hypothesis, which assumes that data lies on or close to an unknown manifold of low intrinsic dimension, is a staple of modern machine learning research. However, recent work has shown that real-world data exhibits distinct non-manifold structures, i.e. singularities, that can lead to erroneous findings. Detecting such singularities is therefore crucial as a precursor to interpolation and inference tasks. We address this issue by developing a topological framework that (i) quantifies the local intrinsic dimension, and (ii) yields a Euclidicity score for assessing the 'manifoldness' of a point along multiple scales. Our approach identifies singularities of complex spaces, while also capturing singular structures and local geometric complexity in image data.
翻訳日:2023-06-01 20:43:28 公開日:2023-05-30
# 近接飛行のためのso(2)同変ダウンウォッシュモデル

SO(2)-Equivariant Downwash Models for Close Proximity Flight ( http://arxiv.org/abs/2305.18983v1 )

ライセンス: Link先を確認
H. Smith, A. Shankar, J. Blumenkamp, J. Gielis, A. Prorok(参考訳) 近接飛行するマルチローターはプロペラダウンウォッシュを介して互いに空力覚醒効果を誘導する。 従来の方法では、密集した飛行形態の設計および展開に必要な堅牢な制御パラダイムに組み込むことのできる、適切な3D力ベースのモデルを提供しられなかった。 したがって、これらの空力ダウンウォッシュパターンのモデルを学ぶことは魅力的な解である。 しかし、実世界の飛行設定のためのダウンウォッシュフィールドシミュレータの計算コストと不備を考えると、トレーニングのためのデータ収集は実世界の実験に限定され、サンプルの効率的な方法が必要となる。 本稿では, ダウンウォッシュフィールドに存在する潜時幾何学(例えば対称性)を活用し, 経験豊富な発生力のモデルを高精度かつ効率的に学習する。 実世界実験を用いて,モデルのサイズが1/35 分の1で,トレーニングデータの3分の1へのアクセスがある場合でも,形状認識モデルが同等のベースラインよりも改善できることを実証した。

Multirotors flying in close proximity induce aerodynamic wake effects on each other through propeller downwash. Conventional methods have thus far fallen short of providing adequate 3D force-based models that can be incorporated into robust control paradigms required when designing and deploying dense flight formations. Thus, learning a model for these aerodynamic downwash patterns presents an attractive solution. However, given the computational cost and inadequacy of downwash field simulators for real-world flight settings, data collection for training is confined to real-world experimentation, enforcing the need for sample efficient methods. In this paper, we leverage the latent geometry (e.g., symmetries) present in the downwash fields to accurately and efficiently learn models for the experienced exogenic forces. Using real world experiments, we demonstrate that our geometry-aware model provides improvements over comparable baselines, even when the model is 1/35th the size and has access to a third of the training data.
翻訳日:2023-06-01 20:37:09 公開日:2023-05-30
# 極性は学習と移動を速くするために必要なもの

Polarity is all you need to learn and transfer faster ( http://arxiv.org/abs/2303.17589v2 )

ライセンス: Link先を確認
Qingyang Wang, Michael A.Powell, Ali Geisa, Eric W. Bridgeford, Joshua T. Vogelstein(参考訳) ナチュラルインテリジェンス(NI)は、ダイナミックな世界で成長します。 対照的に、人工知能(AI)は典型的には、多くのトレーニングサンプルと計算能力で学習する。 NIとAIの間にどのような設計原則の違いがあるのか? 開発プロセスは、NIsを有利な極性配置で初期化する; NIsが成長して学習するにつれて、シナプスサイズが更新されるが、極性はほとんど変化しない。 シミュレーションと画像分類のタスクにより、重み分極が適切に優先順位を設定すると、ネットワークはより少ない時間とデータで学習する。 また,重みの極性の設定がネットワークにとって不利な状況を明確に示す。 本研究は,学習中の統計的および計算効率の観点から,重み極性の価値を示す。

Natural intelligences (NIs) thrive in a dynamic world - they learn quickly, sometimes with only a few samples. In contrast, artificial intelligences (AIs) typically learn with a prohibitive number of training samples and computational power. What design principle difference between NI and AI could contribute to such a discrepancy? Here, we investigate the role of weight polarity: development processes initialize NIs with advantageous polarity configurations; as NIs grow and learn, synapse magnitudes update, yet polarities are largely kept unchanged. We demonstrate with simulation and image classification tasks that if weight polarities are adequately set a priori, then networks learn with less time and data. We also explicitly illustrate situations in which a priori setting the weight polarities is disadvantageous for networks. Our work illustrates the value of weight polarities from the perspective of statistical and computational efficiency during learning.
翻訳日:2023-06-01 20:35:40 公開日:2023-05-30
# ナイジェリアにおけるCovid-19パンデミックの視覚的データ分析 : アウトブレイクから2年後

Visual Exploratory Data Analysis of the Covid-19 Pandemic in Nigeria: Two Years after the Outbreak ( http://arxiv.org/abs/2305.19297v1 )

ライセンス: Link先を確認
Ugochukwu Orji, Modesta Ezema, Elochukwu Ukwandu, Chikaodili Ugwuishiwu, Ezugwu Obianuju, and Malachi Egbugha(参考訳) 2019-2020年にナイジェリアで新型コロナウイルスが流行し、世界経済に打撃を与え、世界的な医療施設や人員に負担がかかった。 また、ビッグデータ分析やビジネスインテリジェンスといった人工知能技術を使って、プロセスを改善する多くの機会も与えた。 広範囲な効果を持つ可能性のある意思決定を迅速に行う必要性は、データのトレンド、パターン、関係を見るための探索的データ分析(eda)によって達成されるデータ分析のブームを促す。 今日、ビッグデータ分析はプロセスに革命をもたらし、あらゆる面で生産性と意思決定能力を向上させる。 現在利用可能な不透明なデータの多くは、あらゆる規模の研究者や企業がデータ分析を効果的に展開し、さまざまな問題に対するアクション指向の洞察をリアルタイムで得ることを可能にする。 本稿では,ナイジェリアにおける新型コロナウイルスのパンデミックデータのEDAを行うためにMicrosoft ExcelとPythonをデプロイし,Tableauを用いた視覚化とダッシュボードを用いてその結果を提示した。 このデータセットはナイジェリア疾病管理センター(ncdc)が2020年2月28日から2022年7月19日まで記録したものだ。 本稿は,過去2年間の動向を視覚的に把握し,これらのデータ分析ツールと手法の強力な能力を示すことを目的とする。 さらに,今回の研究は,ナイジェリアにおけるウイルスの進行状況とこれまでの知見を明らかにすることで,Covid-19研究の現状に寄与している。

The outbreak of the coronavirus disease in Nigeria and all over the world in 2019/2020 caused havoc on the world's economy and put a strain on global healthcare facilities and personnel. It also threw up many opportunities to improve processes using artificial intelligence techniques like big data analytics and business intelligence. The need to speedily make decisions that could have far-reaching effects is prompting the boom in data analytics which is achieved via exploratory data analysis (EDA) to see trends, patterns, and relationships in the data. Today, big data analytics is revolutionizing processes and helping improve productivity and decision-making capabilities in all aspects of life. The large amount of heterogeneous and, in most cases, opaque data now available has made it possible for researchers and businesses of all sizes to effectively deploy data analytics to gain action-oriented insights into various problems in real time. In this paper, we deployed Microsoft Excel and Python to perform EDA of the covid-19 pandemic data in Nigeria and presented our results via visualizations and a dashboard using Tableau. The dataset is from the Nigeria Centre for Disease Control (NCDC) recorded between February 28th, 2020, and July 19th, 2022. This paper aims to follow the data and visually show the trends over the past 2 years and also show the powerful capabilities of these data analytics tools and techniques. Furthermore, our findings contribute to the current literature on Covid-19 research by showcasing how the virus has progressed in Nigeria over time and the insights thus far.
翻訳日:2023-06-01 20:26:47 公開日:2023-05-30
# 微分量子化関数を有するスパイクニューラルネットワークにおける低精度量子化アウェアトレーニング

Low Precision Quantization-aware Training in Spiking Neural Networks with Differentiable Quantization Function ( http://arxiv.org/abs/2305.19295v1 )

ライセンス: Link先を確認
Ayan Shymyrbay, Mohammed E. Fouda, and Ahmed Eltawil(参考訳) ディープニューラルネットワークは、さまざまな領域において非常に効果的なツールであることが証明されているが、計算とメモリのコストは、ポータブルデバイスに広くデプロイされることを妨げている。 最近のエッジコンピューティングデバイスの急速な増加は、前述の機械学習フレームワークの制限に対処するテクニックを積極的に探そうとしている。 完全精度のシナプス重みを低ビットバージョンに変換する人工知能ニューラルネットワーク(ANN)の量子化がソリューションの1つとして登場した。 同時に、スパイクニューラルネットワーク(SNN)は、時間情報処理能力、エネルギー効率、高い生物学的妥当性のために、従来のANNに代わる魅力的な選択肢となっている。 同じ動機によって駆動されるにもかかわらず、両方の概念の同時利用は未だ十分に研究されていない。 そこで本研究は,近年の量子化ニューラルネットワークとsnsのギャップを埋めることを目的としている。 SNNにおける低ビット量化に利用されるシグモイド関数の線形結合として表される量子化関数の性能に関する広範な研究を示す。 提示された量子化関数は、バイナリネットワーク(それぞれ64.05\%、95.45\%、68.71\%、99.43\%)のcifar10-dvs、dvs128 gesture、n-caltech101、n-mnistの4つの人気のあるベンチマークで最先端のパフォーマンスを示す。

Deep neural networks have been proven to be highly effective tools in various domains, yet their computational and memory costs restrict them from being widely deployed on portable devices. The recent rapid increase of edge computing devices has led to an active search for techniques to address the above-mentioned limitations of machine learning frameworks. The quantization of artificial neural networks (ANNs), which converts the full-precision synaptic weights into low-bit versions, emerged as one of the solutions. At the same time, spiking neural networks (SNNs) have become an attractive alternative to conventional ANNs due to their temporal information processing capability, energy efficiency, and high biological plausibility. Despite being driven by the same motivation, the simultaneous utilization of both concepts has yet to be thoroughly studied. Therefore, this work aims to bridge the gap between recent progress in quantized neural networks and SNNs. It presents an extensive study on the performance of the quantization function, represented as a linear combination of sigmoid functions, exploited in low-bit weight quantization in SNNs. The presented quantization function demonstrates the state-of-the-art performance on four popular benchmarks, CIFAR10-DVS, DVS128 Gesture, N-Caltech101, and N-MNIST, for binary networks (64.05\%, 95.45\%, 68.71\%, and 99.43\% respectively) with small accuracy drops and up to 31$\times$ memory savings, which outperforms existing methods.
翻訳日:2023-06-01 20:26:21 公開日:2023-05-30
# ポイントワイズ表現の類似性

Pointwise Representational Similarity ( http://arxiv.org/abs/2305.19294v1 )

ライセンス: Link先を確認
Camila Kolling, Till Speicher, Vedant Nanda, Mariya Toneva, Krishna P. Gummadi(参考訳) ディープニューラルネットワークへの依存が高まる中、学習した表現をよりよく理解する方法を開発することが重要である。 表現類似性尺度は、学習表現を調べるための一般的なツールとして登場したが、既存の尺度は、n個の入力例の一連の表現に対して、グローバルレベルでの類似性の集合的推定のみを提供する。 したがって、これらの測度は局所的なレベルの表現、すなわち単一の入力例の表現を調べるのに適していない。 例えば、個々の入力表現がモデルへのトレーニング介入(例えば、より公平で偏りのない)によって影響を受けるか、あるいは誤分類されるリスクが高いかを理解するために、局所的類似性対策が必要となる。 本研究では、このギャップを埋め、各入力が2つの表現空間でどのように表現されているかを定量化する尺度である、ポイントワイズ正規化カーネルアライメント(pnka)を提案する。 直感的には、PNKAは入力の近傍の類似性を両方の空間にわたって比較する。 この測定値を用いることで,学習表現の特性を従来よりも細かい粒度で解析することができる。 具体的には、PNKAがどのように活用され、より深い理解を深めるかを示す。 (a)誤分類される可能性のある入力例 b) 層内の(個別の)ニューロンによって符号化された概念、及び (c) 公正介入が学習表現に及ぼす影響

With the increasing reliance on deep neural networks, it is important to develop ways to better understand their learned representations. Representation similarity measures have emerged as a popular tool for examining learned representations However, existing measures only provide aggregate estimates of similarity at a global level, i.e. over a set of representations for N input examples. As such, these measures are not well-suited for investigating representations at a local level, i.e. representations of a single input example. Local similarity measures are needed, for instance, to understand which individual input representations are affected by training interventions to models (e.g. to be more fair and unbiased) or are at greater risk of being misclassified. In this work, we fill in this gap and propose Pointwise Normalized Kernel Alignment (PNKA), a measure that quantifies how similarly an individual input is represented in two representation spaces. Intuitively, PNKA compares the similarity of an input's neighborhoods across both spaces. Using our measure, we are able to analyze properties of learned representations at a finer granularity than what was previously possible. Concretely, we show how PNKA can be leveraged to develop a deeper understanding of (a) the input examples that are likely to be misclassified, (b) the concepts encoded by (individual) neurons in a layer, and (c) the effects of fairness interventions on learned representations.
翻訳日:2023-06-01 20:25:50 公開日:2023-05-30
# 交通予測のためのグラフ畳み込みニューラルネットワークバリアントの比較評価におけるランダムフォレストの再検討

Revisiting Random Forests in a Comparative Evaluation of Graph Convolutional Neural Network Variants for Traffic Prediction ( http://arxiv.org/abs/2305.19292v1 )

ライセンス: Link先を確認
Ta Jiun Ting, Xiaocan Li, Scott Sanner, Baher Abdulhai(参考訳) 交通予測は、知的輸送システムにおいて不可欠な役割を果たす時空間予測タスクである。 今日、グラフ畳み込みニューラルネットワーク(gcnns)は、空間相関の抽出に優れているため、トラフィック予測文献において一般的なモデルとなっている。 本研究では, 成功したgcnn予測モデルの構成要素を分類し, 行列因子化, 注意機構, 重み付けが性能に及ぼす影響を分析した。 さらに,これらの変化を,GCNNが15年以上前に遡る従来の回帰手法であるランダム林と比較した。 これらの手法をトロントの2つの地域のシミュレーションデータと、選択したカリフォルニア州道からの現実世界のセンサデータを用いて評価した。 行列分解,注意,位置特化モデルの重み付けをGCNNに個別にあるいは一括して組み込むことで,全体的な性能が向上することがわかった。 さらに, ランダムフォレスト回帰はよりコンパクトなモデルであるが, 実験におけるgcnnの全てのバリエーションの性能に匹敵するか, 以上である。 これは、現在のグラフ畳み込み手法がトラフィック予測の最良のアプローチではなく、改善の余地があることを示している。 最後に,GCNNによる交通予測の信頼性に関する今後の研究には,無作為林との比較を含める必要があることを示唆した。

Traffic prediction is a spatiotemporal predictive task that plays an essential role in intelligent transportation systems. Today, graph convolutional neural networks (GCNNs) have become the prevailing models in the traffic prediction literature since they excel at extracting spatial correlations. In this work, we classify the components of successful GCNN prediction models and analyze the effects of matrix factorization, attention mechanism, and weight sharing on their performance. Furthermore, we compare these variations against random forests, a traditional regression method that predates GCNNs by over 15 years. We evaluated these methods using simulated data of two regions in Toronto as well as real-world sensor data from selected California highways. We found that incorporating matrix factorization, attention, and location-specific model weights either individually or collectively into GCNNs can result in a better overall performance. Moreover, although random forest regression is a less compact model, it matches or exceeds the performance of all variations of GCNNs in our experiments. This suggests that the current graph convolutional methods may not be the best approach to traffic prediction and there is still room for improvement. Finally, our findings also suggest that for future research on GCNN for traffic prediction to be credible, researchers must include performance comparison to random forests.
翻訳日:2023-06-01 20:25:29 公開日:2023-05-30
# 量子コンピュータにおける状態サンプリングと実時間ダイナミクスによる熱観測器のロバスト抽出

Robust Extraction of Thermal Observables from State Sampling and Real-Time Dynamics on Quantum Computers ( http://arxiv.org/abs/2305.19322v1 )

ライセンス: Link先を確認
Khaldoon Ghanem, Alexander Schuckert and Henrik Dreyer(参考訳) 量子物質の特性のシミュレーションは、近・長期の量子計算の最も有望な応用の1つである。 リアルタイムダイナミクスは簡単に実装できるが、有限温度アンサンブルは、近距離量子コンピュータの実装を極めて困難にする非ユニタリ作用素を含む。 近年、[Lu, Ba\~nuls and Cirac, PRX Quantum 2, 020321 (2021)] は、Wickの回転とモンテカルロサンプリングによりリアルタイムシミュレーションから有限温度特性を抽出することでこの問題を回避する「時系列量子モンテカルロ法」を提案した。 本稿では,2次元横フィールドイジングモデルをテストベッドとして利用し,本手法の実用化に関わる課題に対処する。 wickの回転によるボルツマン重みの推定は,時間領域切断や統計的ショットノイズに非常に敏感であることを示す。 この問題を緩和するために、状態の密度、特にその非負性性に制約を課す手法を導入し、この方法で、ノイズのある時系列からボルツマン重みを確実に抽出できることを示す。 さらに,Wolffクラスタアルゴリズムの再重み付けによるモンテカルロサンプリングの統計的誤差を低減する方法を示す。 本研究は,多体量子システムの有限温度特性を現代量子コンピュータ上で解析する時系列アルゴリズムの実装を可能にする。

Simulating properties of quantum materials is one of the most promising applications of quantum computation, both near- and long-term. While real-time dynamics can be straightforwardly implemented, the finite temperature ensemble involves non-unitary operators that render an implementation on a near-term quantum computer extremely challenging. Recently, [Lu, Ba\~nuls and Cirac, PRX Quantum 2, 020321 (2021)] suggested a "time-series quantum Monte Carlo method" which circumvents this problem by extracting finite temperature properties from real-time simulations via Wick's rotation and Monte Carlo sampling of easily preparable states. In this paper, we address the challenges associated with the practical applications of this method, using the two-dimensional transverse field Ising model as a testbed. We demonstrate that estimating Boltzmann weights via Wick's rotation is very sensitive to time-domain truncation and statistical shot noise. To alleviate this problem, we introduce a technique that imposes constraints on the density of states, most notably its non-negativity, and show that this way, we can reliably extract Boltzmann weights from noisy time series. In addition, we show how to reduce the statistical errors of Monte Carlo sampling via a reweighted version of the Wolff cluster algorithm. Our work enables the implementation of the time-series algorithm on present-day quantum computers to study finite temperature properties of many-body quantum systems.
翻訳日:2023-06-01 20:18:06 公開日:2023-05-30
# sheetcopilot: 大規模言語モデルによるソフトウェア生産性の次のレベルへ

SheetCopilot: Bringing Software Productivity to the Next Level through Large Language Models ( http://arxiv.org/abs/2305.19308v1 )

ライセンス: Link先を確認
Hongxin Li, Jingran Su, Yuntao Chen, Qing Li, Zhaoxiang Zhang(参考訳) コンピュータのエンドユーザーは、表データ処理やプロジェクトスケジュールスケジューリングといった日々のタスクを何十億時間も完了させてきた。 これらのタスクの多くは反復的かつエラーを起こしやすいが、ほとんどのエンドユーザは、これらの負担のかかる作業を自動化するスキルを欠いている。 大規模言語モデル(LLM)の出現により、自然言語ユーザ要求によるソフトウェア指向が到達可能な目標となっている。 そこで本研究では,自然言語タスクを取り込んでスプレッドシートを制御するためのシートコパイロットエージェントを提案する。 本稿では,スプレッドシートソフトウェア機能の抽象化として,アトミックアクションのセットを提案する。 我々はさらに、LLMがスプレッドシートと堅牢に対話するための状態マシンベースのタスク計画フレームワークを設計する。 221のスプレッドシート制御タスクを含む代表データセットをキュレートし、ソフトウェア制御タスクにおけるLLMの能力を厳格にベンチマークするための完全自動評価パイプラインを確立する。 当社の SheetCopilot は,単一世代のタスクの 44.3 % を正しく完了し,強力なコード生成ベースラインを広いマージンで上回っている。 プロジェクトページ:https://sheetcopilot-demo.github.io/

Computer end users have spent billions of hours completing daily tasks like tabular data processing and project timeline scheduling. Most of these tasks are repetitive and error-prone, yet most end users lack the skill of automating away these burdensome works. With the advent of large language models (LLMs), directing software with natural language user requests become a reachable goal. In this work, we propose a SheetCopilot agent which takes natural language task and control spreadsheet to fulfill the requirements. We propose a set of atomic actions as an abstraction of spreadsheet software functionalities. We further design a state machine-based task planning framework for LLMs to robustly interact with spreadsheets. We curate a representative dataset containing 221 spreadsheet control tasks and establish a fully automated evaluation pipeline for rigorously benchmarking the ability of LLMs in software control tasks. Our SheetCopilot correctly completes 44.3\% of tasks for a single generation, outperforming the strong code generation baseline by a wide margin. Our project page:https://sheetcopilot-demo.github.io/.
翻訳日:2023-06-01 20:17:41 公開日:2023-05-30
# グラフは1ビットのスパイクの価値:グラフのコントラスト学習がニューラルネットワークをスパイクするとき

A Graph is Worth 1-bit Spikes: When Graph Contrastive Learning Meets Spiking Neural Networks ( http://arxiv.org/abs/2305.19306v1 )

ライセンス: Link先を確認
Jintang Li, Huizhe Zhang, Ruofan Wu, Zulun Zhu, Liang Chen, Zibin Zheng, Baokun Wang, Changhua Meng(参考訳) 対照的に、自己教師付き学習はグラフニューラルネットワークのデファクト学習パラダイムとなっているが、高いタスク精度の追求には、情報的かつ識別的な完全精度表現を学習し、計算、メモリフットプリント、および実世界のアプリケーションに対するエネルギー消費負担(おおよそ見落としている)に対する懸念を高めるために、大きな隠れ次元を必要とする。 本稿では,より生物学的に妥当かつコンパクトな表現を学習するために,スパース特性と二項特性を活用する,スパイクニューラルネットワーク(SNN)を用いたグラフコントラスト学習(GCL)の有望な方向性について検討する。 本稿では,グラフの2値化1ビット表現を学習し,効率と性能のバランスの取れたトレードオフを実現する新しいGCLフレームワークであるSpikeGCLを提案する。 SpikeGCLが完全精度に匹敵する表現性を持っていることを示す理論的保証を提供する。 実験の結果、32倍近い表現記憶圧縮では、SpikeGCLは多くのグラフベンチマークにおいて最先端の教師付きおよび自己教師付きメソッドに匹敵する、あるいは優れることが示された。

While contrastive self-supervised learning has become the de-facto learning paradigm for graph neural networks, the pursuit of high task accuracy requires a large hidden dimensionality to learn informative and discriminative full-precision representations, raising concerns about computation, memory footprint, and energy consumption burden (largely overlooked) for real-world applications. This paper explores a promising direction for graph contrastive learning (GCL) with spiking neural networks (SNNs), which leverage sparse and binary characteristics to learn more biologically plausible and compact representations. We propose SpikeGCL, a novel GCL framework to learn binarized 1-bit representations for graphs, making balanced trade-offs between efficiency and performance. We provide theoretical guarantees to demonstrate that SpikeGCL has comparable expressiveness with its full-precision counterparts. Experimental results demonstrate that, with nearly 32x representation storage compression, SpikeGCL is either comparable to or outperforms many fancy state-of-the-art supervised and self-supervised methods across several graph benchmarks.
翻訳日:2023-06-01 20:17:22 公開日:2023-05-30
# ML法による音声分類

Audio classification using ML methods ( http://arxiv.org/abs/2305.19304v1 )

ライセンス: Link先を確認
Krishna Kumar(参考訳) 機械学習システムは、異なる領域で優れたパフォーマンスを達成した。 本稿では,音楽ジャンルを分類するための分類タスクに機械学習を適用した。 コードでは、オーディオファイルから特徴を抽出し、教師付き学習を用いて分類する方法を古典と金属の2つのジャンルに分類する。 アルゴリズムはlogisticregression、svcは異なるkernal(linear、sgmoid、rbf、poly)、kneighborsclassifier、randomforestclassifier、decisivetreeclassifier、gaussiannbを使用する。

Machine Learning systems have achieved outstanding performance in different domains. In this paper machine learning methods have been applied to classification task to classify music genre. The code shows how to extract features from audio files and classify them using supervised learning into 2 genres namely classical and metal. Algorithms used are LogisticRegression, SVC using different kernals (linear, sigmoid, rbf and poly), KNeighborsClassifier , RandomForestClassifier, DecisionTreeClassifier and GaussianNB.
翻訳日:2023-06-01 20:16:58 公開日:2023-05-30
# MAGNet: 形状から分子をモチーフ非依存に生成する

MAGNet: Motif-Agnostic Generation of Molecules from Shapes ( http://arxiv.org/abs/2305.19303v1 )

ライセンス: Link先を確認
Leon Hetzel and Johanna Sommer and Bastian Rieck and Fabian Theis and Stephan G\"unnemann(参考訳) 分子の機械学習の最近の進歩は、シリコの予測から薬物発見を促進する大きな可能性を示している。 分子生成のほとんどのモデルは、分子が頻繁に生じる部分構造(モチーフ)に分解され、そこから新しい化合物が生成される。 モチーフ表現は分子分布の学習に大いに役立つが、そのような方法は既知のモチーフ集合を超えてサブ構造を表現するのに苦労する。 この問題を緩和し、データセット間の柔軟性を向上させるために、原子と結合の型を割り当てる前に抽象的な形状を生成するグラフベースモデルMAGNetを提案する。 この目的のために,分子の全体的文脈を考慮し,原子や結合の形状への適切な割り当ての学習を容易にする,分子のデータ分布の新たな因子化を提案する。 形状の抽象化は分布学習の複雑さを増すが,標準的なベンチマークではMAGNetの競合性能を示す。 重要なことは、MAGNetの表現性の向上が、よりトポロジカルに異なる構造を持つ分子と、同時に多様な原子と結合の割り当てをもたらすことを示した。

Recent advances in machine learning for molecules exhibit great potential for facilitating drug discovery from in silico predictions. Most models for molecule generation rely on the decomposition of molecules into frequently occurring substructures (motifs), from which they generate novel compounds. While motif representations greatly aid in learning molecular distributions, such methods struggle to represent substructures beyond their known motif set. To alleviate this issue and increase flexibility across datasets, we propose MAGNet, a graph-based model that generates abstract shapes before allocating atom and bond types. To this end, we introduce a novel factorisation of the molecules' data distribution that accounts for the molecules' global context and facilitates learning adequate assignments of atoms and bonds onto shapes. While the abstraction to shapes introduces greater complexity for distribution learning, we show the competitive performance of MAGNet on standard benchmarks. Importantly, we demonstrate that MAGNet's improved expressivity leads to molecules with more topologically distinct structures and, at the same time, diverse atom and bond assignments.
翻訳日:2023-06-01 20:16:45 公開日:2023-05-30
# 点雲上の深層学習のための滑らかで正確な回転対称性

Smooth, exact rotational symmetrization for deep learning on point clouds ( http://arxiv.org/abs/2305.19302v1 )

ライセンス: Link先を確認
Sergey N. Pozdnyakov and Michele Ceriotti(参考訳) 点雲は3Dオブジェクトの汎用表現であり、科学や工学に広く応用されている。 入力として使用するディープラーニングモデルが数多く提案されている。 いくつかのアプリケーションドメインは、我々が本論文で焦点をあてた化学および材料モデリングを含む、厳密に物理的制約を組み込む必要がある。 これらの制約には滑らかさ、同じ粒子の翻訳、回転、置換に関する対称性が含まれる。 他のドメインにある既存のアーキテクチャは、これらの要求をすべて同時に満たしていないため、原子規模のシミュレーションには適用できない。 しかし、それらの多くは、回転対称性を除く全ての物理的制約をそのまま組み込むことができる。 本稿では,他の制約をすべて保ちながら任意のモデルに回転同値を付加する一般対称性プロトコルを提案する。 このアイデアの可能性を実証するため,本研究では,分子や固体のベンチマークデータセット上で,本質的に同変ではないが最先端の性能を実現するPoint Edge Transformer (PET) アーキテクチャを提案する。 一般プロトコルのA-posteriori適用により,PETの精度は最小限に抑えられた。 モデル内に回転対称性を明示的に組み込む必要性を緩和することにより、異なるコミュニティで使われているアプローチ間のギャップを埋め、化学・材料モデリングのための深層学習スキームの設計を単純化する。

Point clouds are versatile representations of 3D objects and have found widespread application in science and engineering. Many successful deep-learning models have been proposed that use them as input. Some application domains require incorporating exactly physical constraints, including chemical and materials modeling which we focus on in this paper. These constraints include smoothness, and symmetry with respect to translations, rotations, and permutations of identical particles. Most existing architectures in other domains do not fulfill simultaneously all of these requirements and thus are not applicable to atomic-scale simulations. Many of them, however, can be straightforwardly made to incorporate all the physical constraints except for rotational symmetry. We propose a general symmetrization protocol that adds rotational equivariance to any given model while preserving all the other constraints. As a demonstration of the potential of this idea, we introduce the Point Edge Transformer (PET) architecture, which is not intrinsically equivariant but achieves state-of-the-art performance on several benchmark datasets of molecules and solids. A-posteriori application of our general protocol makes PET exactly equivariant, with minimal changes to its accuracy. By alleviating the need to explicitly incorporate rotational symmetry within the model, our method bridges the gap between the approaches used in different communities, and simplifies the design of deep-learning schemes for chemical and materials modeling.
翻訳日:2023-06-01 20:16:27 公開日:2023-05-30
# 学習ビデオ圧縮における知覚損失関数の選択について

On the Choice of Perception Loss Function for Learned Video Compression ( http://arxiv.org/abs/2305.19301v1 )

ライセンス: Link先を確認
Sadaf Salehkalaibar, Buu Phan, Jun Chen, Wei Yu, Ashish Khisti(参考訳) 本研究では,出力が平均二乗誤差(mse)歪み損失とターゲットリアリズムに対する知覚損失の両方を受ける場合の因果的,低遅延,逐次的映像圧縮について検討した。 従来のアプローチにより,2つの異なる知覚損失関数 (PLF) を考える。 第1のPLF-JDは、現在のすべてのビデオフレームの関節分布(JD)を、第2の指標であるPLF-FMDは、ソースと再構築の間のフレーム幅の辺り分布(FMD)を考察する。 情報理論解析と深層学習に基づく実験により, PLFの選択が再建, 特に低ビットレートにおいて有意な影響を及ぼすことを示した。 特に, PLF-JDに基づく再構成は, フレーム間の時間的相関を良好に保ちつつも, PLF-FMDに比べて歪みに顕著なペナルティを課し, 初期の出力フレームでの誤りからの回復を困難にしている。 PLFの選択は復元品質に決定的な影響を及ぼすが、符号化中に特定のPLFにコミットすることが必須ではないことを示し、PLFの選択はデコーダに委譲できることを示した。 特に、MSEを最小化するためにシステムのトレーニングによって生成された符号化表現は(いずれかの PLF も必要とせず)、デコーダでの PLF の選択に対して、ほぼ最適に近い再構成を生成することができる。 我々は,一発的情報理論分析,ガウス・マルコフ源モデルのレート・ディストリクト・パーセプショントレードオフの詳細な研究,移動mnistおよびkthデータセットを用いたディープラーニング実験を用いて,その検証を行った。

We study causal, low-latency, sequential video compression when the output is subjected to both a mean squared-error (MSE) distortion loss as well as a perception loss to target realism. Motivated by prior approaches, we consider two different perception loss functions (PLFs). The first, PLF-JD, considers the joint distribution (JD) of all the video frames up to the current one, while the second metric, PLF-FMD, considers the framewise marginal distributions (FMD) between the source and reconstruction. Using information theoretic analysis and deep-learning based experiments, we demonstrate that the choice of PLF can have a significant effect on the reconstruction, especially at low-bit rates. In particular, while the reconstruction based on PLF-JD can better preserve the temporal correlation across frames, it also imposes a significant penalty in distortion compared to PLF-FMD and further makes it more difficult to recover from errors made in the earlier output frames. Although the choice of PLF decisively affects reconstruction quality, we also demonstrate that it may not be essential to commit to a particular PLF during encoding and the choice of PLF can be delegated to the decoder. In particular, encoded representations generated by training a system to minimize the MSE (without requiring either PLF) can be {\em near universal} and can generate close to optimal reconstructions for either choice of PLF at the decoder. We validate our results using (one-shot) information-theoretic analysis, detailed study of the rate-distortion-perception tradeoff of the Gauss-Markov source model as well as deep-learning based experiments on moving MNIST and KTH datasets.
翻訳日:2023-06-01 20:16:05 公開日:2023-05-30
# サイバー衛生に対する性別・雇用状況・学術的規律の影響に関する研究--ナイジェリア大学スッカ校を事例として

A Study on the Impact of Gender, Employment Status and Academic Discipline on Cyber Hygiene: A Case Study of University of Nigeria, Nsukka ( http://arxiv.org/abs/2305.19300v1 )

ライセンス: Link先を確認
Celestine Ugwu, Modesta Ezema, Uchenna Ome, Lizzy Ofusori, Comfort Olebera, and Elochukwu Ukwandu(参考訳) 新型コロナウイルスのパンデミックはサイバー衛生の重要性を高めた。 パンデミックの間、インターネットとITサービスへの依存が増大した。 この結果、サイバー犯罪のような新たな犯罪活動の波がもたらされた。 サイバー攻撃事件の増加につながる新型コロナウイルス(covid-19)の出現、パターンや高度化に伴い、性別、雇用状況、学術的規律に基づくサイバー衛生知識や文化のユーザレベルを知るための探索的な調査が急務である。 その結果,ナイジェリア大学ヌスッカ校(UNN)の学生や従業員のサイバー衛生に関する知識とコンプライアンスを調査するため,多くの組織がデュアルモードワークパターンやリモート・イン・パーソンをパンデミック助成金として提供している。 また、学生や従業員のサイバー衛生文化における性別、雇用状況、学術的規律などの人口動態との関係を検証しようと試みている。 サンプルの人口は、UNNの従業員と学生で構成されており、学生は学術スタッフか非学術スタッフである。 サンプルサイズは,300名,16名(316名)で,女性1名,女性8名(187名),男性1名,男性29名(129名)であった。 この結果は、大学におけるサイバー衛生の実践に関する有益な洞察を提供する。

The COVID19 pandemic has helped amplify the importance of Cyber Hygiene. As the reliance on the Internet and IT services increased during the pandemic. This in turn has introduced a new wave of criminal activities such as cybercrimes. With the emergent of COVID19 which lead to increase in cyberattacks incidents, the pattern and sophistication, there is an urgent need to carry out an exploratory study to find out users level of cyber-hygiene knowledge and culture based on gender, employment status and academic discipline. Above this, with many organisations providing for dual mode work pattern or remote and in-person as the pandemic subsides, this study remains very relevant and hence the aim to investigate the cyber hygiene knowledge and compliance of university students and employees of the University of Nigeria, Nsukka (UNN). In addition, it attempts to verify the relationship between demographics such as gender, employment status and academic discipline on cyber hygiene culture among students and employees. The sample population is made of employees and students of UNN, where the employees are either academic staff or non-academic staff. The sample size consisted of three hundred and sixteen (316) participants, one hundred and eight-seven (187) of whom were females and one hundred and twenty-nine (129) were males. The results offer some useful insight on cyber hygiene practices at the university.
翻訳日:2023-06-01 20:15:33 公開日:2023-05-30
# ナイジェリアにおける新型コロナウイルス(covid-19)パンデミック時代におけるソーシャルメディアの役割

The Role Of Social Media On Selected Businesses In Nigeria In The Era Of Covid-19 Pandemic ( http://arxiv.org/abs/2305.19299v1 )

ライセンス: Link先を確認
Cajetan Ihemebiri, Elochukwu Ukwandu, Lizzy Ofusori and Comfort Olebara(参考訳) 2020年初頭の新型コロナウイルス(covid-19)パンデミックにより、いくつかの国が前例のない景気減速を経験しており、中小企業はビジネス取引のデジタル技術に適応し始めた。 しかし、アフリカ、特にナイジェリアでは、新型コロナウイルスのパンデミックが金融危機を引き起こし、中小企業の持続可能性に悪影響を及ぼした。 そこで本研究では、新型コロナウイルスの感染拡大を抑えるため、いくつかのロックダウンを引き起こしたナイジェリアにおける選択された中小企業に対するソーシャルメディアの役割について検討した。 便利な人口サンプリング技術とともに,横断的な調査研究設計が用いられた。 選択した中小企業を基準に人口を分類し, 定量的研究アプローチを採り, 一次調査を行った。 調査はナイジェリアのラゴス州のイコトゥン州とイケジャ州の中小企業の所有者および運営者を対象に行った。 合計190のアンケートが配布され、183の回答が分析された。 その結果,中小企業は,全国的ロックダウン期間中に事業の運営に大きく活用され,ソーシャルメディアが企業にとって有用であることに気付いていた。 この研究は、労働者・労働組合は、ビジネス取引を行う際にソーシャルメディアの継続的な利用の利点を企業オーナーに感じさせ、奨励することを推奨している。

As several countries were experiencing unprecedented economic slowdowns due to the outbreak of COVID-19 pandemic in early 2020, small business enterprises started adapting to digital technologies for business transactions. However, in Africa, particularly Nigeria, COVID-19 pandemic resulted to some financial crisis that impacted negatively on the sustainability of small and medium-sized (SMEs) businesses. Thus, this study examined the role of social media on selected SMEs in Nigeria in the heat of the COVID-19 pandemic that led to several lock downs in a bid to curtail the spread of the virus. Cross-sectional survey research design was used alongside convenience population sampling techniques. The population was categorised based on selected SMEs businesses, while a quantitative research approach was adopted, and primary data were collected using a questionnaire. The questionnaires were administered to owners and operators of SMEs in Ikotun and Ikeja areas of Lagos State, Nigeria. A total of 190 questionnaires were distributed, where 183 usable responses were analysed. The findings of the study show that SMEs were aware of the usefulness of social media to their businesses as they largely leveraged it in conducting their businesses during the national lockdowns. The study recommended that labour/trade unions should sensitise and encourage business owners on the benefits of continuous use of social media in carrying out their business transactions.
翻訳日:2023-06-01 20:15:09 公開日:2023-05-30
# infoverse:多次元メタ情報を用いたデータセットキャラクタリゼーションのためのユニバーサルフレームワーク

infoVerse: A Universal Framework for Dataset Characterization with Multidimensional Meta-information ( http://arxiv.org/abs/2305.19344v1 )

ライセンス: Link先を確認
Jaehyung Kim, Yekyung Kim, Karin de Langis, Jinwoo Shin, Dongyeop Kang(参考訳) NLPシステムの成功はしばしば、大規模で高品質なデータセットの可用性に依存している。 しかし、これらのデータセットのすべてのサンプルが学習に等しく価値があるわけではない。 モデル駆動メタ情報に基づくデータセットの特徴付け手法(例えば、モデルの信頼度)が開発されているが、これらの手法の関係や補完効果は注目されていない。 本稿では,様々なモデル駆動型メタ情報を取り込むことで,データセットの多次元特性を効果的に捉えるための新しい特徴空間を提供する,データセットキャラクタリゼーションのためのユニバーサルフレームワークであるinfoverseを提案する。 infoVerseは、元のセマンティック空間では明らかでないデータセットの特徴的な領域を明らかにし、ユーザー(またはモデル)に調査、アセスメント、アノテーションに焦点を当てるべきサンプルを特定する。 さらに,情報度を最大化する一連のデータポイントを選択するために,インフォバースを用いた新しいサンプリング手法を提案する。 実世界の3つのアプリケーション(データプルーニング、アクティブラーニング、データアノテーション)において、infoVerse空間で選択されたサンプルは、すべてのアプリケーションにおいて強いベースラインを一貫して上回る。 私たちのコードとデモは公開されています。

The success of NLP systems often relies on the availability of large, high-quality datasets. However, not all samples in these datasets are equally valuable for learning, as some may be redundant or noisy. Several methods for characterizing datasets based on model-driven meta-information (e.g., model's confidence) have been developed, but the relationship and complementary effects of these methods have received less attention. In this paper, we introduce infoVerse, a universal framework for dataset characterization, which provides a new feature space that effectively captures multidimensional characteristics of datasets by incorporating various model-driven meta-information. infoVerse reveals distinctive regions of the dataset that are not apparent in the original semantic space, hence guiding users (or models) in identifying which samples to focus on for exploration, assessment, or annotation. Additionally, we propose a novel sampling method on infoVerse to select a set of data points that maximizes informativeness. In three real-world applications (data pruning, active learning, and data annotation), the samples chosen on infoVerse space consistently outperform strong baselines in all applications. Our code and demo are publicly available.
翻訳日:2023-06-01 20:08:03 公開日:2023-05-30
# 確率的マグニチュードプルーニングを用いた予算対応グラフ畳み込みネットワーク設計

Budget-Aware Graph Convolutional Network Design using Probabilistic Magnitude Pruning ( http://arxiv.org/abs/2305.19343v1 )

ライセンス: Link先を確認
Hichem Sahbi(参考訳) グラフ畳み込みネットワーク(GCN)は、骨格に基づく認識を含む多くの画像処理タスクの解決において、近年主流になりつつある。 彼らの一般的なレシピは、分類性能を最大化する畳み込み層と注意層の学習である。 マルチヘッドの注意を向けると、gcnは非常に正確だが、サイズが大きすぎる。 既存の手法の中では、マグニチュードプルーニング(MP)は比較的効果的であるが、ネットワークトポロジの選択と重み付けが独立して達成されるため、その設計は明らかに最適以下である。 本稿では,ネットワークトポロジと重みを協調的にトレーニングする,確率的マグニチュード・プルーニング(PMP)と呼ばれる新しい軽量GCN設計を提案する。 本手法は,学習したネットワークの重み分布を事前分布と整合させることにより,変動し,進行する。 これにより、固定プルーニングレートの実装や、設計された軽量GCNの一般化性能の向上が可能になる。 骨格に基づく認識の課題に対して行われた大規模な実験は、特に非常に高い刈取体制下で、我々の軽量GCNのかなりの増加を示している。

Graph convolutional networks (GCNs) are nowadays becoming mainstream in solving many image processing tasks including skeleton-based recognition. Their general recipe consists in learning convolutional and attention layers that maximize classification performances. With multi-head attention, GCNs are highly accurate but oversized, and their deployment on edge devices requires their pruning. Among existing methods, magnitude pruning (MP) is relatively effective but its design is clearly suboptimal as network topology selection and weight retraining are achieved independently. In this paper, we devise a novel lightweight GCN design dubbed as Probabilistic Magnitude Pruning (PMP) that jointly trains network topology and weights. Our method is variational and proceeds by aligning the weight distribution of the learned networks with an a priori distribution. This allows implementing any fixed pruning rate, and also enhancing the generalization performances of the designed lightweight GCNs. Extensive experiments conducted on the challenging task of skeleton-based recognition show a substantial gain of our lightweight GCNs particularly at very high pruning regimes.
翻訳日:2023-06-01 20:07:41 公開日:2023-05-30
# 時空タイリングによる場の量子論に対するウィグナー関数

Wigner function for quantum field theory via spacetime tiling ( http://arxiv.org/abs/2305.19341v1 )

ライセンス: Link先を確認
Erickson Tjoa(参考訳) 本稿では、よく定義された紫外線(UV)と赤外線(IR)特性を持つボソニック量子場理論に対するウィグナー関数の構成について述べる。 我々の構成では、代数量子場理論の局所モード形式は、任意の大域的双曲曲線時空、すなわち経路積分形式論を起こさずに有効である。 アイデアは、$N$量子調和振動子を2N$スミアの場演算子から自由度に作り、それを時空多様体のコーシー曲面を「タイル」するために使うことである。 それぞれの局所モードを定義するスミアリング関数の最小サポートは、UVスケールとIRスケールを固定するモードの数を定義する。 この構成は、コーシー曲面のタイリングは座標系や葉のいかなる選択にも依存しないため、曲線時空における量子場の「共変離散化」の形式と見なすことができる。

We present a construction of the Wigner function for a bosonic quantum field theory that has well-defined ultraviolet (UV) and infrared (IR) properties. Our construction uses the local mode formalism in algebraic quantum field theory that is valid in any globally hyperbolic curved spacetimes, i.e., without invoking the path integral formalism. The idea is to build $N$ quantum harmonic oscillators degrees of freedom from $2N$ smeared field operators and use them to "tile" a Cauchy surface of the spacetime manifold. The smallest support of the smearing functions that define each local mode define the UV scale and the number of modes local modes fix the IR scale. This construction can be viewed as a form of "covariant discretization" of the quantum field in curved spacetimes, since the tiling of the Cauchy surface does not depend on any choice of coordinate systems or foliation.
翻訳日:2023-06-01 20:07:23 公開日:2023-05-30
# ブレインストーミングの少ない:言語モデルを使って代替仮説を生成する

Less Likely Brainstorming: Using Language Models to Generate Alternative Hypotheses ( http://arxiv.org/abs/2305.19339v1 )

ライセンス: Link先を確認
Liyan Tang, Yifan Peng, Yanshan Wang, Ying Ding, Greg Durrett, Justin F. Rousseau(参考訳) 人間の意思決定者は、バイアスを補正するAIアシスタントから最も恩恵を受ける。 得られた知見が得られた放射線学的レポートの解釈を発生させるような問題に対して、非常に可能性の高い結果のみを予測するシステムは役に立たないかもしれない。 人間の意思決定における偏見を緩和するには、最も可能性の高い選択肢を越えて、幅広い鑑別診断を考慮すべきである。 我々は、人間が関連性があると思われるが起こりそうにないアウトプットを生成するためにモデルに要求する新しいタスク「脳ストーミングなし」を導入する。 脳MRIの解釈生成設定と日常の常識推論設定の2つの設定でタスクを探索する。 目標として仮説の可能性が低いトレーニングのベースラインアプローチでは、人間がほぼ半分の確率で評価するアウトプットが生成されるが、標準的なMLEトレーニングは有効ではない。 この問題に対処するために,新しいコントラスト学習戦略を用いた制御テキスト生成手法を提案する。 本手法は, 自動評価と人間評価により, 最先端制御型テキスト生成モデルと比較し, 少ない出力で生成できるモデルの能力が向上していることを示す。

A human decision-maker benefits the most from an AI assistant that corrects for their biases. For problems such as generating interpretation of a radiology report given findings, a system predicting only highly likely outcomes may be less useful, where such outcomes are already obvious to the user. To alleviate biases in human decision-making, it is worth considering a broad differential diagnosis, going beyond the most likely options. We introduce a new task, "less likely brainstorming," that asks a model to generate outputs that humans think are relevant but less likely to happen. We explore the task in two settings: a brain MRI interpretation generation setting and an everyday commonsense reasoning setting. We found that a baseline approach of training with less likely hypotheses as targets generates outputs that humans evaluate as either likely or irrelevant nearly half of the time; standard MLE training is not effective. To tackle this problem, we propose a controlled text generation method that uses a novel contrastive learning strategy to encourage models to differentiate between generating likely and less likely outputs according to humans. We compare our method with several state-of-the-art controlled text generation models via automatic and human evaluations and show that our models' capability of generating less likely outputs is improved.
翻訳日:2023-06-01 20:07:04 公開日:2023-05-30
# higen:階層型グラフ生成ネットワーク

HiGen: Hierarchical Graph Generative Networks ( http://arxiv.org/abs/2305.19337v1 )

ライセンス: Link先を確認
Mahdi Karami(参考訳) ほとんどの実世界のグラフは階層構造を示しており、しばしば既存のグラフ生成法で見過ごされる。 この制限に対処するために,グラフの階層的な性質を捕捉し,粗大な方法でグラフのサブ構造を連続的に生成するグラフ生成ネットワークを提案する。 各階層レベルで、このモデルは平行にコミュニティを生成し、続いて別々のモデルを用いてコミュニティ間のクロスエッジを予測する。 このモジュラーアプローチは高度にスケーラブルなグラフ生成ネットワークをもたらす。 さらに,多項分布を持つ階層グラフのエッジの出力分布をモデル化し,この分布に対する再帰的因子分解を導出することにより,自己回帰的アプローチで整数値のエッジ重みを持つサブグラフを生成することができる。 実証実験により,提案手法はグラフの局所的特性と大域的特性の両方を効果的に捉えることができ,様々なベンチマークでグラフ品質の観点から最先端の性能が得られることを示した。

Most real-world graphs exhibit a hierarchical structure, which is often overlooked by existing graph generation methods. To address this limitation, we propose a novel graph generative network that captures the hierarchical nature of graphs and successively generates the graph sub-structures in a coarse-to-fine fashion. At each level of hierarchy, this model generates communities in parallel, followed by the prediction of cross-edges between communities using a separate model. This modular approach results in a highly scalable graph generative network. Moreover, we model the output distribution of edges in the hierarchical graph with a multinomial distribution and derive a recursive factorization for this distribution, enabling us to generate sub-graphs with integer-valued edge weights in an autoregressive approach. Empirical studies demonstrate that the proposed generative model can effectively capture both local and global properties of graphs and achieves state-of-the-art performance in terms of graph quality on various benchmarks.
翻訳日:2023-06-01 20:06:42 公開日:2023-05-30
# アクセス可能な三部情報による量子スクランブル

Quantum scrambling via accessible tripartite information ( http://arxiv.org/abs/2305.19334v1 )

ライセンス: Link先を確認
Gabriele Lo Monaco, Luca Innocenti, Dario Cilluffo, Dario A Chisholm, Salvatore Lorenzo and G Massimo Palma(参考訳) 量子情報スクランブル(QIS)は、一般に量子情報理論の観点から、ある動的過程を通じて進化した情報の局所的非可逆性として理解され、しばしば三部体情報のようなエントロピー量によって定量化される。 このアプローチは、主に量子的相互情報に依存しているため、測定によって直接検索できる相関を忠実に定量化できないため、また、研究されたダイナミクスのトリパーティイト情報を計算するために使用される特定の方法論によって、多くの問題が発生すると論じる。 これらの問題は、アクセス可能な相互情報を用いて、対応する ``accessible tripartite informations'' を定義し、標準のtripartite informationによってスクランブル特性が適切に定量化されていないダイナミクスの明示的な例を提供することによって克服できることを示す。 我々の研究成果は、QISが何を表現しているかをより深く理解し、将来有望で未調査な研究の場をいくつも明らかにする土台となった。

Quantum information scrambling (QIS), from the perspective of quantum information theory, is generally understood as local non-retrievability of information evolved through some dynamical process, and is often quantified via entropic quantities such as the tripartite information. We argue that this approach comes with a number of issues, in large part due to its reliance on quantum mutual informations, which do not faithfully quantify correlations directly retrievable via measurements, and in part due to the specific methodology used to compute tripartite informations of the studied dynamics. We show that these issues can be overcome by using accessible mutual informations, defining corresponding ``accessible tripartite informations'', and provide explicit examples of dynamics whose scrambling properties are not properly quantified by the standard tripartite information. Our results lay the groundwork for a more profound understanding of what QIS represents, and reveal a number of promising, as of yet unexplored, venues for futher research.
翻訳日:2023-06-01 20:06:26 公開日:2023-05-30
# 育種機械翻訳:自動評価の世界における生き残りと繁栄への進化的アプローチ

Breeding Machine Translations: Evolutionary approach to survive and thrive in the world of automated evaluation ( http://arxiv.org/abs/2305.19330v1 )

ライセンス: Link先を確認
Josef Jon and Ond\v{r}ej Bojar(参考訳) 本稿では,機械翻訳(MT)システムで生成したn-bestリストを修正する遺伝的アルゴリズム(GA)を提案する。 本手法はMTの品質向上と評価指標の弱点の同定に革新的な手法を提供する。 適合関数(任意のMTメートル法)と組み合わせた仮説リスト上でのGA演算(変異と交叉)を用いて、高い測定値を持つ新規で多様な出力を得る。 適合度関数として複数のMTメトリクスを組み合わせることで、他の保持された自動メトリクスによって測定された翻訳品質が向上する。 フィットネス関数として1つのメートル法(COMETなどの人気メトリックを含む)を用いると、メートル法に盲点と欠陥が見つかる。 これにより、そのような例の形式に関する事前の仮定なしで、任意の計量の逆例を自動検索することができる。 提案手法の実証として,逆行例のデータセットを作成し,参照フリーcometが参照ベースバージョンよりも大幅にロバストでないことを示す。

We propose a genetic algorithm (GA) based method for modifying n-best lists produced by a machine translation (MT) system. Our method offers an innovative approach to improving MT quality and identifying weaknesses in evaluation metrics. Using common GA operations (mutation and crossover) on a list of hypotheses in combination with a fitness function (an arbitrary MT metric), we obtain novel and diverse outputs with high metric scores. With a combination of multiple MT metrics as the fitness function, the proposed method leads to an increase in translation quality as measured by other held-out automatic metrics. With a single metric (including popular ones such as COMET) as the fitness function, we find blind spots and flaws in the metric. This allows for an automated search for adversarial examples in an arbitrary metric, without prior assumptions on the form of such example. As a demonstration of the method, we create datasets of adversarial examples and use them to show that reference-free COMET is substantially less robust than the reference-based version.
翻訳日:2023-06-01 20:06:03 公開日:2023-05-30
# Cones 2: 複数の被験者によるカスタマイズ可能な画像合成

Cones 2: Customizable Image Synthesis with Multiple Subjects ( http://arxiv.org/abs/2305.19327v1 )

ライセンス: Link先を確認
Zhiheng Liu, Yifei Zhang, Yujun Shen, Kecheng Zheng, Kai Zhu, Ruili Feng, Yu Liu, Deli Zhao, Jingren Zhou, Yang Cao(参考訳) ユーザ特定対象による画像合成は,その実用的応用により注目されている。 単科目のカスタマイズが最近成功したにもかかわらず、既存のアルゴリズムは高いトレーニングコストと低い成功率に苦しめられている。 本研究は,複数の対象を制約として制御可能な画像合成に向けて,特定の対象を効率的に表現する方法と,異なる対象を適切に構成する方法について検討する。 対象トークンに関するテキスト埋め込みは、モデルチューニングなしで任意の組み合わせをサポートする、シンプルで効果的な表現としてすでに役立ちます。 ベース埋め込みの上の残差を学習することで、さまざまなテキスト条件を条件として、原対象をカスタマイズ対象に頑健にシフトさせる。 次に,対象配置のための空間的ガイダンスとして,非常に抽象的で分かりやすいレイアウトを提案する。 クロスアテンションマップのアクティベーションを正すことにより、レイアウトは画像内の異なる被写体の位置を割り当て、分離し、それらの間の干渉を著しく緩和する。 定性的かつ定量的な実験結果は、多目的カスタマイズのための様々な設定の下で、最先端の代替品よりも優れていることを示す。

Synthesizing images with user-specified subjects has received growing attention due to its practical applications. Despite the recent success in single subject customization, existing algorithms suffer from high training cost and low success rate along with increased number of subjects. Towards controllable image synthesis with multiple subjects as the constraints, this work studies how to efficiently represent a particular subject as well as how to appropriately compose different subjects. We find that the text embedding regarding the subject token already serves as a simple yet effective representation that supports arbitrary combinations without any model tuning. Through learning a residual on top of the base embedding, we manage to robustly shift the raw subject to the customized subject given various text conditions. We then propose to employ layout, a very abstract and easy-to-obtain prior, as the spatial guidance for subject arrangement. By rectifying the activations in the cross-attention map, the layout appoints and separates the location of different subjects in the image, significantly alleviating the interference across them. Both qualitative and quantitative experimental results demonstrate our superiority over state-of-the-art alternatives under a variety of settings for multi-subject customization.
翻訳日:2023-06-01 20:05:28 公開日:2023-05-30
# 量子カオスとコヒーレンス:ランダムパラメトリック量子チャネル

Quantum Chaos and Coherence: Random Parametric Quantum Channels ( http://arxiv.org/abs/2305.19326v1 )

ライセンス: Link先を確認
Apollonas S. Matsoukas-Roubeas, Toma\v{z} Prosen and Adolfo del Campo(参考訳) 半古典的極限から離れてデコヒーレンスと量子カオスの間の相互作用を定量化するために、初期コヒーレントギブス状態(cgs)の生存確率の性質を調べ、スペクトル形式因子(sff)の概念を任意の開放系に拡張する。 この一般化されたSFFと対応するコヒーレンスモノトンとの関係は、エネルギー固有基底における密度行列の対角要素の崩壊によって相関穴におけるレベル反発の出現が抑制されることを示す。 実験例として, 単位的進化の離散時間モデルであるパラメトリック量子チャネル(pqc, parametric quantum channel, pqc)を提案する。 最大に一貫性のないエネルギーデファスメント(ed)ダイナミクスは、マルコフ極限の特別な場合として現れる。 我々は一連のランダム行列モデルで結果を示す。

To quantify the interplay between decoherence and quantum chaos away from the semi-classical limit, we investigate the properties of the survival probability of an initial Coherent Gibbs State (CGS), extending the notion of the Spectral Form Factor (SFF) to arbitrary open systems. The relation of this generalized SFF with the corresponding coherence monotones reveals how the manifestation of level repulsion in the correlation hole is suppressed by the decay of the density matrix's off-diagonal elements in the energy eigenbasis. As a working example, we introduce Parametric Quantum Channels (PQC), a discrete-time model of unitary evolution, periodically interrupted by the effects of measurements or transient interactions with an environment, in the context of the axiomatic theory of operations. The maximally incoherent Energy Dephasing (ED) dynamics arises as a special case in the Markovian limit. We demonstrate our results in a series of random matrix models.
翻訳日:2023-06-01 20:04:43 公開日:2023-05-30
# キャビティQEDにおける量子触媒

Quantum catalysis in cavity QED ( http://arxiv.org/abs/2305.19324v1 )

ライセンス: Link先を確認
A. de Oliveira Junior, Mart\'i Perarnau-Llobet, Nicolas Brunner, Patryk Lipka-Bartosik(参考訳) 多くの科学分野、特に化学や生物学において触媒が重要な役割を果たしている。 ここでは、原子が光学キャビティと相互作用するjaynes-cummingsモデルという、パラダイム的な量子光学設定における触媒過程を示す。 原子は触媒の役割を担い、キャビティ内で非古典的な光を決定論的に生成することができる。 古典的'のコヒーレントな状態で調製されたキャビティを考慮し、原子状態と相互作用時間を適切に選択することで、以下の性質を持つ進化を得る。 第一に、空洞の状態は修正され、現在はポアソニアン準統計やウィグナー・ネガティビティによって見られるような非古典性が特徴である。 第二に、その過程は触媒的であり、原子は決定論的に初期状態に戻され、原則として数回再使用される可能性がある。 本稿では,この触媒過程の機構,特に相関と量子コヒーレンスの主要な役割について検討する。

Catalysis plays a key role in many scientific areas, most notably in chemistry and biology. Here we present a catalytic process in a paradigmatic quantum optics setup, namely the Jaynes-Cummings model, where an atom interacts with an optical cavity. The atom plays the role of the catalyst, and allows for the deterministic generation of non-classical light in the cavity. Considering a cavity prepared in a "classical'' coherent state, and choosing appropriately the atomic state and the interaction time, we obtain an evolution with the following properties. First, the state of the cavity has been modified, and now features non-classicality, as witnessed by sub-Poissonian statistics or Wigner negativity. Second, the process is catalytic, in the sense that the atom is deterministically returned to its initial state exactly, and could then in principle be re-used multiple times. We investigate the mechanism of this catalytic process, in particular highlighting the key role of correlations and quantum coherence.
翻訳日:2023-06-01 20:04:12 公開日:2023-05-30
# 長期大モデルに対するブロックワイズ並列変換器

Blockwise Parallel Transformer for Long Context Large Models ( http://arxiv.org/abs/2305.19370v1 )

ライセンス: Link先を確認
Hao Liu, Pieter Abbeel(参考訳) トランスフォーマーは最先端の自然言語処理モデルの基盤として現れ、幅広いAIアプリケーションにまたがる優れたパフォーマンスを示している。 しかし、トランスフォーマーの自己アテンション機構と大きなフィードフォワードネットワークによって引き起こされるメモリ要求は、長いシーケンスを扱う能力を制限するため、複数の長いシーケンスや長期依存関係を含むタスクの課題が生じる。 本稿では,Blockwise Parallel Transformer(BPT)という,自己アテンションとフィードフォワードネットワーク融合のブロックワイズ計算を利用したメモリコストの最小化手法を提案する。 メモリ効率を維持しながら長い入力シーケンスを処理することにより、bptはバニラトランスの最大32倍、以前のメモリ効率の2倍から4倍のトレーニングシーケンスを可能にする。 言語モデリングと強化学習タスクに関する大規模な実験は、BPTがメモリ要求の低減と性能改善に有効であることを実証している。

Transformers have emerged as the cornerstone of state-of-the-art natural language processing models, showcasing exceptional performance across a wide range of AI applications. However, the memory demands posed by the self-attention mechanism and the large feedforward network in Transformers limit their ability to handle long sequences, thereby creating challenges for tasks involving multiple long sequences or long-term dependencies. We present a distinct approach, Blockwise Parallel Transformer (BPT), that leverages blockwise computation of self-attention and feedforward network fusion to minimize memory costs. By processing longer input sequences while maintaining memory efficiency, BPT enables training sequences up to 32 times longer than vanilla Transformers and 2 to 4 times longer than previous memory-efficient methods. Extensive experiments on language modeling and reinforcement learning tasks demonstrate the effectiveness of BPT in reducing memory requirements and improving performance.
翻訳日:2023-06-01 19:59:11 公開日:2023-05-30
# 2023年脳腫瘍セグメンテーション(BraTS)チャレンジ:サハラ以南のアフリカ人患者集団におけるグリオーマセグメンテーション

The Brain Tumor Segmentation (BraTS) Challenge 2023: Glioma Segmentation in Sub-Saharan Africa Patient Population (BraTS-Africa) ( http://arxiv.org/abs/2305.19369v1 )

ライセンス: Link先を確認
Maruf Adewole, Jeffrey D. Rudie, Anu Gbadamosi, Oluyemisi Toyobo, Confidence Raymond, Dong Zhang, Olubukola Omidiji, Rachel Akinola, Mohammad Abba Suwaid, Adaobi Emegoakor, Nancy Ojo, Kenneth Aguh, Chinasa Kalaiwo, Gabriel Babatunde, Afolabi Ogunleye, Yewande Gbadamosi, Kator Iorpagher, Evan Calabrese, Mariam Aboian, Marius Linguraru, Jake Albrecht, Benedikt Wiestler, Florian Kofler, Anastasia Janas, Dominic LaBella, Anahita Fathi Kzerooni, Hongwei Bran Li, Juan Eugenio Iglesias, Keyvan Farahani, James Eddy, Timothy Bergquist, Verena Chung, Russell Takeshi Shinohara, Walter Wiggins, Zachary Reitman, Chunhao Wang, Xinyang Liu, Zhifan Jiang, Ariana Familiar, Koen Van Leemput, Christina Bukas, Maire Piraud, Gian-Marco Conte, Elaine Johansson, Zeke Meier, Bjoern H Menze, Ujjwal Baid, Spyridon Bakas, Farouk Dako, Abiodun Fatade and Udunna C Anazodo(参考訳) グリオーマは一次脳腫瘍の最も一般的なタイプである。 グリオーマは比較的稀であるが,診断から2年足らずの生存率を有する最も致命的な癌の1つである。 グリオーマは診断が困難であり、治療は困難であり、従来の治療法に耐性がある。 グリオーマの診断と治療を改善するための大規模な研究は、グローバル・ノース全体の死亡率を低下させ、低所得国と中所得国(LMIC)の個体の生存率も変化せず、サブサハラアフリカ(SSA)では著しく悪化している。 グリオーマによる長期生存は脳mriの適切な病理像の同定と病理組織学的診断と関係している。 2012年以降、脳腫瘍分画(brats)チャレンジは、グリオーマの検出、特徴付け、分類のための最先端の機械学習手法を評価してきた。 しかし、画像コントラストと解像度の低い低品質MRI技術が広く用いられていること、さらに、進行期における遅発性疾患の適応性、およびSSAにおけるグリオーマの特異な特徴(すなわち、グリオマトーシス・セレブリの高率と疑われる)を考えると、最先端の手法がSSAで広く実施できるかどうかは不明である。 したがって、BraTS-Africa Challengeは、BraTS Challengeを通じて世界中の努力でSSAから脳MRIグリオーマの症例を取り入れ、リソース制限された環境でグリオーマの検出と評価のためのコンピュータ支援診断(CAD)手法を開発し、評価するユニークな機会を提供する。

Gliomas are the most common type of primary brain tumors. Although gliomas are relatively rare, they are among the deadliest types of cancer, with a survival rate of less than 2 years after diagnosis. Gliomas are challenging to diagnose, hard to treat and inherently resistant to conventional therapy. Years of extensive research to improve diagnosis and treatment of gliomas have decreased mortality rates across the Global North, while chances of survival among individuals in low- and middle-income countries (LMICs) remain unchanged and are significantly worse in Sub-Saharan Africa (SSA) populations. Long-term survival with glioma is associated with the identification of appropriate pathological features on brain MRI and confirmation by histopathology. Since 2012, the Brain Tumor Segmentation (BraTS) Challenge have evaluated state-of-the-art machine learning methods to detect, characterize, and classify gliomas. However, it is unclear if the state-of-the-art methods can be widely implemented in SSA given the extensive use of lower-quality MRI technology, which produces poor image contrast and resolution and more importantly, the propensity for late presentation of disease at advanced stages as well as the unique characteristics of gliomas in SSA (i.e., suspected higher rates of gliomatosis cerebri). Thus, the BraTS-Africa Challenge provides a unique opportunity to include brain MRI glioma cases from SSA in global efforts through the BraTS Challenge to develop and evaluate computer-aided-diagnostic (CAD) methods for the detection and characterization of glioma in resource-limited settings, where the potential for CAD tools to transform healthcare are more likely.
翻訳日:2023-06-01 19:58:54 公開日:2023-05-30
# 単一生成フローネットワークによるグラフィカル構造とパラメータのジョイントベイズ推定

Joint Bayesian Inference of Graphical Structure and Parameters with a Single Generative Flow Network ( http://arxiv.org/abs/2305.19366v1 )

ライセンス: Link先を確認
Tristan Deleu, Mizu Nishikawa-Toomey, Jithendaraa Subramanian, Nikolay Malkin, Laurent Charlin, Yoshua Bengio(参考訳) 離散的および構造化されたサンプル空間上の生成モデルのクラスである生成フローネットワーク(GFlowNets)は、ベイジアンネットワークの有向非巡回グラフ(DAG)上の境界後部分布を推定する問題に対して、観測のデータセットを与えられた。 本稿では, この枠組みを非離散標本空間に拡張する最近の進歩に基づき, ベイズネットワークの構造だけでなく, 条件付き確率分布のパラメータにも乗じて, 結合後部を近似する手法を提案する。 我々は,サンプリングポリシが2段階のプロセスに従う単一のGFlowNetを用いて,DAGを1回に1つのエッジに順次生成し,全構造が知られると対応するパラメータを選択する。 パラメータは後方分布に含まれるため,ベイジアンネットワークの局所確率モデルに対する柔軟性が向上し,ニューラルネットワークによってパラメータ化される非線形モデルにも適用できる。 本手法は jsp-gfn と呼ばれ, シミュレーションデータと実データの両方において既存の手法と好適に比較しながら, 関節後方の正確な近似を提供する。

Generative Flow Networks (GFlowNets), a class of generative models over discrete and structured sample spaces, have been previously applied to the problem of inferring the marginal posterior distribution over the directed acyclic graph (DAG) of a Bayesian Network, given a dataset of observations. Based on recent advances extending this framework to non-discrete sample spaces, we propose in this paper to approximate the joint posterior over not only the structure of a Bayesian Network, but also the parameters of its conditional probability distributions. We use a single GFlowNet whose sampling policy follows a two-phase process: the DAG is first generated sequentially one edge at a time, and then the corresponding parameters are picked once the full structure is known. Since the parameters are included in the posterior distribution, this leaves more flexibility for the local probability models of the Bayesian Network, making our approach applicable even to non-linear models parametrized by neural networks. We show that our method, called JSP-GFN, offers an accurate approximation of the joint posterior, while comparing favorably against existing methods on both simulated and real data.
翻訳日:2023-06-01 19:58:19 公開日:2023-05-30
# モバイルアプリケーションのためのビジョントランスフォーマー:簡単な調査

Vision Transformers for Mobile Applications: A Short Survey ( http://arxiv.org/abs/2305.19365v1 )

ライセンス: Link先を確認
Nahid Alam, Steven Kolawole, Simardeep Sethi, Nishant Bansali, Karina Nguyen(参考訳) ビジョントランスフォーマー(ViT)は多くのコンピュータビジョンタスクで最先端のパフォーマンスを実証している。 残念ながら、これらの大規模なViTをデプロイすることは、多くのモバイルデバイスにとってリソースを消費し、不可能である。 コミュニティのほとんどが大規模で大規模なViTを開発しているが、まったく逆の質問をしている。 モバイルデプロイメントに適した正確性と推論レイテンシのトレードオフの中で、ViTはどの程度小さいのか? モバイルアプリケーション用に特別に設計されたいくつかのViTを調べ、トランスフォーマーのアーキテクチャを変更するか、CNNとトランスフォーマーの組み合わせを中心に構築されていることを観察する。 最近の研究は、細かなViTネットワークの作成やアテンションモジュールの代替案の提案も試みている。 本稿では,これらのアーキテクチャを考察し,課題を特定し,モバイルアプリケーションに適したビジョントランスフォーマーを実際に作るかを分析する。 私たちは将来の研究方向性のベースラインとして機能することを目指しており、モバイルデバイス上で動作するアプリケーションのための模範的な視覚トランスフォーマーアーキテクチャを選択する基盤を築きたいと思っています。

Vision Transformers (ViTs) have demonstrated state-of-the-art performance on many Computer Vision Tasks. Unfortunately, deploying these large-scale ViTs is resource-consuming and impossible for many mobile devices. While most in the community are building for larger and larger ViTs, we ask a completely opposite question: How small can a ViT be within the tradeoffs of accuracy and inference latency that make it suitable for mobile deployment? We look into a few ViTs specifically designed for mobile applications and observe that they modify the transformer's architecture or are built around the combination of CNN and transformer. Recent work has also attempted to create sparse ViT networks and proposed alternatives to the attention module. In this paper, we study these architectures, identify the challenges and analyze what really makes a vision transformer suitable for mobile applications. We aim to serve as a baseline for future research direction and hopefully lay the foundation to choose the exemplary vision transformer architecture for your application running on mobile devices.
翻訳日:2023-06-01 19:57:57 公開日:2023-05-30
# 量子デバイスにおける不整合不整合性のスケーラブル評価

Scalable evaluation of incoherent infidelity in quantum devices ( http://arxiv.org/abs/2305.19359v1 )

ライセンス: Link先を確認
Jader P. Santos, Ivan Henao, Raam Uzdin(参考訳) 量子プロセッサは、人工的な問題を除いて、古典的シミュレーションの範囲を超えてタスクを実行できる。 この時点では、量子アルゴリズムの実験的精度を実用的な量子優位性のためにテストするエラーメトリクスを設計することが不可欠である。 コヒーレントエラーと非コヒーレントエラーの区別は、しばしば異なるエラー抑制ツールを含むため、非常に重要である。 最初のクラスは制御信号とクロストークの誤校正を含むが、後者は通常、確率的事象と環境との不要な相互作用に関係している。 不整合不整合を不整合誤差の尺度として導入し,その測定にスケーラブルな方法を提案する。 この方法は時間依存マルコフ雑音を受ける一般量子進化に適用できる。 さらに、多くの回路や量子ゲートで平均されるエラーではなく、ターゲット回路のエラー量子化器を提供する。 不整合不整合の推定は、有用な計算を行うための自然な要件である回路サイズにかかわらず、十分に低いエラー率で回路を評価するのに適している。

Quantum processors can already execute tasks beyond the reach of classical simulation, albeit for artificial problems. At this point, it is essential to design error metrics that test the experimental accuracy of quantum algorithms with potential for a practical quantum advantage. The distinction between coherent errors and incoherent errors is crucial, as they often involve different error suppression tools. The first class encompasses miscalibrations of control signals and crosstalk, while the latter is usually related to stochastic events and unwanted interactions with the environment. We introduce the incoherent infidelity as a measure of incoherent errors and present a scalable method for measuring it. This method is applicable to generic quantum evolutions subjected to time-dependent Markovian noise. Moreover, it provides an error quantifier for the target circuit, rather than an error averaged over many circuits or quantum gates. The estimation of the incoherent infidelity is suitable to assess circuits with sufficiently low error rates, regardless of the circuit size, which is a natural requirement to run useful computations.
翻訳日:2023-06-01 19:57:40 公開日:2023-05-30
# 安定異方性正則化

Stable Anisotropic Regularization ( http://arxiv.org/abs/2305.19358v1 )

ライセンス: Link先を確認
William Rudman and Carsten Eickhoff(参考訳) 大規模言語モデル(llm)の成功を考えると、モデルアクティベーションの特性の研究にはかなりの関心が寄せられている。 文献は LLM 表現は、非常に高いばらつきと大きさを持つ少数の 'outlier dimensions' によって支配されていることに圧倒的に同意している。 自然言語処理(NLP)におけるいくつかの研究は、そのような外接次元の影響を緩和し、LLMを等方性にする(つまり、埋め込み空間におけるすべての次元に均一な分散を持つ)ことを目指している。 等方性は、モデル性能を改善し、テキスト表現と人間の直感をより緊密に整合させるLLMにとって望ましい性質であると考えられている。 しかし、NLPにおける等方性に関する主張の多くは、埋め込みの平均コサイン類似性に基づいており、これは最近、等方性の欠陥が示されている。 本稿では,I-STAR: IsoScore$^{\star}$-based STable Anisotropic regularizationを提案する。 I-STARは、IsoScore$^{\star}$を使用し、ミニバッチ計算において微分可能かつ安定である最初の正確な等方性の測定値である。 いくつかの先行研究とは対照的に,コンテキスト化埋め込みにおける \textit{decreasing} 等方性は,本論文で検討したタスクやモデルの大部分のパフォーマンスを向上させる。

Given the success of Large Language Models (LLMs), there has been considerable interest in studying the properties of model activations. The literature overwhelmingly agrees that LLM representations are dominated by a few ``outlier dimensions'' with exceedingly high variance and magnitude. Several studies in Natural Language Processing (NLP) have sought to mitigate the impact of such outlier dimensions and force LLMs to be isotropic (i.e., have uniform variance across all dimensions in embedding space). Isotropy is thought to be a desirable property for LLMs that improves model performance and more closely aligns textual representations with human intuition. However, many of the claims regarding isotropy in NLP have been based on the average cosine similarity of embeddings, which has recently been shown to be a flawed measure of isotropy. In this paper, we propose I-STAR: IsoScore$^{\star}$-based STable Anisotropic Regularization, a novel regularization method that can be used to increase or decrease levels of isotropy in embedding space during training. I-STAR uses IsoScore$^{\star}$, the first accurate measure of isotropy that is both differentiable and stable on mini-batch computations. In contrast to several previous works, we find that \textit{decreasing} isotropy in contextualized embeddings improves performance on the majority of tasks and models considered in this paper.
翻訳日:2023-06-01 19:57:24 公開日:2023-05-30
# 物理貯水池計算を利用した音波メタ構造における多機能メカノインテリジェンス

Uncovering multifunctional mechano-intelligence in and through phononic metastructures harnessing physical reservoir computing ( http://arxiv.org/abs/2305.19354v1 )

ライセンス: Link先を確認
Yuning Zhang, Aditya Deshmukh, K. W. Wang(参考訳) 近年の自律システムの進歩は、次世代の適応構造や材料が機械的領域、いわゆるメカノ・インテリジェンス(MI)においてより組み込みのインテリジェンスを持つことへの強い需要を引き起こしている。 従来のMIは、MIの限られた側面を実現するための特定の設計やケーススタディに重点を置いており、インテリジェンスの異なる要素を効果的かつ効率的に構築し統合するための体系的な基盤が欠如している。 本稿では,物理貯水池計算(PRC)フレームワークを用いた統合多機能MIの実現に必要な基盤を構築するための新しいアプローチを提案する。 すなわち、コンピュータのパワーと知性、すなわち知覚、意思決定、指揮といった様々な要素を機械的領域で同時に具現化し、インテリジェンスを達成するためにアドオンのデジタルコンピュータと大規模エレクトロニクスにのみ依存する従来の適応型構造から前進する。 例示プラットフォームとして,高次非線形ダイナミクスに隠れたprcパワーを活用し,miの要素を統合した機械的にインテリジェントなフォノニックメタストラクタを構築した。 解析と実験を通じて,自己チューニング波制御からウェーブベース論理ゲートまで,複数の適応構造関数を明らかにする。 この研究は、電力消費の低減、より直接的な相互作用、厳しい環境やサイバー攻撃下での生存可能性の向上など、芸術の状態をはるかに上回る、将来の新しい構造を作る基盤を提供する。 さらに、オンボードコンピュータを過大評価することなく、システムに新たな機能や自律性を追加できるようになる。

The recent advances in autonomous systems have prompted a strong demand for the next generation of adaptive structures and materials to possess more built-in intelligence in their mechanical domain, the so-called mechano-intelligence (MI). Previous MI attempts mainly focused on specific designs and case studies to realize limited aspects of MI, and there is a lack of a systematic foundation in constructing and integrating the different elements of intelligence in an effective and efficient manner. Here, we propose a new approach to create the needed foundation in realizing integrated multifunctional MI via a physical reservoir computing (PRC) framework. That is, to concurrently embody computing power and the various elements of intelligence, namely perception, decision-making, and commanding, directly in the mechanical domain, advancing from conventional adaptive structures that rely solely on add-on digital computers and massive electronics to achieve intelligence. As an exemplar platform, we construct a mechanically intelligent phononic metastructure with the integrated elements of MI by harnessing the PRC power hidden in their high-degree-of-freedom nonlinear dynamics. Through analyses and experimental investigations, we uncover multiple adaptive structural functions ranging from self-tuning wave controls to wave-based logic gates. This research will provide the basis for creating future new structures that would greatly surpass the state of the art - such as lower power consumption, more direct interactions, and much better survivability in harsh environment or under cyberattacks. Moreover, it will enable the addition of new functions and autonomy to systems without overburdening the onboard computers.
翻訳日:2023-06-01 19:56:58 公開日:2023-05-30
# 確率勾配マルコフ連鎖モンテカルロによる非凸ベイズ学習

Non-convex Bayesian Learning via Stochastic Gradient Markov Chain Monte Carlo ( http://arxiv.org/abs/2305.19350v1 )

ライセンス: Link先を確認
Wei Deng(参考訳) 人工知能(AI)の台頭は、非凸最適化と不確実性定量化のために、現代のディープニューラルネットワーク(DNN)の効率的なトレーニングに依存している。 この問題に対処する標準的なツールはランジュバン・モンテカルロ(英語版)であり、理論的な保証により後方分布を近似することを提案している。 この論文では、レプリケーション交換(Langevin Monte Carlo、並列テンパリングとも呼ばれる)から始め、探索とエクスプロイトの間の適切な交換を提案して加速を達成する。 しかし、ビッグデータ問題へのスワップの“積極的な拡張”は大きなバイアスをもたらし、バイアス修正スワップが必要になる。 このような機構は、効果的なスワップや重要な加速を少なくする。 この問題を軽減するため,まず, 雑音エネルギー推定器の分散を低減し, 指数収束を加速する可能性を示す制御変数法を提案する。 また,非可逆性に基づく人口連鎖レプリカ交換を行い,深層学習のための最適なラウンドトリップレートを得る。 論文の第2部では,確率近似に基づくスケーラブルな動的重要度サンプリングアルゴリズムについて検討する。 従来の動的重要度サンプリングアルゴリズムは成功したが、スケーラビリティの欠如はビッグデータへの拡張を著しく制限した。 このスケーラビリティ問題に対処するために,消失する勾配問題を解き,2つの動的重要度サンプリングアルゴリズムを提案する。 理論的には、基礎となる常微分方程式(ODE)系の安定性条件を確立し、潜在変数の所望の定点への漸近収束を保証する。 興味深いことに、そのような結果は依然として非凸エネルギーの景観を保っている。

The rise of artificial intelligence (AI) hinges on the efficient training of modern deep neural networks (DNNs) for non-convex optimization and uncertainty quantification, which boils down to a non-convex Bayesian learning problem. A standard tool to handle the problem is Langevin Monte Carlo, which proposes to approximate the posterior distribution with theoretical guarantees. In this thesis, we start with the replica exchange Langevin Monte Carlo (also known as parallel tempering), which proposes appropriate swaps between exploration and exploitation to achieve accelerations. However, the na\"ive extension of swaps to big data problems leads to a large bias, and bias-corrected swaps are required. Such a mechanism leads to few effective swaps and insignificant accelerations. To alleviate this issue, we first propose a control variates method to reduce the variance of noisy energy estimators and show a potential to accelerate the exponential convergence. We also present the population-chain replica exchange based on non-reversibility and obtain an optimal round-trip rate for deep learning. In the second part of the thesis, we study scalable dynamic importance sampling algorithms based on stochastic approximation. Traditional dynamic importance sampling algorithms have achieved success, however, the lack of scalability has greatly limited their extensions to big data. To handle this scalability issue, we resolve the vanishing gradient problem and propose two dynamic importance sampling algorithms. Theoretically, we establish the stability condition for the underlying ordinary differential equation (ODE) system and guarantee the asymptotic convergence of the latent variable to the desired fixed point. Interestingly, such a result still holds given non-convex energy landscapes.
翻訳日:2023-06-01 19:56:30 公開日:2023-05-30
# Riemannian Projection-free Online Learningについて

On Riemannian Projection-free Online Learning ( http://arxiv.org/abs/2305.19349v1 )

ライセンス: Link先を確認
Zihao Hu, Guanghui Wang and Jacob Abernethy(参考訳) プロジェクション演算は、制約を強制し、最適後悔境界を達成するために、オンライン勾配降下(OGD)のような幅広い最適化アルゴリズムにおいて重要な要素である。 しかし、高次元の設定や不条件制約集合を扱う場合、計算複雑性の制限に苦しむ。 プロジェクションフリーアルゴリズムは、プロジェクションオラクルをより効率的な最適化サブルーチンに置き換えることでこの問題に対処する。 しかし、今日までこれらの手法は主にユークリッド空間で開発されており、リーマン多様体の最適化に対する関心は高まっているが、ここでは射影のないツールを使おうとする試みは本質的に行われていない。 明らかな問題は、非自明なアフィン函数がそのような領域では一般に非凸であることである。 本稿では,2つのシナリオに対して,曲面空間上での空間的凸最適化において,サブ線形後悔保証を得る方法を提案する。 (a)分離神託又は (b)線形最適化オラクル。 地理的に凸な損失に対して、そして分離オラクルが利用可能になったとき、我々のアルゴリズムは、それぞれ完全な情報設定とbandit設定において、$o(t^{1/2}\:)$と$o(t^{3/4}\;)$を保証します。 線形最適化 oracle が利用可能であれば、地理的凸損失に対して $o(t^{3/4}\;)$ と、強立体凸損失に対して $o(t^{2/3}\; log t )$ が得られる。

The projection operation is a critical component in a wide range of optimization algorithms, such as online gradient descent (OGD), for enforcing constraints and achieving optimal regret bounds. However, it suffers from computational complexity limitations in high-dimensional settings or when dealing with ill-conditioned constraint sets. Projection-free algorithms address this issue by replacing the projection oracle with more efficient optimization subroutines. But to date, these methods have been developed primarily in the Euclidean setting, and while there has been growing interest in optimization on Riemannian manifolds, there has been essentially no work in trying to utilize projection-free tools here. An apparent issue is that non-trivial affine functions are generally non-convex in such domains. In this paper, we present methods for obtaining sub-linear regret guarantees in online geodesically convex optimization on curved spaces for two scenarios: when we have access to (a) a separation oracle or (b) a linear optimization oracle. For geodesically convex losses, and when a separation oracle is available, our algorithms achieve $O(T^{1/2}\:)$ and $O(T^{3/4}\;)$ adaptive regret guarantees in the full information setting and the bandit setting, respectively. When a linear optimization oracle is available, we obtain regret rates of $O(T^{3/4}\;)$ for geodesically convex losses and $O(T^{2/3}\; log T )$ for strongly geodesically convex losses
翻訳日:2023-06-01 19:56:00 公開日:2023-05-30
# てんかん発作の検出:解剖と解析

Epilepsy Seizure Detection: Anatomy and Analysis ( http://arxiv.org/abs/2305.19347v1 )

ライセンス: Link先を確認
Zag ElSayed, Murat Ozer, Nelly Elsayed(参考訳) 発作追跡システムはてんかんの治療のモニタリングと評価に不可欠である。 今日ではてんかん治療にケアタカー発作日記が用いられているが、臨床的な発作モニタリングでは発作を見逃す可能性がある。 装着可能な監視装置は、より耐久性が高く、長期使用に適している。 発作検出には多くの技術や方法が提案されているが,検出精度を保ちながら,日常的に使用する上で重要な概念は単純さと手頃さである。 本研究では,簡単なリアルタイムk-Nearest-Neighbors(kNN)機械学習を用いて,4秒未満のトレーニング時間で個々のユーザに対してカスタマイズおよび適応が可能な汎用的で安価な非侵襲的手法を提案する。

A seizure tracking system is crucial for monitoring and evaluating epilepsy treatments. Caretaker seizure diaries are used in epilepsy care today, but clinical seizure monitoring may miss seizures. Monitoring devices that can be worn may be better tolerated and more suitable for long-term ambulatory use. Many techniques and methods are proposed for seizure detection; However, simplicity and affordability are key concepts for daily use while preserving the accuracy of the detection. In this study, we propose a versal, affordable noninvasive based on a simple real-time k-Nearest-Neighbors (kNN) machine learning that can be customized and adapted to individual users in less than four (4) seconds of training time; the system was verified and validated using 500 subjects, with seizure detection data sampled at 178 Hz, the operated with a mean accuracy of (94.5%).
翻訳日:2023-06-01 19:55:32 公開日:2023-05-30
# シナプスの重量分布は可塑性の幾何学に依存する

Synaptic Weight Distributions Depend on the Geometry of Plasticity ( http://arxiv.org/abs/2305.19394v1 )

ライセンス: Link先を確認
Roman Pogodin, Jonathan Cornford, Arna Ghosh, Gauthier Gidel, Guillaume Lajoie, Blake Richards(参考訳) 機械学習のほとんどの学習アルゴリズムは、モデルパラメータを調整するために勾配降下に依存しており、計算神経科学の文献はこれらのアイデアを活用して脳のシナプス可塑性を研究する。 しかし、この研究の大部分はシナプス変化(すなわちシナプス可塑性の幾何学)のための距離の選択という重要な前提を無視している。 勾配降下は距離がユークリッドであると仮定するが、他の多くの距離は可能であり、生物学が必ずしもユークリッド幾何学を使う理由はない。 ここでは, 鏡面降下による理論的な道具を用いて, 損失が最小化されるにも拘わらず, シナプス重みの分布はシナプス可塑性の幾何学に依存することを示した。 これらの結果を用いて実験的に観測された対数正規重み分布が標準勾配降下(ユークリッド幾何学)と一致せず、非ユークリッド距離であることを示す。 最後に,学習前後のシナプス重み分布を比較することにより,異なるシナプスジオメトリを実験的にテストできることを示す。 この研究は、ユークリッドのシナプス幾何学を仮定するシナプス可塑性に関する理論研究の現在のパラダイムが誤解されている可能性を示し、脳のシナプス可塑性の真の幾何学を実験的に決定できることを示唆している。

Most learning algorithms in machine learning rely on gradient descent to adjust model parameters, and a growing literature in computational neuroscience leverages these ideas to study synaptic plasticity in the brain. However, the vast majority of this work ignores a critical underlying assumption: the choice of distance for synaptic changes (i.e. the geometry of synaptic plasticity). Gradient descent assumes that the distance is Euclidean, but many other distances are possible, and there is no reason that biology necessarily uses Euclidean geometry. Here, using the theoretical tools provided by mirror descent, we show that, regardless of the loss being minimized, the distribution of synaptic weights will depend on the geometry of synaptic plasticity. We use these results to show that experimentally-observed log-normal weight distributions found in several brain areas are not consistent with standard gradient descent (i.e. a Euclidean geometry), but rather with non-Euclidean distances. Finally, we show that it should be possible to experimentally test for different synaptic geometries by comparing synaptic weight distributions before and after learning. Overall, this work shows that the current paradigm in theoretical work on synaptic plasticity that assumes Euclidean synaptic geometry may be misguided and that it should be possible to experimentally determine the true geometry of synaptic plasticity in the brain.
翻訳日:2023-06-01 19:48:19 公開日:2023-05-30
# 不完全不完全なペアワイズアノテーションによるディープクラスタリング:幾何正規化アプローチ

Deep Clustering with Incomplete Noisy Pairwise Annotations: A Geometric Regularization Approach ( http://arxiv.org/abs/2305.19391v1 )

ライセンス: Link先を確認
Tri Nguyen, Shahana Ibrahim, Xiao Fu(参考訳) ディープラーニングとペアワイズ類似性に基づく制約付きクラスタリング($\textit{deep constraintsed clustering}$ (dcc))の最近の統合は、大規模なデータクラスタリングに弱い監督を組み込むことに効果的であることが証明されている。 しかし、実証的な成功を超えて、DCCに対する理解の欠如がある。 さらに、多くのDCCパラダイムはアノテーションノイズに敏感であるが、性能保証されたDCC手法は大部分が解明されている。 この研究はまず、最近出現したDCCのロジスティック損失関数を深く研究し、その理論的性質を特徴づける。 以上の結果から,ロジスティックDCC損失は,妥当な条件下でのデータメンバシップの識別可能性を保証することが示唆された。 この理解に基づいて、幾何学的因子分析に基づく新しい損失関数を提案し、ノイズのあるアノテーションに対処する。 $\textit{unknown}$アノテーションの混乱の下でも、データメンバシップは、提案した学習基準の下で識別される$\textit{provably}$でなければならない。 提案手法は,複数のデータセット上でテストし,クレームの検証を行う。

The recent integration of deep learning and pairwise similarity annotation-based constrained clustering -- i.e., $\textit{deep constrained clustering}$ (DCC) -- has proven effective for incorporating weak supervision into massive data clustering: Less than 1% of pair similarity annotations can often substantially enhance the clustering accuracy. However, beyond empirical successes, there is a lack of understanding of DCC. In addition, many DCC paradigms are sensitive to annotation noise, but performance-guaranteed noisy DCC methods have been largely elusive. This work first takes a deep look into a recently emerged logistic loss function of DCC, and characterizes its theoretical properties. Our result shows that the logistic DCC loss ensures the identifiability of data membership under reasonable conditions, which may shed light on its effectiveness in practice. Building upon this understanding, a new loss function based on geometric factor analysis is proposed to fend against noisy annotations. It is shown that even under $\textit{unknown}$ annotation confusions, the data membership can still be $\textit{provably}$ identified under our proposed learning criterion. The proposed approach is tested over multiple datasets to validate our claims.
翻訳日:2023-06-01 19:47:56 公開日:2023-05-30
# ペンデュラアレイにおけるブロッホ振動, ランダウ-ゼナー遷移, 位相位相進化

Bloch Oscillations, Landau-Zener Transition, and Topological Phase Evolution in a Pendula Array ( http://arxiv.org/abs/2305.19387v1 )

ライセンス: Link先を確認
Izhar Neder, Chaviva Sirote, Meital Geva, Yoav Lahini, Roni Ilan, Yair Shokef(参考訳) 自発的空間勾配が軽度で隣接するペンデュラが弱結合と交互結合しているペンデュラの1次元配列のダイナミクスを実験的および理論的に研究した。 そのダイナミクスを格子上の荷電量子粒子の位相的su-schrieffer-heeger(ssh)モデルにマッピングし、外部電界でのホッピング速度を交互に変化させる。 格子のバルクにおけるウェーブパックのダイナミクスを直接追跡することにより、ブロッホ振動、ランダウ・ゼナー遷移、およびイソスピン(単位セル内の内波関数分布)と空間自由度(単位セル間の分布)の間の結合を観測する。 次に、バルク内のブロッホ振動を用いて、バンドの非自明な大域的位相巻線と局所幾何学的位相を直接測定する。 ブロッホ期における幾何学的位相の全体的な進化は3.1$\pm$ 0.2ラジアンであり、期待されるzak位相は$\pi$である。 この結果は、量子モデルの古典的アナログが、バンド構造の位相的性質を直接観察し、量子的および古典的トポロジ効果の類似点と相違点に光を当てる力を示す。

We experimentally and theoretically study the dynamics of a one-dimensional array of pendula with a mild spatial gradient in their self-frequency and where neighboring pendula are connected with weak and alternating coupling. We map their dynamics to the topological Su-Schrieffer-Heeger (SSH) model of charged quantum particles on a lattice with alternating hopping rates in an external electric field. By directly tracking the dynamics of a wavepacket in the bulk of the lattice, we observe Bloch oscillations, Landau-Zener transitions, and coupling between the isospin (i.e. the inner wave function distribution within the unit cell) and the spatial degrees of freedom (the distribution between unit cells). We then use Bloch oscillations in the bulk to directly measure the non-trivial global topological phase winding and local geometric phase of the band. We measure an overall evolution of 3.1 $\pm$ 0.2 radians for the geometrical phase during the Bloch period, consistent with the expected Zak phase of $\pi$. Our results demonstrate the power of classical analogs of quantum models to directly observe the topological properties of the band structure, and sheds light on the similarities and the differences between quantum and classical topological effects.
翻訳日:2023-06-01 19:47:33 公開日:2023-05-30
# 受動安定量子SWITCHの高次プロセスマトリックストモグラフィ

Higher-order Process Matrix Tomography of a passively-stable Quantum SWITCH ( http://arxiv.org/abs/2305.19386v1 )

ライセンス: Link先を確認
Michael Antesberger, Marco T\'ulio Quintino, Philip Walther, Lee A. Rozema(参考訳) 不確定因果順序(ICO)の分野は近年注目されている。 この研究の多くは、量子回路モデルを超越した方法で、複数のパーティが異なる順序の重ね合わせで作用する量子SWITCHに焦点を当てている。 これにより量子プロトコルの新しいリソースが生まれ、基礎物理学の問題との関連性に興奮する。 量子スイッチは、量子状態を変換するだけでなく、他の量子演算も変換する、高階量子演算の例でもある。 これまで、高次量子演算は完全に実験的に特徴づけられていない。 実際、量子SWITCHに関する過去の研究は、因果的証人を測定するか、資源の利点を示すことによってICOを確認したが、完全なプロセス行列は理論上のみ記述されている。 ここでは,高次量子プロセストモグラフィーを行う。 しかし、それを行うには、標準的なプロセストモグラフィーよりも低いスケーリングで指数関数的に多くの測定が必要となる。 我々は、能動光学素子を用いた新しい受動安定ファイバーベースの量子SWITCHを作成し、時間ビン符号化量子ビットを決定論的に生成・操作することで、この課題を克服する。 さらに、量子SWITCHのための新しいアーキテクチャは、容易に複数のパーティに拡張できる。 プロセスマトリックスを再構築することにより、その忠実度を推定し、実験のために直接異なる因果証を調整する。 これを実現するために、入力操作空間にまたがるトモグラフィ的に完全な設定のセットを測定する。 我々のトモグラフィープロトコルは、ICOを用いた高階量子演算のキャラクタリゼーションとデバッギングを可能にし、実験時間ビン技術はICOによる高階量子演算の新しい領域の作成を可能にする。

The field of indefinite causal order (ICO) has seen a recent surge in interest. Much of this research has focused on the quantum SWITCH, wherein multiple parties act in a superposition of different orders in a manner transcending the quantum circuit model. This results in a new resource for quantum protocols, and is exciting for its relation to issues in foundational physics. The quantum SWITCH is also an example of a higher-order quantum operation, in that it not only transforms quantum states, but also other quantum operations. To date, no higher-order quantum operation has been completely experimentally characterized. Indeed, past work on the quantum SWITCH has confirmed its ICO by measuring causal witnesses or demonstrating resource advantages, but the complete process matrix has only been described theoretically. Here, we perform higher-order quantum process tomography. However, doing so requires exponentially many measurements with a scaling worse than standard process tomography. We overcome this challenge by creating a new passively-stable fiber-based quantum SWITCH using active optical elements to deterministically generate and manipulate time-bin encoded qubits. Moreover, our new architecture for the quantum SWITCH can be readily scaled to multiple parties. By reconstructing the process matrix, we estimate its fidelity and tailor different causal witnesses directly for our experiment. To achieve this, we measure a set of tomographically complete settings, that also spans the input operation space. Our tomography protocol allows for the characterization and debugging of higher-order quantum operations with and without an ICO, while our experimental time-bin techniques could enable the creation of a new realm of higher-order quantum operations with an ICO.
翻訳日:2023-06-01 19:47:07 公開日:2023-05-30
# ラムベックツールキットを用いた量子自然言語処理に基づく感性分析

Quantum Natural Language Processing based Sentiment Analysis using lambeq Toolkit ( http://arxiv.org/abs/2305.19383v1 )

ライセンス: Link先を確認
Srinjoy Ganguly, Sai Nandan Morapakula, Luis Miguel Pozo Coronado(参考訳) 感性分類は古典自然言語処理(NLP)の最良のユースケースであり、銀行、ビジネス、マーケティング産業など、様々な日常生活領域でその力を見ることができる。 私たちは、古典的なAIと機械学習がどのように技術を変えて改善できるかをすでに知っています。 量子自然言語処理(Quantum Natural Language Processing, QNLP)は、NLPタスクに量子的優位性を提供する可能性のある、若く徐々に発展してきた技術である。 本稿では,qnlpを感情分析に初めて応用し,3種類のシミュレーションにおける完璧なテストセット精度と,雑音の大きい量子デバイス上で行った実験の精度を明らかにした。 我々は、Cambridge Quantum(Quantinuum)によるlambeq QNLPツールキットと$t|ket>$を使って結果を得る。

Sentiment classification is one the best use case of classical natural language processing (NLP) where we can witness its power in various daily life domains such as banking, business and marketing industry. We already know how classical AI and machine learning can change and improve technology. Quantum natural language processing (QNLP) is a young and gradually emerging technology which has the potential to provide quantum advantage for NLP tasks. In this paper we show the first application of QNLP for sentiment analysis and achieve perfect test set accuracy for three different kinds of simulations and a decent accuracy for experiments ran on a noisy quantum device. We utilize the lambeq QNLP toolkit and $t|ket>$ by Cambridge Quantum (Quantinuum) to bring out the results.
翻訳日:2023-06-01 19:46:38 公開日:2023-05-30
# 遅延トレーニングによる深部ニューラルネットワークの良性オーバーフィッティング

Benign Overfitting in Deep Neural Networks under Lazy Training ( http://arxiv.org/abs/2305.19377v1 )

ライセンス: Link先を確認
Zhenyu Zhu, Fanghui Liu, Grigorios G Chrysos, Francesco Locatello, Volkan Cevher(参考訳) 本稿では,reluアクティベーション関数を持つ過パラメータ深層ニューラルネットワーク(dnns)に着目し,データ分散が十分に分離された場合,遅延学習環境下でゼロトレーニングエラーを(ほぼ)獲得しながら,分類のためのベイズ最適テストエラーをdnnが達成できることを実証する。 この目的のために、DNNの過パラメータ化、良性オーバーフィッティング、リプシッツ定数の3つの相互関連概念を統一する。 よりスムーズな関数との補間はより一般化をもたらすことを示す。 さらに,Nutral Tangent Kernel (NTK) 体制下でのDNNによるスムーズな接地構造関数の補間を行う場合について検討した。 その結果、一般化誤差はラベルノイズと初期化ノイズのみに依存する一定の順序に収束し、理論的には良性過剰を検証できることを示した。 本解析は,非スムース活性化関数の下での正規化マージンと,学習理論に独自の関心を持つ高次元条件下でのntkの最小固有値の厳密な下界を与える。

This paper focuses on over-parameterized deep neural networks (DNNs) with ReLU activation functions and proves that when the data distribution is well-separated, DNNs can achieve Bayes-optimal test error for classification while obtaining (nearly) zero-training error under the lazy training regime. For this purpose, we unify three interrelated concepts of overparameterization, benign overfitting, and the Lipschitz constant of DNNs. Our results indicate that interpolating with smoother functions leads to better generalization. Furthermore, we investigate the special case where interpolating smooth ground-truth functions is performed by DNNs under the Neural Tangent Kernel (NTK) regime for generalization. Our result demonstrates that the generalization error converges to a constant order that only depends on label noise and initialization noise, which theoretically verifies benign overfitting. Our analysis provides a tight lower bound on the normalized margin under non-smooth activation functions, as well as the minimum eigenvalue of NTK under high-dimensional settings, which has its own interest in learning theory.
翻訳日:2023-06-01 19:46:11 公開日:2023-05-30
# RF+クラストの応答特性予測のための感度解析

Sensitivity Analysis of RF+clust for Leave-one-problem-out Performance Prediction ( http://arxiv.org/abs/2305.19375v1 )

ライセンス: Link先を確認
Ana Nikolikj, Michal Pluh\'a\v{c}ek, Carola Doerr, Peter Koro\v{s}ec, and Tome Eftimov(参考訳) LOPO(Leave-one-problem-out)パフォーマンス予測では、アルゴリズムのパフォーマンスを一連のトレーニング問題から、これまで見つからなかった問題に推定するために、機械学習(ML)モデルが必要となる。 LOPOは最先端のアプローチであっても非常に難しいタスクです。 安易な1回のインスタンスアウトシナリオでうまく機能するモデルは、しばしばLOPO設定によく当てはまらない。 LOPO問題に対処するために、最近の研究は、テスト問題に類似していると考えられるトレーニング問題に対するアルゴリズムの性能の重み付け平均による標準ランダムフォレスト(RF)性能回帰モデルの拡張を提案した。 より正確には、この rf+clust のアプローチでは、重みはいくつかの特徴空間における問題の距離に比例して選択される。 本稿では,性能回帰の重要度に応じて距離ベース重みを調整することにより,RF+クラストアプローチを拡張する。 すなわち、特徴空間における余弦距離を考慮する代わりに、回帰モデルにおける特徴の関連性に依存する重み付き距離測度を考える。 CEC 2014ベンチマークスイートにおけるRF+クラスト修正手法の実証評価により, 実測値に対する利点が確認された。 しかし、特により表現力のある機能ポートフォリオに関して、改善の余地も観察しています。

Leave-one-problem-out (LOPO) performance prediction requires machine learning (ML) models to extrapolate algorithms' performance from a set of training problems to a previously unseen problem. LOPO is a very challenging task even for state-of-the-art approaches. Models that work well in the easier leave-one-instance-out scenario often fail to generalize well to the LOPO setting. To address the LOPO problem, recent work suggested enriching standard random forest (RF) performance regression models with a weighted average of algorithms' performance on training problems that are considered similar to a test problem. More precisely, in this RF+clust approach, the weights are chosen proportionally to the distances of the problems in some feature space. Here in this work, we extend the RF+clust approach by adjusting the distance-based weights with the importance of the features for performance regression. That is, instead of considering cosine distance in the feature space, we consider a weighted distance measure, with weights depending on the relevance of the feature for the regression model. Our empirical evaluation of the modified RF+clust approach on the CEC 2014 benchmark suite confirms its advantages over the naive distance measure. However, we also observe room for improvement, in particular with respect to more expressive feature portfolios.
翻訳日:2023-06-01 19:45:51 公開日:2023-05-30
# 視覚概念学習における構成多様性

Compositional diversity in visual concept learning ( http://arxiv.org/abs/2305.19374v1 )

ライセンス: Link先を確認
Yanli Zhou, Reuben Feinman, Brenden M. Lake(参考訳) 人間はコンポジション性を利用して新しい概念を効率的に学習し、親しみやすい部分がどのように結合して新しいオブジェクトを形成するかを理解する。 対照的に、一般的なコンピュータビジョンモデルは、同じタイプの推論を作ることに苦労し、より多くのデータを必要とし、人間よりも柔軟に一般化しない。 そこで我々は,これらの特徴ある人間の能力について,多種多様な視覚構成にまたがって検討し,豊かな関係構造を持つ「アリアンフィギュア」の分類・生成方法を検討した。 また,様々な構成機構と抽象化を含む大規模プログラム空間を利用して,最適な視覚図形生成プログラムを探索するベイズプログラム誘導モデルを開発した。 少数のショット分類タスクでは,実験データに対する強い説明と,カテゴリーのメンバシップに不変な要因(ここでは回転と部分アタッチメントの変化)に関する人間の仮定を明らかにする解釈可能なパラメータを提供するとともに,人とプログラムの誘導モデルが有意義な構成的一般化を行うことができることが判明した。 少数のショット生成タスクでは、人とモデルの両方が魅力的な新しい例を構築でき、モデル機能を超えた構造的な方法、例えば、セットを完成させたり、既存のパーツを非常に新しい方法で再構成したりすることができる。 これらの追加の行動パターンを捉えるために,ニューロシンボリックなプログラム誘導に基づく代替モデルを開発した。 行動的および計算的知見は、視覚的オブジェクトの分類と生成において、人やモデルが多種多様な構成的振る舞いを生成できることを示す。

Humans leverage compositionality to efficiently learn new concepts, understanding how familiar parts can combine together to form novel objects. In contrast, popular computer vision models struggle to make the same types of inferences, requiring more data and generalizing less flexibly than people do. Here, we study these distinctively human abilities across a range of different types of visual composition, examining how people classify and generate ``alien figures'' with rich relational structure. We also develop a Bayesian program induction model which searches for the best programs for generating the candidate visual figures, utilizing a large program space containing different compositional mechanisms and abstractions. In few shot classification tasks, we find that people and the program induction model can make a range of meaningful compositional generalizations, with the model providing a strong account of the experimental data as well as interpretable parameters that reveal human assumptions about the factors invariant to category membership (here, to rotation and changing part attachment). In few shot generation tasks, both people and the models are able to construct compelling novel examples, with people behaving in additional structured ways beyond the model capabilities, e.g. making choices that complete a set or reconfiguring existing parts in highly novel ways. To capture these additional behavioral patterns, we develop an alternative model based on neuro-symbolic program induction: this model also composes new concepts from existing parts yet, distinctively, it utilizes neural network modules to successfully capture residual statistical structure. Together, our behavioral and computational findings show how people and models can produce a rich variety of compositional behavior when classifying and generating visual objects.
翻訳日:2023-06-01 19:45:30 公開日:2023-05-30
# 心不全患者における表現型同定と滞在時間予測のための臨床ノートのマイニングテーマ

Mining Themes in Clinical Notes to Identify Phenotypes and to Predict Length of Stay in Patients admitted with Heart Failure ( http://arxiv.org/abs/2305.19373v1 )

ライセンス: Link先を確認
Ankita Agarwal, Tanvi Banerjee, William L. Romine, Krishnaprasad Thirunarayan, Lingwei Chen, Mia Cajita(参考訳) 心不全 (Heart failure) は、心臓が血液や酸素を汲み上げず体内の他の臓器を支えられない場合に起こる症候群である。 心不全に罹患した患者の診断基準や処置報告の根底にあるテーマを特定すれば、心不全に関連する臨床的表現型を明らかにし、その類似した特徴に基づいて患者をグループ化することができる。 These clinical phenotypes usually have a probabilistic latent structure and hence, as there has been no previous work on identifying phenotypes in clinical notes of heart failure patients using a probabilistic framework and to predict length of stay of these patients using data-driven artificial intelligence-based methods, we apply natural language processing technique, topic modeling, to identify the themes present in diagnostic codes and in procedure reports of 1,200 patients admitted for heart failure at the University of Illinois Hospital and Health Sciences System (UI Health). トピック・モデリングでは、心不全に関する様々な観点から異なる表現型に関する情報を明らかにし、患者のプロファイルを調べ、医療概念間の新たな関係を見出す12のテーマをそれぞれ特定した。 各テーマには一連のキーワードがあり、各臨床ノートには2つのテーマ(診断コードに対応するものと手続き報告に対応するもの)がラベル付けされ、そのパーセンテージが付与された。 これらのテーマとパーセンテージのコントリビューションを使って滞在期間を予測しました。 トピックモデリングを用いて診断コードや手順レポートから得られたテーマは, 61.1%の精度で患者の滞在期間を予測でき, 受信者の動作特性曲線 (roc auc) が0.828であった。

Heart failure is a syndrome which occurs when the heart is not able to pump blood and oxygen to support other organs in the body. Identifying the underlying themes in the diagnostic codes and procedure reports of patients admitted for heart failure could reveal the clinical phenotypes associated with heart failure and to group patients based on their similar characteristics which could also help in predicting patient outcomes like length of stay. These clinical phenotypes usually have a probabilistic latent structure and hence, as there has been no previous work on identifying phenotypes in clinical notes of heart failure patients using a probabilistic framework and to predict length of stay of these patients using data-driven artificial intelligence-based methods, we apply natural language processing technique, topic modeling, to identify the themes present in diagnostic codes and in procedure reports of 1,200 patients admitted for heart failure at the University of Illinois Hospital and Health Sciences System (UI Health). Topic modeling identified twelve themes each in diagnostic codes and procedure reports which revealed information about different phenotypes related to various perspectives about heart failure, to study patients' profiles and to discover new relationships among medical concepts. Each theme had a set of keywords and each clinical note was labeled with two themes - one corresponding to its diagnostic code and the other corresponding to its procedure reports along with their percentage contribution. We used these themes and their percentage contribution to predict length of stay. We found that the themes discovered in diagnostic codes and procedure reports using topic modeling together were able to predict length of stay of the patients with an accuracy of 61.1% and an Area under the Receiver Operating Characteristic Curve (ROC AUC) value of 0.828.
翻訳日:2023-06-01 19:45:01 公開日:2023-05-30
# 児童保護サービスのためのNLPツールにおける人種バイアスのリスクの検討

Examining risks of racial biases in NLP tools for child protective services ( http://arxiv.org/abs/2305.19409v1 )

ライセンス: Link先を確認
Anjalie Field, Amanda Coston, Nupoor Gandhi, Alexandra Chouldechova, Emily Putnam-Hornstein, David Steier, Yulia Tsvetkov(参考訳) 多くの文献は、自然言語処理(NLP)モデルにおける人口統計バイアスの存在を確立しているが、ほとんどの研究は、現実世界の応用を反映していないかもしれない計算済みのバイアスメトリクスに依存している。 同時に、実践者はアルゴリズムツールをハイテイクな設定で利用し、特に最近のNLPへの関心が高まっている。 本研究では,子ども保護サービス(cps)という設定に着目した。 CPSの作業員は、共同作業している家族に関する敬意を表したフリーフォームのテキストノートを書くことが多く、CPS機関は、これらのデータを活用するためにNLPモデルを積極的に展開しようとしている。 この設定で確立された人種バイアスを考えると、NLPの展開は人種格差を増大させる可能性がある。 特に,音符中の単語統計や,リスク予測,コリファレンス解決,名前付きエンティティ認識(ner)におけるアルゴリズム的公平性について検討した。 我々は、NERモデルにおける一貫したアルゴリズムの不公平性、コア参照解決モデルにおけるアルゴリズムの不公平性、およびリスク予測における人種バイアスの悪化の証拠を文書化している。 リスク予測に対する批判は存在するが,実物的情報抽出システムでは従来文書化されていなかった人種的バイアスのリスクを露呈し,より良質に見えるものの,それらの導入に関する潜在的な懸念を浮き彫りにしている。 我々の研究は、潜在的にデプロイされた環境でのNLPアルゴリズムフェアネスの稀な現実的な検証と、CPS設定におけるNLPのデプロイに伴う特定のリスクのタイムリーな調査である。

Although much literature has established the presence of demographic bias in natural language processing (NLP) models, most work relies on curated bias metrics that may not be reflective of real-world applications. At the same time, practitioners are increasingly using algorithmic tools in high-stakes settings, with particular recent interest in NLP. In this work, we focus on one such setting: child protective services (CPS). CPS workers often write copious free-form text notes about families they are working with, and CPS agencies are actively seeking to deploy NLP models to leverage these data. Given well-established racial bias in this setting, we investigate possible ways deployed NLP is liable to increase racial disparities. We specifically examine word statistics within notes and algorithmic fairness in risk prediction, coreference resolution, and named entity recognition (NER). We document consistent algorithmic unfairness in NER models, possible algorithmic unfairness in coreference resolution models, and little evidence of exacerbated racial bias in risk prediction. While there is existing pronounced criticism of risk prediction, our results expose previously undocumented risks of racial bias in realistic information extraction systems, highlighting potential concerns in deploying them, even though they may appear more benign. Our work serves as a rare realistic examination of NLP algorithmic fairness in a potential deployed setting and a timely investigation of a specific risk associated with deploying NLP in CPS settings.
翻訳日:2023-06-01 19:41:31 公開日:2023-05-30
# FRAMM : 臨床治験サイト選択のためのモダリティの欠如による公正ランク付け

FRAMM: Fair Ranking with Missing Modalities for Clinical Trial Site Selection ( http://arxiv.org/abs/2305.19407v1 )

ライセンス: Link先を確認
Brandon Theodorou, Lucas Glass, Cao Xiao, and Jimeng Sun(参考訳) 格差に対処する多くの努力にもかかわらず、臨床試験における性別、人種、民族的マイノリティの不足は問題であり、マイノリティに対する治療の効果を損なう。 本稿では, 試行サイト選択作業に焦点をあて, 公正な試行サイト選択のための深層強化学習フレームワークであるFRAMMを提案する。 私たちは、公正な試用サイト選択に影響を及ぼす2つの現実世界の課題に対処することに焦点をあてている。 データモダリティは、多くの潜在的試用サイトでは完成せず、サイト選択は、登録と多様性の両方に対して同時に最適化する必要がある。 不足するデータ課題に対処するため、frammは、不足データを処理するためのマスク付きクロスアテンション機構を備えたモダリティエンコーダを備えており、データのインプテーションをバイパスし、トレーニングにおける完全なデータの必要性を回避している。 効率的なトレードオフを実現するために、FRAMMは深い強化学習と、入場と公正の両方を同時に最適化する特別に設計された報酬関数を使用する。 FRAMMは2016年から2021年までの4,392件の実際の臨床試験を用いて評価し、FRAMMは入学者のみの設定において最上位のベースラインを上回り、多様性の大きな向上を達成していることを示す。 具体的には、主要なベースラインに対して同様の登録レベルを持つ多様性を9%向上させることができる。 多様性の向上は、ヒスパニック系入学者の14%増加、黒人入学者の27%増加、アジア系入学者の60%増加にさらに寄与している。

Despite many efforts to address the disparities, the underrepresentation of gender, racial, and ethnic minorities in clinical trials remains a problem and undermines the efficacy of treatments on minorities. This paper focuses on the trial site selection task and proposes FRAMM, a deep reinforcement learning framework for fair trial site selection. We focus on addressing two real-world challenges that affect fair trial sites selection: the data modalities are often not complete for many potential trial sites, and the site selection needs to simultaneously optimize for both enrollment and diversity since the problem is necessarily a trade-off between the two with the only possible way to increase diversity post-selection being through limiting enrollment via caps. To address the missing data challenge, FRAMM has a modality encoder with a masked cross-attention mechanism for handling missing data, bypassing data imputation and the need for complete data in training. To handle the need for making efficient trade-offs, FRAMM uses deep reinforcement learning with a specifically designed reward function that simultaneously optimizes for both enrollment and fairness. We evaluate FRAMM using 4,392 real-world clinical trials ranging from 2016 to 2021 and show that FRAMM outperforms the leading baseline in enrollment-only settings while also achieving large gains in diversity. Specifically, it is able to produce a 9% improvement in diversity with similar enrollment levels over the leading baselines. That improved diversity is further manifested in achieving up to a 14% increase in Hispanic enrollment, 27% increase in Black enrollment, and 60% increase in Asian enrollment compared to selecting sites with an enrollment-only model.
翻訳日:2023-06-01 19:40:46 公開日:2023-05-30
# PaintSeg: ペイントによるトレーニング不要のセグメンテーション

PaintSeg: Training-free Segmentation via Painting ( http://arxiv.org/abs/2305.19406v1 )

ライセンス: Link先を確認
Xiang Li, Chung-Ching Lin, Yinpeng Chen, Zicheng Liu, Jinglu Wang, Bhiksha Raj(参考訳) トレーニングなしでオブジェクトをセグメント化するための新しい教師なし手法であるPaintSegを紹介した。 本稿では,原画像と被写体領域が塗装された塗装画像とのコントラストを,市販の合成モデルを用いて生成する,対向型マスク付きコントラスト絵画(AMCP)プロセスを提案する。 塗装工程では、前者が前景をマスクし、背景を充填し、後者が前景の欠片を回収しながら背景をマスクし、塗りつぶしと外装を交互に行う。 i-step や o-step とも呼ばれる塗りつぶしや塗り外しは、監視や訓練なしに徐々に対象のセグメンテーションマスクを地上の真理に向かって前進させることを可能にする。 paintsegは、粗いマスク、ボックス、スクリブル、ポイントなど、さまざまなプロンプトで動作するように構成できる。 実験の結果,paintsegは粗いマスクプロンプト,ボックスプロンプト,ポイントプロンプトのセグメンテーションタスクにおいて既存のアプローチよりも優れており,教師なしセグメンテーションに適したトレーニングフリーなソリューションを提供する。

The paper introduces PaintSeg, a new unsupervised method for segmenting objects without any training. We propose an adversarial masked contrastive painting (AMCP) process, which creates a contrast between the original image and a painted image in which a masked area is painted using off-the-shelf generative models. During the painting process, inpainting and outpainting are alternated, with the former masking the foreground and filling in the background, and the latter masking the background while recovering the missing part of the foreground object. Inpainting and outpainting, also referred to as I-step and O-step, allow our method to gradually advance the target segmentation mask toward the ground truth without supervision or training. PaintSeg can be configured to work with a variety of prompts, e.g. coarse masks, boxes, scribbles, and points. Our experimental results demonstrate that PaintSeg outperforms existing approaches in coarse mask-prompt, box-prompt, and point-prompt segmentation tasks, providing a training-free solution suitable for unsupervised segmentation.
翻訳日:2023-06-01 19:39:48 公開日:2023-05-30
# 脳腫瘍mriにおける異種構造分割のためのインクリメンタル学習

Incremental Learning for Heterogeneous Structure Segmentation in Brain Tumor MRI ( http://arxiv.org/abs/2305.19404v1 )

ライセンス: Link先を確認
Xiaofeng Liu, Helen A. Shih, Fangxu Xing, Emiliano Santarnecchi, Georges El Fakhri, Jonghye Woo(参考訳) 様々な解剖構造をセグメント化するためのディープラーニング(DL)モデルは、単一のソースドメインでトレーニングされた静的DLモデルを通じて大きな成功を収めた。 しかし、静的DLモデルは継続的に進化する環境ではパフォーマンスが悪く、適切なモデル更新が必要である。 漸進的な学習環境では、よく訓練された静的モデルが更新されることを期待します。 しかし、これは分散シフト、初期モデルのトレーニング中に見られない構造の追加、ソースドメインでのトレーニングデータの欠如といった問題を引き起こす。 これらの課題に対処するため、本研究では、‘off-the-shelf’訓練されたセグメンテーションモデルを、統一された方法で追加の解剖学的カテゴリを持つ多様なデータセットに段階的に進化させようとする。 具体的には、まず、従来のタスクと新しいタスクを分離するために、バランスの取れた剛性と可塑性分岐を持つ分散型二重フローモジュールを提案する。 そして,適応ネットワーク最適化のために,自己エントロピー正規化運動量混合崩壊を伴う擬似ラベル学習方式を開発した。 対象領域を継続的に変化させる脳腫瘍セグメンテーションタスク、すなわちインクリメンタルな構造を持つ新しいMRIスキャナー/モダリティの枠組みについて検討した。 我々のフレームワークは,事前学習した構造物の識別性を良好に保ち,大規模医療データの蓄積とともに,実時間長寿命セグメンテーションモデル拡張を可能にした。

Deep learning (DL) models for segmenting various anatomical structures have achieved great success via a static DL model that is trained in a single source domain. Yet, the static DL model is likely to perform poorly in a continually evolving environment, requiring appropriate model updates. In an incremental learning setting, we would expect that well-trained static models are updated, following continually evolving target domain data -- e.g., additional lesions or structures of interest -- collected from different sites, without catastrophic forgetting. This, however, poses challenges, due to distribution shifts, additional structures not seen during the initial model training, and the absence of training data in a source domain. To address these challenges, in this work, we seek to progressively evolve an ``off-the-shelf" trained segmentation model to diverse datasets with additional anatomical categories in a unified manner. Specifically, we first propose a divergence-aware dual-flow module with balanced rigidity and plasticity branches to decouple old and new tasks, which is guided by continuous batch renormalization. Then, a complementary pseudo-label training scheme with self-entropy regularized momentum MixUp decay is developed for adaptive network optimization. We evaluated our framework on a brain tumor segmentation task with continually changing target domains -- i.e., new MRI scanners/modalities with incremental structures. Our framework was able to well retain the discriminability of previously learned structures, hence enabling the realistic life-long segmentation model extension along with the widespread accumulation of big medical data.
翻訳日:2023-06-01 19:39:16 公開日:2023-05-30
# ロバスト表現学習のためのコンテクストビジョントランスフォーマ

Contextual Vision Transformers for Robust Representation Learning ( http://arxiv.org/abs/2305.19402v1 )

ライセンス: Link先を確認
Yujia Bao, Theofanis Karaletsos(参考訳) 共変量のような群構造を示す画像に対してロバストな特徴表現を生成するためのコンテキストビジョントランスフォーマー(contextvit)を提案する。 ContextViTは、グループ固有の情報をエンコードする余分なコンテキストトークンを導入し、モデルがグループ固有の共変構造を説明できると同時に、グループ間でコアな視覚的特徴を共有できる。 具体的には、入力画像が与えられると、同じ共変量を共有する画像を、入力画像トークンに追加されたこのコンテキストトークンにマッピングし、モデルがグループメンバシップに与える影響をキャプチャする。 さらに,グループ分布から数個のサンプルが与えられた場合,このようなトークンをリアルタイムで予測するコンテキスト推論ネットワークを導入し,推論時に新しいテスト分布に一般化できるようにする。 さまざまなアプリケーションを通じてContextViTのパフォーマンスを説明します。 教師付き微調整では,事前学習したvitを追加コンディショニングにより拡張することで,iwildcamとfmowの分散一般化が大幅に向上することを示す。 contextvitを用いた自己教師付き表現学習についても検討した。 camelyon17 病理イメージングベンチマークおよびcpg-0000 顕微鏡イメージングベンチマークによる実験により,コンテキストvit は共変量シフト下での安定な画像フェーチュライゼーションの学習に優れ,vit と同等に優れていることが示された。

We present Contextual Vision Transformers (ContextViT), a method for producing robust feature representations for images exhibiting grouped structure such as covariates. ContextViT introduces an extra context token to encode group-specific information, allowing the model to explain away group-specific covariate structures while keeping core visual features shared across groups. Specifically, given an input image, Context-ViT maps images that share the same covariate into this context token appended to the input image tokens to capture the effects of conditioning the model on group membership. We furthermore introduce a context inference network to predict such tokens on the fly given a few samples from a group distribution, enabling ContextViT to generalize to new testing distributions at inference time. We illustrate the performance of ContextViT through a diverse range of applications. In supervised fine-tuning, we demonstrate that augmenting pre-trained ViTs with additional context conditioning leads to significant improvements in out-of-distribution generalization on iWildCam and FMoW. We also explored self-supervised representation learning with ContextViT. Our experiments on the Camelyon17 pathology imaging benchmark and the cpg-0000 microscopy imaging benchmark demonstrate that ContextViT excels in learning stable image featurizations amidst covariate shift, consistently outperforming its ViT counterpart.
翻訳日:2023-06-01 19:38:47 公開日:2023-05-30
# ホモジン検出による測定構成を用いた量子状態評価

Quantum State Characterization Using Measurement Configurations Inspired by Homodyne Detection ( http://arxiv.org/abs/2305.19397v1 )

ライセンス: Link先を確認
Arik Avagyan(参考訳) 標準ホモダイン構成では、未知の光学状態とビームスプリッタ(BS)上の局所発振器(LO)とが結合される。 良い二次測定には高振幅LOと2つの高効率フォトダイオードが必要である。 LO位相を変更することにより、LOと一致するモードの光学状態を推測することができる。 量子情報処理では、興味のある状態は十分に分離されたモードであり、測定毎に1つの関連するLOモードを持つパルス構成に対応する。 理論的には、BS後のいずれかの経路で光子を数えることにより、未知の光状態について何が学べるかを理論的に調べ、LOモードを固定するが、その位相と大きさを選択する。 我々はBSが異なるマッチングモードのセットで異なる振る舞いをする測定構成を検討する。 BSが全ての整合モードで同一に作用すると、同じ経路上の直交モードにおける各光子の数でLO条件に一致するモードにおいて未知の光学状態の内容を決定することができる。 特に、LOの位相と強度の両方を変化させることができれば、これらのパラメータを推測するのに十分なカウンタの1つのみの統計値が得られ、一方、固定強度のLOの場合、両方の検出器がこれを達成するのに必要となる。 この結果は,カウンタの帰結空間上の確率分布と未知状態のパラメータとの単射あるいは欠落を,異なる測定構成で示すことによって導出する。 本稿では,BSが偏光によって異なる挙動を示す場合に,その理論を実証するための実験を報告する。

In the standard homodyne configuration, an unknown optical state is combined with a local oscillator (LO) on a beam splitter (BS). Good quadrature measurements require a high-amplitude LO and two high-efficiency photodiodes whose signals are subtracted and normalized. By changing the LO phase, it is then possible to infer the optical state in the mode matching the LO. For quantum information processing, the states of interest are in well-separated modes, corresponding to a pulsed configuration with one relevant LO mode per measurement. We theoretically investigate what can be learned about the unknown optical state by counting photons in one or both outgoing paths after the BS, keeping the LO mode fixed but choosing its phase and magnitude. We consider measurement configurations where the BS acts differently on different sets of matching modes. When the BS acts identically on all matching modes it is possible to determine the content of the unknown optical state in the mode matching the LO conditional on each number of photons in the orthogonal modes on the same path. In particular, if both the phase and the intensity of the LO can be varied, then the statistics of just one of the counters is enough to infer these parameters, while in the case of an LO with fixed intensity both detectors are needed to accomplish this. Our results are derived by demonstrating a bijection, or lack thereof, between the probability distributions over the space of outcomes of the counter(s) and certain parameters of the unknown state for different measurement configuration. We report an experiment that was conducted to demonstrate the theory in the case where the BS acts differently depending on the polarization.
翻訳日:2023-06-01 19:38:22 公開日:2023-05-30
# 低リソース言語におけるテキスト音声の自動MOS予測のための資源効率の良い微調整手法

Resource-Efficient Fine-Tuning Strategies for Automatic MOS Prediction in Text-to-Speech for Low-Resource Languages ( http://arxiv.org/abs/2305.19396v1 )

ライセンス: Link先を確認
Phat Do, Matt Coler, Jelske Dijkstra, Esther Klabbers(参考訳) 我々は、オープンアクセスデータセットBVCCとSOMOSを用いて、wav2vec 2.0に基づくMOS予測モデルを訓練する。 低リソース言語(LRL)ウェスト・フリジアンのニューラルネットワークを用いたテストでは、SOMOSを微調整する前にBVCCで事前トレーニングを行うことで、微調整とゼロショット予測の両方に最適な精度が得られた。 さらなる微調整実験では、データ全体の30%以上を使用すると大きな改善は起こらないことが示されている。 さらに、単一リスナからのデータによる微調整は、有望なシステムレベルの精度を示し、一方の参加者によるパイロットテストの有効性をサポートする。 これらの知見は、特に早期評価において、より良いゼロショットMOS予測に向けて前進し、聴取テストの設計を伝えることにより、LRLのためのTSの資源意識開発を支援することができる。

We train a MOS prediction model based on wav2vec 2.0 using the open-access data sets BVCC and SOMOS. Our test with neural TTS data in the low-resource language (LRL) West Frisian shows that pre-training on BVCC before fine-tuning on SOMOS leads to the best accuracy for both fine-tuned and zero-shot prediction. Further fine-tuning experiments show that using more than 30 percent of the total data does not lead to significant improvements. In addition, fine-tuning with data from a single listener shows promising system-level accuracy, supporting the viability of one-participant pilot tests. These findings can all assist the resource-conscious development of TTS for LRLs by progressing towards better zero-shot MOS prediction and informing the design of listening tests, especially in early-stage evaluation.
翻訳日:2023-06-01 19:37:53 公開日:2023-05-30
# DyGen: ダイナミクス強化ジェネレーティブモデリングによるノイズラベルからの学習

DyGen: Learning from Noisy Labels via Dynamics-Enhanced Generative Modeling ( http://arxiv.org/abs/2305.19395v1 )

ライセンス: Link先を確認
Yuchen Zhuang, Yue Yu, Lingkai Kong, Xiang Chen, Chao Zhang(参考訳) ノイズの多いラベルからの学習は、トレーニングデータが誤ったラベルや破損したラベルを含むことができる多くの現実世界アプリケーションで発生する課題である。 ノイズラベルを持つ言語モデルの微調整を行うと、モデルがラベルノイズをオーバーフィットし、パフォーマンスが低下する。 ノイズの多いラベルから学習するほとんどの方法は静的な入力機能を使ってノイズを識別するが、これらの方法は真のラベル分布で提供できる情報によって制限され、バイアスや誤った予測をもたらす可能性がある。 本研究では,言語モデルの微調整過程における埋め込み空間の動的パターンを用いて雑音ラベル予測を改善するDynamics-Enhanced Generative Model (DyGen)を提案する。 DyGenは変分自動エンコーディングフレームワークを使用して、ノイズラベルとトレーニングダイナミクスから真のラベルの後方分布を推測する。 さらに、潜在的に騒がしいラベルやプリエントの影響を最小限に抑えるために、共レギュライゼーション機構が使用される。 DyGenは2つの合成ノイズデータセットの平均精度を3.10%改善し、3つの実世界のノイズデータセットで1.48%改善した。 大規模な実験と分析は、DyGenの各コンポーネントの有効性を示している。 私たちのコードはgithubで再現可能です。

Learning from noisy labels is a challenge that arises in many real-world applications where training data can contain incorrect or corrupted labels. When fine-tuning language models with noisy labels, models can easily overfit the label noise, leading to decreased performance. Most existing methods for learning from noisy labels use static input features for denoising, but these methods are limited by the information they can provide on true label distributions and can result in biased or incorrect predictions. In this work, we propose the Dynamics-Enhanced Generative Model (DyGen), which uses dynamic patterns in the embedding space during the fine-tuning process of language models to improve noisy label predictions. DyGen uses the variational auto-encoding framework to infer the posterior distributions of true labels from noisy labels and training dynamics. Additionally, a co-regularization mechanism is used to minimize the impact of potentially noisy labels and priors. DyGen demonstrates an average accuracy improvement of 3.10% on two synthetic noise datasets and 1.48% on three real-world noise datasets compared to the previous state-of-the-art. Extensive experiments and analyses show the effectiveness of each component in DyGen. Our code is available for reproducibility on GitHub.
翻訳日:2023-06-01 19:37:38 公開日:2023-05-30
# jarzynski等式を用いたエネルギーベースモデルの効率的な学習

Efficient Training of Energy-Based Models Using Jarzynski Equality ( http://arxiv.org/abs/2305.19414v1 )

ライセンス: Link先を確認
Davide Carbone, Mengjian Hua, Simon Coste, Eric Vanden-Eijnden(参考訳) エネルギーベースモデル(英: Energy-based model、EBM)は、統計物理学にインスパイアされた生成モデルであり、教師なし学習に幅広い応用がある。 それらの性能は、データ分布に対するモデル分布のクロスエントロピー(CE)によって最もよく測定される。 しかし、モデルパラメータに対する勾配の計算にはモデル分布をサンプリングする必要があるため、CEをトレーニングの目的として使用することは難しい。 ここでは,jarzynski等式に基づく非平衡熱力学の計算結果と逐次モンテカルロサンプリングのツールを用いて,この計算を効率的に行う方法を示し,標準コントラスト発散アルゴリズムを用いた非制御近似を回避できることを示す。 具体的には、各歩行者がGD中の任意のステップでクロスエントロピーの勾配を推定できる重みを取得でき、ULAの緩やかな混合によるサンプリングバイアスを回避できる未調整ランゲヴィンアルゴリズム(ULA)の修正を導入する。 これらの結果は、ガウス混合分布とMNISTデータセットに関する数値実験で説明する。 提案手法は,すべての状況において,コントラスト発散アルゴリズムに基づく手法よりも優れていることを示す。

Energy-based models (EBMs) are generative models inspired by statistical physics with a wide range of applications in unsupervised learning. Their performance is best measured by the cross-entropy (CE) of the model distribution relative to the data distribution. Using the CE as the objective for training is however challenging because the computation of its gradient with respect to the model parameters requires sampling the model distribution. Here we show how results for nonequilibrium thermodynamics based on Jarzynski equality together with tools from sequential Monte-Carlo sampling can be used to perform this computation efficiently and avoid the uncontrolled approximations made using the standard contrastive divergence algorithm. Specifically, we introduce a modification of the unadjusted Langevin algorithm (ULA) in which each walker acquires a weight that enables the estimation of the gradient of the cross-entropy at any step during GD, thereby bypassing sampling biases induced by slow mixing of ULA. We illustrate these results with numerical experiments on Gaussian mixture distributions as well as the MNIST dataset. We show that the proposed approach outperforms methods based on the contrastive divergence algorithm in all the considered situations.
翻訳日:2023-06-01 19:36:32 公開日:2023-05-30
# 大カーネルはConvNetのトランスフォーマーよりも優れた教師か?

Are Large Kernels Better Teachers than Transformers for ConvNets? ( http://arxiv.org/abs/2305.19412v1 )

ライセンス: Link先を確認
Tianjin Huang, Lu Yin, Zhenyu Zhang, Li Shen, Meng Fang, Mykola Pechenizkiy, Zhangyang Wang and Shiwei Liu(参考訳) 本稿では,最近出現した大カーネル畳み込みニューラルネットワーク(convnets: the teacher in knowledge distillation (kd) for small-kernel convnets)について述べる。 トランスフォーマーは、より大規模なモデルとラベル付きデータを持つ様々な分野で最先端(SOTA)性能を導いているが、小さなカーネルのConvNetは、効率的な畳み込み操作とコンパクトな重量共有のためにリソース制限されたアプリケーションに適していると考えられている。 KDは小型カーネルのConvNetの性能向上に広く利用されている。 しかし、以前の研究では、トランスフォーマーから小さなカーネルのコンブネットへ知識(例えばグローバル情報)を蒸留することはあまり効果的ではないことが示されている。 私たちは今回、Vision Transformersと競合するモダンな大型カーネルConvNetsが、より類似したアーキテクチャのため、小型カーネルConvNetsの教師として驚くほど効果的であることを明らかにする最初の研究を行った。 我々の研究は、ロジットレベルと特徴レベルのKD ``out of the box"の両方に関する広範な実験によって裏付けられ、専用のアーキテクチャやトレーニングのレシピ修正は行われていない。 特に,30M のパラメータで \textbf{best-ever pure ConvNet} を得ると,ImageNet 上で \textbf{83.1\%} のトップ-1 の精度が得られ,ConvNeXt V2 や Swin V2 など現在の SOTA 手法よりも優れていた。 また, 大型カーネル網の有効特性, 例えば, より大きな有効受容場は, この大規模から小規模の核蒸留により, 学生にシームレスに伝達できることがわかった。 コードは以下の通り: \url{https://github.com/VITA-Group/SLaK}。

This paper reveals a new appeal of the recently emerged large-kernel Convolutional Neural Networks (ConvNets): as the teacher in Knowledge Distillation (KD) for small-kernel ConvNets. While Transformers have led state-of-the-art (SOTA) performance in various fields with ever-larger models and labeled data, small-kernel ConvNets are considered more suitable for resource-limited applications due to the efficient convolution operation and compact weight sharing. KD is widely used to boost the performance of small-kernel ConvNets. However, previous research shows that it is not quite effective to distill knowledge (e.g., global information) from Transformers to small-kernel ConvNets, presumably due to their disparate architectures. We hereby carry out a first-of-its-kind study unveiling that modern large-kernel ConvNets, a compelling competitor to Vision Transformers, are remarkably more effective teachers for small-kernel ConvNets, due to more similar architectures. Our findings are backed up by extensive experiments on both logit-level and feature-level KD ``out of the box", with no dedicated architectural nor training recipe modifications. Notably, we obtain the \textbf{best-ever pure ConvNet} under 30M parameters with \textbf{83.1\%} top-1 accuracy on ImageNet, outperforming current SOTA methods including ConvNeXt V2 and Swin V2. We also find that beneficial characteristics of large-kernel ConvNets, e.g., larger effective receptive fields, can be seamlessly transferred to students through this large-to-small kernel distillation. Code is available at: \url{https://github.com/VITA-Group/SLaK}.
翻訳日:2023-06-01 19:36:12 公開日:2023-05-30
# ツリーテンソルネットワークを用いた機械学習、cpランク制約、テンソルドロップアウト

Machine learning with tree tensor networks, CP rank constraints, and tensor dropout ( http://arxiv.org/abs/2305.19440v1 )

ライセンス: Link先を確認
Hao Chen and Thomas Barthel(参考訳) テンソルネットワークは位数-$N$テンソルを近似し、自由度が減少し、N$の多項式のみであり、部分的に収縮した小さなテンソルのネットワークとして配置される。 量子多体物理学の文脈において [arXiv:2205.15296] に示唆されているように、そのようなネットワークにおけるテンソルの正準ポリアディック(CP)階数に制約を加えることにより、計算コストはさらに大幅に削減できる。 本稿では,cpランク制約とテンソルドロップアウトを用いたツリーテンソルネットワーク(ttn)の機械学習への応用例を示す。 この手法は、Fashion-MNIST画像分類において、他のテンソルネットワークベースの手法よりも優れている。 分岐比$b=4$の低ランクTTN分類器は、低計算コストでテストセット精度90.3\%に達する。 主に線形要素からなるテンソルネットワーク分類器は、ディープニューラルネットワークの勾配問題を回避している。 CPランクの制約には、以下の利点がある: パラメータの数を減らし、より自由に調整し、オーバーフィッティングを制御し、一般化特性を改善し、計算コストを削減できる。 それらは、表現力を大幅に向上させる大きな分岐比を持つ木を使うことを可能にします。

Tensor networks approximate order-$N$ tensors with a reduced number of degrees of freedom that is only polynomial in $N$ and arranged as a network of partially contracted smaller tensors. As suggested in [arXiv:2205.15296] in the context of quantum many-body physics, computation costs can be further substantially reduced by imposing constraints on the canonical polyadic (CP) rank of the tensors in such networks. Here we demonstrate how tree tensor networks (TTN) with CP rank constraints and tensor dropout can be used in machine learning. The approach is found to outperform other tensor-network based methods in Fashion-MNIST image classification. A low-rank TTN classifier with branching ratio $b=4$ reaches test set accuracy 90.3\% with low computation costs. Consisting of mostly linear elements, tensor network classifiers avoid the vanishing gradient problem of deep neural networks. The CP rank constraints have additional advantages: The number of parameters can be decreased and tuned more freely to control overfitting, improve generalization properties, and reduce computation costs. They allow us to employ trees with large branching ratios which substantially improves the representation power.
翻訳日:2023-06-01 19:28:56 公開日:2023-05-30
# AdANNS: アダプティブセマンティック検索のためのフレームワーク

AdANNS: A Framework for Adaptive Semantic Search ( http://arxiv.org/abs/2305.19435v1 )

ライセンス: Link先を確認
Aniket Rege, Aditya Kusupati, Sharan Ranjit S, Alan Fan, Qingqing Cao, Sham Kakade, Prateek Jain, Ali Farhadi(参考訳) webスケールの検索システムはエンコーダを学習し、与えられたクエリを埋め込み、近似的な近接探索(anns)パイプラインに接続して類似のデータポイントを取得する。 尾のクエリとデータポイントを正確にキャプチャするために、学習された表現は、典型的には剛体で高次元のベクトルであり、ANNSパイプライン全体において一般的に用いられる。 本稿では, 剛性表現の代わりに, 可変容量の適応表現を活用することで, 高精度かつ高精度なトレードオフを実現することができること, すなわち, より近似的な計算で得られるANNSの段階は, 同一データ点の低容量表現を用いるべきであること, を論じる。 そこで我々は,Matryoshka Representationsの柔軟性を明示的に活用する新しいANNS設計フレームワークであるAdANNSを紹介する。 本稿では,検索データ構造(AdANNS-IVF)や量子化(AdANNS-OPQ)などの新しいANNSビルディングブロックを用いて,最先端の精度計算トレードオフを示す。 例えば、ImageNet検索では、AdANNS-IVFは同じ計算予算で厳密な表現ベースのIVFよりも最大1.5%正確であり、壁時計時間では最大90倍高速である。 自然問題の場合、32バイトのadanns-opqは、厳格な表現を使って構築された64バイトのopqベースラインの精度と一致します。 さらに,検索構造と量子化を組み合わせた現代の複合 ann インデックスへのアダンからの利得も示している。 最後に, 行列化表現を非適応的に構築したANNSインデックス上での計算認識検索において, AdANNSが推論時適応性を実現することを実証した。 コードはhttps://github.com/RAIVNLab/AdANNSで公開されている。

Web-scale search systems learn an encoder to embed a given query which is then hooked into an approximate nearest neighbor search (ANNS) pipeline to retrieve similar data points. To accurately capture tail queries and data points, learned representations typically are rigid, high-dimensional vectors that are generally used as-is in the entire ANNS pipeline and can lead to computationally expensive retrieval. In this paper, we argue that instead of rigid representations, different stages of ANNS can leverage adaptive representations of varying capacities to achieve significantly better accuracy-compute trade-offs, i.e., stages of ANNS that can get away with more approximate computation should use a lower-capacity representation of the same data point. To this end, we introduce AdANNS, a novel ANNS design framework that explicitly leverages the flexibility of Matryoshka Representations. We demonstrate state-of-the-art accuracy-compute trade-offs using novel AdANNS-based key ANNS building blocks like search data structures (AdANNS-IVF) and quantization (AdANNS-OPQ). For example on ImageNet retrieval, AdANNS-IVF is up to 1.5% more accurate than the rigid representations-based IVF at the same compute budget; and matches accuracy while being up to 90x faster in wall-clock time. For Natural Questions, 32-byte AdANNS-OPQ matches the accuracy of the 64-byte OPQ baseline constructed using rigid representations -- same accuracy at half the cost! We further show that the gains from AdANNS translate to modern-day composite ANNS indices that combine search structures and quantization. Finally, we demonstrate that AdANNS can enable inference-time adaptivity for compute-aware search on ANNS indices built non-adaptively on matryoshka representations. Code is open-sourced at https://github.com/RAIVNLab/AdANNS.
翻訳日:2023-06-01 19:28:35 公開日:2023-05-30
# 価値の欠落に公正な介入を適用する

Adapting Fairness Interventions to Missing Values ( http://arxiv.org/abs/2305.19429v1 )

ライセンス: Link先を確認
Raymond Feng, Flavio P. Calmon, Hao Wang(参考訳) 実世界のデータにおける値の欠落は、アルゴリズムの公正性に顕著でユニークな課題をもたらす。 異なる人口集団は、欠落したデータによって不平等に影響を受ける可能性があり、最初のデータがインプットされた場合に欠落した値を扱う標準的な手順では、インプットされたデータが分類に使用される。 本稿では,値の欠如がアルゴリズムの公平性に与える影響を分析する。 まず,偽データからの分類器の訓練は,グループフェアネスと平均精度の達成可能な値を著しく悪化させる可能性があることを証明した。 これは、インパルスデータによってデータの欠落パターンが失われ、しばしば予測ラベルに関する情報が伝達されるためである。 我々は,値の欠落を伴う公平な分類のためのスケーラブルで適応的なアルゴリズムを提案する。 これらのアルゴリズムは、既存のフェアネス干渉アルゴリズムと組み合わせることで、欠落パターンの中にエンコードされた情報を保存しながら、可能なすべての欠落パターンを処理することができる。 最先端のフェアネス介入による数値実験により、我々の適応アルゴリズムは、異なるデータセットをまたいだインプット-then-classifyよりも常に高いフェアネスと精度を達成することを示した。

Missing values in real-world data pose a significant and unique challenge to algorithmic fairness. Different demographic groups may be unequally affected by missing data, and the standard procedure for handling missing values where first data is imputed, then the imputed data is used for classification -- a procedure referred to as "impute-then-classify" -- can exacerbate discrimination. In this paper, we analyze how missing values affect algorithmic fairness. We first prove that training a classifier from imputed data can significantly worsen the achievable values of group fairness and average accuracy. This is because imputing data results in the loss of the missing pattern of the data, which often conveys information about the predictive label. We present scalable and adaptive algorithms for fair classification with missing values. These algorithms can be combined with any preexisting fairness-intervention algorithm to handle all possible missing patterns while preserving information encoded within the missing patterns. Numerical experiments with state-of-the-art fairness interventions demonstrate that our adaptive algorithms consistently achieve higher fairness and accuracy than impute-then-classify across different datasets.
翻訳日:2023-06-01 19:27:59 公開日:2023-05-30
# 旅行モード検出のための地理空間コンテキスト情報の評価

Evaluating geospatial context information for travel mode detection ( http://arxiv.org/abs/2305.19428v1 )

ライセンス: Link先を確認
Ye Hong, Emanuel St\"udeli, Martin Raubal(参考訳) 地球航法衛星システム(GNSS)軌道から旅行モードを検出することは、個々の旅行行動を理解する上で不可欠であり、持続可能な輸送システムを実現するための前提条件である。 地理空間的コンテキスト情報を旅行モード検出モデルに組み込むことの利点を認めているが、文脈モデリングアプローチを要約し、これらのコンテキスト特徴の意義を分析し、効率的なモデルの開発を妨げるものはほとんどない。 本稿では,関連する作業から文脈表現を同定し,ランダムフォレストモデルとシャプリー加法(shap)法に基づいて,旅行モード検出のための地理空間的コンテキスト情報の寄与度を評価する解析パイプラインを提案する。 大規模GNSS追跡データセットの実験を通じて,鉄道や道路ネットワークとの距離などのインフラストラクチャネットワークとの関係を記述した特徴が,モデルの予測に大きく寄与していることを報告する。 さらに、地理空間的要素に関連する特徴は公共交通機関の移動を識別するのに役立つが、土地利用と土地被覆のほとんどの特徴はこのタスクにはほとんど寄与しない。 地理空間的コンテキストは、異なる移動モードを識別し、適切なコンテキスト情報の選択とモデリングアプローチに関する洞察を提供する上で、異なる貢献をすることを明らかにした。 本研究は,移動と地理空間的文脈の関係の理解を深め,効果的かつ効率的な移動モード検出モデルの実装を導くものである。

Detecting travel modes from global navigation satellite system (GNSS) trajectories is essential for understanding individual travel behaviour and a prerequisite for achieving sustainable transport systems. While studies have acknowledged the benefits of incorporating geospatial context information into travel mode detection models, few have summarized context modelling approaches and analyzed the significance of these context features, hindering the development of an efficient model. Here, we identify context representations from related work and propose an analytical pipeline to assess the contribution of geospatial context information for travel mode detection based on a random forest model and the SHapley Additive exPlanation (SHAP) method. Through experiments on a large-scale GNSS tracking dataset, we report that features describing relationships with infrastructure networks, such as the distance to the railway or road network, significantly contribute to the model's prediction. Moreover, features related to the geospatial point entities help identify public transport travel, but most land-use and land-cover features barely contribute to the task. We finally reveal that geospatial contexts have distinct contributions in identifying different travel modes, providing insights into selecting appropriate context information and modelling approaches. The results from this study enhance our understanding of the relationship between movement and geospatial context and guide the implementation of effective and efficient transport mode detection models.
翻訳日:2023-06-01 19:27:38 公開日:2023-05-30
# ScoNe: 微調整とインコンテキスト学習による言語モデルにおけるベンチマークネゲーション推論

ScoNe: Benchmarking Negation Reasoning in Language Models With Fine-Tuning and In-Context Learning ( http://arxiv.org/abs/2305.19426v1 )

ライセンス: Link先を確認
Jingyuan Selena She, Christopher Potts, Samuel R. Bowman, Atticus Geiger(参考訳) 最近のベンチマークでは、モデルが自然言語の否定をいかにうまく処理するかを評価している。 しかし、これらのベンチマークには、モデルが意味論的スコープをどのように否定するかを推測できる制御済みの例パラダイムが欠けている。 これらの分析的ギャップを埋めるために、ゼロ、1、両方の負のモーメントがNLIラベルに影響を与える最大2つの否定を持つ6つの例のコントラストセットを含むScoped Negation NLI(ScoNe-NLI)ベンチマークを示す。 ScoNe-NLIを用いて、微調整および文脈内学習戦略を評価する。 多数のショット微調整を行った結果,RoBERTaとDeBERTaがScoNe-NLIを解くことがわかった。 In-context Learningでは、InstructGPTモデルをテストし、ステップバイステップ推論など、ほとんどの迅速な戦略が成功していないことを確認する。 この結果をよりよく理解するために、短い物語に否定推論を埋め込んだ文補完テストセットであるScoNe-NLGでScoNeを拡張する。 ここでinstructgptが成功し、モデルが正しく否定を推論できるが、そのコアプレトレーニング体制以外では、即座に適応したnliサンプルでそれを行なおうとしている。

A number of recent benchmarks seek to assess how well models handle natural language negation. However, these benchmarks lack the controlled example paradigms that would allow us to infer whether a model had learned how negation morphemes semantically scope. To fill these analytical gaps, we present the Scoped Negation NLI (ScoNe-NLI) benchmark, which contains contrast sets of six examples with up to two negations where either zero, one, or both negative morphemes affect the NLI label. We use ScoNe-NLI to assess fine-tuning and in-context learning strategies. We find that RoBERTa and DeBERTa models solve ScoNe-NLI after many shot fine-tuning. For in-context learning, we test InstructGPT models and find that most prompt strategies are not successful, including those using step-by-step reasoning. To better understand this result, we extend ScoNe with ScoNe-NLG, a sentence completion test set that embeds negation reasoning in short narratives. Here, InstructGPT is successful, which reveals the model can correctly reason about negation, but struggles to do so on prompt-adapted NLI examples outside of its core pretraining regime.
翻訳日:2023-06-01 19:27:14 公開日:2023-05-30
# オーバーフィッティングの定量化:Null空間の解析によるニューラルネットワークの性能評価

Quantifying Overfitting: Evaluating Neural Network Performance through Analysis of Null Space ( http://arxiv.org/abs/2305.19424v1 )

ライセンス: Link先を確認
Hossein Rezaei, Mohammad Sabokrou(参考訳) 過度に適合/過度にトレーニングされた機械学習モデルは、プライバシにリスクをもたらす知識漏洩に対してより脆弱である。 トレーニングの正確さを知らずに、サードパーティの協力者からモデルをダウンロードまたは受け取ります。 トレーニングデータに過度に適合したか、あるいは過度にトレーニングされたか、どうやって判断できるのか? モデルが意図的に過度にトレーニングされ、テスト中に脆弱になる可能性がある。 オーバーフィットあるいはオーバートレーニングされたモデルは、テストデータやいくつかの一般化テストでもうまく機能するかも知れませんが、オーバーフィットしないかどうかは定かではありません。 包括的な一般化テストの実行もコストがかかる。 本研究の目的は,これらの問題に対処し,テストデータのみを用いた手法のプライバシと一般化を保証することである。 これを実現するために、ニューラルネットワークの最後の層におけるヌル空間を分析し、トレーニングデータやそれらのデータの正確性を知ることなく、オーバーフィッティングの定量化を可能にする。 我々は,様々なアーキテクチャやデータセットに対するアプローチを評価し,モデルが過度に適合する場合に,ヌル空間の角度で異なるパターンを観察した。 さらに, 一般化が不十分なモデルは, この空間に特有の特徴を示すことを示す。 私たちの研究は、トレーニングデータへのアクセスやトレーニングサンプルに関する知識を知らずに、オーバーフィッティングを定量化する最初の試みです。

Machine learning models that are overfitted/overtrained are more vulnerable to knowledge leakage, which poses a risk to privacy. Suppose we download or receive a model from a third-party collaborator without knowing its training accuracy. How can we determine if it has been overfitted or overtrained on its training data? It's possible that the model was intentionally over-trained to make it vulnerable during testing. While an overfitted or overtrained model may perform well on testing data and even some generalization tests, we can't be sure it's not over-fitted. Conducting a comprehensive generalization test is also expensive. The goal of this paper is to address these issues and ensure the privacy and generalization of our method using only testing data. To achieve this, we analyze the null space in the last layer of neural networks, which enables us to quantify overfitting without access to training data or knowledge of the accuracy of those data. We evaluated our approach on various architectures and datasets and observed a distinct pattern in the angle of null space when models are overfitted. Furthermore, we show that models with poor generalization exhibit specific characteristics in this space. Our work represents the first attempt to quantify overfitting without access to training data or knowing any knowledge about the training samples.
翻訳日:2023-06-01 19:26:50 公開日:2023-05-30
# 自動運転におけるシナリオ超過のためのデータと知識

Data and Knowledge for Overtaking Scenarios in Autonomous Driving ( http://arxiv.org/abs/2305.19421v1 )

ライセンス: Link先を確認
Mariana Pinto, In\^es Dutra and Joaquim Fonseca(参考訳) 自律運転は人工知能の中で最も人気のある研究トピックの1つになっている。 自動運転車は、知覚、意思決定、計画、制御を組み合わせるシステムとして理解されている。 これらのタスクはすべて、車両が適切な判断と行動を行うために周辺データを収集する必要がある。 特に、オーバーテイク操作は、運転において最も重要な行動の1つである。 このプロセスには車線の変更、加速と減速のアクション、および車線が動いている前車線または車線の速度と距離の推定が含まれる。 文献で利用可能な作業量にもかかわらず、ほんの数回しか乗っ取られず、乗っ取りはリスクが高いため、現実世界のデータセットは利用できない。 この研究は、オーバーテイク操作に焦点を当てた新しい合成データセットを提示することで、この分野に寄与する。 まず、自動運転における技術の現状を徹底的にレビューし、文献(パブリック、プライベート、シンセサイザー、リアル)で見られる主要なデータセットを探索し、それらの制限を強調し、その取り組みに重点を置く新しい機能のセットを提案することから始めます。

Autonomous driving has become one of the most popular research topics within Artificial Intelligence. An autonomous vehicle is understood as a system that combines perception, decision-making, planning, and control. All of those tasks require that the vehicle collects surrounding data in order to make a good decision and action. In particular, the overtaking maneuver is one of the most critical actions of driving. The process involves lane changes, acceleration and deceleration actions, and estimation of the speed and distance of the vehicle in front or in the lane in which it is moving. Despite the amount of work available in the literature, just a few handle overtaking maneuvers and, because overtaking can be risky, no real-world dataset is available. This work contributes in this area by presenting a new synthetic dataset whose focus is the overtaking maneuver. We start by performing a thorough review of the state of the art in autonomous driving and then explore the main datasets found in the literature (public and private, synthetic and real), highlighting their limitations, and suggesting a new set of features whose focus is the overtaking maneuver.
翻訳日:2023-06-01 19:26:29 公開日:2023-05-30
# コンテキスト内学習はどのように学習するか? ベイズモデル平均化、パラメータ化、一般化

What and How does In-Context Learning Learn? Bayesian Model Averaging, Parameterization, and Generalization ( http://arxiv.org/abs/2305.19420v1 )

ライセンス: Link先を確認
Yufeng Zhang, Fengzhuo Zhang, Zhuoran Yang, Zhaoran Wang(参考訳) 本稿では,いくつかのオープンな質問に答えることで,インコンテキスト学習(ICL)の総合的研究を行う。 (a)言語モデルで学習されるICL推定器の種類は? b) ICLを正確に評価するのに適切なパフォーマンス指標と、エラー率について。 (c) トランスフォーマーアーキテクチャはどのようにICLを実現するのか? 答えるには a) iclはベイズモデル平均化アルゴリズムを暗黙的に実装していることを示す。 このベイズモデル平均化アルゴリズムは注意機構によっておよそパラメータ化されることが証明されている。 のために b) ICLのパフォーマンスをオンライン学習の観点から分析し, ICLの入力シーケンス長が$T$である場合に, 後悔すべき$\mathcal{O}(1/T)$を確立する。 宛て (c) 注意される符号化ベイズモデル平均化アルゴリズムに加えて, 学習モデルと名目モデルとの間の総変動距離は, 近似誤差(1/\sqrt{n_{\mathrm{p}}t_{\mathrm{p}}})$, ここで $n_{\mathrm{p}}$ と $t_{\mathrm{p}}$ はそれぞれトークン列の数とプリトレーニング中の各シーケンスの長さで区切られていることを示す。 この結果から,iclの後悔,近似,一般化を境界としたトランスフォーマとicl能力の統一理解が得られ,現代言語モデルの本質的側面に関する知識を深めることができた。

In this paper, we conduct a comprehensive study of In-Context Learning (ICL) by addressing several open questions: (a) What type of ICL estimator is learned within language models? (b) What are suitable performance metrics to evaluate ICL accurately and what are the error rates? (c) How does the transformer architecture enable ICL? To answer (a), we take a Bayesian view and demonstrate that ICL implicitly implements the Bayesian model averaging algorithm. This Bayesian model averaging algorithm is proven to be approximately parameterized by the attention mechanism. For (b), we analyze the ICL performance from an online learning perspective and establish a regret bound $\mathcal{O}(1/T)$, where $T$ is the ICL input sequence length. To address (c), in addition to the encoded Bayesian model averaging algorithm in attention, we show that during pertaining, the total variation distance between the learned model and the nominal model is bounded by a sum of an approximation error and a generalization error of $\tilde{\mathcal{O}}(1/\sqrt{N_{\mathrm{p}}T_{\mathrm{p}}})$, where $N_{\mathrm{p}}$ and $T_{\mathrm{p}}$ are the number of token sequences and the length of each sequence in pretraining, respectively. Our results provide a unified understanding of the transformer and its ICL ability with bounds on ICL regret, approximation, and generalization, which deepens our knowledge of these essential aspects of modern language models.
翻訳日:2023-06-01 19:26:10 公開日:2023-05-30
# プロパガンダ技術検出のための階層型マルチインスタンスマルチラベル学習

Hierarchical Multi-Instance Multi-Label Learning for Detecting Propaganda Techniques ( http://arxiv.org/abs/2305.19419v1 )

ライセンス: Link先を確認
Anni Chen and Bhuwan Dhingra(参考訳) SemEval 2020 Task 11(Martino et al., 2020a)の導入以来、読者に影響を与えるための修辞的手法に基づいてプロパガンダを分類する文献においていくつかのアプローチが提案されている。 しかし、これらのメソッドは一度に1つのスパンを分類し、同じコンテキスト内で他のスパンのラベルからの依存関係を無視します。 本稿では,Multi-Instance Multi-Label(MIML)学習問題(Zhou et al., 2012)としてプロパガンダ手法の分類にアプローチし,記事中の全スパンを同時に分類するためのシンプルなRoBERTaモデル(Zhuang et al., 2021)を提案する。 さらに,アノテータが決定木に従うことによってスパンを分類するアノテーションプロセスのため,既存のアプローチが無視する異なる手法の間に固有の階層的関係が存在することに注意する。 これらの階層的ラベル依存性を,学習目標に決定木の各ノードに対する補助的分類器を追加し,テスト時に元の分類器と補助的分類器から予測をセンスすることで組み込む。 全体として、私たちのモデルは、クロスバリデーションのセットアップで、共有タスク勝利チームからモデルに対して2.47%のマイクロF1を絶対的に改善します。

Since the introduction of the SemEval 2020 Task 11 (Martino et al., 2020a), several approaches have been proposed in the literature for classifying propaganda based on the rhetorical techniques used to influence readers. These methods, however, classify one span at a time, ignoring dependencies from the labels of other spans within the same context. In this paper, we approach propaganda technique classification as a Multi-Instance Multi-Label (MIML) learning problem (Zhou et al., 2012) and propose a simple RoBERTa-based model (Zhuang et al., 2021) for classifying all spans in an article simultaneously. Further, we note that, due to the annotation process where annotators classified the spans by following a decision tree, there is an inherent hierarchical relationship among the different techniques, which existing approaches ignore. We incorporate these hierarchical label dependencies by adding an auxiliary classifier for each node in the decision tree to the training objective and ensembling the predictions from the original and auxiliary classifiers at test time. Overall, our model leads to an absolute improvement of 2.47% micro-F1 over the model from the shared task winning team in a cross-validation setup and is the best performing non-ensemble model on the shared task leaderboard.
翻訳日:2023-06-01 19:25:37 公開日:2023-05-30
# kradagrad: クロネッカー近似ドーミネーション勾配事前条件付き確率最適化

KrADagrad: Kronecker Approximation-Domination Gradient Preconditioned Stochastic Optimization ( http://arxiv.org/abs/2305.19416v1 )

ライセンス: Link先を確認
Jonathan Mei, Alexander Moreno, Luke Walters(参考訳) 第二次確率最適化器は、パラメータ更新ステップのサイズと方向を損失曲率に適応させるが、伝統的に深層学習にはメモリ量と計算量が必要だった。 最近、shampoo [gupta et al., 2018] は、これらの要件を減らすために、クロネッカー因子付きプリコンディショナーを導入した: 大規模深層モデル [anil et al., 2020] と生産モデル [anil et al., 2022] で使用される。 しかし、不条件行列の逆行列根を取る。 64ビットの精度が必要で、ハードウェアの制約が強い。 本稿では, Kronecker Approximation-Domination (KrAD) を新たに提案する。 kradを用いて,逆経験フィッシャー行列(フルマトリックスアダグラードなど)を直接近似する行列を更新し,逆行列を回避し,64ビット精度を得る。 次に,シャンプーと同様の計算コストと後悔を伴うkradagrad$^\star$を提案する。 合成不条件実験では、32ビット精度でシャンプーよりも性能が向上し、実際のいくつかのデータセットでは、同等あるいはより良い一般化がある。

Second order stochastic optimizers allow parameter update step size and direction to adapt to loss curvature, but have traditionally required too much memory and compute for deep learning. Recently, Shampoo [Gupta et al., 2018] introduced a Kronecker factored preconditioner to reduce these requirements: it is used for large deep models [Anil et al., 2020] and in production [Anil et al., 2022]. However, it takes inverse matrix roots of ill-conditioned matrices. This requires 64-bit precision, imposing strong hardware constraints. In this paper, we propose a novel factorization, Kronecker Approximation-Domination (KrAD). Using KrAD, we update a matrix that directly approximates the inverse empirical Fisher matrix (like full matrix AdaGrad), avoiding inversion and hence 64-bit precision. We then propose KrADagrad$^\star$, with similar computational costs to Shampoo and the same regret. Synthetic ill-conditioned experiments show improved performance over Shampoo for 32-bit precision, while for several real datasets we have comparable or better generalization.
翻訳日:2023-06-01 19:25:09 公開日:2023-05-30
# 定位・分離・認識のための統一音声・視覚学習フレームワーク

A Unified Audio-Visual Learning Framework for Localization, Separation, and Recognition ( http://arxiv.org/abs/2305.19458v1 )

ライセンス: Link先を確認
Shentong Mo, Pedro Morgado(参考訳) 音源を正確に認識し、ローカライズし、分離する能力は、あらゆる音声視覚知覚タスクに基本となる。 歴史的にこれらの能力は別々に取り組まれ、各タスクごとに複数の方法が開発されている。 しかしながら、ソースローカライゼーション、分離、認識の相互接続の性質を考えると、独立モデルはこれらのタスク間の相互依存を捕捉できないため、最適以下の性能を得る可能性が高い。 この問題に対処するために,音声と視覚の手がかりを統合し,局所化,分離,認識を行う統一型音声・視覚学習フレームワーク(oneavm)を提案する。 OneAVMは、共有オーディオ視覚エンコーダと3つの目標でトレーニングされたタスク固有のデコーダで構成される。 第1の目的は、局所的な音声-視覚対応損失を通じて、音声と視覚の表現を調整することである。 2つ目は、従来のmix-and-Separateフレームワークを使用して、ビジュアルソースの分離に取り組む。 最後に、第3の目的は、画素空間内の画像を混合し、その表現を対応するすべての音源と整合させることにより、視覚的特徴分離と位置決めを強化することである。 MUSIC、VGG-Instruments、VGG-Music、VGGSoundデータセットの広範囲にわたる実験は、音声-視覚的ソースのローカライゼーション、分離、近接認識の3つのタスクすべてにOneAVMの有効性を示し、それらの間に強い正の伝達を示す。

The ability to accurately recognize, localize and separate sound sources is fundamental to any audio-visual perception task. Historically, these abilities were tackled separately, with several methods developed independently for each task. However, given the interconnected nature of source localization, separation, and recognition, independent models are likely to yield suboptimal performance as they fail to capture the interdependence between these tasks. To address this problem, we propose a unified audio-visual learning framework (dubbed OneAVM) that integrates audio and visual cues for joint localization, separation, and recognition. OneAVM comprises a shared audio-visual encoder and task-specific decoders trained with three objectives. The first objective aligns audio and visual representations through a localized audio-visual correspondence loss. The second tackles visual source separation using a traditional mix-and-separate framework. Finally, the third objective reinforces visual feature separation and localization by mixing images in pixel space and aligning their representations with those of all corresponding sound sources. Extensive experiments on MUSIC, VGG-Instruments, VGG-Music, and VGGSound datasets demonstrate the effectiveness of OneAVM for all three tasks, audio-visual source localization, separation, and nearest neighbor recognition, and empirically demonstrate a strong positive transfer between them.
翻訳日:2023-06-01 19:18:50 公開日:2023-05-30
# FPGAにおけるAI推論エンジンのデプロイのためのフレームワークの実装

Implementation of a framework for deploying AI inference engines in FPGAs ( http://arxiv.org/abs/2305.19455v1 )

ライセンス: Link先を確認
Ryan Herbst, Ryan Coffee, Nathan Fronk, Kukhee Kim, Kuktae Kim, Larry Ruckman, and J.J. Russell(参考訳) The LCLS2 Free Electron Laser FEL will generate xray pulses to beamline experiments at up to 1Mhz These experimentals will require new ultrahigh rate UHR detectors that can operate at rates above 100 kHz and generate data throughputs upwards of 1 TBs a data velocity which requires prohibitively large investments in storage infrastructure Machine Learning has demonstrated the potential to digest large datasets to extract relevant insights however current implementations show latencies that are too high for realtime data reduction objectives SLAC has endeavored on the creation of a software framework which translates MLs structures for deployment on Field Programmable Gate Arrays FPGAs deployed at the Edge of the data chain close to the instrumentation This framework leverages Xilinxs HLS framework presenting an API modeled after the open source Keras interface to the TensorFlow library This SLAC Neural Network Library SNL framework is designed with a streaming data approach optimizing the data flow between layers while minimizing the buffer data buffering requirements The goal is to ensure the highest possible framerate while keeping the maximum latency constrained to the needs of the experiment Our framework is designed to ensure the RTL implementation of the network layers supporting full redeployment of weights and biases without requiring resynthesis after training The ability to reduce the precision of the implemented networks through quantization is necessary to optimize the use of both DSP and memory resources in the FPGA We currently have a preliminary version of the toolset and are experimenting with both general purpose example networks and networks being designed for specific LCLS2 experiments.

The LCLS2 Free Electron Laser FEL will generate xray pulses to beamline experiments at up to 1Mhz These experimentals will require new ultrahigh rate UHR detectors that can operate at rates above 100 kHz and generate data throughputs upwards of 1 TBs a data velocity which requires prohibitively large investments in storage infrastructure Machine Learning has demonstrated the potential to digest large datasets to extract relevant insights however current implementations show latencies that are too high for realtime data reduction objectives SLAC has endeavored on the creation of a software framework which translates MLs structures for deployment on Field Programmable Gate Arrays FPGAs deployed at the Edge of the data chain close to the instrumentation This framework leverages Xilinxs HLS framework presenting an API modeled after the open source Keras interface to the TensorFlow library This SLAC Neural Network Library SNL framework is designed with a streaming data approach optimizing the data flow between layers while minimizing the buffer data buffering requirements The goal is to ensure the highest possible framerate while keeping the maximum latency constrained to the needs of the experiment Our framework is designed to ensure the RTL implementation of the network layers supporting full redeployment of weights and biases without requiring resynthesis after training The ability to reduce the precision of the implemented networks through quantization is necessary to optimize the use of both DSP and memory resources in the FPGA We currently have a preliminary version of the toolset and are experimenting with both general purpose example networks and networks being designed for specific LCLS2 experiments.
翻訳日:2023-06-01 19:18:27 公開日:2023-05-30
# チャンネルレベルのスカラー学習システム「Dynamic Sparsity」

Dynamic Sparsity Is Channel-Level Sparsity Learner ( http://arxiv.org/abs/2305.19454v1 )

ライセンス: Link先を確認
Lu Yin, Gen Li, Meng Fang, Li Shen, Tianjin Huang, Zhangyang Wang, Vlado Menkovski, Xiaolong Ma, Mykola Pechenizkiy, Shiwei Liu(参考訳) スパーストレーニングは、トレーニングプロセス全体と推論に対する具体的な貯蓄能力によって、機械学習への関心が高まっている。 ダイナミックスパーストレーニング(DST)は、スパークストレーニングの先駆的なアプローチであり、深いニューラルネットワークをスクラッチから高い間隔でトレーニングすることで、密度の高いニューラルネットワークのパフォーマンスを満足させることができる。 しかし、ほとんどのDST先行技術は、非常に不規則なスパースパターンを持つ非構造的スパース性に対して効果を示し、共通のハードウェアでしかサポートされない。 この制限は実際にはDSTの使用を妨げる。 本稿では,非構造化動的スパース性の約束を,アドホックな操作を伴わずに,一方のエンドツーエンドトレーニングプロセスにおいて,gpuフレンドリーなチャネルレベルのスパース性(細粒度n:mやグループスパース性ではない)にシームレスに翻訳するチャネルアウェア動的スパース(chase)を提案する。 結果として生じる小さなスパースネットワークは、特に疎いハードウェアアクセラレータを使わずに、コモディティハードウェアによって直接加速することができる。 既成の非構造dstは暗黙的にチャネル間のバイアス付きパラメータの再配置を伴い、チャネルのごく一部(最大60\%)は他のチャネルよりもスパーサーである。 トレーニング中にこれらのチャネルを段階的に識別・除去することにより,非構造的疎度からチャネルワイド疎度へ変換する。 実験の結果,画像ネット上でのResNet-50の精度を損なうことなく,一般的なGPUデバイス上での1.7X推論スループットの高速化を実現した。 コードはhttps://github.com/luuyin/chaseでリリースします。

Sparse training has received an upsurging interest in machine learning due to its tantalizing saving potential for the entire training process as well as inference. Dynamic sparse training (DST), as a leading sparse training approach, can train deep neural networks at high sparsity from scratch to match the performance of their dense counterparts. However, most if not all DST prior arts demonstrate their effectiveness on unstructured sparsity with highly irregular sparse patterns, which receives limited support in common hardware. This limitation hinders the usage of DST in practice. In this paper, we propose Channel-aware dynamic sparse (Chase), which for the first time seamlessly translates the promise of unstructured dynamic sparsity to GPU-friendly channel-level sparsity (not fine-grained N:M or group sparsity) during one end-to-end training process, without any ad-hoc operations. The resulting small sparse networks can be directly accelerated by commodity hardware, without using any particularly sparsity-aware hardware accelerators. This appealing outcome is partially motivated by a hidden phenomenon of dynamic sparsity: off-the-shelf unstructured DST implicitly involves biased parameter reallocation across channels, with a large fraction of channels (up to 60\%) being sparser than others. By progressively identifying and removing these channels during training, our approach translates unstructured sparsity to channel-wise sparsity. Our experimental results demonstrate that Chase achieves 1.7 X inference throughput speedup on common GPU devices without compromising accuracy with ResNet-50 on ImageNet. We release our codes in https://github.com/luuyin/chase.
翻訳日:2023-06-01 19:18:18 公開日:2023-05-30
# 両ゆがみの世界のベスト

Best of Both Distortion Worlds ( http://arxiv.org/abs/2305.19453v1 )

ライセンス: Link先を確認
Vasilis Gkatzelis, Mohamad Latifian and Nisarg Shah(参考訳) 我々は、$m$の代替案よりも$n$のエージェントの日常的嗜好を入力として投票ルールを設計し、エージェントの全体的幸福を最適化することを目的とした1つの代替案を出力する問題について検討する。 投票規則への入力は、各エージェントが最も好む選択肢のランク付けであるが、エージェントは、他の選択肢よりも好まれる強度を捉えるより洗練された(カーディナルな)選好を持っている。 序列のみに与えられる基準優先よりも、投票ルールが最適化できる範囲を定量化するために、事前の作業では、この歪み測定、すなわち、投票ルールの性能と、その基準優先から得られる最高の性能との最悪のケース近似比を用いている。 投票規則の歪みに関する研究は、実用的歪みとメートル法歪みの2つの世界に分けられている。 前者では、エージェントの基準的嗜好は一般的なユーティリティに対応し、目的は正規化された社会福祉を最大化することである。 後者では、エージェントの基数選好は、基礎となる計量空間における距離によって与えられるコストに対応し、目標は(正規化されていない)社会的コストを最小化することである。 決定論的およびランダム化された投票規則がそれぞれ別々に提案され評価され、達成可能な歪み境界が徐々に改善されているが、既知の投票規則は両世界において同時にうまく機能しない。 本研究は,両世界におけるほぼ最適歪み保証を同時に達成する新しい投票規則を設計することにより,両世界のベストを達成できることを実証する。 また、このポジティブな結果が、投票ルールが各エージェントの上位$t$代替品のみを$t<m$で提供する場合に一般化しないことも証明する。

We study the problem of designing voting rules that take as input the ordinal preferences of $n$ agents over a set of $m$ alternatives and output a single alternative, aiming to optimize the overall happiness of the agents. The input to the voting rule is each agent's ranking of the alternatives from most to least preferred, yet the agents have more refined (cardinal) preferences that capture the intensity with which they prefer one alternative over another. To quantify the extent to which voting rules can optimize over the cardinal preferences given access only to the ordinal ones, prior work has used the distortion measure, i.e., the worst-case approximation ratio between a voting rule's performance and the best performance achievable given the cardinal preferences. The work on the distortion of voting rules has been largely divided into two worlds: utilitarian distortion and metric distortion. In the former, the cardinal preferences of the agents correspond to general utilities and the goal is to maximize a normalized social welfare. In the latter, the agents' cardinal preferences correspond to costs given by distances in an underlying metric space and the goal is to minimize the (unnormalized) social cost. Several deterministic and randomized voting rules have been proposed and evaluated for each of these worlds separately, gradually improving the achievable distortion bounds, but none of the known voting rules perform well in both worlds simultaneously. In this work, we prove that one can achieve the best of both worlds by designing new voting rules, that simultaneously achieve near-optimal distortion guarantees in both distortion worlds. We also prove that this positive result does not generalize to the case where the voting rule is provided with the rankings of only the top-$t$ alternatives of each agent, for $t<m$.
翻訳日:2023-06-01 19:17:44 公開日:2023-05-30
# より大きく、より良く、より速く:人間レベルの効率のアタリ

Bigger, Better, Faster: Human-level Atari with human-level efficiency ( http://arxiv.org/abs/2305.19452v1 )

ライセンス: Link先を確認
Max Schwarzer, Johan Obando-Ceron, Aaron Courville, Marc Bellemare, Rishabh Agarwal, Pablo Samuel Castro(参考訳) 我々は,Atari 100Kベンチマークで超人的性能を実現する,BBFと呼ばれる値ベースのRLエージェントを提案する。 BBFは、値推定に使用されるニューラルネットワークのスケーリングと、このスケーリングをサンプル効率のよい方法で実現するための多くの設計選択に依存している。 我々は、これらの設計選択を広範囲に分析し、将来の作業に対する洞察を提供する。 最終的に、ALEにおけるサンプル効率のよいRL研究のためのゴールポストの更新について議論する。 コードとデータはhttps://github.com/google-research/google-research/tree/master/bigger_better_fasterで公開しています。

We introduce a value-based RL agent, which we call BBF, that achieves super-human performance in the Atari 100K benchmark. BBF relies on scaling the neural networks used for value estimation, as well as a number of other design choices that enable this scaling in a sample-efficient manner. We conduct extensive analyses of these design choices and provide insights for future work. We end with a discussion about updating the goalposts for sample-efficient RL research on the ALE. We make our code and data publicly available at https://github.com/google-research/google-research/tree/master/bigger_better_faster.
翻訳日:2023-06-01 19:17:12 公開日:2023-05-30
# Egocentric Object Playによる自己監督型ビジュアルラーニングの計算

A Computational Account Of Self-Supervised Visual Learning From Egocentric Object Play ( http://arxiv.org/abs/2305.19445v1 )

ライセンス: Link先を確認
Deepayan Sanyal, Joel Michelson, Yuan Yang, James Ainooson and Maithilee Kunda(参考訳) 児童発達の研究は、身体的な物体を扱う経験が視覚学習を含む多くの認知能力に寄与することを示した。 このような経験の1つの特徴は、学習者が複数の異なる視点から同じ対象を見ることである。 本稿では,異なる視点を同一視する学習信号(例えば,同じ表現を1つの物体の異なる視点に割り当てること)が,堅牢な視覚学習を支援するかを検討する。 Toyboxデータセットは、異なるオブジェクトを操作する人間の自我中心のビデオを含み、コンピュータビジョンフレームワークを用いて自己教師付きコントラスト学習を行う。 物体の異なる物理的視点から学習した表現は、下流画像の分類精度を向上する。 さらなる実験により、この性能改善は視点間の差のばらつきに頑健であり、利点は複数の異なる画像分類タスクに移されることが示された。

Research in child development has shown that embodied experience handling physical objects contributes to many cognitive abilities, including visual learning. One characteristic of such experience is that the learner sees the same object from several different viewpoints. In this paper, we study how learning signals that equate different viewpoints -- e.g., assigning similar representations to different views of a single object -- can support robust visual learning. We use the Toybox dataset, which contains egocentric videos of humans manipulating different objects, and conduct experiments using a computer vision framework for self-supervised contrastive learning. We find that representations learned by equating different physical viewpoints of an object benefit downstream image classification accuracy. Further experiments show that this performance improvement is robust to variations in the gaps between viewpoints, and that the benefits transfer to several different image classification tasks.
翻訳日:2023-06-01 19:17:01 公開日:2023-05-30
# OWAdapt: OWA演算子を用いたディープラーニングのための適応的損失関数

OWAdapt: An adaptive loss function for deep learning using OWA operators ( http://arxiv.org/abs/2305.19443v1 )

ライセンス: Link先を確認
Sebasti\'an Maldonado, Carla Vairetti, Katherine Jara, Miguel Carrasco, Julio L\'opez(参考訳) 本稿では,分類タスクにおける深層学習性能を向上させるファジィ適応損失関数を提案する。 具体的には,クロスエントロピー損失を再定義し,クラスレベルのノイズ条件に効果的に対処する。 本手法では,ファジィ論理のパワーを利用して分類精度を向上させるアグリゲーション演算子を導入する。 提案手法の背景にある理論的根拠は、損失関数内のクラスレベルのコンポーネントの反復的な重み付けであり、エラーが大きいコンポーネントに焦点を当てている。 これを実現するために、順序付き重み付き平均演算子(OWA)を用い、勾配学習のための適応型スキームと組み合わせる。 広範囲な実験により,本手法は,標準クロスエントロピーや焦点損失といった他の一般的な損失関数を,様々なバイナリ・マルチクラス分類タスクで上回っている。 さらに,owaオペレータに関連するハイパーパラメータの影響について検討し,異なる実験設定で動作可能なデフォルト設定を提案する。

In this paper, we propose a fuzzy adaptive loss function for enhancing deep learning performance in classification tasks. Specifically, we redefine the cross-entropy loss to effectively address class-level noise conditions, including the challenging problem of class imbalance. Our approach introduces aggregation operators, leveraging the power of fuzzy logic to improve classification accuracy. The rationale behind our proposed method lies in the iterative up-weighting of class-level components within the loss function, focusing on those with larger errors. To achieve this, we employ the ordered weighted average (OWA) operator and combine it with an adaptive scheme for gradient-based learning. Through extensive experimentation, our method outperforms other commonly used loss functions, such as the standard cross-entropy or focal loss, across various binary and multiclass classification tasks. Furthermore, we explore the influence of hyperparameters associated with the OWA operators and present a default configuration that performs well across different experimental settings.
翻訳日:2023-06-01 19:16:45 公開日:2023-05-30
# SimFBO: シンプルでフレキシブルでコミュニケーション効率の良い双方向学習を目指して

SimFBO: Towards Simple, Flexible and Communication-efficient Federated Bilevel Learning ( http://arxiv.org/abs/2305.19442v1 )

ライセンス: Link先を確認
Yifan Yang, Peiyao Xiao and Kaiyi Ji(参考訳) fbo(federated bilevel optimization)は、メタラーニングや微調整、ハイパーパラメータチューニングといった新たなネスト最適化構造によって、マシンラーニングやエッジコンピューティングにおいて、近年大きな可能性を秘めている。 しかし、既存のFBOアルゴリズムは複雑な計算を伴い、1イテレーションごとに複数のサブループが必要であり、それぞれが複数の通信ラウンドを含む。 本稿では,サブループなしで実装が容易で,汎用的なサーバ側アグリゲーションと通信効率向上のための更新を含む,シンプルで柔軟なFBOフレームワークSimFBOを提案する。 さらに,不均一局所計算に対する強いレジリエンスを持つSimFBOの変種として,システムレベルの不均質FBO(ShroFBO)を提案する。 我々は,SimFBO と ShroFBO がリニアコンバージェンス・スピードアップを実現し,部分的なクライアント参加とクライアントサンプリングを置き換えることなく実現し,サンプルと通信の複雑さを改善したことを示す。 実験は既存のfboアルゴリズムに対する提案手法の有効性を実証する。

Federated bilevel optimization (FBO) has shown great potential recently in machine learning and edge computing due to the emerging nested optimization structure in meta-learning, fine-tuning, hyperparameter tuning, etc. However, existing FBO algorithms often involve complicated computations and require multiple sub-loops per iteration, each of which contains a number of communication rounds. In this paper, we propose a simple and flexible FBO framework named SimFBO, which is easy to implement without sub-loops, and includes a generalized server-side aggregation and update for improving communication efficiency. We further propose System-level heterogeneity robust FBO (ShroFBO) as a variant of SimFBO with stronger resilience to heterogeneous local computation. We show that SimFBO and ShroFBO provably achieve a linear convergence speedup with partial client participation and client sampling without replacement, as well as improved sample and communication complexities. Experiments demonstrate the effectiveness of the proposed methods over existing FBO algorithms.
翻訳日:2023-06-01 19:16:28 公開日:2023-05-30
# 同変グラフニューラルネットワークを用いたアミノ酸置換によるタンパク質安定性の予測

Predicting protein stability changes under multiple amino acid substitutions using equivariant graph neural networks ( http://arxiv.org/abs/2305.19801v1 )

ライセンス: Link先を確認
Sebastien Boyer, Sam Money-Kyrle, Oliver Bent(参考訳) 複数のアミノ酸置換下でのタンパク質安定性の変化の正確な予測は、真のin-silicoタンパク質再設計を実現するのに不可欠である。 本研究では,タンパク質表現の原子スケールと残基スケールを分離することにより,構造表現に基づく可変数のアミノ酸置換の初等的予測を可能にする,最先端のディープラーニング(dl)タンパク質安定性予測モデルの改良を提案する。 これは、E(3)-同変グラフニューラルネットワーク(EGNN)を用いて、原子環境(AE)埋め込みと残差レベルスコアリングタスクの両方で達成された。 我々のae埋め込みは残差レベルグラフの実現に使われ、その後ミュータント安定性(\delta\delta g$)を得るように訓練された。 この予測EGNNを効果的に訓練するために、我々は、新しい高スループットタンパク質安定性実験データセットMega-scaleを前例のない規模で活用した。 最後に,本手法の有望な結果を示し,現在の欠点を議論し,今後の戦略を強調する。

The accurate prediction of changes in protein stability under multiple amino acid substitutions is essential for realising true in-silico protein re-design. To this purpose, we propose improvements to state-of-the-art Deep learning (DL) protein stability prediction models, enabling first-of-a-kind predictions for variable numbers of amino acid substitutions, on structural representations, by decoupling the atomic and residue scales of protein representations. This was achieved using E(3)-equivariant graph neural networks (EGNNs) for both atomic environment (AE) embedding and residue-level scoring tasks. Our AE embedder was used to featurise a residue-level graph, then trained to score mutant stability ($\Delta\Delta G$). To achieve effective training of this predictive EGNN we have leveraged the unprecedented scale of a new high-throughput protein stability experimental data-set, Mega-scale. Finally, we demonstrate the immediately promising results of this procedure, discuss the current shortcomings, and highlight potential future strategies.
翻訳日:2023-06-01 16:40:36 公開日:2023-05-30
# RINGER:内部共役拡散を伴うマクロサイクルの高速コンバータ生成

RINGER: Rapid Conformer Generation for Macrocycles with Sequence-Conditioned Internal Coordinate Diffusion ( http://arxiv.org/abs/2305.19800v1 )

ライセンス: Link先を確認
Colin A. Grambow, Hayley Weir, Nathaniel L. Diamant, Alex M. Tseng, Tommaso Biancalani, Gabriele Scalia, Kangway V. Chuang(参考訳) マクロ環状ペプチドは、新しい治療モダリティであるが、多彩な3Dアンサンブルを正確にサンプリングするための計算手法は、構造的多様性と幾何学的制約のため、依然として困難である。 本稿では、内部座標に基づくマクロサイクル構造をシーケンス条件で生成する拡散型トランスフォーマーモデルであるRINGERを紹介する。 RINGERは、環状ペプチドの構造的不変性を尊重しながら、高速なバックボーンサンプリングを提供する。 メタダイナミックスにより生成される環状ペプチドのゴールド標準コンフォメータアンサンブルに対する広範なベンチマークと解析により,RINGERが計算コストのごく一部で高品質かつ多様なジオメトリを生成することを示す。 本研究は,循環型ジオメトリーのサンプリングの改善とペプチドの幾何学的学習法の開発の基礎となる。

Macrocyclic peptides are an emerging therapeutic modality, yet computational approaches for accurately sampling their diverse 3D ensembles remain challenging due to their conformational diversity and geometric constraints. Here, we introduce RINGER, a diffusion-based transformer model for sequence-conditioned generation of macrocycle structures based on internal coordinates. RINGER provides fast backbone sampling while respecting key structural invariances of cyclic peptides. Through extensive benchmarking and analysis against gold-standard conformer ensembles of cyclic peptides generated with metadynamics, we demonstrate how RINGER generates both high-quality and diverse geometries at a fraction of the computational cost. Our work lays the foundation for improved sampling of cyclic geometries and the development of geometric learning methods for peptides.
翻訳日:2023-06-01 16:40:13 公開日:2023-05-30
# コード経由のエラーチャネルバランシングによる捕捉イオン量子ビットメモリの改善

Improving trapped-ion-qubit memories via code-mediated error-channel balancing ( http://arxiv.org/abs/1606.00056v4 )

ライセンス: Link先を確認
Yannick Seis and Benjamin J. Brown and Anders S. S{\o}rensen and Joseph F. Goodwin(参考訳) 量子情報の高忠実性保存は、量子計算と通信に不可欠である。 これらの応用のための多くの実験プラットフォームは高いバイアスのノイズを示し、高いデファスレートによって弱まるスピンデポーライゼーションに対するレジリエンスが良好である。 そこで本研究では,同一トラップ内の2つのキュービットレジスタに書き込まれた2つの繰り返し符号間の情報をテレポートすることにより,誤りを強調する誤り訂正を組み込むことにより,ノイズバイアス付きトラップイオン量子ビットメモリのメモリ性能を大幅に改善できることを実証する。 誤り訂正の技術的要件はしばしば大きいが,我々のプロトコルは極めて低忠実な単一グローバルエンタングリング位相ゲートで実現可能であることを示し,ゲートエラーがデファス方式のプロセスに支配されているという事実を活用する。 論理スピンフリップとデフォーカス誤り率を再評価することにより、現実的なパラメータに対して、我々のメモリは、保護されていない物理量子ビットよりも最大2桁低い誤差率を示すことができ、フィールド非感受性量子ビットが利用できないトラップイオン系において、メモリ性能を向上させる有用な手段を提供する。

The high-fidelity storage of quantum information is crucial for quantum computation and communication. Many experimental platforms for these applications exhibit highly biased noise, with good resilience to spin depolarisation undermined by high dephasing rates. In this work, we demonstrate that the memory performance of a noise-biased trapped-ion qubit memory can be greatly improved by incorporating error correction of dephasing errors through teleportation of the information between two repetition codes written on a pair of qubit registers in the same trap. While the technical requirements of error correction are often considerable, we show that our protocol can be achieved with a single global entangling phase gate of remarkably low fidelity, leveraging the fact that the gate errors are also dominated by dephasing-type processes. By rebalancing the logical spin-flip and dephasing error rates, we show that for realistic parameters our memory can exhibit error rates up to two orders of magnitude lower than the unprotected physical qubits, thus providing a useful means of improving memory performance in trapped ion systems where field-insensitive qubits are not available.
翻訳日:2023-06-01 03:49:07 公開日:2023-05-30
# 共通通信効率のよい量子閾値秘密共有方式

Universal Communication Efficient Quantum Threshold Secret Sharing Schemes ( http://arxiv.org/abs/2002.09229v3 )

ライセンス: Link先を確認
Kaushik Senthoor and Pradeep Kiran Sarvepalli(参考訳) 量子秘密共有 (quantum secret sharing, qss) は暗号プロトコルであり、ある部分集合が秘密を回復できる一方で、一部の部分集合は秘密を回復できない多くの当事者に量子秘密を分散させる。 標準的な$(((k,n))$ 量子しきい値秘密共有スキームでは、$k$以上のパーティの任意のサブセットは秘密を復元できるが、他のサブセットは秘密に関する情報を持っていない。 しかし、秘密の回復には、秘密のすべてのクディットに対して少なくとも$k$ quditsの通信コストがかかる。 近年,株の分配前に$d$が固定された$d\geq k$パーティに連絡することで,通信コストを$\frac{d}{d-k+1}$に向上させる通信効率の高いqssスキームが提案されている。 本稿では,通信複雑性の低い$(((k,n))$量子秘密共有スキームのより一般的なクラスを提案する。 我々のスキームは、コンビネータが通信効率で秘密を回復するために複数の当事者に接触できるという意味で普遍的であり、すなわち、範囲 $k\leq d\leq n$ の任意の$d$ はコンビネータによって選択できる。 これは、普遍的な通信効率のよい量子しきい値スキームの最初のクラスである。

Quantum secret sharing (QSS) is a cryptographic protocol in which a quantum secret is distributed among a number of parties where some subsets of the parties are able to recover the secret while some subsets are unable to recover the secret. In the standard $((k,n))$ quantum threshold secret sharing scheme, any subset of $k$ or more parties out of the total $n$ parties can recover the secret while other subsets have no information about the secret. But recovery of the secret incurs a communication cost of at least $k$ qudits for every qudit in the secret. Recently, a class of communication efficient QSS schemes were proposed which can improve this communication cost to $\frac{d}{d-k+1}$ by contacting $d\geq k$ parties where $d$ is fixed prior to the distribution of shares. In this paper, we propose a more general class of $((k,n))$ quantum secret sharing schemes with low communication complexity. Our schemes are universal in the sense that the combiner can contact any number of parties to recover the secret with communication efficiency i.e. any $d$ in the range $k\leq d\leq n$ can be chosen by the combiner. This is the first such class of universal communication efficient quantum threshold schemes.
翻訳日:2023-06-01 03:43:44 公開日:2023-05-30
# LambdaUNet:拡散強調MRI画像の2.5Dストローク病変分割

LambdaUNet: 2.5D Stroke Lesion Segmentation of Diffusion-weighted MR Images ( http://arxiv.org/abs/2104.13917v2 )

ライセンス: Link先を確認
Yanglan Ou, Ye Yuan, Xiaolei Huang, Kelvin Wong, John Volpi, James Z. Wang, Stephen T.C. Wong(参考訳) 虚血性脳梗塞の診断と治療には拡散強調(DW)MRIが不可欠である。 DW画像(DWI)は通常、2つの連続した2Dスライスにおける病変領域が大きなスライス厚みと時にはスライスギャップによって非常に不連続であるマルチスライス環境で取得される。 したがって、DWIはリッチな3D情報を含むが、通常の3D画像や2D画像として扱うことはできない。 代わりに、DWIは体積の性質から中間(2.5D)にあるが、スライス間不連続である。 したがって,2次元画像と3次元画像のいずれに対しても,既存のセグメント化手法を適用するのは理想的ではない。 そこで本研究では,DWIなどの不連続な2.5Dデータをセグメント化するためのニューラルネットワークアーキテクチャを提案する。 当社のネットワークはLambdaUNetと呼ばれ、畳み込みレイヤをLambda+レイヤに置き換えることでUNetを拡張しています。 特に、ラムダ+層は、ピクセル周辺のスライス内とスライス間の両方のコンテキストを、ラムダと呼ばれる線形関数に変換し、それをピクセルに適用して、有益な2.5d機能を生成する。 LambdaUNetはシンプルだが、隣接するスライスからスパース間情報を合成すると同時に、単一のスライス内で密集したコンテキスト特徴をキャプチャするのに有効である。 ユニークな臨床データセットの実験では、LambdaUNetは、UNetの最近の変種を含む既存の3D/2D画像セグメンテーションメソッドより優れていることが示されている。 code for lambdaunetは将来の研究を促進するために出版物と共にリリースされている。

Diffusion-weighted (DW) magnetic resonance imaging is essential for the diagnosis and treatment of ischemic stroke. DW images (DWIs) are usually acquired in multi-slice settings where lesion areas in two consecutive 2D slices are highly discontinuous due to large slice thickness and sometimes even slice gaps. Therefore, although DWIs contain rich 3D information, they cannot be treated as regular 3D or 2D images. Instead, DWIs are somewhere in-between (or 2.5D) due to the volumetric nature but inter-slice discontinuities. Thus, it is not ideal to apply most existing segmentation methods as they are designed for either 2D or 3D images. To tackle this problem, we propose a new neural network architecture tailored for segmenting highly-discontinuous 2.5D data such as DWIs. Our network, termed LambdaUNet, extends UNet by replacing convolutional layers with our proposed Lambda+ layers. In particular, Lambda+ layers transform both intra-slice and inter-slice context around a pixel into linear functions, called lambdas, which are then applied to the pixel to produce informative 2.5D features. LambdaUNet is simple yet effective in combining sparse inter-slice information from adjacent slices while also capturing dense contextual features within a single slice. Experiments on a unique clinical dataset demonstrate that LambdaUNet outperforms existing 3D/2D image segmentation methods including recent variants of UNet. Code for LambdaUNet is released with the publication to facilitate future research.
翻訳日:2023-06-01 03:38:26 公開日:2023-05-30
# DP-SGDにおけるモーメント会計士の身長について

On the Tightness of the Moment Accountant for DP-SGD ( http://arxiv.org/abs/2102.09030v8 )

ライセンス: Link先を確認
Marten van Dijk, Nhuong V. Nguyen, Toan N. Nguyen, Lam M. Nguyen and Phuong Ha Nguyen(参考訳) 差分プライバシーを提供するために、差分プライベートSGD(DP-SGD)でクリップ操作を行った後、ローカルSGD更新に標準偏差$\sigma$を付加する。 dp-sgd が $(\epsilon\leq 1/2,\delta=1/n)$-dp if $\sigma=\sqrt{2(\epsilon +\ln(1/\delta))/\epsilon}$ with $t$ at $\approx 2k^2/\epsilon$ and $(2/e)^2-1/2\geq \ln(n)$, ここで $t$ はラウンドの総数であり、$k=kn$ は、$n$n$n$n$n$ である。 我々の式は、もし$T$が下限の$\approx 2k^2/\epsilon$よりも小さい$\approx 8$であるなら、$(\epsilon,\delta)$-DPの保証は破られる。 最小の可能な値を$T\approx 2k^2/\epsilon$を選択すると、厳密なDP保証が得られるだけでなく、通信された更新の総数も最小になる。

In order to provide differential privacy, Gaussian noise with standard deviation $\sigma$ is added to local SGD updates after performing a clipping operation in Differential Private SGD (DP-SGD). By non-trivially improving the moment account method we prove a closed form $(\epsilon,\delta)$-DP guarantee: DP-SGD is $(\epsilon\leq 1/2,\delta=1/N)$-DP if $\sigma=\sqrt{2(\epsilon +\ln(1/\delta))/\epsilon}$ with $T$ at least $\approx 2k^2/\epsilon$ and $(2/e)^2k^2-1/2\geq \ln(N)$, where $T$ is the total number of rounds, and $K=kN$ is the total number of gradient computations where $k$ measures $K$ in number of epochs of size $N$ of the local data set. We prove that our expression is close to tight in that if $T$ is more than a constant factor $\approx 8$ smaller than the lower bound $\approx 2k^2/\epsilon$, then the $(\epsilon,\delta)$-DP guarantee is violated. Choosing the smallest possible value $T\approx 2k^2/\epsilon$ not only leads to a close to tight DP guarantee, but also minimizes the total number of communicated updates and this means that the least amount of noise is aggregated into the global model and in addition accuracy is optimized as confirmed by simulations.
翻訳日:2023-06-01 03:37:58 公開日:2023-05-30
# 通信効率の高い量子秘密共有の理論

Theory of Communication Efficient Quantum Secret Sharing ( http://arxiv.org/abs/2101.12419v2 )

ライセンス: Link先を確認
Kaushik Senthoor and Pradeep Kiran Sarvepalli(参考訳) $(((k,n))$ 量子しきい値秘密共有(QTS)スキームは、量子秘密を$n$のパーティ間で共有するための量子暗号プロトコルで、秘密を$k$以上のパーティで回収できるが、$k-1$以下のパーティでは秘密に関する情報が得られない。 これらのスキームに関する広範な研究にもかかわらず、回復中に量子通信コストを最適化する研究はほとんど行われていない。 近年,通信効率のよい量子しきい値秘密共有(CE-QTS)方式の研究を開始した。 これらのスキームは、回復のために$d\geq k$partyにアクセスすることで、qtsスキームにおける通信の複雑さを減少させる。 秘密裏に各キューディットを回収するために$k$ quditsを必要とする標準的なQTSスキームとは対照的に、これらのスキームは$\frac{d}{d-k+1}$ for $d>k$の通信コストが低い。 本稿では,通信効率のよい量子しきい値スキームの理論をさらに発展させる。 本稿では,すべての$d\geq k$の通信コストを同時に削減する汎用CE-QTS方式を提案する。 我々は、CE-QTSと普遍CE-QTSスキームを構築するために、ランプ量子秘密共有に基づくフレームワークを提供する。 ステアケース符号に基づく普遍CE-QTSスキームの別の構成を提案する。 コミュニケーションの複雑さの低い境界を導出し、構造が最適であることを示す。 最後に、CE-QTSスキームを解析するために情報理論モデルを開発し、このモデルを用いて通信複雑性の低い境界を再度証明する。

A $((k,n))$ quantum threshold secret sharing (QTS) scheme is a quantum cryptographic protocol for sharing a quantum secret among $n$ parties such that the secret can be recovered by any $k$ or more parties while $k-1$ or fewer parties have no information about the secret. Despite extensive research on these schemes, there has been very little study on optimizing the quantum communication cost during recovery. Recently, we initiated the study of communication efficient quantum threshold secret sharing (CE-QTS) schemes. These schemes reduce the communication complexity in QTS schemes by accessing $d\geq k$ parties for recovery; here $d$ is fixed ahead of encoding the secret. In contrast to the standard QTS schemes which require $k$ qudits for recovering each qudit in the secret, these schemes have a lower communication cost of $\frac{d}{d-k+1}$ for $d>k$. In this paper, we further develop the theory of communication efficient quantum threshold schemes. Here, we propose universal CE-QTS schemes which reduce the communication cost for all $d\geq k$ simultaneously. We provide a framework based on ramp quantum secret sharing to construct CE-QTS and universal CE-QTS schemes. We give another construction for universal CE-QTS schemes based on Staircase codes. We derived a lower bound on communication complexity and show that our constructions are optimal. Finally, an information theoretic model is developed to analyse CE-QTS schemes and the lower bound on communication complexity is proved again using this model.
翻訳日:2023-06-01 03:37:06 公開日:2023-05-30
# 帯域制限ランダムウェイトを持つ浅層ニューラルネットワークはどの程度強力か?

How Powerful are Shallow Neural Networks with Bandlimited Random Weights? ( http://arxiv.org/abs/2008.08427v3 )

ライセンス: Link先を確認
Ming Li, Sho Sonoda, Feilong Cao, Yu Guang Wang, Jiye Liang(参考訳) 本研究では、深度2帯域幅のランダムニューラルネットワークの表現力について検討する。 ランダムネットは、隠れた層パラメータがランダム割り当てで凍結され、出力層パラメータだけが損失最小化によって訓練されるニューラルネットワークである。 正規勾配降下学習における非凸最適化を回避するために,隠れ層に対するランダムウェイトを用いることが有効な方法である。 近年の深層学習理論にも採用されている。 ニューラルネットワークが普遍近似器であることはよく知られているが,本研究では,隠れたパラメータが有界領域に分散されている場合,ネットワークがゼロ近似誤差を達成できないことを数学的に示す。 特に、新しい非自明な近似誤差の下界を導出する。 この証明は、ニューラルネットワーク用に設計された調和解析手法であるリッジレット解析の手法を利用する。 この手法は古典的な信号処理の基本原理、特に帯域幅が限られている信号が元の信号を完全に再現できるとは限らないという考え方に着想を得ている。 私たちは様々なシミュレーション研究で理論結果と一致させ、一般的に2つの主なメッセージが提供されます。 (i)ランダムな重みを選択するための分布は、普遍的近似器を構築することができない。 (ii) 乱重みの適切な割り当ては存在するが、ある程度は対象関数の複雑さと関連している。

We investigate the expressive power of depth-2 bandlimited random neural networks. A random net is a neural network where the hidden layer parameters are frozen with random assignment, and only the output layer parameters are trained by loss minimization. Using random weights for a hidden layer is an effective method to avoid non-convex optimization in standard gradient descent learning. It has also been adopted in recent deep learning theories. Despite the well-known fact that a neural network is a universal approximator, in this study, we mathematically show that when hidden parameters are distributed in a bounded domain, the network may not achieve zero approximation error. In particular, we derive a new nontrivial approximation error lower bound. The proof utilizes the technique of ridgelet analysis, a harmonic analysis method designed for neural networks. This method is inspired by fundamental principles in classical signal processing, specifically the idea that signals with limited bandwidth may not always be able to perfectly recreate the original signal. We corroborate our theoretical results with various simulation studies, and generally, two main take-home messages are offered: (i) Not any distribution for selecting random weights is feasible to build a universal approximator; (ii) A suitable assignment of random weights exists but to some degree is associated with the complexity of the target function.
翻訳日:2023-06-01 03:36:38 公開日:2023-05-30
# 群同変神経後部推定

Group equivariant neural posterior estimation ( http://arxiv.org/abs/2111.13139v2 )

ライセンス: Link先を確認
Maximilian Dax, Stephen R. Green, Jonathan Gair, Michael Deistler, Bernhard Sch\"olkopf, Jakob H. Macke(参考訳) 条件付きニューラル密度推定器を用いたシミュレーションに基づく推論は、科学における逆問題に対する強力なアプローチである。 しかし、これらの方法は通常、下位のフォワードモデルをブラックボックスとして扱うが、等分散のような幾何学的性質を活用できない。 等価性は科学モデルでは一般的であるが、直接表現的推論ネットワーク(正規化フローなど)に統合することは簡単ではない。 本稿では,パラメータとデータの連成変換に同値を組み込む方法について述べる。 我々の手法は、群同変神経後部推定(GNPE)と呼ばれ、パラメーターを推定しながらデータの「目的」を自己整合的に標準化することに基づいている。 アーキテクチャ非依存であり、正確な等式と近似等式の両方に適用される。 実世界の応用として,重力波観測による天体物理ブラックホール系の漸近推定にgnpeを用いる。 我々は,GNPEが3桁の精度で推論時間を短縮し,最先端の精度を実現することを示す。

Simulation-based inference with conditional neural density estimators is a powerful approach to solving inverse problems in science. However, these methods typically treat the underlying forward model as a black box, with no way to exploit geometric properties such as equivariances. Equivariances are common in scientific models, however integrating them directly into expressive inference networks (such as normalizing flows) is not straightforward. We here describe an alternative method to incorporate equivariances under joint transformations of parameters and data. Our method -- called group equivariant neural posterior estimation (GNPE) -- is based on self-consistently standardizing the "pose" of the data while estimating the posterior over parameters. It is architecture-independent, and applies both to exact and approximate equivariances. As a real-world application, we use GNPE for amortized inference of astrophysical binary black hole systems from gravitational-wave observations. We show that GNPE achieves state-of-the-art accuracy while reducing inference times by three orders of magnitude.
翻訳日:2023-06-01 03:27:10 公開日:2023-05-30
# PointNu-Net:同時多部組織分類・分類のためのキーポイント支援畳み込みニューラルネットワーク

PointNu-Net: Keypoint-assisted Convolutional Neural Network for Simultaneous Multi-tissue Histology Nuclei Segmentation and Classification ( http://arxiv.org/abs/2111.01557v2 )

ライセンス: Link先を確認
Kai Yao and Kaizhu Huang and Jie Sun and Amir Hussain(参考訳) 自動核セグメンテーションと分類は、デジタル病理学において重要な役割を果たす。 しかしながら、以前の作業は、主に多様性とサイズが限定されたデータに基づいており、結果が疑わしいか、あるいは実際のダウンストリームタスクで誤解を招くようにしている。 本稿では,「臨床ワイルド」からのデータを扱うことができる信頼性とロバストな手法を構築することを目的とする。 具体的には, haematoxylin および eosin (h&e) 染色組織病理データからの核を同時検出, 分割, 分類する新しい方法の検討と, 最近の大規模データセット pannuke を用いたアプローチの評価を行った。 本稿では,各核の中心点を決定するために,各核の検出と分類を新しい意味的キーポイント推定問題として扱う。 次に、動的インスタンスセグメンテーションを用いて、核中心点に対する対応する類別マスクを求める。 一方,我々はクロススケールな依存関係をモデル化し,より優れた核検出と分類のための局所的特徴を高めるために,新しいJPFM(Joint Pyramid Fusion Module)を提案した。 2つの同時実行課題の分離とJPFMの活用により,本手法はクラス認識検出とクラス非依存セグメンテーションの恩恵を受け,性能が大幅に向上する。 提案手法は19の異なる組織タイプにまたがる核分画と分類において優れた性能を示し,新たなベンチマーク結果を得た。

Automatic nuclei segmentation and classification play a vital role in digital pathology. However, previous works are mostly built on data with limited diversity and small sizes, making the results questionable or misleading in actual downstream tasks. In this paper, we aim to build a reliable and robust method capable of dealing with data from the 'the clinical wild'. Specifically, we study and design a new method to simultaneously detect, segment, and classify nuclei from Haematoxylin and Eosin (H&E) stained histopathology data, and evaluate our approach using the recent largest dataset: PanNuke. We address the detection and classification of each nuclei as a novel semantic keypoint estimation problem to determine the center point of each nuclei. Next, the corresponding class-agnostic masks for nuclei center points are obtained using dynamic instance segmentation. Meanwhile, we proposed a novel Joint Pyramid Fusion Module (JPFM) to model the cross-scale dependencies, thus enhancing the local feature for better nuclei detection and classification. By decoupling two simultaneous challenging tasks and taking advantage of JPFM, our method can benefit from class-aware detection and class-agnostic segmentation, thus leading to a significant performance boost. We demonstrate the superior performance of our proposed approach for nuclei segmentation and classification across 19 different tissue types, delivering new benchmark results.
翻訳日:2023-06-01 03:26:54 公開日:2023-05-30
# グリーンAIに寄与するAI対応モバイルアプリにおける設計決定

Which Design Decisions in AI-enabled Mobile Applications Contribute to Greener AI? ( http://arxiv.org/abs/2109.15284v2 )

ライセンス: Link先を確認
Roger Creus Castanyer and Silverio Mart\'inez-Fern\'andez and Xavier Franch(参考訳) 背景: 複雑な人工知能(AI)モデルの構築、進化、使用には高価な計算資源が必要である。 現在利用可能な高性能コンピューティング環境は、この複雑さを十分にサポートしているが、モバイルデバイスへのAIモデルの展開は、ますますトレンドになっているが、難しい。 モバイルアプリケーションは計算資源の少ない環境から成り、したがってモバイルアプリケーションの正確性と複雑さのトレードオフをバランスさせるai対応ソフトウェアエンジニアリングライフサイクルにおける設計決定の制限を暗示している。 目的: 私たちの目標は,暗黙のリソース制限を持つモバイルデバイスに複雑なAIモデル(ニューラルネットワークなど)をデプロイする際の,精度と複雑性のトレードオフを体系的に評価することにあります。 カバーすることを目指す (i)高精度・低資源消費化の達成に及ぼす設計決定の影響 (II)よりグリーンなAIを体系的に推進するためのプロファイリングツールの検証。 方法: この確認登録レポートは、AI対応アプリケーションのパフォーマンスに対する設計決定の影響を定量化し、エンドツーエンドのAI対応ソフトウェアエンジニアリングライフサイクルの経験を報告するための実証的研究を行う計画である。 具体的には、画像ベースと言語ベースのニューラルネットワークの両方をモバイルアプリケーションで実装し、異なるベンチマークデータセットで複数の画像分類とテキスト分類の問題を解決する。 全体として、我々は、設計決定に関するAI対応アプリケーションの運用における精度と複雑さをモデル化し、実践者が設計決定と研究のグリーンな特性の間の量的関係を意識することを可能にするツールを提供することを計画している。

Background: The construction, evolution and usage of complex artificial intelligence (AI) models demand expensive computational resources. While currently available high-performance computing environments support well this complexity, the deployment of AI models in mobile devices, which is an increasing trend, is challenging. Mobile applications consist of environments with low computational resources and hence imply limitations in the design decisions during the AI-enabled software engineering lifecycle that balance the trade-off between the accuracy and the complexity of the mobile applications. Objective: Our objective is to systematically assess the trade-off between accuracy and complexity when deploying complex AI models (e.g. neural networks) to mobile devices, which have an implicit resource limitation. We aim to cover (i) the impact of the design decisions on the achievement of high-accuracy and low resource-consumption implementations; and (ii) the validation of profiling tools for systematically promoting greener AI. Method: This confirmatory registered report consists of a plan to conduct an empirical study to quantify the implications of the design decisions on AI-enabled applications performance and to report experiences of the end-to-end AI-enabled software engineering lifecycle. Concretely, we will implement both image-based and language-based neural networks in mobile applications to solve multiple image classification and text classification problems on different benchmark datasets. Overall, we plan to model the accuracy and complexity of AI-enabled applications in operation with respect to their design decisions and will provide tools for allowing practitioners to gain consciousness of the quantitative relationship between the design decisions and the green characteristics of study.
翻訳日:2023-06-01 03:26:21 公開日:2023-05-30
# 最適化バンドアルゴリズムの脆弱性

The Fragility of Optimized Bandit Algorithms ( http://arxiv.org/abs/2109.13595v6 )

ライセンス: Link先を確認
Lin Fan and Peter W. Glynn(参考訳) バンディットアルゴリズムの最適設計に関する多くの文献は、期待された後悔の最小化に基づいている。 ある指数関数族に対して最適である設計は、レイ・ロビンズの下界に支配される速度で、腕の遊びの数で対数的に増加する期待された後悔を達成できることはよく知られている。 本稿では、そのような最適化された設計を用いる場合、関連するアルゴリズムの後悔の分布は、必ずしも非常に重い尾、具体的には切り詰められたコーシー分布を持つ。 さらに、$p>1$では、後悔分布の$p$'thモーメントは多対数よりも、特にarmの演奏総数のパワーとして、はるかに速く成長する。 最適化された UCB バンディットの設計は, 若干の誤特定が生じた場合, 従来の理論よりはるかに早く, より脆弱であることを示す。 我々の議論は、標準的な測定の考え方に基づいており、予想よりも後悔が大きくなる可能性が最も高いのは、最初の数本の腕で、最適腕が平均以下の報酬を返すときである。 露呈した脆弱性の問題を軽減するため,UDBアルゴリズムは,誤特定に対して所望の堅牢性を確保するために変更可能であることを示す。 また, UCB探査量と, 結果として生じる後悔分布のテール指数との間には, 鋭いトレードオフも与えている。

Much of the literature on optimal design of bandit algorithms is based on minimization of expected regret. It is well known that designs that are optimal over certain exponential families can achieve expected regret that grows logarithmically in the number of arm plays, at a rate governed by the Lai-Robbins lower bound. In this paper, we show that when one uses such optimized designs, the regret distribution of the associated algorithms necessarily has a very heavy tail, specifically, that of a truncated Cauchy distribution. Furthermore, for $p>1$, the $p$'th moment of the regret distribution grows much faster than poly-logarithmically, in particular as a power of the total number of arm plays. We show that optimized UCB bandit designs are also fragile in an additional sense, namely when the problem is even slightly mis-specified, the regret can grow much faster than the conventional theory suggests. Our arguments are based on standard change-of-measure ideas, and indicate that the most likely way that regret becomes larger than expected is when the optimal arm returns below-average rewards in the first few arm plays, thereby causing the algorithm to believe that the arm is sub-optimal. To alleviate the fragility issues exposed, we show that UCB algorithms can be modified so as to ensure a desired degree of robustness to mis-specification. In doing so, we also provide a sharp trade-off between the amount of UCB exploration and the tail exponent of the resulting regret distribution.
翻訳日:2023-06-01 03:25:54 公開日:2023-05-30
# 重み付き二部ネットワークのコミュニティ検出

Community detection for weighted bipartite networks ( http://arxiv.org/abs/2109.10319v4 )

ライセンス: Link先を確認
Huan Qing and Jingli Wang(参考訳) 二部ネットワークは生物学、社会学、生理学、コンピュータ科学など様々な分野に存在する。 ネットワーク研究における二部グラフデータのコミュニティ構造を検出するツールとして,Stochastic co-Blockmodel (ScBM) を提案した。 しかし、scbmはエッジ重みを完全に無視し、重み付き二成分ネットワークのブロック構造を説明できない。 本稿では,重み付き二成分ネットワークをモデル化するために,sbbmの分布制限を解除して二成分分布フリーモデルを提案する。 また,ノード次数の変化を考慮し,提案モデルの拡張も構築する。 我々のモデルは、隣接行列の生成要素に関する特定の分布を必要としないが、期待される隣接行列上のブロック構造のみである。 ノードラベルの一貫した推定に関する理論的保証を持つスペクトルアルゴリズムは、コミュニティを特定するために提示される。 提案手法は模擬および実証的な例で示される。

The bipartite network appears in various areas, such as biology, sociology, physiology, and computer science. \cite{rohe2016co} proposed Stochastic co-Blockmodel (ScBM) as a tool for detecting community structure of binary bipartite graph data in network studies. However, ScBM completely ignores edge weight and is unable to explain the block structure of a weighted bipartite network. Here, to model a weighted bipartite network, we introduce a Bipartite Distribution-Free model by releasing ScBM's distribution restriction. We also build an extension of the proposed model by considering the variation of node degree. Our models do not require a specific distribution on generating elements of the adjacency matrix but only a block structure on the expected adjacency matrix. Spectral algorithms with theoretical guarantees on the consistent estimation of node labels are presented to identify communities. Our proposed methods are illustrated by simulated and empirical examples.
翻訳日:2023-06-01 03:25:28 公開日:2023-05-30
# どの不変性を移行すべきか? 因果的ミニマックス学習アプローチ

Which Invariance Should We Transfer? A Causal Minimax Learning Approach ( http://arxiv.org/abs/2107.01876v5 )

ライセンス: Link先を確認
Mingzhou Liu, Xiangyu Zheng, Xinwei Sun, Fang Fang, Yizhou Wang(参考訳) 現在の機械学習モデルのデプロイにおける大きな障壁は、データセットシフトへの信頼性の欠如にある。 この問題を解決するために、既存のほとんどの研究は安定した情報を目に見えない環境に転送しようとした。 特に, 個別因果機構に基づく, 可変因果機構の除去手法が提案されている。 従来の方法と比較して,安定な予測器は安定な情報を特定するのに効果的である。 しかし、重要な疑問は残る: 最適な一般化能力を達成するために、この安定な情報のどの部分集合がモデル転送をすべきなのか? そこで本研究では,因果的観点からの包括的ミニマックス解析を提案する。 具体的には、まず、安定集合全体が最適となるためのグラフィカルな条件を提供する。 この条件が失敗すると、この安定な集合全体が完全に安定な情報を活用できるが、転送する最適な集合ではないという例で驚く。 この場合の最適部分集合を同定するために,可変因果機構上の介入関数よりも新しい最適化手法を用いて,最悪のリスクを推定する。 次に,安定部分集合間の新たに定義された同値関係に基づいて,最小の最悪のリスクで部分集合を探索する効率的なアルゴリズムを提案する。 全ての部分集合を網羅的に探索する指数的コストと比較して、我々の探索戦略は多項式複雑性を享受する。 本手法の有効性と有効性は, 合成データとアルツハイマー病の診断により実証された。

A major barrier to deploying current machine learning models lies in their non-reliability to dataset shifts. To resolve this problem, most existing studies attempted to transfer stable information to unseen environments. Particularly, independent causal mechanisms-based methods proposed to remove mutable causal mechanisms via the do-operator. Compared to previous methods, the obtained stable predictors are more effective in identifying stable information. However, a key question remains: which subset of this whole stable information should the model transfer, in order to achieve optimal generalization ability? To answer this question, we present a comprehensive minimax analysis from a causal perspective. Specifically, we first provide a graphical condition for the whole stable set to be optimal. When this condition fails, we surprisingly find with an example that this whole stable set, although can fully exploit stable information, is not the optimal one to transfer. To identify the optimal subset under this case, we propose to estimate the worst-case risk with a novel optimization scheme over the intervention functions on mutable causal mechanisms. We then propose an efficient algorithm to search for the subset with minimal worst-case risk, based on a newly defined equivalence relation between stable subsets. Compared to the exponential cost of exhaustively searching over all subsets, our searching strategy enjoys a polynomial complexity. The effectiveness and efficiency of our methods are demonstrated on synthetic data and the diagnosis of Alzheimer's disease.
翻訳日:2023-06-01 03:24:51 公開日:2023-05-30
# 神経後部推定を用いたリアルタイム重力波科学

Real-time gravitational-wave science with neural posterior estimation ( http://arxiv.org/abs/2106.12594v2 )

ライセンス: Link先を確認
Maximilian Dax, Stephen R. Green, Jonathan Gair, Jakob H. Macke, Alessandra Buonanno, Bernhard Sch\"olkopf(参考訳) 深層学習による高速重力波パラメータ推定について,前例のない精度を示す。 ニューラルネットワークをベイズ分布のサロゲートとして用いて,最初のLIGO-Virgo Gravitational-Wave Transient Catalogから8つの重力波イベントを解析し,標準推論符号と非常に密に一致しているが,推定時間はO(day)から1分間に短縮された。 ネットワークはシミュレーションデータを用いて,事象近傍の検出器ノイズ特性の推定を含むトレーニングを行う。 これにより、数百万のニューラルネットワークパラメータ内の信号とノイズモデルを符号化し、イベントからイベントまでのノイズ非定常性を考慮して、トレーニング分布に整合した観測データの推論を可能にする。 私たちのアルゴリズムは、"dingo"と呼ばれ、検出された重力波イベントの物理的パラメータの高速かつ正確な推論の新しい標準を設定します。

We demonstrate unprecedented accuracy for rapid gravitational-wave parameter estimation with deep learning. Using neural networks as surrogates for Bayesian posterior distributions, we analyze eight gravitational-wave events from the first LIGO-Virgo Gravitational-Wave Transient Catalog and find very close quantitative agreement with standard inference codes, but with inference times reduced from O(day) to a minute per event. Our networks are trained using simulated data, including an estimate of the detector-noise characteristics near the event. This encodes the signal and noise models within millions of neural-network parameters, and enables inference for any observed data consistent with the training distribution, accounting for noise nonstationarity from event to event. Our algorithm -- called "DINGO" -- sets a new standard in fast-and-accurate inference of physical parameters of detected gravitational-wave events, which should enable real-time data analysis without sacrificing accuracy.
翻訳日:2023-06-01 03:24:31 公開日:2023-05-30
# 長距離相互作用系の変分量子シミュレーション

Variational quantum simulation of long-range interacting systems ( http://arxiv.org/abs/2203.14281v3 )

ライセンス: Link先を確認
Chufan Lyu, Xiaoyu Tang, Junning Li, Xusheng Xu, Man-Hong Yung and Abolfazl Bayat(参考訳) 現在の量子シミュレータは、短いコヒーレンス時間、騒がしい操作、欠陥のある読み出し、いくつかのプラットフォームでの量子ビット接続制限など、複数の制限に苦しむ。 変分量子アルゴリズムは、古典的コンピュータよりも実用的な量子優位を達成するために、短期量子シミュレーションにおいて最も有望なアプローチである。 ここでは、長距離相互作用系の基底状態のデジタルシミュレーションとスピン圧縮状態の生成のための、異なる量子ビット接続レベルを持つ変分量子アルゴリズムについて検討する。 相互作用がより長距離化するにつれて、変動アルゴリズムの効率が低下し、忠実度が低下し、より最適化の繰り返しが要求される。 特に、システムの臨界度に近い場合、効率はさらに低下する。 遠くの量子ビット間の接続を増加させることで、量子リソースや古典リソースが少なくても結果が向上する。 その結果,回路層を異なる接続レベルに混合することにより,性能を向上できることがわかった。 興味深いことに、層の順序は非常に重要になり、回路の始めの長距離接続で層をグループ化することは、他の置換よりも優れている。 同様に回路の設計は、量子力学の資源としてスピン圧縮状態のバラツキ生成にも用いられる。

Current quantum simulators suffer from multiple limitations such as short coherence time, noisy operations, faulty readout and restricted qubit connectivity in some platforms. Variational quantum algorithms are the most promising approach in near-term quantum simulation to achieve practical quantum advantage over classical computers. Here, we explore variational quantum algorithms, with different levels of qubit connectivity, for digital simulation of the ground state of long-range interacting systems as well as generation of spin squeezed states. We find that as the interaction becomes more long-ranged, the variational algorithms become less efficient, achieving lower fidelity and demanding more optimization iterations. In particular, when the system is near its criticality the efficiency is even lower. Increasing the connectivity between distant qubits improves the results, even with less quantum and classical resources. Our results show that by mixing circuit layers with different levels of connectivity one can sensibly improve the performance. Interestingly, the order of layers becomes very important and grouping the layers with long-distance connectivity at the beginning of the circuit outperforms other permutations. The same design of circuits can also be used to variationally produce spin squeezed states, as a resource for quantum metrology.
翻訳日:2023-06-01 03:18:47 公開日:2023-05-30
# 言語モデルの事前学習におけるリソース効率とオンライン最適化のためのマルチアームバンディット:動的マスキングのユースケース

Multi-armed bandits for resource efficient, online optimization of language model pre-training: the use case of dynamic masking ( http://arxiv.org/abs/2203.13151v2 )

ライセンス: Link先を確認
I\~nigo Urteaga, Moulay-Za\"idane Dra\"idia, Tomer Lancewicki and Shahram Khadivi(参考訳) トランスフォーマー型言語モデル(tlms)の資源効率の良い事前学習のためのベイズ最適化フレームワークの設計と評価を行った。 TLM事前学習には高い計算資源が必要であり、事前学習ハイパーパラメータの選択など、未解決の設計選択が数多く導入されている。 本稿では,言語モデルの性能の最適化を目的とした,TLM事前学習型ハイパーパラメータの逐次選択のためのマルチアームバンディットフレームワークを提案する。 我々は,マスク言語モデル(mlm)の事前学習目標であるサロゲートガウス過程報酬モデルを用いて,逐次最小化のためのトンプソンサンプリングアルゴリズムを設計する。 固定マスキング確率を持つMLM事前トレーニングの代わりに,提案したガウスプロセスに基づくトンプソンサンプリング(GP-TS)は,マスキングハイパーパラメータを逐次選択することで事前トレーニングを加速する。 我々は,gp-tsが言語モデルの事前学習を効率的に行うことを実証的に示す。 さらにGP-TSで事前訓練したTLMは、高価なハイパーパラメータグリッドサーチを回避しながら、下流での競争性能が向上した。 GP-TSは高速かつ最適化されたTLM事前学習のための対話型フレームワークを提供する。

We design and evaluate a Bayesian optimization framework for resource efficient pre-training of Transformer-based language models (TLMs). TLM pre-training requires high computational resources and introduces many unresolved design choices, such as selecting its pre-training hyperparameters. We propose a multi-armed bandit framework for the sequential selection of TLM pre-training hyperparameters, aimed at optimizing language model performance, in a resource efficient manner. We design a Thompson sampling algorithm, with a surrogate Gaussian process reward model of the Masked Language Model (MLM) pre-training objective, for its sequential minimization. Instead of MLM pre-training with fixed masking probabilities, the proposed Gaussian process-based Thompson sampling (GP-TS) accelerates pre-training by sequentially selecting masking hyperparameters that improve performance. We empirically demonstrate how GP-TS pre-trains language models efficiently, i.e., it achieves lower MLM loss in fewer epochs, across a variety of settings. In addition, GP-TS pre-trained TLMs attain competitive downstream performance, while avoiding expensive hyperparameter grid search. GP-TS provides an interactive framework for efficient and optimized TLM pre-training that, by circumventing costly hyperparameter selection, enables substantial computational savings.
翻訳日:2023-06-01 03:18:29 公開日:2023-05-30
# 最適輸送問題の解法のための高速化確率アルゴリズム

An Accelerated Stochastic Algorithm for Solving the Optimal Transport Problem ( http://arxiv.org/abs/2203.00813v3 )

ライセンス: Link先を確認
Yiling Xie, Yiling Luo, Xiaoming Huo(参考訳) 線形制約付き最適化問題を解くために,分散低減アルゴリズム (PDASGD) を用いた原始-双対促進確率勾配降下法を提案する。 PDASGDは離散的最適輸送(OT)問題を解くために適用でき、最もよく知られた計算複雑性 -$\widetilde{\mathcal{O}}(n^2/\epsilon)$、$n$は原子の数、$\epsilon>0$は正確である。 文献では、APDAGDのような原始双対加速一階法が提案され、OT問題を解くために$\widetilde{\mathcal{O}}(n^{2.5}/\epsilon)$が与えられた。 提案アルゴリズムが$\widetilde{\mathcal{O}}(\sqrt{n})$の係数で改善できる理由を理解するために,線形制約最適化問題の解法として,確率的アルゴリズムがより低い計算複雑性を有する条件について議論する。 その結果,OT問題は上記の条件を満たすことができた。 数値実験により,OT問題の解法として提案したPDASGDアルゴリズムの有効性が示された。

A primal-dual accelerated stochastic gradient descent with variance reduction algorithm (PDASGD) is proposed to solve linear-constrained optimization problems. PDASGD could be applied to solve the discrete optimal transport (OT) problem and enjoys the best-known computational complexity -- $\widetilde{\mathcal{O}}(n^2/\epsilon)$, where $n$ is the number of atoms, and $\epsilon>0$ is the accuracy. In the literature, some primal-dual accelerated first-order algorithms, e.g., APDAGD, have been proposed and have the order of $\widetilde{\mathcal{O}}(n^{2.5}/\epsilon)$ for solving the OT problem. To understand why our proposed algorithm could improve the rate by a factor of $\widetilde{\mathcal{O}}(\sqrt{n})$, the conditions under which our stochastic algorithm has a lower order of computational complexity for solving linear-constrained optimization problems are discussed. It is demonstrated that the OT problem could satisfy the aforementioned conditions. Numerical experiments demonstrate superior practical performances of the proposed PDASGD algorithm for solving the OT problem.
翻訳日:2023-06-01 03:18:06 公開日:2023-05-30
# リラクタント量子ウォークを用いたパラメータ推定:最大近似法

Parameter Estimation with Reluctant Quantum Walks: a Maximum Likelihood approach ( http://arxiv.org/abs/2202.11846v2 )

ライセンス: Link先を確認
Demosthenes Ellinas, Peter D. Jarvis and Matthew Pearce(参考訳) パラメトリック最大推定問題は、整数の格子上の量子ウォークの量子ウォーク理論の文脈で解決される。 コインアクションが提示され、実パラメータ$\theta$が推定され、直交リシャッフル行列の角引数と同一視される。 量子ウォーカーがk$ステップ後に最初の位置から$d$単位に置き換えられる確率分布の解析結果を提供する。 k$が大きければ、その確率は$d/k$の比率で決定される変位で鋭くピークとなるが、これは再シャッフルパラメータ$\theta$と相関する。 我々は,この「リラクタンス・ウォーカー」の挙動が最大確率推定解析の枠組みを提供し,閉ループの帰納確率と「リラクタンス・インデックス」$r=d/k$による量子ウォーカーの位置の量子測定を通じて,ロバストなパラメータ推定を可能にすることを提案する。

The parametric maximum likelihood estimation problem is addressed in the context of quantum walk theory for quantum walks on the lattice of integers. A coin action is presented, with the real parameter $\theta$ to be estimated identified with the angular argument of an orthogonal reshuffling matrix. We provide analytic results for the probability distribution for a quantum walker to be displaced by $d$ units from its initial position after $k$ steps. For $k$ large, we show that the likelihood is sharply peaked at a displacement determined by the ratio $d/k$, which is correlated with the reshuffling parameter $\theta$. We suggest that this `reluctant walker' behaviour provides the framework for maximum likelihood estimation analysis, allowing for robust parameter estimation of $\theta$ via return probabilities of closed evolution loops and quantum measurements of the position of quantum walker with`reluctance index' $r=d/k$.
翻訳日:2023-06-01 03:17:35 公開日:2023-05-30
# 低レベル収縮による2レベル最適化:ウォームスタートのない最適サンプル複雑性

Bilevel Optimization with a Lower-level Contraction: Optimal Sample Complexity without Warm-Start ( http://arxiv.org/abs/2202.03397v3 )

ライセンス: Link先を確認
Riccardo Grazzi, Massimiliano Pontil, Saverio Salzo(参考訳) 両レベル問題の一般的なクラスを解析し、上層問題は滑らかな対象関数の最小化であり、下層問題は滑らかな縮約写像の固定点を見つけることである。 この種の問題には、メタラーニング、平衡モデル、ハイパーパラメータ最適化、データ中毒攻撃などがある。 低レベル問題を暖かく開始するアルゴリズム、すなわち、以前の低レベル近似解を低レベル解の凝視点として使用するアルゴリズムが提案されている。 このウォームスタート手順により、確率的および決定論的設定の両方においてサンプル複雑性を改善でき、場合によってはオーダーワイズ最適サンプル複雑性を達成することができる。 しかし、例えばメタラーニングや平衡モデルのような状況があり、ウォームスタート手順が適さないか非効率である。 この研究で、ウォームスタートなしでは、オーダーワイズ(ほぼ)の最適なサンプル複雑性を達成できることが示される。 特に,下層での(確率的な)不動点反復と上層での射影不動勾配勾配を用いた簡単な手法を提案する。これは,確率的および決定論的設定に対してそれぞれ$O(\epsilon^{-2})$および$\tilde{O}(\epsilon^{-1})$サンプルを用いて,$\epsilon$-定常点に達する。 最後に,ウォームスタートを用いた手法と比較して,上層レベルと下層レベルのイテレートの結合相互作用を研究する必要のない,より単純な分析手法を提案する。

We analyse a general class of bilevel problems, in which the upper-level problem consists in the minimization of a smooth objective function and the lower-level problem is to find the fixed point of a smooth contraction map. This type of problems include instances of meta-learning, equilibrium models, hyperparameter optimization and data poisoning adversarial attacks. Several recent works have proposed algorithms which warm-start the lower-level problem, i.e. they use the previous lower-level approximate solution as a staring point for the lower-level solver. This warm-start procedure allows one to improve the sample complexity in both the stochastic and deterministic settings, achieving in some cases the order-wise optimal sample complexity. However, there are situations, e.g., meta learning and equilibrium models, in which the warm-start procedure is not well-suited or ineffective. In this work we show that without warm-start, it is still possible to achieve order-wise (near) optimal sample complexity. In particular, we propose a simple method which uses (stochastic) fixed point iterations at the lower-level and projected inexact gradient descent at the upper-level, that reaches an $\epsilon$-stationary point using $O(\epsilon^{-2})$ and $\tilde{O}(\epsilon^{-1})$ samples for the stochastic and the deterministic setting, respectively. Finally, compared to methods using warm-start, our approach yields a simpler analysis that does not need to study the coupled interactions between the upper-level and lower-level iterates.
翻訳日:2023-06-01 03:17:06 公開日:2023-05-30
# 集団コミュニケーションのための効率的な直接接続トポロジー

Efficient Direct-Connect Topologies for Collective Communications ( http://arxiv.org/abs/2202.03356v2 )

ライセンス: Link先を確認
Liangyu Zhao and Siddharth Pal and Tapan Chugh and Weiyang Wang and Prithwish Basu and Joud Khoury and Arvind Krishnamurthy(参考訳) 集団コミュニケーションのための効率的なネットワークトポロジーを蒸留する問題を考える。 集団通信作業負荷に対してノードレイテンシと帯域幅のトレードオフに最適化された直接接続トポロジを構築するためのアルゴリズムフレームワークを提供する。 我々のアルゴリズムフレームワークは、小さなベーストポロジと関連する通信スケジュールから始めて、より大規模なトポロジを導出するために反復的に適用可能な一連のテクニックを使用することができます。 これらの派生トポロジのスケジュールは拡張とともに合成されるか、最適化定式化を用いて計算される。 このアプローチにより、与えられたクラスタサイズと度合いの様々なトポロジとスケジュールを合成し、与えられたワークロードの適切なトポロジとスケジュールを特定することができます。 我々は,望まれるトポロジの設定にパッチパネルを用いた12ノード光テストベッドのアプローチを評価し,大規模展開のための解析モデルに基づく評価を行った。 導出されたトポロジとスケジュールは、既存のアプローチよりも大きなパフォーマンス上の利点を提供する。

We consider the problem of distilling efficient network topologies for collective communications. We provide an algorithmic framework for constructing direct-connect topologies optimized for the node latency vs bandwidth trade-off given a collective communication workload. Our algorithmic framework allows us to start from small base topologies and associated communication schedules and use a set of techniques that can be iteratively applied to derive much larger topologies. The schedules for these derived topologies are either synthesized along with the expansions or computed using an optimization formulation. Our approach allows us to synthesize many different topologies and schedules for a given cluster size and degree, and then identify the appropriate topology and schedule for a given workload. We evaluate our approach on a 12-node optical testbed that uses patch panels for configuring the desired topology and augment it with an analytical-model-based evaluation for larger deployments. We show that the derived topologies and schedules provide significant performance benefits over existing approaches.
翻訳日:2023-06-01 03:16:35 公開日:2023-05-30
# セマンティクスセグメンテーションのためのピラミッド融合トランスフォーマ

Pyramid Fusion Transformer for Semantic Segmentation ( http://arxiv.org/abs/2201.04019v4 )

ライセンス: Link先を確認
Zipeng Qin, Jianbo Liu, Xiaolin Zhang, Maoqing Tian, Aojun Zhou, Shuai Yi, Hongsheng Li(参考訳) 最近提案されたmaskformerは、セマンティックセグメンテーションのタスクに関する新しい視点を提供している。 本質的には、カテゴリセグメントに対応するペア確率とマスクを生成し、セグメンテーションマップの推論中にそれらを組み合わせます。 本研究では,シングルスケール機能上のマスク分類デコーダは,信頼性の高い確率やマスクを抽出できるほど有効ではないことを見出した。 特徴ピラミッド全体にわたって豊富な意味情報を求めるため,マルチスケール特徴を持つマスク・アプローチ・セマンティクスセグメンテーションのためのトランスフォーマーベースのピラミッド融合トランスフォーマ (pft) を提案する。 提案するトランスフォーマーデコーダは,学習可能なクエリと特徴ピラミッドからのそれぞれの空間特徴との相互接続を並列に行い,補足情報交換にクロススケールクエリ間注意を使用する。 広く使われている3つのセマンティックセグメンテーションデータセット上での競合性能を実現する。 特にADE20Kの検証セットでは、Swin-Bのバックボーンはシングルスケールとマルチスケールの両方でMaskFormerのバックボーンよりも大きく、それぞれ54.1 mIoUと55.7 mIoUを達成した。 Swin-Lのバックボーンを使用して、単一スケールの56.1 mIoUとマルチスケールの57.4 mIoUを達成し、データセット上で最先端のパフォーマンスを得る。 3つの広く使われているセマンティックセグメンテーションデータセットの大規模な実験により,提案手法の有効性が検証された。

The recently proposed MaskFormer gives a refreshed perspective on the task of semantic segmentation: it shifts from the popular pixel-level classification paradigm to a mask-level classification method. In essence, it generates paired probabilities and masks corresponding to category segments and combines them during inference for the segmentation maps. In our study, we find that per-mask classification decoder on top of a single-scale feature is not effective enough to extract reliable probability or mask. To mine for rich semantic information across the feature pyramid, we propose a transformer-based Pyramid Fusion Transformer (PFT) for per-mask approach semantic segmentation with multi-scale features. The proposed transformer decoder performs cross-attention between the learnable queries and each spatial feature from the feature pyramid in parallel and uses cross-scale inter-query attention to exchange complimentary information. We achieve competitive performance on three widely used semantic segmentation datasets. In particular, on ADE20K validation set, our result with Swin-B backbone surpasses that of MaskFormer's with a much larger Swin-L backbone in both single-scale and multi-scale inference, achieving 54.1 mIoU and 55.7 mIoU respectively. Using a Swin-L backbone, we achieve single-scale 56.1 mIoU and multi-scale 57.4 mIoU, obtaining state-of-the-art performance on the dataset. Extensive experiments on three widely used semantic segmentation datasets verify the effectiveness of our proposed method.
翻訳日:2023-06-01 03:16:18 公開日:2023-05-30
# ヘッド・トゥ・タイル・クロススケール核融合によるデフォーカス分解顕微鏡

Defocus Deblur Microscopy via Head-to-Tail Cross-scale Fusion ( http://arxiv.org/abs/2201.02876v2 )

ライセンス: Link先を確認
Jiahe Wang, Boran Han(参考訳) 顕微鏡イメージングは生物学の研究と診断に不可欠である。 細胞または分子レベルでイメージングする場合、軸方向の機械的ドリフトを補正することは困難である。 マルチスケールネットワークはデブロアリングのために開発されたが、これらのカスケード残差学習アプローチはデコンボリューションの終端から終端までの非線形性を正確に捉えることができない。 本モデルでは, カスケード残留傾きのないマルチスケールU-Net構造を採用する。 さらに, 従来の粗大化モデルとは対照的に, このモデルでは, 粗大化サブネットワークから細小化サブネットワークへ, 粗大化デコーダと細小化サブネットワークのエンコーダを融合させて, クロススケール相互作用を強化する。 このような相互作用は、デコーダとエンコーダをあらゆる規模で融合することで、機能学習を改善することに寄与する。 本手法は既存のモデルと比較して性能が向上することを示す実験を多数実施している。

Microscopy imaging is vital in biology research and diagnosis. When imaging at the scale of cell or molecule level, mechanical drift on the axial axis can be difficult to correct. Although multi-scale networks have been developed for deblurring, those cascade residual learning approaches fail to accurately capture the end-to-end non-linearity of deconvolution, a relation between in-focus images and their out-of-focus counterparts in microscopy. In our model, we adopt a structure of multi-scale U-Net without cascade residual leaning. Additionally, in contrast to the conventional coarse-to-fine model, our model strengthens the cross-scale interaction by fusing the features from the coarser sub-networks with the finer ones in a head-to-tail manner: the decoder from the coarser scale is fused with the encoder of the finer ones. Such interaction contributes to better feature learning as fusion happens across decoder and encoder at all scales. Numerous experiments demonstrate that our method yields better performance when compared with other existing models.
翻訳日:2023-06-01 03:15:49 公開日:2023-05-30
# C2-CRS:会話レコメンダシステムのための粗大なコントラスト学習

C2-CRS: Coarse-to-Fine Contrastive Learning for Conversational Recommender System ( http://arxiv.org/abs/2201.02732v3 )

ライセンス: Link先を確認
Yuanhang Zhou, Kun Zhou, Wayne Xin Zhao, Cheng Wang, Peng Jiang, He Hu(参考訳) 会話レコメンデータシステム(CRS)は,自然言語会話を通じて適切な項目をユーザに推薦することを目的としている。 効果的なCRSを開発するためには、非常に限られた会話コンテキストからユーザの好みを正確に推測する方法が重要な技術的問題である。 問題に対処するには、コンテキスト情報を豊かにするために外部データを組み込むことが有望である。 しかし、以前の研究は主に特定の種類の外部データ用に調整された核融合モデルの設計に重点を置いている。 マルチタイプの外部データを効果的に活用するために,CRSのデータセマンティックフュージョンを改善するための,より粗いコントラスト学習フレームワークを提案する。 提案手法では,まず異なるデータ信号から多粒度意味単位を抽出し,次に,関連した多形意味単位を粗い方法で整列させる。 このフレームワークを実装するために、ユーザ嗜好をモデル化するための粗粒度と細粒度の両方の手順を設計し、前者はより汎用的で粗粒度の高いセマンティックフュージョンに、後者はより具体的で細粒度なセマンティックフュージョンに焦点をあてる。 このようなアプローチは、より多くの種類の外部データを組み込むように拡張できる。 2つの公開CRSデータセットに対する大規模な実験により,提案手法の有効性が示唆された。

Conversational recommender systems (CRS) aim to recommend suitable items to users through natural language conversations. For developing effective CRSs, a major technical issue is how to accurately infer user preference from very limited conversation context. To address issue, a promising solution is to incorporate external data for enriching the context information. However, prior studies mainly focus on designing fusion models tailored for some specific type of external data, which is not general to model and utilize multi-type external data. To effectively leverage multi-type external data, we propose a novel coarse-to-fine contrastive learning framework to improve data semantic fusion for CRS. In our approach, we first extract and represent multi-grained semantic units from different data signals, and then align the associated multi-type semantic units in a coarse-to-fine way. To implement this framework, we design both coarse-grained and fine-grained procedures for modeling user preference, where the former focuses on more general, coarse-grained semantic fusion and the latter focuses on more specific, fine-grained semantic fusion. Such an approach can be extended to incorporate more kinds of external data. Extensive experiments on two public CRS datasets have demonstrated the effectiveness of our approach in both recommendation and conversation tasks.
翻訳日:2023-06-01 03:15:25 公開日:2023-05-30
# 混合メンバーシップ分布自由モデル

Mixed Membership Distribution-Free Model ( http://arxiv.org/abs/2112.04389v4 )

ライセンス: Link先を確認
Huan Qing and Jingli Wang(参考訳) 重なり合う重み付きネットワークにおいて、ノードが複数のコミュニティに属し、エッジ重みが有限実数となるようなコミュニティ検出の問題を考える。 このような複雑なネットワークをモデル化するために,MMDF(Mixed Membery Distribution-free)モデルを提案する。 MMDFはエッジ重みの分布制約を持たず、よく知られた混合会員確率ブロックモデルを含むいくつかの過去のモデルの一般化と見なすことができる。 特に,我々のモデルから,コミュニティ構造が遅れた符号付きネットワークも生成できる。 本モデルでは,収束率を理論的に保証した効率的なスペクトルアルゴリズムを用いてコミュニティメンバーシップを推定する。 また,エッジ重み付けと負の重み付けを用いた重み付けネットワークにおけるコミュニティ検出の質を評価するため,ファジィ重み付けモジュラリティを提案する。 次に, ファジィ重み付きモジュラリティを活用し, 重み付きネットワークのコミュニティ数を決定する手法を提案する。 混合メンバシップ分布自由モデルとファジィ重み付きモジュラリティの有用性を示すため,数値シミュレーションと実データ応用を行った。

We consider the problem of community detection in overlapping weighted networks, where nodes can belong to multiple communities and edge weights can be finite real numbers. To model such complex networks, we propose a general framework - the mixed membership distribution-free (MMDF) model. MMDF has no distribution constraints of edge weights and can be viewed as generalizations of some previous models, including the well-known mixed membership stochastic blockmodels. Especially, overlapping signed networks with latent community structures can also be generated from our model. We use an efficient spectral algorithm with a theoretical guarantee of convergence rate to estimate community memberships under the model. We also propose fuzzy weighted modularity to evaluate the quality of community detection for overlapping weighted networks with positive and negative edge weights. We then provide a method to determine the number of communities for weighted networks by taking advantage of our fuzzy weighted modularity. Numerical simulations and real data applications are carried out to demonstrate the usefulness of our mixed membership distribution-free model and our fuzzy weighted modularity.
翻訳日:2023-06-01 03:15:01 公開日:2023-05-30
# 離散拡散のオンラインフィルタリングのための計算Doobのh-transforms

Computational Doob's h-transforms for Online Filtering of Discretely Observed Diffusions ( http://arxiv.org/abs/2206.03369v2 )

ライセンス: Link先を確認
Nicolas Chopin, Andras Fulop, Jeremy Heng, Alexandre H. Thiery(参考訳) 本稿では,離散的に観察された非線形拡散過程のオンラインフィルタリングについて述べる。 私たちのアプローチは、doobの$h$-transformsを含む完全に適応した補助粒子フィルタをベースにしています。 非線形ファインマン・カック公式とニューラルネットワークを用いて、下位コルモゴロフ方程式を解いて、これらの$h$変換を近似する計算フレームワークを提案する。 この手法により、データ同化手順の前に局所最適粒子フィルタを訓練することができる。 数値実験により, 提案手法は, モデル下での観測が極端である場合や, 状態次元が大きい場合において, 最先端の粒子フィルタよりも桁違いに効率的であることが示されている。

This paper is concerned with online filtering of discretely observed nonlinear diffusion processes. Our approach is based on the fully adapted auxiliary particle filter, which involves Doob's $h$-transforms that are typically intractable. We propose a computational framework to approximate these $h$-transforms by solving the underlying backward Kolmogorov equations using nonlinear Feynman-Kac formulas and neural networks. The methodology allows one to train a locally optimal particle filter prior to the data-assimilation procedure. Numerical experiments illustrate that the proposed approach can be orders of magnitude more efficient than state-of-the-art particle filters in the regime of highly informative observations, when the observations are extreme under the model, or if the state dimension is large.
翻訳日:2023-06-01 03:07:01 公開日:2023-05-30
# カーネルとの対比学習における事前知識の統合

Integrating Prior Knowledge in Contrastive Learning with Kernel ( http://arxiv.org/abs/2206.01646v2 )

ライセンス: Link先を確認
Benoit Dufumier, Carlo Alberto Barbano, Robin Louiset, Edouard Duchesnay, Pietro Gori(参考訳) データ強化は教師なしコントラスト学習(CL)において重要な要素である。 正のサンプルをどのように定義し、最終的に学習した表現の品質を決定する。 この研究は、前向きなモデル(前向きな表現と見なされる)や、正と負のサンプリングにおける弱い属性によって与えられる事前知識を統合することによって、CLの新しい視点への扉を開く。 この目的のために、カーネル理論を用いて、分離均一性(decoupled uniformity)と呼ばれる新しい損失を提案する。 一 事前知識の統合及び統合を許すこと。 ii) 元の情報損失における負の正の結合を取り除く。 コントラスト学習と条件付き平均埋め込み理論を関連づけて、下流の分類損失に厳密な境界を導出する。 教師なし環境では、CLが自然画像と医用画像の両方で表現を改善するために生成モデルの利点を実証的に示す。 弱い監督のシナリオでは、我々のフレームワークは他の無条件および条件clアプローチよりも優れています。

Data augmentation is a crucial component in unsupervised contrastive learning (CL). It determines how positive samples are defined and, ultimately, the quality of the learned representation. In this work, we open the door to new perspectives for CL by integrating prior knowledge, given either by generative models -- viewed as prior representations -- or weak attributes in the positive and negative sampling. To this end, we use kernel theory to propose a novel loss, called decoupled uniformity, that i) allows the integration of prior knowledge and ii) removes the negative-positive coupling in the original InfoNCE loss. We draw a connection between contrastive learning and conditional mean embedding theory to derive tight bounds on the downstream classification loss. In an unsupervised setting, we empirically demonstrate that CL benefits from generative models to improve its representation both on natural and medical images. In a weakly supervised scenario, our framework outperforms other unconditional and conditional CL approaches.
翻訳日:2023-06-01 03:06:22 公開日:2023-05-30
# 局所的不変性を考慮した学習事例別拡張

Learning Instance-Specific Augmentations by Capturing Local Invariances ( http://arxiv.org/abs/2206.00051v3 )

ライセンス: Link先を確認
Ning Miao, Tom Rainforth, Emile Mathieu, Yann Dubois, Yee Whye Teh, Adam Foster, Hyunjik Kim(参考訳) データから入力固有の拡張を自動的に学習するInstaAugを紹介する。 拡張学習のこれまでの方法は、通常、元の入力とその入力に適用される変換の間に独立性を仮定していた。 これは非常に制限的であり、拡張がキャプチャされることを願う不変性は、それ自体が高い入力依存である。 InstaAugは代わりに、入力から調整された変換パラメータにマップ可能な不変モジュールを導入し、ローカルな不変性をキャプチャする。 これは、下流モデルと一緒に完全にエンドツーエンドで同時にトレーニングしたり、事前訓練されたモデルで個別に学習したりできる。 InstaAugは、幅広い変換クラスに対して有意義な入力依存の強化を学習し、教師付きタスクと自己管理タスクの両方でより良いパフォーマンスを提供することを実証的に示す。

We introduce InstaAug, a method for automatically learning input-specific augmentations from data. Previous methods for learning augmentations have typically assumed independence between the original input and the transformation applied to that input. This can be highly restrictive, as the invariances we hope our augmentation will capture are themselves often highly input dependent. InstaAug instead introduces a learnable invariance module that maps from inputs to tailored transformation parameters, allowing local invariances to be captured. This can be simultaneously trained alongside the downstream model in a fully end-to-end manner, or separately learned for a pre-trained model. We empirically demonstrate that InstaAug learns meaningful input-dependent augmentations for a wide range of transformation classes, which in turn provides better performance on both supervised and self-supervised tasks.
翻訳日:2023-06-01 03:06:08 公開日:2023-05-30
# メトロポリタン自由空間量子ネットワークに向けて

Towards metropolitan free-space quantum networks ( http://arxiv.org/abs/2205.12862v2 )

ライセンス: Link先を確認
Andrej Kr\v{z}i\v{c}, Sakshi Sharma, Christopher Spiess, Uday Chandrashekara, Sebastian T\"opfer, Gregor Sauer, Luis Javier Gonz\'alez-Mart\'in del Campo, Teresa Kopf, Stefan Petscharnig, Thomas Grafenauer, Roland Lieger, Bernhard \"Omer, Christoph Pacher, Ren\'e Berlich, Thomas Peschel, Christoph Damm, Stefan Risse, Matthias Goy, Daniel Riel\"ander, Andreas T\"unnermann, Fabian Steinlechner(参考訳) 量子通信はこの発展を先導する量子鍵分布(QKD)によって、実用的な大規模ネットワークへと急速に進展した。 繊維系システムは大都市圏に適していることが示されているが、適切な繊維基盤が常に存在するとは限らない。 ここでは、大都市圏における実用的かつ効率的な代替手段として、絡み合いに基づく自由空間量子ネットワークを提案する。 デプロイ可能なフリースペースqkdシステムを開発し,現実的なシナリオでの利用を実証した。 代表的1.7km自由空間リンクでは、アドホック展開性を示し、5.7kbps、真昼直射2.5kbpsの安全な鍵レートを達成する。 実験データからkbpsキーレートを推定することで,10kmの距離やマルチユーザシナリオにおいても実現可能であることを示す。 我々は,今後のグローバルな量子インターネットにおいて,大都市圏の応用と,必要不可欠な補完的なビルディングブロックとして,自由な宇宙ネットワークを確立することを期待する。

Quantum communication has seen rapid progress towards practical large-scale networks, with quantum key distribution (QKD) spearheading this development. While fibre based systems have been shown to be well suited for metropolitan scales, suitable fibre infrastructure may not always be in place. Here, we make the case for an entanglement-based free-space quantum network as a practical and efficient alternative for metropolitan applications. We developed a deployable free space QKD system and demonstrated its use in realistic scenarios. For a representative 1.7-km free-space link, we showcase its ad hoc deployability and achieve secure key rates of up to 5.7 kbps, with 2.5 kbps in direct noon sunlight. By extrapolating experimental data, we show that kbps key rates are achievable even for 10-km distances and multi-user scenarios. We anticipate that our work will establish free space networks as a viable solution for metropolitan applications and an indispensable complementary building block in the future global quantum internet.
翻訳日:2023-06-01 03:05:53 公開日:2023-05-30
# 型制御による多種多様なテーブル・ツー・テキスト生成

Diversity Enhanced Table-to-Text Generation via Type Control ( http://arxiv.org/abs/2205.10938v2 )

ライセンス: Link先を確認
Yotam Perlitz, Liat Ein-Dor, Dafna Sheinwald, Noam Slonim, Michal Shmueli-Scheuer(参考訳) 表データ(例えば論理nlg)から論理推論を伝えるために自然言語文を生成することは、1つの入力と様々な有効な出力を持つプロセスである。 この特徴は、入力データの異なる視点を示す、様々な有効な出力のセットを生成するメソッドの必要性を強調する。 本稿では,型制御テーブル・ツー・テキスト生成モデルを用いて,文の固有性,その論理型に基づく簡易かつ効果的な多様性向上手法を提案する。 2つの公開論理nlgデータセットに対する広範囲な自動評価と人的評価を通じて,提案手法は共に,生成した文型を効果的に制御し,品質と事実の多様性のトレードオフにおいて,最も強いベースラインよりも優れた結果が得られることを実証する。

Generating natural language statements to convey logical inferences from tabular data (i.e., Logical NLG) is a process with one input and a variety of valid outputs. This characteristic underscores the need for a method to produce a diverse set of valid outputs, presenting different perspectives of the input data. We propose a simple yet effective diversity-enhancing scheme that builds upon an inherent property of the statements, their logic-types, by using a type-controlled table-to-text generation model. We demonstrate, through extensive automatic and human evaluations over the two publicly available Logical NLG datasets, that our proposed method both facilitates the ability to effectively control the generated statement type, and produces results superior to the strongest baselines in terms of quality and factuality-diversity trade-off.
翻訳日:2023-06-01 03:05:35 公開日:2023-05-30
# 量子光学分野におけるエンタングルメントインジケータの改良

Improved entanglement indicators for quantum optical fields ( http://arxiv.org/abs/2205.05641v2 )

ライセンス: Link先を確認
Bianka Woloncewicz, Tamoghna Das, Marek \.Zukowski(参考訳) 4モードの光学場、すなわち2モードの直交偏光を持つ2つのビームに対する分離性条件のより良いバージョンが与えられる。 我々の条件はばらつきを伴い、それらの使用は物理的に直感的である。 すなわち、与えられた量子状態において、平均値の周りのデータの拡散が分離可能な状態の集合に対して予測される最小の拡散よりも小さい場合、与えられた状態は絡み合う。 我々の条件は標準量子ストークス可観測および正規化ストークス可観測に対して定式化される。 我々は、光子の付加または減光によって得られる(かつ無)非ガウス性により、明るい圧縮真空に対して試験を行った。 本稿では,このような状態を生成するための実践的な実験手法を提案し,その条件を他の絡み合い指標と比較する。

Better versions of separability conditions for four mode optical fields, i.e. two beams with two modes of mutually orthogonal polarisation are given. Our conditions involve variances and their use is physically intuitive. Namely, if for a given quantum state the spread of the data around its mean value is smaller than the minimal spread predicted for the set of separable states, then the given state is entangled. Our conditions are formulated for standard quantum Stokes observables and normalized Stokes observables. We test them for bright squeezed vacuum with (and without) induced non-gaussianity obtained by addition or subtraction of photons. We propose a practical experimental scheme of how to generate such states and compare our entanglement conditions with other entanglement indicators.
翻訳日:2023-06-01 03:05:19 公開日:2023-05-30
# BrainIB:グラフ情報付き脳ネットワークを用いた精神科診断

BrainIB: Interpretable Brain Network-based Psychiatric Diagnosis with Graph Information Bottleneck ( http://arxiv.org/abs/2205.03612v2 )

ライセンス: Link先を確認
Kaizhong Zheng, Shujian Yu, Baojuan Li, Robert Jenssen, and Badong Chen(参考訳) 精神疾患の主観的症状ではなく、基礎となる生物学的メカニズムに基づく新しい診断モデルの開発は、新たなコンセンサスである。 近年,脳マーカーを識別するために,機能的接続(fc)を用いた精神疾患と健康管理のための機械学習に基づく分類器が開発されている。 しかし、既存の機械学習ベースの診断モデルは(トレーニングサンプルが不十分なため)過度に適合する傾向があり、新しいテスト環境では不十分である。 さらに、基礎となる診断決定を解明する説明可能で信頼性の高い脳バイオマーカーを得ることが困難である。 これらの問題は臨床応用を妨げている。 本研究では,高名なInformation Bottleneck(IB)の原理を利用して,機能的磁気共鳴画像(fMRI)を解析するための新しいグラフニューラルネットワーク(GNN)フレームワークであるBrainIBを提案する。 BrainIBは、脳内の最も情報に富むエッジ(つまり、部分グラフ)を識別し、見えないデータにうまく一般化することができる。 我々は,2つのマルチサイト大規模データセットにおいて,BrainIBを8つの一般的な脳ネットワーク分類法と比較し,BrainIBが常に最も高い診断精度を達成することを観察した。 また、臨床および神経画像所見と一致したサブグラフバイオマーカーも発見する。

Developing a new diagnostic models based on the underlying biological mechanisms rather than subjective symptoms for psychiatric disorders is an emerging consensus. Recently, machine learning-based classifiers using functional connectivity (FC) for psychiatric disorders and healthy controls are developed to identify brain markers. However, existing machine learningbased diagnostic models are prone to over-fitting (due to insufficient training samples) and perform poorly in new test environment. Furthermore, it is difficult to obtain explainable and reliable brain biomarkers elucidating the underlying diagnostic decisions. These issues hinder their possible clinical applications. In this work, we propose BrainIB, a new graph neural network (GNN) framework to analyze functional magnetic resonance images (fMRI), by leveraging the famed Information Bottleneck (IB) principle. BrainIB is able to identify the most informative edges in the brain (i.e., subgraph) and generalizes well to unseen data. We evaluate the performance of BrainIB against 8 popular brain network classification methods on two multi-site, largescale datasets and observe that our BrainIB always achieves the highest diagnosis accuracy. It also discovers the subgraph biomarkers which are consistent to clinical and neuroimaging findings.
翻訳日:2023-06-01 03:05:07 公開日:2023-05-30
# MHSCNet:ビデオ要約のためのマルチモーダル階層型ショットアウェア畳み込みネットワーク

MHSCNet: A Multimodal Hierarchical Shot-aware Convolutional Network for Video Summarization ( http://arxiv.org/abs/2204.08352v3 )

ライセンス: Link先を確認
Wujiang Xu, Runzhong Wang, Xiaobo Guo, Shaoshuai Li, Qiongxu Ma, Yunan Zhao, Sheng Guo, Zhenfeng Zhu, Junchi Yan(参考訳) ビデオ要約は、コンテンツ全体の最も有益な部分を効果的に捉え結合することにより、簡潔なビデオ要約を作成することを目的としている。 既存のビデオ要約手法では、このタスクをフレームワイドキーフレーム選択問題とみなし、長い範囲の時間依存性と非モーダル情報やバイモーダル情報を組み合わせたフレームワイズ表現が一般的である。 しかし、最適なビデオ要約は、最も価値のあるキーフレームを自身の情報と、コンテンツ全体のセマンティックなパワーで反映する必要がある。 したがって、より強力で堅牢なフレームワイド表現を構築し、フレームレベルの重要度を公平かつ包括的に予測することが重要である。 上記の課題に対処するため,MHSCNetと呼ばれるマルチモーダル階層型ショット・アウェア・畳み込みネットワークを提案する。 具体的には,ショートレンジとロングレンジの時間依存性を考慮して,適応的なフレームレベル表現を組み込む階層型ShotConvネットワークを設計する。 学習されたショットアウェア表現に基づいて、mhscnetはビデオのローカルおよびグローバルビューにおけるフレームレベルの重要度スコアを予測できる。 2つの標準ビデオ要約データセットに関する広範囲な実験により,提案手法が最先端のベースラインを一貫して上回ることを示した。 ソースコードは公開される予定だ。

Video summarization intends to produce a concise video summary by effectively capturing and combining the most informative parts of the whole content. Existing approaches for video summarization regard the task as a frame-wise keyframe selection problem and generally construct the frame-wise representation by combining the long-range temporal dependency with the unimodal or bimodal information. However, the optimal video summaries need to reflect the most valuable keyframe with its own information, and one with semantic power of the whole content. Thus, it is critical to construct a more powerful and robust frame-wise representation and predict the frame-level importance score in a fair and comprehensive manner. To tackle the above issues, we propose a multimodal hierarchical shot-aware convolutional network, denoted as MHSCNet, to enhance the frame-wise representation via combining the comprehensive available multimodal information. Specifically, we design a hierarchical ShotConv network to incorporate the adaptive shot-aware frame-level representation by considering the short-range and long-range temporal dependency. Based on the learned shot-aware representations, MHSCNet can predict the frame-level importance score in the local and global view of the video. Extensive experiments on two standard video summarization datasets demonstrate that our proposed method consistently outperforms state-of-the-art baselines. Source code will be made publicly available.
翻訳日:2023-06-01 03:04:24 公開日:2023-05-30
# MobileNeRF: モバイルアーキテクチャによる効率的なニューラルネットワークレンダリングのためのポリゴンラスタライゼーションパイプラインの爆発

MobileNeRF: Exploiting the Polygon Rasterization Pipeline for Efficient Neural Field Rendering on Mobile Architectures ( http://arxiv.org/abs/2208.00277v5 )

ライセンス: Link先を確認
Zhiqin Chen, Thomas Funkhouser, Peter Hedman, Andrea Tagliasacchi(参考訳) ニューラル・ラジアンス・フィールド(NeRF)は、新しい視点から3Dシーンの画像を合成する素晴らしい能力を実証した。 しかし、それらは広くデプロイされたグラフィックスハードウェアの能力と一致しないレイマーチングに基づく特殊なボリュームレンダリングアルゴリズムに依存している。 本稿では,標準的なレンダリングパイプラインを用いて,新しい画像を効率的に合成できるテクスチャ多角形に基づく新しいnerf表現を提案する。 NeRFは、二項不透明度と特徴ベクトルを表すテクスチャを持つポリゴンの集合として表現される。 従来のzバッファによる多角形のレンダリングでは、各ピクセルに特徴のある画像が得られるが、これはフラグメントシェーダで実行される小さなビュー依存のmlpによって解釈され、最終的なピクセル色を生成する。 このアプローチにより、NeRFを従来のポリゴンラスタ化パイプラインでレンダリングすることが可能になり、携帯電話を含む幅広い計算プラットフォーム上で対話的なフレームレートを実現することができる。

Neural Radiance Fields (NeRFs) have demonstrated amazing ability to synthesize images of 3D scenes from novel views. However, they rely upon specialized volumetric rendering algorithms based on ray marching that are mismatched to the capabilities of widely deployed graphics hardware. This paper introduces a new NeRF representation based on textured polygons that can synthesize novel images efficiently with standard rendering pipelines. The NeRF is represented as a set of polygons with textures representing binary opacities and feature vectors. Traditional rendering of the polygons with a z-buffer yields an image with features at every pixel, which are interpreted by a small, view-dependent MLP running in a fragment shader to produce a final pixel color. This approach enables NeRFs to be rendered with the traditional polygon rasterization pipeline, which provides massive pixel-level parallelism, achieving interactive frame rates on a wide range of compute platforms, including mobile phones.
翻訳日:2023-06-01 02:58:29 公開日:2023-05-30
# LDAトピックモデリングを用いた自動テキスト要約のためのデータ駆動潜在意味解析

A Data-driven Latent Semantic Analysis for Automatic Text Summarization using LDA Topic Modelling ( http://arxiv.org/abs/2207.14687v7 )

ライセンス: Link先を確認
Daniel F. O. Onah, Elaine L. L. Pang, Mahmoud El-Haj(参考訳) 現代におけるビッグデータマイニングと巨大なテキスト分析の出現と普及により、文書から重要な情報を抽出・検索する自動化されたテキスト要約が顕著になった。 本研究では,単一文書と複数文書の観点から自動要約の側面について検討する。 要約は、巨大なテキスト記事を短く要約したバージョンにまとめる作業である。 テキストは要約目的のためにサイズを縮小するが、重要な重要情報を保存し、原文書の意味を保持する。 本研究は,遺伝子および疾患に関連する話題を要約した医学雑誌記事からトピックモデリングを行うために,潜在ディリクレ割当(LDA)アプローチを提案する。 本研究では,pyldavis webベースのインタラクティブ・ビジュアライゼーション・ツールを用いてトピックの可視化を行った。 可視化は主要なトピックを概観し、個々のトピックに対する深い意味を許容し、帰結させる。 本研究では,単一の文書と複数の文書を要約する新しい手法を提案する。 その結果, 抽出要約手法を用いて, 文書中の話題の出現確率を考慮し, 純粋にランク付けした。 PyLDAvisビジュアライゼーションは、LDAモデルに適合したトピックの関連を探索する柔軟性を記述している。 トピックモデリングの結果は、トピック1とトピック2に有病率を示す。 本研究は,本研究の話題1と2に類似点があることを明らかにする。 モデルの信頼性と妥当性を評価するために,ldaと抽出要約法の有効性を潜在意味分析 (lsa) とリコール指向下評価 (rouge) 指標を用いて測定した。

With the advent and popularity of big data mining and huge text analysis in modern times, automated text summarization became prominent for extracting and retrieving important information from documents. This research investigates aspects of automatic text summarization from the perspectives of single and multiple documents. Summarization is a task of condensing huge text articles into short, summarized versions. The text is reduced in size for summarization purpose but preserving key vital information and retaining the meaning of the original document. This study presents the Latent Dirichlet Allocation (LDA) approach used to perform topic modelling from summarised medical science journal articles with topics related to genes and diseases. In this study, PyLDAvis web-based interactive visualization tool was used to visualise the selected topics. The visualisation provides an overarching view of the main topics while allowing and attributing deep meaning to the prevalence individual topic. This study presents a novel approach to summarization of single and multiple documents. The results suggest the terms ranked purely by considering their probability of the topic prevalence within the processed document using extractive summarization technique. PyLDAvis visualization describes the flexibility of exploring the terms of the topics' association to the fitted LDA model. The topic modelling result shows prevalence within topics 1 and 2. This association reveals that there is similarity between the terms in topic 1 and 2 in this study. The efficacy of the LDA and the extractive summarization methods were measured using Latent Semantic Analysis (LSA) and Recall-Oriented Understudy for Gisting Evaluation (ROUGE) metrics to evaluate the reliability and validity of the model.
翻訳日:2023-06-01 02:58:12 公開日:2023-05-30
# スマートフォンの時系列データを用いたパーキンソン病患者の遠隔投薬状況予測

Remote Medication Status Prediction for Individuals with Parkinson's Disease using Time-series Data from Smartphones ( http://arxiv.org/abs/2207.13700v2 )

ライセンス: Link先を確認
Weijian Li, Wei Zhu, E. Ray Dorsey, Jiebo Luo(参考訳) パーキンソン病のような神経疾患の治療は通常病院から遠隔で行われる。 このようなアウト・オブ・ラボ環境は、タイムリーで正確な健康状態データを収集する上で課題となる。 ウェアラブルセンサーから収集された行動信号の個人差は、現在の一般的な機械学習分析パイプラインを採用するのも困難になる。 これらの課題に対処するために,487人のスマートフォンで収集した62,182個の遠隔マルチモーダルテスト記録を含む公共mPowerデータセットを用いて,パーキンソン病患者の薬物状態を予測する方法を提案する。 提案手法は, 治療前(AUC=0.95), 治療後(AUC=0.958), その他の時間(AUC=0.976)の3つの薬物状態の客観的な予測に有望な結果を示す。 本手法は,遠隔医療用センサをタイムリーかつ客観的にパーソナライズするための革新的な手法を提供する。

Medication for neurological diseases such as the Parkinson's disease usually happens remotely away from hospitals. Such out-of-lab environments pose challenges in collecting timely and accurate health status data. Individual differences in behavioral signals collected from wearable sensors also lead to difficulties in adopting current general machine learning analysis pipelines. To address these challenges, we present a method for predicting the medication status of Parkinson's disease patients using the public mPower dataset, which contains 62,182 remote multi-modal test records collected on smartphones from 487 patients. The proposed method shows promising results in predicting three medication statuses objectively: Before Medication (AUC=0.95), After Medication (AUC=0.958), and Another Time (AUC=0.976) by examining patient-wise historical records with the attention weights learned through a Transformer model. Our method provides an innovative way for personalized remote health sensing in a timely and objective fashion which could benefit a broad range of similar applications.
翻訳日:2023-06-01 02:57:46 公開日:2023-05-30
# xinsight: 因果レンズによる説明可能なデータ分析

XInsight: eXplainable Data Analysis Through The Lens of Causality ( http://arxiv.org/abs/2207.12718v4 )

ライセンス: Link先を確認
Pingchuan Ma, Rui Ding, Shuai Wang, Shi Han, Dongmei Zhang(参考訳) 探索データ分析(EDA)の普及に伴い,EDAが取得した知識の根本原因を理解することが重要である。 しかし、未調査のままである。 本研究は,eXplainable Data Analysis (XDA) と呼ばれる,データ解析における透明で説明可能な視点を促進する。 そこで我々は,XDAの汎用フレームワークであるXInsightを紹介する。 XInsightは、因果的および非因果的意味論の質的、定量的な説明を伴うデータ分析を提供する。 これにより、データ分析の結果に対する人間の理解と信頼が大幅に向上し、実世界の正確なデータ解釈と意思決定が容易になる。 XInsightは、因果グラフを抽出し、因果プリミティブをXDAセマンティクスに変換し、各説明の量的寄与をデータ事実に定量化するように設計された3つのモジュールのエンドツーエンドパイプラインである。 XInsightは設計概念と最適化のセットを使用して、XDAへの因果関係の統合に関連する固有の問題に対処する。 合成および実世界のデータセットとユーザスタディの実験は、xinsightの非常に有望な能力を示している。

In light of the growing popularity of Exploratory Data Analysis (EDA), understanding the underlying causes of the knowledge acquired by EDA is crucial. However, it remains under-researched. This study promotes a transparent and explicable perspective on data analysis, called eXplainable Data Analysis (XDA). For this reason, we present XInsight, a general framework for XDA. XInsight provides data analysis with qualitative and quantitative explanations of causal and non-causal semantics. This way, it will significantly improve human understanding and confidence in the outcomes of data analysis, facilitating accurate data interpretation and decision making in the real world. XInsight is a three-module, end-to-end pipeline designed to extract causal graphs, translate causal primitives into XDA semantics, and quantify the quantitative contribution of each explanation to a data fact. XInsight uses a set of design concepts and optimizations to address the inherent difficulties associated with integrating causality into XDA. Experiments on synthetic and real-world datasets as well as a user study demonstrate the highly promising capabilities of XInsight.
翻訳日:2023-06-01 02:57:30 公開日:2023-05-30
# 読み出しデータを捨てることなくジョイント弱測定に基づく高精度気象学の品質解析

Quality analysis for precision metrology based on joint weak measurements without discarding readout data ( http://arxiv.org/abs/2207.03668v5 )

ライセンス: Link先を確認
Lupei Qin, Luting Xu and Xin-Qi Li(参考訳) 本稿では,弱値増幅法(weak-value-amplification, wva)手法と密接に比較して,jwm(joint weak measurement)のメトロロジー品質に関する理論的解析を行う。 我々は,jwm法で用いられる差分確率関数は,不確かさ分散とフィッシャー情報(fi)の計算に利用できないことを指摘した。 距離論的精度を達成するために、差分結合確率変数を用いて問題を再構成し、全ての計算を適切に定義する。 我々は、一般に、jwm スキームのメトロロジー的精度は、すべての読み出しが破棄されることなく収集されるにもかかわらず、合計 fi で示される値に到達できないことを明らかにした。 また,技術ノイズの影響を解析した結果,従来の測定値よりも高い精度で測定可能な減音法では,技術的ノイズを除去できないことが明らかとなった。

We present a theoretical analysis for the metrology quality of joint weak measurements (JWM), in close comparison with the weak-value-amplification (WVA) technique. We point out that the difference probability function employed in the JWM scheme cannot be used to calculate the uncertainty variance and Fisher information (FI). In order to carry out the metrological precision, we reformulate the problem in terms of difference-combined stochastic variables, which makes all calculations well defined. We reveal that, in general, the metrological precision of the JWM scheme cannot reach that indicated by the total FI, despite that all the readouts are collected without discarding. We also analyze the effect of technical noise, showing that the technical noise cannot be removed by the subtracting procedure, which yet can be utilized to outperform the conventional measurement, when considering the imaginary WV measurement.
翻訳日:2023-06-01 02:56:50 公開日:2023-05-30
# 適応性は量子状態学習にいつ役立つのか?

When Does Adaptivity Help for Quantum State Learning? ( http://arxiv.org/abs/2206.05265v2 )

ライセンス: Link先を確認
Sitan Chen, Brice Huang, Jerry Li, Allen Liu, Mark Sellke(参考訳) 未知の量子状態のコピー$\rho\in\mathbb{c}^{d\times d}$が与えられたとき、出力$\widehat{\rho}$は何らかの意味で$\rho$に近い。 すべてのコピーでコヒーレントな測定を行うことができる場合、$\theta(d^2/\epsilon^2)$コピーが必要であり、トレース距離$\epsilon$を得るのに十分である。 残念なことに、この速度を達成するプロトコルは、短期デバイスの実装を妨げる大きな量子メモリオーバーヘッドを引き起こす。 一方、非コヒーレント(単一コピー)測定を用いた最もよく知られたプロトコルは、$O(d^3/\epsilon^2)$コピーを使用しており、複数の論文が、このレートがきついかどうかを理解するためのオープンな疑問として提案している。 本研究では,不整合測定を用いたプロトコルが,適応的に選択されたとしても,最もよく知られた上限値に一致する$\Omega(d^3/\epsilon^2)$コピーが必要であることを示すことにより,この問題を完全に解決する。 我々は、測定後の後続分布の `tilt'' を直接有界とする新しい証明手法により、我々の下限の驚くほど短い証明となり、我々は独立な興味を持つと考えている。 これは、適応性がトレース距離のトモグラフィーには役に立たないことを意味するが、実際には不確かさに関してトモグラフィーに役立っていることを示している。 非一貫性測定に最適である$\tilde{o}(d^3/\gamma)$コピーのみを使用して、$\gamma$-close in in infidelity の状態を$\rho$ に出力する適応アルゴリズムを与える。 対照的に、任意の非適応アルゴリズムは$\Omega(d^3/\gamma^2)$コピーを必要とすることが知られている。 2ドルの次元では、O(1/\gamma)$のスケーリングを私たちの知る限りで達成できるが、我々のアルゴリズムはすべての次元で最適なレートを達成した最初のアルゴリズムである。

We consider the classic question of state tomography: given copies of an unknown quantum state $\rho\in\mathbb{C}^{d\times d}$, output $\widehat{\rho}$ which is close to $\rho$ in some sense, e.g. trace distance or fidelity. When one is allowed to make coherent measurements entangled across all copies, $\Theta(d^2/\epsilon^2)$ copies are necessary and sufficient to get trace distance $\epsilon$. Unfortunately, the protocols achieving this rate incur large quantum memory overheads that preclude implementation on near-term devices. On the other hand, the best known protocol using incoherent (single-copy) measurements uses $O(d^3/\epsilon^2)$ copies, and multiple papers have posed it as an open question to understand whether or not this rate is tight. In this work, we fully resolve this question, by showing that any protocol using incoherent measurements, even if they are chosen adaptively, requires $\Omega(d^3/\epsilon^2)$ copies, matching the best known upper bound. We do so by a new proof technique which directly bounds the ``tilt'' of the posterior distribution after measurements, which yields a surprisingly short proof of our lower bound, and which we believe may be of independent interest. While this implies that adaptivity does not help for tomography with respect to trace distance, we show that it actually does help for tomography with respect to infidelity. We give an adaptive algorithm that outputs a state which is $\gamma$-close in infidelity to $\rho$ using only $\tilde{O}(d^3/\gamma)$ copies, which is optimal for incoherent measurements. In contrast, it is known that any nonadaptive algorithm requires $\Omega(d^3/\gamma^2)$ copies. While it is folklore that in $2$ dimensions, one can achieve a scaling of $O(1/\gamma)$, to the best of our knowledge, our algorithm is the first to achieve the optimal rate in all dimensions.
翻訳日:2023-06-01 02:55:43 公開日:2023-05-30
# 脱局在質量の再結合における重力子放出条件

Conditions for graviton emission in the recombination of a delocalized mass ( http://arxiv.org/abs/2209.10355v3 )

ライセンス: Link先を確認
Alessandro Pesci(参考訳) 既知のゲダンケン実験では、非局在化質量が再結合され、それによって引き起こされる重力場は別の(距離)粒子によって探索されるが、これは、重畳された位置と重畳された重力場が絡み合う場合の相補性と因果性の緊張関係を探るために用いられる。 ここでは、非局在粒子(プローブとゲダンケンの実験について忘れている)に注目し、重力子放出の条件(質量、分離、再結合時間)を考察する。 この結果、再結合における四極子モーメントの変動は、非局在状態のエネルギー運動量期待値(後者の場合のモーメント変動 $\sim m \, d^2$, with $m$ mass, $d$ separation)に置き換わる場合と比較して、場が絡み合っている場合と比べ、総称的に大きく増大することがわかった。 加えて、グラビトン放出の(上限の)リコンビネーション時間は、平均的な期待値である$\sqrt{m}$の代わりに$m$で成長する。 この場合、プランク質量はしきい値質量として作用し(重く、非局在化された物体に対して)、その下に重力子放出は生じないが、再結合の速度は速い。 これがdi\'osiとpenroseの崩壊モデルで予測される崩壊時間と比較されると、再結合による(四重極の)重力子放出は不可能であることが分かる。 実際、$m$が放出を許容するほどの大きさになると、重ね合わせが再結合するのに十分な長さの崩壊に耐えるには大きすぎる。

In a known gedanken experiment, a delocalized mass is recombined while the gravitational field sourced by it is probed by another (distant) particle; in it, this is used to explore a possible tension between complementarity and causality in case the gravitational field entangles with the superposed locations, a proposed resolution being graviton emission from quadrupole moments. Here, we focus on the delocalized particle (forgetting about the probe and the gedanken experiment) and explore the conditions (in terms of mass, separation, and recombination time) for graviton emission. Through this, we find that the variations of quadrupole moments in the recombination are generically greatly enhanced if the field is entangled compared to if it is sourced instead by the energy momentum expectation value on the delocalized state (moment variation $\sim m \, d^2$ in the latter case, with $m$ mass, $d$ separation). In addition, we obtain the (upper) limit recombination time for graviton emission growing as $m$ in place of the naive expectation $\sqrt{m}$. In this, the Planck mass acts as threshold mass (huge, for delocalized objects): no graviton emission is possible below it, however fast the recombination occurs. If this is compared with the decay times foreseen in the collapse models of Di\'osi and Penrose (in their basic form), one finds that no (quadrupole) graviton emission from recombination is possible in them. Indeed, right when $m$ becomes large enough to allow for emission, it also becomes too large for the superposition to survive collapse long enough to recombine.
翻訳日:2023-06-01 02:47:57 公開日:2023-05-30
# 反応制限量子反応拡散ダイナミクス

Reaction-limited quantum reaction-diffusion dynamics ( http://arxiv.org/abs/2209.09784v3 )

ライセンス: Link先を確認
Gabriele Perfetto, Federico Carollo, Juan P. Garrahan, and Igor Lesanovsky(参考訳) フェルミオン粒子が一次元格子上をコヒーレントに跳躍し、古典的な反応拡散モデルに類似した散逸過程を受ける系の量子非平衡ダイナミクスを考える。 粒子は対で消滅するか、$A+A \to \emptyset$、$A+A \to A$、または$A \to A+A$で分離することができる。 古典的な設定では、これらの過程と粒子拡散の間の相互作用は臨界ダイナミクスや吸収状態の相転移をもたらす。 本稿では,コヒーレントホッピングと量子重ね合わせの影響を,いわゆる反応制限レジームに着目して解析する。 ここでは, 空間密度のゆらぎは高速ホッピングにより急速に緩和され, 古典系では平均場法によって説明される。 時間依存型一般化ギブスアンサンブル法を利用して、これらのシステムにおいて量子コヒーレンスと破壊的干渉が重要な役割を担い、局所的に保護された暗黒状態の出現と平均場を超えた集団行動に責任を負うことを示す。 これは定常性と緩和ダイナミクスの間の両方に現れる。 この結果は、古典的非平衡力学と量子的相互作用の基本的な違いを強調し、量子効果が実際に普遍的な振る舞いを変えることを示す。

We consider the quantum nonequilibrium dynamics of systems where fermionic particles coherently hop on a one-dimensional lattice and are subject to dissipative processes analogous to those of classical reaction-diffusion models. Particles can either annihilate in pairs, $A+A \to \emptyset$, coagulate upon contact, $A+A \to A$, and possibly also branch, $A \to A+A$. In classical settings, the interplay between these processes and particle diffusion leads to critical dynamics as well as to absorbing-state phase transitions. Here, we analyze the impact of coherent hopping and of quantum superposition, focusing on the so-called reaction-limited regime. Here, spatial density fluctuations are quickly smoothed out due to fast hopping, which for classical systems is described by a mean-field approach. By exploiting the time-dependent generalized Gibbs ensemble method, we demonstrate that quantum coherence and destructive interference play a crucial role in these systems and are responsible for the emergence of locally protected dark states and collective behavior beyond mean-field. This can manifest both at stationarity and during the relaxation dynamics. Our results highlight fundamental differences between classical nonequilibrium dynamics and their quantum counterpart and show that quantum effects indeed change collective universal behavior.
翻訳日:2023-06-01 02:47:24 公開日:2023-05-30
# CLIPは私の顔を知っていますか?

Does CLIP Know My Face? ( http://arxiv.org/abs/2209.07341v3 )

ライセンス: Link先を確認
Dominik Hintersdorf and Lukas Struppek and Manuel Brack and Felix Friedrich and Patrick Schramowski and Kristian Kersting(参考訳) さまざまなアプリケーションにおけるディープラーニングの台頭に伴い、トレーニングデータの保護に関するプライバシー上の懸念が研究の重要領域となっている。 従来の研究では,シングルモーダルモデルにおけるプライバシリスクに着目していたが,特にCLIPのような視覚言語モデルにおいて,マルチモーダルモデルのプライバシを評価する新たな手法を導入する。 提案したIDIA攻撃(IDIA)は、同一人物の画像でモデルをクエリすることで、個人がトレーニングデータに含まれるかどうかを明らかにする。 モデルにさまざまな可能なテキストラベルを選択させると、その人物を認識したかどうかが明らかになり、トレーニングに使用された。 CLIPの大規模実験では、トレーニングに使用する個人を極めて高い精度で識別できることを示した。 本モデルでは,表現された人物と名前を関連付けることを学び,敵から抽出できる繊細な情報の存在を示唆する。 我々の結果は、大規模モデルにおけるより強力なプライバシー保護の必要性を強調し、IDIAは、トレーニングに不正なデータの使用を証明し、プライバシー法を強制するために使用できることを示唆している。

With the rise of deep learning in various applications, privacy concerns around the protection of training data has become a critical area of research. Whereas prior studies have focused on privacy risks in single-modal models, we introduce a novel method to assess privacy for multi-modal models, specifically vision-language models like CLIP. The proposed Identity Inference Attack (IDIA) reveals whether an individual was included in the training data by querying the model with images of the same person. Letting the model choose from a wide variety of possible text labels, the model reveals whether it recognizes the person and, therefore, was used for training. Our large-scale experiments on CLIP demonstrate that individuals used for training can be identified with very high accuracy. We confirm that the model has learned to associate names with depicted individuals, implying the existence of sensitive information that can be extracted by adversaries. Our results highlight the need for stronger privacy protection in large-scale models and suggest that IDIAs can be used to prove the unauthorized use of data for training and to enforce privacy laws.
翻訳日:2023-06-01 02:47:00 公開日:2023-05-30
# 2次元VAEとGANを用いた心筋MR画像の病態合成

Pathology Synthesis of 3D-Consistent Cardiac MR Images using 2D VAEs and GANs ( http://arxiv.org/abs/2209.04223v2 )

ライセンス: Link先を確認
Sina Amirrajab, Cristian Lorenz, Juergen Weese, Josien Pluim, Marcel Breeuwer(参考訳) 本稿では, 心臓MRI画像にプラウシブルな心臓病理像とリアルな外観像を合成し, 教師付き深層学習(DL)トレーニングのためのラベル付きデータを生成する方法を提案する。 画像合成はラベル変形とラベルから画像への変換からなる。 前者はVOEモデルにおける潜時空間補間により達成され、後者はラベル条件付きGANモデルによって達成される。 訓練されたvaeモデルの潜在空間におけるラベル操作の3つのアプローチを考案する。 i) 被写体の中間スライスを補間し、面内分解能を高めることを目的とした \textbf{intra-subject synthesis} 二 異なるスキャナーベンダーで取得した二つの異なる対象物間の中間画像の形状及び外観を補間することを目的とした \textbf{inter-subject synthesis} iii) 所望の心臓疾患の特徴を有する疑似病理合成対象を合成することを目的とした<textbf{pathology synthesis>。 さらに,VAEの潜伏空間における2次元スライス間の関係をモデル化し,2次元スライス・バイ・スライス世代を積み重ねることから3次元一貫性のある被写体を生成する手法を提案する。 このようなアプローチは、利用可能な心臓MR画像のデータベースを多様化・強化し、一般化可能なDLベース画像解析アルゴリズムを開発するための道を開くためのソリューションとなることを実証する。 画像セグメンテーションのためのマルチベンダおよびマルチディスリーズデータに対する一般化とロバスト性を達成するために, 拡張シナリオにおける合成データの品質を定量的に評価する。 私たちのコードはhttps://github.com/sinaamirrajab/CardiacPathologySynthesisで公開されています。

We propose a method for synthesizing cardiac magnetic resonance (MR) images with plausible heart pathologies and realistic appearances for the purpose of generating labeled data for the application of supervised deep-learning (DL) training. The image synthesis consists of label deformation and label-to-image translation tasks. The former is achieved via latent space interpolation in a VAE model, while the latter is accomplished via a label-conditional GAN model. We devise three approaches for label manipulation in the latent space of the trained VAE model; i) \textbf{intra-subject synthesis} aiming to interpolate the intermediate slices of a subject to increase the through-plane resolution, ii) \textbf{inter-subject synthesis} aiming to interpolate the geometry and appearance of intermediate images between two dissimilar subjects acquired with different scanner vendors, and iii) \textbf{pathology synthesis} aiming to synthesize a series of pseudo-pathological synthetic subjects with characteristics of a desired heart disease. Furthermore, we propose to model the relationship between 2D slices in the latent space of the VAE prior to reconstruction for generating 3D-consistent subjects from stacking up 2D slice-by-slice generations. We demonstrate that such an approach could provide a solution to diversify and enrich an available database of cardiac MR images and to pave the way for the development of generalizable DL-based image analysis algorithms. We quantitatively evaluate the quality of the synthesized data in an augmentation scenario to achieve generalization and robustness to multi-vendor and multi-disease data for image segmentation. Our code is available at https://github.com/sinaamirrajab/CardiacPathologySynthesis.
翻訳日:2023-06-01 02:46:41 公開日:2023-05-30
# 抽出は忠実ではない:抽出要約における幅広い不誠実性問題の検討

Extractive is not Faithful: An Investigation of Broad Unfaithfulness Problems in Extractive Summarization ( http://arxiv.org/abs/2209.03549v2 )

ライセンス: Link先を確認
Shiyue Zhang, David Wan, Mohit Bansal(参考訳) 不誠実な要約の問題は抽象的な要約の文脈で広く議論されてきた。 抽出的要約は抽象的要約の一般的な不利な問題よりも少ないが、抽出的要約は忠実であることを意味するのだろうか? 答えはノーであることが判明した。 本研究では,不正確なコリファレンス,不完全コリファレンス,不正確な談話,不完全な談話,不完全な談話,その他の誤解を招く情報を含む,抽出要約に現れる5種類の広範な不満足な問題(補足を含む,補足しないものを含む)の類型を定義する。 16種類の抽出システムによって生成された1600の英語サマリーのうち、これらの問題を人間にラベル付けするよう求めた。 要約の30%は、少なくとも5つの問題のうちの1つを持っている。 これらの問題を自動的に検出するため、5つの既存忠実度評価指標が人間の判断とあまり相関しないことがわかった。 そこで本研究では,不誠実な抽出サマリーを検出するための新しい指標ExtEvalを提案する。 我々の研究が、抽出的な要約における不誠実な問題に対する認識を高め、これらの問題を評価し解決する将来の作業を支援することを願っている。 私たちのデータとコードはhttps://github.com/zhangshiyue/extractive_is_not_faithfulで公開されている。

The problems of unfaithful summaries have been widely discussed under the context of abstractive summarization. Though extractive summarization is less prone to the common unfaithfulness issues of abstractive summaries, does that mean extractive is equal to faithful? Turns out that the answer is no. In this work, we define a typology with five types of broad unfaithfulness problems (including and beyond not-entailment) that can appear in extractive summaries, including incorrect coreference, incomplete coreference, incorrect discourse, incomplete discourse, as well as other misleading information. We ask humans to label these problems out of 1600 English summaries produced by 16 diverse extractive systems. We find that 30% of the summaries have at least one of the five issues. To automatically detect these problems, we find that 5 existing faithfulness evaluation metrics for summarization have poor correlations with human judgment. To remedy this, we propose a new metric, ExtEval, that is designed for detecting unfaithful extractive summaries and is shown to have the best performance. We hope our work can increase the awareness of unfaithfulness problems in extractive summarization and help future work to evaluate and resolve these issues. Our data and code are publicly available at https://github.com/ZhangShiyue/extractive_is_not_faithful
翻訳日:2023-06-01 02:46:13 公開日:2023-05-30
# マスク視覚モデルを用いたエンドツーエンドビデオ言語変換器の実証的研究

An Empirical Study of End-to-End Video-Language Transformers with Masked Visual Modeling ( http://arxiv.org/abs/2209.01540v4 )

ライセンス: Link先を確認
Tsu-Jui Fu and Linjie Li and Zhe Gan and Kevin Lin and William Yang Wang and Lijuan Wang and Zicheng Liu(参考訳) Masked Visual Modeling (MVM)は視覚前トレーニングに有効であることが最近証明されている。 ビデオ入力(例えば、マスク付きフレームモデリング)における同様の再構築目的が、ビデオ言語(vidl)事前トレーニングで検討されているが、以前の研究では、下流のパフォーマンスに大きな利益をもたらす真に効果的なmvm戦略を見いだせていない。 本研究では,VidL学習におけるMVMの可能性について,系統的に検討する。 具体的には、MVMトレーニングの監督をビデオピクセル空間に戻すことができる、完全なエンドツーエンドVIOLET(VIdeO-LanguagE Transformer)に基づく。 低レベル画素値と配向勾配から高レベル深度マップ,光フロー,離散的視覚トークン,潜時視覚特徴に至るまで,MVMの8つの異なる再構成対象を探索した。 我々は総合的な実験を行い、MVMの効果的なトレーニングにつながる要因について洞察を提供する。 実験により,MVM目標で事前学習したVIOLETv2は,ビデオ質問応答,ビデオキャプション,テキスト・ツー・ビデオ検索など,13のVidLベンチマークにおいて顕著な改善を実現している。

Masked visual modeling (MVM) has been recently proven effective for visual pre-training. While similar reconstructive objectives on video inputs (e.g., masked frame modeling) have been explored in video-language (VidL) pre-training, previous studies fail to find a truly effective MVM strategy that can largely benefit the downstream performance. In this work, we systematically examine the potential of MVM in the context of VidL learning. Specifically, we base our study on a fully end-to-end VIdeO-LanguagE Transformer (VIOLET), where the supervision from MVM training can be backpropagated to the video pixel space. In total, eight different reconstructive targets of MVM are explored, from low-level pixel values and oriented gradients to high-level depth maps, optical flow, discrete visual tokens, and latent visual features. We conduct comprehensive experiments and provide insights into the factors leading to effective MVM training, resulting in an enhanced model VIOLETv2. Empirically, we show VIOLETv2 pre-trained with MVM objective achieves notable improvements on 13 VidL benchmarks, ranging from video question answering, video captioning, to text-to-video retrieval.
翻訳日:2023-06-01 02:45:51 公開日:2023-05-30
# neural sign reenactor: 深いフォトリアリスティックな手話再ターゲティング

Neural Sign Reenactor: Deep Photorealistic Sign Language Retargeting ( http://arxiv.org/abs/2209.01470v2 )

ライセンス: Link先を確認
Christina O. Tze, Panagiotis P. Filntisis, Athanasia-Lida Dimou, Anastasios Roussos, Petros Maragos(参考訳) 本稿では,ある人物の表情,頭部のポーズ,体の動きを,対象映像で他の人物に伝達する,ニューラルネットワークのレンダリングパイプラインを提案する。 本手法は手話映像の難易度の高い場合に適用できる:手話利用者のソースビデオが与えられた場合、実行された手話(手形、手のひら方向、移動、位置など)と非手動(目視、表情、口のパターン、頭、体の動きなど)のサインを、フォトリアリスティックな方法でターゲットビデオに忠実に転送することができる。 本手法は,手話匿名化や手話生成(合成モジュール),その他の全身活動(ダンス,演技,運動など)の再現に利用できる。 提案手法は,従来の手法に比べて,特に有望で現実的な結果を示し,その利点を実証する,詳細な質的,定量的な評価と比較を行う。

In this paper, we introduce a neural rendering pipeline for transferring the facial expressions, head pose, and body movements of one person in a source video to another in a target video. We apply our method to the challenging case of Sign Language videos: given a source video of a sign language user, we can faithfully transfer the performed manual (e.g., handshape, palm orientation, movement, location) and non-manual (e.g., eye gaze, facial expressions, mouth patterns, head, and body movements) signs to a target video in a photo-realistic manner. Our method can be used for Sign Language Anonymization, Sign Language Production (synthesis module), as well as for reenacting other types of full body activities (dancing, acting performance, exercising, etc.). We conduct detailed qualitative and quantitative evaluations and comparisons, which demonstrate the particularly promising and realistic results that we obtain and the advantages of our method over existing approaches.
翻訳日:2023-06-01 02:45:28 公開日:2023-05-30
# 無線ネットワークにおけるグラフニューラルネットワークを用いたプライバシ保護分散推論

Privacy-Preserving Decentralized Inference with Graph Neural Networks in Wireless Networks ( http://arxiv.org/abs/2208.06963v2 )

ライセンス: Link先を確認
Mengyuan Lee, Guanding Yu, and Huaiyu Dai(参考訳) グラフデータのための効率的なニューラルネットワークモデルとして、グラフニューラルネットワーク(gnns)は最近、様々なワイヤレス最適化問題に成功している。 gnnの推論段階が自然に分散的に実装できることを考えると、gnnは次世代無線通信における分散制御/管理を可能にする可能性がある。 しかし、プライバシーの漏洩は、GNNとの分散推論中に隣人の情報交換によって起こる可能性がある。 この問題に対処するため,本稿では,無線ネットワークにおけるGNNによる分散推論のプライバシの分析と強化を行う。 具体的には,ローカルディファレンシャルプライバシを指標として採用し,新たなプライバシ保存信号の設計と,プライバシ保存推論を実現するためのプライバシグアラントトレーニングアルゴリズムを提案する。 また、無線ネットワークにおけるGNNによる分散推論の性能上限を解析するために、SNRプライバシトレードオフ関数を定義する。 通信と計算の効率をさらに高めるため,オーバー・ザ・エア計算手法を採用し,理論的にプライバシー保護の利点を実証する。 合成グラフデータに対する広範囲なシミュレーションを行い,理論解析を検証し,提案するプライバシ保存型無線シグナリングとプライバシガランテ型トレーニングアルゴリズムの有効性を検証し,実用的な実装に関するガイダンスを提供する。

As an efficient neural network model for graph data, graph neural networks (GNNs) recently find successful applications for various wireless optimization problems. Given that the inference stage of GNNs can be naturally implemented in a decentralized manner, GNN is a potential enabler for decentralized control/management in the next-generation wireless communications. Privacy leakage, however, may occur due to the information exchanges among neighbors during decentralized inference with GNNs. To deal with this issue, in this paper, we analyze and enhance the privacy of decentralized inference with GNNs in wireless networks. Specifically, we adopt local differential privacy as the metric, and design novel privacy-preserving signals as well as privacy-guaranteed training algorithms to achieve privacy-preserving inference. We also define the SNR-privacy trade-off function to analyze the performance upper bound of decentralized inference with GNNs in wireless networks. To further enhance the communication and computation efficiency, we adopt the over-the-air computation technique and theoretically demonstrate its advantage in privacy preservation. Through extensive simulations on the synthetic graph data, we validate our theoretical analysis, verify the effectiveness of proposed privacy-preserving wireless signaling and privacy-guaranteed training algorithm, and offer some guidance on practical implementation.
翻訳日:2023-06-01 02:44:49 公開日:2023-05-30
# RLang: 強化学習エージェントへの部分的世界知識記述のための宣言型言語

RLang: A Declarative Language for Describing Partial World Knowledge to Reinforcement Learning Agents ( http://arxiv.org/abs/2208.06448v3 )

ライセンス: Link先を確認
Rafael Rodriguez-Sanchez, Benjamin A. Spiegel, Jennifer Wang, Roma Patel, Stefanie Tellex and George Konidaris(参考訳) ドメイン固有言語(DSL)であるRLangを導入し、ドメイン知識をRLエージェントに伝達する。 意思決定形式主義(例えば報酬関数やポリシー)の「textit{single}」要素を基礎とする既存のRL DSLとは異なり、RLangはマルコフ決定プロセスのすべての要素に関する情報を指定できる。 我々は、RLangの正確な構文と接地意味を定義し、RLangプログラムをアルゴリズムに依存しない「textit{partial}」世界モデルとRLエージェントが活用できるポリシーにグルーピングするパーサを提供する。 様々なrlメソッドが、モデルフリーでモデルベースの表型アルゴリズム、ポリシーグラデーションとバリューベースメソッド、階層的アプローチ、深層メソッドを包含して、結果の知識をどのように活用できるかを示す、一連のrlangプログラムを提供する。

We introduce RLang, a domain-specific language (DSL) for communicating domain knowledge to an RL agent. Unlike existing RL DSLs that ground to \textit{single} elements of a decision-making formalism (e.g., the reward function or policy), RLang can specify information about every element of a Markov decision process. We define precise syntax and grounding semantics for RLang, and provide a parser that grounds RLang programs to an algorithm-agnostic \textit{partial} world model and policy that can be exploited by an RL agent. We provide a series of example RLang programs demonstrating how different RL methods can exploit the resulting knowledge, encompassing model-free and model-based tabular algorithms, policy gradient and value-based methods, hierarchical approaches, and deep methods.
翻訳日:2023-06-01 02:44:27 公開日:2023-05-30
# 迅速かつ信頼性の高い重力波推論のためのニューラル・パタンスサンプリング

Neural Importance Sampling for Rapid and Reliable Gravitational-Wave Inference ( http://arxiv.org/abs/2210.05686v2 )

ライセンス: Link先を確認
Maximilian Dax, Stephen R. Green, Jonathan Gair, Michael P\"urrer, Jonas Wildberger, Jakob H. Macke, Alessandra Buonanno, Bernhard Sch\"olkopf(参考訳) 高速かつ高精度な重力波推定のためのアモルト化神経後部推定と重要サンプリングを組み合わせる。 まず,ニューラルネットワークを用いたベイジアン後方への迅速な提案を行い,その基礎となる可能性と先行に基づいて重要度重み付けを行う。 本発明は,(1)ネットワーク不正確性のない修正後部,(2)提案案の評価と故障事例の同定のための性能診断(サンプル効率),(3)ベイズ証拠の偏りのない推定を提供する。 この独立した検証と修正機構を確立することで、科学的推論のための深層学習に対する最も頻繁な批判に対処する。 LIGOとVirgoで観測された42個のブラックホールをSEOBNRv4PHMとIMRPhenomXPHMの波形モデルで解析した。 これは、サンプル効率の中央値である$\approx 10\%$(標準サンプルよりも2桁良い)と、ログ証拠の統計的不確かさの10倍の減少を示す。 これらの利点を考えると、重力波の推測に大きな影響を与え、科学的応用における深層学習手法のパラダイムとして機能することを期待する。

We combine amortized neural posterior estimation with importance sampling for fast and accurate gravitational-wave inference. We first generate a rapid proposal for the Bayesian posterior using neural networks, and then attach importance weights based on the underlying likelihood and prior. This provides (1) a corrected posterior free from network inaccuracies, (2) a performance diagnostic (the sample efficiency) for assessing the proposal and identifying failure cases, and (3) an unbiased estimate of the Bayesian evidence. By establishing this independent verification and correction mechanism we address some of the most frequent criticisms against deep learning for scientific inference. We carry out a large study analyzing 42 binary black hole mergers observed by LIGO and Virgo with the SEOBNRv4PHM and IMRPhenomXPHM waveform models. This shows a median sample efficiency of $\approx 10\%$ (two orders-of-magnitude better than standard samplers) as well as a ten-fold reduction in the statistical uncertainty in the log evidence. Given these advantages, we expect a significant impact on gravitational-wave inference, and for this approach to serve as a paradigm for harnessing deep learning methods in scientific applications.
翻訳日:2023-06-01 02:38:15 公開日:2023-05-30
# ParaDime: パラメトリック次元化のためのフレームワーク

ParaDime: A Framework for Parametric Dimensionality Reduction ( http://arxiv.org/abs/2210.04582v3 )

ライセンス: Link先を確認
Andreas Hinterreiter and Christina Humer and Bernhard Kainz and Marc Streit(参考訳) パラダイム(paradime)はパラメトリック次元還元(dr)の枠組みである。 パラメトリックDRでは、ニューラルネットワークは、目的関数を最小化しながら、低次元空間に高次元のデータ項目を埋め込むように訓練される。 パラダイムは、いくつかの近代DR技術の目的関数は、相互関係の変容によって生じるという考えに基づいている。 これらの関係と変換を定義し、トレーニングプロセスを管理する損失の中でどのように使用されるかを定義するための共通インターフェースを提供する。 このインターフェースを通じて、パラダイムはメートル法MDS、t-SNE、UMAPといったDR技術のパラメトリックバージョンを統一する。 ユーザーはdrプロセスのすべての側面を完全にカスタマイズできる。 本稿では,ParaDimeのカスタマイズの容易さが,ハイブリッド分類・埋め込みモデルや教師付きDRといった興味深い手法の実験にいかに適しているかを示す。

ParaDime is a framework for parametric dimensionality reduction (DR). In parametric DR, neural networks are trained to embed high-dimensional data items in a low-dimensional space while minimizing an objective function. ParaDime builds on the idea that the objective functions of several modern DR techniques result from transformed inter-item relationships. It provides a common interface for specifying these relations and transformations and for defining how they are used within the losses that govern the training process. Through this interface, ParaDime unifies parametric versions of DR techniques such as metric MDS, t-SNE, and UMAP. It allows users to fully customize all aspects of the DR process. We show how this ease of customization makes ParaDime suitable for experimenting with interesting techniques such as hybrid classification/embedding models and supervised DR. This way, ParaDime opens up new possibilities for visualizing high-dimensional data.
翻訳日:2023-06-01 02:37:58 公開日:2023-05-30
# カーネル平均プールによるロバストカーネルのアンサンブル学習

Learning Robust Kernel Ensembles with Kernel Average Pooling ( http://arxiv.org/abs/2210.00062v2 )

ライセンス: Link先を確認
Pouya Bashivan, Adam Ibrahim, Amirozhan Dehghani, Yifei Ren(参考訳) モデルアンサンブルは、個々のモデル予測のばらつきを減らし、入力摂動をより堅牢にするために、機械学習で長い間使われてきた。 dropoutのような疑似センスブルメソッドは、一般化を改善するためにディープラーニングモデルでも一般的に使われている。 しかし、これらの技術の入力摂動に対するニューラルネットワークの頑健性向上への応用は未検討のままである。 本稿では,階層活性化テンソルのカーネル次元に沿って平均フィルタを適用するニューラルネットワーク構築ブロックであるKernel Average Pooling(KAP)を紹介する。 同様の機能を持つカーネルのアンサンブルは、kapを搭載した畳み込みニューラルネットワークに自然に出現し、バックプロパゲーションで訓練される。 さらに,加法ガウス雑音による入力をトレーニングした場合,KAPモデルは様々な形態の敵攻撃に対して極めて堅牢であることを示す。 CIFAR10、CIFAR100、TinyImagenet、Imagenetデータセットに対する実証的な評価は、AutoAttackのような強力な敵攻撃に対して、敵の例をトレーニングすることなく、堅牢性を大幅に改善したことを示している。

Model ensembles have long been used in machine learning to reduce the variance in individual model predictions, making them more robust to input perturbations. Pseudo-ensemble methods like dropout have also been commonly used in deep learning models to improve generalization. However, the application of these techniques to improve neural networks' robustness against input perturbations remains underexplored. We introduce Kernel Average Pooling (KAP), a neural network building block that applies the mean filter along the kernel dimension of the layer activation tensor. We show that ensembles of kernels with similar functionality naturally emerge in convolutional neural networks equipped with KAP and trained with backpropagation. Moreover, we show that when trained on inputs perturbed with additive Gaussian noise, KAP models are remarkably robust against various forms of adversarial attacks. Empirical evaluations on CIFAR10, CIFAR100, TinyImagenet, and Imagenet datasets show substantial improvements in robustness against strong adversarial attacks such as AutoAttack without training on any adversarial examples.
翻訳日:2023-06-01 02:37:13 公開日:2023-05-30
# 依存データからのフローの正規化のトレーニング

Training Normalizing Flows from Dependent Data ( http://arxiv.org/abs/2209.14933v2 )

ライセンス: Link先を確認
Matthias Kirchler, Christoph Lippert, Marius Kloft(参考訳) 正規化フローは、密度推定器と生成モデルの間のハイブリッドとして機能する強力な非パラメトリック統計モデルである。 フローを正規化するための現在の学習アルゴリズムは、データポイントが独立してサンプリングされることを前提としており、これは実際に頻繁に違反される仮定であり、誤った密度推定とデータ生成につながる可能性がある。 本研究では,異なる依存構造に適した柔軟かつ効率的な学習アルゴリズムを導出するデータポイント間の依存関係を組み込んだフローの正規化手法を提案する。 本研究では, 観察間の依存関係を尊重することで, 合成データと実世界のデータの両方における経験的結果が向上することを示す。

Normalizing flows are powerful non-parametric statistical models that function as a hybrid between density estimators and generative models. Current learning algorithms for normalizing flows assume that data points are sampled independently, an assumption that is frequently violated in practice, which may lead to erroneous density estimation and data generation. We propose a likelihood objective of normalizing flows incorporating dependencies between the data points, for which we derive a flexible and efficient learning algorithm suitable for different dependency structures. We show that respecting dependencies between observations can improve empirical results on both synthetic and real-world data, and leads to higher statistical power in a downstream application to genome-wide association studies.
翻訳日:2023-06-01 02:36:56 公開日:2023-05-30
# 低強度パルス駆動ロバスト振動子媒質相ゲート

Robust Oscillator-Mediated Phase Gates Driven by Low-Intensity Pulses ( http://arxiv.org/abs/2209.14817v2 )

ライセンス: Link先を確認
I. Arrazola and J. Casanova(参考訳) ボソニックモードを介するロバスト量子ビット相互作用は多くの量子技術の中心である。 高速発振器を媒介するゲートと動的デカップリングを組み合わせる既存の提案では、強いパルスやqubit-boson結合の高速制御が必要である。 本稿では,低強度パルスによる分散ゲートの高速化を実現する動的疎結合法を提案する。 我々の手法は一般に、すなわち、長手結合を介してボソニックメディエータと相互作用する量子ビットを持つ任意の量子プラットフォームに適用可能である。 さらに、このプロトコルは、周波数シフトやメディエータの加熱といった一般的なエラーやクロストーク効果に耐性があるとともに、キュービット周波数や制御フィールドの変動に対して堅牢性を提供する。 磁場勾配により結合した捕捉イオンの実装により, 本手法を解説する。 数値シミュレーションにより, 現在および近未来の実験装置では, 不忠実な10^{-3}$または10^{-4}$の絡み合いゲートが可能であることを示す。

Robust qubit-qubit interactions mediated by bosonic modes are central to many quantum technologies. Existing proposals combining fast oscillator-mediated gates with dynamical decoupling require strong pulses or fast control over the qubit-boson coupling. Here, we present a method based on dynamical decoupling techniques that leads to faster-than-dispersive entanglement gates with low-intensity pulses. Our method is general, i.e., it is applicable to any quantum platform that has qubits interacting with bosonic mediators via longitudinal coupling. Moreover, the protocol provides robustness to fluctuations in qubit frequencies and control fields, while also being resistant to common errors such as frequency shifts and heating in the mediator as well as crosstalk effects. We illustrate our method with an implementation for trapped ions coupled via magnetic field gradients. With detailed numerical simulations, we show that entanglement gates with infidelities of $10^{-3}$ or $10^{-4}$ are possible with current or near-future experimental setups, respectively.
翻訳日:2023-06-01 02:36:42 公開日:2023-05-30
# 未知の量子源からの作業抽出

Work extraction from unknown quantum sources ( http://arxiv.org/abs/2209.11076v3 )

ライセンス: Link先を確認
Dominik \v{S}afr\'anek, Dario Rosa, Felix Binder(参考訳) エネルギー抽出は熱力学の中心的な課題である。 量子物理学において、エルゴトロピーは巡回ハミルトン制御の下で抽出可能な仕事の量を測定する。 完全な抽出には初期状態の完全な知識が必要であるが、未知の量子源や信頼できない量子源の作業値の特徴は持たない。 そのような源を完全に特徴づけるには量子トモグラフィーが必要であり、必要な測定値の指数関数的な成長と運用上の限界のために実験で非常にコストがかかる。 したがって,1種類の粗粒度測定のみを行うことで得られることとは別に,源が生成する量子状態について何も知られていない場合に適用可能なエルゴトロピーの新たな概念を導出する。 本研究では,ボルツマンと観測エントロピーによって抽出された作業が,測定結果がそれぞれ作業抽出に使用されるか,そうでないかによって定義されることを見出した。 このエルゴトロピーの概念は抽出可能な仕事の現実的な尺度であり、量子バッテリを特徴づける価値の関連表現として使うことができる。

Energy extraction is a central task in thermodynamics. In quantum physics, ergotropy measures the amount of work extractable under cyclic Hamiltonian control. As its full extraction requires perfect knowledge of the initial state, however, it does not characterize the work value of unknown or untrusted quantum sources. Fully characterizing such sources would require quantum tomography, which is prohibitively costly in experiments due to the exponential growth of required measurements and operational limitations. Here, we therefore derive a new notion of ergotropy applicable when nothing is known about the quantum states produced by the source, apart from what can be learned by performing only a single type of coarse-grained measurement. We find that in this case the extracted work is defined by the Boltzmann and observational entropy, in cases where the measurement outcomes are, or are not, used in the work extraction, respectively. This notion of ergotropy represents a realistic measure of extractable work, which can be used as the relevant figure of merit to characterize a quantum battery.
翻訳日:2023-06-01 02:36:26 公開日:2023-05-30
# 近位点模倣学習

Proximal Point Imitation Learning ( http://arxiv.org/abs/2209.10968v3 )

ライセンス: Link先を確認
Luca Viano and Angeliki Kamoutsi and Gergely Neu and Igor Krawczuk and Volkan Cevher(参考訳) この研究は、制限的コヒーレンス仮定を伴わない線形関数近似による無限水平模倣学習(IL)のための厳密な効率を保証する新しいアルゴリズムを開発する。 まず,問題のminimax定式化から始めて,最適化,特にppm(proximal-point method)とdual smoothing(オンラインおよびオフラインil)による古典的ツールの活用方法について概説する。 PPMのおかげで、以前の文献に現れるオンラインILのネストされたポリシー評価やコスト更新を避けることができる。 特に、コストとq関数の両方に対して単一の凸と滑らかな目的を最適化することで、従来の交互更新を廃止する。 非現実的に解くと、最適化誤差は回復したポリシーの最適化性に関連づける。 付加的なボーナスとして、PPMをエキスパートポリシーを中心点とする二重平滑化として再解釈することにより、必要な専門家軌道の理論的保証を享受するオフラインILアルゴリズムを得る。 最後に,線形およびニューラルネット機能近似の実証的な性能を実現する。

This work develops new algorithms with rigorous efficiency guarantees for infinite horizon imitation learning (IL) with linear function approximation without restrictive coherence assumptions. We begin with the minimax formulation of the problem and then outline how to leverage classical tools from optimization, in particular, the proximal-point method (PPM) and dual smoothing, for online and offline IL, respectively. Thanks to PPM, we avoid nested policy evaluation and cost updates for online IL appearing in the prior literature. In particular, we do away with the conventional alternating updates by the optimization of a single convex and smooth objective over both cost and Q-functions. When solved inexactly, we relate the optimization errors to the suboptimality of the recovered policy. As an added bonus, by re-interpreting PPM as dual smoothing with the expert policy as a center point, we also obtain an offline IL algorithm enjoying theoretical guarantees in terms of required expert trajectories. Finally, we achieve convincing empirical performance for both linear and neural network function approximation.
翻訳日:2023-06-01 02:36:09 公開日:2023-05-30
# CONE: 長時間ビデオの時間的接地のための効率的な粗面と有限面のアライメントフレームワーク

CONE: An Efficient COarse-to-fiNE Alignment Framework for Long Video Temporal Grounding ( http://arxiv.org/abs/2209.10918v2 )

ライセンス: Link先を確認
Zhijian Hou, Wanjun Zhong, Lei Ji, Difei Gao, Kun Yan, Wing-Kwong Chan, Chong-Wah Ngo, Zheng Shou, Nan Duan(参考訳) 本稿では、自然言語(NL)クエリに関連するビデオモーメントをローカライズする長大なビデオ時間的グラウンドリング(VTG)の新たな課題に取り組む。 短いビデオと比較すると、長いビデオも要求されるが、探究が減り、高い推論計算コストとより弱いマルチモーダルアライメントの新たな課題がもたらされる。 これらの課題に対処するため,我々は,効率的な粒度調整フレームワークであるconanを提案する。 CONEは既存のVTGモデルの上にプラグアンドプレイのフレームワークで、スライドウィンドウ機構を通じて長いビデオを処理する。 具体的には,(1)推論を高速化するクエリ誘導ウィンドウ選択戦略を導入し,(2)コントラスト学習を取り入れた粗大なメカニズムを提案し,長いビデオのマルチモーダルアライメントを強化する。 大規模な2つのVTGベンチマークの大規模な実験は、連続して実質的なパフォーマンス向上(MADでは3.13%から6.87%)と最先端の結果の両方を示している。 また、クエリ誘導ウィンドウ選択機構は、Ego4D-NLQで2倍、MADで15倍の推論時間を加速し、SOTA結果を保ちながら効率が向上する。 コードはhttps://github.com/houzhijian/coneでリリースされた。

This paper tackles an emerging and challenging problem of long video temporal grounding~(VTG) that localizes video moments related to a natural language (NL) query. Compared with short videos, long videos are also highly demanded but less explored, which brings new challenges in higher inference computation cost and weaker multi-modal alignment. To address these challenges, we propose CONE, an efficient COarse-to-fiNE alignment framework. CONE is a plug-and-play framework on top of existing VTG models to handle long videos through a sliding window mechanism. Specifically, CONE (1) introduces a query-guided window selection strategy to speed up inference, and (2) proposes a coarse-to-fine mechanism via a novel incorporation of contrastive learning to enhance multi-modal alignment for long videos. Extensive experiments on two large-scale long VTG benchmarks consistently show both substantial performance gains (e.g., from 3.13% to 6.87% on MAD) and state-of-the-art results. Analyses also reveal higher efficiency as the query-guided window selection mechanism accelerates inference time by 2x on Ego4D-NLQ and 15x on MAD while keeping SOTA results. Codes have been released at https://github.com/houzhijian/CONE.
翻訳日:2023-06-01 02:35:53 公開日:2023-05-30
# バックトラック対策

Backtracking Counterfactuals ( http://arxiv.org/abs/2211.00472v3 )

ライセンス: Link先を確認
Julius von K\"ugelgen, Abdirisak Mohamed, Sander Beckers(参考訳) 擬似推論 - 仮説的シナリオや可能な世界を想定したもので、実際に何が起こったか(事実)とは異なる状況が、人間の認知においてどこにでもある。 従来、反実的な状況は、同じ初期条件を共有しながら自然の法則に違反した「小さな奇跡」として扱われてきた。 パールの構造因果モデル(SCM)フレームワークでは、これは因果関係変数の値が共有されている間に因果関係の法則を変更する介入によって数学的に厳密になる。 しかし、近年では、この純粋に介入主義的な反事実論は、哲学者と心理学者の両方から精査されている。 むしろ彼らは、反事実的世界において因果関係の法則が変わらず、事実的世界との違いは、変化した初期条件(外在的変数)に"逆追跡"されることを示唆している。 本研究は,SCMフレームワーク内で,この代替手法を検証し,定式化するものである。 人間のバックトラックの証拠は豊富だが、現在の研究は私たちの知る限りでは、バックトラックのカウンターファクトリーの最初の一般的な説明とアルゴリズムである。 本稿では,関連文献の文脈におけるバックトラックセマンティクスについて論じるとともに,最近の説明可能な人工知能(XAI)の発展に結びついている。

Counterfactual reasoning -- envisioning hypothetical scenarios, or possible worlds, where some circumstances are different from what (f)actually occurred (counter-to-fact) -- is ubiquitous in human cognition. Conventionally, counterfactually-altered circumstances have been treated as "small miracles" that locally violate the laws of nature while sharing the same initial conditions. In Pearl's structural causal model (SCM) framework this is made mathematically rigorous via interventions that modify the causal laws while the values of exogenous variables are shared. In recent years, however, this purely interventionist account of counterfactuals has increasingly come under scrutiny from both philosophers and psychologists. Instead, they suggest a backtracking account of counterfactuals, according to which the causal laws remain unchanged in the counterfactual world; differences to the factual world are instead "backtracked" to altered initial conditions (exogenous variables). In the present work, we explore and formalise this alternative mode of counterfactual reasoning within the SCM framework. Despite ample evidence that humans backtrack, the present work constitutes, to the best of our knowledge, the first general account and algorithmisation of backtracking counterfactuals. We discuss our backtracking semantics in the context of related literature and draw connections to recent developments in explainable artificial intelligence (XAI).
翻訳日:2023-06-01 02:27:54 公開日:2023-05-30
# ランダム化試験における精度とパワー向上のための最適戦略の適応的選択

Adaptive Selection of the Optimal Strategy to Improve Precision and Power in Randomized Trials ( http://arxiv.org/abs/2210.17453v2 )

ライセンス: Link先を確認
Laura B. Balzer, Erica Cai, Lucas Godoy Garraza, Pracheta Amaranath(参考訳) benkeserらは、ランダム化試行におけるベースライン共変量の調整が、様々なアウトカムタイプの精度を有意義に改善することを示す。 この発見は1932年にr・a・フィッシャーと共に始まり、アメリカ食品医薬品局(fda)と欧州医薬品局(esa)の支持を得た。 ここでは,<I>I</I>のエラー制御を維持しつつ,どの変数とどの形式で,精度を最大化する調整アプローチを選択するか。 Balzer らは以前 TMLE 内で *Adaptive Prespecification* を提案し、事前指定された集合から、小さな試行において経験的効率を最大化するアプローチ(N$<40)を柔軟かつ自動的に選択した。 数個のランダム単位で過剰にフィットするのを避けるために、選択は1つの共変量に調整して機能する一般化線形モデルに限定されていた。 現在、アダプティブ・プレ種別を多くのランダム化ユニットで試行に調整しています。 損失関数として$V$フォールドのクロスバリデーションと推定影響曲線を使用すれば、複数の共変量に対応する現代的な機械学習手法を含む、拡張された候補セットから選択できる。 様々なデータ生成プロセスのシミュレーションで評価されているように、我々の手法はType-Iエラー制御を(nullの下で)維持し、同じ統計パワーに対してサンプルサイズの20~43倍の削減に相当する精度で大幅に向上する。 ACTG Study 175の実際のデータに適用すると、全体としてもサブグループ内でも有意義な効率改善が見られる。

Benkeser et al. demonstrate how adjustment for baseline covariates in randomized trials can meaningfully improve precision for a variety of outcome types. Their findings build on a long history, starting in 1932 with R.A. Fisher and including more recent endorsements by the U.S. Food and Drug Administration and the European Medicines Agency. Here, we address an important practical consideration: *how* to select the adjustment approach -- which variables and in which form -- to maximize precision, while maintaining Type-I error control. Balzer et al. previously proposed *Adaptive Prespecification* within TMLE to flexibly and automatically select, from a prespecified set, the approach that maximizes empirical efficiency in small trials (N$<$40). To avoid overfitting with few randomized units, selection was previously limited to working generalized linear models, adjusting for a single covariate. Now, we tailor Adaptive Prespecification to trials with many randomized units. Using $V$-fold cross-validation and the estimated influence curve-squared as the loss function, we select from an expanded set of candidates, including modern machine learning methods adjusting for multiple covariates. As assessed in simulations exploring a variety of data generating processes, our approach maintains Type-I error control (under the null) and offers substantial gains in precision -- equivalent to 20-43\% reductions in sample size for the same statistical power. When applied to real data from ACTG Study 175, we also see meaningful efficiency improvements overall and within subgroups.
翻訳日:2023-06-01 02:27:31 公開日:2023-05-30
# 削除に基づく説明の効率性と一貫性のトレードオフ

Trade-off Between Efficiency and Consistency for Removal-based Explanations ( http://arxiv.org/abs/2210.17426v2 )

ライセンス: Link先を確認
Yifan Zhang, Haowei He, Zhiquan Tan, Yang Yuan(参考訳) 現在の説明方法論のランドスケープでは、shapやlimeといった主要なアプローチは、特定の特徴を省略した様々なシナリオをシミュレートして、個々の特徴の影響を評価するために削除ベースの手法を採用している。 しかしながら、これらの手法は主に元の文脈における効率性を強調し、しばしば一般的な矛盾をもたらす。 本稿では,このような不整合性は,解釈可能性,効率性,一貫性が同時に保持できないことを示唆する不合理三元論を確立することによって,これらのアプローチの本質的な側面であることを示す。 理想的な説明の達成がいまだ解明されていないことを認識し,不整合性と非効率性を評価する指標として解釈誤差の利用を提案する。 そこで本研究では,解釈誤差の最小化を目的とした2つの新しいアルゴリズムを提案する。 実験の結果,提案手法は解釈誤差を最大31.8倍に低減できることがわかった。

In the current landscape of explanation methodologies, most predominant approaches, such as SHAP and LIME, employ removal-based techniques to evaluate the impact of individual features by simulating various scenarios with specific features omitted. Nonetheless, these methods primarily emphasize efficiency in the original context, often resulting in general inconsistencies. In this paper, we demonstrate that such inconsistency is an inherent aspect of these approaches by establishing the Impossible Trinity Theorem, which posits that interpretability, efficiency and consistency cannot hold simultaneously. Recognizing that the attainment of an ideal explanation remains elusive, we propose the utilization of interpretation error as a metric to gauge inconsistencies and inefficiencies. To this end, we present two novel algorithms founded on the standard polynomial basis, aimed at minimizing interpretation error. Our empirical findings indicate that the proposed methods achieve a substantial reduction in interpretation error, up to 31.8 times lower when compared to alternative techniques.
翻訳日:2023-06-01 02:27:02 公開日:2023-05-30
# オンライン変化点検出のためのニューラルネットワークCUSUM

Neural Network-based CUSUM for Online Change-point Detection ( http://arxiv.org/abs/2210.17312v5 )

ライセンス: Link先を確認
Junghwan Lee, Tingnan Gong, Xiuyuan Cheng, Yao Xie(参考訳) 逐次データからデータ分布の急変を検出する変化点検出は、統計学や機械学習における根本的な問題である。 CUSUMは、再帰的計算と一定のメモリ要求から効率よくオンライン変更点検出を行うための一般的な統計手法であり、統計的最適性を持っている。 CUSUMは、変更前と変更後の正確な分布を知る必要がある。 しかし、変遷後の分布は、通常、異常と新規性を表すため、事前性が不明である。 モデルと実際のデータとのミスマッチがある場合、古典的なCUSUMは性能が良くない。 確率比に基づく手法は高次元の課題に直面するが、ニューラルネットワークは計算効率とスケーラビリティを備えた変化点検出の新たなツールになりつつある。 本稿では,オンライン変更点検出のためのニューラルネットワークCUSUM(NN-CUSUM)を提案する。 また、トレーニングされたニューラルネットワークが変化点検出を行い、損失が目標を達成する場合の一般的な理論的条件を示す。 平均ラン長(ARL)や予測検出遅延(EDD)など,標準的なパフォーマンス指標の学習保証を確立するために,ニューラルタンジェントカーネル理論と組み合わせることで,分析をさらに拡張する。 NN-CUSUMの強靭な性能は、合成データと実世界のデータの両方を用いて高次元データの変化点を検出する。

Change-point detection, detecting an abrupt change in the data distribution from sequential data, is a fundamental problem in statistics and machine learning. CUSUM is a popular statistical method for online change-point detection due to its efficiency from recursive computation and constant memory requirement, and it enjoys statistical optimality. CUSUM requires knowing the precise pre- and post-change distribution. However, post-change distribution is usually unknown a priori since it represents anomaly and novelty. When there is a model mismatch with actual data, classic CUSUM can perform poorly. While likelihood ratio-based methods encounter challenges in high dimensions, neural networks have become an emerging tool for change-point detection with computational efficiency and scalability. In this paper, we introduce a neural network CUSUM (NN-CUSUM) for online change-point detection. We also present a general theoretical condition when the trained neural networks can perform change-point detection and what losses can achieve our goal. We further extend our analysis by combining it with the Neural Tangent Kernel theory to establish learning guarantees for the standard performance metrics, including the average run length (ARL) and expected detection delay (EDD). The strong performance of NN-CUSUM is demonstrated in detecting change-point in high-dimensional data using both synthetic and real-world data.
翻訳日:2023-06-01 02:26:44 公開日:2023-05-30
# 離散結果量子センサネットワーク

Discrete outcome quantum sensor networks ( http://arxiv.org/abs/2210.17254v2 )

ライセンス: Link先を確認
Mark Hillery, Himanshu Gupta, and Caitao Zhan(参考訳) 量子状態判別の手法を用いて量子センサネットワークをモデル化する。 量子ビット検出器と環境との相互作用はユニタリ演算子によって記述され、少なくとも1つの検出器が相互作用することを仮定する。 タスクは、どちらがやるか、誰もやらないかを判断することです。 これには検出器の初期状態の選択と測定が含まれる。 すべての検出器を同時に測定するグローバルな測定について考察する。 絡み合った初期状態は検出確率を向上させることができるが、検出器数が増えるにつれてこの利点は減少する。

We model a quantum sensor network using techniques from quantum state discrimination. The interaction between a qubit detector and the environment is described by a unitary operator, and we will assume that at most one detector does interact. The task is to determine which one does or if none do. This involves choosing an initial state of the detectors and a measurement. We consider global measurements in which all detectors are measured simultaneously. We find that an entangled initial state can improve the detection probability, but this advantage decreases as the number of detectors increases.
翻訳日:2023-06-01 02:26:22 公開日:2023-05-30
# 男性は洗濯もする:マルチ属性バイアス増幅

Men Also Do Laundry: Multi-Attribute Bias Amplification ( http://arxiv.org/abs/2210.11924v3 )

ライセンス: Link先を確認
Dora Zhao, Jerone T.A. Andrews, Alice Xiang(参考訳) コンピュータビジョンシステムがより広く展開されるにつれて、研究コミュニティと一般の双方から、これらのシステムは再生だけでなく、有害な社会的バイアスを増幅しているという懸念が高まっている。 この研究の焦点であるバイアス増幅の現象は、テスト時に固有のトレーニングセットのバイアスを増幅するモデルを指す。 既存のメトリクスは、単一のアノテート属性(例えば$\texttt{ computer}$)に対するバイアス増幅を測定する。 しかし、いくつかのビジュアルデータセットは複数の属性アノテーションを持つイメージで構成されている。 モデルが複数の属性(例えば {$\texttt{computer}$, $\texttt{keyboard}$})に対する相関を活用できることを示す。 さらに,現在の指標は,正の値と負の値の集約を伴うバイアス増幅が最小あるいは全く発生していないという誤った印象を与える。 さらに、これらのメトリクスには明確な望ましい価値がなく、解釈が難しい。 これらの欠点に対処するため,我々はマルチ属性バイアス増幅という新しい指標を提案する。 提案手法は,COCOおよびImsituデータセットにおける性別バイアス増幅の分析を通じて検証する。 最後に,提案手法を用いたバイアス緩和手法のベンチマークを行い,将来のバイアス軽減への道筋を示唆する。

As computer vision systems become more widely deployed, there is increasing concern from both the research community and the public that these systems are not only reproducing but amplifying harmful social biases. The phenomenon of bias amplification, which is the focus of this work, refers to models amplifying inherent training set biases at test time. Existing metrics measure bias amplification with respect to single annotated attributes (e.g., $\texttt{computer}$). However, several visual datasets consist of images with multiple attribute annotations. We show models can learn to exploit correlations with respect to multiple attributes (e.g., {$\texttt{computer}$, $\texttt{keyboard}$}), which are not accounted for by current metrics. In addition, we show current metrics can give the erroneous impression that minimal or no bias amplification has occurred as they involve aggregating over positive and negative values. Further, these metrics lack a clear desired value, making them difficult to interpret. To address these shortcomings, we propose a new metric: Multi-Attribute Bias Amplification. We validate our proposed metric through an analysis of gender bias amplification on the COCO and imSitu datasets. Finally, we benchmark bias mitigation methods using our proposed metric, suggesting possible avenues for future bias mitigation
翻訳日:2023-06-01 02:26:02 公開日:2023-05-30
# saliency map の動詞化:モデルフリーと命令ベースによる特徴重要表現の比較

Saliency Map Verbalization: Comparing Feature Importance Representations from Model-free and Instruction-based Methods ( http://arxiv.org/abs/2210.07222v2 )

ライセンス: Link先を確認
Nils Feldhus, Leonhard Hennig, Maximilian Dustin Nasert, Christopher Ebert, Robert Schwarzenberg, Sebastian M\"oller(参考訳) 塩分マップは、重要な入力特徴を識別することで、神経モデルの予測を説明することができる。 平凡な人、特に多くの特徴のある人には解釈が難しい。 よりアクセシビリティを高めるために、私たちは、自然言語にサリエンシマップを翻訳する未調査のタスクを形式化し、このアプローチの2つの重要な課題、すなわち、何とどのように言語化すべきかに対処する手法を比較します。 テキスト分類タスクからのトークンレベルの帰属を用いた自動評価と人間評価のいずれにおいても,従来の特徴重要表現(ヒートマップの可視化と抽出的合理化)と,同時性,忠実性,有用性,理解の容易さという2つの新しい手法(検索ベースと命令ベースの動詞化)を比較した。 gpt-3.5にサリエンシーマップを生成するよう指示すると、連想、抽象要約、常識推論を含む説得可能な説明が得られ、最高評価を極端に達成するが、それらは数値情報を忠実に捉えてはおらず、タスクの解釈に一貫性がない。 比較として,我々の検索に基づくモデル自由動詞化手法は,テンプレート言語化を効率よく完了し,設計に忠実であるが,有用性やシミュラビリティに乏しい。 以上の結果から,サリエンシーマップの動詞化により,特徴帰属説明は,従来の表現よりも理解しやすく,認知的にも困難であることが示唆された。

Saliency maps can explain a neural model's predictions by identifying important input features. They are difficult to interpret for laypeople, especially for instances with many features. In order to make them more accessible, we formalize the underexplored task of translating saliency maps into natural language and compare methods that address two key challenges of this approach -- what and how to verbalize. In both automatic and human evaluation setups, using token-level attributions from text classification tasks, we compare two novel methods (search-based and instruction-based verbalizations) against conventional feature importance representations (heatmap visualizations and extractive rationales), measuring simulatability, faithfulness, helpfulness and ease of understanding. Instructing GPT-3.5 to generate saliency map verbalizations yields plausible explanations which include associations, abstractive summarization and commonsense reasoning, achieving by far the highest human ratings, but they are not faithfully capturing numeric information and are inconsistent in their interpretation of the task. In comparison, our search-based, model-free verbalization approach efficiently completes templated verbalizations, is faithful by design, but falls short in helpfulness and simulatability. Our results suggest that saliency map verbalization makes feature attribution explanations more comprehensible and less cognitively challenging to humans than conventional representations.
翻訳日:2023-06-01 02:25:20 公開日:2023-05-30
# 時系列の逐次予測等式推論

Sequential Predictive Conformal Inference for Time Series ( http://arxiv.org/abs/2212.03463v3 )

ライセンス: Link先を確認
Chen Xu, Yao Xie(参考訳) 逐次データ(例えば時系列)に対する分布自由な共形予測アルゴリズムを新たに提案し,そのアルゴリズムを \textit{sequential predictive conformal inference} (\texttt{SPCI}) と呼ぶ。 具体的には,時系列データは交換不可能であり,既存の共形予測アルゴリズムでは適用できない性質を具体的に説明する。 主な考え方は、時間的依存を利用して非整合性スコア(例えば、予測残差)の条件量子を適応的に再推定することである。 より正確には、ユーザ特定点予測アルゴリズムにより、後続残差の量子化予測として共形予測間隔の問題をキャストする。 理論的には、質的回帰の一貫性解析を拡張することによって漸近的有効条件範囲を確立する。 シミュレーションと実データ実験を用いて, 所望の実験範囲における他の既存手法と比較して, 区間幅が有意に減少することを示す。

We present a new distribution-free conformal prediction algorithm for sequential data (e.g., time series), called the \textit{sequential predictive conformal inference} (\texttt{SPCI}). We specifically account for the nature that time series data are non-exchangeable, and thus many existing conformal prediction algorithms are not applicable. The main idea is to adaptively re-estimate the conditional quantile of non-conformity scores (e.g., prediction residuals), upon exploiting the temporal dependence among them. More precisely, we cast the problem of conformal prediction interval as predicting the quantile of a future residual, given a user-specified point prediction algorithm. Theoretically, we establish asymptotic valid conditional coverage upon extending consistency analyses in quantile regression. Using simulation and real-data experiments, we demonstrate a significant reduction in interval width of \texttt{SPCI} compared to other existing methods under the desired empirical coverage.
翻訳日:2023-06-01 02:19:40 公開日:2023-05-30
# 多層マルチコンフィグレーションアプローチによる乱れ量子スピンモデルの研究

Exploring Disordered Quantum Spin Models with a Multi-Layer Multi-Configurational Approach ( http://arxiv.org/abs/2212.02254v4 )

ライセンス: Link先を確認
Fabian K\"ohler, Rick Mukherjee, Peter Schmelcher(参考訳) 量子スピンモデルの数値シミュレーションは、物理学の様々な研究領域における多体現象の深い理解に不可欠である。 際立った問題は、絡み合うエントロピーの領域法に反するシステムに取り組む方法が利用できることである。 このようなシナリオは、乱れた量子スピンシステムなどを含む、幅広い説得力のある物理的状況をカバーする。 本研究では,複数の乱れたスピンモデルの基底状態を評価するために,多層マルチコンフィグレーション時間依存Hartree (ML-MCTDH) と呼ばれる数値手法を用いる。 ml-mctdhは分子物理学や超低温物理学における高次元量子力学の問題の研究に用いられてきたが、スピン系の研究に初めて用いられる。 1次元と2次元の空間次元で結果を示すために、本手法の固有の柔軟性を活用し、長距離相互作用と障害を含む挑戦的なセットアップを扱う。 この結果から,ML-MCTDH固有の階層的多層構造は,次元の異なるスピンダイナミクスなど,幅広い量子多体問題に対処できる可能性が示唆された。

Numerical simulations of quantum spin models are crucial for a profound understanding of many-body phenomena in a variety of research areas in physics. An outstanding problem is the availability of methods to tackle systems that violate area-laws of entanglement entropy. Such scenarios cover a wide range of compelling physical situations including disordered quantum spin systems among others. In this work, we employ a numerical technique referred to as multi-layer multi-configuration time-dependent Hartree (ML-MCTDH) to evaluate the ground state of several disordered spin models. ML-MCTDH has previously been used to study problems of high-dimensional quantum dynamics in molecular and ultracold physics but is here applied to study spin systems for the first time. We exploit the inherent flexibility of the method to present results in one and two spatial dimensions and treat challenging setups that incorporate long-range interactions as well as disorder. Our results suggest that the hierarchical multi-layering inherent to ML-MCTDH allows to tackle a wide range of quantum many-body problems such as spin dynamics of varying dimensionality.
翻訳日:2023-06-01 02:19:22 公開日:2023-05-30
# GPT-3による子どもの興味ある質問応答スキルの育成

GPT-3-driven pedagogical agents for training children's curious question-asking skills ( http://arxiv.org/abs/2211.14228v6 )

ライセンス: Link先を確認
Rania Abdelghani, Yen-Hsiang Wang, Xingdi Yuan, Tong Wang, Pauline Lucas, H\'el\`ene Sauz\'eon and Pierre-Yves Oudeyer(参考訳) 好奇心を駆使した質問を行う子どもの能力を訓練するために、これまでの研究では、そのような質問を定式化するための意味的および言語的手がかりを提供することに依存する特定の演習を設計することを検討した。 しかし、教育的効率を示すにもかかわらず、この方法は手作業でその手がかりを生成することに依存しているため、非常にコストのかかるプロセスである。 本稿では、自然言語処理分野(NLP)の進歩を活用し、興味ある質問応答(QA)トレーニングの教育内容の自動生成に大規模言語モデル(LLM)を用いることの効率性を検討することを提案する。 本研究では,この課題を自然文で LLM に説明するための "prompt-based" 手法を用いて,その内容を生成する。 人的専門家のアノテーションと手作りコンテンツとの比較を用いて評価を行った。 その結果,本コンテンツの有用性と有用性が示唆された。 また,小学校(75歳,9~10歳)のフィールドスタディも実施し,このトレーニングを行った場合のQA評価を行った。 1) 事前定義された質問に導く「閉じた」手がかりを提案する手作りコンテンツの比較を行う。 2)同じ種類の手がかりを提案するGPT-3生成コンテンツ 3) GPT-3 生成コンテンツは「オープン」な手がかりを提示し,いくつかの疑問が浮かび上がった。 2つの"クローズド"トレーニング(GPT-3を使用したアプローチのスケーラビリティを示す)と、"オープン"トレーニングの参加者に対して、同様のQAパフォーマンスが見られます。 これらの結果は、教師や他のai技術の専門家ではなく、ユーザビリティを提供する自然言語プロンプトアプローチを用いて、子供を支援するためにllmを使用する効率を示唆する。 さらに,オープンエンドコンテンツは,好奇心の強い質問応答スキルのトレーニングに適している可能性が示唆された。

In order to train children's ability to ask curiosity-driven questions, previous research has explored designing specific exercises relying on providing semantic and linguistic cues to help formulate such questions. But despite showing pedagogical efficiency, this method is still limited as it relies on generating the said cues by hand, which can be a very costly process. In this context, we propose to leverage advances in the natural language processing field (NLP) and investigate the efficiency of using a large language model (LLM) for automating the production of the pedagogical content of a curious question-asking (QA) training. We study generating the said content using the "prompt-based" method that consists of explaining the task to the LLM in natural text. We evaluate the output using human experts annotations and comparisons with hand-generated content. Results suggested indeed the relevance and usefulness of this content. We also conduct a field study in primary school (75 children aged 9-10), where we evaluate children's QA performance when having this training. We compare 3 types of content : 1) hand-generated content that proposes "closed" cues leading to predefined questions; 2) GPT-3-generated content that proposes the same type of cues; 3) GPT-3-generated content that proposes "open" cues leading to several possible questions. We see a similar QA performance between the two "closed" trainings (showing the scalability of the approach using GPT-3), and a better one for participants with the "open" training. These results suggest the efficiency of using LLMs to support children in generating more curious questions, using a natural language prompting approach that affords usability by teachers and other users not specialists of AI techniques. Furthermore, results also show that open-ended content may be more suitable for training curious question-asking skills.
翻訳日:2023-06-01 02:19:02 公開日:2023-05-30
# 動的線形バンディット

Dynamical Linear Bandits ( http://arxiv.org/abs/2211.08997v2 )

ライセンス: Link先を確認
Marco Mussi, Alberto Maria Metelli and Marcello Restelli(参考訳) 多くの実世界のシーケンシャルな意思決定問題において、アクションはすぐにフィードバックを反映せず、その効果を長い時間枠で広げる。 例えば、オンライン広告では、プラットフォームへの投資は瞬時に認知の増大をもたらすが、実際の報酬、すなわち変換は将来的にははるかに起こるかもしれない。 さらに、変換が行われるかどうかは、認知度がどの程度速くなり、その消失効果、他の広告プラットフォームとのシナジーや干渉などに依存する。 前回の研究では、アクションが将来どのように伝播するかという特定の構造がなく、動的効果を無視して、遅延フィードバックと集約フィードバックの可能性を伴って、マルチアームのバンディットフレームワークを調査した。 本稿では,隠れ状態に特徴付けられる線形帯域の拡張である動的線形帯域(DLB)について紹介する。 アクションが実行されると、学習者は、平均が隠れた状態と動作の線形関数であるうるさい報酬を観察する。 そして、隠れた状態は線形ダイナミクスに従って進化し、実行されたアクションにも影響される。 まず、設定を導入し、最適政策の概念を議論し、期待された後悔の限界を導出することから始める。 次に、楽観的な後悔の最小化アルゴリズムdynlin-ucb(dynamical linear upper confidence bound)を提供し、それは$\widetilde{\mathcal{o}} \big( \frac{d \sqrt{t}}{(1-\overline{\rho})^{3/2}} \big)$であり、ここで$\overline{\rho}$はシステムの安定性の尺度であり、$d$はアクションベクトルの次元である。 最後に,DynLin-UCBの有効性を示すために,合成環境と実世界のデータを用いた数値検証を行った。

In many real-world sequential decision-making problems, an action does not immediately reflect on the feedback and spreads its effects over a long time frame. For instance, in online advertising, investing in a platform produces an instantaneous increase of awareness, but the actual reward, i.e., a conversion, might occur far in the future. Furthermore, whether a conversion takes place depends on: how fast the awareness grows, its vanishing effects, and the synergy or interference with other advertising platforms. Previous work has investigated the Multi-Armed Bandit framework with the possibility of delayed and aggregated feedback, without a particular structure on how an action propagates in the future, disregarding possible dynamical effects. In this paper, we introduce a novel setting, the Dynamical Linear Bandits (DLB), an extension of the linear bandits characterized by a hidden state. When an action is performed, the learner observes a noisy reward whose mean is a linear function of the hidden state and of the action. Then, the hidden state evolves according to linear dynamics, affected by the performed action too. We start by introducing the setting, discussing the notion of optimal policy, and deriving an expected regret lower bound. Then, we provide an optimistic regret minimization algorithm, Dynamical Linear Upper Confidence Bound (DynLin-UCB), that suffers an expected regret of order $\widetilde{\mathcal{O}} \Big( \frac{d \sqrt{T}}{(1-\overline{\rho})^{3/2}} \Big)$, where $\overline{\rho}$ is a measure of the stability of the system, and $d$ is the dimension of the action vector. Finally, we conduct a numerical validation on a synthetic environment and on real-world data to show the effectiveness of DynLin-UCB in comparison with several baselines.
翻訳日:2023-06-01 02:18:28 公開日:2023-05-30
# 複数選択読解における世界知識

World Knowledge in Multiple Choice Reading Comprehension ( http://arxiv.org/abs/2211.07040v2 )

ライセンス: Link先を確認
Adian Liusie, Vatsal Raina, Mark Gales(参考訳) 近年,コンテキストパスへのアクセスがないと,MCRC(Multiple choice read comprehension)システムでは,ランダムな回答が平均よりもはるかに優れていることが示されている。 これらのシステムは、蓄積した「世界知識」を使って、通路からの情報を使わずに、直接質問に答える。 本稿では,この観察をテストデザイナのツールとして活用し,特定の質問に対して「世界知識」の使用が許容可能であることを確認する。 本稿では,システムから活用される「世界知識」のレベルを評価するための情報理論に基づくメトリクスを提案する。 2つの指標が述べられている: パスフリーなシステムが世界知識を用いて質問を識別できるかどうかを測定するオプションの数と、与えられた質問に対する文脈の重要性を測定するコンテキスト相互情報である。 提案手法では, 候補数が少なく, ショートカットシステムによって答えられる質問も, 文脈のない人間でも答えられることがしばしば示されている。 このことは、'ショートカット'という一般的な知識が試験候補でも同じように利用でき、提案した指標が将来のテスト設計者が質問の質を監視するのに役立つことを強調している。

Recently it has been shown that without any access to the contextual passage, multiple choice reading comprehension (MCRC) systems are able to answer questions significantly better than random on average. These systems use their accumulated "world knowledge" to directly answer questions, rather than using information from the passage. This paper examines the possibility of exploiting this observation as a tool for test designers to ensure that the use of "world knowledge" is acceptable for a particular set of questions. We propose information-theory based metrics that enable the level of "world knowledge" exploited by systems to be assessed. Two metrics are described: the expected number of options, which measures whether a passage-free system can identify the answer a question using world knowledge; and the contextual mutual information, which measures the importance of context for a given question. We demonstrate that questions with low expected number of options, and hence answerable by the shortcut system, are often similarly answerable by humans without context. This highlights that the general knowledge 'shortcuts' could be equally used by exam candidates, and that our proposed metrics may be helpful for future test designers to monitor the quality of questions.
翻訳日:2023-06-01 02:17:49 公開日:2023-05-30
# FedGen: シークエンシャルデータのための一般化可能なフェデレーションラーニング

FedGen: Generalizable Federated Learning for Sequential Data ( http://arxiv.org/abs/2211.01914v2 )

ライセンス: Link先を確認
Praveen Venkateswaran, Vatche Isahagian, Vinod Muthusamy, Nalini Venkatasubramanian(参考訳) 機械学習の標準リスク最小化パラダイムに従う既存のフェデレーション学習モデルは、トレーニングデータに急激な相関が存在する場合、しばしば一般化に失敗する。 多くの実世界の分散環境では、偏りや分散デバイスやクライアント上のデータサンプリングの問題によって、誤った相関が発生する。 現在の一般化アプローチは、集中的なトレーニングのために設計され、ターゲットと不変因果関係を持つ特徴を識別しようとする。 しかし、このような不変リスク最小化アプローチは、多くのアプリケーションでは入手が難しい訓練データ分布のアプライオリ知識に依存している。 本稿では,FedGenと呼ばれる汎用的なフェデレーション学習フレームワークを提案する。これにより,クライアントは,学習分布の事前知識を必要とせずに,刺激的特徴と不変特徴を協調的に識別し,識別することができる。 我々は、異なるドメインからの実世界のデータセットに対するアプローチを評価し、FedGenがより優れた一般化を実現し、現在のフェデレーション学習アプローチの精度を24%以上向上できるモデルをもたらすことを示す。

Existing federated learning models that follow the standard risk minimization paradigm of machine learning often fail to generalize in the presence of spurious correlations in the training data. In many real-world distributed settings, spurious correlations exist due to biases and data sampling issues on distributed devices or clients that can erroneously influence models. Current generalization approaches are designed for centralized training and attempt to identify features that have an invariant causal relationship with the target, thereby reducing the effect of spurious features. However, such invariant risk minimization approaches rely on apriori knowledge of training data distributions which is hard to obtain in many applications. In this work, we present a generalizable federated learning framework called FedGen, which allows clients to identify and distinguish between spurious and invariant features in a collaborative manner without prior knowledge of training distributions. We evaluate our approach on real-world datasets from different domains and show that FedGen results in models that achieve significantly better generalization and can outperform the accuracy of current federated learning approaches by over 24%.
翻訳日:2023-06-01 02:17:01 公開日:2023-05-30
# 反復反転による学習制御

Learning Control by Iterative Inversion ( http://arxiv.org/abs/2211.01724v2 )

ライセンス: Link先を確認
Gal Leibovich, Guy Jacob, Or Avner, Gal Novik and Aviv Tamar(参考訳) 入力出力対を使わずに逆関数を学習するアルゴリズムであり、所望の出力分布からのサンプルとフォワード関数へのアクセスのみを提供する。 重要な課題は、所望の出力と初期ランダム推測の出力の間で$\textit{distribution shift}$である。 反復反転を学習制御に適用する。 提案手法は,トラジェクタの映像埋め込み(動作を使わずに)として所望の動作の一連のデモンストレーションを行い,ランダムな探索ノイズによって引き起こされる現在の方針によって生じるトラジェクタの模倣を反復的に学習する。 われわれのアプローチでは報酬は必要とせず、教師あり学習のみを採用しており、最先端の軌跡埋め込み技術や政策表現を利用することが容易にできる。 実際、VQ-VAE埋め込みとトランスフォーマーベースのポリシーにより、いくつかのタスクにおいて非自明な連続制御を示す。 さらに,報酬に基づく手法と比較して,多様な行動を模倣する性能が向上したことを報告する。

We propose $\textit{iterative inversion}$ -- an algorithm for learning an inverse function without input-output pairs, but only with samples from the desired output distribution and access to the forward function. The key challenge is a $\textit{distribution shift}$ between the desired outputs and the outputs of an initial random guess, and we prove that iterative inversion can steer the learning correctly, under rather strict conditions on the function. We apply iterative inversion to learn control. Our input is a set of demonstrations of desired behavior, given as video embeddings of trajectories (without actions), and our method iteratively learns to imitate trajectories generated by the current policy, perturbed by random exploration noise. Our approach does not require rewards, and only employs supervised learning, which can be easily scaled to use state-of-the-art trajectory embedding techniques and policy representations. Indeed, with a VQ-VAE embedding, and a transformer-based policy, we demonstrate non-trivial continuous control on several tasks. Further, we report an improved performance on imitating diverse behaviors compared to reward based methods.
翻訳日:2023-06-01 02:16:43 公開日:2023-05-30
# 意味的インフォームド階層型イベントモデリング

Semantically-informed Hierarchical Event Modeling ( http://arxiv.org/abs/2212.10547v2 )

ライセンス: Link先を確認
Shubhashis Roy Dipta, Mehdi Rezaee, Francis Ferraro(参考訳) 先行研究は、逐次潜在変数モデルと意味的存在論的知識を結合させることで、イベントモデリングアプローチの表現能力を向上させることを示した。 本稿では,オントロジー階層を考慮しながら構造階層を提供する,新しい,二重階層的,半教師付きイベントモデリングフレームワークを提案する。 提案手法は,各層が前の層を圧縮・抽象化する,構造化潜在変数の複数の層から構成される。 私たちは、イベントのタイプレベルで定義された構造化オントロジー知識の注入を通じて、この圧縮を導く: 重要なことに、このモデルは、意味知識の部分的注入を可能にし、セマンティックオントロジーの特定のレベルでのインスタンスの観察に依存しません。 2つの異なるデータセットと4つの異なる評価指標で、私たちのアプローチは、これまでの最先端アプローチを最大8.5%上回るパフォーマンスを示し、イベントモデリングにおける構造化およびセマンティック階層的知識の利点を示しています。

Prior work has shown that coupling sequential latent variable models with semantic ontological knowledge can improve the representational capabilities of event modeling approaches. In this work, we present a novel, doubly hierarchical, semi-supervised event modeling framework that provides structural hierarchy while also accounting for ontological hierarchy. Our approach consists of multiple layers of structured latent variables, where each successive layer compresses and abstracts the previous layers. We guide this compression through the injection of structured ontological knowledge that is defined at the type level of events: importantly, our model allows for partial injection of semantic knowledge and it does not depend on observing instances at any particular level of the semantic ontology. Across two different datasets and four different evaluation metrics, we demonstrate that our approach is able to out-perform the previous state-of-the-art approaches by up to 8.5%, demonstrating the benefits of structured and semantic hierarchical knowledge for event modeling.
翻訳日:2023-06-01 02:08:34 公開日:2023-05-30
# One Embedder, Any Task: Instruction-Finetuned Text Embedddings

One Embedder, Any Task: Instruction-Finetuned Text Embeddings ( http://arxiv.org/abs/2212.09741v3 )

ライセンス: Link先を確認
Hongjin Su, Weijia Shi, Jungo Kasai, Yizhong Wang, Yushi Hu, Mari Ostendorf, Wen-tau Yih, Noah A. Smith, Luke Zettlemoyer, Tao Yu(参考訳) InSTRUCTORは、与えられたタスク命令にテキストを埋め込む新しい方法であり、すべてのテキスト入力がユースケースを説明する命令(タスクやドメイン記述など)と共に埋め込まれている。 より専門的な以前の作業のエンコーダとは異なり、INSTRUCTORは別の下流タスクやドメインに適したテキスト埋め込みを生成することができる単一の埋め込み器である。 まず330の多様なタスクの指示に注釈を付け、このマルチタスクのミックスでINSTRUCTORを訓練する。 InSTRUCTORを70の組込み評価タスク(うち66は訓練中に見つからない)で評価し、分類や情報検索から意味的テキスト類似性やテキスト生成評価までの範囲で評価する。 INSTRUCTORは、以前のベストモデルよりも桁違いに少ないパラメータを持つが、70の多様なデータセットの前のベストモデルと比べて平均3.4%改善され、最先端のパフォーマンスを達成する。 分析の結果,INSTRUCTORは命令の変化に対して頑健であり,命令の微調整は多様なデータセット上で単一モデルをトレーニングする難しさを軽減していることがわかった。 私たちのモデル、コード、データはhttps://instructor-embedding.github.ioで利用可能です。

We introduce INSTRUCTOR, a new method for computing text embeddings given task instructions: every text input is embedded together with instructions explaining the use case (e.g., task and domain descriptions). Unlike encoders from prior work that are more specialized, INSTRUCTOR is a single embedder that can generate text embeddings tailored to different downstream tasks and domains, without any further training. We first annotate instructions for 330 diverse tasks and train INSTRUCTOR on this multitask mixture with a contrastive loss. We evaluate INSTRUCTOR on 70 embedding evaluation tasks (66 of which are unseen during training), ranging from classification and information retrieval to semantic textual similarity and text generation evaluation. INSTRUCTOR, while having an order of magnitude fewer parameters than the previous best model, achieves state-of-the-art performance, with an average improvement of 3.4% compared to the previous best results on the 70 diverse datasets. Our analysis suggests that INSTRUCTOR is robust to changes in instructions, and that instruction finetuning mitigates the challenge of training a single model on diverse datasets. Our model, code, and data are available at https://instructor-embedding.github.io.
翻訳日:2023-06-01 02:08:16 公開日:2023-05-30
# LENS: テキスト単純化のための学習可能な評価基準

LENS: A Learnable Evaluation Metric for Text Simplification ( http://arxiv.org/abs/2212.09739v2 )

ライセンス: Link先を確認
Mounica Maddela, Yao Dou, David Heineman, Wei Xu(参考訳) 近年,機械翻訳の自動評価手法として,現代言語モデルを用いた学習可能なメトリクスのトレーニングが注目されている。 しかしながら、既存のテキスト簡易化のための人間評価データセットには、ユニタリモデルや時代遅れモデルに基づいた限定的なアノテーションがあるため、このアプローチには適さない。 これらの問題に対処するために、SimpEval_pastは24のシステムの2.4Kの簡易化に対して12Kの人間格付けを含むSimpEvalコーパスと、GPT-3.5生成したテキストを含む1K以上の人間格付けからなる挑戦的な単純化ベンチマークSimpEval_2022を紹介する。 テキスト簡易化のための学習可能な評価指標であるLENSを提案する。 大規模な実証実験の結果、LENSは既存の指標よりも人間の判断と相関し、テキスト単純化の評価における今後の進歩の道を開いた。 また,対話型インタフェースを用いて,複数のモデルからの単純化をリスト形式で評価する評価フレームワークであるrank and rateを導入することで,評価プロセスにおける一貫性と精度の両立を保証し,シムペバルデータセットの作成に利用する。

Training learnable metrics using modern language models has recently emerged as a promising method for the automatic evaluation of machine translation. However, existing human evaluation datasets for text simplification have limited annotations that are based on unitary or outdated models, making them unsuitable for this approach. To address these issues, we introduce the SimpEval corpus that contains: SimpEval_past, comprising 12K human ratings on 2.4K simplifications of 24 past systems, and SimpEval_2022, a challenging simplification benchmark consisting of over 1K human ratings of 360 simplifications including GPT-3.5 generated text. Training on SimpEval, we present LENS, a Learnable Evaluation Metric for Text Simplification. Extensive empirical results show that LENS correlates much better with human judgment than existing metrics, paving the way for future progress in the evaluation of text simplification. We also introduce Rank and Rate, a human evaluation framework that rates simplifications from several models in a list-wise manner using an interactive interface, which ensures both consistency and accuracy in the evaluation process and is used to create the SimpEval datasets.
翻訳日:2023-06-01 02:07:55 公開日:2023-05-30
# Mask-FPAN:非閉塞とUV GANで野生の半監督された顔解析

Mask-FPAN: Semi-Supervised Face Parsing in the Wild With De-Occlusion and UV GAN ( http://arxiv.org/abs/2212.09098v5 )

ライセンス: Link先を確認
Lei Li, Tianfang Zhang, Zhongfeng Kang, Xikun Jiang(参考訳) 近年,顔部分や頭部成分を含む顔と頭部の微細なセマンティックセグメンテーションが進んでいる。 しかし、あいまいなオクルージョンや大きなポーズのバリエーションを考慮することは特に難しい課題である。 これらの課題を克服するため,我々はMask-FPANと呼ばれる新しいフレームワークを提案する。 隠蔽モジュールを使って、隠蔽された顔を半教師付きの方法で解析する。 特に、顔のランドマークの定位、顔のオクルージョンの定位、検出された頭部のポーズを考慮に入れる。 UV GANと組み合わせた3次元顔モデルにより、2次元顔解析の堅牢性が向上する。 さらに、顔解析作業用にFaceOccMask-HQとCelebAMaskOcc-HQという2つの新しいデータセットを導入しました。 提案したMask-FPANフレームワークは、顔解析の問題に対処し、挑戦的な顔データセットに関する最先端技術と比較して、MIOUを0.7353から0.9013に改善した。

Fine-grained semantic segmentation of a person's face and head, including facial parts and head components, has progressed a great deal in recent years. However, it remains a challenging task, whereby considering ambiguous occlusions and large pose variations are particularly difficult. To overcome these difficulties, we propose a novel framework termed Mask-FPAN. It uses a de-occlusion module that learns to parse occluded faces in a semi-supervised way. In particular, face landmark localization, face occlusionstimations, and detected head poses are taken into account. A 3D morphable face model combined with the UV GAN improves the robustness of 2D face parsing. In addition, we introduce two new datasets named FaceOccMask-HQ and CelebAMaskOcc-HQ for face paring work. The proposed Mask-FPAN framework addresses the face parsing problem in the wild and shows significant performance improvements with MIOU from 0.7353 to 0.9013 compared to the state-of-the-art on challenging face datasets.
翻訳日:2023-06-01 02:07:31 公開日:2023-05-30
# 測定デバイス非依存量子秘密共有の破断速度-距離制限

Breaking Rate-Distance Limitation of Measurement-Device-Independent Quantum Secret Sharing ( http://arxiv.org/abs/2212.06148v2 )

ライセンス: Link先を確認
Chen-Long Li, Yao Fu, Wen-Bo Liu, Yuan-Mei Xie, Bing-Hong Li, Min-Gang Zhou, Hua-Lei Yin, Zeng-Bing Chen(参考訳) 現在、量子シークレット共有のほとんどの進歩はレート距離境界に苦しむため、キーレートは限られている。 キーレートの制限に加えて、技術的困難とそれに伴うコストが相まって、大規模なデプロイメントを妨げている。 さらに, 既存プロトコルの性能は, 参加者の攻撃を考慮せずに漸近的に解析される。 本稿では,キーレートと伝送距離を改良した測定デバイス非依存の量子秘密共有プロトコルについて報告する。 空間多重化に基づき,少なくとも10の通信相手のネットワーク上でのレート距離境界を破ることができることを示す。 他のプロトコルと比較して、我々の研究は秘密鍵レートを2桁以上改善し、送信距離を長くしている。 参加者攻撃を考慮した構成可能フレームワークにおけるプロトコルのセキュリティを解析し,その性能評価を行った。 さらに,既存のプロトコルと比較して,署名率が10^7ドル以上向上したデジタル署名に対して,我々のプロトコルを適用することを検討する。 我々は、量子ネットワーク上のマルチパーティアプリケーションに、我々の量子秘密共有プロトコルが確かな未来を提供することを期待している。

Currently most progresses on quantum secret sharing suffer from rate-distance bound, and thus the key rates are limited. In addition to the limited key rate, the technical difficulty and the corresponding cost together prevent large-scale deployment. Furthermore, the performance of most existing protocols is analyzed in the asymptotic regime without considering participant attacks. Here we report a measurement-device-independent quantum secret sharing protocol with improved key rate and transmission distance. Based on spatial multiplexing, our protocol shows it can break rate-distance bounds over network under at least ten communication parties. Compared with other protocols, our work improves the secret key rate by more than two orders of magnitude and has a longer transmission distance. We analyze the security of our protocol in the composable framework considering participant attacks and evaluate its performance in the finite-size regime. In addition, we investigate applying our protocol to digital signatures where the signature rate is improved more than $10^7$ times compared with existing protocols. We anticipate that our quantum secret sharing protocol will provide a solid future for multiparty applications on the quantum network.
翻訳日:2023-06-01 02:07:04 公開日:2023-05-30
# Promptingはプログラミング - 大規模言語モデルのためのクエリ言語

Prompting Is Programming: A Query Language for Large Language Models ( http://arxiv.org/abs/2212.06094v3 )

ライセンス: Link先を確認
Luca Beurer-Kellner, Marc Fischer, Martin Vechev(参考訳) 大規模言語モデルは、質問応答やコード生成など、幅広いタスクにおいて優れたパフォーマンスを示している。 高いレベルでは、入力が与えられると、言語モデルを使用して、統計的に類似した方法でシーケンスを自動補完することができる。 これに基づいて、ユーザはこれらのモデルを言語命令や例で促し、さまざまな下流タスクを実装する。 高度なプロンプト手法は、言語モデル、ユーザ、計算機などの外部ツール間のインタラクションを暗示することができる。 しかし、特定のタスクに対する最新のパフォーマンスや適応言語モデルを得るためには、複雑なタスクとモデル固有のプログラムを実装する必要がある。 そこで我々は,LMP(Language Model Programming)という新しいアイデアを提案する。 LMPは、純粋テキストプロンプトから直感的にテキストプロンプトとスクリプティングを組み合わせた言語モデルを一般化する。 加えて、LMPは言語モデルの出力に対して制約を指定できる。 これにより、言語モデルの内部を抽象化し、ハイレベルなセマンティクスを提供しながら、多くのタスクに簡単に適応できる。 lmpを有効にするために、lmpプロンプトからの制約と制御フローを活用するlmql(short for language model query language)を実装し、基礎となる言語モデルへの高価な呼び出し数を最小限に抑える効率的な推論手順を生成する。 LMQLは、直感的に幅広い最先端のプロンプトメソッドをキャプチャすることができ、特に既存のハイレベルAPIで実装するのが困難なインタラクティブなフローを容易にします。 評価の結果,複数のダウンストリームタスクの精度を維持したり,向上させたりしながら,従量課金API(26~85%のコスト削減)の場合に必要な計算量やコストを大幅に削減できることがわかった。

Large language models have demonstrated outstanding performance on a wide range of tasks such as question answering and code generation. On a high level, given an input, a language model can be used to automatically complete the sequence in a statistically-likely way. Based on this, users prompt these models with language instructions or examples, to implement a variety of downstream tasks. Advanced prompting methods can even imply interaction between the language model, a user, and external tools such as calculators. However, to obtain state-of-the-art performance or adapt language models for specific tasks, complex task- and model-specific programs have to be implemented, which may still require ad-hoc interaction. Based on this, we present the novel idea of Language Model Programming (LMP). LMP generalizes language model prompting from pure text prompts to an intuitive combination of text prompting and scripting. Additionally, LMP allows constraints to be specified over the language model output. This enables easy adaption to many tasks while abstracting language model internals and providing high-level semantics. To enable LMP, we implement LMQL(short for Language Model Query Language), which leverages the constraints and control flow from an LMP prompt to generate an efficient inference procedure that minimizes the number of expensive calls to the underlying language model. We show that LMQL can capture a wide range of state-of-the-art prompting methods in an intuitive way, especially facilitating interactive flows that are challenging to implement with existing high-level APIs. Our evaluation shows that we retain or increase the accuracy on several downstream tasks, while also significantly reducing the required amount of computation or cost in the case of pay-to-use APIs (26-85% cost savings).
翻訳日:2023-06-01 02:06:41 公開日:2023-05-30
# MIMOが必要なのは、ビデオ予測のための強力なマルチインマルチアウトベースライン

MIMO Is All You Need : A Strong Multi-In-Multi-Out Baseline for Video Prediction ( http://arxiv.org/abs/2212.04655v3 )

ライセンス: Link先を確認
Shuliang Ning, Mengcheng Lan, Yanran Li, Chaofeng Chen, Qian Chen, Xunlai Chen, Xiaoguang Han, Shuguang Cui(参考訳) ビデオ予測に対する既存のアプローチの主流は、現在のフレームを入力として、次のフレームを再帰的に予測するシングルインシングルアウト(SISO)アーキテクチャに基づくモデルを構築している。 この方法では、長期的な未来を推定しようとすると、パフォーマンスが悪化することが多いため、予測モデルの実用性が制限される。 あるいは、全ての将来のフレームを1ショットで出力するマルチインマルチアウト(mimo)アーキテクチャは、自然に再帰的な手法を破り、エラーの蓄積を防ぐ。 しかし、映像予測のためのMIMOモデルはほとんど提案されておらず、日時により性能が劣るだけである。 この領域におけるmimoモデルの真の強みはよく分かっておらず、ほとんど未調査である。 そこで我々は,シンプルなMIMOアーキテクチャがどこまで進めるかを徹底的に活用するために,包括的な調査を行う。 意外なことに、我々の経験的研究は、単純なMIMOモデルが、予想よりもはるかに大きなマージンを持つ最先端の作業、特に長期エラーの蓄積に優れた性能を発揮することを明らかにした。 多数の方法と設計を探索した後,ローカルな時空間ブロックを持つ純粋なトランスフォーマーを拡張したMIMOアーキテクチャと,MIMO-VPと呼ばれる新しいマルチ出力デコーダを提案し,ビデオ予測における新しい標準を確立する。 我々は、MNIST、Human3.6M、Weather、KITTIの4つの非常に競争性の高いベンチマークでモデルを評価した。 広範な実験により,我々のモデルが優れた性能向上率ですべてのベンチマークで1位を獲得し,効率,量,品質といったあらゆる面で最高のsisoモデルを超えていることが示された。 我々は,ビデオ予測タスクの今後の研究を促進するために,我々のモデルは新たなベースラインとして機能すると考えている。 コードはリリースされます。

The mainstream of the existing approaches for video prediction builds up their models based on a Single-In-Single-Out (SISO) architecture, which takes the current frame as input to predict the next frame in a recursive manner. This way often leads to severe performance degradation when they try to extrapolate a longer period of future, thus limiting the practical use of the prediction model. Alternatively, a Multi-In-Multi-Out (MIMO) architecture that outputs all the future frames at one shot naturally breaks the recursive manner and therefore prevents error accumulation. However, only a few MIMO models for video prediction are proposed and they only achieve inferior performance due to the date. The real strength of the MIMO model in this area is not well noticed and is largely under-explored. Motivated by that, we conduct a comprehensive investigation in this paper to thoroughly exploit how far a simple MIMO architecture can go. Surprisingly, our empirical studies reveal that a simple MIMO model can outperform the state-of-the-art work with a large margin much more than expected, especially in dealing with longterm error accumulation. After exploring a number of ways and designs, we propose a new MIMO architecture based on extending the pure Transformer with local spatio-temporal blocks and a new multi-output decoder, namely MIMO-VP, to establish a new standard in video prediction. We evaluate our model in four highly competitive benchmarks (Moving MNIST, Human3.6M, Weather, KITTI). Extensive experiments show that our model wins 1st place on all the benchmarks with remarkable performance gains and surpasses the best SISO model in all aspects including efficiency, quantity, and quality. We believe our model can serve as a new baseline to facilitate the future research of video prediction tasks. The code will be released.
翻訳日:2023-06-01 02:06:13 公開日:2023-05-30
# プロンプトチューニングによるパラメータ効率の低リソース対話状態追跡

Parameter-Efficient Low-Resource Dialogue State Tracking by Prompt Tuning ( http://arxiv.org/abs/2301.10915v2 )

ライセンス: Link先を確認
Mingyu Derek Ma, Jiun-Yu Kao, Shuyang Gao, Arpit Gupta, Di Jin, Tagyoung Chung, Nanyun Peng(参考訳) 対話状態追跡(dst)は、ユーザの信念を追跡するための対話管理の重要なステップである。 既存の作業では、トレーニングとホスティングのために重要なデータと計算リソースを必要とするdstタスクに取り組むために、すべての言語モデル(lm)パラメータを微調整している。 さまざまなドメインやタスクに数十の微調整lmが使用される現実のデプロイメントでは、コストが指数関数的に増加する。 パラメータサイズを小さくし,クロスタスク共有情報を活用するために,ソフトプロンプトトークン埋め込みを用いたタスク特性の学習を提案する。 LMパラメータをチューニングせずに、従来の作業の0.5%未満に必要なパラメータ数を劇的に削減し、低リソースDST性能を向上する。

Dialogue state tracking (DST) is an important step in dialogue management to keep track of users' beliefs. Existing works fine-tune all language model (LM) parameters to tackle the DST task, which requires significant data and computing resources for training and hosting. The cost grows exponentially in the real-world deployment where dozens of fine-tuned LM are used for different domains and tasks. To reduce parameter size and better utilize cross-task shared information, we propose to use soft prompt token embeddings to learn task properties. Without tuning LM parameters, our method drastically reduces the number of parameters needed to less than 0.5% of prior works while achieves better low-resource DST performance.
翻訳日:2023-06-01 02:00:14 公開日:2023-05-30
# 変圧器エンコーダの表現性に関するタイタ境界

Tighter Bounds on the Expressivity of Transformer Encoders ( http://arxiv.org/abs/2301.10743v2 )

ライセンス: Link先を確認
David Chiang and Peter Cholak and Anand Pillay(参考訳) より理解された形式システムの観点からニューラルネットワークを特徴付けることは、これらのネットワークのパワーと制限に対する新たな洞察をもたらす可能性がある。 変圧器の研究は現在も活発に行われている。 bhattamishraらはトランスフォーマーエンコーダがある種のカウンターマシンと同じくらい表現力があることを示したが、merrill と sabharwal は固定精度トランスフォーマーエンコーダは一様$tc^0$の言語のみを認識することを示した。 我々は,固定精度トランスコーダの上限とトランスコーダの下位境界を同時に計数する量化器を用いて,一階述語論理の変種を同定し,これらの結果の接続と強化を行う。 これにより、トランスフォーマーエンコーダが認識する言語の正確なキャラクタリゼーションに、これまでよりもずっと近いものになります。

Characterizing neural networks in terms of better-understood formal systems has the potential to yield new insights into the power and limitations of these networks. Doing so for transformers remains an active area of research. Bhattamishra and others have shown that transformer encoders are at least as expressive as a certain kind of counter machine, while Merrill and Sabharwal have shown that fixed-precision transformer encoders recognize only languages in uniform $TC^0$. We connect and strengthen these results by identifying a variant of first-order logic with counting quantifiers that is simultaneously an upper bound for fixed-precision transformer encoders and a lower bound for transformer encoders. This brings us much closer than before to an exact characterization of the languages that transformer encoders recognize.
翻訳日:2023-06-01 02:00:01 公開日:2023-05-30
# 球面上のスピノルBECのランプソリトンによる実・順序パラメータ空間の巻線

Winding real and order-parameter spaces via lump solitons of spinor BEC on sphere ( http://arxiv.org/abs/2301.06556v2 )

ライセンス: Link先を確認
Yan He and Chih-Chun Chien(参考訳) 球殻上のスピノル BEC の3つの凝縮波動関数は、実空間を球面幾何学を持つオーダーパラメータ空間にマッピングすることができ、ランプソリトンと呼ばれる位相的励起をもたらす。 写像のホモトピーは、2つの空間の間の包み込みを数える量子化された巻数を持つ塊ソリトンを内包する。 エネルギー汎関数を最小化する非線形結合方程式に対するいくつかのランプ-ソリトン解を提案する。 異なる巻数を持つ塊ソリトンのエネルギーは、異なる巻数を持つ塊の共存と、高い巻数を持つ塊ソリトンを複数の下巻に分解する利点の欠如を示している。 低温原子実験で予測が検証可能であることから、考えられる意味が議論されている。

The three condensate wavefunctions of a spinor BEC on a spherical shell can map the real space to the order-parameter space that also has a spherical geometry, giving rise to topological excitations called lump solitons. The homotopy of the mapping endows the lump solitons with quantized winding numbers counting the wrapping between the two spaces. We present several lump-soliton solutions to the nonlinear coupled equations minimizing the energy functional. The energies of the lump solitons with different winding numbers indicate coexistence of lumps with different winding numbers and a lack of advantage to break a higher-winding lump soliton into multiple lower-winding ones. Possible implications are discussed since the predictions are testable in cold-atom experiments.
翻訳日:2023-06-01 01:59:27 公開日:2023-05-30
# マインド・ザ・ギャップ(Mind the Gap) - 検閲と無検閲の電気自動車充電需要の差異をモデル化する

Mind the Gap: Modelling Difference Between Censored and Uncensored Electric Vehicle Charging Demand ( http://arxiv.org/abs/2301.06418v4 )

ライセンス: Link先を確認
Frederik Boe H\"uttel and Filipe Rodrigues and Francisco C\^amara Pereira(参考訳) 電気自動車の充電需要モデルは、充電記録を入力として、本質的に利用可能な充電器の供給に偏る。 これらのモデルはしばしば、占有している充電ステーションや競合製品から失われた需要を考慮しない。 失われた需要は、実際の需要が充電記録よりも高いことを示唆している。つまり、真の需要は潜在(観測されていない)であり、観測は検閲されている。 その結果、将来のインフラ拡張や供給管理において、これらの観測記録に頼って充電需要を予測する機械学習モデルは、充電の真の需要を見積もらないため、応用に限られる可能性がある。 この制限に対処するために、検閲対応モデルを用いて充電需要をモデル化する。 これらのモデルは、損失関数に検閲を導入し、観測された充電記録から真の潜在需要分布を学習する。 デンマークのコペンハーゲンにある自動車のgpsトラジェクタを用いて、有線充電ステーションと競合サービスによる検閲の状況を調査した。 検閲は市の一部の地域では最大で611〜%の費用がかかることが判明した。 我々は,本研究から観測された充電需要を用いて真の需要を推定し,検閲対応モデルが検閲対応モデルよりも実際の需要の予測と不確実性評価に優れていることを見出した。 充電記録に基づく将来の充電モデルは、供給管理とインフラ拡張において機械学習モデルの応用領域を拡大するための検閲を考慮すべきである。

Electric vehicle charging demand models, with charging records as input, will inherently be biased toward the supply of available chargers. These models often fail to account for demand lost from occupied charging stations and competitors. The lost demand suggests that the actual demand is likely higher than the charging records reflect, i.e., the true demand is latent (unobserved), and the observations are censored. As a result, machine learning models that rely on these observed records for forecasting charging demand may be limited in their application in future infrastructure expansion and supply management, as they do not estimate the true demand for charging. We propose using censorship-aware models to model charging demand to address this limitation. These models incorporate censorship in their loss functions and learn the true latent demand distribution from observed charging records. We study how occupied charging stations and competing services censor demand using GPS trajectories from cars in Copenhagen, Denmark. We find that censorship occurs up to $61\%$ of the time in some areas of the city. We use the observed charging demand from our study to estimate the true demand and find that censorship-aware models provide better prediction and uncertainty estimation of actual demand than censorship-unaware models. We suggest that future charging models based on charging records should account for censoring to expand the application areas of machine learning models in supply management and infrastructure expansion.
翻訳日:2023-06-01 01:59:13 公開日:2023-05-30
# SPTS v2: シングルポイントシーンテキストスポッティング

SPTS v2: Single-Point Scene Text Spotting ( http://arxiv.org/abs/2301.01635v2 )

ライセンス: Link先を確認
Yuliang Liu, Jiaxin Zhang, Dezhi Peng, Mingxin Huang, Xinyu Wang, Jingqun Tang, Can Huang, Dahua Lin, Chunhua Shen, Xiang Bai, Lianwen Jin(参考訳) エンド・ツー・エンドのシーンテキストスポッティングは、本質的なテキスト検出と認識の相乗効果により大きな進歩を遂げている。 従来の手法では、水平長方形、回転矩形、四角形、多角形などの手動アノテーションを前提条件としており、単点法よりもはるかに高価である。 提案するフレームワークであるSPTS v2により,非常に低コストな単一点アノテーションにより,シーンテキストスポッティングモデルの訓練を行うことができることを示す。 spts v2は、同じ予測シーケンス内の全てのテキストインスタンスの中央点を逐次予測し、並行してテキスト認識を行う並列認識デコーダ(prd)を用いて、インスタンス割り当てデコーダ(iad)による自動回帰トランスの利点を予約する。 これら2つのデコーダは同じパラメータを共有し、単純な情報伝達プロセスと対話的に接続され、勾配と情報を渡す。 様々な既存のベンチマークデータセットに関する包括的な実験により、spts v2は、より少ないパラメータで以前の最先端のシングルポイントテキストスポッターを上回ることができ、19$\times$の推論速度を実現している。 最も重要なことは、SPTS v2の範囲内では、より広範な実験により、一点が、非点、長方形境界ボックス、多角形境界ボックスと比較して、シーンテキストスポッティングの最適設定として機能する重要な現象が明らかにされていることである。 このような試みは、既存のパラダイムの領域を超えたシーンテキストスポッティングアプリケーションにとって重要な機会を提供する。 コードはhttps://github.com/bytedance/sptsv2で入手できる。

End-to-end scene text spotting has made significant progress due to its intrinsic synergy between text detection and recognition. Previous methods commonly regard manual annotations such as horizontal rectangles, rotated rectangles, quadrangles, and polygons as a prerequisite, which are much more expensive than using single-point. For the first time, we demonstrate that training scene text spotting models can be achieved with an extremely low-cost single-point annotation by the proposed framework, termed SPTS v2. SPTS v2 reserves the advantage of the auto-regressive Transformer with an Instance Assignment Decoder (IAD) through sequentially predicting the center points of all text instances inside the same predicting sequence, while with a Parallel Recognition Decoder (PRD) for text recognition in parallel. These two decoders share the same parameters and are interactively connected with a simple but effective information transmission process to pass the gradient and information. Comprehensive experiments on various existing benchmark datasets demonstrate the SPTS v2 can outperform previous state-of-the-art single-point text spotters with fewer parameters while achieving 19$\times$ faster inference speed. Most importantly, within the scope of our SPTS v2, extensive experiments further reveal an important phenomenon that single-point serves as the optimal setting for the scene text spotting compared to non-point, rectangular bounding box, and polygonal bounding box. Such an attempt provides a significant opportunity for scene text spotting applications beyond the realms of existing paradigms. Code will be available at https://github.com/bytedance/SPTSv2.
翻訳日:2023-06-01 01:58:30 公開日:2023-05-30
# NV-Center Relaxometry における電荷変換の影響

Impact of Charge Conversion on NV-Center Relaxometry ( http://arxiv.org/abs/2301.01063v2 )

ライセンス: Link先を確認
Isabel Cardoso Barbosa, Jonas Gutsche, Artur Widera(参考訳) ダイヤモンド中の窒素空孔(NV)中心を用いるリラクサメトリーは、近傍の常磁性分子によって引き起こされる色中心の特徴的スピン緩和(T_1$)の減少を検出するために、生物学や物理学において不可欠である。 しかし、このパルスレーザー測定では負電荷のnv中心のみが検出されるが、レーザー励起の必然的な結果は中性電荷のnv状態への変換であり、負電荷のnv中心の$t_1$時間や応答信号を支配することさえある。 本研究では,520,$nmの励起レーザとマイクロ波励起を併用したナノダイアモンド中のNVアンサンブルの緩和測定を行い,両電荷状態の蛍光信号を独立ビームパスで同時に記録する。 レーザーパワー毎の蛍光スペクトルに対する蛍光強度比を関連づけて,$T_1$-time測定における両電荷状態の比をモニタし,励起パワー依存電荷変換を系統的に開示する。 飽和度以下のレーザー強度でも電荷変換は観察され、高い強度では電荷変換はスピン緩和よりも優れている。 これらの結果は、緩和時間前における低励起パワーと蛍光正規化の必要性を浮き彫りにして、T_1$時刻を正確に決定し、センシングダイヤモンドに近い常磁性種を特徴付ける。

Relaxometry schemes employing nitrogen-vacancy (NV) centers in diamonds are essential in biology and physics to detect a reduction of the color centers' characteristic spin relaxation ($T_1$) time caused by, e.g., paramagnetic molecules in proximity. However, while only the negatively-charged NV center is to be probed in these pulsed-laser measurements, an inevitable consequence of the laser excitation is the conversion to the neutrally-charged NV state, interfering with the result for the negatively-charged NV centers' $T_1$ time or even dominating the response signal. In this work, we perform relaxometry measurements on an NV ensemble in nanodiamond combining a $520\,$nm excitation laser and microwave excitation while simultaneously recording the fluorescence signals of both charge states via independent beam paths. Correlating the fluorescence intensity ratios to the fluorescence spectra at each laser power, we monitor the ratios of both charge states during the $T_1$-time measurement and systematically disclose the excitation-power-dependent charge conversion. Even at laser intensities below saturation, we observe charge conversion, while at higher intensities, charge conversion outweighs spin relaxation. These results underline the necessity of low excitation power and fluorescence normalization before the relaxation time to accurately determine the $T_1$ time and characterize paramagnetic species close to the sensing diamond.
翻訳日:2023-06-01 01:58:01 公開日:2023-05-30
# 重ね合わされた光子付加または光子置換スクイズド真空状態のサブプランク構造と感度

Sub-Planck structures and sensitivity of the superposed photon-added or photon-subtracted squeezed-vacuum states ( http://arxiv.org/abs/2301.00195v2 )

ライセンス: Link先を確認
Naeem Akhtar, Jizhou Wu, Jia-Xin Peng, Wu-Ming Liu, and Gao Xianlong(参考訳) コンパス状態(4つのコヒーレント状態の重ね合わせ)のウィグナー関数はプランクスケールよりも次元がはるかに小さい位相空間構造を発達させ、これらの状態の位相空間変位に対する感度を決定するのに重要である。 本研究では,2つの圧縮真空状態の重ね合わせから光子を加えたり,光子を引いたりすることにより得られる,現代の実験と関係のあるコンパス状状態を紹介する。 かなりの量の光子が付加(または減算)されると、これらの状態のウィグナー関数はプランクスケールよりも実質的に小さい領域の位相空間構造を持つことが示される。 さらに、これらの状態は標準量子限界よりもはるかに高い変位に対する感度を示す。 最後に, サブプランク構造の大きさと状態の感度の両方が, 平均光子数の影響を強く受けており, より小さいサブプランク構造に導かれる平均光子数の高い光子加算ケースと, 光子減算ケースよりも変位に敏感であることを示す。 我々の状態は、外部の摂動に対して前例のない解決を提供し、量子センシングアプリケーションに適している。

The Wigner function of the compass state (a superposition of four coherent states) develops phase-space structures of dimension much less than the Planck scale, which are crucial in determining the sensitivity of these states to phase-space displacements. In the present work, we introduce compass-like states that may have connection to the contemporary experiments, which are obtained by either adding photons to or subtracting photons from the superposition of two squeezed-vacuum states. We show that, when a significant quantity of photons is added (or subtracted), the Wigner function of these states are shown to have phase-space structures of an area that is substantially smaller than the Planck scale. In addition, these states exhibit sensitivity to displacements that is much higher than the standard quantum limit. Finally, we show that both the size of the sub-Planck structures and the sensitivity of our states are strongly influenced by the average photon number, with the photon addition case having a higher average photon number leading to the smaller sub-Planck structures and, consequently, being more sensitive to displacement than the photon subtraction case. Our states offer unprecedented resolution to the external perturbations, making them suitable for quantum sensing applications.
翻訳日:2023-06-01 01:57:38 公開日:2023-05-30
# 機械学習と画像処理を用いた毛髪・頭皮疾患検出

Hair and Scalp Disease Detection using Machine Learning and Image Processing ( http://arxiv.org/abs/2301.00122v3 )

ライセンス: Link先を確認
Mrinmoy Roy, Anica Tasnim Protity(参考訳) 約8000万人のアメリカ人が老化、ストレス、薬物、遺伝子組換えなどによって髪の喪失に苦しんでいる。 毛髪と頭皮関連疾患は、初めは気づかないことが多い。 時々、患者は髪の喪失と通常の髪の落下を区別できない。 専門の皮膚科医が視覚および医療検査を行う必要があるため、毛髪関連疾患の診断には時間がかかる。 そのため、全体的な診断が遅れ、病気の重症度が悪化する。 画像処理能力のため、ニューラルネットワークベースのアプリケーションは、がんや腫瘍などの致命的な病気を予測するために、様々な分野、特に医療や健康情報学で使用されている。 これらの応用は臨床医や患者を助け、初期症状に関する最初の洞察を提供する。 本研究では,毛髪喪失と頭皮関連疾患の3つの主型(脱毛症,乾尿症,卵胞炎)を予測できるディープラーニングを用いた。 しかし、この領域での限られた研究、適切なデータセットの有効性、インターネット上に散在する画像の多様性の程度が課題となった。 様々なソースから150の画像を取得し,画像の等化,拡張,データバランスをプリプロセスし,誤り率を最小化した。 処理したデータを2D畳み込みニューラルネットワーク(CNN)モデルに入力した後、総合トレーニング精度96.2%、検証精度91.1%を得た。 アロペシア,乾皮症,卵胞炎は,それぞれ0.895,0.846,1.0であった。 また,今後の研究者のために頭皮画像のデータセットを作成した。

Almost 80 million Americans suffer from hair loss due to aging, stress, medication, or genetic makeup. Hair and scalp-related diseases often go unnoticed in the beginning. Sometimes, a patient cannot differentiate between hair loss and regular hair fall. Diagnosing hair-related diseases is time-consuming as it requires professional dermatologists to perform visual and medical tests. Because of that, the overall diagnosis gets delayed, which worsens the severity of the illness. Due to the image-processing ability, neural network-based applications are used in various sectors, especially healthcare and health informatics, to predict deadly diseases like cancers and tumors. These applications assist clinicians and patients and provide an initial insight into early-stage symptoms. In this study, we used a deep learning approach that successfully predicts three main types of hair loss and scalp-related diseases: alopecia, psoriasis, and folliculitis. However, limited study in this area, unavailability of a proper dataset, and degree of variety among the images scattered over the internet made the task challenging. 150 images were obtained from various sources and then preprocessed by denoising, image equalization, enhancement, and data balancing, thereby minimizing the error rate. After feeding the processed data into the 2D convolutional neural network (CNN) model, we obtained overall training accuracy of 96.2%, with a validation accuracy of 91.1%. The precision and recall score of alopecia, psoriasis, and folliculitis are 0.895, 0.846, and 1.0, respectively. We also created a dataset of the scalp images for future prospective researchers.
翻訳日:2023-06-01 01:57:09 公開日:2023-05-30
# Open-VCLIP: 補間重み最適化によるCLIPをオープン語彙ビデオモデルに変換する

Open-VCLIP: Transforming CLIP to an Open-vocabulary Video Model via Interpolated Weight Optimization ( http://arxiv.org/abs/2302.00624v2 )

ライセンス: Link先を確認
Zejia Weng, Xitong Yang, Ang Li, Zuxuan Wu, Yu-Gang Jiang(参考訳) コントラスト型言語イメージプリトレーニング(clip)は、画像理解のための印象的なゼロショット学習能力を示しているが、ゼロショットビデオ認識のためのクリップを調査するために限定的な努力がなされている。 これは、CLIPを強力なゼロショットビデオ分類器に変換し、テスト時に目に見えないアクションやイベントを認識する、シンプルで効果的なアプローチである。 私たちのフレームワークはクリップを最小限の修正で拡張し、ビデオ内の空間と時間の関係をモデル化します。 我々は,Open-VCLIPのトレーニングが,履歴データゼロの連続学習と等価であることを示す。 そこで本研究では,トレーニング時間とテスト時間の両方において重み補間の利点を生かした補間重み最適化を提案する。 提案手法は,様々なゼロショット評価プロトコルに従って,人気かつ挑戦的な3つの行動認識データセット上で評価し,そのアプローチが最先端の手法よりも明確なマージンで優れていることを示す。 特に,UCF,HMDB,Kineetics-600では,87.9%,58.3%,81.1%のゼロショット精度を達成し,最先端の手法では8.3%,7.8%,12.2%を上回った。 コードはhttps://github.com/wengzejia1/Open-VCLIPで公開されている。

Contrastive Language-Image Pretraining (CLIP) has demonstrated impressive zero-shot learning abilities for image understanding, yet limited effort has been made to investigate CLIP for zero-shot video recognition. We introduce Open-VCLIP, a simple yet effective approach that transforms CLIP into a strong zero-shot video classifier that can recognize unseen actions and events at test time. Our framework extends CLIP with minimal modifications to model spatial-temporal relationships in videos, making it a specialized video classifier, while striving for generalization. We formally show that training an Open-VCLIP is equivalent to continual learning with zero historical data. To address this problem, we propose Interpolated Weight Optimization, which utilizes the benefit of weight interpolation in both training and test time. We evaluate our method on three popular and challenging action recognition datasets following various zero-shot evaluation protocols and we demonstrate our approach outperforms state-of-the-art methods by clear margins. In particular, we achieve 87.9%, 58.3%, 81.1% zero-shot accuracy on UCF, HMDB and Kinetics-600 respectively, outperforming state-of-the-art methods by 8.3%, 7.8% and 12.2%. Code is released at https://github.com/wengzejia1/Open-VCLIP.
翻訳日:2023-06-01 01:49:19 公開日:2023-05-30
# 深層学習の個別レジームにおけるSGDノイズの影響の判別

Dissecting the Effects of SGD Noise in Distinct Regimes of Deep Learning ( http://arxiv.org/abs/2301.13703v2 )

ライセンス: Link先を確認
Antonio Sclocchi, Mario Geiger, Matthieu Wyart(参考訳) 確率勾配降下(SGD)のノイズがディープニューラルネットワークの一般化にいつ影響するかを理解することは、ネットワークが異なる訓練体制で動作可能であるという事実によって、依然として難しい。 ここでは、このノイズの規模が、トレーニングセットの規模$P$と初期化の規模$\alpha$によってパフォーマンスにどのように影響するかを検討する。 勾配降下の場合、$\alpha$ はネットワークが `lazy'($\alpha\gg1$) であるかどうかを制御するキーパラメータであり、代わりに機能を学ぶ($\alpha\ll1$)。 MNIST 画像と CIFAR10 画像の分類は以下のとおりである。 (i)$(\alpha,T)$平面における性能の位相図を得る。 sgdノイズはトレーニング環境によって有害あるいは有用であることが示された。 さらに、$t$または$\alpha$を下げることで、ネットは遅延レジームから逃れることができるが、これらの変更はパフォーマンスに逆の効果をもたらす可能性がある。 (ii)より重要なのは、SGDのノイズが訓練されたモデル(そして最終的に性能)に影響を与え始める特性温度$T_c$が、P$の電力法則であることである。 この発見は、トレーニング中の重量の総変動のような重要な力学量が、電力法則として$T$と$P$の両方に依存するという観察と関係している。 これらの結果から,SGDノイズは,全てのデータを取り付ける停止過程に影響を与えることにより,訓練の後半に発生することが示唆された。 実際、SGDノイズのため、ネットはより強力な「信号」すなわちより大きな情報重みを発達させ、データに合うようにし、訓練時間を長くしなければなりません。 トレーニングセットのP$が増加すると、より強い信号とより長いトレーニング時間も必要となる。 我々は、信号と雑音を正確に測定できるパーセプトロンモデルにおいて、これらのビューを確認する。 興味深いことに、sgdの効果を特徴づける指数は、決定境界付近のデータの密度に依存する。

Understanding when the noise in stochastic gradient descent (SGD) affects generalization of deep neural networks remains a challenge, complicated by the fact that networks can operate in distinct training regimes. Here we study how the magnitude of this noise $T$ affects performance as the size of the training set $P$ and the scale of initialization $\alpha$ are varied. For gradient descent, $\alpha$ is a key parameter that controls if the network is `lazy'($\alpha\gg1$) or instead learns features ($\alpha\ll1$). For classification of MNIST and CIFAR10 images, our central results are: (i) obtaining phase diagrams for performance in the $(\alpha,T)$ plane. They show that SGD noise can be detrimental or instead useful depending on the training regime. Moreover, although increasing $T$ or decreasing $\alpha$ both allow the net to escape the lazy regime, these changes can have opposite effects on performance. (ii) Most importantly, we find that the characteristic temperature $T_c$ where the noise of SGD starts affecting the trained model (and eventually performance) is a power law of $P$. We relate this finding with the observation that key dynamical quantities, such as the total variation of weights during training, depend on both $T$ and $P$ as power laws. These results indicate that a key effect of SGD noise occurs late in training by affecting the stopping process whereby all data are fitted. Indeed, we argue that due to SGD noise, nets must develop a stronger `signal', i.e. larger informative weights, to fit the data, leading to a longer training time. A stronger signal and a longer training time are also required when the size of the training set $P$ increases. We confirm these views in the perceptron model, where signal and noise can be precisely measured. Interestingly, exponents characterizing the effect of SGD depend on the density of data near the decision boundary, as we explain.
翻訳日:2023-06-01 01:48:49 公開日:2023-05-30
# PAC-Bayesian Soft Actor-Critic Learning

PAC-Bayesian Soft Actor-Critic Learning ( http://arxiv.org/abs/2301.12776v2 )

ライセンス: Link先を確認
Bahareh Tasdighi, Abdullah Akg\"ul, Kenny Kazimirzak Brink, Melih Kandemir(参考訳) アクター批判アルゴリズムは2つの関数近似器を通して強化学習(RL)と政策評価と改善の両目標に対処する。 このアプローチの実用性は、主に俳優に対する批評家の近似誤差の破壊的影響によって引き起こされるトレーニング不安定さを犠牲にしている。 我々は,このボトルネックに,Soft Actor-Critic (SAC) アルゴリズムの批判的トレーニング目標として,既存の確率的近似(PAC)ベイズ境界を用いる。 さらに,確率的俳優が批判的指示によるランダム検索によって複数の未来を探索する場合,オンライン学習性能が著しく向上することを示す。 結果として得られたアルゴリズムを,サンプル効率と後悔の最小化の両面で,複数の古典的制御とロコモーションタスクの技術状況と比較し,好適に評価した。

Actor-critic algorithms address the dual goals of reinforcement learning (RL), policy evaluation and improvement, via two separate function approximators. The practicality of this approach comes at the expense of training instability, caused mainly by the destructive effect of the approximation errors of the critic on the actor. We tackle this bottleneck by employing an existing Probably Approximately Correct (PAC) Bayesian bound for the first time as the critic training objective of the Soft Actor-Critic (SAC) algorithm. We further demonstrate that online learning performance improves significantly when a stochastic actor explores multiple futures by critic-guided random search. We observe our resulting algorithm to compare favorably to the state of the art on multiple classical control and locomotion tasks in terms of both sample efficiency and regret minimization.
翻訳日:2023-06-01 01:48:14 公開日:2023-05-30
# 深層演算子学習によるPDEの次元曲線の学習

Deep Operator Learning Lessens the Curse of Dimensionality for PDEs ( http://arxiv.org/abs/2301.12227v2 )

ライセンス: Link先を確認
Ke Chen, Chunmei Wang, and Haizhao Yang(参考訳) ディープニューラルネットワーク(DNN)は多くの領域で顕著な成功を収めており、PDE関連の問題への応用は急速に進んでいる。 本稿では, DNN を用いたバナッハ空間上のリプシッツ演算子学習の一般化誤差と様々な PDE 解演算子への応用を推定する。 目標は、特定のテストエラーを保証するために必要なDNN幅、深さ、トレーニングサンプルの数を指定することだ。 データ分布や演算子構造を軽度に仮定すると、深層演算子の学習はPDEの離散化分解に緩やかに依存し、楕円型方程式、放物型方程式、バーガース方程式を含む多くのPDE関連問題における次元性の呪いを減らすことができる。 また,演算子学習における離散化不変性について考察した。

Deep neural networks (DNNs) have achieved remarkable success in numerous domains, and their application to PDE-related problems has been rapidly advancing. This paper provides an estimate for the generalization error of learning Lipschitz operators over Banach spaces using DNNs with applications to various PDE solution operators. The goal is to specify DNN width, depth, and the number of training samples needed to guarantee a certain testing error. Under mild assumptions on data distributions or operator structures, our analysis shows that deep operator learning can have a relaxed dependence on the discretization resolution of PDEs and, hence, lessen the curse of dimensionality in many PDE-related problems including elliptic equations, parabolic equations, and Burgers equations. Our results are also applied to give insights about discretization-invariant in operator learning.
翻訳日:2023-06-01 01:48:00 公開日:2023-05-30
# ZegOT: テキストプロンプトの最適輸送によるゼロショットセグメンテーション

ZegOT: Zero-shot Segmentation Through Optimal Transport of Text Prompts ( http://arxiv.org/abs/2301.12171v2 )

ライセンス: Link先を確認
Kwanyoung Kim, Yujin Oh, Jong Chul Ye(参考訳) 最近の大規模コントラスト言語-画像事前学習(clip)の成功は、画像テキストに整合した知識をピクセルレベルの分類に移すことで、ゼロショット意味セグメンテーションにおいて大きな期待を呼んでいる。 しかし、既存のメソッドは通常、追加のイメージエンコーダやCLIPモジュールの再トレーニング/チューニングを必要とする。 本稿では,複数のテキストプロンプトと凍結画像埋め込みを最適なトランスポートでマッチングする,最適なトランスポート(zegot)方式によるゼロショットセグメンテーションを提案する。 特に,複数のテキストプロンプトと凍結画像エンコーダ隠れレイヤの視覚的特徴マップ間の最適なマッピングを学習するために設計された,新しい多重プロンプト最適トランスポートソルバ(mpot)を提案する。 このユニークなマッピング手法により、複数のテキストプロンプトのそれぞれが、視覚的なセマンティクス属性に効果的に集中することができる。 ベンチマークデータセットの広範な実験を通じて,既存のゼロショットセマンティックセマンティックセマンティックセマンティクス(ZS3)アプローチよりも最先端(SOTA)の性能を実現することを示す。

Recent success of large-scale Contrastive Language-Image Pre-training (CLIP) has led to great promise in zero-shot semantic segmentation by transferring image-text aligned knowledge to pixel-level classification. However, existing methods usually require an additional image encoder or retraining/tuning the CLIP module. Here, we propose a novel Zero-shot segmentation with Optimal Transport (ZegOT) method that matches multiple text prompts with frozen image embeddings through optimal transport. In particular, we introduce a novel Multiple Prompt Optimal Transport Solver (MPOT), which is designed to learn an optimal mapping between multiple text prompts and visual feature maps of the frozen image encoder hidden layers. This unique mapping method facilitates each of the multiple text prompts to effectively focus on distinct visual semantic attributes. Through extensive experiments on benchmark datasets, we show that our method achieves the state-of-the-art (SOTA) performance over existing Zero-shot Semantic Segmentation (ZS3) approaches.
翻訳日:2023-06-01 01:47:43 公開日:2023-05-30
# 音声翻訳のための事前学習:CTCが最適な交通手段に

Pre-training for Speech Translation: CTC Meets Optimal Transport ( http://arxiv.org/abs/2301.11716v2 )

ライセンス: Link先を確認
Phuong-Hang Le, Hongyu Gong, Changhan Wang, Juan Pino, Benjamin Lecouteux, Didier Schwab(参考訳) 音声とテキストのモダリティのギャップは、音声からテキストへの翻訳(ST)において大きな課題である。 このギャップを減らすために異なる方法が提案されているが、そのほとんどはstトレーニングのアーキテクチャ変更を必要とする。 本稿では,STモデルの変更を必要とせず,事前学習段階でこの問題を軽減することを提案する。 まず,コネクショニスト時間分類(ctc)の損失は,設計によってモダリティギャップを低減できることを示す。 より一般的なクロスエントロピー損失と定量的に比較し,CTCによる事前学習が常に最終ST精度を向上させることを示す。 それにもかかわらず、CTCは部分解であり、第2の貢献として、CTCと最適輸送を組み合わせた新しい事前学習法を提案する。 本手法では,2つのエンコーダ,1つは音響入力用,もう1つはテキスト入力用で構成され,ワッサーシュタイン空間において互いに近接した表現を生成する。 標準のCoVoST-2およびMuST-Cデータセットに対する大規模な実験により、バニラエンコーダデコーダ変換器に適用した事前学習手法が、外部データ設定下での最先端性能を実現し、最近の強力なマルチタスク学習システムに匹敵する性能を示した。 最後に、この手法はマルチタスクシステム上でも適用可能であり、これらのモデルをさらに改善することができる。

The gap between speech and text modalities is a major challenge in speech-to-text translation (ST). Different methods have been proposed to reduce this gap, but most of them require architectural changes in ST training. In this work, we propose to mitigate this issue at the pre-training stage, requiring no change in the ST model. First, we show that the connectionist temporal classification (CTC) loss can reduce the modality gap by design. We provide a quantitative comparison with the more common cross-entropy loss, showing that pre-training with CTC consistently achieves better final ST accuracy. Nevertheless, CTC is only a partial solution and thus, in our second contribution, we propose a novel pre-training method combining CTC and optimal transport to further reduce this gap. Our method pre-trains a Siamese-like model composed of two encoders, one for acoustic inputs and the other for textual inputs, such that they produce representations that are close to each other in the Wasserstein space. Extensive experiments on the standard CoVoST-2 and MuST-C datasets show that our pre-training method applied to the vanilla encoder-decoder Transformer achieves state-of-the-art performance under the no-external-data setting, and performs on par with recent strong multi-task learning systems trained with external data. Finally, our method can also be applied on top of these multi-task systems, leading to further improvements for these models.
翻訳日:2023-06-01 01:47:23 公開日:2023-05-30
# 深部産業画像の異常検出:調査

Deep Industrial Image Anomaly Detection: A Survey ( http://arxiv.org/abs/2301.11514v3 )

ライセンス: Link先を確認
Jiaqi Liu, Guoyang Xie, Jingbao Wang, Shangnian Li, Chengjie Wang, Feng Zheng, Yaochu Jin(参考訳) 近年のディープラーニングの急速な発展は,産業用画像異常検出(IAD)のマイルストーンとなった。 本稿では,ニューラルネットワークアーキテクチャ,監視レベル,損失関数,メトリクス,データセットの観点から,ディープラーニングに基づく画像異常検出手法の包括的なレビューを行う。 また, 工業生産から新たな環境を抽出し, 我々の提案した新たな環境下での現在のIADアプローチを概観する。 さらに,画像異常検出のオープニング課題をいくつか挙げる。 各種監視下の代表的ネットワークアーキテクチャのメリットと欠点について論じる。 最後に,研究成果を要約し,今後の研究方向性を指摘する。 さらなるリソースはhttps://github.com/M-3LAB/awesome-industrial-anomaly-detectionで入手できる。

The recent rapid development of deep learning has laid a milestone in industrial Image Anomaly Detection (IAD). In this paper, we provide a comprehensive review of deep learning-based image anomaly detection techniques, from the perspectives of neural network architectures, levels of supervision, loss functions, metrics and datasets. In addition, we extract the new setting from industrial manufacturing and review the current IAD approaches under our proposed our new setting. Moreover, we highlight several opening challenges for image anomaly detection. The merits and downsides of representative network architectures under varying supervision are discussed. Finally, we summarize the research findings and point out future research directions. More resources are available at https://github.com/M-3LAB/awesome-industrial-anomaly-detection.
翻訳日:2023-06-01 01:46:55 公開日:2023-05-30
# コインサンプリング:学習率のない勾配に基づくベイズ推論

Coin Sampling: Gradient-Based Bayesian Inference without Learning Rates ( http://arxiv.org/abs/2301.11294v2 )

ライセンス: Link先を確認
Louis Sharrock, Christopher Nemeth(参考訳) 近年、svgd (stein variational gradient descent) のような粒子ベース変分推論 (parvi) 法はベイズ推定のスケーラブルな手法として人気が高まっている。 残念ながら、そのような手法の特性は学習率などのハイパーパラメータに必ず依存しており、適切なレートで目標尺度への収束を確保するためには、実践者が慎重に調整する必要がある。 本稿では,コインベッティングに基づくスケーラブルベイズ推論のための新しい粒子ベースの手法について紹介する。 本稿では,いくつかの高次元モデルやデータセットなど,学習率を調整せずに他のParVIアルゴリズムに匹敵する性能を示す数値例について述べる。

In recent years, particle-based variational inference (ParVI) methods such as Stein variational gradient descent (SVGD) have grown in popularity as scalable methods for Bayesian inference. Unfortunately, the properties of such methods invariably depend on hyperparameters such as the learning rate, which must be carefully tuned by the practitioner in order to ensure convergence to the target measure at a suitable rate. In this paper, we introduce a suite of new particle-based methods for scalable Bayesian inference based on coin betting, which are entirely learning-rate free. We illustrate the performance of our approach on a range of numerical examples, including several high-dimensional models and datasets, demonstrating comparable performance to other ParVI algorithms with no need to tune a learning rate.
翻訳日:2023-06-01 01:46:45 公開日:2023-05-30
# 条件付きリスク対策を考慮したリスク・アバース政策グラディエント手法のグローバル収束について

On the Global Convergence of Risk-Averse Policy Gradient Methods with Expected Conditional Risk Measures ( http://arxiv.org/abs/2301.10932v2 )

ライセンス: Link先を確認
Xian Yu and Lei Ying(参考訳) リスクに敏感な強化学習(RL)は、不確実な結果のリスクを制御し、様々なシーケンシャルな意思決定問題において信頼性の高い性能を確保するための一般的なツールとなっている。 リスクに敏感なrlのためのポリシーグラデーション手法が開発されているが、リスク中立の場合と同じグローバルコンバージェンス保証を享受するかどうかはまだ不明である。 本稿では,予測条件付きリスク対策 (ECRMs) と呼ばれる動的時間整合性リスク対策のクラスを考察し,ECRMに基づく目標関数に対する政策勾配の更新を導出する。 制約付き直接パラメタライゼーションと制約なしソフトマックスパラメタライゼーションの両方の下で、我々は、対応するリスク-逆ポリシー勾配アルゴリズムのグローバル収束と反復複雑度を提供する。 本手法の有効性とリスク制御の重要性を実証するために,強化型およびアクタ批判型アルゴリズムのリスク回避型をさらに検証する。

Risk-sensitive reinforcement learning (RL) has become a popular tool to control the risk of uncertain outcomes and ensure reliable performance in various sequential decision-making problems. While policy gradient methods have been developed for risk-sensitive RL, it remains unclear if these methods enjoy the same global convergence guarantees as in the risk-neutral case. In this paper, we consider a class of dynamic time-consistent risk measures, called Expected Conditional Risk Measures (ECRMs), and derive policy gradient updates for ECRM-based objective functions. Under both constrained direct parameterization and unconstrained softmax parameterization, we provide global convergence and iteration complexities of the corresponding risk-averse policy gradient algorithms. We further test risk-averse variants of REINFORCE and actor-critic algorithms to demonstrate the efficacy of our method and the importance of risk control.
翻訳日:2023-06-01 01:46:34 公開日:2023-05-30
# IB-UQ:情報ボトルネックに基づく神経機能回帰と神経オペレータ学習のための不確実性定量化

IB-UQ: Information bottleneck based uncertainty quantification for neural function regression and neural operator learning ( http://arxiv.org/abs/2302.03271v2 )

ライセンス: Link先を確認
Ling Guo, Hao Wu, Wenwen Zhou, Yan Wang, Tao Zhou(参考訳) 本稿では,ディープニューラルネットワーク(DNN)回帰やニューラル演算子学習(DeepONet)を含む,科学的機械学習タスクのための情報ボトルネック(IB-UQ)による不確実性定量化のための新しいフレームワークを提案する。 具体的には、トレーニングデータが存在する領域に属する入力データの信頼度に応じて、入力を潜在表現にエンコードする信頼度対応エンコーダによるボトルネックを取り入れ、ガウスデコーダを用いて表現変数の条件付き出力の手段と分散を予測する。 さらに,外挿不確かさの定量化品質を向上できるデータ拡張に基づく情報ボトルネック目標を提案し,目的の可搬的変動境界を最小化することにより,エンコーダとデコーダの両方を訓練することができる。 ハミルトニアンモンテカルロ後部推定器によるベイズニューラルネットワークに依存する科学学習タスクに対する不確実性定量化(UQ)手法と比較して、提案するモデルは計算効率が良く、特に大規模データセットを扱う場合である。 IB-UQモデルの有効性は、不連続関数の回帰、実世界のデータセットの回帰、偏微分方程式の非線形作用素の学習、大規模気候モデルなど、いくつかの代表的な例を通じて実証されてきた。 実験の結果, ib-uqモデルは, 雑音データを処理し, 頑健な予測を生成し, 分散データに対する信頼性の高い不確実性評価を行うことができた。

We propose a novel framework for uncertainty quantification via information bottleneck (IB-UQ) for scientific machine learning tasks, including deep neural network (DNN) regression and neural operator learning (DeepONet). Specifically, we incorporate the bottleneck by a confidence-aware encoder, which encodes inputs into latent representations according to the confidence of the input data belonging to the region where training data is located, and utilize a Gaussian decoder to predict means and variances of outputs conditional on representation variables. Furthermore, we propose a data augmentation based information bottleneck objective which can enhance the quantification quality of the extrapolation uncertainty, and the encoder and decoder can be both trained by minimizing a tractable variational bound of the objective. In comparison to uncertainty quantification (UQ) methods for scientific learning tasks that rely on Bayesian neural networks with Hamiltonian Monte Carlo posterior estimators, the model we propose is computationally efficient, particularly when dealing with large-scale data sets. The effectiveness of the IB-UQ model has been demonstrated through several representative examples, such as regression for discontinuous functions, real-world data set regression, learning nonlinear operators for partial differential equations, and a large-scale climate model. The experimental results indicate that the IB-UQ model can handle noisy data, generate robust predictions, and provide confident uncertainty evaluation for out-of-distribution data.
翻訳日:2023-06-01 01:40:09 公開日:2023-05-30
# v1t:視覚トランスフォーマーを用いた大規模マウスv1応答予測

V1T: large-scale mouse V1 response prediction using a Vision Transformer ( http://arxiv.org/abs/2302.03023v3 )

ライセンス: Link先を確認
Bryan M. Li, Isabel M. Cornacchia, Nathalie L. Rochefort, Arno Onken(参考訳) 自然視刺激に対する視覚野神経反応の正確な予測モデルは、計算神経科学の課題である。 本稿では,動物間の視覚と行動の共通表現を学習する新しい視覚トランスフォーマーアーキテクチャであるv1tを紹介する。 マウス一次視覚野から記録された2つの大規模データセットを用いて,従来の畳み込みモデルと比較して予測性能が12.7%以上向上した。 さらに,トランスフォーマーが学習した自己意識重みは,集団受容野と相関することを示した。 そこで本モデルはニューラルレスポンス予測のための新しいベンチマークを設定し,行動記録とニューラル記録を併用して視覚野の特徴を明らかにする。

Accurate predictive models of the visual cortex neural response to natural visual stimuli remain a challenge in computational neuroscience. In this work, we introduce V1T, a novel Vision Transformer based architecture that learns a shared visual and behavioral representation across animals. We evaluate our model on two large datasets recorded from mouse primary visual cortex and outperform previous convolution-based models by more than 12.7% in prediction performance. Moreover, we show that the self-attention weights learned by the Transformer correlate with the population receptive fields. Our model thus sets a new benchmark for neural response prediction and can be used jointly with behavioral and neural recordings to reveal meaningful characteristic features of the visual cortex.
翻訳日:2023-06-01 01:39:42 公開日:2023-05-30
# 同時音楽生成と分離のためのマルチソース拡散モデル

Multi-Source Diffusion Models for Simultaneous Music Generation and Separation ( http://arxiv.org/abs/2302.02257v3 )

ライセンス: Link先を確認
Giorgio Mariani, Irene Tallini, Emilian Postolache, Michele Mancusi, Luca Cosmo, Emanuele Rodol\`a(参考訳) 本研究では、文脈を共有するソースの結合確率密度のスコアを学習することにより、音楽合成と音源分離の両方が可能な拡散ベース生成モデルを定義する。 古典的総推論タスク(例えば、混合を生成し、ソースを分離する)と並行して、ソースインプテーションの部分生成タスクを紹介し、実験を行い、ソースのサブセットを生成します(例えば、ドラムとうまく連携するピアノトラックを演奏します)。 さらに,ディラック度関数に基づく分離タスクの新たな推定法を提案する。 我々は,音楽ソース分離のための標準データセットであるslakh2100上でモデルをトレーニングし,生成環境における質的結果を提供し,ソース分離設定における競合的定量的結果を示す。 本手法は,生成と分離の両方を処理可能な単一モデルの最初の例である。

In this work, we define a diffusion-based generative model capable of both music synthesis and source separation by learning the score of the joint probability density of sources sharing a context. Alongside the classic total inference tasks (i.e., generating a mixture, separating the sources), we also introduce and experiment on the partial generation task of source imputation, where we generate a subset of the sources given the others (e.g., play a piano track that goes well with the drums). Additionally, we introduce a novel inference method for the separation task based on Dirac likelihood functions. We train our model on Slakh2100, a standard dataset for musical source separation, provide qualitative results in the generation settings, and showcase competitive quantitative results in the source separation setting. Our method is the first example of a single model that can handle both generation and separation tasks, thus representing a step toward general audio models.
翻訳日:2023-06-01 01:39:30 公開日:2023-05-30
# クープマン演算子学習のためのシャープスペクトル速度

Sharp Spectral Rates for Koopman Operator Learning ( http://arxiv.org/abs/2302.02004v3 )

ライセンス: Link先を確認
Vladimir Kostic, Karim Lounici, Pietro Novelli, Massimiliano Pontil(参考訳) 非線形力学系は、関連するクープマン作用素(英語版)(koopman operator)によって手軽に記述され、その作用はシステムの全ての可観測性が経時的に進化する。 クープマン作用素の学習とデータからのスペクトル分解は多くのアルゴリズムによって実現されている。 本研究では、クープマン固有値と固有関数に対する非漸近学習境界を初めて提示する。 我々は、ランゲヴィン力学の重要な例を含む時間反転不変確率力学系に焦点をあてる。 本研究では,拡張動的モード分解(EDMD)とReduceed Rank Regression(RRR)の2つの人気推定器を解析した。 この結果は、独立な関心を持つ作用素ノルム誤差に対する、新しいミニマックス推定境界に大きく依存する。 我々のスペクトル学習境界は、演算子ノルム誤差の同時制御と推定固有関数の新たな計量歪み関数によって駆動される。 この境界は、EDMDとRRRの両方に類似したばらつきがあることを示しているが、EDMDは学習速度に有害な大きなバイアスに悩まされている。 その結果,経験的によく知られた固有値の散発的出現に新たな光を当てた。 数値実験は、実際的な境界の意味を例証する。

Non-linear dynamical systems can be handily described by the associated Koopman operator, whose action evolves every observable of the system forward in time. Learning the Koopman operator and its spectral decomposition from data is enabled by a number of algorithms. In this work we present for the first time non-asymptotic learning bounds for the Koopman eigenvalues and eigenfunctions. We focus on time-reversal-invariant stochastic dynamical systems, including the important example of Langevin dynamics. We analyze two popular estimators: Extended Dynamic Mode Decomposition (EDMD) and Reduced Rank Regression (RRR). Our results critically hinge on novel minimax estimation bounds for the operator norm error, that may be of independent interest. Our spectral learning bounds are driven by the simultaneous control of the operator norm error and a novel metric distortion functional of the estimated eigenfunctions. The bounds indicates that both EDMD and RRR have similar variance, but EDMD suffers from a larger bias which might be detrimental to its learning rate. Our results shed new light on the emergence of spurious eigenvalues, an issue which is well known empirically. Numerical experiments illustrate the implications of the bounds in practice.
翻訳日:2023-06-01 01:39:15 公開日:2023-05-30
# ボース・アインシュタイン凝縮体に浸漬したFew-Body Bose系の発酵

Fermionization of a Few-Body Bose System Immersed into a Bose-Einstein Condensate ( http://arxiv.org/abs/2302.01743v3 )

ライセンス: Link先を確認
Tim Keller, Thom\'as Fogarty, Thomas Busch(参考訳) ボース・アインシュタイン凝縮体に没入した成分が有限種内相互作用強度を持つ場合、準1次元2成分量子気体中の最近導入された自己ピン遷移(Phys. Lett. 128, 053401 (2022))について検討する。 物質波バックアクションの結果、無限種内反発の限界におけるフェルミオン化は、静的トラップポテンシャルの漸近的挙動とは対照的に、自己ピンド状態への一階の相転移によって起こる。 このシステムはまた、種間相互作用が種内反発を克服できる場合、浸漬された成分に対して追加の超流動状態を示す。 解析モデルにおける超流動状態を近似し,二元系においてよく知られた相分離基準と一致する相転移線の表現を導出する。 システムの全位相図は、没入成分中の2原子と3原子の場合に数値的にマッピングされる。

We study the recently introduced self-pinning transition [Phys. Rev. Lett. 128, 053401 (2022)] in a quasi-one-dimensional two-component quantum gas in the case where the component immersed into the Bose-Einstein condensate has a finite intraspecies interaction strength. As a result of the matter-wave backaction, the fermionization in the limit of infinite intraspecies repulsion occurs via a first-order phase transition to the self-pinned state, which is in contrast to the asymptotic behavior in static trapping potentials. The system also exhibits an additional superfluid state for the immersed component if the interspecies interaction is able to overcome the intraspecies repulsion. We approximate the superfluid state in an analytical model and derive an expression for the phase transition line that coincides with well-known phase separation criteria in binary Bose systems. The full phase diagram of the system is mapped out numerically for the case of two and three atoms in the immersed component.
翻訳日:2023-06-01 01:38:55 公開日:2023-05-30
# 拡散モデルはメンバーシップ推論攻撃に脆弱か?

Are Diffusion Models Vulnerable to Membership Inference Attacks? ( http://arxiv.org/abs/2302.01316v2 )

ライセンス: Link先を確認
Jinhao Duan, Fei Kong, Shiqi Wang, Xiaoshuang Shi, Kaidi Xu(参考訳) 拡散に基づく生成モデルは画像合成に大きな可能性を示しているが、それらが引き起こすセキュリティやプライバシのリスクについての研究は乏しい。 本稿では,共通するプライバシー問題であるメンバーシップ推論攻撃(mias)に対する拡散モデルの脆弱性について検討する。 以上の結果から,gansやvae用に設計された既存のmiasは,適用不能なシナリオ(gansの判別器が必要)や不適切な仮定(例えば,合成試料とメンバーサンプルとの親密な距離)によって拡散モデルにほとんど効果がないことが示された。 このギャップに対処するために,各時点における前処理後推定のマッチングを評価し,メンバシップを推測するクエリベースのMIAであるSecMI(Step-wise Error Comparisoning Membership Inference)を提案する。 SecMIは、通常、メンバーサンプルがホールドアウトサンプルよりも小さい推定誤差を持つMIAの一般的なオーバーフィッティング仮定に従う。 DDPMなどの標準拡散モデルと、遅延拡散モデルや安定拡散モデルといったテキスト・画像拡散モデルの両方を考慮する。 実験の結果,複数の異なるデータセットにまたがる2つのシナリオについて,メンバシップを高い信頼度で正確に推定できることが判明した。 コードはhttps://github.com/jinhaoduan/SecMI.comで入手できる。

Diffusion-based generative models have shown great potential for image synthesis, but there is a lack of research on the security and privacy risks they may pose. In this paper, we investigate the vulnerability of diffusion models to Membership Inference Attacks (MIAs), a common privacy concern. Our results indicate that existing MIAs designed for GANs or VAE are largely ineffective on diffusion models, either due to inapplicable scenarios (e.g., requiring the discriminator of GANs) or inappropriate assumptions (e.g., closer distances between synthetic samples and member samples). To address this gap, we propose Step-wise Error Comparing Membership Inference (SecMI), a query-based MIA that infers memberships by assessing the matching of forward process posterior estimation at each timestep. SecMI follows the common overfitting assumption in MIA where member samples normally have smaller estimation errors, compared with hold-out samples. We consider both the standard diffusion models, e.g., DDPM, and the text-to-image diffusion models, e.g., Latent Diffusion Models and Stable Diffusion. Experimental results demonstrate that our methods precisely infer the membership with high confidence on both of the two scenarios across multiple different datasets. Code is available at https://github.com/jinhaoduan/SecMI.
翻訳日:2023-06-01 01:38:36 公開日:2023-05-30
# PDEの堅牢かつ正確な学習のための畳み込みニューラル演算子

Convolutional Neural Operators for robust and accurate learning of PDEs ( http://arxiv.org/abs/2302.01178v2 )

ライセンス: Link先を確認
Bogdan Raoni\'c, Roberto Molinaro, Tim De Ryck, Tobias Rohner, Francesca Bartolucci, Rima Alaifari, Siddhartha Mishra, Emmanuel de B\'ezenac(参考訳) 従来の機械学習では非常にうまく使われているが、畳み込みベースのニューラルネットワークアーキテクチャ(関数空間に一貫性がないと思われる)は、PDEの学習ソリューションオペレーターの文脈では無視されている。 本稿では,畳み込みニューラルネットワークに対して,関数を入力や出力として処理できることを実証するために,新しい適応法を提案する。 結果として得られるアーキテクチャは畳み込みニューラル演算子(CNO)と呼ばれ、コンピュータ上で離散化された形式で実装されたとしても、その基盤となる連続性を維持するように設計されている。 普遍性定理を証明し、CNOが PDE で生じる作用素を所望の精度で近似できることを示す。 CNOは、多スケールなソリューションを備えた多種多様なPDEを含む、新しいベンチマークスイートでテストされ、ベースラインを大幅に上回り、堅牢で正確な演算子学習のための代替フレームワークの道を開く。

Although very successfully used in conventional machine learning, convolution based neural network architectures -- believed to be inconsistent in function space -- have been largely ignored in the context of learning solution operators of PDEs. Here, we present novel adaptations for convolutional neural networks to demonstrate that they are indeed able to process functions as inputs and outputs. The resulting architecture, termed as convolutional neural operators (CNOs), is designed specifically to preserve its underlying continuous nature, even when implemented in a discretized form on a computer. We prove a universality theorem to show that CNOs can approximate operators arising in PDEs to desired accuracy. CNOs are tested on a novel suite of benchmarks, encompassing a diverse set of PDEs with possibly multi-scale solutions and are observed to significantly outperform baselines, paving the way for an alternative framework for robust and accurate operator learning.
翻訳日:2023-06-01 01:38:11 公開日:2023-05-30
# SceneScape: テキスト駆動の一貫性のあるシーン生成

SceneScape: Text-Driven Consistent Scene Generation ( http://arxiv.org/abs/2302.01133v2 )

ライセンス: Link先を確認
Rafail Fridman, Amit Abecasis, Yoni Kasten, Tali Dekel(参考訳) 本稿では,シーンとカメラのポーズを記述する入力テキストプロンプトを与えられた場合,様々なシーンの長期映像を合成するテキスト駆動のパーペクタルビュー生成手法を提案する。 本稿では,事前学習されたテキストから画像への生成能力と,事前学習された単眼深度予測モデルによって学習された幾何学的事前性を組み合わせたオンライン手法を提案する。 3次元の整合性を達成するための重要な課題、すなわち、幾何学的に表現可能なシーンを描写したビデオの合成に対処するために、オンラインテストタイムトレーニングをデプロイし、現在のフレームの予測深度マップが合成されたシーンと幾何学的に整合することを奨励する。 深度マップはシーンの統一メッシュ表現を構築するために使用され、映像生成プロセスに沿って徐々に構築される。 限られた領域のみに適用できる従来の作品とは対照的に, 宇宙船, 洞窟, 氷の城の遊歩道など, 様々な場面を再現する手法である。

We present a method for text-driven perpetual view generation -- synthesizing long-term videos of various scenes solely, given an input text prompt describing the scene and camera poses. We introduce a novel framework that generates such videos in an online fashion by combining the generative power of a pre-trained text-to-image model with the geometric priors learned by a pre-trained monocular depth prediction model. To tackle the pivotal challenge of achieving 3D consistency, i.e., synthesizing videos that depict geometrically-plausible scenes, we deploy an online test-time training to encourage the predicted depth map of the current frame to be geometrically consistent with the synthesized scene. The depth maps are used to construct a unified mesh representation of the scene, which is progressively constructed along the video generation process. In contrast to previous works, which are applicable only to limited domains, our method generates diverse scenes, such as walkthroughs in spaceships, caves, or ice castles.
翻訳日:2023-06-01 01:37:53 公開日:2023-05-30
# Speed-Oblivious Online Scheduling: Knowing (Precise) Speeds is not necessary

Speed-Oblivious Online Scheduling: Knowing (Precise) Speeds is not Necessary ( http://arxiv.org/abs/2302.00985v2 )

ライセンス: Link先を確認
Alexander Lindermayr, Nicole Megow, Martin Rapp(参考訳) アルゴリズムがジョブ依存の処理速度を正確に把握していないような,非関連(ヘテロゲネス)マシン上でのオンラインスケジューリングについて検討する。 我々は, 透視的および非透視的アルゴリズムに対する強い不可能性を示し, 実用的設定に触発されたモデルで克服する。 (i)速度の予測が与えられると仮定して、競争力のある学習増強アルゴリズムを提供する。 (ii)我々は、未知のジョブ依存の速度に応じて1つのグローバルオーダーのマシンが知られている速度順序付けモデルのための競合アルゴリズムを提供する。 我々は,その理論的保証を強く証明し,代表的ヘテロジニアスマルチコアプロセッサ上での知見を評価する。 これらは、非合成ハードウェア環境で評価される予測を伴うスケジューリングアルゴリズムの最初の経験的な結果である。

We consider online scheduling on unrelated (heterogeneous) machines in a speed-oblivious setting, where an algorithm is unaware of the exact job-dependent processing speeds. We show strong impossibility results for clairvoyant and non-clairvoyant algorithms and overcome them in models inspired by practical settings: (i) we provide competitive learning-augmented algorithms, assuming that (possibly erroneous) predictions on the speeds are given, and (ii) we provide competitive algorithms for the speed-ordered model, where a single global order of machines according to their unknown job-dependent speeds is known. We prove strong theoretical guarantees and evaluate our findings on a representative heterogeneous multi-core processor. These seem to be the first empirical results for scheduling algorithms with predictions that are evaluated in a non-synthetic hardware environment.
翻訳日:2023-06-01 01:37:36 公開日:2023-05-30
# 割引マルコフ決定過程における厳密な政策ミラー降下の最適収束率

Optimal Convergence Rate for Exact Policy Mirror Descent in Discounted Markov Decision Processes ( http://arxiv.org/abs/2302.11381v2 )

ライセンス: Link先を確認
Emmeran Johnson, Ciara Pike-Burke, Patrick Rebeschini(参考訳) Policy Mirror Descent (PMD) は、強化学習における様々な新しい基本的な手法を網羅するアルゴリズムの一般的なファミリーである。 不正確な政策評価を伴う政策反復(PI)の不安定性により、不規則なPMDは、目的関数を正規化することなく、PIの政策改善ステップをアルゴリズム的に規則化する。 正確な政策評価では、PIはマルコフ決定過程の割引係数$\gamma$によって与えられるレートで線形収束することが知られている。 本研究では, PI と PMD のギャップを厳密なポリシー評価で埋めるとともに, 適応的なステップサイズで非正規化 PMD アルゴリズムの一般ファミリーによって, PI の次元自由な$\gamma$-rate が達成可能であることを示す。 我々は,PSD法およびPI法において,$\gamma$-rateが最適であること,それを実現するためには適応的なステップサイズが必要であることを示す,一致した下界を提供する。 我々の研究は、PMDを利率最適化とステップサイズの必要性に関連付ける最初のものである。 PMDの収束に関する我々の研究は、性能差補題の使用を回避し、独立利害の直接的な分析に繋がる。 また,解析を不正確な設定にまで拡張し,非正規化PMDに対する第1次元最適サンプル複雑性を生成モデルで確立し,最もよく知られた結果を改善する。

Policy Mirror Descent (PMD) is a general family of algorithms that covers a wide range of novel and fundamental methods in reinforcement learning. Motivated by the instability of policy iteration (PI) with inexact policy evaluation, unregularised PMD algorithmically regularises the policy improvement step of PI without regularising the objective function. With exact policy evaluation, PI is known to converge linearly with a rate given by the discount factor $\gamma$ of a Markov Decision Process. In this work, we bridge the gap between PI and PMD with exact policy evaluation and show that the dimension-free $\gamma$-rate of PI can be achieved by the general family of unregularised PMD algorithms under an adaptive step-size. We show that both the rate and step-size are unimprovable for PMD: we provide matching lower bounds that demonstrate that the $\gamma$-rate is optimal for PMD methods as well as PI and that the adaptive step-size is necessary to achieve it. Our work is the first to relate PMD to rate-optimality and step-size necessity. Our study of the convergence of PMD avoids the use of the performance difference lemma, which leads to a direct analysis of independent interest. We also extend the analysis to the inexact setting and establish the first dimension-optimal sample complexity for unregularised PMD under a generative model, improving upon the best-known result.
翻訳日:2023-06-01 01:30:11 公開日:2023-05-30
# ニューラルネットワーク関数のリプシッツ連続性に関する基礎的側面

Some Fundamental Aspects about Lipschitz Continuity of Neural Network Functions ( http://arxiv.org/abs/2302.10886v2 )

ライセンス: Link先を確認
Grigory Khromov, Sidak Pal Singh(参考訳) リプシッツ連続性(lipschitz continuity)は、モデルの堅牢性、一般化、および敵対的脆弱性の中核にある予測モデルの単純かつ重要な機能的性質である。 本研究の目的は,ニューラルネットワークによって実現される関数のリプシッツ挙動を徹底的に調査し,特徴付けることである。 そこで我々は,最も単純で一般的な下界と上界の限界をなくし,様々な設定(アーキテクチャ,損失,オプティマイザ,ラベルノイズなど)で経験的調査を行う。 この選択は、主に計算のハードネスの結果に動機づけられているが、それでもかなりリソースに富み、ニューラルネットワーク関数のリプシッツ連続性のいくつかの基礎的かつ興味深い特徴に光を当てている。 この研究のハイライトとして、テスト損失の典型的な二重降下傾向と密に一致したネットワーク幅が増加するリプシッツ定数の上下境界における顕著な二重降下傾向を同定する。 最後に、ラベルノイズの存在下でリプシッツ定数が(直観的に)低下しているように見えることに触れます。

Lipschitz continuity is a simple yet crucial functional property of any predictive model for it lies at the core of the model's robustness, generalisation, as well as adversarial vulnerability. Our aim is to thoroughly investigate and characterise the Lipschitz behaviour of the functions realised by neural networks. Thus, we carry out an empirical investigation in a range of different settings (namely, architectures, losses, optimisers, label noise, and more) by exhausting the limits of the simplest and the most general lower and upper bounds. Although motivated primarily by computational hardness results, this choice nevertheless turns out to be rather resourceful and sheds light on several fundamental and intriguing traits of the Lipschitz continuity of neural network functions, which we also supplement with suitable theoretical arguments. As a highlight of this investigation, we identify a striking double descent trend in both upper and lower bounds to the Lipschitz constant with increasing network width -- which tightly aligns with the typical double descent trend in the test loss. Lastly, we touch upon the seeming (counter-intuitive) decline of the Lipschitz constant in the presence of label noise.
翻訳日:2023-06-01 01:29:43 公開日:2023-05-30
# 状態トモグラフィーを伴わない2量子量子相関の実験的階層

Experimental hierarchy of two-qubit quantum correlations without state tomography ( http://arxiv.org/abs/2302.10159v2 )

ライセンス: Link先を確認
Shilan Abo, Jan Soubusta, Kate\v{r}ina Jir\'akov\'a, Karol Bartkiewicz, Anton\'in \v{C}ernoch, Karel Lemr, Adam Miranowicz(参考訳) ワーナー状態(英: Werner state)は、ホワイトノイズによって影響を受ける一重項ベル状態であり、ノイズの量をコントロールすることによって量子エンタングルメント、ステアリング、ベル非局所性の階層を明らかにする状態のプロトタイプである。 しかしながら、この階層の十分かつ必要な方法での実験的な実証(つまり、これらの量子相関の測度や普遍的証人を適用することによって)は、主に2量子ビット状態の少なくとも15の実パラメータの測定に対応する完全な量子状態トモグラフィーに基づいている。 本稿では,2キュービットストークスパラメータの線形結合に依存する相関行列の6要素のみを測定することにより,この階層構造を実験的に実証する。 また,白色雑音の影響を受ける2量子ビット純状態である一般化ヴェルナー状態の量子相関の階層構造も実験的に明らかにできることを示した。

A Werner state, which is the singlet Bell state affected by white noise, is a prototype example of states, which can reveal a hierarchy of quantum entanglement, steering, and Bell nonlocality by controlling the amount of noise. However, experimental demonstrations of this hierarchy in a sufficient and necessary way (i.e., by applying measures or universal witnesses of these quantum correlations) have been mainly based on full quantum state tomography, corresponding to measuring at least 15 real parameters of two-qubit states. Here we report an experimental demonstration of this hierarchy by measuring only six elements of a correlation matrix depending on linear combinations of two-qubit Stokes parameters. We show that our experimental setup can also reveal the hierarchy of these quantum correlations of generalized Werner states, which are any two-qubit pure states affected by white noise.
翻訳日:2023-06-01 01:29:23 公開日:2023-05-30
# 相互情報の観点から見た多視点クラスタリング

Multi-View Clustering from the Perspective of Mutual Information ( http://arxiv.org/abs/2302.08743v2 )

ライセンス: Link先を確認
Fu Lele, Zhang Lei, Wang Tong, Chen Chuan, Zhang Chuanfu, Zheng Zibin(参考訳) マルチビューデータの補完情報を探索し、クラスタリング効果を改善することは、マルチビュークラスタリングにおいて重要な問題である。 本稿では,多視点データに隠された共通およびビュー固有の情報を抽出し,クラスタリング指向の包括表現を構築する情報理論「情報多視点クラスタリング(imvc)」に基づく新しいモデルを提案する。 具体的には、複数の機能を統一された特徴表現にまとめ、エンコーダに渡すことで、ビュー間の共通表現を検索します。 同時に、各ビューの特徴をエンコーダに送信して、それぞれコンパクトなビュー固有の表現を生成する。 したがって、多レベル情報を得るために、共通表現とビュー固有表現の相互情報を最小限に制限する。 さらに、共通表現とビュー固有表現をスプライシングして各ビューの洗練された表現をモデル化し、デコーダに入力して初期データを最大化して再構成する。 包括的な表現を形成するために、共通表現とすべてのビュー固有の表現は結合される。 さらに,クラスタリングタスクの包括的表現性を向上するために,インスタンスとk-アネレスト近傍の相互情報を最大化し,クラスタ内アグリゲーションを強化し,全体としてのクラスタの分離を良好に行う。 最後に,6つのベンチマークデータセットについて広範な実験を行い,IMVCが他の手法よりも優れていることを示す実験結果を得た。

Exploring the complementary information of multi-view data to improve clustering effects is a crucial issue in multi-view clustering. In this paper, we propose a novel model based on information theory termed Informative Multi-View Clustering (IMVC), which extracts the common and view-specific information hidden in multi-view data and constructs a clustering-oriented comprehensive representation. More specifically, we concatenate multiple features into a unified feature representation, then pass it through a encoder to retrieve the common representation across views. Simultaneously, the features of each view are sent to a encoder to produce a compact view-specific representation, respectively. Thus, we constrain the mutual information between the common representation and view-specific representations to be minimal for obtaining multi-level information. Further, the common representation and view-specific representation are spliced to model the refined representation of each view, which is fed into a decoder to reconstruct the initial data with maximizing their mutual information. In order to form a comprehensive representation, the common representation and all view-specific representations are concatenated. Furthermore, to accommodate the comprehensive representation better for the clustering task, we maximize the mutual information between an instance and its k-nearest neighbors to enhance the intra-cluster aggregation, thus inducing well separation of different clusters at the overall aspect. Finally, we conduct extensive experiments on six benchmark datasets, and the experimental results indicate that the proposed IMVC outperforms other methods.
翻訳日:2023-06-01 01:28:47 公開日:2023-05-30
# ゼロショットバッチレベル異常検出

Zero-Shot Batch-Level Anomaly Detection ( http://arxiv.org/abs/2302.07849v3 )

ライセンス: Link先を確認
Aodong Li, Chen Qiu, Marius Kloft, Padhraic Smyth, Maja Rudolph, Stephan Mandt(参考訳) 異常検出(AD)は多くの安全クリティカルなアプリケーション領域において重要な役割を果たす。 異常検出器を通常のデータ分布のドリフトに適応させるという課題は、特に「新しい正常」のためのトレーニングデータがない場合、ゼロショット広告技術の開発に繋がった。 本稿では,ゼロショットバッチレベルのADに対して,適応中心表現(ACR)と呼ばれるシンプルで効果的な手法を提案する。 本手法では, バッチ正規化と組み合わせて, 深部SVDD(Deep SVDD)などの深部異常検出装置を訓練することにより, 未知のADタスクに対するゼロショット自動一般化を実現する。 この単純なレシピ、バッチ正規化とメタトレーニングは、非常に効果的で多用途なツールです。 以上の結果から,特定領域の画像データに対するゼロショット異常検出およびセグメンテーションにおいて,表データおよび既存手法を上回った最初のゼロショット広告結果を示す。

Anomaly detection (AD) plays a crucial role in many safety-critical application domains. The challenge of adapting an anomaly detector to drift in the normal data distribution, especially when no training data is available for the "new normal", has led to the development of zero-shot AD techniques. In this paper, we propose a simple yet effective method called Adaptive Centered Representations (ACR) for zero-shot batch-level AD. Our approach trains off-the-shelf deep anomaly detectors (such as deep SVDD) to adapt to a set of inter-related training data distributions in combination with batch normalization, enabling automatic zero-shot generalization for unseen AD tasks. This simple recipe, batch normalization plus meta-training, is a highly effective and versatile tool. Our results demonstrate the first zero-shot AD results for tabular data and outperform existing methods in zero-shot anomaly detection and segmentation on image data from specialized domains.
翻訳日:2023-06-01 01:28:22 公開日:2023-05-30
# 二元単位から二元単位へ:正確に解ける多体量子力学の2カテゴリーモデル

From dual-unitary to biunitary: a 2-categorical model for exactly-solvable many-body quantum dynamics ( http://arxiv.org/abs/2302.07280v2 )

ライセンス: Link先を確認
Pieter W. Claeys, Austen Lamacraft, Jamie Vicary(参考訳) デュアルユニタリブリックワーク回路は、時間と空間の方向の両方でユニタリである2サイトゲートに基づく、多体カオス量子システムのための正確に解くことができるモデルである。 prosen氏は先日、非ブロック構造で構成された2つの制御された1サイトユニタリに基づいて、ここでは"クロックワーク"と呼んでいる、"デュアル・ユニタリインタラクション・ラウンド・ア・フェイス"と呼ばれる代替モデルについて説明した。 我々は,これら2つの既存モデルを同時に一般化する2つのカテゴリの枠組みを提案し,ブリックワークとクロックワークの回路が豊かに相互作用できることを示す。 これらの相互作用は量子組合せデータによって制御され、正確に特徴付けられることを示す。 これらの一般化回路は未解決のままであり、因果光円錐以外の至る所で消滅する単点相関関数のような原モデルの魅力的な特徴を保っていることを示す。 提案するフレームワークにより, 可解初期状態の概念を2元回路に直接拡張することが可能となり, 2元回路ダイナミクス下での有限個の時間ステップを経て, 最大絡み合い成長と完全熱化を生じさせることが示された。

Dual-unitary brickwork circuits are an exactly-solvable model for many-body chaotic quantum systems, based on 2-site gates which are unitary in both the time and space directions. Prosen has recently described an alternative model called 'dual-unitary interactions round-a-face', which we here call 'clockwork', based on 2-controlled 1-site unitaries composed in a non-brickwork structure, yet with many of the same attractive global properties. We present a 2-categorical framework that simultaneously generalizes these two existing models, and use it to show that brickwork and clockwork circuits can interact richly, yielding new types of generalized heterogeneous circuits. We show that these interactions are governed by quantum combinatorial data, which we precisely characterize. These generalized circuits remain exactly-solvable and we show that they retain the attractive features of the original models such as single-site correlation functions vanishing everywhere except on the causal light-cone. Our presented framework allows us to directly extend the notion of solvable initial states to these biunitary circuits, which are shown to result in maximal entanglement growth and exact thermalization after finitely many time steps under biunitary circuit dynamics.
翻訳日:2023-06-01 01:28:06 公開日:2023-05-30
# 線形バンディットにおける純粋探索のためのマルチタスク表現学習

Multi-task Representation Learning for Pure Exploration in Linear Bandits ( http://arxiv.org/abs/2302.04441v2 )

ライセンス: Link先を確認
Yihan Du, Longbo Huang, Wen Sun(参考訳) 逐次意思決定における表現学習の成功にもかかわらず、純粋な探索シナリオ(すなわち、最良の選択肢を特定し、サンプルの複雑さを最小限に抑える)の研究は依然として限られている。 本稿では,リニアバンディット(RepBAI-LB)におけるベストアーム識別のためのマルチタスク表現学習とコンテキスト線形バンディット(RepBPI-CLB)におけるベストポリシー識別について検討する。 これらの2つの問題において、すべてのタスクは共通の低次元線型表現を共有しており、我々の目標は、この機能を利用してすべてのタスクの最高のアーム識別プロセスを加速することである。 これらの問題に対して、我々はDouExpDesとC-DouExpDesの2つの実験を行い、グローバル表現の学習に最適なサンプルアロケーションを計画するアルゴリズムを設計する。 タスク間の共通表現を学習することで,タスクを独立に解くネイティブアプローチよりも,サンプル複雑性が著しく向上することを示す。 私たちの知る限りでは、マルチタスク純粋探索における表現学習の利点を示す最初の研究である。

Despite the recent success of representation learning in sequential decision making, the study of the pure exploration scenario (i.e., identify the best option and minimize the sample complexity) is still limited. In this paper, we study multi-task representation learning for best arm identification in linear bandits (RepBAI-LB) and best policy identification in contextual linear bandits (RepBPI-CLB), two popular pure exploration settings with wide applications, e.g., clinical trials and web content optimization. In these two problems, all tasks share a common low-dimensional linear representation, and our goal is to leverage this feature to accelerate the best arm (policy) identification process for all tasks. For these problems, we design computationally and sample efficient algorithms DouExpDes and C-DouExpDes, which perform double experimental designs to plan optimal sample allocations for learning the global representation. We show that by learning the common representation among tasks, our sample complexity is significantly better than that of the native approach which solves tasks independently. To the best of our knowledge, this is the first work to demonstrate the benefits of representation learning for multi-task pure exploration.
翻訳日:2023-06-01 01:27:43 公開日:2023-05-30
# 情報理論的重要度サンプリングクラスタリング

Information Theoretical Importance Sampling Clustering ( http://arxiv.org/abs/2302.04421v2 )

ライセンス: Link先を確認
Jiangshe Zhang, Lizhen Ji, Meng Wang(参考訳) 多くのクラスタリング手法の現在の仮定は、トレーニングデータと将来のデータが同じ分布から取られるというものである。 しかし、この仮定は現実のシナリオでは成り立たないかもしれない。 本稿では,分布偏差の制約下で予測される歪みの最悪の場合を最小化するクラスタリング問題(itisc)に対する情報理論的重要度サンプリング手法を提案する。 分散偏差制約は、重要サンプリングから導かれる均一分布を中心とする重み分布の集合上の制約に変換することができる。 提案手法の目的は,最大劣化下での損失を最小限に抑えることであり,その結果の問題は制約付きミニマックス最適化問題であり,ラグランジュ法を用いて制約のない問題に再構成できる。 最適化問題は、代替最適化アルゴリズムと商用ソフトウェアによる汎用最適化ルーチンの両方で解決できる。 合成データセットの実験結果と実世界の負荷予測問題により,提案モデルの有効性が検証された。 さらに,ファジィc-meansは対数歪みを伴うitisCの特殊な症例であり,この観察はファジィ指数$m$に対する興味深い物理的解釈を提供する。

A current assumption of most clustering methods is that the training data and future data are taken from the same distribution. However, this assumption may not hold in most real-world scenarios. In this paper, we propose an information theoretical importance sampling based approach for clustering problems (ITISC) which minimizes the worst case of expected distortions under the constraint of distribution deviation. The distribution deviation constraint can be converted to the constraint over a set of weight distributions centered on the uniform distribution derived from importance sampling. The objective of the proposed approach is to minimize the loss under maximum degradation hence the resulting problem is a constrained minimax optimization problem which can be reformulated to an unconstrained problem using the Lagrange method. The optimization problem can be solved by both an alternative optimization algorithm or a general optimization routine by commercially available software. Experiment results on synthetic datasets and a real-world load forecasting problem validate the effectiveness of the proposed model. Furthermore, we show that fuzzy c-means is a special case of ITISC with the logarithmic distortion, and this observation provides an interesting physical interpretation for fuzzy exponent $m$.
翻訳日:2023-06-01 01:27:02 公開日:2023-05-30
# 明示的・暗示的高周波特徴からの深部超解像

Depth Super-Resolution from Explicit and Implicit High-Frequency Features ( http://arxiv.org/abs/2303.09307v2 )

ライセンス: Link先を確認
Xin Qiao, Chenyang Ge, Youmin Zhang, Yanhui Zhou, Fabio Tosi, Matteo Poggi, Stefano Mattoccia(参考訳) 本稿では,高分解能深度マップを明示的かつ暗黙的な高周波数特徴から徐々に再構成する多段深度超解ネットワークを提案する。 前者は局所的および大域的コンテキストの両方の効率的なトランス処理により抽出され、後者は色画像を周波数領域に投影して得られる。 どちらも、マルチステージおよびマルチスケールフレームワーク内の融合戦略によって、深度特徴と組み合わせられる。 NYUv2、Middlebury、DIML、RGBDDといった主要なベンチマークの実験では、我々のアプローチは既存のメソッドよりも大きなマージン(NYUv2とDIMLは16倍のアップサンプリングで現在のDADAに対して約20%)、ガイド付き深度超分解タスクにおいて新たな最先端技術を確立している。

We propose a novel multi-stage depth super-resolution network, which progressively reconstructs high-resolution depth maps from explicit and implicit high-frequency features. The former are extracted by an efficient transformer processing both local and global contexts, while the latter are obtained by projecting color images into the frequency domain. Both are combined together with depth features by means of a fusion strategy within a multi-stage and multi-scale framework. Experiments on the main benchmarks, such as NYUv2, Middlebury, DIML and RGBDD, show that our approach outperforms existing methods by a large margin (~20% on NYUv2 and DIML against the contemporary work DADA, with 16x upsampling), establishing a new state-of-the-art in the guided depth super-resolution task.
翻訳日:2023-06-01 01:21:25 公開日:2023-05-30
# 変圧器を用いたシンボリック回帰計画

Transformer-based Planning for Symbolic Regression ( http://arxiv.org/abs/2303.06833v3 )

ライセンス: Link先を確認
Parshin Shojaee, Kazem Meidani, Amir Barati Farimani, Chandan K. Reddy(参考訳) 記号回帰(SR)は、その値に基づいて関数の数学的表現を見つけることを含む機械学習における挑戦的なタスクである。 最近のsrの進歩は、方程式を列として生成することにおける事前訓練されたトランスフォーマーモデルの有効性を実証し、合成データセットの大規模事前トレーニングを活用し、gp法よりも推論時間に関して顕著な利点を提供している。 しかし、これらのモデルは主にテキスト生成から借りた教師付き事前学習の目標と、精度や複雑さといった方程式固有の目的に依存している。 そこで本研究では,モンテカルロ木探索をトランスフォーマ復号処理に組み込んだ,トランスフォーマに基づくシンボリック回帰計画戦略TPSRを提案する。 従来の復号法とは異なり、TPSRは知識の外部源として精度や複雑さなどの非微分可能なフィードバックを変換器ベースの方程式生成プロセスに統合することができる。 様々なデータセットに対する大規模な実験により、我々のアプローチは最先端の手法より優れており、モデルの適合・複雑度トレードオフ、外挿能力、騒音に対する堅牢性を高めていることが示された。

Symbolic regression (SR) is a challenging task in machine learning that involves finding a mathematical expression for a function based on its values. Recent advancements in SR have demonstrated the effectiveness of pretrained transformer-based models in generating equations as sequences, leveraging large-scale pretraining on synthetic datasets and offering notable advantages in terms of inference time over GP-based methods. However, these models primarily rely on supervised pretraining goals borrowed from text generation and overlook equation-specific objectives like accuracy and complexity. To address this, we propose TPSR, a Transformer-based Planning strategy for Symbolic Regression that incorporates Monte Carlo Tree Search into the transformer decoding process. Unlike conventional decoding strategies, TPSR enables the integration of non-differentiable feedback, such as fitting accuracy and complexity, as external sources of knowledge into the transformer-based equation generation process. Extensive experiments on various datasets show that our approach outperforms state-of-the-art methods, enhancing the model's fitting-complexity trade-off, extrapolation abilities, and robustness to noise
翻訳日:2023-06-01 01:21:09 公開日:2023-05-30
# 1変圧器は大規模多モード拡散における全分布をフィッティングする

One Transformer Fits All Distributions in Multi-Modal Diffusion at Scale ( http://arxiv.org/abs/2303.06555v2 )

ライセンス: Link先を確認
Fan Bao, Shen Nie, Kaiwen Xue, Chongxuan Li, Shi Pu, Yaole Wang, Gang Yue, Yue Cao, Hang Su, Jun Zhu(参考訳) 本論文では,マルチモーダルデータの集合に関連するすべての分布を1つのモデルに適合させる統合拡散フレームワーク(UniDiffuser)を提案する。 私たちの重要な洞察は -- 限界、条件、ジョイント分布の拡散モデルを学ぶことは、摂動レベル(すなわち時間ステップ)が異なるモダリティで異なる摂動データのノイズを予測するものとして統一できる。 統一された視点に触発されて、UniDiffuserは元の拡散モデルに対する最小限の変更で全ての分布を同時に学習し、単一のモダリティの代わりに全てのモダリティでデータを摂動し、異なるモダリティで個々のタイムステップを入力し、単一のモダリティの代わりに全てのモダリティのノイズを予測する。 UniDiffuserは、異なるモードの入力タイプを扱う拡散モデルのための変換器によってパラメータ化される。 大規模なペア画像テキストデータに基づいて、UniDiffuserは画像、テキスト、テキスト・トゥ・イメージ、画像・ツー・テキスト、画像・テキストのペア生成を行うことができる。 特に、UniDiffuserは、すべてのタスクにおいて知覚的に現実的なサンプルを生成することができ、その定量的結果(例えば、FIDとCLIPスコア)は、既存の汎用モデルよりも優れているだけでなく、代表タスク(例えば、テキストから画像生成)において、bespokenモデル(例えば、安定拡散とDALL-E2)に匹敵する。

This paper proposes a unified diffusion framework (dubbed UniDiffuser) to fit all distributions relevant to a set of multi-modal data in one model. Our key insight is -- learning diffusion models for marginal, conditional, and joint distributions can be unified as predicting the noise in the perturbed data, where the perturbation levels (i.e. timesteps) can be different for different modalities. Inspired by the unified view, UniDiffuser learns all distributions simultaneously with a minimal modification to the original diffusion model -- perturbs data in all modalities instead of a single modality, inputs individual timesteps in different modalities, and predicts the noise of all modalities instead of a single modality. UniDiffuser is parameterized by a transformer for diffusion models to handle input types of different modalities. Implemented on large-scale paired image-text data, UniDiffuser is able to perform image, text, text-to-image, image-to-text, and image-text pair generation by setting proper timesteps without additional overhead. In particular, UniDiffuser is able to produce perceptually realistic samples in all tasks and its quantitative results (e.g., the FID and CLIP score) are not only superior to existing general-purpose models but also comparable to the bespoken models (e.g., Stable Diffusion and DALL-E 2) in representative tasks (e.g., text-to-image generation).
翻訳日:2023-06-01 01:20:48 公開日:2023-05-30
# 量子ウォークにおけるセデンタリネス

Sedentariness in quantum walks ( http://arxiv.org/abs/2303.06297v2 )

ライセンス: Link先を確認
Hermie Monterde(参考訳) sedentary vertex の概念を形式化し、Godsil [Linear Algebra Appl. 614:356-375, 2021] によって導入された sedentary family of graph の概念を緩和する。 グラフ内の与えられた頂点がセデンタリ性を示すのに十分な条件を提供する。 また、少なくとも双子が2人いる頂点(隣人を共有する頂点)は鎮静剤であることも示している。 従属的な強共スペクトル頂点を含む無限個のグラフが存在することを証明し、強共スペクトルがかなり良好な状態移動に必要な条件であるにもかかわらず、他の頂点への高い確率状態移動に抵抗する強共スペクトル頂点が存在することを証明した。 さらに、グラフの積におけるセデンタリティの結果を導き、完全なグラフと星のカルテシアン力のような新しいセデンタリー族を構築することができる。

We formalize the notion of a sedentary vertex and present a relaxation of the concept of a sedentary family of graphs introduced by Godsil [Linear Algebra Appl. 614:356-375, 2021]. We provide sufficient conditions for a given vertex in a graph to exhibit sedentariness. We also show that a vertex with at least two twins (vertices that share the same neighbours) is sedentary. We prove that there are infinitely many graphs containing strongly cospectral vertices that are sedentary, which reveals that, even though strong cospectrality is a necessary condition for pretty good state transfer, there are strongly cospectral vertices which resist high probability state transfer to other vertices. Moreover, we derive results about sedentariness in products of graphs which allow us to construct new sedentary families, such as Cartesian powers of complete graphs and stars.
翻訳日:2023-06-01 01:20:03 公開日:2023-05-30
# ソーシャルボットとサイバースペース意識の課題

Socialbots and the Challenges of Cyberspace Awareness ( http://arxiv.org/abs/2303.02609v2 )

ライセンス: Link先を確認
Shashank Yadav(参考訳) セキュリティコミュニティは、新たな社会自動化ベースの脅威に対処するため、サイバー空間における状況意識の発達メカニズムと、ソーシャルボットが既存のサイバー状況意識のパラダイムにもたらすガバナンス問題を検討する。 我々は、サイバースペースにおける組織の状況意識は、従来の状況意識の概念とは根本的に異なる現象であり、標準的な実装メカニズムが悪意のある社会自動化のような脅威に照らして、重要なポリシーの注意を必要とする、継続的なデータ交換と知識管理が必要であることを指摘する。 我々は、サイバー空間認識を、構文的、意味的、オペラティックな次元の社会技術的現象として考え、それぞれが社会自動化に基づく脅威の下で悪化する多くのストレスの対象となる。 この論文は、サイバー空間における状況認識のアイデアに貢献し、サイバー脅威環境における社会的かつしばしば普及する自動化に取り組む上での課題を特徴づけている。

As security communities brace for the emerging social automation based threats, we examine the mechanisms of developing situation awareness in cyberspace and the governance issues that socialbots bring into this existing paradigm of cyber situation awareness. We point out that an organisation's situation awareness in cyberspace is a phenomena fundamentally distinct from the original conception of situation awareness, requiring continuous data exchange and knowledge management where the standard implementation mechanisms require significant policy attention in light of threats like malicious social automation. We conceptualise Cyberspace Awareness as a socio-technical phenomena with Syntactic, Semantic, and Operatic dimensions - each subject to a number of stressors which are exacerbated under social automation based threats. The paper contributes to the ideas of situational awareness in cyberspace, and characterises the challenges therein around tackling the increasingly social and often pervasive, automation in cyber threat environments.
翻訳日:2023-06-01 01:19:31 公開日:2023-05-30
# 拡散に基づく音声強調のための確率微分方程式の事前ミスマッチの低減

Reducing the Prior Mismatch of Stochastic Differential Equations for Diffusion-based Speech Enhancement ( http://arxiv.org/abs/2302.14748v2 )

ライセンス: Link先を確認
Bunlong Lay, Simon Welker, Julius Richter, Timo Gerkmann(参考訳) 近年,音声強調のためのスコアベース生成モデルが成功している。 確率微分方程式を用いて反復進行過程をモデル化し、各ステップで環境雑音と白色ガウス雑音がクリーン音声信号に付加される。 限界では、フォワードプロセスの平均はノイズの混合物で終わるが、実際にはより早く停止し、ノイズの混合物の近似でのみ停止する。 これにより、前処理の終了分布と、推論時に逆プロセスを解くのに使われる前処理との差が生じる。 本稿では,この不一致に対処し,ブラウン橋を基礎とした前進過程を提案する。 このようなプロセスが,従来の拡散過程と比較してミスマッチの低減につながることを示す。 さらに重要なことは、私たちのアプローチが、イテレーションステップの半分しかなく、チューニングするハイパーパラメータが1つも少なく、ベースラインプロセスよりも客観的なメトリクスが改善されていることを示しています。

Recently, score-based generative models have been successfully employed for the task of speech enhancement. A stochastic differential equation is used to model the iterative forward process, where at each step environmental noise and white Gaussian noise are added to the clean speech signal. While in limit the mean of the forward process ends at the noisy mixture, in practice it stops earlier and thus only at an approximation of the noisy mixture. This results in a discrepancy between the terminating distribution of the forward process and the prior used for solving the reverse process at inference. In this paper, we address this discrepancy and propose a forward process based on a Brownian bridge. We show that such a process leads to a reduction of the mismatch compared to previous diffusion processes. More importantly, we show that our approach improves in objective metrics over the baseline process with only half of the iteration steps and having one hyperparameter less to tune.
翻訳日:2023-06-01 01:19:16 公開日:2023-05-30
# データ中心AI: 連続埋め込み空間最適化としての離散サブセットによる深層生成可能な特徴選択

Data-Centric AI: Deep Generative Differentiable Feature Selection via Discrete Subsetting as Continuous Embedding Space Optimization ( http://arxiv.org/abs/2302.13221v3 )

ライセンス: Link先を確認
Meng Xiao and Dongjie Wang and Min Wu and Pengfei Wang and Yuanchun Zhou and Yanjie Fu(参考訳) フィルタ、ラッパー、組込みメソッドなどの機能選択(FS)は、与えられた下流タスクに最適な機能サブセットを見つけることを目的としている。 しかし、現実の多くの実践では。 1)FSの基準は領域によって異なる。 2) FSはデータが高次元かつ小サンプルサイズである場合に脆である。 選択された特徴部分集合はより一般化され、正確で、入力次元に依存しないか? この問題を深く微分可能な特徴選択タスクに一般化し、新しい視点:連続埋め込み空間最適化としての離散的特徴部分集合を提案する。 我々は,deep feature subset encoder, accuracy evaluator, decoder,gradient ascent optimizerを含む汎用的かつ原則的なフレームワークを開発した。 このフレームワークは以下の4つのステップを実行します。 1) 特徴的正確性訓練データ作成 2) 深い特徴部分集合の埋め込み 3)勾配最適化探索 4) 特徴部分集合の再構成。 トレーニングデータジェネレータとしての強化、一般化のための多様なピアと探索的特徴セレクタ知識のアンサンブル、特徴部分集合から連続空間への効果的な埋め込み、そして正確な特徴を選択するための共同最適化と精度損失。 実験の結果,提案手法の有効性が示された。

Feature Selection (FS), such as filter, wrapper, and embedded methods, aims to find the optimal feature subset for a given downstream task. However, in many real-world practices, 1) the criteria of FS vary across domains; 2) FS is brittle when data is a high-dimensional and small sample size. Can selected feature subsets be more generalized, accurate, and input dimensionality agnostic? We generalize this problem into a deep differentiable feature selection task and propose a new perspective: discrete feature subsetting as continuous embedding space optimization. We develop a generic and principled framework including a deep feature subset encoder, accuracy evaluator, decoder, and gradient ascent optimizer. This framework implements four steps: 1) features-accuracy training data preparation; 2) deep feature subset embedding; 3) gradient-optimized search; 4) feature subset reconstruction. We develop new technical insights: reinforcement as a training data generator, ensembles of diverse peer and exploratory feature selector knowledge for generalization, an effective embedding from feature subsets to continuous space along with joint optimizing reconstruction and accuracy losses to select accurate features. Experimental results demonstrate the effectiveness of the proposed method.
翻訳日:2023-06-01 01:19:01 公開日:2023-05-30
# ニオブ酸リチウムの誘電率および損失タンジェントのミルリキルビン測定

Millikelvin measurements of permittivity and loss tangent of lithium niobate ( http://arxiv.org/abs/2302.12916v3 )

ライセンス: Link先を確認
Silvia Zorzetti, Changqing Wang, Ivan Gonin, Sergey Kazakov, Timergali Khabiboulline, Alexander Romanenko, Vyacheslav P Yakovlev, Anna Grassellino(参考訳) ニオブ酸リチウムは電子光学材料であり、マイクロ波信号処理、通信、量子センシング、量子コンピューティングに多くの応用がある。 本稿では, ニオブ酸リチウムのミリケルビン温度における複素電磁誘電率の評価について述べる。 7GHz帯で動作し, 異方性誘電体を特徴付ける超電導高周波キャビティを用いた共振方式を用いて測定を行った。 相対誘電率テンソルと損失接点は前例のない精度で50mkで測定される。

Lithium Niobate is an electro-optic material with many applications in microwave signal processing, communication, quantum sensing, and quantum computing. In this letter, we present findings on evaluating the complex electromagnetic permittivity of lithium niobate at milli-Kelvin temperatures. Measurements are carried out using a resonant-type method with a superconducting radio-frequency (SRF) cavity operating at 7 GHz and designed to characterize anisotropic dielectrics. The relative permittivity tensor and loss tangent are measured at 50 mK with unprecedented accuracy.
翻訳日:2023-06-01 01:18:30 公開日:2023-05-30
# ターゲットネットワークが時間差を安定化する理由

Why Target Networks Stabilise Temporal Difference Methods ( http://arxiv.org/abs/2302.12537v2 )

ライセンス: Link先を確認
Mattie Fellows, Matthew J. A. Smith, Shimon Whiteson(参考訳) 近年の深層強化学習の成功と一体化して、マルコフ決定過程における政策評価に頻繁に更新された目標値を用いた時間差分法が確立されている。 しかし、ターゲットネットワークの有効性に関する完全な理論的説明は、いまだ解明されていない。 この研究で、我々はこの人気のあるアルゴリズムのクラスを分析し、最後に答える:なぜターゲットネットワークはTD学習を安定化させるのか? そこで我々は,対象ネットワークの利用を記述し,適合する手法と半次時間差分アルゴリズムとのギャップを埋める,部分的に適合した政策評価法の概念を定式化する。 このフレームワークを使用することで、いわゆるDeadly Triad(非線型)関数近似によるTD更新と、非収束アルゴリズムにつながる外部データ)を特徴付けることができます。 この知見から、ターゲットネットワークの使用は、td更新のヤコビアンにおける条件付けの悪い影響を軽減できると結論付けることができる。 代わりに、穏やかな正規性条件と十分に調整されたターゲットネットワーク更新周波数の下では、非常に困難なオフポリシックサンプリングと非線形関数近似設定においても収束が保証されることを示した。

Integral to recent successes in deep reinforcement learning has been a class of temporal difference methods that use infrequently updated target values for policy evaluation in a Markov Decision Process. Yet a complete theoretical explanation for the effectiveness of target networks remains elusive. In this work, we provide an analysis of this popular class of algorithms, to finally answer the question: `why do target networks stabilise TD learning'? To do so, we formalise the notion of a partially fitted policy evaluation method, which describes the use of target networks and bridges the gap between fitted methods and semigradient temporal difference algorithms. Using this framework we are able to uniquely characterise the so-called deadly triad - the use of TD updates with (nonlinear) function approximation and off-policy data - which often leads to nonconvergent algorithms. This insight leads us to conclude that the use of target networks can mitigate the effects of poor conditioning in the Jacobian of the TD update. Instead, we show that under mild regularity conditions and a well tuned target network update frequency, convergence can be guaranteed even in the extremely challenging off-policy sampling and nonlinear function approximation setting.
翻訳日:2023-06-01 01:18:19 公開日:2023-05-30
# BenCoref: 名詞句と代名詞参照アノテーションのマルチドメインデータセット

BenCoref: A Multi-Domain Dataset of Nominal Phrases and Pronominal Reference Annotations ( http://arxiv.org/abs/2304.03682v2 )

ライセンス: Link先を確認
Shadman Rohan, Mojammel Hossain, Mohammad Mamun Or Rashid, Nabeel Mohammed(参考訳) 干渉分解能はNLPにおいてよく研究されている問題である。 英語や他の資源豊富な言語で広く研究されているが、ベンガル語における共参照分解の研究は、関連するデータセットがないため、ほとんど未調査のままである。 ベンガル語は低資源言語であり、英語に比べて形態的豊かである。 本稿では,4つの異なるドメインから収集したベンガルテキストのコリファレンスアノテーションを含む,新しいデータセットであるbencorefを紹介する。 この比較的小さなデータセットには、48,569トークン内に502の参照クラスタを形成する5200の参照アノテーションが含まれている。 本稿では,BenCorefを用いてトレーニングした複数のモデルの性能を報告する。 我々は,ベンガルの複数の領域におけるコア参照現象の変動に光を当て,ベンガルの新たな資源開発を促進することを期待する。 さらに、英語からゼロショット設定での言語横断性能が悪く、このタスクのための言語固有のリソースの必要性が強調された。

Coreference Resolution is a well studied problem in NLP. While widely studied for English and other resource-rich languages, research on coreference resolution in Bengali largely remains unexplored due to the absence of relevant datasets. Bengali, being a low-resource language, exhibits greater morphological richness compared to English. In this article, we introduce a new dataset, BenCoref, comprising coreference annotations for Bengali texts gathered from four distinct domains. This relatively small dataset contains 5200 mention annotations forming 502 mention clusters within 48,569 tokens. We describe the process of creating this dataset and report performance of multiple models trained using BenCoref. We anticipate that our work sheds some light on the variations in coreference phenomena across multiple domains in Bengali and encourages the development of additional resources for Bengali. Furthermore, we found poor crosslingual performance at zero-shot setting from English, highlighting the need for more language-specific resources for this task.
翻訳日:2023-06-01 01:10:46 公開日:2023-05-30
# ContraSim - コントラスト学習に基づく類似度尺度

ContraSim -- A Similarity Measure Based on Contrastive Learning ( http://arxiv.org/abs/2303.16992v2 )

ライセンス: Link先を確認
Adir Rahamim, Yonatan Belinkov(参考訳) 最近の研究では、モデル解釈を改善するために類似性に基づく分析によるニューラルネットワーク表現を比較している。 類似度尺度の質は、通常、一致が期待される表現に高いスコアを割り当てることの成功によって評価される。 しかし、既存の類似度尺度は標準ベンチマークで平凡に実行される。 本研究では,コントラスト学習に基づく新しい類似度尺度であるContraSimを開発した。 一般的な閉形式類似度測度とは対照的に、ContraSimは類似例と異例の両方を用いてパラメータ化測度を学ぶ。 本手法は,標準層予測ベンチマークと,多言語ベンチマークと画像キャプチャベンチマークの2つのベンチマークを用いて,言語モデルと視覚モデルの両方を用いて,広範な実験評価を行う。 あらゆるケースにおいて、ContraSimは、挑戦的な例を示しても、以前の類似度測定よりもはるかに高い精度を達成する。 最後に、contrasimはニューラルネットワークの分析により適しており、以前の測定では得られなかった新しい洞察を明らかにする。

Recent work has compared neural network representations via similarity-based analyses to improve model interpretation. The quality of a similarity measure is typically evaluated by its success in assigning a high score to representations that are expected to be matched. However, existing similarity measures perform mediocrely on standard benchmarks. In this work, we develop a new similarity measure, dubbed ContraSim, based on contrastive learning. In contrast to common closed-form similarity measures, ContraSim learns a parameterized measure by using both similar and dissimilar examples. We perform an extensive experimental evaluation of our method, with both language and vision models, on the standard layer prediction benchmark and two new benchmarks that we introduce: the multilingual benchmark and the image-caption benchmark. In all cases, ContraSim achieves much higher accuracy than previous similarity measures, even when presented with challenging examples. Finally, ContraSim is more suitable for the analysis of neural networks, revealing new insights not captured by previous measures.
翻訳日:2023-06-01 01:10:17 公開日:2023-05-30
# 自己指導型学習のステップワイドな性質について

On the Stepwise Nature of Self-Supervised Learning ( http://arxiv.org/abs/2303.15438v2 )

ライセンス: Link先を確認
James B. Simon, Maksis Knutins, Liu Ziyin, Daniel Geisz, Abraham J. Fetterman, Joshua Albrecht(参考訳) 本稿では,自己教師付き学習手法の学習過程の簡単な図を示す。 これらの手法は, 離散的, 分離されたステップの列において, 1次元の高次元埋め込みを同時に学習する。 この結論は、訓練されたネットワークが無限に広い場合に適用できる、バーロウ・ツインズの線形化モデルの研究を通して達成される。 このモデルのトレーニングダイナミクスを、小さな初期化から解き、あるコントラストカーネルの最上位固有モードを段階的に学習し、最終学習表現に対する閉形式式を得る。 注目すべきは、Barlow Twins、SimCLR、VICRegの損失を使ってDeep ResNetsをトレーニングするのと同じステップワイズ学習現象が見られます。 我々の理論は、カーネル回帰を教師付き学習のモデルと考えることができるように、カーネルPCAは自己教師付き学習の有用なモデルとして機能することを示唆している。

We present a simple picture of the training process of joint embedding self-supervised learning methods. We find that these methods learn their high-dimensional embeddings one dimension at a time in a sequence of discrete, well-separated steps. We arrive at this conclusion via the study of a linearized model of Barlow Twins applicable to the case in which the trained network is infinitely wide. We solve the training dynamics of this model from small initialization, finding that the model learns the top eigenmodes of a certain contrastive kernel in a stepwise fashion, and obtain a closed-form expression for the final learned representations. Remarkably, we then see the same stepwise learning phenomenon when training deep ResNets using the Barlow Twins, SimCLR, and VICReg losses. Our theory suggests that, just as kernel regression can be thought of as a model of supervised learning, kernel PCA may serve as a useful model of self-supervised learning.
翻訳日:2023-06-01 01:10:01 公開日:2023-05-30
# コントラスト学習は類似グラフ上のスペクトルクラスタリング

Contrastive Learning Is Spectral Clustering On Similarity Graph ( http://arxiv.org/abs/2303.15103v2 )

ライセンス: Link先を確認
Zhiquan Tan, Yifan Zhang, Jingqin Yang, Yang Yuan(参考訳) コントラスト学習は強力な自己教師付き学習手法であるが,その動作方法や動作理由に関する理論的な理解は限られている。 本稿では,標準InfoNCE損失を用いたコントラスト学習が類似グラフ上のスペクトルクラスタリングと等価であることを示す。 この等価性をビルディングブロックとして利用し、分析をCLIPモデルに拡張し、類似したマルチモーダルオブジェクトが組み合わさっていることを厳密に特徴付ける。 理論的な知見により、いくつかの視覚データセット上で標準のガウスカーネルよりも優れた新しいカーネル関数を組み込んだカーネル混合損失を導入する。

Contrastive learning is a powerful self-supervised learning method, but we have a limited theoretical understanding of how it works and why it works. In this paper, we prove that contrastive learning with the standard InfoNCE loss is equivalent to spectral clustering on the similarity graph. Using this equivalence as the building block, we extend our analysis to the CLIP model and rigorously characterize how similar multi-modal objects are embedded together. Motivated by our theoretical insights, we introduce the kernel mixture loss, incorporating novel kernel functions that outperform the standard Gaussian kernel on several vision datasets.
翻訳日:2023-06-01 01:09:46 公開日:2023-05-30
# 文法的誤り訂正におけるGPT-3.5とGPT-4の性能解析

Analyzing the Performance of GPT-3.5 and GPT-4 in Grammatical Error Correction ( http://arxiv.org/abs/2303.14342v2 )

ライセンス: Link先を確認
Steven Coyne, Keisuke Sakaguchi, Diana Galvan-Sosa, Michael Zock, Kentaro Inui(参考訳) GPT-3とGPT-4モデルは強力で、様々な自然言語処理タスクで高い性能を発揮する。 しかし、文法的誤り訂正(GEC)の課題において、それらの性能に関する詳細な分析が比較的不十分である。 そこで本研究では, GPT-3.5 モデル (text-davinci-003) と GPT-4 モデル (gpt-4-0314) の機能を GEC ベンチマークで検証した。 ゼロショット設定と少数ショット設定の両方で異なるプロンプトのパフォーマンスを比較し、異なるプロンプトフォーマットで遭遇する興味深い、あるいは問題のあるアウトプットを分析する。 BEA-2019 および JFLEG データセットにおける最良プロンプトの性能を報告し,GPT-4 が JFLEG ベンチマークで新たなハイスコアを達成することにより,GPT モデルが文レベルのリビジョン設定で良好に動作できることを見出した。 人体評価実験を通じて,GPTモデルの補正をソース,人体参照,ベースラインGECシステム文と比較し,編集戦略の相違点と人体評価者による評価方法について考察した。

GPT-3 and GPT-4 models are powerful, achieving high performance on a variety of Natural Language Processing tasks. However, there is a relative lack of detailed published analysis of their performance on the task of grammatical error correction (GEC). To address this, we perform experiments testing the capabilities of a GPT-3.5 model (text-davinci-003) and a GPT-4 model (gpt-4-0314) on major GEC benchmarks. We compare the performance of different prompts in both zero-shot and few-shot settings, analyzing intriguing or problematic outputs encountered with different prompt formats. We report the performance of our best prompt on the BEA-2019 and JFLEG datasets, finding that the GPT models can perform well in a sentence-level revision setting, with GPT-4 achieving a new high score on the JFLEG benchmark. Through human evaluation experiments, we compare the GPT models' corrections to source, human reference, and baseline GEC system sentences and observe differences in editing strategies and how they are scored by human raters.
翻訳日:2023-06-01 01:09:33 公開日:2023-05-30
# バレット食道病変のモデル化のための幾何学的潜在表現学習

Geometry-Aware Latent Representation Learning for Modeling Disease Progression of Barrett's Esophagus ( http://arxiv.org/abs/2303.12711v2 )

ライセンス: Link先を確認
Vivien van Veldhuizen(参考訳) バレット食道癌(barrett's esophagus、be)は、診断時に予後不良の食道癌の一種である食道腺癌(eac)の唯一の前駆体である。 食道癌の予防と治療にはbeの診断が不可欠である。 教師付き機械学習は診断をサポートするが、病理組織学トレーニングデータにおける高い相互オブザーバ変動はこれらの方法を制限する。 変分オートエンコーダ(vaes)による教師なし表現学習は、入力データを有用な機能のみを持つ低次元多様体にマッピングし、下流タスクと洞察を改善するためのbe進行を特徴付けるので、promiseを示す。 しかしながら、VAEのユークリッド潜伏空間は点関係を歪め、疾患進行モデリングを妨げる。 幾何学的vaesは潜在空間に幾何学的構造を与え、rhvae はリーマン多様体を、$\mathcal{s}$-vae は超球面多様体を仮定する。 我々の研究は、$\mathcal{S}$-VAEがバニラVAEより優れた再構成損失、表現分類精度、高画質な画像および低次元環境下での補間性能を示した。 回転情報を潜伏空間から切り離すことにより、グループベースアーキテクチャを用いて結果をさらに改善する。 さらに,安定性や再構成品質といったオートエンコーダの利点を保ちつつも,定性的な画像を生成する新しいオートエンコーダモデルである$\mathcal{S}$-AE への初期ステップも行う。

Barrett's Esophagus (BE) is the only precursor known to Esophageal Adenocarcinoma (EAC), a type of esophageal cancer with poor prognosis upon diagnosis. Therefore, diagnosing BE is crucial in preventing and treating esophageal cancer. While supervised machine learning supports BE diagnosis, high interobserver variability in histopathological training data limits these methods. Unsupervised representation learning via Variational Autoencoders (VAEs) shows promise, as they map input data to a lower-dimensional manifold with only useful features, characterizing BE progression for improved downstream tasks and insights. However, the VAE's Euclidean latent space distorts point relationships, hindering disease progression modeling. Geometric VAEs provide additional geometric structure to the latent space, with RHVAE assuming a Riemannian manifold and $\mathcal{S}$-VAE a hyperspherical manifold. Our study shows that $\mathcal{S}$-VAE outperforms vanilla VAE with better reconstruction losses, representation classification accuracies, and higher-quality generated images and interpolations in lower-dimensional settings. By disentangling rotation information from the latent space, we improve results further using a group-based architecture. Additionally, we take initial steps towards $\mathcal{S}$-AE, a novel autoencoder model generating qualitative images without a variational framework, but retaining benefits of autoencoders such as stability and reconstruction quality.
翻訳日:2023-06-01 01:09:12 公開日:2023-05-30
# ハミルトン深層ニューラルネットワークの普遍近似特性

Universal Approximation Property of Hamiltonian Deep Neural Networks ( http://arxiv.org/abs/2303.12147v2 )

ライセンス: Link先を確認
Muhammad Zakwan, Massimiliano d'Angelo, and Giancarlo Ferrari-Trecate(参考訳) 本稿では、ハミルトニア神経常微分方程式の離散化から生じるハミルトニア深層ニューラルネットワーク(hdnn)の普遍近似能力について検討する。 近年,hdnnは設計上,非バニッシブ勾配を享受し,トレーニング中に数値的安定性をもたらすことが示されている。 しかし、HDNNはいくつかのアプリケーションで最先端の性能を示しているが、その表現性を定量化するための包括的な研究は欠落している。 この点において、HDNNの普遍近似定理を提供し、HDNNのフローの一部がコンパクト領域上の任意の連続函数を任意に近似できることを示す。 この結果はHDNNの実用化のための確かな理論基盤を提供する。

This paper investigates the universal approximation capabilities of Hamiltonian Deep Neural Networks (HDNNs) that arise from the discretization of Hamiltonian Neural Ordinary Differential Equations. Recently, it has been shown that HDNNs enjoy, by design, non-vanishing gradients, which provide numerical stability during training. However, although HDNNs have demonstrated state-of-the-art performance in several applications, a comprehensive study to quantify their expressivity is missing. In this regard, we provide a universal approximation theorem for HDNNs and prove that a portion of the flow of HDNNs can approximate arbitrary well any continuous function over a compact domain. This result provides a solid theoretical foundation for the practical use of HDNNs.
翻訳日:2023-06-01 01:08:46 公開日:2023-05-30
# LNO:微分方程式の解法のためのラプラスニューラル演算子

LNO: Laplace Neural Operator for Solving Differential Equations ( http://arxiv.org/abs/2303.10528v2 )

ライセンス: Link先を確認
Qianying Cao, Somdatta Goswami, George Em Karniadakis(参考訳) 入力空間を分解するためにLaplace変換を利用するLaplace Neural operator (LNO)を導入する。 フーリエニューラル演算子(FNO)とは異なり、LNOは非周期的な信号を扱うことができ、過渡応答を考慮に入れ、指数収束を示す。 LNOは入力と出力空間の間の極-残差関係を取り入れ、解釈可能性の向上と一般化能力の向上を可能にする。 本稿では,3つのode(ダフィング振動子,駆動重力振子,ロレンツ系)と3つのpdes(オイラー・ベルヌーリビーム,拡散方程式,反応拡散系)の解を近似して,fno内の4つのフーリエ加群上のlno内の1つのラプラス層の優れた近似精度を示す。 特にLNOは、損傷のないシナリオにおける過渡応答のキャプチャにおいてFNOよりも優れています。 線形オイラー・ベルヌーリビームと拡散方程式では、lno の極抵抗公式の正確な表現は fno よりもかなり良い結果が得られる。 非線形反応拡散系では、LNOの誤差はFNOよりも小さく、演算子学習のネットワークパラメータとしてシステム極と残余を用いることの有効性を示す。 全体として、LNOは無限次元空間間の関数をマッピングするニューラル演算子を学習するための、有望な新しいアプローチであることを示唆している。

We introduce the Laplace neural operator (LNO), which leverages the Laplace transform to decompose the input space. Unlike the Fourier Neural Operator (FNO), LNO can handle non-periodic signals, account for transient responses, and exhibit exponential convergence. LNO incorporates the pole-residue relationship between the input and the output space, enabling greater interpretability and improved generalization ability. Herein, we demonstrate the superior approximation accuracy of a single Laplace layer in LNO over four Fourier modules in FNO in approximating the solutions of three ODEs (Duffing oscillator, driven gravity pendulum, and Lorenz system) and three PDEs (Euler-Bernoulli beam, diffusion equation, and reaction-diffusion system). Notably, LNO outperforms FNO in capturing transient responses in undamped scenarios. For the linear Euler-Bernoulli beam and diffusion equation, LNO's exact representation of the pole-residue formulation yields significantly better results than FNO. For the nonlinear reaction-diffusion system, LNO's errors are smaller than those of FNO, demonstrating the effectiveness of using system poles and residues as network parameters for operator learning. Overall, our results suggest that LNO represents a promising new approach for learning neural operators that map functions between infinite-dimensional spaces.
翻訳日:2023-06-01 01:07:59 公開日:2023-05-30
# オフライン強化学習におけるExact Energy-Guided Diffusion Smplingのコントラストエネルギー予測

Contrastive Energy Prediction for Exact Energy-Guided Diffusion Sampling in Offline Reinforcement Learning ( http://arxiv.org/abs/2304.12824v2 )

ライセンス: Link先を確認
Cheng Lu, Huayu Chen, Jianfei Chen, Hang Su, Chongxuan Li, Jun Zhu(参考訳) ガイドサンプリングは実世界のタスクに拡散モデルを適用するための重要なアプローチであり、サンプリング手順中に人間の定義したガイダンスを埋め込む。 本稿では、誘導が(正規化されていない)エネルギー関数によって定義される一般的な設定を考える。 この設定の主な課題は、サンプリング分布とエネルギー関数によって共同で定義される拡散サンプリング手順の中間ガイダンスが未知であり、推定が難しいことである。 この課題に対処するために,中間ガイダンスの正確な定式化と,コントラストエネルギー予測(CEP)と呼ばれる新たなトレーニング目標を提案する。 提案手法は,モデル容量とデータサンプルの無制限で正確なガイダンスに収束することが保証されている。 オフライン強化学習(RL)に適用することで,本手法の有効性を示す。 D4RLベンチマークの大規模な実験により、我々の手法は既存の最先端アルゴリズムよりも優れていることが示された。 また,高次元データにおけるCEPのスケーラビリティを示すために,画像合成にCEPを適用する例を示す。

Guided sampling is a vital approach for applying diffusion models in real-world tasks that embeds human-defined guidance during the sampling procedure. This paper considers a general setting where the guidance is defined by an (unnormalized) energy function. The main challenge for this setting is that the intermediate guidance during the diffusion sampling procedure, which is jointly defined by the sampling distribution and the energy function, is unknown and is hard to estimate. To address this challenge, we propose an exact formulation of the intermediate guidance as well as a novel training objective named contrastive energy prediction (CEP) to learn the exact guidance. Our method is guaranteed to converge to the exact guidance under unlimited model capacity and data samples, while previous methods can not. We demonstrate the effectiveness of our method by applying it to offline reinforcement learning (RL). Extensive experiments on D4RL benchmarks demonstrate that our method outperforms existing state-of-the-art algorithms. We also provide some examples of applying CEP for image synthesis to demonstrate the scalability of CEP on high-dimensional data.
翻訳日:2023-06-01 01:02:46 公開日:2023-05-30
# 拡張クラスタ: ニューラルネットワークの正確なパラメータ回復

Expand-and-Cluster: Exact Parameter Recovery of Neural Networks ( http://arxiv.org/abs/2304.12794v2 )

ライセンス: Link先を確認
Flavio Martinelli, Berfin Simsek, Johanni Brea and Wulfram Gerstner(参考訳) インプット・アウトプット・マッピングを用いて,ニューラルネットワーク(ANN)の隠れパラメータを復元できるか? 本稿では,全ネットワークパラメータを識別するために,隠れレイヤの数と探索されたANNのアクティベーション関数だけを必要とする,'Expand-and-Cluster'と呼ばれる方式を提案する。 拡張段階では,教師としてannの観測データを用いて,サイズが増大するネットワークを訓練する。 拡張は、与えられたサイズのネットワークで最小損失が一貫して到達した場合に停止する。 クラスタリングフェーズでは、拡張した学生の重みベクトルがクラスター化され、超流動ニューロンを原理的に構造的プルーニングすることができる。 因子4の過度パラメータ化は、最小数のニューロンを確実に同定し、元のネットワークパラメータを、可変困難な150の玩具問題のファミリーで80\%のタスクで検索するのに十分である。 さらに、MNISTデータに基づいてトレーニングされた浅層および深層教師ネットワークは、ニューロン番号の5\%以下のオーバーヘッドで識別することができる。 このように、教師のネットワークと同一の大きさの学生ネットワークの直接訓練は、非凸損失関数のため事実上不可能であるが、軽度オーバーパラメータ化によるトレーニングとクラスタリングと構造化プルーニングが対象ネットワークを正しく識別する。

Can we recover the hidden parameters of an Artificial Neural Network (ANN) by probing its input-output mapping? We propose a systematic method, called `Expand-and-Cluster' that needs only the number of hidden layers and the activation function of the probed ANN to identify all network parameters. In the expansion phase, we train a series of networks of increasing size using the probed data of the ANN as a teacher. Expansion stops when a minimal loss is consistently reached in networks of a given size. In the clustering phase, weight vectors of the expanded students are clustered, which allows structured pruning of superfluous neurons in a principled way. We find that an overparameterization of a factor four is sufficient to reliably identify the minimal number of neurons and to retrieve the original network parameters in $80\%$ of tasks across a family of 150 toy problems of variable difficulty. Furthermore, shallow and deep teacher networks trained on MNIST data can be identified with less than $5\%$ overhead in the neuron number. Thus, while direct training of a student network with a size identical to that of the teacher is practically impossible because of the highly non-convex loss function, training with mild overparameterization followed by clustering and structured pruning correctly identifies the target network.
翻訳日:2023-06-01 01:02:27 公開日:2023-05-30
# 2次元 $\pm J$ Ising モデルの非平衡臨界ダイナミクス

Nonequilibrium critical dynamics of the bi-dimensional $\pm J$ Ising model ( http://arxiv.org/abs/2304.11997v3 )

ライセンス: Link先を確認
Ramgopal Agrawal, Leticia F. Cugliandolo, Lara Faoro, Lev B. Ioffe, and Marco Picco(参考訳) $\pm J$ Ising モデルは単純なフラストレーションのスピンモデルであり、交換結合は独立に確率$p$の離散値 $-J$ と確率$-p$の $+J$ を取る。 量子誤り訂正符号との接続により特に魅力的である。 本稿では,二次元$\pm j$ isingモデルの非平衡臨界挙動を,初期条件の異なる点から常磁性強磁性(pf)遷移線上の臨界点$t_c(p)$へのクエンチ後の非平衡臨界挙動,特に,多臨界西森点(np)以下について検討する。 動的臨界指数 $z_c$ は、NP の反発的固定点による漸近前特徴として同定される NP の上下のクエンチの非普遍的挙動を示すようである。 一方、NPに直接クエンチすると、このダイナミクスは、z_c \simeq 6.02(6)$で漸近状態に達する。 また、臨界ダイナミクス中に(スピンサインのように)幾何学的なスピンクラスターを考える。 PFライン上の各普遍性クラスは、対応するパラメータ $\kappa$ を持つ確率ローナー進化(SLE)によって特徴付けられる。 さらに, パラ磁性相からの臨界クエンチに対しては, フラストレーションによらず, 大規模スケールにおいて創発的な臨界パーコレーショントポロジーを示す。

The $\pm J$ Ising model is a simple frustrated spin model, where the exchange couplings independently take the discrete value $-J$ with probability $p$ and $+J$ with probability $1-p$. It is especially appealing due to its connection to quantum error correcting codes. Here, we investigate the nonequilibrium critical behavior of the bi-dimensional $\pm J$ Ising model, after a quench from different initial conditions to a critical point $T_c(p)$ on the paramagnetic-ferromagnetic (PF) transition line, especially, above, below and at the multicritical Nishimori point (NP). The dynamical critical exponent $z_c$ seems to exhibit non-universal behavior for quenches above and below the NP, which is identified as a pre-asymptotic feature due to the repulsive fixed point at the NP. Whereas, for a quench directly to the NP, the dynamics reaches the asymptotic regime with $z_c \simeq 6.02(6)$. We also consider the geometrical spin clusters (of like spin signs) during the critical dynamics. Each universality class on the PF line is uniquely characterized by the stochastic Loewner evolution (SLE) with corresponding parameter $\kappa$. Moreover, for the critical quenches from the paramagnetic phase, the model, irrespective of the frustration, exhibits an emergent critical percolation topology at the large length scales.
翻訳日:2023-06-01 01:02:05 公開日:2023-05-30
# naturalspeech 2: 潜在拡散モデルは自然音声とゼロショット音声と歌唱シンセサイザーである

NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot Speech and Singing Synthesizers ( http://arxiv.org/abs/2304.09116v3 )

ライセンス: Link先を確認
Kai Shen, Zeqian Ju, Xu Tan, Yanqing Liu, Yichong Leng, Lei He, Tao Qin, Sheng Zhao, Jiang Bian(参考訳) 音声合成(TTS)を大規模、複数話者、および単語内データセットに拡張することは、話者のアイデンティティ、韻律、スタイル(例えば歌)などの人間の発話の多様性を捉えるために重要である。 現在の大規模なTSSシステムは、音声を離散トークンに量子化し、言語モデルを用いて、不安定な韻律、単語のスキップ/繰り返しの問題、低音質に悩まされているトークンを1つずつ生成する。 本稿では, 量子化された潜在ベクトルを得るために, 残留ベクトル量子化器を用いたニューラルオーディオコーデックを活用したttsシステムであるnaturalspeech 2 を開発し, 拡散モデルを用いてこれらの潜在ベクトルをテキスト入力に基づいて生成する。 多様な音声合成を実現するために重要となるゼロショット機能を強化するために,拡散モデルと継続時間/ピッチ予測器における文脈内学習を容易にする音声プロンプト機構を設計する。 本研究では,NaturalSpeech 2を44K時間の音声・歌唱データを持つ大規模データセットに拡張し,その音声品質を評価する。 naturalspeech 2は、ゼロショット設定において、韻律/音色類似性、頑健性、声質の点で、従来のttsシステムを大きく上回り、音声プロンプトだけで新規なゼロショット歌唱合成を行う。 オーディオサンプルはhttps://speechresearch.github.io/naturalspeech2で入手できる。

Scaling text-to-speech (TTS) to large-scale, multi-speaker, and in-the-wild datasets is important to capture the diversity in human speech such as speaker identities, prosodies, and styles (e.g., singing). Current large TTS systems usually quantize speech into discrete tokens and use language models to generate these tokens one by one, which suffer from unstable prosody, word skipping/repeating issue, and poor voice quality. In this paper, we develop NaturalSpeech 2, a TTS system that leverages a neural audio codec with residual vector quantizers to get the quantized latent vectors and uses a diffusion model to generate these latent vectors conditioned on text input. To enhance the zero-shot capability that is important to achieve diverse speech synthesis, we design a speech prompting mechanism to facilitate in-context learning in the diffusion model and the duration/pitch predictor. We scale NaturalSpeech 2 to large-scale datasets with 44K hours of speech and singing data and evaluate its voice quality on unseen speakers. NaturalSpeech 2 outperforms previous TTS systems by a large margin in terms of prosody/timbre similarity, robustness, and voice quality in a zero-shot setting, and performs novel zero-shot singing synthesis with only a speech prompt. Audio samples are available at https://speechresearch.github.io/naturalspeech2.
翻訳日:2023-06-01 01:01:07 公開日:2023-05-30
# cauf-vae: vaeと因果フローを用いた因果的不等角表現学習

CauF-VAE: Causal Disentangled Representation Learning with VAE and Causal Flows ( http://arxiv.org/abs/2304.09010v3 )

ライセンス: Link先を確認
Di Fan, Yannian Kou and Chuanhou Gao(参考訳) disentangled representation learningは、各次元が1つの根底にある生成因子に対応するデータの低次元表現を学ぶことを目的としている。 現実の状況における生成要因間の因果関係から,因果不整合表現学習が注目されている。 本稿では,まず,生成因子の真の因果構造を流れに組み込んだ自己回帰流(causal flow)の変種を提案する。 そこで我々は因果フローに基づく新たなVAEモデルCauF-VAE(Causal Flows Variational Autoencoders)を設計し,因果不整合表現を学習する。 地中因子の教師付き情報を組み込んだcauf-vaeのばらつき識別性に関する理論的解析を行う。 CauF-VAEの性能は、合成データセットと実データセットの両方で評価され、因果不整合を達成し、介入実験を行う能力を示している。 さらに、CauF-VAEは下流タスクにおいて顕著な性能を示し、要因間の真の因果構造を学習する可能性がある。

Disentangled representation learning aims to learn a low dimensional representation of data where each dimension corresponds to one underlying generative factor. Due to the causal relationships between generative factors in real-world situations, causal disentangled representation learning has received widespread attention. In this paper, we first propose a variant of autoregressive flows, called causal flows, which incorporate true causal structure of generative factors into the flows. Then, we design a new VAE model based on causal flows named Causal Flows Variational Autoencoders (CauF-VAE) to learn causally disentangled representations. We provide a theoretical analysis of the disentanglement identifiability of CauF-VAE by incorporating supervised information on the ground-truth factors. The performance of CauF-VAE is evaluated on both synthetic and real datasets, showing its capability of achieving causal disentanglement and performing intervention experiments. Moreover, CauF-VAE exhibits remarkable performance on downstream tasks and has the potential to learn true causal structure among factors.
翻訳日:2023-06-01 01:00:37 公開日:2023-05-30
# Wasserstein PAC-Bayes の学習: 一般化を説明するための最適化のエクスプロイト

Wasserstein PAC-Bayes Learning: Exploiting Optimisation Guarantees to Explain Generalisation ( http://arxiv.org/abs/2304.07048v2 )

ライセンス: Link先を確認
Maxime Haddouche and Benjamin Guedj(参考訳) PAC-Bayes学習は、学習アルゴリズムの一般化能力を評価するための確立されたフレームワークであり、一般化境界を訓練目的として活用して新しい学習アルゴリズムを設計する。 kl の発散は、最適化においてしばしば有用である損失関数の幾何学的性質を捉えるのに失敗する。 この問題に対処するために、新興の \emph{Wasserstein PAC-Bayes} 理論を拡張する。 我々は、通常のKLに代わるワッサーシュタイン距離を持つ新しいPAC-Bayes境界を開発し、音の最適化が優れた一般化能力に変換できることを実証する。 特に、最適化特性を利用して \emph{Bures-Wasserstein SGD} に対する一般化境界を提供する。

PAC-Bayes learning is an established framework to both assess the generalisation ability of learning algorithms, and design new learning algorithm by exploiting generalisation bounds as training objectives. Most of the exisiting bounds involve a \emph{Kullback-Leibler} (KL) divergence, which fails to capture the geometric properties of the loss function which are often useful in optimisation. We address this by extending the emerging \emph{Wasserstein PAC-Bayes} theory. We develop new PAC-Bayes bounds with Wasserstein distances replacing the usual KL, and demonstrate that sound optimisation guarantees translate to good generalisation abilities. In particular we provide generalisation bounds for the \emph{Bures-Wasserstein SGD} by exploiting its optimisation properties.
翻訳日:2023-06-01 01:00:15 公開日:2023-05-30
# transhp:階層的プロンプトによる画像分類

TransHP: Image Classification with Hierarchical Prompting ( http://arxiv.org/abs/2304.06385v2 )

ライセンス: Link先を確認
Wenhao Wang, Yifan Sun, Wei Li, Yi Yang(参考訳) 本稿では階層画像分類(HIC)タスクの階層的プロンプト機構について検討する。 従来のhicメソッドと異なり、私たちの階層的プロンプトは、祖先クラス識別の恩恵を受けるトークン化されたヒントとして、祖先クラス情報を明示的に注入する最初の方法です。 これは人間の視覚認識をよく模倣している、すなわち、人間は祖先のクラスを、子孫のクラス間の微妙な違いに焦点を合わせるための手掛かりとして使うかもしれない。 このプロンプト機構を階層型プロンプト(transhp)によるトランスフォーマーにモデル化する。 TransHPは3つのステップから構成される。 1)粗い(祖先)クラスを表現するために一連のプロンプトトークンを学ぶ。 2)中間ブロックにおける入力画像の粗いクラスをオンザフライで予測する。 3) 予測された粗いクラスのプロンプトトークンを中間機能に注入する。 transhpのパラメータは、全ての入力画像で同じだが、注入された粗クラスプロンプト条件は、次の特徴抽出を修飾し、後続クラス間の比較的微妙な違いに動的に焦点を合わせる。 広範な実験により、transhpは精度(例えば、vit-b/16を+2.83%のimagenet分類精度で改善)、トレーニングデータ効率(例えば、10%のimagenetトレーニングデータで+12.69%改善)、モデル説明可能性の向上が示されている。 さらに、TransHPは従来のHIC手法に対して良好に動作し、TransHPが階層的な情報をうまく活用していることを示す。

This paper explores a hierarchical prompting mechanism for the hierarchical image classification (HIC) task. Different from prior HIC methods, our hierarchical prompting is the first to explicitly inject ancestor-class information as a tokenized hint that benefits the descendant-class discrimination. We think it well imitates human visual recognition, i.e., humans may use the ancestor class as a prompt to draw focus on the subtle differences among descendant classes. We model this prompting mechanism into a Transformer with Hierarchical Prompting (TransHP). TransHP consists of three steps: 1) learning a set of prompt tokens to represent the coarse (ancestor) classes, 2) on-the-fly predicting the coarse class of the input image at an intermediate block, and 3) injecting the prompt token of the predicted coarse class into the intermediate feature. Though the parameters of TransHP maintain the same for all input images, the injected coarse-class prompt conditions (modifies) the subsequent feature extraction and encourages a dynamic focus on relatively subtle differences among the descendant classes. Extensive experiments show that TransHP improves image classification on accuracy (e.g., improving ViT-B/16 by +2.83% ImageNet classification accuracy), training data efficiency (e.g., +12.69% improvement under 10% ImageNet training data), and model explainability. Moreover, TransHP also performs favorably against prior HIC methods, showing that TransHP well exploits the hierarchical information.
翻訳日:2023-06-01 00:59:35 公開日:2023-05-30
# パーソナライズしたの? リサンプリングを用いたオンライン強化学習アルゴリズムによるパーソナライズ評価

Did we personalize? Assessing personalization by an online reinforcement learning algorithm using resampling ( http://arxiv.org/abs/2304.05365v5 )

ライセンス: Link先を確認
Susobhan Ghosh, Raphael Kim, Prasidh Chhabria, Raaz Dwivedi, Predrag Klasnja, Peng Liao, Kelly Zhang, Susan Murphy(参考訳) デジタルヘルスにおける治療の順序をパーソナライズするために強化学習(RL)を使うことへの関心が高まっている。 このようなシーケンシャルな意思決定の問題は、ユーザのコンテキスト(例えば、以前のアクティビティレベル、位置など)に基づいて、いつ扱うか、どのように扱うかという決定を含む。 オンラインRLは、ユーザの過去の反応に基づいて学習し、その知識を使って意思決定をパーソナライズする、この問題に対する有望なデータ駆動アプローチである。 しかし,RLアルゴリズムが実際の展開のために ‘optimized' の介入に含めるべきかどうかを判断するためには,RLアルゴリズムが実際にユーザに対して治療をパーソナライズしていることを示すデータエビデンスを評価する必要がある。 RLアルゴリズムの確率性のため、特定の状態で学習し、この学習を用いて特定の治療を行っているという誤った印象を受けることがある。 パーソナライゼーションの動作定義を用いて、RLアルゴリズムが示すパーソナライゼーションがRLアルゴリズムの確率性の人工物であるかどうかを調べるリサンプリングベースの方法論を導入する。 本研究は,オンラインrlアルゴリズムを応用したheartstepsと呼ばれる身体活動臨床試験のデータを解析し,本手法をケーススタディで示す。 我々は,このアプローチがアルゴリズムのパーソナライズを,全ユーザと特定のユーザの両方に対して,データ駆動型真理広告の効果を高めることを実証する。

There is a growing interest in using reinforcement learning (RL) to personalize sequences of treatments in digital health to support users in adopting healthier behaviors. Such sequential decision-making problems involve decisions about when to treat and how to treat based on the user's context (e.g., prior activity level, location, etc.). Online RL is a promising data-driven approach for this problem as it learns based on each user's historical responses and uses that knowledge to personalize these decisions. However, to decide whether the RL algorithm should be included in an ``optimized'' intervention for real-world deployment, we must assess the data evidence indicating that the RL algorithm is actually personalizing the treatments to its users. Due to the stochasticity in the RL algorithm, one may get a false impression that it is learning in certain states and using this learning to provide specific treatments. We use a working definition of personalization and introduce a resampling-based methodology for investigating whether the personalization exhibited by the RL algorithm is an artifact of the RL algorithm stochasticity. We illustrate our methodology with a case study by analyzing the data from a physical activity clinical trial called HeartSteps, which included the use of an online RL algorithm. We demonstrate how our approach enhances data-driven truth-in-advertising of algorithm personalization both across all users as well as within specific users in the study.
翻訳日:2023-06-01 00:59:07 公開日:2023-05-30
# 視覚言語ナビゲーションのためのsemantic-aware recurrent global-adaptive network

A Dual Semantic-Aware Recurrent Global-Adaptive Network For Vision-and-Language Navigation ( http://arxiv.org/abs/2305.03602v2 )

ライセンス: Link先を確認
Liuyi Wang, Zongtao He, Jiagui Tang, Ronghao Dang, Naijia Wang, Chengju Liu, Qijun Chen(参考訳) VLN(Vision-and-Language Navigation)は、エージェントが言語と視覚の手がかりを使用してターゲット領域を特定する必要がある現実的だが困難なタスクである。 1) 視覚と言語の両方に隠された重要な案内的意味論の明示的な情報マイニングはいまだ未発見であり, (2) 以前構築された地図法は,来訪したノードの平均的歴史的外観を提供する一方で, 様々な画像の独特な寄与や, 推論過程における強力な情報保持を無視する。 本研究は、上記の問題に対処するため、DSRG(Dual semantic-aware Recurrent Global-Adaptive Network)を提案する。 まず、DSRGは、視覚と言語の意味学習を強化するために、命令誘導言語モジュール(IGL)と外観意味視覚モジュール(ASV)を提案する。 メモリ機構には、明示的なパノラマ観察融合のためにグローバル適応アグリゲーションモジュール(GAA)が考案され、暗黙の時間的隠蔽状態を供給するためにリカレントメモリ融合モジュール(RMF)が導入された。 r2rとreverieデータセットの広範な実験結果から,本手法は既存の手法よりも優れた性能を得られることが示された。 コードはhttps://github.com/CrystalSixone/DSRGで入手できる。

Vision-and-Language Navigation (VLN) is a realistic but challenging task that requires an agent to locate the target region using verbal and visual cues. While significant advancements have been achieved recently, there are still two broad limitations: (1) The explicit information mining for significant guiding semantics concealed in both vision and language is still under-explored; (2) The previously structured map method provides the average historical appearance of visited nodes, while it ignores distinctive contributions of various images and potent information retention in the reasoning process. This work proposes a dual semantic-aware recurrent global-adaptive network (DSRG) to address the above problems. First, DSRG proposes an instruction-guidance linguistic module (IGL) and an appearance-semantics visual module (ASV) for boosting vision and language semantic learning respectively. For the memory mechanism, a global adaptive aggregation module (GAA) is devised for explicit panoramic observation fusion, and a recurrent memory fusion module (RMF) is introduced to supply implicit temporal hidden states. Extensive experimental results on the R2R and REVERIE datasets demonstrate that our method achieves better performance than existing methods. Code is available at https://github.com/CrystalSixone/DSRG.
翻訳日:2023-06-01 00:51:59 公開日:2023-05-30
# LLMはすでにデータベースインターフェースとして使えるか? 大規模データベース接地型テキストからsqlへの大きなベンチ

Can LLM Already Serve as A Database Interface? A BIg Bench for Large-Scale Database Grounded Text-to-SQLs ( http://arxiv.org/abs/2305.03111v2 )

ライセンス: Link先を確認
Jinyang Li, Binyuan Hui, Ge Qu, Binhua Li, Jiaxi Yang, Bowen Li, Bailin Wang, Bowen Qin, Rongyu Cao, Ruiying Geng, Nan Huo, Xuanhe Zhou, Chenhao Ma, Guoliang Li, Kevin C.C. Chang, Fei Huang, Reynold Cheng, Yongbin Li(参考訳) 自然言語命令を実行可能なSQLに変換することを目的としたテキストからSQLの構文解析が近年注目を集めている。 特に、codexとchatgptはこのタスクで印象的な結果を示している。 しかし、最も一般的なベンチマーク、すなわちスパイダーとウィキSQLは、学術研究と現実世界のアプリケーションの間のギャップを残したデータベース内容の行数でデータベーススキーマに焦点を当てている。 このギャップを軽減するために,テキストからSQLへのタスクをベースとした大規模データベースのベンチマークとして,12,751対のテキストからSQLデータと,合計33.4GBの95のデータベースを対象とするBirdを紹介した。 データベースの価値に重点を置いているのは、汚いデータベースの内容、NL質問とデータベースの内容の間の外部知識、SQL効率、特に大規模データベースの文脈における新しい課題です。 これらの問題を解決するためには、意味解析に加えて、データベース値の理解も必要である。 実験により,大規模データベースの正確なテキスト-SQL生成におけるデータベース値の重要性が示された。 さらに、最も効果的なテキスト対sqlモデル、すなわちchatgptでさえ、実行精度が40.08%しか達成していない。 さらに、業界に有益なテキストから効率のよいsqlを生成するための洞察を提供するための効率分析も提供しています。 BIRDは,テキスト・トゥ・SQL研究の現実的応用の進展に寄与すると考えている。 リーダーボードとソースコードは、https://bird-bench.github.io/で入手できる。

Text-to-SQL parsing, which aims at converting natural language instructions into executable SQLs, has gained increasing attention in recent years. In particular, Codex and ChatGPT have shown impressive results in this task. However, most of the prevalent benchmarks, i.e., Spider, and WikiSQL, focus on database schema with few rows of database contents leaving the gap between academic study and real-world applications. To mitigate this gap, we present Bird, a big benchmark for large-scale database grounded in text-to-SQL tasks, containing 12,751 pairs of text-to-SQL data and 95 databases with a total size of 33.4 GB, spanning 37 professional domains. Our emphasis on database values highlights the new challenges of dirty database contents, external knowledge between NL questions and database contents, and SQL efficiency, particularly in the context of massive databases. To solve these problems, text-to-SQL models must feature database value comprehension in addition to semantic parsing. The experimental results demonstrate the significance of database values in generating accurate text-to-SQLs for big databases. Furthermore, even the most effective text-to-SQL models, i.e. ChatGPT, only achieves 40.08% in execution accuracy, which is still far from the human result of 92.96%, proving that challenges still stand. Besides, we also provide an efficiency analysis to offer insights into generating text-to-efficient-SQLs that are beneficial to industries. We believe that BIRD will contribute to advancing real-world applications of text-to-SQL research. The leaderboard and source code are available: https://bird-bench.github.io/.
翻訳日:2023-06-01 00:51:33 公開日:2023-05-30
# データセット間のヘイトスピーチ分類の弱化に向けて

Towards Weakly-Supervised Hate Speech Classification Across Datasets ( http://arxiv.org/abs/2305.02637v2 )

ライセンス: Link先を確認
Yiping Jin, Leo Wanner, Vishakha Laxman Kadam, Alexander Shvets(参考訳) いくつかの学者が指摘しているように、ヘイトスピーチ(HS)の認識に関する現在の研究は、非体系的なデータ生成戦略とアノテーションスキーマの分散が特徴である。 その後、教師付き学習モデルは訓練を受けていないデータセットにうまく一般化する傾向にあり、異なるHS分類法を用いてラベル付けされたデータセットでトレーニングされたモデルのパフォーマンスは比較できない。 この問題を緩和するために,アノテーション付きデータからのクラスサンプルに頼らず,クラス名にのみ依存する極めて弱い監視手法を提案する。 各種データセットおよびクロスデータセット設定において,最先端の弱教師付きテキスト分類モデルの有効性を示す。 さらに,HS分類モデルの低一般化性源の詳細な定量的,定性的な分析を行う。

As pointed out by several scholars, current research on hate speech (HS) recognition is characterized by unsystematic data creation strategies and diverging annotation schemata. Subsequently, supervised-learning models tend to generalize poorly to datasets they were not trained on, and the performance of the models trained on datasets labeled using different HS taxonomies cannot be compared. To ease this problem, we propose applying extremely weak supervision that only relies on the class name rather than on class samples from the annotated data. We demonstrate the effectiveness of a state-of-the-art weakly-supervised text classification model in various in-dataset and cross-dataset settings. Furthermore, we conduct an in-depth quantitative and qualitative analysis of the source of poor generalizability of HS classification models.
翻訳日:2023-06-01 00:51:06 公開日:2023-05-30
# 長期リズミカルビデオサウンドトラック

Long-Term Rhythmic Video Soundtracker ( http://arxiv.org/abs/2305.01319v2 )

ライセンス: Link先を確認
Jiashuo Yu, Yaohui Wang, Xinyuan Chen, Xiao Sun, Yu Qiao(参考訳) リズミカルな視覚手がかりと同期して音楽のサウンドトラックを生成する問題を考える。 既存の作品の多くは予め定義された音楽表現に依存しており、生成的柔軟性と複雑さの無能さに繋がる。 ビデオコンディション波形を直接生成する他の方法は、限られたシナリオ、短い長さ、不安定な生成品質に苦しむ。 そこで本研究では,長期条件波形を合成する新しい枠組みであるlorisを提案する。 具体的には、波形合成を行うための遅延条件拡散確率モデルから構成する。 さらに,長期化を考慮した時系列情報を考慮したコンテキスト対応コンディショニングエンコーダを提案する。 特に,ダンスからフロアエクササイズやフィギュアスケートなど,複数のスポーツシナリオへのモデルの適用性を拡張した。 包括的評価を行うため,前処理したデータセット,評価指標の改善,堅牢な生成ベースラインを含むリズミカルビデオサウンドトラックのベンチマークを構築した。 広汎な実験により,我々のモデルは,最先端の音楽的品質とリズム対応を備えた長期のサウンドトラックを生成することがわかった。 コードは \url{https://github.com/OpenGVLab/LORIS} で公開されている。

We consider the problem of generating musical soundtracks in sync with rhythmic visual cues. Most existing works rely on pre-defined music representations, leading to the incompetence of generative flexibility and complexity. Other methods directly generating video-conditioned waveforms suffer from limited scenarios, short lengths, and unstable generation quality. To this end, we present Long-Term Rhythmic Video Soundtracker (LORIS), a novel framework to synthesize long-term conditional waveforms. Specifically, our framework consists of a latent conditional diffusion probabilistic model to perform waveform synthesis. Furthermore, a series of context-aware conditioning encoders are proposed to take temporal information into consideration for a long-term generation. Notably, we extend our model's applicability from dances to multiple sports scenarios such as floor exercise and figure skating. To perform comprehensive evaluations, we establish a benchmark for rhythmic video soundtracks including the pre-processed dataset, improved evaluation metrics, and robust generative baselines. Extensive experiments show that our model generates long-term soundtracks with state-of-the-art musical quality and rhythmic correspondence. Codes are available at \url{https://github.com/OpenGVLab/LORIS}.
翻訳日:2023-06-01 00:50:56 公開日:2023-05-30
# GPT-2はどのように計算しますか? 事前学習言語モデルにおける数学的能力の解釈

How does GPT-2 compute greater-than?: Interpreting mathematical abilities in a pre-trained language model ( http://arxiv.org/abs/2305.00586v3 )

ライセンス: Link先を確認
Michael Hanna, Ollie Liu and Alexandre Variengien(参考訳) 事前訓練された言語モデルは、明示的に訓練されていないタスクに驚くほど適しているが、これらの機能の実装方法はあまり理解されていない。 本稿では,事前学習された言語モデルによってしばしば得られる基本的な数学的能力について検討する。 具体的には,GPT-2の(限定的な)数学的能力を説明するために,機械的解釈可能性技術を用いる。 ケーススタディとして,「戦争は1732年から17年まで続いた」などの文を取り込む能力について検討し,有効な2桁終了年(32歳未満)を予測した。 まず、このタスクの出力を計算するGPT-2小の計算グラフの小さなサブセットである回路を同定する。 そして、各回路部品の役割を説明し、GPT-2小の最終的な多層パーセプトロンが、開始年よりも終末年の確率を高めることを示す。 最後に、回路を活性化する関連タスクを見つける。 以上の結果から,GPT-2は多種多様なコンテキストにまたがって活性化する複雑だが汎用的な機構を用いて計算を行う。

Pre-trained language models can be surprisingly adept at tasks they were not explicitly trained on, but how they implement these capabilities is poorly understood. In this paper, we investigate the basic mathematical abilities often acquired by pre-trained language models. Concretely, we use mechanistic interpretability techniques to explain the (limited) mathematical abilities of GPT-2 small. As a case study, we examine its ability to take in sentences such as "The war lasted from the year 1732 to the year 17", and predict valid two-digit end years (years > 32). We first identify a circuit, a small subset of GPT-2 small's computational graph that computes this task's output. Then, we explain the role of each circuit component, showing that GPT-2 small's final multi-layer perceptrons boost the probability of end years greater than the start year. Finally, we find related tasks that activate our circuit. Our results suggest that GPT-2 small computes greater-than using a complex but general mechanism that activates across diverse contexts.
翻訳日:2023-06-01 00:49:47 公開日:2023-05-30
# 非ネイティブ話者の割合が言語複雑性に与える影響の証拠はまだない -- Kauhanen, Einhaus & Walkden (2023)に対する回答

Still no evidence for an effect of the proportion of non-native speakers on language complexity -- A response to Kauhanen, Einhaus & Walkden (2023) ( http://arxiv.org/abs/2305.00217v6 )

ライセンス: Link先を確認
Alexander Koplenig(参考訳) Journal of Language Evolutionに掲載された最近の論文で、Kauhanen, Einhaus & Walkden (https://doi.org/10.1093/jole/lzad005, KEW)は、私の論文の1つ(Koplenig, Royal Society Open Science 6, 181274 (2019), https://doi.org/10.1098/rsos.181274)で示された結果に異議を唱えました。 この目的のために、Ethnologueが言語ステータスを評価する方法に注目します。L1(第一言語)話者が使用することに加えて、かなりの数のL2ユーザを持つ必要がある場合、言語はvehicularとして特徴づけられます。 KEWは、言語がかなりの数のL2ユーザを持つかどうかを示す(バイナリ)指標として、そしてその比率の直接推定が不可能なときに、L2話者の0パーセントを非車種言語に出力するという考え方の両方を批判している。 出版後論評の重要性は認識していますが,本論では両論点が明記され,私の論文で分析されていることを示します。 さらに、KEWが提起した他の点についてもコメントし、KEWが提供する代替分析も、より精査に至らないことを実証します。

In a recent paper published in the Journal of Language Evolution, Kauhanen, Einhaus & Walkden (https://doi.org/10.1093/jole/lzad005, KEW) challenge the results presented in one of my papers (Koplenig, Royal Society Open Science, 6, 181274 (2019), https://doi.org/10.1098/rsos.181274), in which I tried to show through a series of statistical analyses that large numbers of L2 (second language) speakers do not seem to affect the (grammatical or statistical) complexity of a language. To this end, I focus on the way in which the Ethnologue assesses language status: a language is characterised as vehicular if, in addition to being used by L1 (first language) speakers, it should also have a significant number of L2 users. KEW criticise both the use of vehicularity as a (binary) indicator of whether a language has a significant number of L2 users and the idea of imputing a zero proportion of L2 speakers to non-vehicular languages whenever a direct estimate of that proportion is unavailable. While I recognise the importance of post-publication commentary on published research, I show in this rejoinder that both points of criticism are explicitly mentioned and analysed in my paper. In addition, I also comment on other points raised by KEW and demonstrate that both alternative analyses offered by KEW do not stand up to closer scrutiny.
翻訳日:2023-06-01 00:49:30 公開日:2023-05-30
# 量子スピン鎖の可積分性と複雑性

Integrability and complexity in quantum spin chains ( http://arxiv.org/abs/2305.00037v2 )

ライセンス: Link先を確認
Ben Craps, Marine De Clerck, Oleg Evnin, Philip Hacker(参考訳) 可積分系の力学的進化は、一般的なシステムの進化よりも定量的な意味で単純であるべきだという認識が広まっているが、実際は可積分性と複雑性の減少の関係は解明されていない。 我々は、与えられた量子ハミルトニアンの固有ベクトルの観点から特定の行列を構築することにより、この種の接続を提供する。 この行列のヌル固有値は、単純局所性(可積分性の指標)を持つ保存量と1対1対応である。 一方、固有値の典型的な大きさは、同じ局所性仕様で定義される量子進化作用素のニールセンの複雑さの明示的な境界を制御している。 この接続が、積分性によって管理される高度に構造化された保存則の様々な配列を持つ量子スピン鎖の具体的な例でどのように機能するかを実証する。

There is a widespread perception that dynamical evolution of integrable systems should be simpler in a quantifiable sense than the evolution of generic systems, though demonstrating this relation between integrability and reduced complexity in practice has remained elusive. We provide a connection of this sort by constructing a specific matrix in terms of the eigenvectors of a given quantum Hamiltonian. The null eigenvalues of this matrix are in one-to-one correspondence with conserved quantities that have simple locality properties (a hallmark of integrability). The typical magnitude of the eigenvalues, on the other hand, controls an explicit bound on Nielsen's complexity of the quantum evolution operator, defined in terms of the same locality specifications. We demonstrate how this connection works in a few concrete examples of quantum spin chains that possess diverse arrays of highly structured conservation laws mandated by integrability.
翻訳日:2023-06-01 00:48:50 公開日:2023-05-30
# 数発3d解析のためのアナロジーフォーミングトランスフォーマー

Analogy-Forming Transformers for Few-Shot 3D Parsing ( http://arxiv.org/abs/2304.14382v2 )

ライセンス: Link先を確認
Nikolaos Gkanatsios, Mayank Singh, Zhaoyuan Fang, Shubham Tulsiani, Katerina Fragkiadaki(参考訳) ドメインの知識を明示的に符号化するモデルであるAnalogical Networksを、モデルパラメータとして暗黙的に、3次元オブジェクトシーンを類似した推論で、3次元オブジェクトシーンを暗黙的に表示し、その部分セグメントに直接マッピングするのではなく、まず、メモリとその対応する部分構造から関連シーンを検索し、入力シーンの類似部分構造をエンドツーエンドの学習可能な変調機構を介して予測する。 複数の記憶を条件付けすることで、構造体の構成が予測され、その記憶をミックスして一致させる。 一発、一発、二発、多発の学習は、単一、少数、または多数の記憶例から取り出した記憶の適切なセットを条件付けし、類似のパースを推論することによって、アナログネットワークにおいて一様に扱われる。 アナロジカルネットワークは、最先端の3Dセグメンテーショントランスフォーマーと多くのショット設定で競合し、メタラーニングや少ショットラーニングといった既存のパラダイムを数ショット設定で上回ります。 類似ネットワークは、新しいオブジェクトカテゴリのインスタンスを単にメモリを拡張するだけで、重み付け更新なしにセグメント化することに成功している。 私たちのコードとモデルはプロジェクトのWebページで公開されている。

We present Analogical Networks, a model that encodes domain knowledge explicitly, in a collection of structured labelled 3D scenes, in addition to implicitly, as model parameters, and segments 3D object scenes with analogical reasoning: instead of mapping a scene to part segments directly, our model first retrieves related scenes from memory and their corresponding part structures, and then predicts analogous part structures for the input scene, via an end-to-end learnable modulation mechanism. By conditioning on more than one retrieved memories, compositions of structures are predicted, that mix and match parts across the retrieved memories. One-shot, few-shot or many-shot learning are treated uniformly in Analogical Networks, by conditioning on the appropriate set of memories, whether taken from a single, few or many memory exemplars, and inferring analogous parses. We show Analogical Networks are competitive with state-of-the-art 3D segmentation transformers in many-shot settings, and outperform them, as well as existing paradigms of meta-learning and few-shot learning, in few-shot settings. Analogical Networks successfully segment instances of novel object categories simply by expanding their memory, without any weight updates. Our code and models are publicly available in the project webpage: http://analogicalnets.github.io/.
翻訳日:2023-06-01 00:48:34 公開日:2023-05-30
# 文書理解データセットと評価(DUDE)

Document Understanding Dataset and Evaluation (DUDE) ( http://arxiv.org/abs/2305.08455v2 )

ライセンス: Link先を確認
Jordy Van Landeghem, Rub\'en Tito, {\L}ukasz Borchmann, Micha{\l} Pietruszka, Pawe{\l} J\'oziak, Rafa{\l} Powalski, Dawid Jurkiewicz, Micka\"el Coustaty, Bertrand Ackaert, Ernest Valveny, Matthew Blaschko, Sien Moens, Tomasz Stanis{\l}awek(参考訳) 私たちはDocAIコミュニティに、現在の方法論を再評価し、より実用的なベンチマークを作成するという課題を受け入れるよう呼びかけています。 Document Understanding Dataset and Evaluation (DUDE) は、視覚的にリッチなドキュメント(VRD)の理解において、中断した研究の進捗を改善しようとしている。 我々は,様々な起源と日付の多産業,多ドメイン,多ページVRDに基づく,質問の種類,回答,文書レイアウトに関する新しいデータセットを提案する。 さらに、低リソース環境下での強力な一般化と適応が望まれる現実の状況をより正確にシミュレートするマルチタスクおよびマルチドメイン評価設定を作成することで、現在の手法の境界を推し進めている。 DUDEは、コミュニティにとってより実用的で長期間続くベンチマークとして、新しい標準を設定することを目的としています。 最後に、docaiで言語、画像、レイアウトをモデル化するより効率的な方法を見つけることの重要性を説明している。

We call on the Document AI (DocAI) community to reevaluate current methodologies and embrace the challenge of creating more practically-oriented benchmarks. Document Understanding Dataset and Evaluation (DUDE) seeks to remediate the halted research progress in understanding visually-rich documents (VRDs). We present a new dataset with novelties related to types of questions, answers, and document layouts based on multi-industry, multi-domain, and multi-page VRDs of various origins, and dates. Moreover, we are pushing the boundaries of current methods by creating multi-task and multi-domain evaluation setups that more accurately simulate real-world situations where powerful generalization and adaptation under low-resource settings are desired. DUDE aims to set a new standard as a more practical, long-standing benchmark for the community, and we hope that it will lead to future extensions and contributions that address real-world challenges. Finally, our work illustrates the importance of finding more efficient ways to model language, images, and layout in DocAI.
翻訳日:2023-06-01 00:42:17 公開日:2023-05-30
# artgpt-4:アダプタを付加したminigpt-4による視覚言語理解

ArtGPT-4: Artistic Vision-Language Understanding with Adapter-enhanced MiniGPT-4 ( http://arxiv.org/abs/2305.07490v2 )

ライセンス: Link先を確認
Zhengqing Yuan, Huiwen Xue, Xinyi Wang, Yongming Liu, Zhuanzhe Zhao, Kun Wang(参考訳) 近年、大規模言語モデル (LLM) は自然言語処理 (NLP) において顕著な進歩を遂げており、ChatGPT や GPT-4 のようなモデルが様々な言語タスクにおいて顕著な能力を発揮している。 しかし、そのような大規模なモデルのトレーニングは困難であり、モデルのスケールにマッチするデータセットを見つけることはしばしば困難である。 これらの課題を克服するための有望なアプローチとして,新しい手法を用いたパラメータの少ない微調整とトレーニングモデルが登場している。 そのようなモデルの一つがMiniGPT-4であり、新しい事前学習モデルと革新的なトレーニング戦略を活用することで、GPT-4に匹敵する視覚言語理解を実現する。 しかし、このモデルはまだ画像理解、特に芸術的絵画におけるいくつかの課題に直面している。 ArtGPT-4と呼ばれる新しいマルチモーダルモデルが提案されている。 ArtGPT-4は、わずか2時間でTesla A100デバイスを使用して、200GBのデータのみを使用して画像テキストペアで訓練された。 このモデルは、芸術的なフレアで画像を描き、美的なHTML/CSSのWebページを含む視覚的なコードを生成することができる。 さらに,視覚言語モデルの性能評価のための新しいベンチマークを提案する。 続く評価手法では、artgpt-4は現在の \textbf{state-of-the-art}モデルよりも1ポイント以上高く、6ポイントスケールでアーティストよりもわずか0.25ポイント低い。 我々のコードと事前訓練されたモデルは、 \url{https://huggingface.co/Tyrannosaurus/ArtGPT-4}で利用可能です。

In recent years, large language models (LLMs) have made significant progress in natural language processing (NLP), with models like ChatGPT and GPT-4 achieving impressive capabilities in various linguistic tasks. However, training models on such a large scale is challenging, and finding datasets that match the model's scale is often difficult. Fine-tuning and training models with fewer parameters using novel methods have emerged as promising approaches to overcome these challenges. One such model is MiniGPT-4, which achieves comparable vision-language understanding to GPT-4 by leveraging novel pre-training models and innovative training strategies. However, the model still faces some challenges in image understanding, particularly in artistic pictures. A novel multimodal model called ArtGPT-4 has been proposed to address these limitations. ArtGPT-4 was trained on image-text pairs using a Tesla A100 device in just 2 hours, using only about 200 GB of data. The model can depict images with an artistic flair and generate visual code, including aesthetically pleasing HTML/CSS web pages. Furthermore, the article proposes novel benchmarks for evaluating the performance of vision-language models. In the subsequent evaluation methods, ArtGPT-4 scored more than 1 point higher than the current \textbf{state-of-the-art} model and was only 0.25 points lower than artists on a 6-point scale. Our code and pre-trained model are available at \url{https://huggingface.co/Tyrannosaurus/ArtGPT-4}.
翻訳日:2023-06-01 00:41:58 公開日:2023-05-30
# 距離可視化による血管解析の強化 : 概要と実装

Enhancing Vascular Analysis with Distance Visualizations: An Overview and Implementation ( http://arxiv.org/abs/2305.06726v2 )

ライセンス: Link先を確認
Jan Hombeck, Monique Meuschke, Simon Lieb, Nils Lichtenberg, Felix Fleisch, Maximilian Enderling, Rabi Datta, Michael Krone, Christian Hansen, Bernhard Preim and Kai Lawonn(参考訳) 近年,血管構造の表現における表現的表面可視化の利用が注目されている。 これらの可視化は複雑な解剖学的構造を包括的に理解し、治療計画や医学教育に不可欠である。 しかし、意思決定を助けるために、医師は解剖学的構造とその空間的関係を明確かつよく知覚可能な方法で正確に描写する可視化を必要とする。 本研究は, 先行論文を拡張し, 3次元容器表面の距離情報を符号化する共通手法の徹底的な検討を行い, 可視化の実装を提供する。 16の異なる視覚化のためのUnity環境と詳細な実装手順が提供される。 これらの視覚化は、基本、表面ベース、補助、図示の4つのカテゴリに分類できる。 さらに、この拡張には、血管モデルのエンドポイントロケーションを生成するツールが含まれている。 全体として、このフレームワークは、参入障壁を減らし、この分野のさらなる研究を促進することで、血管表面の可視化の分野の研究者にとって貴重な資源となる。 本稿では, 血管構造の視覚的表現の正確かつ効果的な開発を支援することで, 治療計画や医学教育を支援することを目的とする。

In recent years, the use of expressive surface visualizations in the representation of vascular structures has gained significant attention. These visualizations provide a comprehensive understanding of complex anatomical structures and are crucial for treatment planning and medical education. However, to aid decision-making, physicians require visualizations that accurately depict anatomical structures and their spatial relationships in a clear and well-perceivable manner. This work extends a previous paper and presents a thorough examination of common techniques for encoding distance information of 3D vessel surfaces and provides an implementation of these visualizations. A Unity environment and detailed implementation instructions for sixteen different visualizations are provided. These visualizations can be classified into four categories: fundamental, surface-based, auxiliary, and illustrative. Furthermore, this extension includes tools to generate endpoint locations for vascular models. Overall this framework serves as a valuable resource for researchers in the field of vascular surface visualization by reducing the barrier to entry and promoting further research in this area. By providing an implementation of various visualizations, this paper aims to aid in the development of accurate and effective visual representations of vascular structures to assist in treatment planning and medical education.
翻訳日:2023-06-01 00:41:12 公開日:2023-05-30
# eコマースにおけるデータ拡張を用いた一貫性テキスト分類

Consistent Text Categorization using Data Augmentation in e-Commerce ( http://arxiv.org/abs/2305.05402v2 )

ライセンス: Link先を確認
Guy Horowitz, Stav Yanovsky Daye, Noa Avigdor-Elgrabli, Ariel Raviv(参考訳) 巨大なeコマースデータの分類は、産業環境で広く普及している、重要かつ十分に研究されたタスクである。 本研究は,既存の製品分類モデルの改良を目標とし,すでに大手web企業によって利用されており,複数のアプリケーションに対応している。 その中核となる製品分類モデルは、製品タイトルを入力として取り、数千の候補の中から最も適したカテゴリを出力するテキスト分類モデルである。 より精査した結果,類似項目のラベル付けに矛盾が認められた。 例えば、色や測定に関連する製品タイトルの小さな変更は、モデルの出力に大きな影響を与えました。 この現象は下流のレコメンデーションや検索アプリケーションに悪影響を与え、最適なユーザーエクスペリエンスを損なう。 この問題に対処するため,一貫したテキスト分類のための新しいフレームワークを提案する。 私たちの目標は、プロダクションレベルのパフォーマンスを維持しながら、モデルの一貫性を改善することです。 データ拡張に半教師付きアプローチを用い、ラベルなしサンプルを利用する2つの異なる方法を提案する。 1つの方法は既存のカタログに直接依存し、もう1つは生成モデルを使用する。 それぞれのアプローチの長所と短所を比較し,実験結果を示す。

The categorization of massive e-Commerce data is a crucial, well-studied task, which is prevalent in industrial settings. In this work, we aim to improve an existing product categorization model that is already in use by a major web company, serving multiple applications. At its core, the product categorization model is a text classification model that takes a product title as an input and outputs the most suitable category out of thousands of available candidates. Upon a closer inspection, we found inconsistencies in the labeling of similar items. For example, minor modifications of the product title pertaining to colors or measurements majorly impacted the model's output. This phenomenon can negatively affect downstream recommendation or search applications, leading to a sub-optimal user experience. To address this issue, we propose a new framework for consistent text categorization. Our goal is to improve the model's consistency while maintaining its production-level performance. We use a semi-supervised approach for data augmentation and presents two different methods for utilizing unlabeled samples. One method relies directly on existing catalogs, while the other uses a generative model. We compare the pros and cons of each approach and present our experimental results.
翻訳日:2023-06-01 00:40:56 公開日:2023-05-30
# フレキシブルサブグラフアグリゲーションによるディープグラフニューラルネットワーク

Deep Graph Neural Networks via Flexible Subgraph Aggregation ( http://arxiv.org/abs/2305.05368v2 )

ライセンス: Link先を確認
Jingbo Zhou, Yixuan Du, Ruqiong Zhang, Di Jin, Carl Yang, Rui Zhang(参考訳) グラフ構造データから学習し,近傍情報を集約することでノード表現を学習できるニューラルネットワークの一種であるグラフニューラルネットワーク(gnns)は,様々な下流タスクにおいて優れた性能を示している。 しかし,GNNの性能は層数の増加に伴って徐々に低下していくことが知られている。 本稿では,gnnの表現力について,部分グラフ集約の観点から評価する。 我々は,従来のディープGNNの性能劣化,すなわちアグリゲートされたサブグラフのオーバーラップの原因を明らかにするとともに,従来の残差ベースGNNが1~$k$ホップサブグラフのアグリゲーション結果を利用して効率を向上するという事実を理論的に説明する。 さらに、以前のモデルによる異なる部分グラフの利用は、しばしば非フレキシブルである。 そこで本研究では,学習可能な分布からサンプリングされたノードレベルパラメータを導入することで,サブグラフアグリゲーションの異なるホップをより柔軟に活用できるサンプリングベースノードレベル残差モジュール(snr)を提案する。 大規模な実験により,提案したSNRモジュールによるGNNの性能は,総合的なベースラインよりも優れていた。

Graph neural networks (GNNs), a type of neural network that can learn from graph-structured data and learn the representation of nodes through aggregating neighborhood information, have shown superior performance in various downstream tasks. However, it is known that the performance of GNNs degrades gradually as the number of layers increases. In this paper, we evaluate the expressive power of GNNs from the perspective of subgraph aggregation. We reveal the potential cause of performance degradation for traditional deep GNNs, i.e., aggregated subgraph overlap, and we theoretically illustrate the fact that previous residual-based GNNs exploit the aggregation results of 1 to $k$ hop subgraphs to improve the effectiveness. Further, we find that the utilization of different subgraphs by previous models is often inflexible. Based on this, we propose a sampling-based node-level residual module (SNR) that can achieve a more flexible utilization of different hops of subgraph aggregation by introducing node-level parameters sampled from a learnable distribution. Extensive experiments show that the performance of GNNs with our proposed SNR module outperform a comprehensive set of baselines.
翻訳日:2023-06-01 00:40:43 公開日:2023-05-30
# 重み付き因果DAGの新しいメトリクスと探索アルゴリズム

New metrics and search algorithms for weighted causal DAGs ( http://arxiv.org/abs/2305.04445v2 )

ライセンス: Link先を確認
Davin Choo, Kirankumar Shiragur(参考訳) データから因果関係を復元することは重要な問題である。 観測データを用いると、通常はマルコフ同値クラスまで因果グラフを復元するだけで、完全な回復には追加の仮定や介入データが必要である。 本研究では,ノード依存的介入コストによる適応的介入による因果グラフ発見について検討する。 この設定では、検証数に対する頂点数において線形よりも漸近的に良い近似を保証するアルゴリズムが存在しないことを示し、適応探索アルゴリズムのためのよく確立されたベンチマークである。 このネガティブな結果に触発され、検索アルゴリズムの最悪の介入コストをキャプチャする新しいベンチマークを定義する。 さらに,本ベンチマークでは,原子,境界サイズ介入,一般化コスト目標といった,様々な条件下での対数近似を実現する適応探索アルゴリズムを提案する。

Recovering causal relationships from data is an important problem. Using observational data, one can typically only recover causal graphs up to a Markov equivalence class and additional assumptions or interventional data are needed for complete recovery. In this work, under some standard assumptions, we study causal graph discovery via adaptive interventions with node-dependent interventional costs. For this setting, we show that no algorithm can achieve an approximation guarantee that is asymptotically better than linear in the number of vertices with respect to the verification number; a well-established benchmark for adaptive search algorithms. Motivated by this negative result, we define a new benchmark that captures the worst-case interventional cost for any search algorithm. Furthermore, with respect to this new benchmark, we provide adaptive search algorithms that achieve logarithmic approximations under various settings: atomic, bounded size interventions and generalized cost objectives.
翻訳日:2023-06-01 00:39:52 公開日:2023-05-30
# 空中計算による半同期型フェデレーションエッジ学習機構

Semi-Asynchronous Federated Edge Learning Mechanism via Over-the-air Computation ( http://arxiv.org/abs/2305.04066v3 )

ライセンス: Link先を確認
Zhoubin Kou, Yun Ji, Xiaoxiong Zhong, Sheng Zhang(参考訳) The Over-the-air Computation (AirComp) は、フェデレートエッジ学習(FEEL)の効率を高める効果的な伝送方式として実証されている。 しかし,既存のFEELシステムでは,各ラウンドの局所モデルアグリゲーションに従来の同期アグリゲーション機構を採用しており,トラグラーの問題に悩まされている。 本稿では,データや装置の異質性が高い場合のFEELシステムのトレーニング効率を向上させるために,AirCompスキーム(PAOTA)を用いた半非同期アグリゲーションFEEL機構を提案する。 エッジデバイスからのモデル更新の安定性とばらつきを考慮して,各アグリゲーション期間中にエッジデバイスのアップリンク送信電力を調整することにより,FEELグローバルモデルの収束上限を最小化する。 シミュレーションの結果,提案アルゴリズムは理想のローカルSGDに近い収束性能が得られることが示された。 さらに、同じ目標精度でPAOTAに必要なトレーニング時間は、AirCompによる理想的なローカルSGDと同期FEELアルゴリズムよりも少ない。

Over-the-air Computation (AirComp) has been demonstrated as an effective transmission scheme to boost the efficiency of federated edge learning (FEEL). However, existing FEEL systems with AirComp scheme often employ traditional synchronous aggregation mechanisms for local model aggregation in each global round, which suffer from the stragglers issues. In this paper, we propose a semi-asynchronous aggregation FEEL mechanism with AirComp scheme (PAOTA) to improve the training efficiency of the FEEL system in the case of significant heterogeneity in data and devices. Taking the staleness and divergence of model updates from edge devices into consideration, we minimize the convergence upper bound of the FEEL global model by adjusting the uplink transmit power of edge devices at each aggregation period. The simulation results demonstrate that our proposed algorithm achieves convergence performance close to that of the ideal Local SGD. Furthermore, with the same target accuracy, the training time required for PAOTA is less than that of the ideal Local SGD and the synchronous FEEL algorithm via AirComp.
翻訳日:2023-06-01 00:39:24 公開日:2023-05-30
# SelfzCoT: セマンティックレベルからコードレベルへの自己プロンプトゼロショットCoTによるLCMのより良い利用

SelfzCoT: a Self-Prompt Zero-shot CoT from Semantic-level to Code-level for a Better Utilization of LLMs ( http://arxiv.org/abs/2305.11461v2 )

ライセンス: Link先を確認
IokTong Lei and ZhiDong Deng(参考訳) 本稿では,自己プロンプトゼロショットCoTであるSelfzCoTを用いたLCMの有効利用について述べる。 特にゼロショット算術推論タスクでは、提案されたSelfzCoTの精度は、GSM8Kを40.50%から82.34%に改善し、MultiArithを79.3%から94.7%、ADDSUBを74.70%から94.10%、SingleEqを78.70%から91.30%、Aquaを31.90%から82.33%、SVAMPを63.70%から79.70%に改善した。 LLMへの最初の2つのパスアクティベート、特にコードレベルのセルフプロンプトを使用して、SelfzCoTは6つのゼロショット算術推論タスクを大幅に改善した。 さらに,修正したゼロショットCoT (MzCoT) も推論タスクにおいて顕著な性能を発揮する。 提案されたMzCoTの精度はGSM8Kが40.50%から76.32%、MultiArithが79.3%から96.97%、ABDSUBが74.70%から92.39%、SingleEqが78.70%から94.60%、AQUAが31.90%から79.90%、SVAMPが63.70%から81.50%に向上した。 特にSelfzCoTは、最近のゼロショットメソッドの中でもGSM8Kで最高のパフォーマンスを示している。

This paper show a work on better use of LLMs with SelfzCoT a self-prompt zero-shot CoT. Specifically, on the zero-shot arithmetic reasoning tasks, the accuracy of the proposed SelfzCoT is improved with GSM8K from 40.50% to 82.34%, with MultiArith from 79.3% to 94.7%, with ADDSUB from 74.70% to 94.10%, with SingleEq from 78.70% to 91.30%, with AQUA from 31.90% to 82.33%, and with SVAMP from 63.70% to 79.70%. Totally, using the first two lasting path activations to LLM and particularly, the code-level self-prompt, the SelfzCoT has a huge improvement on all six zero-shot arithmetic reasoning tasks. Additionally, our modified zero-shot CoT (MzCoT) also achieves remarkable performance in the reasoning tasks. The accuracy of the proposed MzCoT is enhanced with GSM8K from 40.50% to 76.32%, with MultiArith from 79.3% to 96.97%, with ADDSUB from 74.70% to 92.39%, with SingleEq from 78.70% to 94.60%, with AQUA from 31.90% to 79.90%, and with SVAMP from 63.70% to 81.50%. Notably, SelfzCoT has the best performance on GSM8K among all the recent zero-shot methods.
翻訳日:2023-06-01 00:33:53 公開日:2023-05-30
# 条件付き生成型adversarial networkのためのマイナショット連続学習

Few-Shot Continual Learning for Conditional Generative Adversarial Networks ( http://arxiv.org/abs/2305.11400v2 )

ライセンス: Link先を確認
Cat P. Le, Juncheng Dong, Ahmed Aloui, Vahid Tarokh(参考訳) 生成モデルに対する数ショット連続学習では、予め学習したモードに悪影響を及ぼすことなく、限られたサンプルで目標モードを学習しなければならない。 本稿では,生成モデルのための新しいモード親和性尺度に基づく条件付き生成逆ネットワーク(cgan)のための連続学習手法を提案する。 我々の測度は、完全にcGANの判別器に基づいており、ターゲットと最もよく似た既存のモードを識別することができる。 その後、最も近いモードから派生した重み付きラベルを用いて目標モードを含む連続学習モデルを拡張した。 そこで我々はまず, cGAN のジェネレータを用いてラベル付きデータサンプルを生成し, 生成したデータをメモリで再生しながら, ターゲットモードの cGAN モデルを訓練する。 実験結果から,本手法がベースラインを超越した生成性能向上と,各種標準データセットに対する最先端手法の有効性を実証し,トレーニングサンプルの削減を図った。

In few-shot continual learning for generative models, a target mode must be learned with limited samples without adversely affecting the previously learned modes. In this paper, we propose a new continual learning approach for conditional generative adversarial networks (cGAN) based on a new mode-affinity measure for generative modeling. Our measure is entirely based on the cGAN's discriminator and can identify the existing modes that are most similar to the target. Subsequently, we expand the continual learning model by including the target mode using a weighted label derived from those of the closest modes. To prevent catastrophic forgetting, we first generate labeled data samples using the cGAN's generator, and then train the cGAN model for the target mode while memory replaying with the generated data. Our experimental results demonstrate the efficacy of our approach in improving the generation performance over the baselines and the state-of-the-art approaches for various standard datasets while utilizing fewer training samples.
翻訳日:2023-06-01 00:33:02 公開日:2023-05-30
# 古典的部分同型暗号に適合する量子XORオブリバスト転送プロトコル

A quantum XOR oblivious transfer protocol compatible with classical partially homomorphic encryption ( http://arxiv.org/abs/2305.11114v3 )

ライセンス: Link先を確認
Li Yu, Jie Xu, Fuqun Wang, Chui-Ping Yang(参考訳) XOR oblivious Transfer (XOT) は古典的な暗号プリミティブであり、1-out-of--2 oblivious transferよりも弱いが、セキュアな2要素計算には普遍的である。 理想のXOTでは、ボブは最初2ビットしか持たず、アリスはボブの第1ビットか第2ビットか、またはその排他的あるいはそれ以上の情報を得ることはできないが、ボブは彼女の選択について何も学ばない。 本研究では,まず,古典入力にxotの機能を実装する量子プロトコルを導入し,アリスがチートした場合,そのようなプロトコルは安全でないことを示す。 このようなプロトコルの変種に基づいて構築することで、XOTのプロトコルを双方に部分的セキュリティで提示する。 次に,線形多項式を評価するプロトコルを提案する。 均一な入力分布の下でのAliceのセキュリティは、大きな入力サイズに対してほぼ完全であるが、Bobの部分セキュリティのみである。 ハイブリッドセキュリティに関しては、これらのプロトコルを古典的なxor準同型暗号スキームと組み合わせることで、線形関数の評価時に量子コストを節約できる。

XOR oblivious transfer (XOT) is a classical cryptographic primitive which is apparently weaker than 1-out-of-2 oblivious transfer, yet still universal for secure two-party computation. In ideal XOT, Bob initially has two bits, and Alice may choose to obtain either the first bit of Bob's, or the second bit, or their exclusive-or, but does not obtain any more information, while Bob does not learn anything about her choice. In this work we firstly introduce a quantum protocol which implements the functionality of XOT on classical inputs, and we show that such protocol is insecure if Alice cheats. By building on a variant of such protocol, we present a protocol for XOT with partial security for both parties. We then propose a protocol for evaluating linear polynomials. It has near-perfect security for Alice under uniform input distributions, for large input size, but only partial security for Bob. On the hybrid security front, all these protocols can be easily combined with a classical XOR homomorphic encryption scheme to save quantum costs when evaluating linear functions.
翻訳日:2023-06-01 00:32:35 公開日:2023-05-30
# Catch-Up Distillation: サンプリングの高速化のために一度だけトレーニングする

Catch-Up Distillation: You Only Need to Train Once for Accelerating Sampling ( http://arxiv.org/abs/2305.10769v3 )

ライセンス: Link先を確認
Shitong Shao, Xu Dai, Shouyi Yin, Lujun Li, Huanran Chen, Yang Hu(参考訳) Diffusion Probability Models (DPM) は、さまざまな機械学習領域で目覚ましい進歩を遂げている。 しかし、高品質な合成サンプルを達成するには、通常、多数のサンプリングステップを実行する必要がある。 知識蒸留による従来の高速化サンプリングアルゴリズムは、事前訓練されたモデル重量と離散的な時間ステップシナリオに依存し、目標を達成するために追加のトレーニングセッションを必要とする。 これらの問題に対処するため、我々は、速度推定モデル ``catch up' の現在のモーメント出力を前回のモーメント出力で促進するCatch-Up Distillation (CUD)を提案する。 具体的には、元の常微分方程式(ode)トレーニング目的を調整して、現在のモーメント出力をグランド・真実ラベルと前回のモーメント出力の両方に調整し、ランゲ・クッタベースの多段階アライメント蒸留を用いて、非同期更新を防止しつつ正確なode推定を行う。 さらに,連続時間ステップシナリオにおけるcudの設計空間を調査し,適切な戦略を決定する方法について分析する。 cudの有効性を示すために,cifar-10,mnist,imagenet-64の比較実験を行った。 CIFAR-10では、ワンセッショントレーニングの15ステップでサンプリングした2.80のFIDと、追加トレーニングの1ステップでサンプリングした3.37の新たな最先端FIDを得る。 後者の結果は、バッチサイズ256の2100kのイテレーションを必要とするConsistency Distillationとは対照的に、バッチサイズ128の620kのイテレーションしか必要としなかった。 私たちのコードはhttps://anonymous.4open.science/r/Catch-Up-Distillation-E31Fで公開されています。

Diffusion Probability Models (DPMs) have made impressive advancements in various machine learning domains. However, achieving high-quality synthetic samples typically involves performing a large number of sampling steps, which impedes the possibility of real-time sample synthesis. Traditional accelerated sampling algorithms via knowledge distillation rely on pre-trained model weights and discrete time step scenarios, necessitating additional training sessions to achieve their goals. To address these issues, we propose the Catch-Up Distillation (CUD), which encourages the current moment output of the velocity estimation model ``catch up'' with its previous moment output. Specifically, CUD adjusts the original Ordinary Differential Equation (ODE) training objective to align the current moment output with both the ground truth label and the previous moment output, utilizing Runge-Kutta-based multi-step alignment distillation for precise ODE estimation while preventing asynchronous updates. Furthermore, we investigate the design space for CUDs under continuous time-step scenarios and analyze how to determine the suitable strategies. To demonstrate CUD's effectiveness, we conduct thorough ablation and comparison experiments on CIFAR-10, MNIST, and ImageNet-64. On CIFAR-10, we obtain a FID of 2.80 by sampling in 15 steps under one-session training and the new state-of-the-art FID of 3.37 by sampling in one step with additional training. This latter result necessitated only 620k iterations with a batch size of 128, in contrast to Consistency Distillation, which demanded 2100k iterations with a larger batch size of 256. Our code is released at https://anonymous.4open.science/r/Catch-Up-Distillation-E31F.
翻訳日:2023-06-01 00:32:17 公開日:2023-05-30
# 教師付きコントラスト学習

Tuned Contrastive Learning ( http://arxiv.org/abs/2305.10675v2 )

ライセンス: Link先を確認
Chaitanya Animesh, Manmohan Chandraker(参考訳) 近年,SOTA(State-of-the-art)のパフォーマンスにより,視覚的自己指導型表現学習において,コントラスト学習に基づく損失関数が普及している。 現代のコントラスト学習法のほとんどは、1アンカーあたりの1つの正と複数の負のみに一般化している。 最近の最先端の教師付きコントラスト学習(SupCon)は、バッチ内の複数の正と負に一般化することで教師付きセッティングに自己教師付きコントラスト学習を拡張し、クロスエントロピー損失を改善する。 本稿では,TCL(Tuned Contrastive Learning)損失を,バッチ内の複数の正と負に一般化し,強正と強負からの勾配応答を調整・改善するためのパラメータを提供する,新しいコントラスト型損失関数を提案する。 本研究では,損失関数の勾配応答の理論解析を行い,SupCon損失よりも数学的に優れていることを示す。 我々は,複数の分類タスクデータセットにおける教師付き設定におけるsupcon損失とクロスエントロピー損失とを経験的に比較し,その効果を示す。 また、損失関数の安定性を、さまざまなハイパーパラメータ設定に示す。 教師付き設定にのみ適用されるSupCon損失とは違い、TCLを自己教師付き設定に拡張する方法を示し、それを様々なSOTA自己教師付き学習手法と比較する。 したがって、TCL損失は、教師付きおよび自己教師付きの両方の設定において、SOTA法と同等の性能を発揮する。

In recent times, contrastive learning based loss functions have become increasingly popular for visual self-supervised representation learning owing to their state-of-the-art (SOTA) performance. Most of the modern contrastive learning methods generalize only to one positive and multiple negatives per anchor. A recent state-of-the-art, supervised contrastive (SupCon) loss, extends self-supervised contrastive learning to supervised setting by generalizing to multiple positives and negatives in a batch and improves upon the cross-entropy loss. In this paper, we propose a novel contrastive loss function -- Tuned Contrastive Learning (TCL) loss, that generalizes to multiple positives and negatives in a batch and offers parameters to tune and improve the gradient responses from hard positives and hard negatives. We provide theoretical analysis of our loss function's gradient response and show mathematically how it is better than that of SupCon loss. We empirically compare our loss function with SupCon loss and cross-entropy loss in supervised setting on multiple classification-task datasets to show its effectiveness. We also show the stability of our loss function to a range of hyper-parameter settings. Unlike SupCon loss which is only applied to supervised setting, we show how to extend TCL to self-supervised setting and empirically compare it with various SOTA self-supervised learning methods. Hence, we show that TCL loss achieves performance on par with SOTA methods in both supervised and self-supervised settings.
翻訳日:2023-06-01 00:31:43 公開日:2023-05-30
# RelationMatch: 半教師付き学習におけるバッチ内関係のマッチング

RelationMatch: Matching In-batch Relationships for Semi-supervised Learning ( http://arxiv.org/abs/2305.10397v2 )

ライセンス: Link先を確認
Yifan Zhang, Jingqin Yang, Zhiquan Tan, Yang Yuan(参考訳) 半教師付き学習は、ラベル付きデータをほとんど利用せず、ラベルなしデータから得られる豊富な情報を活用することで顕著な成功を収めた。 しかし、既存のアルゴリズムは通常、同一ソースから拡張されたペアデータポイントの予測の整合に重点を置いており、各バッチ内のポイント間の関係を見落としている。 本稿では,行列クロスエントロピー(mce)損失関数を用いたバッチ内関係を利用する新しい手法であるrelationmatchを提案する。 MCEの適用を通じて,提案手法はさまざまなビジョンデータセットに対して,FixMatchやFlexMatchといった最先端手法の性能を一貫して上回っている。 特に,STL-10データセットでは,40ラベルのみを用いて,FlexMatchよりも精度が15.21%向上した。 さらに,MCEを教師付き学習シナリオに適用し,一貫した改善も観察する。

Semi-supervised learning has achieved notable success by leveraging very few labeled data and exploiting the wealth of information derived from unlabeled data. However, existing algorithms usually focus on aligning predictions on paired data points augmented from an identical source, and overlook the inter-point relationships within each batch. This paper introduces a novel method, RelationMatch, which exploits in-batch relationships with a matrix cross-entropy (MCE) loss function. Through the application of MCE, our proposed method consistently surpasses the performance of established state-of-the-art methods, such as FixMatch and FlexMatch, across a variety of vision datasets. Notably, we observed a substantial enhancement of 15.21% in accuracy over FlexMatch on the STL-10 dataset using only 40 labels. Moreover, we apply MCE to supervised learning scenarios, and observe consistent improvements as well.
翻訳日:2023-06-01 00:31:18 公開日:2023-05-30
# 雑音下における多目的進化アルゴリズムの実行時解析

Runtime Analyses of Multi-Objective Evolutionary Algorithms in the Presence of Noise ( http://arxiv.org/abs/2305.10259v3 )

ライセンス: Link先を確認
Matthieu Dinot, Benjamin Doerr, Ulysse Hennebelle, Sebastian Will(参考訳) 単一目的最適化では、さらなる調整を伴わない進化的アルゴリズムが、目的関数の評価において一定のノイズを許容できることがよく知られている。 対照的に、この問題は多目的最適化では理解されていない。 本研究では,目的関数に雑音が存在する場合の古典的ベンチマークにおいて,単純な多目的進化アルゴリズム(MOEA)の数学的実行時解析を行う。 適切な定数として$p \le \alpha/n$, $\alpha$ がある場合、ノイズに対処するための調整を伴わない \emph{simple Evolution Multi-objective Optimizationr} (SEMO) は、ノイズのない場合と同様に、時間で$O(n^2\log n)$ の OneMinMax ベンチマークの Pareto フロントを見つける。 ここでの問題は、パレートフロントを目撃する$n+1$の個人からなる集団に到達することであり、これは驚くほど強いノイズに対する強靭性である(例えば、単純な進化アルゴリズムは、$p = \omega(\log(n)/n)$の多項式時間で単目的のOneMax問題を最適化することはできない)。 我々の証明は、MOEAの強い堅牢性は、パレートフロント全体をカバーする人口を計算するために設計された暗黙の多様性メカニズムに由来することを示唆している。 興味深いことに、この結果は、解の客観的値が1回だけ決定される場合にのみ成立し、その時点からのアルゴリズムは、おそらくは騒がしい客観的値を扱う。 すべての解が各反復で再評価されると、任意のノイズレート$p = \omega(\log(n)/n^2)$が超多項式ランタイムにつながることが証明される。 これは、1つの目的の最適化とは大きく異なり、一般的に、適合性が重要であれば解を再評価することが望ましい。

In single-objective optimization, it is well known that evolutionary algorithms also without further adjustments can tolerate a certain amount of noise in the evaluation of the objective function. In contrast, this question is not at all understood for multi-objective optimization. In this work, we conduct the first mathematical runtime analysis of a simple multi-objective evolutionary algorithm (MOEA) on a classic benchmark in the presence of noise in the objective functions. We prove that when bit-wise prior noise with rate $p \le \alpha/n$, $\alpha$ a suitable constant, is present, the \emph{simple evolutionary multi-objective optimizer} (SEMO) without any adjustments to cope with noise finds the Pareto front of the OneMinMax benchmark in time $O(n^2\log n)$, just as in the case without noise. Given that the problem here is to arrive at a population consisting of $n+1$ individuals witnessing the Pareto front, this is a surprisingly strong robustness to noise (comparably simple evolutionary algorithms cannot optimize the single-objective OneMax problem in polynomial time when $p = \omega(\log(n)/n)$). Our proofs suggest that the strong robustness of the MOEA stems from its implicit diversity mechanism designed to enable it to compute a population covering the whole Pareto front. Interestingly this result only holds when the objective value of a solution is determined only once and the algorithm from that point on works with this, possibly noisy, objective value. We prove that when all solutions are reevaluated in each iteration, then any noise rate $p = \omega(\log(n)/n^2)$ leads to a super-polynomial runtime. This is very different from single-objective optimization, where it is generally preferred to reevaluate solutions whenever their fitness is important and where examples are known such that not reevaluating solutions can lead to catastrophic performance losses.
翻訳日:2023-06-01 00:31:03 公開日:2023-05-30
# 私のモデルをコピーしてるの? バックドア透かしによるeaas用大規模言語モデルの著作権保護

Are You Copying My Model? Protecting the Copyright of Large Language Models for EaaS via Backdoor Watermark ( http://arxiv.org/abs/2305.10036v2 )

ライセンス: Link先を確認
Wenjun Peng, Jingwei Yi, Fangzhao Wu, Shangxi Wu, Bin Zhu, Lingjuan Lyu, Binxing Jiao, Tong Xu, Guangzhong Sun, Xing Xie(参考訳) 大規模言語モデル(LLM)は、テキスト理解と生成の両方において強力な能力を示している。 企業はこれらのllmをベースにした組み込み・アズ・ア・サービス(eaas)を提供し始めており、様々な自然言語処理(nlp)タスクを顧客に提供することができる。 しかし、以前の研究では、EaaSはモデル抽出攻撃に弱いことが示されており、これらのモデルのトレーニングは非常に高価であるため、LLMの所有者に大きな損失をもたらす可能性がある。 EaaS のための LLM の著作権を保護するため,埋め込みにバックドアを埋め込む Embedding Watermark 法 EmbMarker を提案する。 提案手法は,一般的なテキストコーパスから中頻度単語群を選択してトリガーセットを作成し,そのターゲット埋め込みを透かしとして選択し,トリガーワードを含むテキストの埋め込みをバックドアとして挿入する。 挿入の重みは、テキストに含まれるトリガーワードの数に比例する。 これにより、ウォーターマークバックドアを著作権検証のためにeaas-stealerのモデルに効果的に転送でき、元の埋め込みのユーティリティに対する悪影響を最小限に抑えることができる。 各種データセットに対する広範な実験により,サービス品質を損なうことなく,EaaSモデルの著作権を効果的に保護できることを示す。

Large language models (LLMs) have demonstrated powerful capabilities in both text understanding and generation. Companies have begun to offer Embedding as a Service (EaaS) based on these LLMs, which can benefit various natural language processing (NLP) tasks for customers. However, previous studies have shown that EaaS is vulnerable to model extraction attacks, which can cause significant losses for the owners of LLMs, as training these models is extremely expensive. To protect the copyright of LLMs for EaaS, we propose an Embedding Watermark method called EmbMarker that implants backdoors on embeddings. Our method selects a group of moderate-frequency words from a general text corpus to form a trigger set, then selects a target embedding as the watermark, and inserts it into the embeddings of texts containing trigger words as the backdoor. The weight of insertion is proportional to the number of trigger words included in the text. This allows the watermark backdoor to be effectively transferred to EaaS-stealer's model for copyright verification while minimizing the adverse impact on the original embeddings' utility. Our extensive experiments on various datasets show that our method can effectively protect the copyright of EaaS models without compromising service quality.
翻訳日:2023-06-01 00:30:20 公開日:2023-05-30
# 『i'm full who i am』 : オープン言語生成におけるバイアスを測定するためにトランスジェンダーとノンバイナリの声を中心に

"I'm fully who I am": Towards Centering Transgender and Non-Binary Voices to Measure Biases in Open Language Generation ( http://arxiv.org/abs/2305.09941v3 )

ライセンス: Link先を確認
Anaelia Ovalle, Palash Goyal, Jwala Dhamala, Zachary Jaggers, Kai-Wei Chang, Aram Galstyan, Richard Zemel, Rahul Gupta(参考訳) トランスジェンダーとノンバイナリ(TGNB)の個人は、日常生活から差別や排除を不当に経験している。 近年の言語生成技術の普及と普及を考えると、この人口のさらなる疎外化の可能性は増大するのみである。 NLPフェアネスの文献は、性別バイアスの照明と対処に焦点を当てているが、TGNBのアイデンティティに対する性別の害を評価するには、そのようなアイデンティティが社会的性規範とどのように一意に相互作用するか、そしてそれらがジェンダーバイナリ中心の視点とどのように異なるかを理解する必要がある。 このような測定フレームワークは本質的には、ジェンダー非包摂的NLPと彼らが誰に仕えるかの調整を支援するために、中心的なTGNB音声を必要とする。 この目標に向けて、我々はTGNBのコミュニティと既存の学際文献を基盤として、TGNBの人々が経験した限界化を取り巻く社会的現実がオープン言語生成(OLG)にどのように貢献し、持続するかを評価する。 まず, 限界化ストレス因子をまず理解することにより, 1) 性別の誤認と(2) 性開示に対する有害な反応を評価する。 そこで本研究では,TGNB 指向のコミュニティ内で,現実のテキストからキュレートされたテンプレートベースのテキストからなる TANGO データセットを提案する。 モデル内では二項代名詞が支配的であり,二項代名詞を用いたプロンプトをきっかけに,LLMは生成したテキストの中で最少の男女が生成される。 一方,singular theyとneopronounsで発生をトリガーする場合,ミスジェネレーションが最も一般的であった。 LLMのテキストには、性別の開示をきっかけに、スティグマティゼーション言語が含まれ、TGNBの性別の開示によって最も有毒になった。 我々の研究は、TLMにおけるTGNBの有害性に関するさらなる研究を保証し、コミュニティ音声や学際文学におけるジェンダー非包括的AIの設計を具体化するための幅広いケーススタディとして役立っている。

Transgender and non-binary (TGNB) individuals disproportionately experience discrimination and exclusion from daily life. Given the recent popularity and adoption of language generation technologies, the potential to further marginalize this population only grows. Although a multitude of NLP fairness literature focuses on illuminating and addressing gender biases, assessing gender harms for TGNB identities requires understanding how such identities uniquely interact with societal gender norms and how they differ from gender binary-centric perspectives. Such measurement frameworks inherently require centering TGNB voices to help guide the alignment between gender-inclusive NLP and whom they are intended to serve. Towards this goal, we ground our work in the TGNB community and existing interdisciplinary literature to assess how the social reality surrounding experienced marginalization by TGNB persons contributes to and persists within Open Language Generation (OLG). By first understanding their marginalization stressors, we evaluate (1) misgendering and (2) harmful responses to gender disclosure. To do this, we introduce the TANGO dataset, comprising of template-based text curated from real-world text within a TGNB-oriented community. We discover a dominance of binary gender norms within the models; LLMs least misgendered subjects in generated text when triggered by prompts whose subjects used binary pronouns. Meanwhile, misgendering was most prevalent when triggering generation with singular they and neopronouns. When prompted with gender disclosures, LLM text contained stigmatizing language and scored most toxic when triggered by TGNB gender disclosure. Our findings warrant further research on how TGNB harms manifest in LLMs and serve as a broader case study toward concretely grounding the design of gender-inclusive AI in community voices and interdisciplinary literature.
翻訳日:2023-06-01 00:29:57 公開日:2023-05-30
# 顔認識の視覚的サリエンシ説明に向けて

Towards Visual Saliency Explanations of Face Recognition ( http://arxiv.org/abs/2305.08546v2 )

ライセンス: Link先を確認
Yuhang Lu, Zewei Xu, Touradj Ebrahimi(参考訳) 深層畳み込みニューラルネットワークは、過去数年間、顔認識(FR)技術のフロンティアを推し進めてきた。 精度が高いにもかかわらず、説明性に欠けるとしてしばしば批判される。 深層顔認識システムにおける意思決定プロセスの理解に対する需要が高まっている。 近年の研究では、視覚的サリエンシマップを説明として用いているが、顔認識の文脈では議論や分析が欠如していることが多い。 本稿では,顔認識のための新しい説明枠組みを提案する。 まず、深いFRモデルによる決定に焦点を当てた、唾液度に基づく説明法の新しい定義を提供することから始める。 次に,任意の対の顔画像の類似領域と類似領域の両方を明らかにするために,新しい相関ベースライジングアルゴリズム(corrrise)を提案する。 また,2つの評価指標は,顔認識における一般的な視覚的相性説明法の性能を測定するために設計されている。 その結果,提案手法は他の説明可能な顔認識手法を一貫して上回っていることがわかった。

Deep convolutional neural networks have been pushing the frontier of face recognition (FR) techniques in the past years. Despite the high accuracy, they are often criticized for lacking explainability. There has been an increasing demand for understanding the decision-making process of deep face recognition systems. Recent studies have investigated using visual saliency maps as an explanation, but they often lack a discussion and analysis in the context of face recognition. This paper conceives a new explanation framework for face recognition. It starts by providing a new definition of the saliency-based explanation method, which focuses on the decisions made by the deep FR model. Then, a novel correlation-based RISE algorithm (CorrRISE) is proposed to produce saliency maps, which reveal both the similar and dissimilar regions of any given pair of face images. Besides, two evaluation metrics are designed to measure the performance of general visual saliency explanation methods in face recognition. Consequently, substantial visual and quantitative results have shown that the proposed method consistently outperforms other explainable face recognition approaches.
翻訳日:2023-06-01 00:29:19 公開日:2023-05-30
# 強化学習のための報酬としての映像予測モデル

Video Prediction Models as Rewards for Reinforcement Learning ( http://arxiv.org/abs/2305.14343v2 )

ライセンス: Link先を確認
Alejandro Escontrela and Ademi Adeniji and Wilson Yan and Ajay Jain and Xue Bin Peng and Ken Goldberg and Youngwoon Lee and Danijar Hafner and Pieter Abbeel(参考訳) 複雑な振る舞いを学習できる報酬信号を特定することは、強化学習における長年の課題である。 有望なアプローチは、インターネットで広く入手可能なラベルのないビデオから行動の好みを抽出することである。 本稿では、事前訓練された映像予測モデルを、強化学習のためのアクションフリー報酬信号として活用するアルゴリズムであるビデオ予測逆数(VIPER)を提案する。 具体的には、まずエキスパートビデオに自己回帰変換器を訓練し、次に、強化学習エージェントの報酬信号としてビデオ予測可能性を使用する。 VIPERは、DMC、Atari、RLBenchタスクの幅広い範囲にわたるプログラム的なタスク報酬なしで、専門家レベルの制御を可能にする。 さらに,映像予測モデルの一般化により,専門家データがない分散環境における報酬を導き出すことが可能となり,テーブル上操作のクロスエンボディメント一般化が可能となった。 当社の作業は、生成モデリングの急速な進歩の恩恵を受ける、ラベルのないビデオによるスケーラブルな報酬仕様の出発点として捉えています。 ソースコードとデータセットはプロジェクトのWebサイトで入手できる。

Specifying reward signals that allow agents to learn complex behaviors is a long-standing challenge in reinforcement learning. A promising approach is to extract preferences for behaviors from unlabeled videos, which are widely available on the internet. We present Video Prediction Rewards (VIPER), an algorithm that leverages pretrained video prediction models as action-free reward signals for reinforcement learning. Specifically, we first train an autoregressive transformer on expert videos and then use the video prediction likelihoods as reward signals for a reinforcement learning agent. VIPER enables expert-level control without programmatic task rewards across a wide range of DMC, Atari, and RLBench tasks. Moreover, generalization of the video prediction model allows us to derive rewards for an out-of-distribution environment where no expert data is available, enabling cross-embodiment generalization for tabletop manipulation. We see our work as starting point for scalable reward specification from unlabeled videos that will benefit from the rapid advances in generative modeling. Source code and datasets are available on the project website: https://escontrela.me/viper
翻訳日:2023-06-01 00:23:33 公開日:2023-05-30
# ガウス・シュタイン変分勾配のダイナミクス理解に向けて

Towards Understanding the Dynamics of Gaussian-Stein Variational Gradient Descent ( http://arxiv.org/abs/2305.14076v2 )

ライセンス: Link先を確認
Tianle Liu, Promit Ghosal, Krishnakumar Balasubramanian, Natesh Pillai(参考訳) Stein Variational Gradient Descent (SVGD) は非パラメトリック粒子に基づく決定論的サンプリングアルゴリズムである。 広く使われているにもかかわらず、SVGDの理論的性質の理解は依然として難しい問題である。 ガウス的対象からサンプリングする場合、二線型核を持つsvgdダイナミクスは初期化子がガウス的であればガウス的となる。 この事実に触発された我々は、ガウス-SVGDの詳細な理論的研究、すなわち、双線型核を通してガウス分布の族に投影されるSVGD、またはそれに相当するガウス変分推論(GVI)をSVGDで行う。 平均場PDEと離散粒子系の両方を考慮した完全な図形を示す。 ターゲットが強い対数対数の場合、平均場ガウス-SVGDダイナミクスはKL分散においてターゲットに最も近いガウス分布に線形に収束することが証明される。 有限粒子設定では、平均場極限への時間収束と、目標がガウス的である場合の平衡への時間収束の両方がある。 一般の場合、密度ベースおよび粒子ベースによるガウス-SVGDの実装を提案し、GVIの最近のアルゴリズムが、異なる視点から提案され、我々の統一フレームワークの特別なケースとして現れていることを示す。 興味深いことに、このフレームワークの新しい粒子ベースのインスタンスの1つは、既存のアプローチを経験的に上回っている。 その結果,SVGDとGVIの双方の理解を深める上で,具体的な貢献が得られた。

Stein Variational Gradient Descent (SVGD) is a nonparametric particle-based deterministic sampling algorithm. Despite its wide usage, understanding the theoretical properties of SVGD has remained a challenging problem. For sampling from a Gaussian target, the SVGD dynamics with a bilinear kernel will remain Gaussian as long as the initializer is Gaussian. Inspired by this fact, we undertake a detailed theoretical study of the Gaussian-SVGD, i.e., SVGD projected to the family of Gaussian distributions via the bilinear kernel, or equivalently Gaussian variational inference (GVI) with SVGD. We present a complete picture by considering both the mean-field PDE and discrete particle systems. When the target is strongly log-concave, the mean-field Gaussian-SVGD dynamics is proven to converge linearly to the Gaussian distribution closest to the target in KL divergence. In the finite-particle setting, there is both uniform in time convergence to the mean-field limit and linear convergence in time to the equilibrium if the target is Gaussian. In the general case, we propose a density-based and a particle-based implementation of the Gaussian-SVGD, and show that several recent algorithms for GVI, proposed from different perspectives, emerge as special cases of our unified framework. Interestingly, one of the new particle-based instance from this framework empirically outperforms existing approaches. Our results make concrete contributions towards obtaining a deeper understanding of both SVGD and GVI.
翻訳日:2023-06-01 00:23:15 公開日:2023-05-30
# 拡散モデルによる現実的な雑音合成

Realistic Noise Synthesis with Diffusion Models ( http://arxiv.org/abs/2305.14022v2 )

ライセンス: Link先を確認
Qi Wu, Mingyan Han, Ting Jiang, Haoqiang Fan, Bing Zeng, Shuaicheng Liu(参考訳) 深層学習に基づくアプローチは、単一イメージの認知において顕著なパフォーマンスを達成した。 しかし、デノベーションモデルのトレーニングは通常大量のデータを必要とするため、現実のシナリオでは入手が困難である。 さらに, 従来の合成ノイズは, 後者の複雑さやGANモデルのノイズ分布のモデル化能力の低さにより, 実世界のノイズと比較して大きな差が生じることが多く, 残留ノイズやデノナイジングモデル内のアーティファクトが生じる。 これらの課題に対処するために,拡散モデルを用いて現実的な雑音を合成する新しい手法を提案する。 本手法は,異なる環境条件をシミュレートするためにカメラ設定を制御し,マルチスケールコンテンツ情報を誘導することにより,マルチ周波数空間相関を用いた実雑音生成能力の向上を図り,高品位モデル学習のための高品質なデータを生成することができる。 特に,情報の設定をせずに,よりパブリックなデータセットに拡張するインバージョン機構を設計した。 そこで,我々が合成したノイズデータセットに基づいて,複数のベンチマークについて十分な実験を行い,実験結果から,複数のベンチマークや測定値における最先端手法を上回って,現実的なノイズ合成の有効性を実証した。

Deep learning-based approaches have achieved remarkable performance in single-image denoising. However, training denoising models typically requires a large amount of data, which can be difficult to obtain in real-world scenarios. Furthermore, synthetic noise used in the past has often produced significant differences compared to real-world noise due to the complexity of the latter and the poor modeling ability of noise distributions of Generative Adversarial Network (GAN) models, resulting in residual noise and artifacts within denoising models. To address these challenges, we propose a novel method for synthesizing realistic noise using diffusion models. This approach enables us to generate large amounts of high-quality data for training denoising models by controlling camera settings to simulate different environmental conditions and employing guided multi-scale content information to ensure that our method is more capable of generating real noise with multi-frequency spatial correlations. In particular, we design an inversion mechanism for the setting, which extends our method to more public datasets without setting information. Based on the noise dataset we synthesized, we have conducted sufficient experiments on multiple benchmarks, and experimental results demonstrate that our method outperforms state-of-the-art methods on multiple benchmarks and metrics, demonstrating its effectiveness in synthesizing realistic noise for training denoising models.
翻訳日:2023-06-01 00:22:48 公開日:2023-05-30
# BA-SOT:マルチ話者ASRのための境界対応シリアライズアウトプットトレーニング

BA-SOT: Boundary-Aware Serialized Output Training for Multi-Talker ASR ( http://arxiv.org/abs/2305.13716v2 )

ライセンス: Link先を確認
Yuhao Liang, Fan Yu, Yangze Li, Pengcheng Guo, Shiliang Zhang, Qian Chen, Lei Xie(参考訳) 最近提案されたシリアライズアウトプットトレーニング(SOT)は、特別なトークンで分離された話者書き起こしを生成することで、マルチストーカー自動音声認識(ASR)を単純化する。 しかし、頻繁な話者変化は話者変化予測を難しくする。 そこで本稿では,話者変化検出タスクと境界制約損失による境界知識をデコーダに明示的に組み込んだ境界対応直列出力トレーニング(BA-SOT)を提案する。 また、トークンレベルSOT CTCを組み込んだ2段階接続型時間分類(CTC)戦略を導入し、時間的文脈情報を復元する。 典型的な文字誤り率(CER)に加えて,話者変化予測の精度を高めるために発話依存文字誤り率(UD-CER)を導入する。 SOTと比較して、BA-SOTはCER/UD-CERを5.1%/14.0%削減し、BA-SOTモデルの初期化のために事前訓練されたASRモデルを活用することで、CER/UD-CERをさらに8.4%/19.9%削減する。

The recently proposed serialized output training (SOT) simplifies multi-talker automatic speech recognition (ASR) by generating speaker transcriptions separated by a special token. However, frequent speaker changes can make speaker change prediction difficult. To address this, we propose boundary-aware serialized output training (BA-SOT), which explicitly incorporates boundary knowledge into the decoder via a speaker change detection task and boundary constraint loss. We also introduce a two-stage connectionist temporal classification (CTC) strategy that incorporates token-level SOT CTC to restore temporal context information. Besides typical character error rate (CER), we introduce utterance-dependent character error rate (UD-CER) to further measure the precision of speaker change prediction. Compared to original SOT, BA-SOT reduces CER/UD-CER by 5.1%/14.0%, and leveraging a pre-trained ASR model for BA-SOT model initialization further reduces CER/UD-CER by 8.4%/19.9%.
翻訳日:2023-06-01 00:22:23 公開日:2023-05-30
# エンティティ置換下での関係抽出はどの程度脆弱か?

How Fragile is Relation Extraction under Entity Replacements? ( http://arxiv.org/abs/2305.13551v2 )

ライセンス: Link先を確認
Yiwei Wang, Bryan Hooi, Fei Wang, Yujun Cai, Yuxuan Liang, Wenxuan Zhou, Jing Tang, Manjuan Duan, Muhao Chen(参考訳) 関係抽出(RE)は、テキストコンテキストからエンティティ名間の関係を抽出することを目的としている。 原則として、テキストコンテキストは基幹構造関係を決定し、REモデルはテキストコンテキストによって反映される関係を正しく識別できるべきである。 しかし、既存の研究によると、REモデルはエンティティ名パターンを記憶し、テキストコンテキストを無視しながらRE予測を行う。 この作業では、TACREDのREインスタンス上でランダムで制約されたエンティティ置換を運用し、エンティティ置換の下で最先端のREモデルを評価します。 エンティティ置換下での最先端reモデルの30\% - 50\% f1スコア低下を観察した。 これらの結果から,エンティティ置換に対して堅牢な効果的なREモデルを開発するには,さらなる努力が必要であることが示唆された。 ソースコードはhttps://github.com/wangywUST/RobustREで公開しています。

Relation extraction (RE) aims to extract the relations between entity names from the textual context. In principle, textual context determines the ground-truth relation and the RE models should be able to correctly identify the relations reflected by the textual context. However, existing work has found that the RE models memorize the entity name patterns to make RE predictions while ignoring the textual context. This motivates us to raise the question: ``are RE models robust to the entity replacements?'' In this work, we operate the random and type-constrained entity replacements over the RE instances in TACRED and evaluate the state-of-the-art RE models under the entity replacements. We observe the 30\% - 50\% F1 score drops on the state-of-the-art RE models under entity replacements. These results suggest that we need more efforts to develop effective RE models robust to entity replacements. We release the source code at https://github.com/wangywUST/RobustRE.
翻訳日:2023-06-01 00:22:02 公開日:2023-05-30
# サンプル・アフィニティテストを用いたサンプル重み付けによる不偏性構音自動音声認識

Debiased Automatic Speech Recognition for Dysarthric Speech via Sample Reweighting with Sample Affinity Test ( http://arxiv.org/abs/2305.13108v2 )

ライセンス: Link先を確認
Eungbeom Kim, Yunkee Chae, Jaeheon Sim, Kyogu Lee(参考訳) ディープラーニングに基づく自動音声認識システムは、主に経験的リスク最小化(erm)の下で訓練される。 ERMは、健常者や変形性スピーカーなどのグループによらず、データサンプル上での平均的な性能を利用するため、ASRシステムはグループ間のパフォーマンス格差に気づいていない。 その結果,グループ間での性能差が激しいASRシステムに偏りが生じた。 本研究では,変形性難聴者に対するグループロバストネスの観点から,ASRシステムの改善を目指す。 目的を達成するために,サンプル親和性試験(Re-SAT)によるサンプル再加重法を提案する。 re-satは、与えられたデータサンプルの偏りを体系的に測定し、有益さに基づくサンプルの重み付けを偏りなくすることでバイアスを緩和する。 実験の結果,re-satは健常者におけるasr性能の向上に寄与することが明らかとなった。

Automatic speech recognition systems based on deep learning are mainly trained under empirical risk minimization (ERM). Since ERM utilizes the averaged performance on the data samples regardless of a group such as healthy or dysarthric speakers, ASR systems are unaware of the performance disparities across the groups. This results in biased ASR systems whose performance differences among groups are severe. In this study, we aim to improve the ASR system in terms of group robustness for dysarthric speakers. To achieve our goal, we present a novel approach, sample reweighting with sample affinity test (Re-SAT). Re-SAT systematically measures the debiasing helpfulness of the given data sample and then mitigates the bias by debiasing helpfulness-based sample reweighting. Experimental results demonstrate that Re-SAT contributes to improved ASR performance on dysarthric speech without performance degradation on healthy speech.
翻訳日:2023-06-01 00:21:46 公開日:2023-05-30
# Iterative Forward Tuningが言語モデルにおけるコンテキスト内学習を強化

Iterative Forward Tuning Boosts In-context Learning in Language Models ( http://arxiv.org/abs/2305.13016v2 )

ライセンス: Link先を確認
Jiaxi Yang, Binyuan Hui, Min Yang, Binhua Li, Fei Huang, Yongbin Li(参考訳) 大規模言語モデル (LLM) は、ICL(In-context Learning) の能力を示す。 しかし,実演例を一度処理することにより,より複雑な課題を解決するために,通常のケースを解決できるiclモデルはほとんど拡張されない。 この一ターンのiclは、アナロジーから学習することで人間の意思決定プロセスと無関係である。 本稿では,トランスフォーマーアテンションと勾配降下に基づく最適化の二重形式を利用して,LLMにおけるICLを効果的かつ効率的に向上する2段階フレームワークを提案する。 具体的には、iclプロセスを「深い思考」と推論段階に分割する。 深層思考(deep-thinking)"段階は、複数のデモを"思考"することで、テスト時のllmの推論能力を高めることが期待されている、デモの反復的な前方最適化を実行する。 トランスフォーマーの自己保持モジュールでキーバリュー行列を操作することで、蓄積されたメタグラディエントを生成する。 そして、推論段階は、実演を連結せずにテストクエリを入力として取り、学習したメタ勾配を注意して出力予測を行う。 このように、推論段階では、すでに学習され、決定的なメタ段階に格納されているため、デモは必要ない。 LLMは下流タスクに効果的かつ効率的に適応できる。 10の分類と複数選択データセットの大規模な実験により,本手法は精度と効率の両面において,標準ICLよりもかなり優れた性能が得られることが示された。

Large language models (LLMs) have exhibited an emergent in-context learning (ICL) ability. However, the ICL models that can solve ordinary cases are hardly extended to solve more complex tasks by processing the demonstration examples once. This single-turn ICL is incoordinate with the decision making process of humans by learning from analogy. In this paper, we propose an effective and efficient two-stage framework to boost ICL in LLMs by exploiting a dual form between Transformer attention and gradient descent-based optimization. Concretely, we divide the ICL process into "Deep-Thinking" and inference stages. The "Deep-Thinking" stage performs iterative forward optimization of demonstrations, which is expected to boost the reasoning abilities of LLMs at test time by "thinking" demonstrations multiple times. It produces accumulated meta-gradients by manipulating the Key-Value matrices in the self-attention modules of the Transformer. Then, the inference stage only takes the test query as input without concatenating demonstrations and applies the learned meta-gradients through attention for output prediction. In this way, demonstrations are not required during the inference stage since they are already learned and stored in the definitive meta-gradients. LLMs can be effectively and efficiently adapted to downstream tasks. Extensive experiments on ten classification and multiple-choice datasets show that our method achieves substantially better performance than standard ICL in terms of both accuracy and efficiency.
翻訳日:2023-06-01 00:21:28 公開日:2023-05-30
# タンジェント空間におけるタスク算術:事前学習モデルの編集の改善

Task Arithmetic in the Tangent Space: Improved Editing of Pre-Trained Models ( http://arxiv.org/abs/2305.12827v2 )

ライセンス: Link先を確認
Guillermo Ortiz-Jimenez, Alessandro Favero, Pascal Frossard(参考訳) 異なるタスクの微調整された重み付けを追加することで、これらのタスクでモデルのパフォーマンスが向上し、それらを否定することでタスクを忘れることになる。 しかし、タスク演算の有効性とその基本原理に対する我々の理解は、まだ限られている。 本稿では,視覚言語モデルにおけるタスク算術の包括的研究を行い,重みの絡み合いが有効であることを示す。 この性質は事前訓練中に発生し、重み空間内の異なる方向がタスクに関連する関数空間内の個別の局所化された領域を支配するときに現れる。 特に, 線形化による接空間の微調整モデルが, 重みの偏角を増幅することを示す。 これにより、複数のタスク演算ベンチマークと多様なモデルでパフォーマンスが大幅に向上する。 これらの結果に基づいて,これらのモデルのニューラルネットワークカーネル(NTK)の理論的および経験的解析を行い,タスク演算とNTK固有関数の空間的局在との関係を確立する。 本研究は,タスク算術の基本メカニズムに関する新たな知見を明らかにし,NTK線形化による事前学習モデルの編集に,より信頼性と効果的なアプローチを提供する。

Task arithmetic has recently emerged as a cost-effective and scalable approach to edit pre-trained models directly in weight space: By adding the fine-tuned weights of different tasks, the model's performance can be improved on these tasks, while negating them leads to task forgetting. Yet, our understanding of the effectiveness of task arithmetic and its underlying principles remains limited. We present a comprehensive study of task arithmetic in vision-language models and show that weight disentanglement is the crucial factor that makes it effective. This property arises during pre-training and manifests when distinct directions in weight space govern separate, localized regions in function space associated with the tasks. Notably, we show that fine-tuning models in their tangent space by linearizing them amplifies weight disentanglement. This leads to substantial performance improvements across multiple task arithmetic benchmarks and diverse models. Building on these findings, we provide theoretical and empirical analyses of the neural tangent kernel (NTK) of these models and establish a compelling link between task arithmetic and the spatial localization of the NTK eigenfunctions. Overall, our work uncovers novel insights into the fundamental mechanisms of task arithmetic and offers a more reliable and effective approach to edit pre-trained models through the NTK linearization.
翻訳日:2023-06-01 00:21:04 公開日:2023-05-30
# 深層アンサンブルの多様化:ood検出,キャリブレーション,精度向上のためのsaliency mapアプローチ

Diversifying Deep Ensembles: A Saliency Map Approach for Enhanced OOD Detection, Calibration, and Accuracy ( http://arxiv.org/abs/2305.11616v2 )

ライセンス: Link先を確認
Stanislav Dereka, Ivan Karpukhin, Sergey Kolesnikov(参考訳) 深層アンサンブルは分類とアウト・オブ・ディストリビューション(OOD)の検出において最先端の結果を得たが、その効果はアンサンブル内の学習パターンの均一性によって制限されている。 そこで本研究では,サリエンシマップを活用することで,アンサンブルメンバー間の多様性を促進する新しいアプローチを提案する。 本手法は,複数分類およびOOD検出タスクにおいて従来のアンサンブル手法より優れ,校正性も向上した。 確立されたOpenOODベンチマークの実験では,本手法の実用化の可能性を強調した。

Deep ensembles achieved state-of-the-art results in classification and out-of-distribution (OOD) detection; however, their effectiveness remains limited due to the homogeneity of learned patterns within the ensemble. To overcome this challenge, our study introduces a novel approach that promotes diversity among ensemble members by leveraging saliency maps. By incorporating saliency map diversification, our method outperforms conventional ensemble techniques in multiple classification and OOD detection tasks, while also improving calibration. Experiments on well-established OpenOOD benchmarks highlight the potential of our method in practical applications.
翻訳日:2023-06-01 00:20:43 公開日:2023-05-30
# 大規模言語モデルによる産業ドメイン固有の質問応答の性能向上

Empower Large Language Model to Perform Better on Industrial Domain-Specific Question Answering ( http://arxiv.org/abs/2305.11541v2 )

ライセンス: Link先を確認
Zezhong Wang, Fangkai Yang, Pu Zhao, Lu Wang, Jue Zhang, Mohit Garg, Qingwei Lin, Dongmei Zhang(参考訳) 大規模言語モデル(LLM)は、オープンドメインタスクにおいて顕著な成果を上げているが、実際の産業ドメイン固有のシナリオでは、特定の知識がないため、そのパフォーマンスは平均的である。 この問題は広く注目を集めているが、関連するベンチマークはほとんどない。 本稿では、MSQAという、Microsoft製品と顧客が遭遇するIT技術的問題に関するベンチマーク質問応答(QA)データセットを提供する。 このデータセットには、業界クラウド固有のQA知識が含まれており、一般のLLMでは利用できないため、LLMのドメイン固有能力向上を目的とした評価方法に適している。 さらに,LLMが熟練していない領域固有のタスクにおいて,より優れたパフォーマンスを実現するための新しいモデル相互作用パラダイムを提案する。 大規模な実験により, モデル融合フレームワークによるアプローチは, 一般的なLLMよりも高い性能を示した。

Large Language Model (LLM) has gained popularity and achieved remarkable results in open-domain tasks, but its performance in real industrial domain-specific scenarios is average since there is no specific knowledge in it. This issue has attracted widespread attention, but there are few relevant benchmarks available. In this paper, we provide a benchmark Question Answering (QA) dataset named MSQA, which is about Microsoft products and IT technical problems encountered by customers. This dataset contains industry cloud-specific QA knowledge, which is not available for general LLM, so it is well suited for evaluating methods aimed at improving domain-specific capabilities of LLM. In addition, we propose a new model interaction paradigm that can empower LLM to achieve better performance on domain-specific tasks where it is not proficient. Extensive experiments demonstrate that the approach following our model fusion framework outperforms the commonly used LLM with retrieval methods.
翻訳日:2023-06-01 00:20:29 公開日:2023-05-30
# ProSpect:属性認識画像生成のパーソナライズのための拡張条件

ProSpect: Expanded Conditioning for the Personalization of Attribute-aware Image Generation ( http://arxiv.org/abs/2305.16225v2 )

ライセンス: Link先を確認
Yuxin Zhang, Weiming Dong, Fan Tang, Nisha Huang, Haibin Huang, Chongyang Ma, Tong-Yee Lee, Oliver Deussen, Changsheng Xu(参考訳) 生成モデルのパーソナライズは、ユーザが提供する参照で画像生成をガイドする方法を提供する。 現在のパーソナライズ手法は、オブジェクトや概念をテキスト条件空間に反転させ、テキストから画像への拡散モデルのための新しい自然文を構成することができる。 しかし、素材、スタイル、レイアウトなどの特定の視覚的属性の表現と編集は依然として課題であり、絡み合いや編集性が欠如している。 そこで本研究では,低周波情報から高周波画像を生成し,画像の表現,生成,編集を行う拡散モデルのステップバイステップ生成プロセスを活用する新しいアプローチを提案する。 本稿では,拡張テキスト条件空間であるPrompt Spectrum Space P*と,ProSpectと呼ばれる新しい画像表現手法を提案する。 ProSpectは、各プロンプトが拡散モデルの特定の生成段階(つまり連続的なステップのグループ)に対応する段階ごとのプロンプトから符号化された逆テキストトークン埋め込みの集合として画像を表す。 実験の結果,P* と ProSpect は既存手法に比べて強い絡み合いと制御性を示した。 画像/テキスト誘導材料/スタイル/レイアウト転送/編集など,パーソナライズされた属性認識型画像生成アプリケーションでは,拡散モデルを微調整することなく,単一の画像入力で従来達成できなかった結果が得られる。

Personalizing generative models offers a way to guide image generation with user-provided references. Current personalization methods can invert an object or concept into the textual conditioning space and compose new natural sentences for text-to-image diffusion models. However, representing and editing specific visual attributes like material, style, layout, etc. remains a challenge, leading to a lack of disentanglement and editability. To address this, we propose a novel approach that leverages the step-by-step generation process of diffusion models, which generate images from low- to high-frequency information, providing a new perspective on representing, generating, and editing images. We develop Prompt Spectrum Space P*, an expanded textual conditioning space, and a new image representation method called ProSpect. ProSpect represents an image as a collection of inverted textual token embeddings encoded from per-stage prompts, where each prompt corresponds to a specific generation stage (i.e., a group of consecutive steps) of the diffusion model. Experimental results demonstrate that P* and ProSpect offer stronger disentanglement and controllability compared to existing methods. We apply ProSpect in various personalized attribute-aware image generation applications, such as image/text-guided material/style/layout transfer/editing, achieving previously unattainable results with a single image input without fine-tuning the diffusion models.
翻訳日:2023-06-01 00:13:02 公開日:2023-05-30
# EGO4D STAの次のアクティブオブジェクトへのガイド

Guided Attention for Next Active Object @ EGO4D STA Challenge ( http://arxiv.org/abs/2305.16066v2 )

ライセンス: Link先を確認
Sanket Thakur, Cigdem Beyan, Pietro Morerio, Vittorio Murino, Alessio Del Bue(参考訳) 本稿では,EGO4D課題に対する短期予測(STA)課題に対するガイド・アテンション機構に基づくソリューションについて述べる。 オブジェクト検出とビデオクリップから抽出した時空間的特徴を組み合わせて、動きと文脈情報を強化し、さらにオブジェクト中心および動き中心の情報をデコードして、エゴセントリックビデオにおけるSTAの問題に対処する。 この課題に対して、我々は高速ネットワークに注意を向けながら、 stillfast 上にモデルを構築します。 本モデルは,検証セットの性能向上と,ego4d短期オブジェクトインタラクション予測チャレンジの課題テストセットにおける最先端(sota)結果の達成を図っている。

In this technical report, we describe the Guided-Attention mechanism based solution for the short-term anticipation (STA) challenge for the EGO4D challenge. It combines the object detections, and the spatiotemporal features extracted from video clips, enhancing the motion and contextual information, and further decoding the object-centric and motion-centric information to address the problem of STA in egocentric videos. For the challenge, we build our model on top of StillFast with Guided Attention applied on fast network. Our model obtains better performance on the validation set and also achieves state-of-the-art (SOTA) results on the challenge test set for EGO4D Short-Term Object Interaction Anticipation Challenge.
翻訳日:2023-06-01 00:12:37 公開日:2023-05-30
# 学習に基づくソフトウェアコードの自動合成と構成

Learning-Based Automatic Synthesis of Software Code and Configuration ( http://arxiv.org/abs/2305.15642v2 )

ライセンス: Link先を確認
Shantanu Mandal(参考訳) ソフトウェア産業における需要の増加とソフトウェアエンジニアの不足により、研究者や実践者がソフトウェアの生成と構成のプロセスを自動化するモチベーションが高まる。 大規模な自動ソフトウェア生成と構成は非常に複雑で難しい作業です。 本提案では,ソフトウェアの自動生成と構成を2つの異なるタスクに分割することで,この問題を解明する。 まず,入力出力仕様で自動的にソフトウェアを合成することを提案する。 このタスクはさらに2つのサブタスクに分割される。 最初のサブタスクは、プログラムトレースと仕様でトレーニングされたニューラルネットワークベースのフィットネス機能によって駆動される遺伝的アルゴリズムによるプログラムの合成である。 第2のサブタスクでは,プログラム合成を連続最適化問題として定式化し,共分散行列適応進化戦略(最先端連続最適化法)を用いたプログラムを合成する。 最後に,異なる入力ファイル(例えば,ソフトウェアマニュアル,設定ファイル,オンラインブログなど)からシーケンス・ツー・シーケンスの深層学習機構を用いて大規模ソフトウェアの構成を合成することを提案する。

Increasing demands in software industry and scarcity of software engineers motivates researchers and practitioners to automate the process of software generation and configuration. Large scale automatic software generation and configuration is a very complex and challenging task. In this proposal, we set out to investigate this problem by breaking down automatic software generation and configuration into two different tasks. In first task, we propose to synthesize software automatically with input output specifications. This task is further broken down into two sub-tasks. The first sub-task is about synthesizing programs with a genetic algorithm which is driven by a neural network based fitness function trained with program traces and specifications. For the second sub-task, we formulate program synthesis as a continuous optimization problem and synthesize programs with covariance matrix adaption evolutionary strategy (a state-of-the-art continuous optimization method). Finally, for the second task, we propose to synthesize configurations of large scale software from different input files (e.g. software manuals, configurations files, online blogs, etc.) using a sequence-to-sequence deep learning mechanism.
翻訳日:2023-06-01 00:12:03 公開日:2023-05-30
# 1次元$\delta$-ポテンシャル上の粒子の散乱に関する時間依存理論

Time-dependent theory of scattering a particle on a one-dimensional $\delta$-potential ( http://arxiv.org/abs/2305.15381v2 )

ライセンス: Link先を確認
N. L. Chuprikov(参考訳) 1次元の$\delta$-potential上でスピンレス粒子を散乱する時間依存理論が提示され、粒子の位置と運動量演算子の非有界性が重要な役割を果たす。 波動作用素は、連続スペクトルに関連する空間 $\mathcal{h}_{ac}$ 全体ではなく、位置と運動量演算子が自己共役であるシュワルツ空間 $\mathcal{s}$ において定義される。 この理論は、$\mathcal{S}\bigcap\mathcal{H}_{ac }$ の波動作用素の(随伴)領域が 2 つの(一様でない)コヒーレントセクターの直和であるような漸近的超選択規則を含む。 粒子のバリアへの一方的な入射過程は、2つのコヒーレントに発達する透過サブプロセスと反射サブプロセスの混合であり、これは送信パケットと反射パケットの空間的分離、すなわち動的デコヒーレンスにより、極限$t\to\infty$でコヒーレンスを失う。 この過程は(閉系で動くが)非単体であり、シュル「{o}dinger dynamics」はコヒーレントセクターの境界と交わるからである。

Time-dependent theory of scattering a spinless particle on a one-dimensional $\delta$-potential is presented, in which the unboundedness of the particle's position and momentum operators plays crucial role. Wave operators are defined here not in the entire space $\mathcal{H}_{ac}$ associated with the continuous spectrum, but in the Schwarz space $\mathcal{S}$, where the position and momentum operators are self-adjoint. This theory contains an asymptotic superselection rule according to which the (joint) domain of wave operators in $\mathcal{S}\bigcap\mathcal{H}_{ac }$ is a direct sum of two (unitarily nonequivalent) coherent sectors. The process with a unilateral incidence of a particle onto the barrier is a mixture of two coherently developing transmission and reflection subprocesses which lose coherence in the limit $t\to\infty$ due to the spatial separation of the transmitted and reflected wave packets, i.e. due to dynamic decoherence. This process is non-unitary (although it runs in a closed system), since the Schr\"{o}dinger dynamics intersects the boundaries of coherent sectors.
翻訳日:2023-06-01 00:11:18 公開日:2023-05-30
# 無線で人体をモニタリングする関連知識蒸留について

On Correlated Knowledge Distillation for Monitoring Human Pose with Radios ( http://arxiv.org/abs/2305.14829v2 )

ライセンス: Link先を確認
Shiva Raj Pokhrel, Jonathan Kua, Deol Satish, Phil Williams, Arkady Zaslavsky, Seng W. Loke, Jinho Choi(参考訳) 本研究では,無線周波数(RF)センシング技術とCorrelated Knowledge Distillation(CKD)理論を結合して,軽量でほぼリアルタイムで高精度なポーズ監視システムを構築することで,新しいアイデアの実現可能性を検討するための簡易な実験ベッドを提案する。 提案するckdフレームワークは,ロバストな"教師"モデルからパラメータ化された"学生"モデルへのポーズ知識の転送と融合を行う。 有効性を確認するため,我々は,sdr(software defined radio)を用いた実験装置でロジットを蒸留するckdを実装し,rf-visual信号相関について検討した。 我々のCKD-RFセンシング技術は,SDR-feed Student Class Network(RF信号など)とカメラフィードTeacher Class Network(画像,ビデオなど)の2つのモードで特徴付けられる。 特にckdモデルは,知識ベースを蒸留し,融合することにより,マルチブランチ教師と学生ネットワークを訓練する。 結果のCKDモデルはその後、マルチモーダル相関を識別し、逆の学生分岐を教えるために使用される。 学習を単純に集約する代わりに、ckdトレーニングは2つのドメイン、すなわち視覚画像とrf信号との複数の並列変換で構成された。 トレーニングされたCKDモデルは、プライバシーを効率的に保護し、2つの異なるニューラルネットワークからのマルチモーダル相関ロジットを使用して、視覚信号やビデオフレームを(RF信号のみを使用して)使用せずにポーズを推定する。

In this work, we propose and develop a simple experimental testbed to study the feasibility of a novel idea by coupling radio frequency (RF) sensing technology with Correlated Knowledge Distillation (CKD) theory towards designing lightweight, near real-time and precise human pose monitoring systems. The proposed CKD framework transfers and fuses pose knowledge from a robust "Teacher" model to a parameterized "Student" model, which can be a promising technique for obtaining accurate yet lightweight pose estimates. To assure its efficacy, we implemented CKD for distilling logits in our integrated Software Defined Radio (SDR)-based experimental setup and investigated the RF-visual signal correlation. Our CKD-RF sensing technique is characterized by two modes -- a camera-fed Teacher Class Network (e.g., images, videos) with an SDR-fed Student Class Network (e.g., RF signals). Specifically, our CKD model trains a dual multi-branch teacher and student network by distilling and fusing knowledge bases. The resulting CKD models are then subsequently used to identify the multimodal correlation and teach the student branch in reverse. Instead of simply aggregating their learnings, CKD training comprised multiple parallel transformations with the two domains, i.e., visual images and RF signals. Once trained, our CKD model can efficiently preserve privacy and utilize the multimodal correlated logits from the two different neural networks for estimating poses without using visual signals/video frames (by using only the RF signals).
翻訳日:2023-06-01 00:10:51 公開日:2023-05-30
# 文字から単語へ:オープン語彙言語理解のための階層型事前学習言語モデル

From Characters to Words: Hierarchical Pre-trained Language Model for Open-vocabulary Language Understanding ( http://arxiv.org/abs/2305.14571v2 )

ライセンス: Link先を確認
Li Sun, Florian Luisier, Kayhan Batmanghelich, Dinei Florencio, Cha Zhang(参考訳) 自然言語理解のための現在の最先端モデルは、原文を離散トークンに変換するための前処理ステップを必要とする。 トークン化として知られるこのプロセスは、事前に構築された単語またはサブワード形態素の語彙に依存している。 この固定語彙は、モデルの堅牢性をスペルエラーと新しいドメインに適応する能力に制限する。 そこで本研究では,階層的2レベルアプローチ(単語レベルでは1つ,シーケンスレベルでは1つ)を採用する,新しいオープンボキャブラリー言語モデルを提案する。 具体的には、浅いトランスフォーマーアーキテクチャを用いて文字から単語表現を学習するワード内モジュールと、単語シーケンス全体に参加することで各単語表現を文脈化する単語間トランスフォーマーモジュールを設計する。 このモデルでは,単語境界を明瞭に認識した文字列を直接操作するが,副語や単語レベルの語彙に偏りはない。 様々なダウンストリームタスクの実験により、我々の手法は強いベースラインを上回ります。 私たちの階層モデルは、テキストの破損やドメインシフトに対して堅牢であることも示しています。

Current state-of-the-art models for natural language understanding require a preprocessing step to convert raw text into discrete tokens. This process known as tokenization relies on a pre-built vocabulary of words or sub-word morphemes. This fixed vocabulary limits the model's robustness to spelling errors and its capacity to adapt to new domains. In this work, we introduce a novel open-vocabulary language model that adopts a hierarchical two-level approach: one at the word level and another at the sequence level. Concretely, we design an intra-word module that uses a shallow Transformer architecture to learn word representations from their characters, and a deep inter-word Transformer module that contextualizes each word representation by attending to the entire word sequence. Our model thus directly operates on character sequences with explicit awareness of word boundaries, but without biased sub-word or word-level vocabulary. Experiments on various downstream tasks show that our method outperforms strong baselines. We also demonstrate that our hierarchical model is robust to textual corruption and domain shift.
翻訳日:2023-06-01 00:10:22 公開日:2023-05-30
# トポロジカル・アディバティック・パスによる位相的エッジ状態伝達

Topological edge state transfer via topological adiabatic passage ( http://arxiv.org/abs/2305.14529v2 )

ライセンス: Link先を確認
Chong Wang, Xiu Gu, Shu Chen and Yu-xi Liu(参考訳) 量子状態移動の研究は、量子シミュレータを利用した様々な研究に繋がった。 クビット周波数とクビット-クビット結合のチューニング性を利用して、超伝導クビット鎖は様々なトポロジカルバンドモデルをシミュレートすることができる。 本研究では、結合強度と量子周波数を変調することにより、トポロジカルクビット鎖に沿ってスピンアップ状態が輸送可能であることを示す。 本稿では,この状態伝達過程を理論的に解釈する別の方法を提案する。 我々は、この過程を研究する際に、キュービット鎖のヒルベルト空間を2つの辺状態の部分空間に制限できることを示し、ハミルトニアンは2状態ランダウ・ツェナー(LZ)モデルに退化できることを示した。 したがって、このトポロジカルクビット鎖における状態伝達過程は、LZモデルの断熱的通過を通して同じ過程と等価である。 さらに,本手法を用いて1量子Fock状態から2量子Bell状態への状態伝達プロセスを一般化する方法を示す。

The study of quantum state transfer has led to a variety of research efforts utilizing quantum simulators. By exploiting the tunability of the qubit frequency and qubit-qubit coupling, a superconducting qubit chain can simulate various topological band models. In our study, we demonstrate that a spin-up state can be transported along a topological qubit chain by modulating the coupling strengths and the qubit frequencies. We here propose another more straightforward approach to theoretically interpret this state transfer process. We show that the Hilebert space of the qubit chain can be restricted into the subspace of the only two edge states when investigating this process, and the Hamiltonian can degenerate to a two-state Landau-Zener (LZ) model. Therefore the state transfer process in this topological qubit chain is equivalent to the same process through the adiabatic passage of the LZ model. Further more, we show how to use this approach to generalize the state transfer process from one-qubit Fock state to two-qubit Bell state.
翻訳日:2023-06-01 00:10:03 公開日:2023-05-30
# 任意分解能気候データダウンスケーリングのためのフーリエニューラル演算子

Fourier Neural Operators for Arbitrary Resolution Climate Data Downscaling ( http://arxiv.org/abs/2305.14452v2 )

ライセンス: Link先を確認
Qidong Yang, Alex Hernandez-Garcia, Paula Harder, Venkatesh Ramesh, Prasanna Sattegeri, Daniela Szwarcman, Campbell D. Watson, David Rolnick(参考訳) 気候シミュレーションは、気候変動の理解を導き、その影響に対応する上で不可欠である。 しかし、複雑な気候過程を高空間分解能で解くには計算コストがかかる。 気候シミュレーションをスピードアップする1つの方法として、ニューラルネットワークは、高速に走る低解像度シミュレーションから気候変数をダウンスケールするために使われてきたが、高解像度のトレーニングデータは、しばしば達成不可能または不足しており、精度を大幅に制限している。 本研究では,フーリエニューラル演算子に基づくダウンスケーリング手法を提案する。 小さなアップサンプリング係数のデータでトレーニングし、ゼロショットで入力を任意の高解像度にダウンスケールすることができる。 ERA5気候モデルデータとNavier-Stokes方程式解データの両方で評価され、我々のダウンスケーリングモデルは、標準の単一解像度ダウンスケーリングとゼロショットの一般化の両方において、最先端の畳み込みおよび生成的な逆スケールモデルよりも著しく優れている。 さらに,本手法はnavier-stokes方程式における最先端データ駆動偏微分方程式の解法よりも優れていることを示す。 全体として、我々の研究は、物理的プロセスのシミュレーションと低解像度出力の補間の間のギャップを橋渡しし、両方のアプローチを組み合わせることができ、互いに著しく改善できることを示している。

Climate simulations are essential in guiding our understanding of climate change and responding to its effects. However, it is computationally expensive to resolve complex climate processes at high spatial resolution. As one way to speed up climate simulations, neural networks have been used to downscale climate variables from fast-running low-resolution simulations, but high-resolution training data are often unobtainable or scarce, greatly limiting accuracy. In this work, we propose a downscaling method based on the Fourier neural operator. It trains with data of a small upsampling factor and then can zero-shot downscale its input to arbitrary unseen high resolution. Evaluated both on ERA5 climate model data and on the Navier-Stokes equation solution data, our downscaling model significantly outperforms state-of-the-art convolutional and generative adversarial downscaling models, both in standard single-resolution downscaling and in zero-shot generalization to higher upsampling factors. Furthermore, we show that our method also outperforms state-of-the-art data-driven partial differential equation solvers on Navier-Stokes equations. Overall, our work bridges the gap between simulation of a physical process and interpolation of low-resolution output, showing that it is possible to combine both approaches and significantly improve upon each other.
翻訳日:2023-06-01 00:09:46 公開日:2023-05-30
# ほとんどのニューラルネットワークがほぼ学習可能

Most Neural Networks Are Almost Learnable ( http://arxiv.org/abs/2305.16508v2 )

ライセンス: Link先を確認
Amit Daniely, Nathan Srebro, Gal Vardi(参考訳) ランダムな定数深度ネットワークを学習するためのPTASを提案する。 固定された$\epsilon>0$とdeep $i$に対して、$\sqrt{d} \cdot \mathbb{S}^{d-1}$の任意の分布に対して、dep $i$のランダムなXavierネットワークを$\epsilon$の加算誤差まで学習するポリ時間アルゴリズムが存在することを示す。 このアルゴリズムは(\bar{d})^{\mathrm{poly}(\epsilon^{-1})}$の時間とサンプルの複雑さで動作し、ここで$\bar d$はネットワークのサイズである。 Sigmoid や ReLU のような活性化の場合、境界は $(\bar{d})^{\mathrm{polylog}(\epsilon^{-1})}$ に改善され、定数深度ランダムネットワークを学習するための準ポリ時間アルゴリズムが生成される。

We present a PTAS for learning random constant-depth networks. We show that for any fixed $\epsilon>0$ and depth $i$, there is a poly-time algorithm that for any distribution on $\sqrt{d} \cdot \mathbb{S}^{d-1}$ learns random Xavier networks of depth $i$, up to an additive error of $\epsilon$. The algorithm runs in time and sample complexity of $(\bar{d})^{\mathrm{poly}(\epsilon^{-1})}$, where $\bar d$ is the size of the network. For some cases of sigmoid and ReLU-like activations the bound can be improved to $(\bar{d})^{\mathrm{polylog}(\epsilon^{-1})}$, resulting in a quasi-poly-time algorithm for learning constant depth random networks.
翻訳日:2023-05-31 22:21:46 公開日:2023-05-30
# スパンジング林による分化性クラスタリング

Differentiable Clustering with Perturbed Spanning Forests ( http://arxiv.org/abs/2305.16358v2 )

ライセンス: Link先を確認
Lawrence Stewart (DI-ENS), Francis S Bach (DI-ENS), Felipe Llinares L\'opez, Quentin Berthet(参考訳) そこで本研究では,複数の連結成分を有する樹木の種別である最小重み付きスパンニングフォレストに基づく分化可能なクラスタリング手法を提案する。 本手法は,線形プログラムの解の確率的摂動に依存し,滑らかかつ効率的な勾配計算を行う。 これにより、エンドツーエンドのトレーニング可能なパイプラインにクラスタリングを含めることができます。 提案手法は,ノイズの多いデータセットや難解なジオメトリなど,難しい設定でもうまく機能することを示す。 また、この演算を用いて部分クラスタリングデータから効率よく学習するアドホック損失を定式化する。 教師付きおよび半教師付きタスクのための実世界の複数のデータセット上でその性能を示す。

We introduce a differentiable clustering method based on minimum-weight spanning forests, a variant of spanning trees with several connected components. Our method relies on stochastic perturbations of solutions of linear programs, for smoothing and efficient gradient computations. This allows us to include clustering in end-to-end trainable pipelines. We show that our method performs well even in difficult settings, such as datasets with high noise and challenging geometries. We also formulate an ad hoc loss to efficiently learn from partial clustering data using this operation. We demonstrate its performance on several real world datasets for supervised and semi-supervised tasks.
翻訳日:2023-05-31 22:21:23 公開日:2023-05-30
# データ制約付き言語モデルのスケーリング

Scaling Data-Constrained Language Models ( http://arxiv.org/abs/2305.16264v2 )

ライセンス: Link先を確認
Niklas Muennighoff, Alexander M. Rush, Boaz Barak, Teven Le Scao, Aleksandra Piktus, Nouamane Tazi, Sampo Pyysalo, Thomas Wolf, Colin Raffel(参考訳) 言語モデルをスケールする現在のトレンドは、パラメータカウントとトレーニングデータセットサイズの両方の増加である。 この傾向を外挿すると、トレーニングデータセットのサイズは、インターネット上で利用可能なテキストデータの量によってすぐに制限される可能性がある。 この制限により,データ制約型システムにおける言語モデルのスケーリングについて検討する。 具体的には、データの繰り返しと計算予算の範囲を多岐にわたる実験を行い、最大9億のトレーニングトークンと90億のパラメータモデルを設定しました。 固定された計算予算に対する制約付きデータでは、反復するデータの最大4エポックのトレーニングは、ユニークなデータに比べて損失に対する無視可能な変化をもたらす。 しかし、さらに繰り返すと計算量を追加する値は最終的にゼロになる。 反復トークンと余剰パラメータの値減少を考慮した最適性計算のためのスケーリング則を提案し,実証的に検証する。 最後に、トレーニングデータセットをコードデータで強化したり、よく使われるフィルタを削除したりするなど、データの不足を軽減するアプローチを実験する。 400のトレーニング実行のモデルとデータセットは、https://github.com/huggingface/datablations.comで無償公開されている。

The current trend of scaling language models involves increasing both parameter count and training dataset size. Extrapolating this trend suggests that training dataset size may soon be limited by the amount of text data available on the internet. Motivated by this limit, we investigate scaling language models in data-constrained regimes. Specifically, we run a large set of experiments varying the extent of data repetition and compute budget, ranging up to 900 billion training tokens and 9 billion parameter models. We find that with constrained data for a fixed compute budget, training with up to 4 epochs of repeated data yields negligible changes to loss compared to having unique data. However, with more repetition, the value of adding compute eventually decays to zero. We propose and empirically validate a scaling law for compute optimality that accounts for the decreasing value of repeated tokens and excess parameters. Finally, we experiment with approaches mitigating data scarcity, including augmenting the training dataset with code data or removing commonly used filters. Models and datasets from our 400 training runs are freely available at https://github.com/huggingface/datablations.
翻訳日:2023-05-31 22:21:13 公開日:2023-05-30
# Likelihoodに基づく拡散言語モデル

Likelihood-Based Diffusion Language Models ( http://arxiv.org/abs/2305.18619v1 )

ライセンス: Link先を確認
Ishaan Gulrajani, Tatsunori B. Hashimoto(参考訳) 拡散に基づく言語モデルへの関心が高まりつつあるにもかかわらず、既存の研究は、これらのモデルが標準言語モデリングベンチマークで非自明な可能性が得られることを示していない。 本研究では, 自己回帰モデルと拡散型言語モデルとのギャップを埋める第一歩として, 小さいが広く知られている自己回帰モデルより優れた拡散モデルを構築し, リリースすることを目的とする。 我々はアルゴリズムの改善、法則のスケーリング、計算量の増加を通じてこの目標を追求する。 アルゴリズム面では,拡散言語モデルの最大様相学習のための方法論的改善がいくつか導入されている。 次に,拡散モデルに対するスケーリング則を研究し,自己回帰モデルとは大きく異なる計算最適学習レジームを求める。 提案手法とスケーリング分析を用いて,GPT-2 124Mをベンチマークデータセットで上回り,無条件およびゼロショット制御設定で流速サンプルを生成する大規模拡散言語モデルであるPlaid 1Bを学習・リリースする。

Despite a growing interest in diffusion-based language models, existing work has not shown that these models can attain nontrivial likelihoods on standard language modeling benchmarks. In this work, we take the first steps towards closing the likelihood gap between autoregressive and diffusion-based language models, with the goal of building and releasing a diffusion model which outperforms a small but widely-known autoregressive model. We pursue this goal through algorithmic improvements, scaling laws, and increased compute. On the algorithmic front, we introduce several methodological improvements for the maximum-likelihood training of diffusion language models. We then study scaling laws for our diffusion models and find compute-optimal training regimes which differ substantially from autoregressive models. Using our methods and scaling analysis, we train and release Plaid 1B, a large diffusion language model which outperforms GPT-2 124M in likelihood on benchmark datasets and generates fluent samples in unconditional and zero-shot control settings.
翻訳日:2023-05-31 19:17:28 公開日:2023-05-30
# chatbots put to the test in math and logic problems: a preliminary comparison and assessment of chatgpt-3.5, chatgpt-4, google bard

Chatbots put to the test in math and logic problems: A preliminary comparison and assessment of ChatGPT-3.5, ChatGPT-4, and Google Bard ( http://arxiv.org/abs/2305.18618v1 )

ライセンス: Link先を確認
Vagelis Plevris, George Papazafeiropoulos, Alejandro Jim\'enez Rios(参考訳) ChatGPT-3.5, ChatGPT-4, Google Bardという,大規模な言語モデルに基づく3つのチャットボットの比較を行った。 特に,問題の理解能力を確認し,その解法に適切なアルゴリズムや手法を適用し,コヒーレントな応答と正しい回答を生成する。 曖昧さがなく、平易なテキストだけで完全に記述され、ユニークで明確に定義された正解を持つ30の質問を使用します。 質問は、それぞれ15の2つのセットに分けられる。 Set Aの質問は、オンラインでは見つからない15の"Original"問題であり、Set Bには、通常ソリューションを使って、オンラインで見つけることができる15の"Published"問題が含まれている。 各質問はチャットボットに3回提示される。 回答は記録され、議論され、強みと弱みが強調される。 単純な算術、代数的表現、あるいは基本的な論理パズルの場合、チャットボットは全ての試みにおいて正しく解くことができる。 しかし、より複雑な数学的問題や高度な論理問題では、解答は通常「収束」な方法で書かれるが、信頼性は低い。 一貫性も問題であり、同じ質問が複数回あると、チャットボットが矛盾する回答を何度も提示する。 3つのチャットボットの比較定量的評価は、正しさに基づいて最終回答をスコアリングすることで行われる。 その結果,ChatGPT-4はChatGPT-3.5より優れていた。 Bardは、他の2つのチャットボットの背後にある、Set Aのオリジナルの質問で3番目に多いが、Set Bの質問では最高のパフォーマンス(第1位)を持っている。これはおそらく、Bardが外部とのコミュニケーションを持たないChatGPTチャットボットとは対照的に、インターネットに直接アクセスしているからだ。

A comparison between three chatbots which are based on large language models, namely ChatGPT-3.5, ChatGPT-4 and Google Bard is presented, focusing on their ability to give correct answers to mathematics and logic problems. In particular, we check their ability to Understand the problem at hand; Apply appropriate algorithms or methods for its solution; and Generate a coherent response and a correct answer. We use 30 questions that are clear, without any ambiguities, fully described with plain text only, and have a unique, well defined correct answer. The questions are divided into two sets of 15 each. The questions of Set A are 15 "Original" problems that cannot be found online, while Set B contains 15 "Published" problems that one can find online, usually with their solution. Each question is posed three times to each chatbot. The answers are recorded and discussed, highlighting their strengths and weaknesses. It has been found that for straightforward arithmetic, algebraic expressions, or basic logic puzzles, chatbots may provide accurate solutions, although not in every attempt. However, for more complex mathematical problems or advanced logic tasks, their answers, although written in a usually "convincing" way, may not be reliable. Consistency is also an issue, as many times a chatbot will provide conflicting answers when given the same question more than once. A comparative quantitative evaluation of the three chatbots is made through scoring their final answers based on correctness. It was found that ChatGPT-4 outperforms ChatGPT-3.5 in both sets of questions. Bard comes third in the original questions of Set A, behind the other two chatbots, while it has the best performance (first place) in the published questions of Set B. This is probably because Bard has direct access to the internet, in contrast to ChatGPT chatbots which do not have any communication with the outside world.
翻訳日:2023-05-31 19:17:12 公開日:2023-05-30
# レーザー超音波可視化テストのためのシミュレーション支援深層学習

Simulation-Aided Deep Learning for Laser Ultrasonic Visualization Testing ( http://arxiv.org/abs/2305.18614v1 )

ライセンス: Link先を確認
Miya Nakajima, Takahiro Saitoh, Tsuyoshi Kato(参考訳) 近年,非接触超音波非破壊検査を効率的に実施できるため,レーザー超音波可視化テスト (luvt) が注目されているが,広範にわたるディープラーニング画像解析の成功報告は少なく,luvt画像の欠陥検出にディープラーニングを適用しようとすると,スケールしすぎるluvt画像の大規模データセットの作成が困難となる。 このようなトレーニングデータの不足を補うために,シミュレーションにより人工LUVT画像を生成し,シミュレーションしたLUVT画像にスタイル転送を適用したデータ拡張手法を提案する。

In recent years, laser ultrasonic visualization testing (LUVT) has attracted much attention because of its ability to efficiently perform non-contact ultrasonic non-destructive testing.Despite many success reports of deep learning based image analysis for widespread areas, attempts to apply deep learning to defect detection in LUVT images face the difficulty of preparing a large dataset of LUVT images that is too expensive to scale. To compensate for the scarcity of such training data, we propose a data augmentation method that generates artificial LUVT images by simulation and applies a style transfer to simulated LUVT images.The experimental results showed that the effectiveness of data augmentation based on the style-transformed simulated images improved the prediction performance of defects, rather than directly using the raw simulated images for data augmentation.
翻訳日:2023-05-31 19:16:39 公開日:2023-05-30
# history repeats: イベント中心の時間知識グラフ完成のための破滅的な忘れを克服する

History Repeats: Overcoming Catastrophic Forgetting For Event-Centric Temporal Knowledge Graph Completion ( http://arxiv.org/abs/2305.18675v1 )

ライセンス: Link先を確認
Mehrnoosh Mirtaheri, Mohammad Rostami, Aram Galstyan(参考訳) 時間知識グラフ(TKG)補完モデルは通常、トレーニング中にグラフ全体にアクセスすることに依存する。 しかしながら、現実のシナリオでは、tkgデータはイベントが展開するにつれて徐々に受信され、時間の経過とともに動的に非定常なデータ分布が発生する。 既存の方法に微調整を組み込むことで、進化するtkgデータに適応できるが、これは以前に学習したパターンを忘れることになる。 あるいは、モデル全体を更新したTKGで再トレーニングすることで、忘れを軽減できるが、計算的に負担がかかる。 これらの課題に対処するため、我々はTKG完了法に適用可能な一般的な連続的なトレーニングフレームワークを提案し、以下の2つの主要なアイデアを利用する。 一 新たな知識を学ぶための重要でないモデルパラメータの再利用を奨励する時間的正規化 (2)過去のデータの一部だけを選択的に保存することにより過去の知識を補強するクラスタリングベースの体験再生。 広く使われているイベント中心tkgデータセットにおける実験結果から,新しいイベントへの適応における継続学習フレームワークの有効性を実証した。 さらに,提案フレームワークの各コンポーネントの有効性を示すためのアブレーション研究を行った。 最後に,経験リプレイ専用メモリとクラスタリングに基づくサンプリング戦略の利点との関係について検討した。

Temporal knowledge graph (TKG) completion models typically rely on having access to the entire graph during training. However, in real-world scenarios, TKG data is often received incrementally as events unfold, leading to a dynamic non-stationary data distribution over time. While one could incorporate fine-tuning to existing methods to allow them to adapt to evolving TKG data, this can lead to forgetting previously learned patterns. Alternatively, retraining the model with the entire updated TKG can mitigate forgetting but is computationally burdensome. To address these challenges, we propose a general continual training framework that is applicable to any TKG completion method, and leverages two key ideas: (i) a temporal regularization that encourages repurposing of less important model parameters for learning new knowledge, and (ii) a clustering-based experience replay that reinforces the past knowledge by selectively preserving only a small portion of the past data. Our experimental results on widely used event-centric TKG datasets demonstrate the effectiveness of our proposed continual training framework in adapting to new events while reducing catastrophic forgetting. Further, we perform ablation studies to show the effectiveness of each component of our proposed framework. Finally, we investigate the relation between the memory dedicated to experience replay and the benefit gained from our clustering-based sampling strategy.
翻訳日:2023-05-31 18:58:47 公開日:2023-05-30
# 摂動支援サンプル合成:不確実性定量の新しいアプローチ

Perturbation-Assisted Sample Synthesis: A Novel Approach for Uncertainty Quantification ( http://arxiv.org/abs/2305.18671v1 )

ライセンス: Link先を確認
Yifei Liu, Rex Shen, and Xiaotong Shen(参考訳) 本稿では,特にディープニューラルネットワークなどの高度なモデリング技術を用いて,複雑なデータから信頼できる結論を導き出すために設計された,摂動支援サンプル合成(pass)と呼ばれる新しい生成器を提案する。 passは摂動を利用して生データの分布を密接に反映し、遺伝子発現、画像、テキストなどの数値的、非構造化データ型を包含する合成データを生成する。 データ生成分布を推定し、大きな事前学習された生成モデルを活用することにより、PASSは推定精度を高め、モンテカルロの実験を通して統計分布を推定する。 PASSをベースとしたPAI(Perturbation-Assisted Inference, 摂動支援推論)と呼ばれる生成推論フレームワークを提案する。 ピボット推論では、PAIは、限られたデータであってもシミュレーションのようにピボットの分布を知ることなく正確な結論を可能にする。 非ピボタルな状況では、独立したホールドアウトサンプルを用いてPASSを訓練し、信頼できる結論をもたらす。 PAIの複雑な問題に対処する能力を示すために、画像合成推論、感情語推論、安定拡散によるマルチモーダル推論という3つの領域での応用を強調した。

This paper introduces a novel generator called Perturbation-Assisted Sample Synthesis (PASS), designed for drawing reliable conclusions from complex data, especially when using advanced modeling techniques like deep neural networks. PASS utilizes perturbation to generate synthetic data that closely mirrors the distribution of raw data, encompassing numerical and unstructured data types such as gene expression, images, and text. By estimating the data-generating distribution and leveraging large pre-trained generative models, PASS enhances estimation accuracy, providing an estimated distribution of any statistic through Monte Carlo experiments. Building on PASS, we propose a generative inference framework called Perturbation-Assisted Inference (PAI), which offers a statistical guarantee of validity. In pivotal inference, PAI enables accurate conclusions without knowing a pivotal's distribution as in simulations, even with limited data. In non-pivotal situations, we train PASS using an independent holdout sample, resulting in credible conclusions. To showcase PAI's capability in tackling complex problems, we highlight its applications in three domains: image synthesis inference, sentiment word inference, and multimodal inference via stable diffusion.
翻訳日:2023-05-31 18:58:26 公開日:2023-05-30
# SAVE:テキスト誘導ビデオ編集のための画像拡散モデルのスペクトルシフト対応

SAVE: Spectral-Shift-Aware Adaptation of Image Diffusion Models for Text-guided Video Editing ( http://arxiv.org/abs/2305.18670v1 )

ライセンス: Link先を確認
Nazmul Karim, Umar Khalid, Mohsen Joneidi, Chen Chen, Nazanin Rahnavard(参考訳) テキスト・ツー・イメージ(t2i)拡散モデルは,テキストプロンプトに基づく高品質画像の合成において顕著な成功を収めている。 最近の手法では、非常に多くのテキストビデオペア上でT2Vモデルをトレーニングするか、あるいはテキストビデオペア上でT2Iモデルを独立して適用することで、成功を再現しようと試みている。 後者は計算コストは低いが、ビデオごとの適応には依然としてかなりの時間がかかる。 この問題に対処するために,パラメータ自体ではなくパラメータ空間のスペクトルシフトを微調整する,新しいスペクトルシフト・アウェア適応フレームワークであるsaveを提案する。 具体的には、予め訓練されたT2I重みのスペクトル分解を行い、対応する特異値の変化、すなわちスペクトルシフトを制御し、対応する特異ベクトルを凍結する。 元のT2I重みからの急激なドリフトを避けるために、スペクトルシフトを大きな特異値に制限し、小さな特異値に緩和するスペクトルシフト正規化器を導入する。 スペクトルシフトのみを扱うため,提案手法は適応時間を大幅に短縮する(約10倍)とともに,トレーニングのリソース制約も少ない。 このような属性は、ビデオストリーミング中に望ましくないコンテンツを編集するなど、現実のアプリケーションに適している。 我々は,SAVEの有効性を,スタイル転送,オブジェクト置換,プライバシ保護など,異なる環境下での広範囲な実験的評価により検証する。

Text-to-Image (T2I) diffusion models have achieved remarkable success in synthesizing high-quality images conditioned on text prompts. Recent methods have tried to replicate the success by either training text-to-video (T2V) models on a very large number of text-video pairs or adapting T2I models on text-video pairs independently. Although the latter is computationally less expensive, it still takes a significant amount of time for per-video adaption. To address this issue, we propose SAVE, a novel spectral-shift-aware adaptation framework, in which we fine-tune the spectral shift of the parameter space instead of the parameters themselves. Specifically, we take the spectral decomposition of the pre-trained T2I weights and only control the change in the corresponding singular values, i.e. spectral shift, while freezing the corresponding singular vectors. To avoid drastic drift from the original T2I weights, we introduce a spectral shift regularizer that confines the spectral shift to be more restricted for large singular values and more relaxed for small singular values. Since we are only dealing with spectral shifts, the proposed method reduces the adaptation time significantly (approx. 10 times) and has fewer resource constrains for training. Such attributes posit SAVE to be more suitable for real-world applications, e.g. editing undesirable content during video streaming. We validate the effectiveness of SAVE with an extensive experimental evaluation under different settings, e.g. style transfer, object replacement, privacy preservation, etc.
翻訳日:2023-05-31 18:58:04 公開日:2023-05-30
# 細粒度が粗い:効率的なシーングラフ生成のための新しいデータ中心アプローチ

Fine-Grained is Too Coarse: A Novel Data-Centric Approach for Efficient Scene Graph Generation ( http://arxiv.org/abs/2305.18668v1 )

ライセンス: Link先を確認
Neau Ma\"elic, Paulo Santos, Anne-Gwenn Bosser and C\'edric Buche(参考訳) シーングラフの形で生画像から視覚的関係を構成することを学ぶことは、文脈依存による非常に困難な課題であるが、シーン理解に依存するコンピュータビジョンアプリケーションには不可欠である。 しかし、現在のシーングラフ生成(sgg)のアプローチは、下流タスクに有用なグラフを提供することを目的としていない。 その代わり、主な焦点は、よりきめ細かい関係を予測するためにデータ分布の偏りを解消することである。 とはいえ、すべてのきめ細かい関係は等しく関係がなく、少なくとも一部は現実世界のアプリケーションには役に立たない。 本稿では,画像生成などの下流タスクにおけるシーングラフの利用を容易にし,関連性の生成を優先する効率的なSGGタスクを提案する。 この課題のさらなるアプローチをサポートするために,人気のあるビジュアルゲノムデータセットのアノテーションに基づいた新しいデータセットvg150-curatedを提案する。 我々は、このデータセットがSGGのアプローチで通常採用されるものよりも高品質で多様なアノテーションを含んでいることを示す一連の実験を通して示す。 最後に,シーングラフからの画像生成タスクにおいて,このデータセットの効率性を示す。 我々のアプローチは、他のシーングラフ生成データセットの品質を改善するために簡単に複製できます。

Learning to compose visual relationships from raw images in the form of scene graphs is a highly challenging task due to contextual dependencies, but it is essential in computer vision applications that depend on scene understanding. However, no current approaches in Scene Graph Generation (SGG) aim at providing useful graphs for downstream tasks. Instead, the main focus has primarily been on the task of unbiasing the data distribution for predicting more fine-grained relations. That being said, all fine-grained relations are not equally relevant and at least a part of them are of no use for real-world applications. In this work, we introduce the task of Efficient SGG that prioritizes the generation of relevant relations, facilitating the use of Scene Graphs in downstream tasks such as Image Generation. To support further approaches in this task, we present a new dataset, VG150-curated, based on the annotations of the popular Visual Genome dataset. We show through a set of experiments that this dataset contains more high-quality and diverse annotations than the one usually adopted by approaches in SGG. Finally, we show the efficiency of this dataset in the task of Image Generation from Scene Graphs. Our approach can be easily replicated to improve the quality of other Scene Graph Generation datasets.
翻訳日:2023-05-31 18:57:39 公開日:2023-05-30
# BiSLS/SPS:安定バイレベル最適化のための自動チューニングステップサイズ

BiSLS/SPS: Auto-tune Step Sizes for Stable Bi-level Optimization ( http://arxiv.org/abs/2305.18666v1 )

ライセンス: Link先を確認
Chen Fan, Gaspard Chon\'e-Ducasse, Mark Schmidt, Christos Thrampoulidis(参考訳) ディープラーニングにおける双方向最適化(BO)の人気は、勾配に基づくBOアルゴリズムの研究への関心が高まっている。 しかし、既存のアルゴリズムは、ハイパーグラディエントを計算する際に近似誤差の影響を受け得る2つの結合学習率を含み、高速収束を保証するために注意深い微調整を行う。 この問題を軽減するために,最近提案された適応的なステップサイズ手法,すなわち確率線探索 (SLS) と確率ポリークステップサイズ (SPS) を用いて,上層と下層の両方の学習率の計算を行った。 まず,従来の作業で想定される補間条件を伴わずに,一段最適化におけるSLSとSPSの使用を再検討する。 このような状況下では,文献上の既存の提案を改良し,実装が容易なslsおよびspsの新しい変種について検討する。 重要なことに、これら2つの変種は包絡型ステップサイズを持つ一般的なメソッドファミリーの特別な例と見なすことができる。 この統一エンベロープ戦略はアルゴリズムの拡張とbo設定への収束保証を可能にする。 最後に、SGDとAdamの両バージョンで利用可能な新しいアルゴリズムは、最小のチューニングで大きな学習率を示し、細調整を必要とする対応するバニラSGDやAdam BOアルゴリズムよりも高速に収束することを示した。

The popularity of bi-level optimization (BO) in deep learning has spurred a growing interest in studying gradient-based BO algorithms. However, existing algorithms involve two coupled learning rates that can be affected by approximation errors when computing hypergradients, making careful fine-tuning necessary to ensure fast convergence. To alleviate this issue, we investigate the use of recently proposed adaptive step-size methods, namely stochastic line search (SLS) and stochastic Polyak step size (SPS), for computing both the upper and lower-level learning rates. First, we revisit the use of SLS and SPS in single-level optimization without the additional interpolation condition that is typically assumed in prior works. For such settings, we investigate new variants of SLS and SPS that improve upon existing suggestions in the literature and are simpler to implement. Importantly, these two variants can be seen as special instances of general family of methods with an envelope-type step-size. This unified envelope strategy allows for the extension of the algorithms and their convergence guarantees to BO settings. Finally, our extensive experiments demonstrate that the new algorithms, which are available in both SGD and Adam versions, can find large learning rates with minimal tuning and converge faster than corresponding vanilla SGD or Adam BO algorithms that require fine-tuning.
翻訳日:2023-05-31 18:57:19 公開日:2023-05-30
# E-PANNs:高能率事前学習型ニューラルネットを用いた音声認識

E-PANNs: Sound Recognition Using Efficient Pre-trained Audio Neural Networks ( http://arxiv.org/abs/2305.18665v1 )

ライセンス: Link先を確認
Arshdeep Singh, Haohe Liu, Mark D. Plumbley(参考訳) 音は、交通騒音、道路工事、音楽、話している人々など、日々の環境における活動や出来事に関する情報を大量に持っています。 畳み込みニューラルネットワーク(CNN)のような最近の機械学習手法では、音声タグ付けと呼ばれるタスクである音のアクティビティを自動的に認識できることが示されている。 そのような方法の1つ、PANN(Pre-trained Audio Neural Network)は、公開可能なAudioSetデータセットから500以上のサウンドクラスで事前トレーニングされたニューラルネットワークを提供し、他のタスクのベースラインまたは出発点として使用することができる。 しかし、既存のPANNsモデルは計算複雑性が高く、大きなストレージを必要とする。 これは、オンザエッジサウンドセンサーのようなリソース制約されたデバイスにパンを配置する可能性を制限し、そのようなデバイスが多数配置された場合、高いエネルギー消費につながる可能性がある。 本稿では,PANNsモデルから冗長パラメータを除去するために,Pruningアプローチを採用することにより,PANNsモデルの計算複雑性とメモリ要求を低減する。 結果として得られた効率の良いPANN(E-PANNs)モデルは、36 %の計算と70 %のメモリを必要とするが、音声認識(オーディオタグ付け)の性能もわずかに改善する。 E-PANNsモデルのコードはオープンソースライセンスでリリースされた。

Sounds carry an abundance of information about activities and events in our everyday environment, such as traffic noise, road works, music, or people talking. Recent machine learning methods, such as convolutional neural networks (CNNs), have been shown to be able to automatically recognize sound activities, a task known as audio tagging. One such method, pre-trained audio neural networks (PANNs), provides a neural network which has been pre-trained on over 500 sound classes from the publicly available AudioSet dataset, and can be used as a baseline or starting point for other tasks. However, the existing PANNs model has a high computational complexity and large storage requirement. This could limit the potential for deploying PANNs on resource-constrained devices, such as on-the-edge sound sensors, and could lead to high energy consumption if many such devices were deployed. In this paper, we reduce the computational complexity and memory requirement of the PANNs model by taking a pruning approach to eliminate redundant parameters from the PANNs model. The resulting Efficient PANNs (E-PANNs) model, which requires 36\% less computations and 70\% less memory, also slightly improves the sound recognition (audio tagging) performance. The code for the E-PANNs model has been released under an open source license.
翻訳日:2023-05-31 18:56:56 公開日:2023-05-30
# ド・ジッター宇宙におけるエンタングルメントパートナーとモノガミー

Entanglement partners and monogamy in de Sitter universes ( http://arxiv.org/abs/2305.18662v1 )

ライセンス: Link先を確認
Yasusada Nambu and Koji Yamaguchi(参考訳) ド・ジッター宇宙における量子場によって定義される局所空間モードの絡み合いについて検討する。 導入モードは、局所モードが割り当てられた2つの領域間の分離が宇宙の地平線よりも大きくなるときに、非絡み合いを示す。 これらの局所モード間の分離性の出現を理解するために、S. Camalet が提唱したモノガミー不等式を適用する。 量子場によって定義される焦点2成分モードを純粋4モードガウス状態に埋め込み、そのパートナーモードを同定する。 次に,単元関係のガウス版を適用することで,二元モードとそのパートナーモードとの外部絡み合いが二元モードの絡み合いを制約することを示す。 したがって、ド・ジッター宇宙における局所モードの分離性の出現は、絡み合いモノガミーの観点から理解することができる。

We investigate entanglement of local spatial modes defined by a quantum field in a de Sitter universe. The introduced modes show dis-entanglement behavior when the separation between two regions where local modes are assigned becomes larger than the cosmological horizon. To understand the emergence of separability between these local modes, we apply the monogamy inequality proposed by S. Camalet. We embed the focusing bipartite mode defined by the quantum field in a pure four-mode Gaussian state, and identify its partner modes. Then applying a Gaussian version of the monogamy relation, we show that the external entanglement between the bipartite mode and its partner modes constrains the entanglement of the bipartite mode. Thus the emergence of separability of local modes in the de Sitter universe can be understood from the perspective of entanglement monogamy.
翻訳日:2023-05-31 18:56:34 公開日:2023-05-30
# 無限次元入力列列列関数用変圧器の近似と推定能力

Approximation and Estimation Ability of Transformers for Sequence-to-Sequence Functions with Infinite Dimensional Input ( http://arxiv.org/abs/2305.18699v1 )

ライセンス: Link先を確認
Shokichi Takakura, Taiji Suzuki(参考訳) 自然言語処理やコンピュータビジョンといった様々な応用におけるトランスフォーマーネットワークの成功にもかかわらず、その理論的側面はよく分かっていない。 本稿では,無限次元入力を持つシーケンス列関数として変圧器の近似と推定能力について検討する。 入力と出力はどちらも無限次元であるが、対象関数が異方性滑らか性を持つ場合、トランスフォーマは特徴抽出能力とパラメータ共有性のため次元の呪いを避けることができる。 さらに,入力毎に滑らかさが変化しても,変換器は入力毎に特徴の重要性を推定し,重要な特徴を動的に抽出できることを示す。 その結果, 変圧器は固定平滑度の場合と同様の収束率が得られることがわかった。 本理論は,高次元データに対するトランスフォーマーの実用的成功を支援する。

Despite the great success of Transformer networks in various applications such as natural language processing and computer vision, their theoretical aspects are not well understood. In this paper, we study the approximation and estimation ability of Transformers as sequence-to-sequence functions with infinite dimensional inputs. Although inputs and outputs are both infinite dimensional, we show that when the target function has anisotropic smoothness, Transformers can avoid the curse of dimensionality due to their feature extraction ability and parameter sharing property. In addition, we show that even if the smoothness changes depending on each input, Transformers can estimate the importance of features for each input and extract important features dynamically. Then, we proved that Transformers achieve similar convergence rate as in the case of the fixed smoothness. Our theoretical results support the practical success of Transformers for high dimensional data.
翻訳日:2023-05-31 18:49:39 公開日:2023-05-30
# テレコムCバンドにおける光ファイバー通信によるエネルギー時間絡み合い

Energy-time Entanglement Coexisting with Fiber Optical Communication at Telecom C-band ( http://arxiv.org/abs/2305.18696v1 )

ライセンス: Link先を確認
Yun-Ru Fan, Yue Luo, Zi-Chang Zhang, Yun-Bo Li, Sheng Liu, Dong Wang, Dechao Zhang, Guang-Wei Deng, You Wang, Hai-Zhi Song, Zhen Wang, Li-Xing You, Chen-Zhi Yuan, Guang-Can Guo, and Qiang Zhou(参考訳) 同じファイバーリンクにおける量子光と古典光の共存は、量子通信を開発する上で非常に望ましい。 通信用oバンドの偏光子と共存する古典光や量子信号ベースの量子鍵分布(qkd)など、様々な量子情報タスクのために実装されている。 本研究では,通信cバンドにおけるエネルギー時間絡み合いに基づくqkdとファイバ光通信の共存を実証する。 古典チャネルからのノイズの特性は、異なる波長の古典光によって特徴づけられる。 最悪の場合、最大のノイズ、すなわち、エネルギー時間の絡み合いの特性は、異なる光ファイバー通信速度で測定される。 エネルギー時間エンタングルメントの2光子干渉を測定することで、40kmを超える双方向の20gbps光通信で82.01$\pm$1.10\%の可視性が得られることを示した。 さらに、QKDのためのBBM92プロトコルを実行することにより、共存エネルギー時間絡みの量子ビット誤り率8.88\%で、毎秒245ビットの秘密鍵レートを生成することができる。 私たちのデモは、ファイバー光通信と互換性のある量子ネットワークの基盤を開発する方法を示しています。

The coexistence of quantum and classical light in the same fiber link is extremely desired in developing quantum communication. It has been implemented for different quantum information tasks, such as classical light coexisting with polarization-entangled photons at telecom O-band, and with quantum signal based quantum key distribution (QKD). In this work, we demonstrate the coexistence of energy-time entanglement based QKD and fiber optical communication at the telecom C-band. The property of noise from the classical channel is characterized with classical light at different wavelengths. With the largest noise, i.e., the worst case, the properties of energy-time entanglement are measured at different fiber optical communication rates. By measuring the two-photon interference of energy-time entanglement, our results show that a visibility of 82.01$\pm$1.10\% is achieved with a bidirectional 20 Gbps fiber optical communication over 40 km. Furthermore, by performing the BBM92 protocol for QKD, a secret key rate of 245 bits per second could be generated with a quantum bit error rate of 8.88\% with the coexisted energy-time entanglement.~Our demonstration paves the way for developing the infrastructure for quantum networks compatible with fiber optical communication.
翻訳日:2023-05-31 18:49:25 公開日:2023-05-30
# NUNO:不均一データを用いたパラメトリックPDE学習のための汎用フレームワーク

NUNO: A General Framework for Learning Parametric PDEs with Non-Uniform Data ( http://arxiv.org/abs/2305.18694v1 )

ライセンス: Link先を確認
Songming Liu, Zhongkai Hao, Chengyang Ying, Hang Su, Ze Cheng, Jun Zhu(参考訳) ニューラル演算子は、PDEにおける関数空間間のマッピングを学習するための強力なツールとして登場した。 しかし,非均一に分散されることが多い実世界の物理データに直面すると,fftのようなメッシュベースの技術を使うことは困難である。 そこで我々は,非一様データを用いた効率的な演算子学習を目的とした包括的フレームワークであるNon-Uniform Neural Operator (NUNO)を紹介する。 k-d木に基づく領域分割を利用して, 補間誤差を効果的に制御しながら, 非一様データを一様格子に変換し, 非一様データから学習する速度と精度を並列化する。 2次元弾性, (2+1)dチャネルフロー, 3次元マルチフィジカルヒートシンクに関する広範な実験を行い, 複雑なジオメトリを持つ3次元pde問題に対する新たな探索を行った。 我々のフレームワークはエラー率を最大60%削減し、トレーニング速度を2倍から30倍向上させた。 コードはhttps://github.com/thu-ml/NUNOで公開されている。

The neural operator has emerged as a powerful tool in learning mappings between function spaces in PDEs. However, when faced with real-world physical data, which are often highly non-uniformly distributed, it is challenging to use mesh-based techniques such as the FFT. To address this, we introduce the Non-Uniform Neural Operator (NUNO), a comprehensive framework designed for efficient operator learning with non-uniform data. Leveraging a K-D tree-based domain decomposition, we transform non-uniform data into uniform grids while effectively controlling interpolation error, thereby paralleling the speed and accuracy of learning from non-uniform data. We conduct extensive experiments on 2D elasticity, (2+1)D channel flow, and a 3D multi-physics heatsink, which, to our knowledge, marks a novel exploration into 3D PDE problems with complex geometries. Our framework has reduced error rates by up to 60% and enhanced training speeds by 2x to 30x. The code is now available at https://github.com/thu-ml/NUNO.
翻訳日:2023-05-31 18:49:06 公開日:2023-05-30
# Edge-MoE:Mixture-of-Expertsによるタスクレベルの分散性を備えたメモリ効率の良いマルチタスクビジョントランスフォーマアーキテクチャ

Edge-MoE: Memory-Efficient Multi-Task Vision Transformer Architecture with Task-level Sparsity via Mixture-of-Experts ( http://arxiv.org/abs/2305.18691v1 )

ライセンス: Link先を確認
Rishov Sarkar, Hanxue Liang, Zhiwen Fan, Zhangyang Wang, Cong Hao(参考訳) ビジョントランスフォーマー(ViT)とマルチタスク学習(MTL)はどちらも優れた性能を示すが、ViTにおける自己注意の二次的な複雑さと、ひとつのタスクで大規模なMTLモデルを活性化する必要があることを考えると、計算集約性が高い。 M$^3$ViT は最新のマルチタスク ViT モデルで、ME(Mix-of-Experts)を導入している。 M$3$ViTは精度の向上と80%以上の計算削減を実現しているが、FPGA上での効率的なデプロイには課題を残している。 Our work, dubbed Edge-MoE, solves the challenges to introduce the first end-to-end FPGA accelerator for multi-task ViT with a collection of architectural innovations, including (1) a novel reordering mechanism for self-attention, which requires only constant bandwidth regardless of the target parallelism; (2) a fast single-pass softmax approximation; (3) an accurate and low-cost GELU approximation; (4) a unified and flexible computing unit that is shared by almost all computational layers to maximally reduce resource usage; and (5) uniquely for M$^3$ViT, a novel patch reordering method to eliminate memory access overhead. edge-moeはgpuとcpuと比較して2.24倍と4.90倍のエネルギー効率を実現している。 High-Level Synthesisを使って書かれたコードとともに、リアルタイムのビデオデモがオンラインで公開されている。

Computer vision researchers are embracing two promising paradigms: Vision Transformers (ViTs) and Multi-task Learning (MTL), which both show great performance but are computation-intensive, given the quadratic complexity of self-attention in ViT and the need to activate an entire large MTL model for one task. M$^3$ViT is the latest multi-task ViT model that introduces mixture-of-experts (MoE), where only a small portion of subnetworks ("experts") are sparsely and dynamically activated based on the current task. M$^3$ViT achieves better accuracy and over 80% computation reduction but leaves challenges for efficient deployment on FPGA. Our work, dubbed Edge-MoE, solves the challenges to introduce the first end-to-end FPGA accelerator for multi-task ViT with a collection of architectural innovations, including (1) a novel reordering mechanism for self-attention, which requires only constant bandwidth regardless of the target parallelism; (2) a fast single-pass softmax approximation; (3) an accurate and low-cost GELU approximation; (4) a unified and flexible computing unit that is shared by almost all computational layers to maximally reduce resource usage; and (5) uniquely for M$^3$ViT, a novel patch reordering method to eliminate memory access overhead. Edge-MoE achieves 2.24x and 4.90x better energy efficiency comparing with GPU and CPU, respectively. A real-time video demonstration is available online, along with our code written using High-Level Synthesis, which will be open-sourced.
翻訳日:2023-05-31 18:48:48 公開日:2023-05-30
# 時空間交通予測のためのグラフ型多モードニューラルネットワーク

Graph-based Multi-ODE Neural Networks for Spatio-Temporal Traffic Forecasting ( http://arxiv.org/abs/2305.18687v1 )

ライセンス: Link先を確認
Zibo Liu, Parshin Shojaee, Chandan K. Reddy(参考訳) 近年,交通分野における時空間予測モデルの開発が急増している。 しかし、長距離交通予測は、交通ネットワークで観測される複雑な時空間相関のため、依然として困難な課題である。 現在の研究は主にグラフ構造を持つ道路網に依存し、グラフニューラルネットワーク(GNN)を用いて表現を学ぶが、このアプローチは深いアーキテクチャにおける過度に滑らかな問題に悩まされている。 この問題に対処するため、近年の手法ではGNNと残差接続やニューラル常微分方程式(ODE)の組み合わせが導入されている。 しかし、現在のグラフODEモデルは、機能抽出において2つの重要な制限に直面している。(1)グローバルな時間的パターンに傾き、予期せぬイベントに重要な局所的なパターンを見渡す。 本稿では,複数の結合ODE-GNNモジュールを用いて設計し,複雑な局所的および大域的動的時空間的依存関係の異なるビューをキャプチャすることで,より優れた表現を学習する,グラフベース多言語ニューラルネットワーク(GRAM-ODE)を提案する。 また,ode-gnnモジュールの中間層に共有重みや分岐制約などの技術を追加して,予測タスクに対するコミュニケーションをさらに改善します。 実世界の6つのデータセットで実施した広範囲な実験により、GRAM-ODEの性能は最先端のベースラインに比べて優れており、全体的なパフォーマンスに対する様々なコンポーネントの寄与も示している。 コードはhttps://github.com/zbliu98/GRAM-ODEで入手できる。

There is a recent surge in the development of spatio-temporal forecasting models in the transportation domain. Long-range traffic forecasting, however, remains a challenging task due to the intricate and extensive spatio-temporal correlations observed in traffic networks. Current works primarily rely on road networks with graph structures and learn representations using graph neural networks (GNNs), but this approach suffers from over-smoothing problem in deep architectures. To tackle this problem, recent methods introduced the combination of GNNs with residual connections or neural ordinary differential equations (ODE). However, current graph ODE models face two key limitations in feature extraction: (1) they lean towards global temporal patterns, overlooking local patterns that are important for unexpected events; and (2) they lack dynamic semantic edges in their architectural design. In this paper, we propose a novel architecture called Graph-based Multi-ODE Neural Networks (GRAM-ODE) which is designed with multiple connective ODE-GNN modules to learn better representations by capturing different views of complex local and global dynamic spatio-temporal dependencies. We also add some techniques like shared weights and divergence constraints into the intermediate layers of distinct ODE-GNN modules to further improve their communication towards the forecasting task. Our extensive set of experiments conducted on six real-world datasets demonstrate the superior performance of GRAM-ODE compared with state-of-the-art baselines as well as the contribution of different components to the overall performance. The code is available at https://github.com/zbliu98/GRAM-ODE
翻訳日:2023-05-31 18:48:20 公開日:2023-05-30
# ShuffleMix:隠れた状態のチャネルワイズシャッフルによる表現の改善

ShuffleMix: Improving Representations via Channel-Wise Shuffle of Interpolated Hidden States ( http://arxiv.org/abs/2305.18684v1 )

ライセンス: Link先を確認
Kangjun Liu, Ke Chen, Lihua Guo, Yaowei Wang, Kui Jia(参考訳) ミックスアップ型データ拡張アルゴリズムは、入力または特徴空間におけるラベル付きサンプルの線形補間と対象空間によって達成されるモデル一般化を改善するために、表現学習における暗黙的ネットワーク正規化のような様々なタスクで広く採用されている。 トレーニングサンプルの限られたパターンに対する過剰適合に対する代替ドロップアウト戦略の堅牢性から着想を得た本研究では、特徴空間における一種のドロップアウト操作と解釈できる、混合隠れ特徴のシャッフルという新しい概念を導入する。 具体的には、トレーニングサンプル間の特徴混合のためのランダム選択特徴チャネルの単純な線形シャッフルを好み、チャネル内特徴の線形補間を組み合わせることで、一般化されたシャッフル操作に拡張可能な意味的補間監督信号を活用する。 Manifold Mixup という機能拡張の直接競合と比べ、ShuffleMix はより柔軟でスムーズなサンプル生成の制約を課し、チャネルワイドな機能ドロップアウトの正規化効果を達成するため、より優れた一般化を実現することができる。 単一ラベルおよび複数ラベルの視覚分類タスクの公開ベンチマークデータセットにおける実験結果は,最先端のミックスアップ拡張に対する表現の一貫性向上における手法の有効性を検証できる。

Mixup style data augmentation algorithms have been widely adopted in various tasks as implicit network regularization on representation learning to improve model generalization, which can be achieved by a linear interpolation of labeled samples in input or feature space as well as target space. Inspired by good robustness of alternative dropout strategies against over-fitting on limited patterns of training samples, this paper introduces a novel concept of ShuffleMix -- Shuffle of Mixed hidden features, which can be interpreted as a kind of dropout operation in feature space. Specifically, our ShuffleMix method favors a simple linear shuffle of randomly selected feature channels for feature mixup in-between training samples to leverage semantic interpolated supervision signals, which can be extended to a generalized shuffle operation via additionally combining linear interpolations of intra-channel features. Compared to its direct competitor of feature augmentation -- the Manifold Mixup, the proposed ShuffleMix can gain superior generalization, owing to imposing more flexible and smooth constraints on generating samples and achieving regularization effects of channel-wise feature dropout. Experimental results on several public benchmarking datasets of single-label and multi-label visual classification tasks can confirm the effectiveness of our method on consistently improving representations over the state-of-the-art mixup augmentation.
翻訳日:2023-05-31 18:47:54 公開日:2023-05-30
# 平均推定器の効率的な中央値

Efficient median of means estimator ( http://arxiv.org/abs/2305.18681v1 )

ライセンス: Link先を確認
Stanislav Minsker(参考訳) このノートの目的は、基底分布の最小の仮定の下でほぼ最適な定数で準ガウス偏差境界を達成する手段推定器の一般的な中央値を変更することである。 我々は、著者による最近の研究に基づいて、望ましい保証がより弱い要件の下で達成可能であることを証明します。

The goal of this note is to present a modification of the popular median of means estimator that achieves sub-Gaussian deviation bounds with nearly optimal constants under minimal assumptions on the underlying distribution. We build on a recent work on the topic by the author, and prove that desired guarantees can be attained under weaker requirements.
翻訳日:2023-05-31 18:47:27 公開日:2023-05-30
# 補助学習対象符号化による深層表現学習の改善

Improving Deep Representation Learning via Auxiliary Learnable Target Coding ( http://arxiv.org/abs/2305.18680v1 )

ライセンス: Link先を確認
Kangjun Liu, Ke Chen, Yaowei Wang, Kui Jia(参考訳) 深層表現学習(deep representation learning)は、ディープラーニングのサブフィールドであり、深層ニューラルネットワークによるデータの有意義で有用な表現の学習に焦点を当てている。 しかし、既存の意味分類の方法は、通常、ワンホットコードやアダマール符号のような予め定義された目標コードを用いるが、これはクラス間の相関をモデル化するのに失敗するか、柔軟性が低い。 そこで本研究では, クラス間の潜在依存を組み込むだけでなく, 対象コードの幾何学的性質を表現空間に課すことができる深層表現学習の補助正規化として, 新たな学習可能な対象符号化を提案する。 具体的には、表現空間におけるクラス間のマージンの拡大と、学習可能なターゲットコードの等しく意味的相関性により、より差別的な表現を促進するために、マージンベースの三重項損失と、提案したターゲットコードの相関一貫性損失を設計する。 いくつかの一般的な視覚分類および検索ベンチマークにおける実験結果は,特に不均衡データに対する表現学習の改善に本手法の有効性を示すことができる。

Deep representation learning is a subfield of machine learning that focuses on learning meaningful and useful representations of data through deep neural networks. However, existing methods for semantic classification typically employ pre-defined target codes such as the one-hot and the Hadamard codes, which can either fail or be less flexible to model inter-class correlation. In light of this, this paper introduces a novel learnable target coding as an auxiliary regularization of deep representation learning, which can not only incorporate latent dependency across classes but also impose geometric properties of target codes into representation space. Specifically, a margin-based triplet loss and a correlation consistency loss on the proposed target codes are designed to encourage more discriminative representations owing to enlarging between-class margins in representation space and favoring equal semantic correlation of learnable target codes respectively. Experimental results on several popular visual classification and retrieval benchmarks can demonstrate the effectiveness of our method on improving representation learning, especially for imbalanced data.
翻訳日:2023-05-31 18:47:21 公開日:2023-05-30
# 大規模言語モデルのためのKEYword based Smpling (KEYS)

KEYword based Sampling (KEYS) for Large Language Models ( http://arxiv.org/abs/2305.18679v1 )

ライセンス: Link先を確認
Jyothir S V, Zuhaib Akhtar, Samuel R. Bowman(参考訳) 質問応答 (Q/A) は生成タスク (Mitra, 2017) として定式化することができ、質問とパス(可能であれば知識)を与えられた回答を生成する。 qaタスクの最近の進歩は、言語モデルの進歩に重点を置いており、サンプリング(krishna et al., 2021), (nakano et al., 2021) といった他の領域よりも少ない。 キーワードは、言語生成において人間にとって非常に重要な役割を果たす。 (Humansはキーワードを定式化し、文法を使ってこれらのキーワードと作業を結ぶ)。 研究コミュニティでは、人間が質問に対する回答をどのように生成し、この振る舞いを言語モデルに組み込むかにはほとんど焦点が当てられません。 本稿では,これら2つの領域の組み合わせ,すなわち,ヒトに近い行動と事実的正しい回答を,サンプリングでどのように生成するかを考察する。 したがって、q/aタスクに使用するべきデコーディングアルゴリズムの種類は、キーワードにも依存すべきである。 これらのキーワードは、質問、通過、インターネットの結果から得ることができる。 知識蒸留技術を用いて,バニラ復号アルゴリズム上に抽出したキーワードとサンプルを抽出し,その解を定式化して人間的な解を生成する。 本稿では,本手法がq/aタスクでよく使われる復号法よりも優れていることを示す。

Question answering (Q/A) can be formulated as a generative task (Mitra, 2017) where the task is to generate an answer given the question and the passage (knowledge, if available). Recent advances in QA task is focused a lot on language model advancements and less on other areas such as sampling(Krishna et al., 2021), (Nakano et al., 2021). Keywords play very important role for humans in language generation. (Humans formulate keywords and use grammar to connect those keywords and work). In the research community, very little focus is on how humans generate answers to a question and how this behavior can be incorporated in a language model. In this paper, we want to explore these two areas combined, i.e., how sampling can be to used generate answers which are close to human-like behavior and factually correct. Hence, the type of decoding algorithm we think should be used for Q/A tasks should also depend on the keywords. These keywords can be obtained from the question, passage or internet results. We use knowledge distillation techniques to extract keywords and sample using these extracted keywords on top of vanilla decoding algorithms when formulating the answer to generate a human-like answer. In this paper, we show that our decoding method outperforms most commonly used decoding methods for Q/A task
翻訳日:2023-05-31 18:47:01 公開日:2023-05-30
# layerdiffusion:拡散モデルを用いた階層化制御画像編集

LayerDiffusion: Layered Controlled Image Editing with Diffusion Models ( http://arxiv.org/abs/2305.18676v1 )

ライセンス: Link先を確認
Pengzhi Li, QInxuan Huang, Yikang Ding, Zhiheng Li(参考訳) テキストガイド画像編集は最近急速に発展している。 しかし、背景と背景との整合性を維持しつつ、背景の置換や特定の対象属性の変更など、単一の画像上で複数の編集操作を同時に行うことは困難である。 本稿では,意味に基づく階層化制御画像編集手法である layerdiffusion を提案する。 本手法は,特定の被写体の非厳格な編集と属性変更を可能とし,その特徴を保存し,新しい背景にシームレスに統合する。 我々は,大規模テキスト・画像モデルを活用し,階層化拡散訓練と組み合わせた階層化制御最適化戦略を用いる。 拡散過程において、テキスト記述と整合した最終画像を生成するために反復誘導戦略を用いる。 実験結果から,提案手法が与えられたテキスト記述と密に一致した高整合画像を生成する場合の有効性が示された。 編集画像は、入力画像の特徴と高い類似性を保持し、現在の先行画像編集方法の性能を上回っている。 LayerDiffusionは、コントロール可能な画像編集の新しい可能性を開く。

Text-guided image editing has recently experienced rapid development. However, simultaneously performing multiple editing actions on a single image, such as background replacement and specific subject attribute changes, while maintaining consistency between the subject and the background remains challenging. In this paper, we propose LayerDiffusion, a semantic-based layered controlled image editing method. Our method enables non-rigid editing and attribute modification of specific subjects while preserving their unique characteristics and seamlessly integrating them into new backgrounds. We leverage a large-scale text-to-image model and employ a layered controlled optimization strategy combined with layered diffusion training. During the diffusion process, an iterative guidance strategy is used to generate a final image that aligns with the textual description. Experimental results demonstrate the effectiveness of our method in generating highly coherent images that closely align with the given textual description. The edited images maintain a high similarity to the features of the input image and surpass the performance of current leading image editing methods. LayerDiffusion opens up new possibilities for controllable image editing.
翻訳日:2023-05-31 18:46:37 公開日:2023-05-30
# 学生のQ&Aフォーラム利用:不快感の兆候?

Student Usage of Q&A Forums: Signs of Discomfort? ( http://arxiv.org/abs/2305.18717v1 )

ライセンス: Link先を確認
Naaz Sibia, Angela Zavaleta Bernuy, Joseph Jay Williams, Michael Liut, Andrew Petersen(参考訳) Q&Aフォーラムは大規模クラスでスケーラブルなサポートを提供するために広く利用されている。 学生に質問するスペースを提供するだけでなく、これらのフォーラムはコミュニティを作り、エンゲージメントを促進することを目的としている。 事前の文献では、学生のq&aフォーラムへの参加方法は様々であり、ほとんどの学生は積極的に質問を投稿したり議論したりしない。 生徒は授業の快適度に応じて異なる参加行動を示すことができる。 本稿では,CS1コースにおける学生のQ&Aフォーラムの利用状況について検討する。 また、観察行動を説明するために、学生の意見分析を行い、学生の目に見える参加の欠如(潜伏、匿名、私的投稿)に焦点を当てた。 2年間にわたってcs1コースで収集されたフォーラムデータを分析し,フォーラムの利用状況に関する調査を学生に依頼した。 熱意に満ちた学生のコホートは少ないものの,ほとんどの学生はフォーラムで積極的に読書や投稿をしていないことを確認した。 我々は,学生の関与度が低い理由と,参加の障壁について議論する。 一般的な理由は、知識の欠如や学生コミュニティに目に見えることへの反感を恐れることである。

Q&A forums are widely used in large classes to provide scalable support. In addition to offering students a space to ask questions, these forums aim to create a community and promote engagement. Prior literature suggests that the way students participate in Q&A forums varies and that most students do not actively post questions or engage in discussions. Students may display different participation behaviours depending on their comfort levels in the class. This paper investigates students' use of a Q&A forum in a CS1 course. We also analyze student opinions about the forum to explain the observed behaviour, focusing on students' lack of visible participation (lurking, anonymity, private posting). We analyzed forum data collected in a CS1 course across two consecutive years and invited students to complete a survey about perspectives on their forum usage. Despite a small cohort of highly engaged students, we confirmed that most students do not actively read or post on the forum. We discuss students' reasons for the low level of engagement and barriers to participating visibly. Common reasons include fearing a lack of knowledge and repercussions from being visible to the student community.
翻訳日:2023-05-31 18:41:14 公開日:2023-05-30
# 配向・摂動・解離:RSI変化検出のための差分情報のより良い活用を目指して

Align, Perturb and Decouple: Toward Better Leverage of Difference Information for RSI Change Detection ( http://arxiv.org/abs/2305.18714v1 )

ライセンス: Link先を確認
Supeng Wang, Yuxi Li, Ming Xie, Mingmin Chi, Yabiao Wang, Chengjie Wang, Wenbing Zhu(参考訳) 変化検出は、リモートセンシング画像(RSI)解析において長期地形変化の発見において広く採用されている手法である。 セマンティックな変化の領域を強調するために、以前の取り組みは主に単一のイメージの代表的な特徴記述子を学習することに注意を払っている。 しかしながら、このような差分モデリングは、非意味的な変化に悩まされ、画像の内容や文脈からの明確なガイダンスが欠如しているため、うるさい。 本稿では,RSIにおける変化検出における特徴差の重要性を再考し,その差分情報(アライメント,摂動,デカップリング)をフル活用するための一連の操作を提案する。 まず、アライメントは特徴空間の非意味的な差を補うために文脈的類似性を利用する。 次に,semantic-wise perturbationでトレーニングされた差分モジュールを採用して,より一般化された変更推定子を学習し,機能抽出と予測を逆ブートストラップする。 最後に、分離されたデュアルデコーダ構造は、コンテンツ認識とコンテンツ非依存の両方における意味的変化を予測するように設計されている。 LEVIR-CD, WHU-CD, DSIFN-CDのベンチマークで大規模な実験を行い, 提案手法により, 同様の条件下での競争結果が得られた。 コードはhttps://github.com/wangsp1999/cd-research/tree/main/openapdで入手できる。

Change detection is a widely adopted technique in remote sense imagery (RSI) analysis in the discovery of long-term geomorphic evolution. To highlight the areas of semantic changes, previous effort mostly pays attention to learning representative feature descriptors of a single image, while the difference information is either modeled with simple difference operations or implicitly embedded via feature interactions. Nevertheless, such difference modeling can be noisy since it suffers from non-semantic changes and lacks explicit guidance from image content or context. In this paper, we revisit the importance of feature difference for change detection in RSI, and propose a series of operations to fully exploit the difference information: Alignment, Perturbation and Decoupling (APD). Firstly, alignment leverages contextual similarity to compensate for the non-semantic difference in feature space. Next, a difference module trained with semantic-wise perturbation is adopted to learn more generalized change estimators, which reversely bootstraps feature extraction and prediction. Finally, a decoupled dual-decoder structure is designed to predict semantic changes in both content-aware and content-agnostic manners. Extensive experiments are conducted on benchmarks of LEVIR-CD, WHU-CD and DSIFN-CD, demonstrating our proposed operations bring significant improvement and achieve competitive results under similar comparative conditions. Code is available at https://github.com/wangsp1999/CD-Research/tree/main/openAPD
翻訳日:2023-05-31 18:40:57 公開日:2023-05-30
# ターゲットドメインラベルのないドメイン適応モデルの評価は可能か? 領域適応の教師なし評価のための指標

Can We Evaluate Domain Adaptation Models Without Target-Domain Labels? A Metric for Unsupervised Evaluation of Domain Adaptation ( http://arxiv.org/abs/2305.18712v1 )

ライセンス: Link先を確認
Jianfei Yang, Hanjie Qian, Yuecong Xu, Lihua Xie(参考訳) 教師なしドメイン適応(Unsupervised domain adapt, UDA)は、ラベル豊富なソースドメインでトレーニングされたモデルをラベルなしのターゲットドメインに適応させる。 しかし、現実のシナリオでは、ターゲットドメインラベルがないため、UDA後のディープモデルの性能を評価することは困難である。 さらに、一般的なUDA手法は、通常、敵の訓練と自己学習に依存しており、モデル変性と負の移動を引き起こし、さらに評価問題を悪化させる可能性がある。 本稿では,これらの問題に対処する新しい指標である「textit{Transfer Score}」を提案する。 伝達スコアは、モデルパラメータによる分類器の空間的均一性や特徴空間の伝達性と識別性を評価することにより、ドメイン適応モデルの教師なし評価を可能にする。 本測定値を用いた教師なし評価に基づいて,(1) 利用可能な選択肢から最適なUDA法を選択すること,(2) モデル劣化を防止するためにUDAモデルのハイパーパラメータを最適化すること,(3) 適応モデルが最適に機能するエポックを同定すること,の3つの目標を達成する。 我々の研究は、UDA研究と実践的UDA評価のギャップを埋め、UDAモデルの性能の現実的な評価を可能にする。 我々は,様々な公共データセット上で実施した広範囲な実証研究を通じて,測定値の有効性を検証する。 その結果, UDAモデルの評価における転送スコアの有用性と, UDA手法の総合的有効性を高める可能性を示した。

Unsupervised domain adaptation (UDA) involves adapting a model trained on a label-rich source domain to an unlabeled target domain. However, in real-world scenarios, the absence of target-domain labels makes it challenging to evaluate the performance of deep models after UDA. Additionally, prevailing UDA methods typically rely on adversarial training and self-training, which could lead to model degeneration and negative transfer, further exacerbating the evaluation problem. In this paper, we propose a novel metric called the \textit{Transfer Score} to address these issues. The transfer score enables the unsupervised evaluation of domain adaptation models by assessing the spatial uniformity of the classifier via model parameters, as well as the transferability and discriminability of the feature space. Based on unsupervised evaluation using our metric, we achieve three goals: (1) selecting the most suitable UDA method from a range of available options, (2) optimizing hyperparameters of UDA models to prevent model degeneration, and (3) identifying the epoch at which the adapted model performs optimally. Our work bridges the gap between UDA research and practical UDA evaluation, enabling a realistic assessment of UDA model performance. We validate the effectiveness of our metric through extensive empirical studies conducted on various public datasets. The results demonstrate the utility of the transfer score in evaluating UDA models and its potential to enhance the overall efficacy of UDA techniques.
翻訳日:2023-05-31 18:40:17 公開日:2023-05-30
# スケルトンに基づく行動認識のための高性能推論グラフ畳み込みネットワーク

High-Performance Inference Graph Convolutional Networks for Skeleton-Based Action Recognition ( http://arxiv.org/abs/2305.18710v1 )

ライセンス: Link先を確認
Ziao Li, Junyi Wang, Guhong Nie(参考訳) 近年,グラフ畳み込みネットワーク(GCN)の出現に伴い,骨格に基づく人間の行動認識において重要な成果が得られた。 しかし、このタスクで使用される最新技術(SOTA)モデルは、関節ノード間のより複雑な高次接続を構築して骨格情報を記述することに重点を置いており、複雑な推論プロセスと高い計算コストをもたらし、結果としてモデルの実用性が低下する。 過度に複雑なモデル構造によって引き起こされる遅い推論速度に対処するため、GCNに再パラメータ化と過パラメータ化技術を導入し、HPI-GCN-RPとHPI-GCN-OPという2つの新しい高性能推論グラフ畳み込みネットワークを提案する。 HPI-GCN-RPはGCNに対する再パラメータ化技術を用いて、競合モデルの性能で高い推論速度を達成する。 hpi-gcn-opはさらにオーバーパラメータ技術を利用して、推論速度をわずかに下げて大幅なパフォーマンス向上を実現している。 2つのスケルトンに基づく行動認識データセットの実験結果は,本手法の有効性を示している。 我々のHPI-GCN-OPは、NTU-RGB+D 60データセットのクロスオブジェクト分割で93%、NTU-RGB+D 120データセットのクロスオブジェクトベンチマークで90.1%の精度で、HD-GCNよりも4.5倍高速である。

Recently, significant achievements have been made in skeleton-based human action recognition with the emergence of graph convolutional networks (GCNs). However, the state-of-the-art (SOTA) models used for this task focus on constructing more complex higher-order connections between joint nodes to describe skeleton information, which leads to complex inference processes and high computational costs, resulting in reduced model's practicality. To address the slow inference speed caused by overly complex model structures, we introduce re-parameterization and over-parameterization techniques to GCNs, and propose two novel high-performance inference graph convolutional networks, namely HPI-GCN-RP and HPI-GCN-OP. HPI-GCN-RP uses re-parameterization technique to GCNs to achieve a higher inference speed with competitive model performance. HPI-GCN-OP further utilizes over-parameterization technique to bring significant performance improvement with inference speed slightly decreased. Experimental results on the two skeleton-based action recognition datasets demonstrate the effectiveness of our approach. Our HPI-GCN-OP achieves an accuracy of 93% on the cross-subject split of the NTU-RGB+D 60 dataset, and 90.1% on the cross-subject benchmark of the NTU-RGB+D 120 dataset and is 4.5 times faster than HD-GCN at the same accuracy.
翻訳日:2023-05-31 18:39:34 公開日:2023-05-30
# 空間・強度適応画像復元のための広・深層学習

Wide & deep learning for spatial & intensity adaptive image restoration ( http://arxiv.org/abs/2305.18708v1 )

ライセンス: Link先を確認
Yadong Wang and Xiangzhi Bai(参考訳) 既存の深層学習に基づく画像復元法の多くは, 空間分布が均一で一定強度の劣化除去を目標としており, 劣化事前知識の活用が不十分である。 本稿では,深層ニューラルネットワークをブートストラップし,劣化画像からの事前知識を活用し,空間的な強度の変動を伴う複雑な画像劣化を抑制する。 具体的には,劣化した画像と劣化の事前知識を統合し,理想的かつ安定した画像復元を行う,広大かつ深層アーキテクチャを備えた,巧妙で効率的なマルチフレーム画像復元ネットワーク(dparnet)を提案する。 劣化前処理は、オフサイト知識を必要とせず、キー分解パラメータ行列の形で劣化画像から直接学習される。 dparnetのワイド&ディープアーキテクチャにより、学習パラメータは最終的な復元結果を直接変調することができ、空間的および強度的適応画像復元が促進される。 提案手法は,画像のノイズ除去と大気乱流効果の抑制という2つの代表的な画像復元応用について提案する。 109,536画像と49,744画像を含む2つの大きなデータセットを構築した。 実験の結果,我々のDparNetは復元性能とネットワーク効率においてSoTA法よりも優れていた。 さらに,広範・深層学習で学習した劣化パラメータを利用することで,モデルパラメータ数と計算複雑性の2%未満で,0.6~1.1dbで画像復元のpsnrを改善することができる。 本研究は,劣化画像が劣化過程の重要な情報を隠蔽し,空間的・強度適応的な画像復元を促進することを示唆している。

Most existing deep learning-based image restoration methods usually aim to remove degradation with uniform spatial distribution and constant intensity, making insufficient use of degradation prior knowledge. Here we bootstrap the deep neural networks to suppress complex image degradation whose intensity is spatially variable, through utilizing prior knowledge from degraded images. Specifically, we propose an ingenious and efficient multi-frame image restoration network (DparNet) with wide & deep architecture, which integrates degraded images and prior knowledge of degradation to reconstruct images with ideal clarity and stability. The degradation prior is directly learned from degraded images in form of key degradation parameter matrix, with no requirement of any off-site knowledge. The wide & deep architecture in DparNet enables the learned parameters to directly modulate the final restoring results, boosting spatial & intensity adaptive image restoration. We demonstrate the proposed method on two representative image restoration applications: image denoising and suppression of atmospheric turbulence effects in images. Two large datasets, containing 109,536 and 49,744 images respectively, were constructed to support our experiments. The experimental results show that our DparNet significantly outperform SoTA methods in restoration performance and network efficiency. More importantly, by utilizing the learned degradation parameters via wide & deep learning, we can improve the PSNR of image restoration by 0.6~1.1 dB with less than 2% increasing in model parameter numbers and computational complexity. Our work suggests that degraded images may hide key information of the degradation process, which can be utilized to boost spatial & intensity adaptive image restoration.
翻訳日:2023-05-31 18:38:59 公開日:2023-05-30
# HQDec:高品質デコーダに基づく自己監督単分子深さ推定

HQDec: Self-Supervised Monocular Depth Estimation Based on a High-Quality Decoder ( http://arxiv.org/abs/2305.18706v1 )

ライセンス: Link先を確認
Fei Wang, Jun Cheng(参考訳) デコーダはシーンの深さを回復するのに重要な役割を果たす。 しかし, 先行研究で使用したデコーダは, 多レベルロスレス細粒情報の伝播を無視し, 局所的および大域的情報を並列に捉えることはできず, 最終出力の差に対して十分な大域的統計解析を行うことができない。 さらに、低解像度特徴空間から高分解能特徴空間へのマッピングのプロセスは、複数の解を持つ1対1の問題である。 したがって、回収された深度マップの品質は低い。 そこで本研究では,アダプティブアキシマライズされた位置正規化チャネルアテンションサンプリングモジュール(AdaAxialNPCAS)によって得られた多レベルニアロスレス微粒化情報を,適応情報交換方式を利用した高解像度特徴写像に適応的に組み込むことができる高品質デコーダ(HQDec)を提案する。 hqdecでは,提案する適応改良モジュール(adarm)を利用して,画素間の局所的および大域的な依存関係を並列にモデル化し,提案する不一致注意モジュールを用いてグローバル視点から異値の分布特性をモデル化する。 本研究では,非学習法から生成された高解像度特徴マップに,画素間の局所的および大域的な依存関係を利用して,アップサンプリングされた解空間を制約して得られる高周波情報を適応的に融合する。 大規模実験により,提案した各コンポーネントはベースライン結果よりも深度推定結果の質を向上し,提案手法はKITTIおよびDDADデータセットの最先端結果を実現する。 コードとモデルは \href{https://github.com/fwucas/HQDec}{HQDec} で公開されている。

Decoders play significant roles in recovering scene depths. However, the decoders used in previous works ignore the propagation of multilevel lossless fine-grained information, cannot adaptively capture local and global information in parallel, and cannot perform sufficient global statistical analyses on the final output disparities. In addition, the process of mapping from a low-resolution feature space to a high-resolution feature space is a one-to-many problem that may have multiple solutions. Therefore, the quality of the recovered depth map is low. To this end, we propose a high-quality decoder (HQDec), with which multilevel near-lossless fine-grained information, obtained by the proposed adaptive axial-normalized position-embedded channel attention sampling module (AdaAxialNPCAS), can be adaptively incorporated into a low-resolution feature map with high-level semantics utilizing the proposed adaptive information exchange scheme. In the HQDec, we leverage the proposed adaptive refinement module (AdaRM) to model the local and global dependencies between pixels in parallel and utilize the proposed disparity attention module to model the distribution characteristics of disparity values from a global perspective. To recover fine-grained high-resolution features with maximal accuracy, we adaptively fuse the high-frequency information obtained by constraining the upsampled solution space utilizing the local and global dependencies between pixels into the high-resolution feature map generated from the nonlearning method. Extensive experiments demonstrate that each proposed component improves the quality of the depth estimation results over the baseline results, and the developed approach achieves state-of-the-art results on the KITTI and DDAD datasets. The code and models will be publicly available at \href{https://github.com/fwucas/HQDec}{HQDec}.
翻訳日:2023-05-31 18:38:29 公開日:2023-05-30
# One-Model-Fits-Allを超えて:大規模言語モデルのドメイン特化に関する調査

Beyond One-Model-Fits-All: A Survey of Domain Specialization for Large Language Models ( http://arxiv.org/abs/2305.18703v1 )

ライセンス: Link先を確認
Chen Ling, Xujiang Zhao, Jiaying Lu, Chengyuan Deng, Can Zheng, Junxiang Wang, Tanmoy Chowdhury, Yun Li, Hejie Cui, Tianjiao Zhao, Amit Panalkar, Wei Cheng, Haoyu Wang, Yanchi Liu, Zhengzhang Chen, Haifeng Chen, Chris White, Quanquan Gu, Carl Yang, and Liang Zhao(参考訳) 大規模言語モデル(LLM)は、自然言語処理(NLP)の分野を著しく進歩させ、広範囲のアプリケーションに非常に有用なタスクに依存しない基盤を提供する。 一般的なタスクソルバとしてのllmsの素晴らしい約束は、機能を‘チャットボット’の単なる'機能を超えて拡張し、医療、金融、教育といった特定のドメインのドメインエキスパートやツールのアシスタントとして、あるいは置き換えることに動機づけられた。 しかし、特定のドメインにおける高度な問題を解決するために直接LLMを適用することは、ドメインデータの異質性、ドメイン知識の高度化、ドメインの目的の独自性、制約の多様性(例えば、様々な社会的規範、文化的適合性、宗教的信念、ドメインアプリケーションにおける倫理的基準)によって引き起こされる多くのハードルを満たす。 このようなギャップを埋めるため、近年、llmsのドメイン特化に関する爆発的な研究や実践が行われてきたが、この有望なドメインをまとめ、ガイドするために、包括的かつ体系的なレビューが求められている。 本稿では,まず,llm へのアクセシビリティに基づく llm ドメイン特化手法を分類し,すべてのサブカテゴリの枠組みとそれらの関係と差異を要約する体系的分類法を提案する。 また,重要なアプリケーション領域を包括的に分類し,それらの実用的意義とオープンな課題について論じる。 さらに,本分野における現在の研究状況と今後の動向について考察する。

Large language models (LLMs) have significantly advanced the field of natural language processing (NLP), providing a highly useful, task-agnostic foundation for a wide range of applications. The great promise of LLMs as general task solvers motivated people to extend their functionality largely beyond just a ``chatbot'', and use it as an assistant or even replacement for domain experts and tools in specific domains such as healthcare, finance, and education. However, directly applying LLMs to solve sophisticated problems in specific domains meets many hurdles, caused by the heterogeneity of domain data, the sophistication of domain knowledge, the uniqueness of domain objectives, and the diversity of the constraints (e.g., various social norms, cultural conformity, religious beliefs, and ethical standards in the domain applications). To fill such a gap, explosively-increase research, and practices have been conducted in very recent years on the domain specialization of LLMs, which, however, calls for a comprehensive and systematic review to better summarizes and guide this promising domain. In this survey paper, first, we propose a systematic taxonomy that categorizes the LLM domain-specialization techniques based on the accessibility to LLMs and summarizes the framework for all the subcategories as well as their relations and differences to each other. We also present a comprehensive taxonomy of critical application domains that can benefit from specialized LLMs, discussing their practical significance and open challenges. Furthermore, we offer insights into the current research status and future trends in this area.
翻訳日:2023-05-31 18:37:52 公開日:2023-05-30
# 逆適応サンプリング:pdes近似のためのピンと最適輸送の統一化

Adversarial Adaptive Sampling: Unify PINN and Optimal Transport for the Approximation of PDEs ( http://arxiv.org/abs/2305.18702v1 )

ライセンス: Link先を確認
Kejun Tang, Jiayu Zhai, Xiaoliang Wan, Chao Yang(参考訳) 偏微分方程式(PDE)の解法は、科学計算における中心的な課題である。 近年、メッシュレスのフレキシブルな離散化と高次元問題の可能性により、PDEのニューラルネットワーク近似が注目されている。 1つの基本的な数値的な困難は、トレーニングセットのランダムなサンプルは、損失関数の離散化に統計的誤差を導入し、最終近似において支配的な誤差となり、したがってニューラルネットワークのモデリング能力を覆す。 本研究では,ニューラルネットワークモデルによって与えられる近似解と,深部生成モデルによって提供されるトレーニングセット内のランダムサンプルを同時に最適化する,minmaxの新たな定式化を提案する。 鍵となる考え方は、深層生成モデルを用いてトレーニングセット内のランダムサンプルを調整し、近似PDE解によって誘導される残差が最小化されるときに滑らかなプロファイルを維持することである。 そのようなアイデアは、残留誘起分布と一様分布の間のワッサーシュタイン距離を損失に暗黙的に埋め込むことによって達成され、残余とともに最小化される。 ほぼ均一な残差プロファイルは、損失汎関数のモンテカルロ近似誤差が特定のサンプルサイズに対して著しく低減されるような任意の正規化重み関数に対する分散が小さいことを意味する。 本研究で提案される対向適応サンプリング(英語版)(AAS)アプローチは、残差を最小化し最適なトレーニングセットを求める2つの必須成分をPDEのニューラルネットワーク近似のための1つの最小目標関数に定式化する最初の試みである。

Solving partial differential equations (PDEs) is a central task in scientific computing. Recently, neural network approximation of PDEs has received increasing attention due to its flexible meshless discretization and its potential for high-dimensional problems. One fundamental numerical difficulty is that random samples in the training set introduce statistical errors into the discretization of loss functional which may become the dominant error in the final approximation, and therefore overshadow the modeling capability of the neural network. In this work, we propose a new minmax formulation to optimize simultaneously the approximate solution, given by a neural network model, and the random samples in the training set, provided by a deep generative model. The key idea is to use a deep generative model to adjust random samples in the training set such that the residual induced by the approximate PDE solution can maintain a smooth profile when it is being minimized. Such an idea is achieved by implicitly embedding the Wasserstein distance between the residual-induced distribution and the uniform distribution into the loss, which is then minimized together with the residual. A nearly uniform residual profile means that its variance is small for any normalized weight function such that the Monte Carlo approximation error of the loss functional is reduced significantly for a certain sample size. The adversarial adaptive sampling (AAS) approach proposed in this work is the first attempt to formulate two essential components, minimizing the residual and seeking the optimal training set, into one minmax objective functional for the neural network approximation of PDEs.
翻訳日:2023-05-31 18:37:24 公開日:2023-05-30
# 効率的な継続的制御のための時間階層アーキテクチャ

Temporally Layered Architecture for Efficient Continuous Control ( http://arxiv.org/abs/2305.18701v1 )

ライセンス: Link先を確認
Devdhar Patel, Terrence Sejnowski, Hava Siegelmann(参考訳) エネルギー消費を最小限に抑えた時間適応制御のための時間階層アーキテクチャ(TLA)を提案する。 TLAは、各レイヤが異なる時間スケールに集中できるように、時間的抽象化を達成するために、高速で遅いポリシーを一緒に重ねます。 我々の設計は、環境の要求に応じて異なる時間スケールで行動を実行する人間の脳の省エネ機構に依拠している。 我々は、省エネ以外にも、TLAは永続的な探索、必要な決定の少ない、不要な削減、行動反復の増加など、多くの利点を提供していることを実証した。 提案手法を一連の連続制御タスクで評価し,複数の重要な指標で測定した場合の既存手法に対するTLAの顕著な優位性を実証した。 また、連続制御ポリシーを定性的に評価する多目的スコアを導入し、TLAに対して極めて優れたスコアを示す。 私たちのトレーニングアルゴリズムは、遅い層と速い層の間の最小限の通信を利用して、両方のポリシーを同時にトレーニングします。

We present a temporally layered architecture (TLA) for temporally adaptive control with minimal energy expenditure. The TLA layers a fast and a slow policy together to achieve temporal abstraction that allows each layer to focus on a different time scale. Our design draws on the energy-saving mechanism of the human brain, which executes actions at different timescales depending on the environment's demands. We demonstrate that beyond energy saving, TLA provides many additional advantages, including persistent exploration, fewer required decisions, reduced jerk, and increased action repetition. We evaluate our method on a suite of continuous control tasks and demonstrate the significant advantages of TLA over existing methods when measured over multiple important metrics. We also introduce a multi-objective score to qualitatively assess continuous control policies and demonstrate a significantly better score for TLA. Our training algorithm uses minimal communication between the slow and fast layers to train both policies simultaneously, making it viable for future applications in distributed control.
翻訳日:2023-05-31 18:36:54 公開日:2023-05-30
# 比例オッズへの縮小による希少事象の予測

Predicting Rare Events by Shrinking Towards Proportional Odds ( http://arxiv.org/abs/2305.18700v1 )

ライセンス: Link先を確認
Gregory Faletto and Jacob Bien(参考訳) 訓練分類器は厳密なクラス不均衡では難しいが、多くの稀な事象はより一般的な中間結果の列の頂点である。 例えば、オンラインマーケティングでは、ユーザーが最初に広告を見た後、クリックして最終的に購入することがある。 理論上およびデータ実験を通じて,より豊富なデータを利用して希少事象の確率の推定を改善できることを示す。 本稿では,順序回帰に対する比例オッズモデルの緩和であるprestoを提案する。 1つの分離超平面の重みを、隣接するカテゴリ応答のペア間で推定されたベイズ決定境界ごとに別々のインターセプトによってシフトする代わりに、これらの遷移の各々の重みを推定する。 我々は、比例オッズモデルに向けて縮小するために、隣接する重みベクトルにおける同じ特徴の重みの差にL1のペナルティを課す。 PRESTO が決定境界重みを不規則に推定することを証明している。 合成および実データ実験により,本手法は,より豊富なカテゴリからの強度の借り入れに失敗するレアカテゴリーのロジスティック回帰と,非フレキシブルすぎるオッズモデルの両方よりも,この設定におけるレア確率を推定できることを示した。

Training classifiers is difficult with severe class imbalance, but many rare events are the culmination of a sequence with much more common intermediate outcomes. For example, in online marketing a user first sees an ad, then may click on it, and finally may make a purchase; estimating the probability of purchases is difficult because of their rarity. We show both theoretically and through data experiments that the more abundant data in earlier steps may be leveraged to improve estimation of probabilities of rare events. We present PRESTO, a relaxation of the proportional odds model for ordinal regression. Instead of estimating weights for one separating hyperplane that is shifted by separate intercepts for each of the estimated Bayes decision boundaries between adjacent pairs of categorical responses, we estimate separate weights for each of these transitions. We impose an L1 penalty on the differences between weights for the same feature in adjacent weight vectors in order to shrink towards the proportional odds model. We prove that PRESTO consistently estimates the decision boundary weights under a sparsity assumption. Synthetic and real data experiments show that our method can estimate rare probabilities in this setting better than both logistic regression on the rare category, which fails to borrow strength from more abundant categories, and the proportional odds model, which is too inflexible.
翻訳日:2023-05-31 18:36:37 公開日:2023-05-30
# マルチクロックバイレベル最適化のための並列高速化を用いたブロックワイズ確率分散法

Blockwise Stochastic Variance-Reduced Methods with Parallel Speedup for Multi-Block Bilevel Optimization ( http://arxiv.org/abs/2305.18730v1 )

ライセンス: Link先を確認
Quanqi Hu, Zi-Hao Qiu, Zhishuai Guo, Lijun Zhang, Tianbao Yang(参考訳) 本稿では,m\gg 1$低レベル問題を含む非凸型マルチブロック2レベル最適化(mbbo)問題について考察する。 確率的勾配の設計と分散の制御は、ブロックやデータの階層的サンプリングと、超勾配を推定するユニークな課題のためにより複雑である。 アルゴリズムの3つの優れた特性を 達成することを目指しています (a)標準bo問題の最先端の複雑さと単一ブロックとのマッチング (b)$i$ブロックをサンプリングし、各イテレーション毎に$b$サンプルをサンプリングして並列スピードアップを達成すること。 (c)高次元ヘッセン行列推定器の逆計算を避けること。 しかし、既存の作品がこれらの性質の1つまたは2つしか達成できないことを観察することで、これらすべてを達成することは非自明である。 a,b)を達成するための課題に対処する c) ヘッセン行列 (低次元問題) やヘッセンベクトル積 (高次元問題) の追跡に先進的ブロックワイド分散還元法を用いて2つの確率的アルゴリズムを提案し、適切な条件下での$O(\frac{m\epsilon^{-3}\mathbb{I}(I<m)}{I\sqrt{I}} + \frac{m\epsilon^{-3}}{I\sqrt{B}})$の反復複雑性を証明した。 また,既存のMBBOアルゴリズムと比較して提案アルゴリズムの有効性を検証する実験を行った。

In this paper, we consider non-convex multi-block bilevel optimization (MBBO) problems, which involve $m\gg 1$ lower level problems and have important applications in machine learning. Designing a stochastic gradient and controlling its variance is more intricate due to the hierarchical sampling of blocks and data and the unique challenge of estimating hyper-gradient. We aim to achieve three nice properties for our algorithm: (a) matching the state-of-the-art complexity of standard BO problems with a single block; (b) achieving parallel speedup by sampling $I$ blocks and sampling $B$ samples for each sampled block per-iteration; (c) avoiding the computation of the inverse of a high-dimensional Hessian matrix estimator. However, it is non-trivial to achieve all of these by observing that existing works only achieve one or two of these properties. To address the involved challenges for achieving (a, b, c), we propose two stochastic algorithms by using advanced blockwise variance-reduction techniques for tracking the Hessian matrices (for low-dimensional problems) or the Hessian-vector products (for high-dimensional problems), and prove an iteration complexity of $O(\frac{m\epsilon^{-3}\mathbb{I}(I<m)}{I\sqrt{I}} + \frac{m\epsilon^{-3}}{I\sqrt{B}})$ for finding an $\epsilon$-stationary point under appropriate conditions. We also conduct experiments to verify the effectiveness of the proposed algorithms comparing with existing MBBO algorithms.
翻訳日:2023-05-31 18:31:31 公開日:2023-05-30
# 拡散反転チェーンの整列化による実世界画像の変動

Real-World Image Variation by Aligning Diffusion Inversion Chain ( http://arxiv.org/abs/2305.18729v1 )

ライセンス: Link先を確認
Yuechen Zhang, Jinbo Xing, Eric Lo, Jiaya Jia(参考訳) 近年の拡散モデルの発展により,テキストプロンプトによる高忠実度画像の生成が可能になった。 しかし、生成された画像と実世界の画像の間にドメインギャップが存在し、実世界の画像の高品質なバリエーションを生成することが困難となる。 この領域のギャップは、異なる拡散過程における潜伏者の分布ギャップに由来することが判明した。 そこで本研究では,拡散モデルを用いて1つの画像から画像変動を生成する,実世界画像変動アライメント(rival)と呼ばれる新しい推定パイプラインを提案する。 当社のパイプラインでは,画像生成プロセスをソース画像の反転チェーンに合わせることにより,画像変動の生成品質を向上させる。 具体的には, ステップワイズ潜在分布アライメントが高品質な変動生成に不可欠であることを実証する。 これを実現するために、機能相互作用のためのクロスイメージ自己注意注入と、遅延特徴を整合させるためにステップワイズ分布正規化を設計する。 これらのアライメントプロセスを拡散モデルに組み込むことで、ライバルはさらなるパラメータ最適化なしに高品質な画像変動を生成することができる。 実験の結果,提案手法は,意味的条件の類似性と知覚的品質において既存の手法よりも優れていることがわかった。 さらに、この一般化推論パイプラインは、画像条件付きテキスト・ツー・イメージ生成や例ベースの画像インパインティングなど、他の拡散ベースの生成タスクにも容易に適用できる。

Recent diffusion model advancements have enabled high-fidelity images to be generated using text prompts. However, a domain gap exists between generated images and real-world images, which poses a challenge in generating high-quality variations of real-world images. Our investigation uncovers that this domain gap originates from a latents' distribution gap in different diffusion processes. To address this issue, we propose a novel inference pipeline called Real-world Image Variation by ALignment (RIVAL) that utilizes diffusion models to generate image variations from a single image exemplar. Our pipeline enhances the generation quality of image variations by aligning the image generation process to the source image's inversion chain. Specifically, we demonstrate that step-wise latent distribution alignment is essential for generating high-quality variations. To attain this, we design a cross-image self-attention injection for feature interaction and a step-wise distribution normalization to align the latent features. Incorporating these alignment processes into a diffusion model allows RIVAL to generate high-quality image variations without further parameter optimization. Our experimental results demonstrate that our proposed approach outperforms existing methods with respect to semantic-condition similarity and perceptual quality. Furthermore, this generalized inference pipeline can be easily applied to other diffusion-based generation tasks, such as image-conditioned text-to-image generation and example-based image inpainting.
翻訳日:2023-05-31 18:30:56 公開日:2023-05-30
# プラグイン性能最適化

Plug-in Performative Optimization ( http://arxiv.org/abs/2305.18728v1 )

ライセンス: Link先を確認
Licong Lin, Tijana Zrnic(参考訳) 予測が実行された場合、どの予測器をデプロイするかの選択は将来の観測の分布に影響を与える。 演奏性の下での学習における過大な目標とは、低い‘emph{performative risk}’、すなわち、誘導分布における優れたパフォーマンスを持つ予測子を見つけることである。 バンディットやその他の微分自由法を含むパフォーマンスリスクを最適化する解の族は、パフォーマンスフィードバックのいかなる構造にも依存せず、収束率が極端に遅い。 補完的な解の族は、戦略的分類における最良の応答モデルのようなフィードバックに明示的な \emph{models} を利用する。 しかし、これらのレートはフィードバックモデルが十分に特定されていることに依存している。 この研究では、性能予測におけるおそらく \emph{misspecified} モデルの使用に関する研究を開始する。 モデルを利用するための一般的なプロトコルである \emph{plug-in performative optimization} を研究し、その過剰なリスクの境界を証明する。 私たちは、プラグインの実行最適化がモデルに依存しない戦略よりもずっと効率的であることを示します。 いずれにせよ,本研究の結果は,モデルが不特定であっても,実行条件下での学習に役立つという仮説を支持している。

When predictions are performative, the choice of which predictor to deploy influences the distribution of future observations. The overarching goal in learning under performativity is to find a predictor that has low \emph{performative risk}, that is, good performance on its induced distribution. One family of solutions for optimizing the performative risk, including bandits and other derivative-free methods, is agnostic to any structure in the performative feedback, leading to exceedingly slow convergence rates. A complementary family of solutions makes use of explicit \emph{models} for the feedback, such as best-response models in strategic classification, enabling significantly faster rates. However, these rates critically rely on the feedback model being well-specified. In this work we initiate a study of the use of possibly \emph{misspecified} models in performative prediction. We study a general protocol for making use of models, called \emph{plug-in performative optimization}, and prove bounds on its excess risk. We show that plug-in performative optimization can be far more efficient than model-agnostic strategies, as long as the misspecification is not too extreme. Altogether, our results support the hypothesis that models--even if misspecified--can indeed help with learning in performative settings.
翻訳日:2023-05-31 18:30:31 公開日:2023-05-30
# ソーシャルメディア投稿における精神障害の説明可能な対人リスク要因のための注釈付きデータセット

An Annotated Dataset for Explainable Interpersonal Risk Factors of Mental Disturbance in Social Media Posts ( http://arxiv.org/abs/2305.18727v1 )

ライセンス: Link先を確認
Muskan Garg, Amirmohammad Shahbandegan, Amrit Chadha, Vijay Mago(参考訳) ソーシャルメディア投稿における自殺リスクの特定とその重症度の増加に伴い、臨床心理学の実践とパーソナライズされたメンタルヘルスに最適な影響を与えるために、より簡潔で説明可能な研究が必要であると論じる。 ソーシャルメディアのリソースから精神疾患を推測する計算知能技術の成功は、自然言語処理を人間の文章における対人リスク因子(irf)を決定するレンズとして指摘している。 ソーシャルnlp研究コミュニティのためのデータセットの限られた可用性に動機づけられ,人間のラベル付き説明とirfの分類がソーシャルメディアの精神障害に影響を及ぼす新しい注釈付きデータセットを構築し,公開する。 (i)thwarted belongingness(tbe)、及び (二)バーデンサムネス(PBu)の知覚 我々は,TBeとPBuのパターンをユーザの歴史的ソーシャルメディアプロファイルの感情スペクトルで検出することにより,将来的な研究方向のベースラインモデルを構築し,リアルタイムなパーソナライズされたAIモデルを開発する。

With a surge in identifying suicidal risk and its severity in social media posts, we argue that a more consequential and explainable research is required for optimal impact on clinical psychology practice and personalized mental healthcare. The success of computational intelligence techniques for inferring mental illness from social media resources, points to natural language processing as a lens for determining Interpersonal Risk Factors (IRF) in human writings. Motivated with limited availability of datasets for social NLP research community, we construct and release a new annotated dataset with human-labelled explanations and classification of IRF affecting mental disturbance on social media: (i) Thwarted Belongingness (TBe), and (ii) Perceived Burdensomeness (PBu). We establish baseline models on our dataset facilitating future research directions to develop real-time personalized AI models by detecting patterns of TBe and PBu in emotional spectrum of user's historical social media profile.
翻訳日:2023-05-31 18:30:09 公開日:2023-05-30
# diffusion-stego: メッセージプロジェクションによる無訓練拡散生成ステガノグラフィー

Diffusion-Stego: Training-free Diffusion Generative Steganography via Message Projection ( http://arxiv.org/abs/2305.18726v1 )

ライセンス: Link先を確認
Daegyu Kim, Chaehun Shin, Jooyoung Choi, Dahuin Jung, Sungroh Yoon(参考訳) 生成ステガノグラフィー(Generative steganography)は、生成した画像に秘密のメッセージを隠蔽するプロセスである。 ジェネレーティブステガノグラフィーの既存の研究は、GANまたはフローモデルを用いて、隠蔽メッセージ容量とカバー画像上のアンチ検出能力を得る。 しかし、生成モデル固有の制限のため、比較的非現実的なステゴ画像を作成する。 画像生成における他の生成モデルよりも優れた拡散モデルに基づく生成ステガノグラフィー手法であるDiffusion-Stegoを提案する。 diffusion-stegoはシークレットメッセージを拡散モデルの潜在ノイズに投影し、反復的な同期プロセスでstego画像を生成する。 ノイズへの秘密メッセージの隠蔽は視覚的な劣化を増大させ,抽出されたメッセージ精度を低下させるため,これらの問題に対処しつつ,ノイズ空間にメッセージを隠蔽するメッセージ投影を導入する。 メッセージプロジェクションには,抽出したメッセージ精度,検出能力,画質のトレードオフを調整するための3つのオプションを提案する。 diffusion-stegoはトレーニングフリーなアプローチなので、高品質な画像を生成する事前学習された拡散モデルや、安定した拡散のような大規模なテキストから画像へのモデルにも適用できます。 diffusion-stegoは高い容量のメッセージ(98%の精度で3.0 bpp、90%の精度で6.0 bpp)と高品質(ffhq 64$\times$64データセットで1.0 bppで2.77のfidスコア)を達成し、pngフォーマットでの実際の画像との区別を困難にしている。

Generative steganography is the process of hiding secret messages in generated images instead of cover images. Existing studies on generative steganography use GAN or Flow models to obtain high hiding message capacity and anti-detection ability over cover images. However, they create relatively unrealistic stego images because of the inherent limitations of generative models. We propose Diffusion-Stego, a generative steganography approach based on diffusion models which outperform other generative models in image generation. Diffusion-Stego projects secret messages into latent noise of diffusion models and generates stego images with an iterative denoising process. Since the naive hiding of secret messages into noise boosts visual degradation and decreases extracted message accuracy, we introduce message projection, which hides messages into noise space while addressing these issues. We suggest three options for message projection to adjust the trade-off between extracted message accuracy, anti-detection ability, and image quality. Diffusion-Stego is a training-free approach, so we can apply it to pre-trained diffusion models which generate high-quality images, or even large-scale text-to-image models, such as Stable diffusion. Diffusion-Stego achieved a high capacity of messages (3.0 bpp of binary messages with 98% accuracy, and 6.0 bpp with 90% accuracy) as well as high quality (with a FID score of 2.77 for 1.0 bpp on the FFHQ 64$\times$64 dataset) that makes it challenging to distinguish from real images in the PNG format.
翻訳日:2023-05-31 18:29:50 公開日:2023-05-30
# AdapterEM:Adapter-tuningを用いた汎用エンティティマッチングのための事前学習型言語モデル適応

AdapterEM: Pre-trained Language Model Adaptation for Generalized Entity Matching using Adapter-tuning ( http://arxiv.org/abs/2305.18725v1 )

ライセンス: Link先を確認
John Bosco Mugeni, Steven Lynden, Toshiyuki Amagasa, Akiyoshi Matono(参考訳) エンティティマッチング(EM)は、複数のデータソースから同じエンティティを参照する異なるデータ表現を特定し、通常はバイナリ分類問題として定式化される。 データ表現の不均一性のため、データ統合では難しい問題である。 最先端のソリューションでは、訓練済み言語モデル(PrLM)に基づくNLP技術が微調整パラダイムを介して採用されているが、過度にパラメータ化されたPrLMの逐次微調整は、特に低リソースシナリオにおいて破滅的な忘れを招きかねない。 本研究では,PrLMsパラメータを凍結しながら,アダプタと分類器の重みのみを最適化することにより,PrLMの層間にカプセル化される小さなニューラルネットワークであるアダプタに基づいて,PrLMを微調整するパラメータ効率のパラダイムを提案する。 適応型手法は有望な結果が得られる多言語音声問題に対してうまく適用されてきたが、EMに適用した場合のこれらの手法の有効性はまだよく理解されていない。 さらに、我々は利用について検討する。 (i)予習アダプタ及び (2)トークンレベルの言語表現をキャプチャし、一般化EMベンチマークで転送学習の利点を示すための可逆アダプタ。 提案手法は,計算フットプリントが大幅に小さく,PrLM パラメータの 13 % であるのに対し,フルスケールの PrLM ファインチューニングとプロンプトチューニングのベースラインに匹敵する性能を達成できることを示す。

Entity Matching (EM) involves identifying different data representations referring to the same entity from multiple data sources and is typically formulated as a binary classification problem. It is a challenging problem in data integration due to the heterogeneity of data representations. State-of-the-art solutions have adopted NLP techniques based on pre-trained language models (PrLMs) via the fine-tuning paradigm, however, sequential fine-tuning of overparameterized PrLMs can lead to catastrophic forgetting, especially in low-resource scenarios. In this study, we propose a parameter-efficient paradigm for fine-tuning PrLMs based on adapters, small neural networks encapsulated between layers of a PrLM, by optimizing only the adapter and classifier weights while the PrLMs parameters are frozen. Adapter-based methods have been successfully applied to multilingual speech problems achieving promising results, however, the effectiveness of these methods when applied to EM is not yet well understood, particularly for generalized EM with heterogeneous data. Furthermore, we explore using (i) pre-trained adapters and (ii) invertible adapters to capture token-level language representations and demonstrate their benefits for transfer learning on the generalized EM benchmark. Our results show that our solution achieves comparable or superior performance to full-scale PrLM fine-tuning and prompt-tuning baselines while utilizing a significantly smaller computational footprint $\approx 13\%$ of the PrLM parameters.
翻訳日:2023-05-31 18:29:18 公開日:2023-05-30
# 階層型時空間変圧器による長期風力予測

Long-term Wind Power Forecasting with Hierarchical Spatial-Temporal Transformer ( http://arxiv.org/abs/2305.18724v1 )

ライセンス: Link先を確認
Yang Zhang, Lingbo Liu, Xinyu Xiong, Guanbin Li, Guoli Wang, Liang Lin(参考訳) 風力発電は再生可能エネルギー、公害フリー、その他の利点のために世界中で注目を集めている。 しかし,高透過性間欠電力を電力系統に安全に安定的に統合することは課題である。 正確な風力予測(wpf)は、電力系統の運用における電力変動を効果的に低減することができる。 既存の手法は主に短期予測のために設計されており、効果的な時空間的特徴増強がない。 本研究では,長期WPF問題に対処するため,階層型時空間変圧器ネットワーク (HSTTN) と呼ばれる新しい風力発電予測モデルを提案する。 具体的には,階層的時間スケールに集約された協調モデル表現をスキップ接続した砂時計型エンコーダ・デコーダフレームワークを構築し,長期予測に有用である。 この枠組みに基づいて、2つの平行トランスフォーマー骨格との大規模長距離時間依存性と大域空間相関を捉え、ダウンサンプリングおよびアップサンプリング操作によるスケール内接続を強化する。 さらに、空間的特徴と時間的特徴の相補的な情報は、文脈的融合ブロック(CFB)を介して相互に融合し、さらに予測を促進する。 2つの大規模な実世界のデータセットに対する大規模な実験結果から、既存のソリューションよりもHSTTNの方が優れた性能を示している。

Wind power is attracting increasing attention around the world due to its renewable, pollution-free, and other advantages. However, safely and stably integrating the high permeability intermittent power energy into electric power systems remains challenging. Accurate wind power forecasting (WPF) can effectively reduce power fluctuations in power system operations. Existing methods are mainly designed for short-term predictions and lack effective spatial-temporal feature augmentation. In this work, we propose a novel end-to-end wind power forecasting model named Hierarchical Spatial-Temporal Transformer Network (HSTTN) to address the long-term WPF problems. Specifically, we construct an hourglass-shaped encoder-decoder framework with skip-connections to jointly model representations aggregated in hierarchical temporal scales, which benefits long-term forecasting. Based on this framework, we capture the inter-scale long-range temporal dependencies and global spatial correlations with two parallel Transformer skeletons and strengthen the intra-scale connections with downsampling and upsampling operations. Moreover, the complementary information from spatial and temporal features is fused and propagated in each other via Contextual Fusion Blocks (CFBs) to promote the prediction further. Extensive experimental results on two large-scale real-world datasets demonstrate the superior performance of our HSTTN over existing solutions.
翻訳日:2023-05-31 18:28:47 公開日:2023-05-30
# 拡散モデルのための高精度データフリー量子化に向けて

Towards Accurate Data-free Quantization for Diffusion Models ( http://arxiv.org/abs/2305.18723v1 )

ライセンス: Link先を確認
Changyuan Wang, Ziwei Wang, Xiuwei Xu, Yansong Tang, Jie Zhou, Jiwen Lu(参考訳) 本稿では,効率的な画像生成のための拡散モデル(ADP-DM)の高精度なデータ自由後量子化フレームワークを提案する。 従来のデータフリー量子化法は、生成時間ステップに関係なくテンソル離散化の共有量子化関数を学習し、アクティベーション分布は様々な時間ステップで大きく異なる。 キャリブレーション画像は、一般化量子化関数学習に十分な情報を提供しないランダムな時間ステップで取得される。 どちらの問題も大きな量子化誤差を引き起こし、画像生成性能は明らかに低下する。 それとは対照的に, 異なる時間ステップで活性化離散化を行うグループ毎の量子化関数を設計し, 情報校正画像生成のための最適な時間ステップをサンプリングし, 数値化拡散モデルによって計算オーバーヘッドを無視できる離散化誤差を低減できることを示した。 具体的には, 可微分探索アルゴリズムにより最適化された, 異なる群における量子化関数の重要性度に応じて時間ステップを分割する。 また, 量子化拡散モデルの展開における一般化能力を高めるため, 構造リスク最小化原理によるキャリブレーション画像生成のための最適な時間ステップを選択する。 実験結果から,本手法は拡散モデルの時間的学習後の量子化に類似した計算コストで優れることを示した。

In this paper, we propose an accurate data-free post-training quantization framework of diffusion models (ADP-DM) for efficient image generation. Conventional data-free quantization methods learn shared quantization functions for tensor discretization regardless of the generation timesteps, while the activation distribution differs significantly across various timesteps. The calibration images are acquired in random timesteps which fail to provide sufficient information for generalizable quantization function learning. Both issues cause sizable quantization errors with obvious image generation performance degradation. On the contrary, we design group-wise quantization functions for activation discretization in different timesteps and sample the optimal timestep for informative calibration image generation, so that our quantized diffusion model can reduce the discretization errors with negligible computational overhead. Specifically, we partition the timesteps according to the importance weights of quantization functions in different groups, which are optimized by differentiable search algorithms. We also select the optimal timestep for calibration image generation by structural risk minimizing principle in order to enhance the generalization ability in the deployment of quantized diffusion model. Extensive experimental results show that our method outperforms the state-of-the-art post-training quantization of diffusion model by a sizable margin with similar computational cost.
翻訳日:2023-05-31 18:28:27 公開日:2023-05-30
# LayoutMask: 文書理解のためのマルチモーダル事前学習におけるテキストレイアウトインタラクションの強化

LayoutMask: Enhance Text-Layout Interaction in Multi-modal Pre-training for Document Understanding ( http://arxiv.org/abs/2305.18721v1 )

ライセンス: Link先を確認
Yi Tu, Ya Guo, Huan Chen, Jinyang Tang(参考訳) 視覚的にリッチな文書理解(vrdu)は、近年多くの研究の注目を集めている。 トランスフォーマーベースのバックボーンを持つ多数の文書画像の事前学習モデルがこの分野で大きなパフォーマンス向上をもたらした。 主な課題は、文書の異なるモダリティ(テキスト、レイアウト、画像)を、異なる事前学習タスクで統一されたモデルにどのように融合するかである。 本稿では,テキストレイアウトインタラクションの改善に着目し,新しいマルチモーダル事前学習モデルlayoutmaskを提案する。 layoutmaskは、グローバルな1d位置ではなく、ローカルな1d位置をレイアウト入力として使用し、事前学習目標を2つ備えている。(1) マスク言語モデリング: 2つの新しいマスク戦略によるマスクトークンの予測 (2) マスク位置モデリング: マスク2d位置の予測 レイアウト表現学習を改善する。 LayoutMaskは、統一モデルにおけるテキストとレイアウトのモダリティ間の相互作用を強化し、下流タスクに対して適応的で堅牢なマルチモーダル表現を生成する。 実験の結果,提案手法は,形式理解,レセプション理解,文書画像分類など,多種多様なVrDU問題に対して,最先端の成果が得られることがわかった。

Visually-rich Document Understanding (VrDU) has attracted much research attention over the past years. Pre-trained models on a large number of document images with transformer-based backbones have led to significant performance gains in this field. The major challenge is how to fusion the different modalities (text, layout, and image) of the documents in a unified model with different pre-training tasks. This paper focuses on improving text-layout interactions and proposes a novel multi-modal pre-training model, LayoutMask. LayoutMask uses local 1D position, instead of global 1D position, as layout input and has two pre-training objectives: (1) Masked Language Modeling: predicting masked tokens with two novel masking strategies; (2) Masked Position Modeling: predicting masked 2D positions to improve layout representation learning. LayoutMask can enhance the interactions between text and layout modalities in a unified model and produce adaptive and robust multi-modal representations for downstream tasks. Experimental results show that our proposed method can achieve state-of-the-art results on a wide variety of VrDU problems, including form understanding, receipt understanding, and document image classification.
翻訳日:2023-05-31 18:28:05 公開日:2023-05-30
# 時空間外挿のためのグラフニューラルプロセス

Graph Neural Processes for Spatio-Temporal Extrapolation ( http://arxiv.org/abs/2305.18719v1 )

ライセンス: Link先を確認
Junfeng Hu, Yuxuan Liang, Zhencheng Fan, Hongyang Chen, Yu Zheng, Roger Zimmermann(参考訳) 本研究では,グラフ内の周辺状況から対象地点のデータを生成する時空間外挿作業について検討する。 このタスクは、データを収集するセンサーが少なめにデプロイされるため、デプロイやメンテナンスコストが高いため、きめ細かい情報が欠如しているため、非常に重要です。 既存の手法では、ニューラルネットワークのような学習ベースのモデルを使うか、ガウス過程のような統計的アプローチを使う。 しかし、前者は不確実性推定を欠き、後者は複雑な空間的および時間的相関を効果的に捉えることができない。 これらの問題に対処するために、これらの機能を同時に制御するニューラル潜在変数モデルである時空間グラフニューラルプロセス(STGNP)を提案する。 具体的には、因果畳み込み層とクロスセットグラフニューラルネットワークを積み重ねることで、決定論的時空間表現を初めて学習する。 次に,層に沿って垂直な潜在状態遷移を通じ,対象位置の潜在変数を学習し,外挿を得る。 移行において重要なのが,コンテキストデータとグラフ構造における不確実性を考慮したコンテキストを集約するベイズグラフアグリゲータであるグラフベイズアグリゲータ(gba)を提案する。 広範囲にわたる実験により,STGNPは不確実性推定や強力な学習能力などの望ましい特性を有し,最先端の成果を明確なマージンで達成できることが示された。

We study the task of spatio-temporal extrapolation that generates data at target locations from surrounding contexts in a graph. This task is crucial as sensors that collect data are sparsely deployed, resulting in a lack of fine-grained information due to high deployment and maintenance costs. Existing methods either use learning-based models like Neural Networks or statistical approaches like Gaussian Processes for this task. However, the former lacks uncertainty estimates and the latter fails to capture complex spatial and temporal correlations effectively. To address these issues, we propose Spatio-Temporal Graph Neural Processes (STGNP), a neural latent variable model which commands these capabilities simultaneously. Specifically, we first learn deterministic spatio-temporal representations by stacking layers of causal convolutions and cross-set graph neural networks. Then, we learn latent variables for target locations through vertical latent state transitions along layers and obtain extrapolations. Importantly during the transitions, we propose Graph Bayesian Aggregation (GBA), a Bayesian graph aggregator that aggregates contexts considering uncertainties in context data and graph structure. Extensive experiments show that STGNP has desirable properties such as uncertainty estimates and strong learning capabilities, and achieves state-of-the-art results by a clear margin.
翻訳日:2023-05-31 18:27:47 公開日:2023-05-30
# 複数話者処理のための多言語ASRモデルの適用

Adapting Multi-Lingual ASR Models for Handling Multiple Talkers ( http://arxiv.org/abs/2305.18747v1 )

ライセンス: Link先を確認
Chenda Li, Yao Qian, Zhuo Chen, Naoyuki Kanda, Dongmei Wang, Takuya Yoshioka, Yanmin Qian, and Michael Zeng(参考訳) 最先端の大規模音声モデル(USM)は、複数のドメインや言語にまたがる適切な自動音声認識(ASR)性能を示す。 しかし、これらのモデルが重複した発話を認識することは依然として課題であり、会議会話でよく見られる。 マルチストーカーASRに対するUSMの適応手法を提案する。 まず,マルチストーカーASRと発話タイムスタンプ予測を共同で行うシリアライズ出力訓練の強化版を開発する。 すなわち、全ての話者に対するASR仮説を予測し、話者を数え、発話タイムスタンプを同時に推定する。 さらに,単一言語でのみ適応を行う場合でも,USMの多言語性を維持するための軽量なアダプタモジュールを導入する。 AMIとAliMeetingのコーパスを用いて得られた実験結果から,提案手法はタイムスタンプ予測機能を備えた多言語多言語ASRモデルにUSMを効果的に転送することを示した。

State-of-the-art large-scale universal speech models (USMs) show a decent automatic speech recognition (ASR) performance across multiple domains and languages. However, it remains a challenge for these models to recognize overlapped speech, which is often seen in meeting conversations. We propose an approach to adapt USMs for multi-talker ASR. We first develop an enhanced version of serialized output training to jointly perform multi-talker ASR and utterance timestamp prediction. That is, we predict the ASR hypotheses for all speakers, count the speakers, and estimate the utterance timestamps at the same time. We further introduce a lightweight adapter module to maintain the multilingual property of the USMs even when we perform the adaptation with only a single language. Experimental results obtained using the AMI and AliMeeting corpora show that our proposed approach effectively transfers the USMs to a strong multilingual multi-talker ASR model with timestamp prediction capability.
翻訳日:2023-05-31 18:20:06 公開日:2023-05-30
# 対人訓練によるビデオポーズ推定に先立つ分解された人間の動き

Decomposed Human Motion Prior for Video Pose Estimation via Adversarial Training ( http://arxiv.org/abs/2305.18743v1 )

ライセンス: Link先を確認
Wenshuo Chen, Xiang Zhou, Zhengdi Yu, Zhaoyu Zheng, Weixi Gu and Kai Zhang(参考訳) 映像から人間のポーズを推定することは、多くの3d分野に適用できるため、かなりの注目を集めるタスクである。 人体の動きに関する事前知識の複雑さは、キーポイントを回帰するタスクにおいて、ニューラルネットワークモデルに課題をもたらす。 本稿では,逆方向の動きを先に組み込むことにより,この問題に対処する。 従来の手法とは異なり,ジョイント動作に先立って全体的動作を分解することで,ニューラルネットワークによる事前知識の学習が容易になり,タスクのパフォーマンスが向上する。 また,新しい正規化損失を利用して,動きの精度と滑らかさのバランスをとる。 提案手法は,従来の3DPW試験法よりも9倍のPA-MPJPE,29倍の加速誤差を実現する。 estimatorは、内部データセットで印象的なパフォーマンスを達成することで、その堅牢さを証明します。

Estimating human pose from video is a task that receives considerable attention due to its applicability in numerous 3D fields. The complexity of prior knowledge of human body movements poses a challenge to neural network models in the task of regressing keypoints. In this paper, we address this problem by incorporating motion prior in an adversarial way. Different from previous methods, we propose to decompose holistic motion prior to joint motion prior, making it easier for neural networks to learn from prior knowledge thereby boosting the performance on the task. We also utilize a novel regularization loss to balance accuracy and smoothness introduced by motion prior. Our method achieves 9\% lower PA-MPJPE and 29\% lower acceleration error than previous methods tested on 3DPW. The estimator proves its robustness by achieving impressive performance on in-the-wild dataset.
翻訳日:2023-05-31 18:19:51 公開日:2023-05-30
# Triplet Retrievalを用いた質問応答のためのグラフ推論

Graph Reasoning for Question Answering with Triplet Retrieval ( http://arxiv.org/abs/2305.18742v1 )

ライセンス: Link先を確認
Shiyang Li, Yifan Gao, Haoming Jiang, Qingyu Yin, Zheng Li, Xifeng Yan, Chao Zhang, Bing Yin(参考訳) 複雑な質問に答えるには知識グラフ(KG)に対する推論が必要となることが多い。 State-of-the-artメソッドは、しばしば質問の実体を利用してローカルサブグラフを検索し、それをKGエンコーダ、例えばグラフニューラルネットワーク(GNN)に入力してローカル構造をモデル化し、質問応答のための言語モデルに統合する。 しかし、このパラダイムは、局所的な部分グラフにおける知識の回収を制約し、KGに埋もれたより多様な三つ子を捨てる。 本稿では,まず最も関連性の高いトリプレットをkgsから抽出し,再ランク付けし,言語モデルに適用すべき質問に結合する,単純かつ効果的な手法を提案する。 CommonsenseQAとOpenbookQAの両方のデータセットの大規模な結果から、我々の手法は最先端の精度を4.6%まで上回ります。

Answering complex questions often requires reasoning over knowledge graphs (KGs). State-of-the-art methods often utilize entities in questions to retrieve local subgraphs, which are then fed into KG encoder, e.g. graph neural networks (GNNs), to model their local structures and integrated into language models for question answering. However, this paradigm constrains retrieved knowledge in local subgraphs and discards more diverse triplets buried in KGs that are disconnected but useful for question answering. In this paper, we propose a simple yet effective method to first retrieve the most relevant triplets from KGs and then rerank them, which are then concatenated with questions to be fed into language models. Extensive results on both CommonsenseQA and OpenbookQA datasets show that our method can outperform state-of-the-art up to 4.6% absolute accuracy.
翻訳日:2023-05-31 18:19:39 公開日:2023-05-30
# バニラ変圧器の階層構造のグロッキング

Grokking of Hierarchical Structure in Vanilla Transformers ( http://arxiv.org/abs/2305.18741v1 )

ライセンス: Link先を確認
Shikhar Murty, Pratyusha Sharma, Jacob Andreas, Christopher D. Manning(参考訳) 人間にとって、言語の生成と理解は文の階層構造に敏感である。 自然言語処理において、過去の研究は、構造的に新しい入力を一般化する際に、トランスフォーマーのようなニューラルネットワークモデルがこの階層構造を効果的に捉えるか疑問視している。 変換言語モデルは、ドメイン内精度が飽和した時点をはるかに超えて、非常に長い期間のトレーニングを経て階層的に一般化することを学ぶことができる。 この現象を 'emph{structureural grokking} と呼ぶ。 複数のデータセットにおいて、構造グロッキングはモデルの深さが反転したu字型のスケーリングを示す: 中間深度モデルは、非常に深いトランスフォーマーと非常に浅いトランスフォーマーの両方よりも一般化する。 モデル内的特性とグロッキングの関係を分析すると、グロッキングの最適深さは \citet{murty2023projections} の木構造計量を用いて同定できることがわかった。 全体として、我々の研究は、拡張トレーニングによってバニラトランスフォーマーが階層構造を発見し、利用するという強い証拠を提供する。

For humans, language production and comprehension is sensitive to the hierarchical structure of sentences. In natural language processing, past work has questioned how effectively neural sequence models like transformers capture this hierarchical structure when generalizing to structurally novel inputs. We show that transformer language models can learn to generalize hierarchically after training for extremely long periods -- far beyond the point when in-domain accuracy has saturated. We call this phenomenon \emph{structural grokking}. On multiple datasets, structural grokking exhibits inverted U-shaped scaling in model depth: intermediate-depth models generalize better than both very deep and very shallow transformers. When analyzing the relationship between model-internal properties and grokking, we find that optimal depth for grokking can be identified using the tree-structuredness metric of \citet{murty2023projections}. Overall, our work provides strong evidence that, with extended training, vanilla transformers discover and use hierarchical structure.
翻訳日:2023-05-31 18:19:23 公開日:2023-05-30
# 潜時拡散モデルを用いた行動多元性ポリシーの生成

Generating Behaviorally Diverse Policies with Latent Diffusion Models ( http://arxiv.org/abs/2305.18738v1 )

ライセンス: Link先を確認
Shashank Hegde, Sumeet Batra, K. R. Zentner, Gaurav S. Sukhatme(参考訳) 近年のQD-RL(Quality Diversity Reinforcement Learning)の進歩により,行動学的に多様な高パフォーマンスな政策の収集が可能となった。 しかし、これらの方法は典型的には数千のポリシーを格納し、結果として高い空間の複雑さと付加的な振る舞いへのスケーリングの貧弱さをもたらす。 オリジナルのポリシーコレクションのパフォーマンスとカバレッジを維持しながら、アーカイブを単一のモデルに集約することは、非常に難しい。 本研究では,拡散モデルを用いて,政策パラメータ上の単一の生成モデルにアーカイブを蒸留する手法を提案する。 提案手法は,元の報酬の98%,オリジナルカバレッジの89%を回収しながら,圧縮比が13倍となることを示す。 さらに、拡散モデルのコンディショニング機構により、言語を含む動作を柔軟に選択・シーケンシングすることができる。 プロジェクトウェブサイト: https://sites.google.com/view/policydiffusion/home

Recent progress in Quality Diversity Reinforcement Learning (QD-RL) has enabled learning a collection of behaviorally diverse, high performing policies. However, these methods typically involve storing thousands of policies, which results in high space-complexity and poor scaling to additional behaviors. Condensing the archive into a single model while retaining the performance and coverage of the original collection of policies has proved challenging. In this work, we propose using diffusion models to distill the archive into a single generative model over policy parameters. We show that our method achieves a compression ratio of 13x while recovering 98% of the original rewards and 89% of the original coverage. Further, the conditioning mechanism of diffusion models allows for flexibly selecting and sequencing behaviors, including using language. Project website: https://sites.google.com/view/policydiffusion/home
翻訳日:2023-05-31 18:19:07 公開日:2023-05-30
# 衛星間CV-QKDのための深層学習による位相補正

Phase Correction using Deep Learning for Satellite-to-Ground CV-QKD ( http://arxiv.org/abs/2305.18737v1 )

ライセンス: Link先を確認
Nathan K. Long, Robert Malaney, Kenneth J. Grant(参考訳) 連続可変(CV)量子鍵分布(QKD)の衛星間チャネル間のコヒーレントな測定は、大気乱流による位相波面歪みの補償を必要とする。 1つの補償手法は、古典的な参照パルス(RP)と量子信号の多重化であり、RPの直接位相測定は、地上の実際の局所振動子(RLO)を変調するために使用される。 しかし、これは実際には面倒な作業であり、機器要件とデプロイメントに相当な複雑さを必要とします。 本稿では, 畳み込みニューラルネットワークへの入力としてRPからの強度測定のみを用い, 位相波面を直接測定する必要性を完全に緩和することにより, RLOの位相補正を推定する新しい手法を提案する。 従来の知恵では、そのようなアプローチは実りがないだろう。 しかし,衛星と地上のチャネルを通した安全でない鍵レートを提供するために必要な位相補正精度は,我々の強度のみの測定によって達成されている。 我々の研究は、宇宙から供給されるCV-QKDの文脈において、人工知能アルゴリズムがフェーズ計測機器をどのように置き換えるかを初めて示し、このグローバルな量子通信アプリケーションのための代替のデプロイメントパラダイムを提供する。

Coherent measurement of quantum signals used for continuous-variable (CV) quantum key distribution (QKD) across satellite-to-ground channels requires compensation of phase wavefront distortions caused by atmospheric turbulence. One compensation technique involves multiplexing classical reference pulses (RPs) and the quantum signal, with direct phase measurements on the RPs then used to modulate a real local oscillator (RLO) on the ground - a solution that also removes some known attacks on CV-QKD. However, this is a cumbersome task in practice - requiring substantial complexity in equipment requirements and deployment. As an alternative to this traditional practice, here we introduce a new method for estimating phase corrections for an RLO by using only intensity measurements from RPs as input to a convolutional neural network, mitigating completely the necessity to measure phase wavefronts directly. Conventional wisdom dictates such an approach would likely be fruitless. However, we show that the phase correction accuracy needed to provide for non-zero secure key rates through satellite-to-ground channels is achieved by our intensity-only measurements. Our work shows, for the first time, how artificial intelligence algorithms can replace phase-measuring equipment in the context of CV-QKD delivered from space, thereby delivering an alternate deployment paradigm for this global quantum-communication application.
翻訳日:2023-05-31 18:18:51 公開日:2023-05-30
# LonXplain:Reddit投稿の精神障害の原因としての孤独

LonXplain: Lonesomeness as a Consequence of Mental Disturbance in Reddit Posts ( http://arxiv.org/abs/2305.18736v1 )

ライセンス: Link先を確認
Muskan Garg, Chandni Saxena, Debabrata Samanta, Bonnie J. Dorr(参考訳) ソーシャルメディアは、自然言語処理(NLP)を通じて潜在精神状態を推測する潜在的な情報源である。 現実の体験を語りながら、ソーシャルメディアのユーザーは孤独感や孤立したライフスタイルを伝え、精神的な幸福に影響を及ぼす。 既存の心理学理論に関する文献では、孤独は対人的リスク要因の主な結果であり、孤独を精神障害の主要な側面として調べる必要性を示唆している。 我々は,ソーシャルメディア投稿における孤独検出を説明可能な二分分類問題として定式化し,ユーザをリスクに晒すことなく発見し,早期制御のためのレジリエンスの必要性を示唆する。 私たちの知る限り、説明可能なデータセットは存在しません。つまり、人間の読みやすい注釈付きテキストスパンを持つデータセットは、精神障害を引き起こす孤独の検出に関するさらなる研究と開発を促進します。 本研究では, 臨床心理学者, リハビリテーションカウンセラー, 社会nlp研究者の3名の専門家が, 孤独の有無を示すためのアノテーション・スキームとパープレキシティ・ガイドラインを, 原投稿のテキストスパンを説明として, 3,521 reddit の投稿で定義する。 当社のデータセット、lonxplain、従来の分類器をベースラインとしてgithub経由で公開する予定です。

Social media is a potential source of information that infers latent mental states through Natural Language Processing (NLP). While narrating real-life experiences, social media users convey their feeling of loneliness or isolated lifestyle, impacting their mental well-being. Existing literature on psychological theories points to loneliness as the major consequence of interpersonal risk factors, propounding the need to investigate loneliness as a major aspect of mental disturbance. We formulate lonesomeness detection in social media posts as an explainable binary classification problem, discovering the users at-risk, suggesting the need of resilience for early control. To the best of our knowledge, there is no existing explainable dataset, i.e., one with human-readable, annotated text spans, to facilitate further research and development in loneliness detection causing mental disturbance. In this work, three experts: a senior clinical psychologist, a rehabilitation counselor, and a social NLP researcher define annotation schemes and perplexity guidelines to mark the presence or absence of lonesomeness, along with the marking of text-spans in original posts as explanation, in 3,521 Reddit posts. We expect the public release of our dataset, LonXplain, and traditional classifiers as baselines via GitHub.
翻訳日:2023-05-31 18:18:27 公開日:2023-05-30
# IcSDE+ -- 制約付き多目的最適化のための指標

IcSDE+ -- An Indicator for Constrained Multi-Objective Optimization ( http://arxiv.org/abs/2305.18734v1 )

ライセンス: Link先を確認
Oladayo S. Ajani, Rammohan Mallipeddi and Sri Srinivasa Raju M(参考訳) 制約付き多目的進化アルゴリズム(CMOEA)の有効性は、いくつかの矛盾する目的を最適化するだけでなく、実現不可能な解に存在する情報を活用することによって、進化中に異なる実現可能な領域に到達する能力に依存する。 長年にわたり、研究者はCMOPを扱うためのいくつかのCMOEAを提案してきた。 しかし、CMOEAは分解ベースかParetoベースかのどちらかで、指標ベースのCMOEAにはほとんど焦点を当てていない。 文学において,ほとんどの指標に基づくcmoeasが採用する イ 目的値を用いて指標値を見つけ出し、総合的制約違反と組み合わせて、単一の目的的制約問題として制約付き多目的最適化問題(CMOP)を解決するための伝統的な指標 b) 実際の目的に加えて,各制約又は全体制約違反を目的として考えること。 本稿では,探索空間の異なる領域を探索できるicsde+と呼ばれる,効果的な単個体数インジケータベースのcmoeaを提案する。 IcSDE+は(I)ndicatorであり、制約違反(c)、シフトベース密度推定(SDE)、目的(+)の和の効率的な融合である。 IcSDE+によるCMOEAの性能は、異なる特徴を持つ6種類のベンチマークスイート上での9つの最先端CMOEAと比較して好意的に比較される。

The effectiveness of Constrained Multi-Objective Evolutionary Algorithms (CMOEAs) depends on their ability to reach the different feasible regions during evolution, by exploiting the information present in infeasible solutions, in addition to optimizing the several conflicting objectives. Over the years, researchers have proposed several CMOEAs to handle CMOPs. However, among the different CMOEAs proposed most of them are either decomposition-based or Pareto-based, with little focus on indicator-based CMOEAs. In literature, most indicator-based CMOEAs employ - a) traditional indicators used to solve unconstrained multi-objective problems to find the indicator values using objectives values and combine them with overall constraint violation to solve Constrained Multi-objective Optimization Problem (CMOP) as a single objective constraint problem, or b) consider each constraint or the overall constraint violation as objective(s) in addition to the actual objectives. In this paper, we propose an effective single-population indicator-based CMOEA referred to as IcSDE+ that can explore the different feasible regions in the search space. IcSDE+ is an (I)ndicator, that is an efficient fusion of constraint violation (c), shift-based density estimation (SDE) and sum of objectives (+). The performance of CMOEA with IcSDE+ is favorably compared against 9 state-of-the-art CMOEAs on 6 different benchmark suites with diverse characteristics
翻訳日:2023-05-31 18:18:00 公開日:2023-05-30
# 長テール視覚認識のためのラッピングコーシー分散角ソフトマックス

Wrapped Cauchy Distributed Angular Softmax for Long-Tailed Visual Recognition ( http://arxiv.org/abs/2305.18732v1 )

ライセンス: Link先を確認
Boran Han(参考訳) 不均衡またはロングテールデータに対処することは、トレーニングとテスト分布の相違とデータノイズの問題のために、視覚認識タスクにおいて大きな課題である。 本稿では,データワイズガウス系カーネルを特徴表現と分類重みの角相関に組み込んだ新しいソフトマックス関数であるラッピングコーシー分散角ソフトマックス(wcdas)を提案する。 角表現のクラスワイド分布はこれらのカーネルの和となる。 理論解析により,包まれたコーシー分布は混合分布に近似するガウス分布に優れていることが明らかとなった。 さらに、WCDASはトレーニング可能な濃度パラメータを使用して、各クラスのコンパクト性とマージンを動的に調整する。 実験の結果、これらのパラメータのラベル認識挙動を確認し、WCDASが複数のベンチマークデータセットにわたって長い尾の視覚的認識を扱う場合、他の最先端のソフトマックス法よりも優れていることを示す。 コードは公開されている。

Addressing imbalanced or long-tailed data is a major challenge in visual recognition tasks due to disparities between training and testing distributions and issues with data noise. We propose the Wrapped Cauchy Distributed Angular Softmax (WCDAS), a novel softmax function that incorporates data-wise Gaussian-based kernels into the angular correlation between feature representations and classifier weights, effectively mitigating noise and sparse sampling concerns. The class-wise distribution of angular representation becomes a sum of these kernels. Our theoretical analysis reveals that the wrapped Cauchy distribution excels the Gaussian distribution in approximating mixed distributions. Additionally, WCDAS uses trainable concentration parameters to dynamically adjust the compactness and margin of each class. Empirical results confirm label-aware behavior in these parameters and demonstrate WCDAS's superiority over other state-of-the-art softmax-based methods in handling long-tailed visual recognition across multiple benchmark datasets. The code is public available.
翻訳日:2023-05-31 18:17:37 公開日:2023-05-30
# 認識グラフによるハイブリッド表現学習

Hybrid Representation Learning via Epistemic Graph ( http://arxiv.org/abs/2305.18731v1 )

ライセンス: Link先を確認
Jin Yuan, Yang Zhang, Yangzhou Du, Zhongchao Shi, Xin Geng, Jianping Fan, Yong Rui(参考訳) 近年、深層モデルは多くの視覚課題で顕著な成功を収めている。 残念ながら、パフォーマンスは集中的なトレーニングサンプルに大きく依存します。 対照的に、人間は通常ハイブリッド学習を行う。例えば、クロスドメイン認識のための構造化知識を自然に統合したり、少数の学習のためにはるかに少ないデータサンプルを投入する。 このように、構造化知識をデータサンプルとシームレスに統合し、より効果的な表現学習を実現することで、コンピュータビジョンタスクのハイブリッド学習を拡張することが非常に魅力的である。 しかし、そのようなハイブリッド学習アプローチは、構造化された知識と、次元と知識の粒度の両方に関する深い特徴(データサンプルから得られた)の間に大きなギャップがあるため、依然として大きな課題である。 本稿では, 深部特徴と構造化知識グラフの間で情報をより効果的に交換できるように, ハイブリッド学習を実現するために, 新たなEGLayer(Epstemic Graph Layer)を開発した。 私たちのEGLayerは3つの主要な部分で構成されています。 (a) 学習した深部特徴(すなわち、深部特徴と構造化知識グラフを同じ粒度で整列させる)を通して局所原型グラフを確立するための局所グラフモジュール。 (b)局所グラフから有用な情報を集約し、それらの表現を用いて、最終予測のためにグローバルノード埋め込みとの類似性を計算するクエリ集約モデル (c) 局所的および大域的隣接行列間の線形整合性を制限する新しい相関損失関数。

In recent years, deep models have achieved remarkable success in many vision tasks. Unfortunately, their performance largely depends on intensive training samples. In contrast, human beings typically perform hybrid learning, e.g., spontaneously integrating structured knowledge for cross-domain recognition or on a much smaller amount of data samples for few-shot learning. Thus it is very attractive to extend hybrid learning for the computer vision tasks by seamlessly integrating structured knowledge with data samples to achieve more effective representation learning. However, such a hybrid learning approach remains a great challenge due to the huge gap between the structured knowledge and the deep features (learned from data samples) on both dimensions and knowledge granularity. In this paper, a novel Epistemic Graph Layer (EGLayer) is developed to enable hybrid learning, such that the information can be exchanged more effectively between the deep features and a structured knowledge graph. Our EGLayer is composed of three major parts: (a) a local graph module to establish a local prototypical graph through the learned deep features, i.e., aligning the deep features with the structured knowledge graph at the same granularity; (b) a query aggregation model to aggregate useful information from the local graphs, and using such representations to compute their similarity with global node embeddings for final prediction; and (c) a novel correlation loss function to constrain the linear consistency between the local and global adjacency matrices.
翻訳日:2023-05-31 18:17:18 公開日:2023-05-30
# Simplicity Biasのレンズによる訓練早期の清浄性ビアーゼの同定

Identifying Spurious Biases Early in Training through the Lens of Simplicity Bias ( http://arxiv.org/abs/2305.18761v1 )

ライセンス: Link先を確認
Yu Yang, Eric Gan, Gintare Karolina Dziugaite, Baharan Mirzasoleiman(参考訳) 確率的)勾配降下で訓練されたニューラルネットワークは、より単純なソリューションを学ぶための帰納的バイアスを持つ。 これにより、予測的ではあるがより複雑なコア機能ではなく、ラベルと高い相関性を持つ単純なスプリアス機能を学ぶのが難しくなります。 本研究では,学習の早い段階で,勾配降下の単純さのバイアスを,スプリアス相関の同定に活用できることを示す。 まず, 2層ニューラルネットワークを用いて, 最初のトレーニングイテレーションにおいて, モデル出力に基づいて, 高いスプリアス相関を持つサンプル群を分離可能であることを示す。 さらに,突発的特徴が十分な雑音-信号比を持つ場合,クラス内のほとんどの例におけるネットワークの出力は,ほぼ排他的特徴によって決定され,中心的特徴とほぼ不変であることを示す。 最後に,大規模群とスプリアス相関を早期に分離し,グループの大きさのバランスをとることにより,スプリアス相関を緩和するために重要サンプリングを利用するspareを提案する。 SPAREは最先端手法よりも最大5.6%高いグループ精度を達成でき、しかも最大12倍高速であることを示す。 また,Restricted ImageNetにおけるスプリアス相関の検出と緩和に,SPAREの適用性を示す。

Neural networks trained with (stochastic) gradient descent have an inductive bias towards learning simpler solutions. This makes them highly prone to learning simple spurious features that are highly correlated with a label instead of the predictive but more complex core features. In this work, we show that, interestingly, the simplicity bias of gradient descent can be leveraged to identify spurious correlations, early in training. First, we prove on a two-layer neural network, that groups of examples with high spurious correlation are separable based on the model's output, in the initial training iterations. We further show that if spurious features have a small enough noise-to-signal ratio, the network's output on the majority of examples in a class will be almost exclusively determined by the spurious features and will be nearly invariant to the core feature. Finally, we propose SPARE, which separates large groups with spurious correlations early in training, and utilizes importance sampling to alleviate the spurious correlation, by balancing the group sizes. We show that SPARE achieves up to 5.6% higher worst-group accuracy than state-of-the-art methods, while being up to 12x faster. We also show the applicability of SPARE to discover and mitigate spurious correlations in Restricted ImageNet.
翻訳日:2023-05-31 18:11:27 公開日:2023-05-30
# Shuo Wen Jie Zi氏:中国語事前学習のための辞書とグリフの再考

Shuo Wen Jie Zi: Rethinking Dictionaries and Glyphs for Chinese Language Pre-training ( http://arxiv.org/abs/2305.18760v1 )

ライセンス: Link先を確認
Yuxuan Wang, Jianghui Wang, Dongyan Zhao, and Zilong Zheng(参考訳) 辞書知識と漢字の構造を持つ中国語PLMの意味理解能力を高める新しい学習パラダイムであるCDBERTを紹介する。 cdbert の2つのコアモジュールを shuowen と jiezi と命名し、そこではshuowen は中国語辞書から最も適切な意味を検索するプロセスを指し、jiezi は構造理解による文字のグリフ表現を強化するプロセスを指す。 辞書理解を容易にするために,3つの事前学習課題,すなわち,マスケッド・エントリー・モデリング,構文とアンソニムのコントラスト学習,例学習を提案する。 我々は,現代中国語理解ベンチマーク CLUE と古代中国語理解ベンチマーク CCLUE を比較した。 さらに, 古代中国語の辞書をもとに, 新たなポリセミー識別タスク polymrc を提案する。 本パラダイムは,従来の中国語PLMのタスク間における一貫した改善を示す。 さらに,このアプローチは,中国古代の理解の少なさを著しく高めている。

We introduce CDBERT, a new learning paradigm that enhances the semantics understanding ability of the Chinese PLMs with dictionary knowledge and structure of Chinese characters. We name the two core modules of CDBERT as Shuowen and Jiezi, where Shuowen refers to the process of retrieving the most appropriate meaning from Chinese dictionaries and Jiezi refers to the process of enhancing characters' glyph representations with structure understanding. To facilitate dictionary understanding, we propose three pre-training tasks, i.e., Masked Entry Modeling, Contrastive Learning for Synonym and Antonym, and Example Learning. We evaluate our method on both modern Chinese understanding benchmark CLUE and ancient Chinese benchmark CCLUE. Moreover, we propose a new polysemy discrimination task PolyMRC based on the collected dictionary of ancient Chinese. Our paradigm demonstrates consistent improvements on previous Chinese PLMs across all tasks. Moreover, our approach yields significant boosting on few-shot setting of ancient Chinese understanding.
翻訳日:2023-05-31 18:11:02 公開日:2023-05-30
# 相関乱れ平帯系の非摂動力学

Non-perturbative dynamics of correlated disordered flat-band system ( http://arxiv.org/abs/2305.18759v1 )

ライセンス: Link先を確認
Qi Li, Junfeng Liu, Zi-Xiang Hu, and Zhou Li(参考訳) 相関障害が存在する場合のフラットバンド格子上でのガウス波パケットの時間発展の数値計算法を開発した。 これを1次元(1次元)クロススティッチモデルに適用する。 量子マスター方程式による解析結果と合理的な一致が見出され、フラットバンドが分散バンドと交わるときの減衰・減弱過程が示される。 2次元の(2D)$\alpha-T_3$モデルに数値法を拡張すると、初期フラットバンドのウェーブパケットは、障害や交点に関係なく$\alpha = 0$のときの位置を保ち、$\alpha\neq 0$のとき、実空間でシフトする。 所定相関でランダムなオンサイトエネルギーを生成する方法として,フラットバンドと分散バンドの結合方程式と想像誤差関数を導出する手法を指摘する。

We develop a numerical method for the time evolution of Gaussian wave packet on a flat-band lattice in the presence of correlated disorder. We apply this to the one-dimensional (1D) cross-stitch model. Reasonable agreements with analytical results from the quantum master equation are found, for the decay and dephasing process when the flat-band intersects with the dispersive band. Extending the numerical method to the two dimensional (2D) $\alpha-T_3$ model, we find the initial flat-band wave packet preserves its localization when $\alpha = 0$ regardless of disorders and intersections; and it shifts in real space when $\alpha\neq 0$. We point out a method to generate random on-site energy with a prescribed correlation, derive the imaginary error function and the coupled equations of the flat-band and dispersive-band in 1D.
翻訳日:2023-05-31 18:10:45 公開日:2023-05-30
# タスク同変グラフ・マイノショット学習

Task-Equivariant Graph Few-shot Learning ( http://arxiv.org/abs/2305.18758v1 )

ライセンス: Link先を確認
Sungwon Kim, Junseok Lee, Namkyeong Lee, Wonjoong Kim, Seungyoon Choi, Chanyoung Park(参考訳) グラフニューラルネットワーク(GNN)はノード分類タスクで成功したが、その性能はクラス毎に十分な数のラベル付きノードが利用できることに大きく依存している。 実世界の状況では、すべてのクラスに多くのラベル付きノードがあるわけではないし、モデルが新しいクラスを分類する必要があるインスタンスがある場合もあり、手動のラベリングが難しい。 この問題を解決するためには,nnnが限定的な数のラベル付きノード(少数ショットノード分類)でノードを分類できることが重要である。 従来のエピソードなメタラーニング法は,数発のノード分類に成功しているが,本研究の結果から,多種多様なメタタスクで最適性能が達成できることが示唆された。 メタラーニングに基づく少ショットラーニング(FSL)の課題に対処するため,新しいアプローチであるタスク・平等グラフ少ショットラーニング(TEG)フレームワークを提案する。 当社のtegフレームワークでは,限られた数のトレーニングメタタスクを使用して,転送可能なタスク適応戦略を学習することが可能です。 等変ニューラルネットワークを組み込むことにより、TEGはその強力な一般化能力を利用して、高度に適応可能なタスク固有戦略を学ぶことができる。 結果として、TEGは訓練メタタスクを限定して最先端のパフォーマンスを達成する。 各種ベンチマークデータセットを用いた実験では,最小限のメタトレーニングデータを用いた場合であっても,TAGの精度と一般化能力の面で優位性を示し,メタラーニングに基づく少数ショットノード分類の課題に対処する上で,提案手法の有効性を強調した。 私たちのコードは以下のリンクで利用可能です。

Although Graph Neural Networks (GNNs) have been successful in node classification tasks, their performance heavily relies on the availability of a sufficient number of labeled nodes per class. In real-world situations, not all classes have many labeled nodes and there may be instances where the model needs to classify new classes, making manual labeling difficult. To solve this problem, it is important for GNNs to be able to classify nodes with a limited number of labeled nodes, known as few-shot node classification. Previous episodic meta-learning based methods have demonstrated success in few-shot node classification, but our findings suggest that optimal performance can only be achieved with a substantial amount of diverse training meta-tasks. To address this challenge of meta-learning based few-shot learning (FSL), we propose a new approach, the Task-Equivariant Graph few-shot learning (TEG) framework. Our TEG framework enables the model to learn transferable task-adaptation strategies using a limited number of training meta-tasks, allowing it to acquire meta-knowledge for a wide range of meta-tasks. By incorporating equivariant neural networks, TEG can utilize their strong generalization abilities to learn highly adaptable task-specific strategies. As a result, TEG achieves state-of-the-art performance with limited training meta-tasks. Our experiments on various benchmark datasets demonstrate TEG's superiority in terms of accuracy and generalization ability, even when using minimal meta-training data, highlighting the effectiveness of our proposed approach in addressing the challenges of meta-learning based few-shot node classification. Our code is available at the following link: https://github.com/sung-won-kim/TEG
翻訳日:2023-05-31 18:10:28 公開日:2023-05-30
# 不等式制約による組合せ最適化問題の性能向上:D波アドバンテージの不均衡化手法の評価

Improving Performance in Combinatorial Optimization Problems with Inequality Constraints: An Evaluation of the Unbalanced Penalization Method on D-Wave Advantage ( http://arxiv.org/abs/2305.18757v1 )

ライセンス: Link先を確認
J. A. Montanez-Barrera, Pim van den Heuvel, Dennis Willsch, Kristel Michielsen(参考訳) 組合せ最適化問題は、主にその産業的関連性、それらの大規模インスタンスを古典的に解くことの難しさ、および二次的非制約二元最適化(QUBO)の定式化を用いたイジング・ハミルトニアンの同値性から、現在の量子技術のターゲットの1つである。 これらのアプリケーションの多くは不等式制約を持ち、通常、slack変数として知られる追加変数を使用してquboの定式化においてペナルティ化項としてエンコードされる。 slack変数には2つの欠点がある。 (i)これらの変数は最適および準最適解の探索空間を広げ、 (ii)変数は量子アルゴリズムに余分な量子ビットと接続を追加する。 近年,slack変数の使用を避けるために,unbalanced penalizationと呼ばれる新しい手法が提案されている。 この方法は、最適解がイジングハミルトニアンの基底状態によって与えられることを保証し、不均衡なヒューリスティック関数を用いて不等式制約が違反している領域をペナルティ化し、最適解が基底状態の近傍にあることを保証するための追加のslack変数間のトレードオフを提供する。 本研究は,実量子ハードウェアを用いた非平衡ペナリゼーション法を,旅行セールスマン問題 (tsp) に対する d-wave advantage 上でテストする。 その結果,非平衡ペナリゼーション法はslack変数を用いた解を上回り,量子技術で解く最大のtspの新記録を樹立した。

Combinatorial optimization problems are one of the target applications of current quantum technology, mainly because of their industrial relevance, the difficulty of solving large instances of them classically, and their equivalence to Ising Hamiltonians using the quadratic unconstrained binary optimization (QUBO) formulation. Many of these applications have inequality constraints, usually encoded as penalization terms in the QUBO formulation using additional variables known as slack variables. The slack variables have two disadvantages: (i) these variables extend the search space of optimal and suboptimal solutions, and (ii) the variables add extra qubits and connections to the quantum algorithm. Recently, a new method known as unbalanced penalization has been presented to avoid using slack variables. This method offers a trade-off between additional slack variables to ensure that the optimal solution is given by the ground state of the Ising Hamiltonian, and using an unbalanced heuristic function to penalize the region where the inequality constraint is violated with the only certainty that the optimal solution will be in the vicinity of the ground state. This work tests the unbalanced penalization method using real quantum hardware on D-Wave Advantage for the traveling salesman problem (TSP). The results show that the unbalanced penalization method outperforms the solutions found using slack variables and sets a new record for the largest TSP solved with quantum technology.
翻訳日:2023-05-31 18:10:00 公開日:2023-05-30
# VSTAR:シーンとトピックの遷移を考慮した意味理解のためのビデオ地上対話データセット

VSTAR: A Video-grounded Dialogue Dataset for Situated Semantic Understanding with Scene and Topic Transitions ( http://arxiv.org/abs/2305.18756v1 )

ライセンス: Link先を確認
Yuxuan Wang, Zilong Zheng, Xueliang Zhao, Jinpeng Li, Yueqian Wang, and Dongyan Zhao(参考訳) ビデオ地上対話理解は、機械が弱い整列されたビデオや対話から抽出された位置セマンティクスを知覚し、解析し、推論することを必要とする難しい問題である。 既存のベンチマークでは、両方のモダリティはフレーム非依存の視覚的理解タスクと同じだが、シーンやトピックの遷移のようなマルチモーダル対話における固有の属性は無視されている。 本稿では,テレビシリーズ395シリーズに基づく大規模映像グラウンデッド対話理解データセットであるvstar(video-grounded scene andtopic aware dialogue)データセットを提案する。 VSTARに基づいて,シーンセグメンテーションとトピックセグメンテーションの2つのベンチマークと,ビデオグラウンドダイアログ生成のベンチマークを提案する。 これらのベンチマークを用いて,映像対話理解・生成におけるマルチモーダル情報とセグメントの重要性を示す総合的な実験を行った。

Video-grounded dialogue understanding is a challenging problem that requires machine to perceive, parse and reason over situated semantics extracted from weakly aligned video and dialogues. Most existing benchmarks treat both modalities the same as a frame-independent visual understanding task, while neglecting the intrinsic attributes in multimodal dialogues, such as scene and topic transitions. In this paper, we present Video-grounded Scene&Topic AwaRe dialogue (VSTAR) dataset, a large scale video-grounded dialogue understanding dataset based on 395 TV series. Based on VSTAR, we propose two benchmarks for video-grounded dialogue understanding: scene segmentation and topic segmentation, and one benchmark for video-grounded dialogue generation. Comprehensive experiments are performed on these benchmarks to demonstrate the importance of multimodal information and segments in video-grounded dialogue understanding and generation.
翻訳日:2023-05-31 18:09:33 公開日:2023-05-30
# 一般KDEモード探索のための次元化

Dimensionality Reduction for General KDE Mode Finding ( http://arxiv.org/abs/2305.18755v1 )

ライセンス: Link先を確認
Xinyu Luo, Christopher Musco, Cas Widdershoven(参考訳) 高次元確率分布のモードの発見 $d$ は統計学やデータ分析における基本的なアルゴリズム問題である。 D$ が \emph{mixture model} あるいは \emph{kernel density estimates} として表されるとき、この問題を解決するための効率的な方法に特に関心が寄せられているが、最悪の近似や実行時の保証が知られているアルゴリズム的な結果はほとんどない。 本研究では,ガウス混合モデルのモード近似における (LeeLiMusco:2021) の結果を著しく一般化する。 本研究では,一般的なロジスティック,シグモイド,一般化ガウス核を含む,幅広い種類のカーネルを含む混合系のランダム次元低減法を開発した。 Leeらの研究と同様に、我々の次元減少結果は、任意の$\epsilon > 0$に対して、乗法精度(1-\epsilon)$のモード探索のための準多項式アルゴリズムを生成する。 さらに、勾配降下と組み合わせると、この問題に対する効率的な実用的ヒューリスティックが生まれる。 正の結果に加えて、ボックスカーネルの硬度結果も証明し、$\mathit{P} = \mathit{NP}$でない限り、カーネル密度推定のモードを見つける多項式時間アルゴリズムは存在しないことを示した。 現実に使われているカーネル(ガウスやロジスティックカーネルなど)の同様のハードネス結果を得ることは、興味深い将来的な方向性である。

Finding the mode of a high dimensional probability distribution $D$ is a fundamental algorithmic problem in statistics and data analysis. There has been particular interest in efficient methods for solving the problem when $D$ is represented as a \emph{mixture model} or \emph{kernel density estimate}, although few algorithmic results with worst-case approximation and runtime guarantees are known. In this work, we significantly generalize a result of (LeeLiMusco:2021) on mode approximation for Gaussian mixture models. We develop randomized dimensionality reduction methods for mixtures involving a broader class of kernels, including the popular logistic, sigmoid, and generalized Gaussian kernels. As in Lee et al.'s work, our dimensionality reduction results yield quasi-polynomial algorithms for mode finding with multiplicative accuracy $(1-\epsilon)$ for any $\epsilon > 0$. Moreover, when combined with gradient descent, they yield efficient practical heuristics for the problem. In addition to our positive results, we prove a hardness result for box kernels, showing that there is no polynomial time algorithm for finding the mode of a kernel density estimate, unless $\mathit{P} = \mathit{NP}$. Obtaining similar hardness results for kernels used in practice (like Gaussian or logistic kernels) is an interesting future direction.
翻訳日:2023-05-31 18:09:15 公開日:2023-05-30
# gpt4tools: 自己指導による大規模言語モデル教育

GPT4Tools: Teaching Large Language Model to Use Tools via Self-instruction ( http://arxiv.org/abs/2305.18752v1 )

ライセンス: Link先を確認
Rui Yang, Lin Song, Yanwei Li, Sijie Zhao, Yixiao Ge, Xiu Li, Ying Shan(参考訳) 本稿では,Large Language Models (LLM) をマルチモーダルツールで効率的に活用することを目的とする。 ChatGPTやGPT-4のような高度なプロプライエタリなLCMは、高度なプロプライエタリなプロプライエタリなエンジニアリングを通じてツールの利用の可能性を示している。 しかし、これらのモデルは通常、計算コストと一般にアクセスできないデータに依存する。 これらの課題に対処するために,LLaMA や OPT などのオープンソース LLM のツール使用を可能にするための自己命令に基づく GPT4Tools を提案する。 多様なマルチモーダルコンテキストを持つ上級教師に指導追跡データセットを生成する。 提案手法はローランド適応(LoRA)最適化を用いて,視覚的理解や画像生成など,さまざまな視覚的問題を解決するためのオープンソースのLCMを実現する。 さらに、ゼロショットと微調整の両方の方法で実行されるツールを使用するためのllmの能力を評価するベンチマークを提供する。 本手法が様々な言語モデルにおいて有効であることを示す実験により, ツールの呼び出し精度が向上するだけでなく, 見えないツールのゼロショットキャパシティも向上する。 コードとデモはhttps://github.com/StevenGrove/GPT4Tools.comで公開されている。

This paper aims to efficiently enable Large Language Models (LLMs) to use multimodal tools. Advanced proprietary LLMs, such as ChatGPT and GPT-4, have shown great potential for tool usage through sophisticated prompt engineering. Nevertheless, these models typically rely on prohibitive computational costs and publicly inaccessible data. To address these challenges, we propose the GPT4Tools based on self-instruct to enable open-source LLMs, such as LLaMA and OPT, to use tools. It generates an instruction-following dataset by prompting an advanced teacher with various multi-modal contexts. By using the Low-Rank Adaptation (LoRA) optimization, our approach facilitates the open-source LLMs to solve a range of visual problems, including visual comprehension and image generation. Moreover, we provide a benchmark to evaluate the ability of LLMs to use tools, which is performed in both zero-shot and fine-tuning ways. Extensive experiments demonstrate the effectiveness of our method on various language models, which not only significantly improves the accuracy of invoking seen tools, but also enables the zero-shot capacity for unseen tools. The code and demo are available at https://github.com/StevenGrove/GPT4Tools.
翻訳日:2023-05-31 18:08:51 公開日:2023-05-30
# 多入力トッフォリゲートを実装した変分量子アルゴリズムに基づく回路

Variational Quantum Algorithm based circuit that implements the Toffoli gate with multi inputs ( http://arxiv.org/abs/2305.18750v1 )

ライセンス: Link先を確認
Yuval Idan, M.N.Jayakody(参考訳) 本研究の目的は,単一キュービットゲートとCNOTのみを含む多入力トフォリゲートの回路図を求めることである。 そこで我々は,多入力 toffoli ゲートの実装に使用できる2つの変分量子アルゴリズムを開発した。 これらの2つのVQAのコスト関数は、ヒルベルト・シュミット内部積と、トフォリゲートの入力と出力の差を捉えることができる観測可能な期待値を用いて導出される。 2つのansatz回路アーキテクチャを採用し,最適化の実行にpennylaneパッケージを使用する。

The prime objective of this study is to seek a circuit diagram for a multi-inputs Toffoli gate including only single qubit gates and CNOTs. In this regard, we have developed two variational quantum algorithms that can be used to implement a multi-inputs Toffoli gate. The cost functions of these two VQAs are derived by using the Hilbert Schmidt inner product and the expected value of an observable that can capture the difference between the inputs and outputs of a Toffoli gate. We employ two ansatz circuit architectures and use the PennyLane package to execute the optimization.
翻訳日:2023-05-31 18:08:33 公開日:2023-05-30
# 最適ロスレス動的量子ハフマンブロック符号化

Optimal Lossless Dynamic Quantum Huffman Block Encoding ( http://arxiv.org/abs/2305.18748v1 )

ライセンス: Link先を確認
George Androulakis, Rabins Wosti(参考訳) 本稿では,[ieee transactions on information theory 46.4 (2000): 1644-1649]で導入された[scientific reports 7.1 (2017): 14765] 量子ハフマン符号化の適応について述べる。 我々の適応は、次のブロックをエンコードするために連続して適用されるブロック符号化を与える。 また、すべてのブロックで更新されるため、動的エンコーディングでもある。 我々は,この符号化により,他の動的ブロック符号化よりも平均コードワード長が最適であることが証明された。

In this article we present an adaptation of the quantum Huffman encoding which was introduced in [IEEE Transactions on information theory 46.4 (2000): 1644-1649] and was studied in [Scientific Reports 7.1 (2017): 14765]. Our adaptation gives a block encoding as it is applied successively to encode one block after the other. It is also a dynamic encoding because it is updated at every block. We prove that our encoding gives the optimal average codeword length over any other dynamic block encoding with a common jointly orthonormal sequence of length codewords.
翻訳日:2023-05-31 18:08:23 公開日:2023-05-30
# コントラスト低減を用いた物体検出のためのvvc拡張方式

VVC Extension Scheme for Object Detection Using Contrast Reduction ( http://arxiv.org/abs/2305.18782v1 )

ライセンス: Link先を確認
Takahiro Shindo, Taiju Watanabe, Kein Yamada, Hiroshi Watanabe(参考訳) 近年,ディープラーニングを用いた画像認識技術の顕著な発展により,人工知能(AI)を用いた映像解析が盛んに行われている。 2019年、Moving Picture Experts Group(MPEG)は、画像認識のためのビデオコーディング技術として、VCM(Video Coding for Machines)の標準化を開始した。 vcmの枠組みでは、高い画像認識精度とビデオ圧縮性能の両方が必要である。 本稿では,Versatile Video Coding (VVC) を用いたオブジェクト検出のためのビデオ符号化の拡張方式を提案する。 人間の視覚のためのビデオとは異なり、物体検出に使用されるビデオは大きな画像サイズや高いコントラストを必要としない。 画像のダウンサンプリングは送信される情報の量を減らすことができる。 画像コントラストの低下により、画像のエントロピーは小さくなる。 そこで,提案方式では,元の画像のサイズとコントラストを小さくし,VVCエンコーダで符号化して高圧縮性能を実現する。 次に、VVCデコーダからの出力画像がバイコビック法を用いて元の画像サイズに復元される。 実験の結果,提案手法は物体検出精度において,通常のvvcよりも高い符号化性能が得られることがわかった。

In recent years, video analysis using Artificial Intelligence (AI) has been widely used, due to the remarkable development of image recognition technology using deep learning. In 2019, the Moving Picture Experts Group (MPEG) has started standardization of Video Coding for Machines (VCM) as a video coding technology for image recognition. In the framework of VCM, both higher image recognition accuracy and video compression performance are required. In this paper, we propose an extention scheme of video coding for object detection using Versatile Video Coding (VVC). Unlike video for human vision, video used for object detection does not require a large image size or high contrast. Since downsampling of the image can reduce the amount of information to be transmitted. Due to the decrease in image contrast, entropy of the image becomes smaller. Therefore, in our proposed scheme, the original image is reduced in size and contrast, then coded with VVC encoder to achieve high compression performance. Then, the output image from the VVC decoder is restored to its original image size using the bicubic method. Experimental results show that the proposed video coding scheme achieves better coding performance than regular VVC in terms of object detection accuracy.
翻訳日:2023-05-31 18:00:21 公開日:2023-05-30
# 誰がサービスに興味を持つのか? ユーザターゲティングのためのエンティティグラフ学習システム

Who Would be Interested in Services? An Entity Graph Learning System for User Targeting ( http://arxiv.org/abs/2305.18780v1 )

ライセンス: Link先を確認
Dan Yang, Binbin Hu, Xiaoyan Yang, Yue Shen, Zhiqiang Zhang, Jinjie Gu, Guannan Zhang(参考訳) さまざまなモバイルデバイスの人気が高まり,特定のサービスに関心を持つターゲットユーザを効果的かつ効率的に特定することを目的とした,ユーザターゲティングの注目が高まっている。 ユーザターゲティングタスクのための先駆的な作業は、一般的に、いくつかのアクティブユーザを種として、類似性に基づく拡張を行います。 本稿では,コールドスタート問題に対して適用可能なユーザターゲティング機能を実現するために,エンティティグラフ学習(egl)システムを設計する。 EGLシステムは、スケーラビリティとタイムラインの要求を満たすために、ハイブリッドオンラインオフラインアーキテクチャに従う。 具体的には,オフラインステージでは,ヘビーウェイトなエンティティグラフ構築とユーザエンティティ嗜好学習に着目し,高価なシードユーザから逸脱した3段階関係マイニング手順(trmp)を提案する。 オンラインの段階では、オフラインのステージからエンティティグラフに基づいてリアルタイムでユーザーターゲティングを行うことができる。 ユーザーターゲティングプロセスはグラフ推論に基づいているため、プロセス全体が透過的で、マーケターにとって操作しやすい。 最後に、大規模なオフライン実験とオンラインA/Bテストにより、提案したEGLシステムの優れた性能を示す。

With the growing popularity of various mobile devices, user targeting has received a growing amount of attention, which aims at effectively and efficiently locating target users that are interested in specific services. Most pioneering works for user targeting tasks commonly perform similarity-based expansion with a few active users as seeds, suffering from the following major issues: the unavailability of seed users for newcoming services and the unfriendliness of black-box procedures towards marketers. In this paper, we design an Entity Graph Learning (EGL) system to provide explainable user targeting ability meanwhile applicable to addressing the cold-start issue. EGL System follows the hybrid online-offline architecture to satisfy the requirements of scalability and timeliness. Specifically, in the offline stage, the system focuses on the heavyweight entity graph construction and user entity preference learning, in which we propose a Three-stage Relation Mining Procedure (TRMP), breaking loose from the expensive seed users. At the online stage, the system offers the ability of user targeting in real-time based on the entity graph from the offline stage. Since the user targeting process is based on graph reasoning, the whole process is transparent and operation-friendly to marketers. Finally, extensive offline experiments and online A/B testing demonstrate the superior performance of the proposed EGL System.
翻訳日:2023-05-31 18:00:02 公開日:2023-05-30
# 境界から始まる:確率論的堅牢な学習に関する幾何学的考察

It begins with a boundary: A geometric view on probabilistically robust learning ( http://arxiv.org/abs/2305.18779v1 )

ライセンス: Link先を確認
Leon Bungert, Nicol\'as Garc\'ia Trillos, Matt Jacobs, Daniel McKenzie, {\DJ}or{\dj}e Nikoli\'c, Qingsong Wang(参考訳) ディープニューラルネットワークは多くの分類タスクにおいて超人的性能を達成したが、しばしば、敵対的に生成された例に対する堅牢性の欠如を心配する。 このようにして、経験的リスク最小化(ERM)を逆向きに堅牢な枠組みに改革するためのかなりの努力が注がれている。 近年、敵の訓練によって提供される頑丈さと、ERMのよりクリーンな精度とより高速な訓練時間とを補間するアプローチに注目が移っている。 本稿では,そのような手法 - 確率的ロバスト学習 (prl) (robey et al., icml, 2022) について,新鮮で幾何学的な考察を行う。 本稿では, PRLを理解するための幾何学的枠組みを提案し, 元の定式化における微妙な欠陥を識別し, この問題に対処するための確率的非局所周辺関数の族を導入する。 我々は,新しい緩和法と物性を用いた解の存在を証明し,導入したペリメータの局所限界を検証した。

Although deep neural networks have achieved super-human performance on many classification tasks, they often exhibit a worrying lack of robustness towards adversarially generated examples. Thus, considerable effort has been invested into reformulating Empirical Risk Minimization (ERM) into an adversarially robust framework. Recently, attention has shifted towards approaches which interpolate between the robustness offered by adversarial training and the higher clean accuracy and faster training times of ERM. In this paper, we take a fresh and geometric view on one such method -- Probabilistically Robust Learning (PRL) (Robey et al., ICML, 2022). We propose a geometric framework for understanding PRL, which allows us to identify a subtle flaw in its original formulation and to introduce a family of probabilistic nonlocal perimeter functionals to address this. We prove existence of solutions using novel relaxation methods and study properties as well as local limits of the introduced perimeters.
翻訳日:2023-05-31 17:59:42 公開日:2023-05-30
# 適応型条件量子ニューラルプロセス

Adaptive Conditional Quantile Neural Processes ( http://arxiv.org/abs/2305.18777v1 )

ライセンス: Link先を確認
Peiman Mohseni, Nick Duffield, Bani Mallick, Arman Hasanzadeh(参考訳) ニューラルネットワークは確率論的過程をパラメータ化するためにニューラルネットワークの柔軟性を継承する確率論的モデルのファミリーである。 特に回帰問題において、よく校正された予測を提供し、新しいタスクに素早く適応するにもかかわらず、予測可能性を表すのによく使われるガウスの仮定は、マルチモーダル分布のようなより複雑な分布を捉えることに失敗する。 この制限を克服するために、ニューラルプロセスファミリーの新しいメンバーである条件量子ニューラルプロセス(CQNP)を提案する。 モデルが情報量の推定に集中することを学ぶ量子回帰の拡張を導入することにより、サンプリング効率と予測精度をさらに向上できることが示される。 実データおよび合成データを用いた実験は,ベースラインに比べて予測性能が大幅に向上し,マルチモーダリティなどの異種分布特性のモデル化が向上した。

Neural processes are a family of probabilistic models that inherit the flexibility of neural networks to parameterize stochastic processes. Despite providing well-calibrated predictions, especially in regression problems, and quick adaptation to new tasks, the Gaussian assumption that is commonly used to represent the predictive likelihood fails to capture more complicated distributions such as multimodal ones. To overcome this limitation, we propose Conditional Quantile Neural Processes (CQNPs), a new member of the neural processes family, which exploits the attractive properties of quantile regression in modeling the distributions irrespective of their form. By introducing an extension of quantile regression where the model learns to focus on estimating informative quantiles, we show that the sampling efficiency and prediction accuracy can be further enhanced. Our experiments with real and synthetic datasets demonstrate substantial improvements in predictive performance compared to the baselines, and better modeling of heterogeneous distributions' characteristics such as multimodality.
翻訳日:2023-05-31 17:59:26 公開日:2023-05-30
# 固体キャビティ量子力学における動的共鳴蛍光

Dynamic resonance fluorescence in solid-state cavity quantum electrodynamics ( http://arxiv.org/abs/2305.18776v1 )

ライセンス: Link先を確認
Shunfa Liu, Chris Gustin, Hanqing Liu, Xueshi Li, Ying Yu, Haiqiao Ni, Zhichuan Niu, Stephen Hughes, Xuehua Wang and Jin Liu(参考訳) 2レベルシステムと電磁場の間のコヒーレント相互作用は、基礎量子物理学と現代のフォトニック量子技術の基礎となっている。 共鳴蛍光は、2レベル系が共振レーザーによって連続的に駆動されるとき、非古典的な光子放出がモロー・トリップレットの形で現れる。 短い光パルスを用いて静電状態から動的状態へ励起共鳴蛍光は、高コヒーレントな単一光子のオンデマンド発光を生成する。 力学系の駆動力をさらに増大させることで、光子数重ね合わせ、光子数絡み合い、光子束状態におけるエキゾチックな非古典光放出を追求することができる。 しかし,強い駆動強度下での動的共振蛍光の特性であるモルロー三重項を超える長い後続スペクトルは未だ観測されていない。 本稿では,固体キャビティ量子電磁力学系におけるモルロー三重項を超える動的共鳴蛍光スペクトルの直接観測と系統的研究を行う。 フォノン散乱を含む全量子モデルを用いて、最大5対の側ピークを持つ動的共鳴蛍光スペクトル、励起減衰誘起スペクトル非対称性、キャビティフィルタリング効果を観察し、定量的にモデル化した。 時間分解測定により、多重側ピークは励起パルスの異なる時間的位置に関連する放出の干渉から生じることが明らかとなった。 我々の研究は、2レベル系の動的駆動を伴う様々なエキゾチックな光量子状態の生成を促進する。

The coherent interaction between a two-level system and electromagnetic fields serves as a foundation for fundamental quantum physics and modern photonic quantum technology. A profound example is resonance fluorescence, where the non-classical photon emission appears in the form of a Mollow-triplet when a two-level system is continuously driven by a resonant laser. Pushing resonance fluorescence from a static to dynamic regime by using short optical pulses generates on-demand emissions of highly coherent single photons. Further increasing the driving strength in the dynamical regime enables the pursuit of exotic non-classical light emission in photon number superposition, photon number entanglement, and photon bundle states. However, the long-sought-after spectrum beyond the Mollow-triplet, a characteristic of dynamic resonance fluorescence under strong driving strength, has not been observed yet. Here we report the direct observation and systematic investigations of dynamic resonance fluorescence spectra beyond the Mollow-triplet in a solid-state cavity quantum electrodynamic system. The dynamic resonance fluorescence spectra with up to five pairs of side peaks, excitation detuning induced spectral asymmetry, and cavity filtering effect are observed and quantitatively modeled by a full quantum model with phonon scattering included. Time-resolved measurements further reveal that the multiple side peaks originate from interference of the emission associated with different temporal positions of the excitation pulses. Our work facilitates the generation of a variety of exotic quantum states of light with dynamic driving of two-level systems.
翻訳日:2023-05-31 17:59:08 公開日:2023-05-30
# 進化的アルゴリズムによるベイズ決定木

Bayesian Decision Trees Inspired from Evolutionary Algorithms ( http://arxiv.org/abs/2305.18774v1 )

ライセンス: Link先を確認
Efthyvoulos Drousiotis, Alexander M. Phillips, Paul G. Spirakis, Simon Maskell(参考訳) ベイズ決定木(DT)は一般に、複雑で不確実なデータを扱うことができるため、通常の決定木(DT)よりも高度で正確なモデルと考えられている。 Bayesian DTsの既存の作業では、Markov Chain Monte Carlo氏(MCMC)が受け入れ拒否のメカニズムとサンプルを使って、次のイテレーションに進むための単純な提案を行っている。 より洗練されたサンプリング方法を提案するか、異なる数値ベイズ法を設計することにより、バーンイン期間を短縮できる。 本稿では,mcmcを本質的に並列なアルゴリズムであるシーケンシャルモンテカルロ (smc) に置き換え,進化的アルゴリズム (ea) にインスパイアされたより効果的なサンプリング戦略を提案する。 実験により、SMCとEAを組み合わせることで、100倍のイテレーションでMCMCよりも正確な結果が得られることが示された。

Bayesian Decision Trees (DTs) are generally considered a more advanced and accurate model than a regular Decision Tree (DT) because they can handle complex and uncertain data. Existing work on Bayesian DTs uses Markov Chain Monte Carlo (MCMC) with an accept-reject mechanism and sample using naive proposals to proceed to the next iteration, which can be slow because of the burn-in time needed. We can reduce the burn-in period by proposing a more sophisticated way of sampling or by designing a different numerical Bayesian approach. In this paper, we propose a replacement of the MCMC with an inherently parallel algorithm, the Sequential Monte Carlo (SMC), and a more effective sampling strategy inspired by the Evolutionary Algorithms (EA). Experiments show that SMC combined with the EA can produce more accurate results compared to MCMC in 100 times fewer iterations.
翻訳日:2023-05-31 17:58:45 公開日:2023-05-30
# SFCNeXt:小さなサンプルサイズで効率的な脳年齢推定のための完全畳み込みネットワーク

SFCNeXt: a simple fully convolutional network for effective brain age estimation with small sample size ( http://arxiv.org/abs/2305.18771v1 )

ライセンス: Link先を確認
Yu Fu, Yanyan Huang, Shunjie Dong, Yalin Wang, Tianbai Yu, Meng Niu and Cheng Zhuo(参考訳) 深層ニューラルネットワーク(dnn)は、t1強調磁気共鳴画像(t1 mri)から健康な脳の経年変化を予測するために設計されており、予測された脳年齢は、発達関連または加齢関連疾患の早期発見に有用なバイオマーカーとなる可能性がある。 脳年齢推定のための最近のdnnモデルは、多段特徴の洗練のために、大きなサンプルサイズと複雑なネットワーク構造に依存することが多い。 しかし、臨床応用シナリオでは、研究者は通常、これらの複雑なモデルの徹底的なトレーニングのために各データセンターで数千から数万のmriを得ることができない。 本稿では、偏りのある小型コホートにおける脳年齢推定のための簡易完全畳み込みネットワーク(SFCNeXt)を提案する。 SFCNeXtはSingle Pathway Encoded ConvNeXt (SPEC)とHybrid Ranking Loss (HRL)で構成されており、MRI、年齢、各被験者のランキングの特徴を十分に調べて、軽量な方法で脳年齢を推定することを目的としている。 実験により,本手法の優位性と効率性を示した。

Deep neural networks (DNN) have been designed to predict the chronological age of a healthy brain from T1-weighted magnetic resonance images (T1 MRIs), and the predicted brain age could serve as a valuable biomarker for the early detection of development-related or aging-related disorders. Recent DNN models for brain age estimations usually rely too much on large sample sizes and complex network structures for multi-stage feature refinement. However, in clinical application scenarios, researchers usually cannot obtain thousands or tens of thousands of MRIs in each data center for thorough training of these complex models. This paper proposes a simple fully convolutional network (SFCNeXt) for brain age estimation in small-sized cohorts with biased age distributions. The SFCNeXt consists of Single Pathway Encoded ConvNeXt (SPEC) and Hybrid Ranking Loss (HRL), aiming to estimate brain ages in a lightweight way with a sufficient exploration of MRI, age, and ranking features of each batch of subjects. Experimental results demonstrate the superiority and efficiency of our approach.
翻訳日:2023-05-31 17:58:30 公開日:2023-05-30
# DualVAE: 生成画像と実画像の色を制御

DualVAE: Controlling Colours of Generated and Real Images ( http://arxiv.org/abs/2305.18769v1 )

ライセンス: Link先を確認
Keerth Rathakumar, David Liebowitz, Christian Walder, Kristen Moore, Salil S. Kanhere(参考訳) カラーコントロールされた画像生成と操作は、アーティストやグラフィックデザイナーにとって興味深い。 VQ-VAE(Vector Quantized Variational AutoEncoders)とAR(Autoregressive AutoEncoders)は高品質な画像を生成することができるが、色属性を制御するための明示的な表現機構がない。 色と幾何学の非交叉表現を学習することで、このような制御を提供するハイブリッド表現モデルであるDualVAEを紹介する。 幾何学は、構造的特徴を識別する画像強度マッピングによって表現される。 乱れの表現は2つの新しいメカニズムによって得られる。 (i)画像色属性と幾何学的属性を分離した二重分岐アーキテクチャ、 (ii)新しいELBOで、色と幾何学の複合表現を訓練する。 DualVAEは、生成された画像の色を制御でき、模範画像から得られた色潜在表現を転送することで、既存の画像を再カラー化することができる。 我々はDualVAEがVQ-GANよりも2倍近いFID画像を生成することを実証した。

Colour controlled image generation and manipulation are of interest to artists and graphic designers. Vector Quantised Variational AutoEncoders (VQ-VAEs) with autoregressive (AR) prior are able to produce high quality images, but lack an explicit representation mechanism to control colour attributes. We introduce DualVAE, a hybrid representation model that provides such control by learning disentangled representations for colour and geometry. The geometry is represented by an image intensity mapping that identifies structural features. The disentangled representation is obtained by two novel mechanisms: (i) a dual branch architecture that separates image colour attributes from geometric attributes, and (ii) a new ELBO that trains the combined colour and geometry representations. DualVAE can control the colour of generated images, and recolour existing images by transferring the colour latent representation obtained from an exemplar image. We demonstrate that DualVAE generates images with FID nearly two times better than VQ-GAN on a diverse collection of datasets, including animated faces, logos and artistic landscapes.
翻訳日:2023-05-31 17:58:10 公開日:2023-05-30
# HiFA:高度拡散誘導型高忠実テキスト・ツー・3D

HiFA: High-fidelity Text-to-3D with Advanced Diffusion Guidance ( http://arxiv.org/abs/2305.18766v1 )

ライセンス: Link先を確認
Joseph Zhu and Peiye Zhuang(参考訳) テキストから3dの自動合成は、3dモデルの最適化によって著しく進歩した。 既存の方法は、拡散モデルのような事前訓練されたテキストから画像の生成モデルに依存し、NeRF(Neural Radiance Fields)の2次元レンダリングのスコアを提供し、NeRFの最適化に利用される。 しかし、これらの手法は3次元幾何学の理解が限られているため、しばしば複数の視点にわたるアーティファクトや不整合に遭遇する。 これらの制約に対処するため,拡散前の拡散を用いた最適化損失の補正を提案する。 さらに, 拡散の可能性を事前に解き放つ新しい学習手法を提案する。 3次元幾何表現を改善するために、NeRFレンダリング画像に補助深度監督を適用し、NeRFの密度場を正規化する。 広範な実験により,先行研究よりも優れた手法が示され,高度なフォトリアリズムとマルチビューの一貫性が向上した。

Automatic text-to-3D synthesis has achieved remarkable advancements through the optimization of 3D models. Existing methods commonly rely on pre-trained text-to-image generative models, such as diffusion models, providing scores for 2D renderings of Neural Radiance Fields (NeRFs) and being utilized for optimizing NeRFs. However, these methods often encounter artifacts and inconsistencies across multiple views due to their limited understanding of 3D geometry. To address these limitations, we propose a reformulation of the optimization loss using the diffusion prior. Furthermore, we introduce a novel training approach that unlocks the potential of the diffusion prior. To improve 3D geometry representation, we apply auxiliary depth supervision for NeRF-rendered images and regularize the density field of NeRFs. Extensive experiments demonstrate the superiority of our method over prior works, resulting in advanced photo-realism and improved multi-view consistency.
翻訳日:2023-05-31 17:57:52 公開日:2023-05-30
# 適正化はいつ収量校正を損なうか?

When Does Optimizing a Proper Loss Yield Calibration? ( http://arxiv.org/abs/2305.18764v1 )

ライセンス: Link先を確認
Jaros{\l}aw B{\l}asiok, Parikshit Gopalan, Lunjia Hu, Preetum Nakkiran(参考訳) 適切な損失関数の最適化は、高いキャリブレーション特性を持つ予測器をもたらすと一般的に信じられており、直観的に言えば、この損失の全体的な最適は、実際にキャリブレーションされる地対地確率を予測することである。 しかし、一般的な機械学習モデルは、基礎的真実を含まない予測者の制限された家族に対する損失をほぼ最小に抑えるよう訓練されている。 制限された家族収量校正モデルに対する適切な損失の最適化はどのような状況で可能か? どんな正確なキャリブレーションが保証されますか。 本研究では,これらの質問に対する厳密な回答を提供する。 我々は、この大域的最適性を、リプシッツ関数の族で予測を後処理することで、予測器の(適切な)損失を低減できないという局所最適条件に置き換える。 この局所最適性を持つ予測器は、kakade-foster (2008), b{\l}asiok et al. (2023) で定義された滑らかなキャリブレーションを満たす。 局所的最適性は、適切に訓練されたdnnによって実現され、それが適切な損失最小化のみから校正される理由が示唆される。 最後に,局所的最適度とキャリブレーション誤差の相関関係を両方向で示す: ほぼ校正された予測器もほぼ局所的最適である。

Optimizing proper loss functions is popularly believed to yield predictors with good calibration properties; the intuition being that for such losses, the global optimum is to predict the ground-truth probabilities, which is indeed calibrated. However, typical machine learning models are trained to approximately minimize loss over restricted families of predictors, that are unlikely to contain the ground truth. Under what circumstances does optimizing proper loss over a restricted family yield calibrated models? What precise calibration guarantees does it give? In this work, we provide a rigorous answer to these questions. We replace the global optimality with a local optimality condition stipulating that the (proper) loss of the predictor cannot be reduced much by post-processing its predictions with a certain family of Lipschitz functions. We show that any predictor with this local optimality satisfies smooth calibration as defined in Kakade-Foster (2008), B{\l}asiok et al. (2023). Local optimality is plausibly satisfied by well-trained DNNs, which suggests an explanation for why they are calibrated from proper loss minimization alone. Finally, we show that the connection between local optimality and calibration error goes both ways: nearly calibrated predictors are also nearly locally optimal.
翻訳日:2023-05-31 17:57:35 公開日:2023-05-30
# CTSN:2ストリームスキニングネットワークを用いた骨格型文字の布の変形予測

CTSN: Predicting Cloth Deformation for Skeleton-based Characters with a Two-stream Skinning Network ( http://arxiv.org/abs/2305.18808v1 )

ライセンス: Link先を確認
Yudi Li and Min Tang and Yun Yang and Ruofeng Tong and Shuangcai Yang and Yao Li and Bailin An and Qilong Kou(参考訳) 本稿では,2ストリームネットワークを用いた骨格型文字の布の変形予測手法を提案する。 我々のアプローチで処理されるキャラクターは人間に限らず、魚やペットのような非ヒトのターゲットの他の骨格に基づく表現にもなり得る。 我々は,スケルトンベースとメッシュベースの残差ネットワークからなる新しいネットワークアーキテクチャを用いて,テンプレート布地メッシュの残差として粗い特徴としわの特徴を学習する。 我々のネットワークは、ゆるい衣服やドレスの変形を予測するのに使われている。 我々は、ネットワークのメモリフットプリントが低く、結果としてストレージと計算要求が減少することを保証する。 実際には、スケルトンベースのキャラクタのための単一の布メッシュの予測には、NVIDIA GeForce RTX 3090 GPU上で約7ミリ秒かかります。 従来の手法と比較して,ネットワークは細部やしわで微細な変形結果を生成することができる。

We present a novel learning method to predict the cloth deformation for skeleton-based characters with a two-stream network. The characters processed in our approach are not limited to humans, and can be other skeletal-based representations of non-human targets such as fish or pets. We use a novel network architecture which consists of skeleton-based and mesh-based residual networks to learn the coarse and wrinkle features as the overall residual from the template cloth mesh. Our network is used to predict the deformation for loose or tight-fitting clothing or dresses. We ensure that the memory footprint of our network is low, and thereby result in reduced storage and computational requirements. In practice, our prediction for a single cloth mesh for the skeleton-based character takes about 7 milliseconds on an NVIDIA GeForce RTX 3090 GPU. Compared with prior methods, our network can generate fine deformation results with details and wrinkles.
翻訳日:2023-05-31 17:52:35 公開日:2023-05-30
# クラス増分学習のための予測誤差に基づく分類

Prediction Error-based Classification for Class-Incremental Learning ( http://arxiv.org/abs/2305.18806v1 )

ライセンス: Link先を確認
Micha{\l} Zaj\k{a}c, Tinne Tuytelaars, Gido M. van de Ven(参考訳) class-incremental learning (cil) は、インクリメンタルな方法で提示されるすべてのクラスを識別することを学ぶことを目的とした、継続学習の特に難しい変種である。 既存のアプローチは、トレーニング中に一緒に見られなかったクラスに割り当てられたスコアの過度な忘れと不均衡に苦しむことが多い。 本研究では,従来の識別的・生成的分類パラダイムとは異なる予測誤りに基づく分類法(PEC)を提案する。 PECは、そのクラスのデータ上で凍結ランダムニューラルネットワークの出力を複製するために訓練されたモデルの予測誤差を測定することで、クラススコアを算出する。 この方法はガウス過程の後方分散に基づく分類規則の近似として解釈できる。 PECは、サンプル効率、チューニングの容易さ、データを一度に1つのクラスに提示しても有効性など、いくつかの実用的な利点を提供している。 実験の結果,PECはシングルパススルーデータCILにおいて高い性能を示し,全てのケースにおいて他のリハーサルフリーベースラインよりも優れており,多くのベンチマークにおいて中程度のリプレイバッファサイズを持つリハーサルベースメソッドよりも優れていた。

Class-incremental learning (CIL) is a particularly challenging variant of continual learning, where the goal is to learn to discriminate between all classes presented in an incremental fashion. Existing approaches often suffer from excessive forgetting and imbalance of the scores assigned to classes that have not been seen together during training. In this study, we introduce a novel approach, Prediction Error-based Classification (PEC), which differs from traditional discriminative and generative classification paradigms. PEC computes a class score by measuring the prediction error of a model trained to replicate the outputs of a frozen random neural network on data from that class. The method can be interpreted as approximating a classification rule based on Gaussian Process posterior variance. PEC offers several practical advantages, including sample efficiency, ease of tuning, and effectiveness even when data are presented one class at a time. Our empirical results show that PEC performs strongly in single-pass-through-data CIL, outperforming other rehearsal-free baselines in all cases and rehearsal-based methods with moderate replay buffer size in most cases across multiple benchmarks.
翻訳日:2023-05-31 17:52:21 公開日:2023-05-30
# Koopa: Koopman Predictorsで非定常時系列ダイナミクスを学ぶ

Koopa: Learning Non-stationary Time Series Dynamics with Koopman Predictors ( http://arxiv.org/abs/2305.18803v1 )

ライセンス: Link先を確認
Yong Liu, Chenyu Li, Jianmin Wang, Mingsheng Long(参考訳) 実世界の時系列は、深い予測モデルに主要な課題をもたらす固有の非定常性によって特徴づけられる。 従来のモデルは時間分布の変化によって引き起こされる複雑な直列変動に苦しむが、根底にある時変ダイナミクスを根本的に考慮する現代のクープマン理論で非定常時系列に取り組む。 複雑な力学系を記述するクープマン理論に触発されて、フーリエフィルタにより複雑な非定常級数から時間不変成分と時間不変成分を解き、クープマン予測器を設計し、それぞれのダイナミクスを前進させた。 技術的には、階層的ダイナミクスを学習するスタック可能なブロックからなる新しいkoopman予測器としてkoopaを提案する。 クーパはクープマン埋め込みの測定関数を求め、クープマン作用素を暗黙的な遷移の線形ポートレートとして利用する。 強局所性を示す時間変化ダイナミクスに対処するため、koopaは、時間近傍の文脈認識演算子を計算し、入ってくる地上真理を利用して予測地平線をスケールできる。 さらに,クープマン予測器を深い残差構造に組み込むことで,従来のクープマン予測器の結合再構成損失を解消し,エンドツーエンドの予測目標最適化を実現する。 最先端のモデルと比較すると、Koopaは77.3%のトレーニング時間と76.0%のメモリを節約しながら、競争性能を達成した。

Real-world time series is characterized by intrinsic non-stationarity that poses a principal challenge for deep forecasting models. While previous models suffer from complicated series variations induced by changing temporal distribution, we tackle non-stationary time series with modern Koopman theory that fundamentally considers the underlying time-variant dynamics. Inspired by Koopman theory of portraying complex dynamical systems, we disentangle time-variant and time-invariant components from intricate non-stationary series by Fourier Filter and design Koopman Predictor to advance respective dynamics forward. Technically, we propose Koopa as a novel Koopman forecaster composed of stackable blocks that learn hierarchical dynamics. Koopa seeks measurement functions for Koopman embedding and utilizes Koopman operators as linear portraits of implicit transition. To cope with time-variant dynamics that exhibits strong locality, Koopa calculates context-aware operators in the temporal neighborhood and is able to utilize incoming ground truth to scale up forecast horizon. Besides, by integrating Koopman Predictors into deep residual structure, we ravel out the binding reconstruction loss in previous Koopman forecasters and achieve end-to-end forecasting objective optimization. Compared with the state-of-the-art model, Koopa achieves competitive performance while saving 77.3% training time and 76.0% memory.
翻訳日:2023-05-31 17:51:59 公開日:2023-05-30
# AnoOnly: 通常のデータにロスのない半教師付き異常検出

AnoOnly: Semi-Supervised Anomaly Detection without Loss on Normal Data ( http://arxiv.org/abs/2305.18798v1 )

ライセンス: Link先を確認
Yixuan Zhou, Peiyu Yang, Yi Qu, Xing Xu, Fumin Shen, and Heng Tao Shen(参考訳) semi-supervised anomaly detection (ssad) 法は、少数ながら指導的な異常インスタンスを活用することで、unsupervised anomaly detection (uad) を強化する効果を実証した。 しかしながら、異常に対する均質な正規データの優位は、ssadモデルを効果的に知覚する異常に対してバイアスする。 この問題に対処し,不均衡な正規データと異常データとのバランスの取れた監督を実現するために,anoonly (anomaly only) と呼ばれる新しいフレームワークを開発した。 厳格な損失監視を行う既存のssadメソッドとは異なり、ano onlyはそれを中断し、通常のデータに対する弱い監視方式を導入する。 この弱い監視はバッチ正規化を利用してインスタンス化され、通常のデータ上でクラスタ学習を暗黙的に実行する。 既存のssadメソッドに組み込むと、提案されたanoのみは様々なモデルとデータセットにまたがる顕著なパフォーマンス向上を示し、新しい最先端のパフォーマンスを達成する。 さらに、私たちのanoonlyは、データ汚染に苦しんでいるときにノイズをラベル付けするためにネイティブに堅牢です。 私たちのコードはhttps://github.com/cool-xuan/anoonlyで公開されています。

Semi-supervised anomaly detection (SSAD) methods have demonstrated their effectiveness in enhancing unsupervised anomaly detection (UAD) by leveraging few-shot but instructive abnormal instances. However, the dominance of homogeneous normal data over anomalies biases the SSAD models against effectively perceiving anomalies. To address this issue and achieve balanced supervision between heavily imbalanced normal and abnormal data, we develop a novel framework called AnoOnly (Anomaly Only). Unlike existing SSAD methods that resort to strict loss supervision, AnoOnly suspends it and introduces a form of weak supervision for normal data. This weak supervision is instantiated through the utilization of batch normalization, which implicitly performs cluster learning on normal data. When integrated into existing SSAD methods, the proposed AnoOnly demonstrates remarkable performance enhancements across various models and datasets, achieving new state-of-the-art performance. Additionally, our AnoOnly is natively robust to label noise when suffering from data contamination. Our code is publicly available at https://github.com/cool-xuan/AnoOnly.
翻訳日:2023-05-31 17:51:34 公開日:2023-05-30
# 双曲空間における弱教師付き視聴覚暴力検出の学習

Learning Weakly Supervised Audio-Visual Violence Detection in Hyperbolic Space ( http://arxiv.org/abs/2305.18797v1 )

ライセンス: Link先を確認
Xiaogang Peng, Hao Wen, Yikai Luo, Xiao Zhou, Keyang Yu, Yigang Wang, Zizhao Wu(参考訳) 近年,音声・視覚的暴力検出の弱さが注目されている。 このタスクの目的は、ビデオレベルのラベルに基づいて、マルチモーダルデータ内の暴力的セグメントを特定することである。 この分野の進歩にもかかわらず、以前の研究で使われた伝統的なユークリッドニューラルネットワークは、特徴空間の制限のために、高度に差別的な表現を捉えるのが困難である。 そこで我々は,双曲空間におけるスニペット埋め込みを学習し,モデル識別を改善する新しいフレームワークhypervdを提案する。 本フレームワークはマルチモーダル融合のためのdetour fusionモジュールから成り,オーディオ信号と視覚信号間の不整合を効果的に緩和する。 さらに,双曲空間におけるスニペット間の特徴的類似性と時間的関係を推定する,完全双曲グラフ畳み込みネットワークの2つの分枝を寄与する。 この空間でスニペット表現を学習することで、このフレームワークは暴力的な出来事と通常の出来事のセマンティックな差異を効果的に学習する。 XD-Violenceベンチマークの大規模な実験により,本手法は最先端の手法よりも大きなマージンで優れていることが示された。

In recent years, the task of weakly supervised audio-visual violence detection has gained considerable attention. The goal of this task is to identify violent segments within multimodal data based on video-level labels. Despite advances in this field, traditional Euclidean neural networks, which have been used in prior research, encounter difficulties in capturing highly discriminative representations due to limitations of the feature space. To overcome this, we propose HyperVD, a novel framework that learns snippet embeddings in hyperbolic space to improve model discrimination. Our framework comprises a detour fusion module for multimodal fusion, effectively alleviating modality inconsistency between audio and visual signals. Additionally, we contribute two branches of fully hyperbolic graph convolutional networks that excavate feature similarities and temporal relationships among snippets in hyperbolic space. By learning snippet representations in this space, the framework effectively learns semantic discrepancies between violent and normal events. Extensive experiments on the XD-Violence benchmark demonstrate that our method outperforms state-of-the-art methods by a sizable margin.
翻訳日:2023-05-31 17:51:16 公開日:2023-05-30
# 断続的明示的戦略を持つ交互時間 \mu-calculus

The Alternating-Time \mu-Calculus With Disjunctive Explicit Strategies ( http://arxiv.org/abs/2305.18795v1 )

ライセンス: Link先を確認
Merlin Humml, Lutz Schr\"oder, Dirk Pattinson(参考訳) 交互時間時間論理(英語版)(atl)とその拡張(交互時間$\mu$-calculus (amc)を含む)は、並行ゲーム構造におけるエージェントの連立の戦略的能力の仕様を提供する。 論理の鍵となる要素は、あるエージェントの連立が与えられた目標を強制するための共同戦略を持つことを示す経路量化器である。 この基本的な設定は、ATLの明示的な戦略(ATLES)のように、一部のエージェントが特定の名前の戦略を使用するように(無効に)コミットするように拡張されている。 本研究は, ATLES を固定点演算子と戦略解法で拡張し, 時間的特性(公正性など)のより柔軟な定式化と, コミットメントにおける制御された非決定論の一形態を実現するために, AMCDES (Disjunctive explicit Strategy) と交互に$\mu$-calculus に到達する。 私たちの主な成果は、満足度チェックのためのExpTimeアッパーバウンド(つまりExpTime完全)です。 また、明示的戦略の一定の解釈の下でのモデル検査における上限QP (quasipolynomial time) と NP $\cap$ coNP を、オープン解釈で NP を証明した。 提案手法は,提案演算子のみを特徴とする非常に単純な一段階論理と,ネストを伴わない次段階演算子のみを特徴とする単純な一段階論理の処理に,多くの推論タスクの分析を特に還元する,石炭代数論理の汎用的枠組みにおけるamcdesの処理である。

Alternating-time temporal logic (ATL) and its extensions, including the alternating-time $\mu$-calculus (AMC), serve the specification of the strategic abilities of coalitions of agents in concurrent game structures. The key ingredient of the logic are path quantifiers specifying that some coalition of agents has a joint strategy to enforce a given goal. This basic setup has been extended to let some of the agents (revocably) commit to using certain named strategies, as in ATL with explicit strategies (ATLES). In the present work, we extend ATLES with fixpoint operators and strategy disjunction, arriving at the alternating-time $\mu$-calculus with disjunctive explicit strategies (AMCDES), which allows for a more flexible formulation of temporal properties (e.g. fairness) and, through strategy disjunction, a form of controlled nondeterminism in commitments. Our main result is an ExpTime upper bound for satisfiability checking (which is thus ExpTime-complete). We also prove upper bounds QP (quasipolynomial time) and NP $\cap$ coNP for model checking under fixed interpretations of explicit strategies, and NP under open interpretation. Our key technical tool is a treatment of the AMCDES within the generic framework of coalgebraic logic, which in particular reduces the analysis of most reasoning tasks to the treatment of a very simple one-step logic featuring only propositional operators and next-step operators without nesting; we give a new model construction principle for this one-step logic that relies on a set-valued variant of first-order resolution.
翻訳日:2023-05-31 17:50:43 公開日:2023-05-30
# スパース行列スケッチによるマグニチュードベースプルーニングの一般化境界

Generalization Bounds for Magnitude-Based Pruning via Sparse Matrix Sketching ( http://arxiv.org/abs/2305.18789v1 )

ライセンス: Link先を確認
Etash Kumar Guha, Prasanjit Dubey, Xiaoming Huo(参考訳) 本稿では,過パラメータ化ニューラルネットワークのマグニチュード型プルーニングの一般化誤差に基づく新しい手法を導出する。 私たちの作品は、arora et alの限界に基づいている。 [2018] 誤差は1, プルーニングによる近似, および2, プルーニングモデルにおけるパラメータ数に依存し, 標準ノルムベース一般化境界により改善される。 新しいMagnitude-based compressionアルゴリズムを用いて得られたプルーンド推定値は、高い確率で未処理関数に近づき、最初の基準を改善する。 Sparse Matrix Sketching を用いて、刈り取った行列の空間は、非常に小さな次元の高密度行列の空間で効率的に表現することができ、第二基準を下げることができる。 これにより、多くの最先端手法よりも強い一般化が導かれるため、オーバーパラメータ化モデルのプルーニングおよびバウンディング一般化誤差に対するアルゴリズム開発における新たな基盤を破ることになる。 さらに、この結果を拡張してイテレーティブ・プルーニングの一般化(Frankle and Carbin, 2018)を得る。 我々は,MNISTおよびCIFAR10データセット上のReLU活性化フィードフォワードネットワークにおける新しい手法の有効性を実証的に検証した。

In this paper, we derive a novel bound on the generalization error of Magnitude-Based pruning of overparameterized neural networks. Our work builds on the bounds in Arora et al. [2018] where the error depends on one, the approximation induced by pruning, and two, the number of parameters in the pruned model, and improves upon standard norm-based generalization bounds. The pruned estimates obtained using our new Magnitude-Based compression algorithm are close to the unpruned functions with high probability, which improves the first criteria. Using Sparse Matrix Sketching, the space of the pruned matrices can be efficiently represented in the space of dense matrices of much smaller dimensions, thereby lowering the second criterion. This leads to stronger generalization bound than many state-of-the-art methods, thereby breaking new ground in the algorithm development for pruning and bounding generalization error of overparameterized models. Beyond this, we extend our results to obtain generalization bound for Iterative Pruning [Frankle and Carbin, 2018]. We empirically verify the success of this new method on ReLU-activated Feed Forward Networks on the MNIST and CIFAR10 datasets.
翻訳日:2023-05-31 17:49:50 公開日:2023-05-30
# プロンプトチューニングの普遍性と限界

Universality and Limitations of Prompt Tuning ( http://arxiv.org/abs/2305.18787v1 )

ライセンス: Link先を確認
Yihan Wang, Jatin Chauhan, Wei Wang, Cho-Jui Hsieh(参考訳) 新しいタスクに事前学習された言語モデルを適用するための即興チューニングの実証的な効果にもかかわらず、"入力前のチューニングパラメータ"と"モデル重みのチューニング"の差の理論的基礎は限られている。 そこで我々は,トランスフォーマーアーキテクチャにおけるソフトプロンプトチューニングの役割を理解するための第一歩を踏み出した。 汎用アーキテクチャを考慮し、連続値関数に対する有限深度固定重み付き事前学習変圧器による普遍近似と制限の両レンズからの即時チューニングを解析する。 我々の普遍性の結果は、リプシッツ関数の集合における任意のシーケンス列関数を近似するプロンプトを持つ強変圧器の存在を保証する。 制限深度変換器のプロンプトチューニングの制限は、与えられた単一エンコーダ層の任意の長さのプロンプトによって記憶できない一連のデータセットを構築することで最初に証明される。 また、調整可能なプロンプトパラメータの必要な数に対する低いバウンダリを提供し、単一層設定の低ランク更新(LoRAに基づく)に必要なパラメータの数と比較する。 我々は最終的に、変換器が可逆関数のみからデータセットを学習できる十分な条件を提供することで、分析を多層設定に拡張する。 我々の理論的な主張は経験的な結果にも裏付けられている。

Despite the demonstrated empirical efficacy of prompt tuning to adapt a pretrained language model for a new task, the theoretical underpinnings of the difference between "tuning parameters before the input" against "the tuning of model weights" are limited. We thus take one of the first steps to understand the role of soft-prompt tuning for transformer-based architectures. By considering a general purpose architecture, we analyze prompt tuning from the lens of both: universal approximation and limitations with finite-depth fixed-weight pretrained transformers for continuous-valued functions. Our universality result guarantees the existence of a strong transformer with a prompt to approximate any sequence-to-sequence function in the set of Lipschitz functions. The limitations of prompt tuning for limited-depth transformers are first proved by constructing a set of datasets, that cannot be memorized by a prompt of any length for a given single encoder layer. We also provide a lower bound on the required number of tunable prompt parameters and compare the result with the number of parameters required for a low-rank update (based on LoRA) for a single-layer setting. We finally extend our analysis to multi-layer settings by providing sufficient conditions under which the transformer can at best learn datasets from invertible functions only. Our theoretical claims are also corroborated by empirical results.
翻訳日:2023-05-31 17:49:21 公開日:2023-05-30
# 視覚言語モデルのスケーラブルな性能解析

Scalable Performance Analysis for Vision-Language Models ( http://arxiv.org/abs/2305.18786v1 )

ライセンス: Link先を確認
Santiago Castro and Oana Ignat and Rada Mihalcea(参考訳) 共同視覚言語モデルは様々なタスクに対して優れたパフォーマンスを示している。 しかし、これらのモデルによって学習される高次元空間は意味的誤りを特定することが困難であるため、その限界についてはほとんど知られていない。 最近の研究は、高度に制御されたプロビングタスクベンチマークを設計することでこの問題に対処している。 本稿では、すでにアノテーション付きベンチマークに依存する、よりスケーラブルなソリューションを紹介します。 本手法は,視覚言語ベンチマークから多種多様な特徴を抽出し,その特徴量と対象モデルの出力との相関性を測定した。 我々は,クリップが単語の袋のように振る舞うこと,名詞や動詞がうまく機能すること,クリップが具体的単語と混同されることなどの新たな知見を明らかにする。 私たちのフレームワークはhttps://github.com/MichiganNLP/Scalable-VLM-Probingで利用可能です。

Joint vision-language models have shown great performance over a diverse set of tasks. However, little is known about their limitations, as the high dimensional space learned by these models makes it difficult to identify semantic errors. Recent work has addressed this problem by designing highly controlled probing task benchmarks. Our paper introduces a more scalable solution that relies on already annotated benchmarks. Our method consists of extracting a large set of diverse features from a vision-language benchmark and measuring their correlation with the output of the target model. We confirm previous findings that CLIP behaves like a bag of words model and performs better with nouns and verbs; we also uncover novel insights such as CLIP getting confused by concrete words. Our framework is available at https://github.com/MichiganNLP/Scalable-VLM-Probing and can be used with other multimodal models and benchmarks.
翻訳日:2023-05-31 17:48:57 公開日:2023-05-30
# 協調的マルチエージェント異種マルチアーマッドバンド

Collaborative Multi-Agent Heterogeneous Multi-Armed Bandits ( http://arxiv.org/abs/2305.18784v1 )

ライセンス: Link先を確認
Ronshee Chawla, Daniel Vial, Sanjay Shakkottai and R. Srikant(参考訳) 共同作業型マルチエージェント・バンディットの研究は近年大きな注目を集めている。 これを踏まえ、我々はN$エージェントからなる新しい共同作業環境の研究を開始し、各エージェントが、グループ累積後悔を最小限に抑えるために、M$確率的マルチアームバンディットの1つを学習している。 エージェント間の協調を容易にする分散アルゴリズムを2つのシナリオで開発する。 各エージェントの累積後悔とグループ後悔の上限を導出することにより,これらのアルゴリズムの性能を特徴付ける。 また,提案したアルゴリズムのほぼ最適動作を示すため,この設定におけるグループ後悔に対する限界も低めに証明する。

The study of collaborative multi-agent bandits has attracted significant attention recently. In light of this, we initiate the study of a new collaborative setting, consisting of $N$ agents such that each agent is learning one of $M$ stochastic multi-armed bandits to minimize their group cumulative regret. We develop decentralized algorithms which facilitate collaboration between the agents under two scenarios. We characterize the performance of these algorithms by deriving the per agent cumulative regret and group regret upper bounds. We also prove lower bounds for the group regret in this setting, which demonstrates the near-optimal behavior of the proposed algorithms.
翻訳日:2023-05-31 17:48:43 公開日:2023-05-30
# パーセル系繊維ファブリペロキャビティに結合したカーボンナノチューブを用いたテレコムバンド単一光子源

A telecom band single-photon source using a grafted carbon nanotube coupled to a fiber Fabry-Perot cavity in the Purcell regime ( http://arxiv.org/abs/2305.18827v1 )

ライセンス: Link先を確認
Antoine Borel, Th\'eo Habrant-Claude, Federico Rapisarda, Jakob Reichel, Steeve Doorn, Christophe Voisin, Yannick Chassagneux(参考訳) 本報告では,Purcell系における単一光子のテレコム波長放射のためのカーボンナノチューブにグラフトした有機色中心への再構成可能な高Qファイバー微小キャビティの結合について報告する。 この調整可能な単一光子源と空洞量子力学的効果の様々な特性を相補的な3つの手法を用いて評価し、自由空間と空洞結合状態における全く同じエミッタのカウントレートの比較によりエミッタの明るくする。 ファイバ結合単光子出力率を1275〜nmで最大20MHzまで示す。 時間分解および飽和測定を用いて、最小モード体積に対して30までの値を持つ系の放射量子収率とパーセル係数を独立に決定する。 最後に、キャビティのチューニング機能を利用して光源の明るさのスペクトルプロファイルを測定し、真空ラビが25ドル; \mu$eVの値で$g$を分割することを可能にする。

We report on the coupling of a reconfigurable high Q fiber micro-cavity to an organic color center grafted to a carbon nanotube for telecom wavelength emission of single photons in the Purcell regime. Using three complementary approaches we assess various figures of merit of this tunable single photon source and of the cavity quantum electrodynamical effects : the brightening of the emitter is obtained by comparison of the count rates of the very same emitter in free-space and cavity coupled regimes. We demonstrate a fiber coupled single-photon output rate up to 20 MHz at 1275~nm. Using time-resolved and saturation measurements, we determine independently the radiative quantum yield and the Purcell factor of the system with values up to 30 for the smallest mode volumes. Finally, we take advantage of the tuning capability of the cavity to measure the spectral profile of the brightness of the source which gives access to the vacuum Rabi splitting $g$ with values up to $25 \; \mu$eV.
翻訳日:2023-05-31 17:40:42 公開日:2023-05-30
# 部分透過型非対称ミラー界面を用いた遠方原子の変位シフトと自発崩壊速度

Altering level shifts and spontaneous decay rates of distant atoms \\ using partially-transparent asymmetric mirror interfaces ( http://arxiv.org/abs/2305.18826v1 )

ライセンス: Link先を確認
Nicholas Furtak-Wells, Benjamin Dawson, Thomas Mann, Gin Jose and Almut Beige(参考訳) 3次元では、原子レベルのシフトと自然崩壊率を変化させる双極子-双極子相互作用は、発光光の波長に匹敵する距離でしか持続しない。 量子センシングのような量子技術応用のための新しいツールを提供するために、これらの相互作用の範囲を広げるために多くの試みがなされている。 本稿では, 負の指標メタマテリアルを含む部分透明な非対称インタフェースの助けを借りて実現可能であることを示す。 2つの原子が界面の反対側に配置され、それぞれが他方の鏡像の位置にあると仮定する。 この場合、放出された光は原子同士が隣り合っているときと同じように干渉する。 したがって、それらの双極子-双極子相互作用は、原子の実際の距離が遷移波長よりも数桁大きい場合でも、追加の最大値となる。

In three dimensions, dipole-dipole interactions which alter atomic level shifts and spontaneous decay rates only persist over distances comparable to the wavelength of the emitted light. To provide novel tools for quantum technology applications, like quantum sensing, many attempts have been made to extend the range of these interactions. In this paper we show that this can be achieved with the help of partially-transparent asymmetric interfaces {\em without} involving negative index metamaterials. Suppose two atoms are placed on opposite sides of the interface, each at the position of the mirror image of the other. In this case, their emitted light interferes exactly as it would when the atoms are right next to each~other. Hence their dipole-dipole interaction assumes an additional maximum, even when the actual distance of the atoms is several orders of magnitude larger than their transition wavelength.
翻訳日:2023-05-31 17:40:24 公開日:2023-05-30
# 学際的コラボレーションによる楽器生成 -ビデオアノテーションデータの可視化フレームワークの出現に関する考察-

Instrumental genesis through interdisciplinary collaboration -- reflections on the emergence of a visualisation framework for video annotation data ( http://arxiv.org/abs/2305.18825v1 )

ライセンス: Link先を確認
Olivier Aubert (LS2N, Nantes Univ, LS2N - \'equipe DUKe), Thomas Scherer, Jasper Stratil(参考訳) 本稿では,ビデオアノテーションデータに対する可視化フレームワークの出現に関する学際的コラボレーション・リフレクションを通じて,映像表現の時間的ダイナミクス解析のための可視化フレームワークの開発について論じ,考察する。 主な焦点は器楽曲生成プロセス(rabardel 1995; longchamp 2012)であり、楽器の共進化を表現し分析しようとする概念である。 映画研究の分野での探索とプレゼンテーションのための複雑なデータセットを視覚化する新しい方法を見つけるために、コンピュータサイエンスの学者と人文科学の学者のコラボレーションとコミュニケーションプロセスを通じて記述されている。 調査グループAdAprojectの出版物やプレゼンテーションにおける可視化の成果と具体的な利用を参考に、金融危機に関するオーディオ視覚メディアへの影響のオーディオ視覚レトリックを調査する(2007-)。 これらのフィルム分析は、映像視聴の過程、視聴者の知覚と時間的展開する視聴覚画像の関係に関する理論的仮定と、これらの経験的フィギュレーションを再構築するためにemaex(kappelhoff et al. 2011-2016)と呼ばれる、セグメンテーション、説明、資格などの研究過程における「ステップ」を描く方法論的アプローチに基づいている(bakels et al. 2020a, 2020b)。 この論文の主な焦点は、研究プロセスにおいて不可欠な部分であった、オープンソースのソフトウェアアドバンによって生成されたインタラクティブなインターフェースとしての可視化の反復的な開発プロセスである。 この点において、タイムラインの可視化は、(デジタル)人文科学出版物における視覚的議論だけでなく、アノテーションの作成やこのデータの探索にも関心がある。 論文の前半では、この学際的なコラボレーションを、進化的かつ反復的なプロセスとして、一般的なレベルでのインストゥルメンタルジェネシスとして記述する。 第2部では、視覚美学の時間的ダイナミクスのための可視化フレームワークを設計する際の課題に焦点を当てる。 最後に、より広いデジタル人文科学コミュニティにとって興味のある経験や洞察を反映して、ズームアウトします。

Instrumental genesis through interdisciplinary collaboration-reflections on the emergence of a visualisation framework for video annotation data XML This paper presents, discusses and reflects on the development of a visualization framework for the analysis of the temporal dynamics of audiovisual expressivity. The main focus lies on the instrumental genesis process (Rabardel 1995; Longchamp 2012)-a concept trying to express and analyze the co-evolution of instruments and the practices they make possible-underlying this development. It is described through the collaboration and communication processes between computer science scholars and humanities scholars in finding new ways of visualizing complex datasets for exploration and presentation in the realm of film-studies research. It draws on the outcome and concrete usage of the visualizations in publications and presentations of a research group, the AdAproject, that investigates the audiovisual rhetorics of affect in audiovisual media on the financial crisis (2007-). These film analyses are based on theoretical assumptions on the process of film-viewing, the relation of the viewer's perception and the temporally unfolding audiovisual images, and a methodical approach that draws on 'steps' in the research process such as segmentation, description and qualification, called eMAEX (Kappelhoff et al. 2011-2016) to reconstruct these experiential figurations (Bakels et al. 2020a, 2020b). The main focus of this paper is the process of iterative development of visualizations as interactive interfaces generated with the open-source software Advene, that were an integral part of the research process. In this regard, the timeline visualization is not only of interest for visual argumentation in (digital) humanities publications, but also for the creation of annotations as well as the exploration of this data. In the first part of the paper we describe this interdisciplinary collaboration as instrumental genesis on a general level-as an evolving and iterative process. In the second part we focus on the specific challenge of designing a visualization framework for the temporal dynamics of audiovisual aesthetics. Lastly we zoom out by reflecting on experiences and insights that might be of interest for the wider digital humanities community.
翻訳日:2023-05-31 17:40:10 公開日:2023-05-30
# tree-constrained pointer generatorを用いた文脈asrのためのグラフニューラルネットワーク

Graph Neural Networks for Contextual ASR with the Tree-Constrained Pointer Generator ( http://arxiv.org/abs/2305.18824v1 )

ライセンス: Link先を確認
Guangzhi Sun, Chao Zhang, Phil Woodland(参考訳) 文脈知識によって得られる偏り語を組み込むことは、音声認識(ASR)の応用において最重要となる。 本稿では,木制約ポインタ生成法に基づくグラフニューラルネットワーク(GNN)エンコーディングを用いた,エンドツーエンドのコンテキストASRを実現するための革新的な手法を提案する。 gnnノードエンコーディングは、木枝のすべての単語片に関する情報を取り入れることで、各木ノードでasr復号を行う過程で、将来の単語片のルックアヘッドを容易にする。 これにより、偏りのある単語の生成確率をより正確に予測できる。 本研究では,木再帰ニューラルネットワーク,グラフ畳み込みネットワーク(GCN),グラフSAGEという3つのGNN符号化手法と,補完的なGCNとGraphSAGE構造の組み合わせについて検討した。 Librispeech と AMI corpus を用いて,視覚的な文脈的 ASR パイプラインに従ってシステムの性能を評価した。 以上の結果から,gnnエンコーディングを用いた単語誤り率 (wer) は,特に訓練過程において稀な,あるいは見当たらない単語に対して,一貫して有意な低減を達成したことが示唆された。 特に、GNNエンコーディングの最も効果的な組み合わせは、標準のエンドツーエンドシステムと比較して、稀で見えない単語に対して60%以上のWER削減を得た。

The incorporation of biasing words obtained through contextual knowledge is of paramount importance in automatic speech recognition (ASR) applications. This paper proposes an innovative method for achieving end-to-end contextual ASR using graph neural network (GNN) encodings based on the tree-constrained pointer generator method. GNN node encodings facilitate lookahead for future word pieces in the process of ASR decoding at each tree node by incorporating information about all word pieces on the tree branches rooted from it. This results in a more precise prediction of the generation probability of the biasing words. The study explores three GNN encoding techniques, namely tree recursive neural networks, graph convolutional network (GCN), and GraphSAGE, along with different combinations of the complementary GCN and GraphSAGE structures. The performance of the systems was evaluated using the Librispeech and AMI corpus, following the visual-grounded contextual ASR pipeline. The findings indicate that using GNN encodings achieved consistent and significant reductions in word error rate (WER), particularly for words that are rare or have not been seen during the training process. Notably, the most effective combination of GNN encodings obtained more than 60% WER reduction for rare and unseen words compared to standard end-to-end systems.
翻訳日:2023-05-31 17:39:31 公開日:2023-05-30
# 逐次推薦システムのためのロバスト強化学習目標

Robust Reinforcement Learning Objectives for Sequential Recommender Systems ( http://arxiv.org/abs/2305.18820v1 )

ライセンス: Link先を確認
Melissa Mozifian, Tristan Sylvain, Dave Evans and Lili Meng(参考訳) 注意に基づくシーケンシャルレコメンデーション手法は,過去のインタラクションからユーザの動的関心を正確に捉えることによって,有望な結果を示した。 優れたユーザ表現を生成することに加え、最近の研究は強化学習(RL)をこれらのモデルに統合し始めている。 報酬信号を備えたRL問題としてシーケンシャルレコメンデーションを分類することで、よりパーソナライズされたエクスペリエンスを提供するための報酬の形で、直接的なユーザフィードバックを組み込んだ重要な側面を考慮したレコメンデーションシステム(RS)を開発することができる。 それでも、RLアルゴリズムを採用することで、政治外のトレーニング、複合的な行動空間の拡大、十分な報酬信号を持つデータセットの不足といった課題が提示される。 現代のアプローチでは、RLコンポーネントをトレーニングするための対照的な目的と負のサンプリング戦略を取り入れて、RLとシーケンシャルモデリングを組み合わせる試みが行われている。 本研究では,拡張された地平線を持つデータセットに対応するために,拡張と組み合わせたコントラストベース目的の有効性をさらに強調する。 さらに,負のサンプリングの適用中に生じる潜在的な不安定性の問題も認識する。 これらの課題は、主に、オフラインのRLコンテキストで一般的な問題である、実世界のデータセットで一般的なデータ不均衡に起因する。 確立されたベースラインは、様々なテクニックを通じてこれを緩和しようとしていますが、不安定性は依然として問題です。 そこで本研究では,これらの課題に対して,より効果的な解決策を提供するための拡張手法を提案する。

Attention-based sequential recommendation methods have demonstrated promising results by accurately capturing users' dynamic interests from historical interactions. In addition to generating superior user representations, recent studies have begun integrating reinforcement learning (RL) into these models. Framing sequential recommendation as an RL problem with reward signals, unlocks developing recommender systems (RS) that consider a vital aspect-incorporating direct user feedback in the form of rewards to deliver a more personalized experience. Nonetheless, employing RL algorithms presents challenges, including off-policy training, expansive combinatorial action spaces, and the scarcity of datasets with sufficient reward signals. Contemporary approaches have attempted to combine RL and sequential modeling, incorporating contrastive-based objectives and negative sampling strategies for training the RL component. In this study, we further emphasize the efficacy of contrastive-based objectives paired with augmentation to address datasets with extended horizons. Additionally, we recognize the potential instability issues that may arise during the application of negative sampling. These challenges primarily stem from the data imbalance prevalent in real-world datasets, which is a common issue in offline RL contexts. While our established baselines attempt to mitigate this through various techniques, instability remains an issue. Therefore, we introduce an enhanced methodology aimed at providing a more effective solution to these challenges.
翻訳日:2023-05-31 17:39:08 公開日:2023-05-30
# サンプル分析のためのシェープ型残留分解

Shapley Based Residual Decomposition for Instance Analysis ( http://arxiv.org/abs/2305.18818v1 )

ライセンス: Link先を確認
Tommy Liu, Amanda Barnard(参考訳) 本稿では,特徴ではなく,データインスタンスに対する回帰の残差を分解するという考え方を紹介する。 これにより、各インスタンスがモデルと互いに与える影響を判断でき、それによって、関心のあるインスタンスを識別するモデル非依存な方法が生まれます。 これにより、与えられた研究のより広い文脈において、モデルとデータの適切性を決定することができる。 本稿は、Explainable AIタスクのコンテキストにおいて、そのようなフレームワークが比較的未探索のインスタンス分析にもたらす可能性について論じる。

In this paper, we introduce the idea of decomposing the residuals of regression with respect to the data instances instead of features. This allows us to determine the effects of each individual instance on the model and each other, and in doing so makes for a model-agnostic method of identifying instances of interest. In doing so, we can also determine the appropriateness of the model and data in the wider context of a given study. The paper focuses on the possible applications that such a framework brings to the relatively unexplored field of instance analysis in the context of Explainable AI tasks.
翻訳日:2023-05-31 17:38:46 公開日:2023-05-30
# 二次ハミルトニアンのマルチモード系の不安定性

Instability of multi-mode systems with quadratic Hamiltonians ( http://arxiv.org/abs/2305.18817v1 )

ライセンス: Link先を確認
Xuanloc Leu, Xuan-Hoai Thi Nguyen, Jinhyoung Lee(参考訳) 本稿では,ハミルトニアンの一意な構造を定式化し,量子二次系の不安定性基準を定式化する新しい幾何学的手法を提案する。 量子二次系が動的に不安定であることと、ハミルトニアンが双曲型であることは同値である。 幾何学的手法を応用し, 2モードおよび3モード光機械システムの安定性を解析した。 本手法は,従来の回転波近似(RWA)の仮定と比較して,より広い範囲のシステムパラメータに対して安定化可能であることを示す。 さらに,システムパラメータが特定の臨界境界を越えた場合,システムの相が安定して不安定になることを示す。 その結果, 光力学系における多重性の存在が示唆された。

We present a novel geometric approach for determining the unique structure of a Hamiltonian and establishing an instability criterion for quantum quadratic systems. Our geometric criterion provides insights into the underlying geometric perspective of instability: A quantum quadratic system is dynamically unstable if and only if its Hamiltonian is hyperbolic. By applying our geometric method, we analyze the stability of two-mode and three-mode optomechanical systems. Remarkably, our approach demonstrates that these systems can be stabilized over a wider range of system parameters compared to the conventional rotating wave approximation (RWA) assumption. Furthermore, we reveal that the systems transit their phases from stable to unstable, when the system parameters cross specific critical boundaries. The results imply the presence of multistability in the optomechanical systems.
翻訳日:2023-05-31 17:38:36 公開日:2023-05-30
# DiffSketching:拡散モデルを用いたスケッチ制御画像合成

DiffSketching: Sketch Control Image Synthesis with Diffusion Models ( http://arxiv.org/abs/2305.18812v1 )

ライセンス: Link先を確認
Qiang Wang, Di Kong, Fengyin Lin, Yonggang Qi(参考訳) 創造的なスケッチは視覚表現の普遍的な方法であるが、抽象的なスケッチからのイメージの翻訳は非常に難しい。 従来、スケッチ・ツー・イメージ合成のためのディープラーニングモデルを作成するには、視覚的な詳細なしに歪んだ入力スケッチを克服する必要がある。 まず拡散モデルを用いてこの課題を考察する。 我々のモデルは、クロスドメイン制約を通じてスケッチにマッチし、画像合成をより正確に導くために分類器を使用する。 大規模な実験により,本手法はユーザの入力スケッチに忠実であるだけでなく,合成画像の多様性や想像力を維持できることを確認した。 我々のモデルはganベースの手法を生成品質と人格評価の面で上回ることができ、大量のスケッチ画像データセットに依存しない。 さらに,画像編集と補間に本手法を適用した。

Creative sketch is a universal way of visual expression, but translating images from an abstract sketch is very challenging. Traditionally, creating a deep learning model for sketch-to-image synthesis needs to overcome the distorted input sketch without visual details, and requires to collect large-scale sketch-image datasets. We first study this task by using diffusion models. Our model matches sketches through the cross domain constraints, and uses a classifier to guide the image synthesis more accurately. Extensive experiments confirmed that our method can not only be faithful to user's input sketches, but also maintain the diversity and imagination of synthetic image results. Our model can beat GAN-based method in terms of generation quality and human evaluation, and does not rely on massive sketch-image datasets. Additionally, we present applications of our method in image editing and interpolation.
翻訳日:2023-05-31 17:38:24 公開日:2023-05-30
# PyPOTS: 部分的に観測された時系列データマイニング用のPythonツールボックス

PyPOTS: A Python Toolbox for Data Mining on Partially-Observed Time Series ( http://arxiv.org/abs/2305.18811v1 )

ライセンス: Link先を確認
Wenjie Du(参考訳) pypotsはオープンソースのpythonライブラリで、多変量部分的に観測された時系列、すなわち値が欠けている不完全な時系列、すなわち不規則にサンプリングされた時系列のデータマイニングと分析に特化したものだ。 特に、計算、分類、クラスタリング、予測の4つのタスクに分類される多様なアルゴリズムへの容易にアクセスできる。 含まれるモデルには確率論的アプローチとニューラルネット手法が含まれており、学術研究者と工業専門家の両方が使用する、十分に設計された完全に文書化されたプログラミングインターフェースがある。 設計哲学における堅牢性とスケーラビリティにより、ユニットテスト、継続的インテグレーション(CI)、継続的デリバリ(CD)、コードカバレッジ、保守性評価、インタラクティブチュートリアル、並列化といったソフトウェア構築のベストプラクティスは、PyPOTSの開発中に原則として実行されます。 このツールキットはPython Package Index(PyPI)とAnacondaの両方で利用できる。 PyPOTSはオープンソースで、GitHub https://github.com/WenjieDu/PyPOTSで公開されている。

PyPOTS is an open-source Python library dedicated to data mining and analysis on multivariate partially-observed time series, i.e. incomplete time series with missing values, A.K.A. irregularlysampled time series. Particularly, it provides easy access to diverse algorithms categorized into four tasks: imputation, classification, clustering, and forecasting. The included models contain probabilistic approaches as well as neural-network methods, with a well-designed and fully-documented programming interface for both academic researchers and industrial professionals to use. With robustness and scalability in its design philosophy, best practices of software construction, for example, unit testing, continuous integration (CI) and continuous delivery (CD), code coverage, maintainability evaluation, interactive tutorials, and parallelization, are carried out as principles during the development of PyPOTS. The toolkit is available on both Python Package Index (PyPI) and Anaconda. PyPOTS is open-source and publicly available on GitHub https://github.com/WenjieDu/PyPOTS.
翻訳日:2023-05-31 17:38:11 公開日:2023-05-30
# 深層学習を用いた足場閉塞からのシーン復元

Scene restoration from scaffold occlusion using deep learning-based methods ( http://arxiv.org/abs/2305.18810v1 )

ライセンス: Link先を確認
Yuexiong Ding, Muyang Liu, Xiaowei Luo(参考訳) 建設におけるコンピュータビジョン(cv)応用の閉塞問題は、特に広い被覆、断裂、移動不能な足場によって引き起こされる多くの注目を集めている。 直感的には、足場を取り除き、隠蔽された視覚情報を復元することで、CVエージェントにより明確なサイトビューを提供し、建設シーンの理解を深めることができる。 そこで本研究では,足場咬合から構成場面を復元するための画素レベルセグメンテーションとイメージインパインティングを組み合わせた2段階の手法を提案する。 ラベル付きデータの不足ジレンマに対処するため,ラベル付きデータのみに基づく低コストなデータ合成手法を開発した。 合成試験データを用いた実験の結果,提案手法は,足場セグメンテーションのための平均交点(MIoU)と足場閉塞からのシーン復元のための82%以上の構造類似性(SSIM)を達成できた。

The occlusion issues of computer vision (CV) applications in construction have attracted significant attention, especially those caused by the wide-coverage, crisscrossed, and immovable scaffold. Intuitively, removing the scaffold and restoring the occluded visual information can provide CV agents with clearer site views and thus help them better understand the construction scenes. Therefore, this study proposes a novel two-step method combining pixel-level segmentation and image inpainting for restoring construction scenes from scaffold occlusion. A low-cost data synthesis method based only on unlabeled data is developed to address the shortage dilemma of labeled data. Experiments on the synthesized test data show that the proposed method achieves performances of 92% mean intersection over union (MIoU) for scaffold segmentation and over 82% structural similarity (SSIM) for scene restoration from scaffold occlusion.
翻訳日:2023-05-31 17:37:54 公開日:2023-05-30
# 知識接地対話生成のための知識グラフ型言語モデル

Knowledge Graph-Augmented Language Models for Knowledge-Grounded Dialogue Generation ( http://arxiv.org/abs/2305.18846v1 )

ライセンス: Link先を確認
Minki Kang, Jin Myung Kwak, Jinheon Baek, Sung Ju Hwang(参考訳) 言語モデルは対話生成タスクで印象的なパフォーマンスを達成している。 しかしながら、実際の知識を必要とする会話に対して応答を生成する場合、生成した応答の知識を検索、エンコード、反映するメカニズムがないため、それらは完璧には程遠い。 知識グラフ(KGs)の事実を活用することで,知識基底型対話生成手法がこの問題に対処するが,KGから関連する知識をモデルが活用することを保証しない。 この制限を克服するために、KGとの文脈関連および知識ベース対話を生成するフレームワークであるSUbgraph Retrieval-augmented GEneration (SURGE)を提案する。 具体的には、我々のSURGEフレームワークはまずKGから関連するサブグラフを取得し、その後、検索したサブグラフによって条件付けられた単語の埋め込みを摂動することで、事実間の一貫性を強制する。 次に,コントラスト学習を用いて,生成されたテキストが検索されたサブグラフと高い類似性を有することを保証する。 我々は,OpendialKGとKOMODISデータセットのSURGEフレームワークを検証し,KGの知識を忠実に反映した高品質な対話を生成することを示す。

Language models have achieved impressive performances on dialogue generation tasks. However, when generating responses for a conversation that requires factual knowledge, they are far from perfect, due to an absence of mechanisms to retrieve, encode, and reflect the knowledge in the generated responses. Some knowledge-grounded dialogue generation methods tackle this problem by leveraging facts from Knowledge Graphs (KGs); however, they do not guarantee that the model utilizes a relevant piece of knowledge from the KG. To overcome this limitation, we propose SUbgraph Retrieval-augmented GEneration (SURGE), a framework for generating context-relevant and knowledge-grounded dialogues with the KG. Specifically, our SURGE framework first retrieves the relevant subgraph from the KG, and then enforces consistency across facts by perturbing their word embeddings conditioned by the retrieved subgraph. Then, we utilize contrastive learning to ensure that the generated texts have high similarity to the retrieved subgraphs. We validate our SURGE framework on OpendialKG and KOMODIS datasets, showing that it generates high-quality dialogues that faithfully reflect the knowledge from KG.
翻訳日:2023-05-31 17:32:31 公開日:2023-05-30
# 6G非地球ネットワークにおける生成モデルによるLOS推定の改善

How Generative Models Improve LOS Estimation in 6G Non-Terrestrial Networks ( http://arxiv.org/abs/2305.18845v1 )

ライセンス: Link先を確認
Saira Bano, Achilles Machumilane, Pietro Cassar\`a, Alberto Gotta(参考訳) 5gの出現と6gの到来により、モバイルネットワークと低軌道衛星や地球同期赤道軌道衛星などの非地球ネットワークプラットフォームを組み合わせることで、幅広い応用範囲をカバーする研究が増えている。 しかし、これらのプラットフォームの統合は、衛星間および衛星間セグメントリンクにおいてLOS(Line-Of-Sight)推定が必要であるため、難しい。 機械学習(ML)技術はチャネルモデリングとLOS推定において有望であるが、モデルトレーニングには大規模なデータセットを必要とするため、入手が困難である。 さらに、ネットワークオペレーターは、プライバシー上の懸念からネットワークデータを開示しないかもしれない。 そのため、代替データ収集技術が必要である。 本稿では,地球外6GネットワークにおけるLOS推定のための合成データ生成に生成モデルを用いるフレームワークを提案する。 具体的には、生成モデルを利用可能な小さなデータセットでトレーニングすることで、LOS推定のためにMLモデルをトレーニングするために使用できる大規模なデータセットを生成することができることを示す。 さらに、生成された合成データは、元のデータセットの識別情報を含まないため、プライバシーを侵害することなく公開することができる。

With the advent of 5G and the anticipated arrival of 6G, there has been a growing research interest in combining mobile networks with Non-Terrestrial Network platforms such as low earth orbit satellites and Geosynchronous Equatorial Orbit satellites to provide broader coverage for a wide range of applications. However, integrating these platforms is challenging because Line-Of-Sight (LOS) estimation is required for both inter satellite and satellite-to-terrestrial segment links. Machine Learning (ML) techniques have shown promise in channel modeling and LOS estimation, but they require large datasets for model training, which can be difficult to obtain. In addition, network operators may be reluctant to disclose their network data due to privacy concerns. Therefore, alternative data collection techniques are needed. In this paper, a framework is proposed that uses generative models to generate synthetic data for LOS estimation in non-terrestrial 6G networks. Specifically, the authors show that generative models can be trained with a small available dataset to generate large datasets that can be used to train ML models for LOS estimation. Furthermore, since the generated synthetic data does not contain identifying information of the original dataset, it can be made publicly available without violating privacy
翻訳日:2023-05-31 17:32:09 公開日:2023-05-30
# generation then select: world knowledgeによるオープンエンドのビジュアル質問応答

Generate then Select: Open-ended Visual Question Answering Guided by World Knowledge ( http://arxiv.org/abs/2305.18842v1 )

ライセンス: Link先を確認
Xingyu Fu and Sheng Zhang and Gukyeong Kwon and Pramuditha Perera and Henghui Zhu and Yuhao Zhang and Alexander Hanbo Li and William Yang Wang and Zhiguo Wang and Vittorio Castelli and Patrick Ng and Dan Roth and Bing Xiang(参考訳) vqa(open-ended visual question answering)タスクは、世界知識を用いた視覚および自然言語入力を推論するaiモデルを必要とする。 近年, GPT-3 のような事前学習型言語モデル (PLM) が課題に適用され, 強力な世界知識源であることが示されている。 しかしながら、これらの手法は、PLMバイアスによって引き起こされる知識の少ないカバレッジ、即時的な変更に関わらずトークンを他のトークン上に生成する傾向、およびPLMの品質への高い依存に悩まされる。 上記の課題に対処するため、我々は、世界知識によってガイドされたジェネレータ選択戦略を初めて展開する新しいVQAパイプラインであるRASOを提案する。 vqaの回答を直接生成するマルチモーダルモデルをトレーニングするデファクト標準に従うのではなく、rasoはまずplmを採用して可能なすべての回答を生成し、その後、正しい回答のために軽量な回答選択モデルをトレーニングする。 我々の分析で証明されたように、RASOはドメイン内トレーニングデータからの知識カバレッジを大きなマージンで拡大する。 我々は,OK-VQAを4.1%向上させ,計算コストを伴わずにパイプラインの有効性を示す。 コードとモデルはhttp://cogcomp.org/page/publication_view/1010でリリース

The open-ended Visual Question Answering (VQA) task requires AI models to jointly reason over visual and natural language inputs using world knowledge. Recently, pre-trained Language Models (PLM) such as GPT-3 have been applied to the task and shown to be powerful world knowledge sources. However, these methods suffer from low knowledge coverage caused by PLM bias -- the tendency to generate certain tokens over other tokens regardless of prompt changes, and high dependency on the PLM quality -- only models using GPT-3 can achieve the best result. To address the aforementioned challenges, we propose RASO: a new VQA pipeline that deploys a generate-then-select strategy guided by world knowledge for the first time. Rather than following the de facto standard to train a multi-modal model that directly generates the VQA answer, RASO first adopts PLM to generate all the possible answers, and then trains a lightweight answer selection model for the correct answer. As proved in our analysis, RASO expands the knowledge coverage from in-domain training data by a large margin. We provide extensive experimentation and show the effectiveness of our pipeline by advancing the state-of-the-art by 4.1% on OK-VQA, without additional computation cost. Code and models are released at http://cogcomp.org/page/publication_view/1010
翻訳日:2023-05-31 17:31:49 公開日:2023-05-30
# 時系列予測を説明するための学習摂動

Learning Perturbations to Explain Time Series Predictions ( http://arxiv.org/abs/2305.18840v1 )

ライセンス: Link先を確認
Joseph Enguehard(参考訳) 多変量時系列データに基づく予測を説明することは、複数の特徴だけでなく、時間依存性も扱うのがさらに困難になる。 それは何が起きたかだけでなく、いつ起きたかも重要であり、同じ機能がこの時間情報によって予測に全く異なる影響を与える可能性がある。 これまでの研究では、摂動に基づくサルリエンシー法を使ってこの問題に取り組み、トレーニング可能なマスクを使って入力を摂動させ、どの時点が予測を駆動しているのかを突き止めてきた。 しかし、これらの手法は静的データに関する類似の手法にインスパイアされた固定摂動を導入するが、時間的データに依存するモチベーションはほとんどないようである。 本研究では,マスクだけでなく,関連する摂動も学習することで予測を説明することを目的とする。 これらの摂動の学習は,時系列データによる説明の質を著しく向上させることを実証的に示す。

Explaining predictions based on multivariate time series data carries the additional difficulty of handling not only multiple features, but also time dependencies. It matters not only what happened, but also when, and the same feature could have a very different impact on a prediction depending on this time information. Previous work has used perturbation-based saliency methods to tackle this issue, perturbing an input using a trainable mask to discover which features at which times are driving the predictions. However these methods introduce fixed perturbations, inspired from similar methods on static data, while there seems to be little motivation to do so on temporal data. In this work, we aim to explain predictions by learning not only masks, but also associated perturbations. We empirically show that learning these perturbations significantly improves the quality of these explanations on time series data.
翻訳日:2023-05-31 17:31:25 公開日:2023-05-30
# クライアント:多変量長期時系列予測のためのクロス変数線形統合変換器

Client: Cross-variable Linear Integrated Enhanced Transformer for Multivariate Long-Term Time Series Forecasting ( http://arxiv.org/abs/2305.18838v1 )

ライセンス: Link先を確認
Jiaxin Gao, Wenbo Hu, Yuntian Chen(参考訳) 長期時系列予測(LTSF)は現代社会において重要な側面であり、長期計画の促進と早期警戒システムの開発に重要な役割を果たしている。 多くのトランスフォーマーベースのモデルがltsfに最近導入されているが、クロスタイム依存の捕捉におけるアテンションモジュールの有効性については疑問が持たれている。 本研究では,この仮定を検証すべくマスクシリーズ実験をデザインし,従来の変圧器ベースモデルと線形モデルの両方に匹敵する先進モデルである「多変量長期時系列予測用クロス可変線形統合型変圧器」(client)を提案する。 クライアントはリニアモジュールを使用してトレンド情報とアテンションモジュールを学び、クロス変数依存関係をキャプチャする。 一方、埋め込み層と位置符号化層を単純化し、デコーダモジュールをプロジェクション層に置き換える。 本質的には、クライアントは非線形性と相互変数依存性を組み込んでおり、従来の線形モデルやトランスフォーマーベースのモデルとは別物となっている。 9つの実世界のデータセットによる大規模な実験により、以前のTransformerベースのモデルと比較して計算時間とメモリ消費の少ないクライアントのSOTA性能が確認された。 私たちのコードはhttps://github.com/daxin007/clientで利用可能です。

Long-term time series forecasting (LTSF) is a crucial aspect of modern society, playing a pivotal role in facilitating long-term planning and developing early warning systems. While many Transformer-based models have recently been introduced for LTSF, a doubt have been raised regarding the effectiveness of attention modules in capturing cross-time dependencies. In this study, we design a mask-series experiment to validate this assumption and subsequently propose the "Cross-variable Linear Integrated ENhanced Transformer for Multivariate Long-Term Time Series Forecasting" (Client), an advanced model that outperforms both traditional Transformer-based models and linear models. Client employs linear modules to learn trend information and attention modules to capture cross-variable dependencies. Meanwhile, it simplifies the embedding and position encoding layers and replaces the decoder module with a projection layer. Essentially, Client incorporates non-linearity and cross-variable dependencies, which sets it apart from conventional linear models and Transformer-based models. Extensive experiments with nine real-world datasets have confirmed the SOTA performance of Client with the least computation time and memory consumption compared with the previous Transformer-based models. Our code is available at https://github.com/daxin007/Client.
翻訳日:2023-05-31 17:31:09 公開日:2023-05-30
# 一般化可能なニューラルサーフェス再構成におけるレンダリングの再考:学習に基づく解法

Rethinking Rendering in Generalizable Neural Surface Reconstruction: A Learning-based Solution ( http://arxiv.org/abs/2305.18832v1 )

ライセンス: Link先を確認
Yixun Liang, Hao He, Ying-cong Chen(参考訳) 近年,一般化可能な神経表面再構成技術が注目されている。 しかし, 過度に単純化されたボリュームレンダリングプロセスにより, 低信頼度分布と不正確な表面推論の限界に遭遇する。 本稿では,レコンストラクタアーキテクチャを利用してレンダリングプロセスを再設計し,複雑な光子-粒子相互作用モデリングを可能にする新しいフレームワークであるReconstruction TRansformer(ReTR)を提案する。 学習可能なメタ線トークンを導入し、光子とサンプル点との相互作用をシミュレートし、観察された色をレンダリングするクロスアテンション機構を利用する。 一方、色空間ではなく高次元の特徴空間内で操作することで、ReTRはソースビューの投影色に対する感度を緩和する。 このような改善は、信頼性の高い正確な表面評価をもたらす。 本手法は,様々なデータセット上での手法の有効性を実証し,再構築品質と一般化能力の観点から,現状のアプローチをいかに上回るかを示す。

Generalizable neural surface reconstruction techniques have attracted great attention in recent years. However, they encounter limitations of low confidence depth distribution and inaccurate surface reasoning due to the oversimplified volume rendering process employed. In this paper, we present Reconstruction TRansformer (ReTR), a novel framework that leverages the transformer architecture to redesign the rendering process, enabling complex photon-particle interaction modeling. It introduces a learnable meta-ray token and utilizes the cross-attention mechanism to simulate the interaction of photons with sampled points and render the observed color. Meanwhile, by operating within a high-dimensional feature space rather than the color space, ReTR mitigates sensitivity to projected colors in source views. Such improvements result in accurate surface assessment with high confidence. We demonstrate the effectiveness of our approach on various datasets, showcasing how our method outperforms the current state-of-the-art approaches in terms of reconstruction quality and generalization ability.
翻訳日:2023-05-31 17:30:48 公開日:2023-05-30
# 生体信号学習のための畳み込みモンジュマッピング正規化

Convolutional Monge Mapping Normalization for learning on biosignals ( http://arxiv.org/abs/2305.18831v1 )

ライセンス: Link先を確認
Gnassounou Th\'eo, Flamary R\'emi, Gramfort Alexandre(参考訳) 信号や生体データ、特に脳波(EEG)に関する多くの機械学習応用において、大きな課題は、被験者、セッション、ハードウェアデバイス間でのデータのばらつきである。 本研究では,そのパワースペクトル密度(psd)をトレーニングデータから推定したwasserstein barycenterに適応させるために,信号をフィルタリングする畳み込みモンジマッピング正規化(cmmn)と呼ばれる新しい手法を提案する。 CMMNは、最適なトランスポートマッピングとバリセンタのための新しいクローズドフォームソリューションに依存し、予測モデルを再トレーニングすることなく、新しいデータへの個別のテスト時間適応を提供する。 睡眠脳波データに関する数値実験により、CMMNは、被験者、セッション、さらには異なるハードウェアで収集されたデータセット間の適応において、ニューラルネットワークアーキテクチャから大きく、一貫したパフォーマンス向上をもたらすことが示された。 特に、我々のパフォーマンス向上は、はるかに数値的なドメイン適応(DA)メソッドと同等であり、より良いパフォーマンスのためにそれらと併用することができる。

In many machine learning applications on signals and biomedical data, especially electroencephalogram (EEG), one major challenge is the variability of the data across subjects, sessions, and hardware devices. In this work, we propose a new method called Convolutional Monge Mapping Normalization (CMMN), which consists in filtering the signals in order to adapt their power spectrum density (PSD) to a Wasserstein barycenter estimated on training data. CMMN relies on novel closed-form solutions for optimal transport mappings and barycenters and provides individual test time adaptation to new data without needing to retrain a prediction model. Numerical experiments on sleep EEG data show that CMMN leads to significant and consistent performance gains independent from the neural network architecture when adapting between subjects, sessions, and even datasets collected with different hardware. Notably our performance gain is on par with much more numerically intensive Domain Adaptation (DA) methods and can be used in conjunction with those for even better performances.
翻訳日:2023-05-31 17:30:33 公開日:2023-05-30
# マルチアテンションのクロス蒸留による半教師付き病理画像分割

Semi-supervised Pathological Image Segmentation via Cross Distillation of Multiple Attentions ( http://arxiv.org/abs/2305.18830v1 )

ライセンス: Link先を確認
Lanfeng Zhong, Xin Liao, Shaoting Zhang and Guotai Wang(参考訳) 病理像の分離は正確な癌診断にとって重要なステップである。 しかし、こうした画像の濃密なアノテーションの取得は労働集約的で時間を要する。 この問題に対処するため、Semi-Supervised Learning (SSL) はアノテーションのコストを削減できる可能性を持っているが、多くの未ラベルのトレーニング画像によって問題視されている。 本稿では,CDMA(Cross Distillation of Multiple Attentions)に基づくSSL方式を提案する。 まず,エンコーダと3分岐デコーダから構成されるマルチアテンショントリブランチネットワーク(MTNet)を提案する。 第2に,3つのデコーダ枝間のクロスデコーダ知識蒸留(cdkd)を導入することで,相互のソフトラベルから学習し,不正確な擬似ラベルのトレーニングにおける悪影響を軽減する。 さらに、不確実性最小化は3つのブランチの平均予測に適用され、ラベルのない画像の予測をさらに規則化し、ブランチ間の一貫性を促進する。 提案するcdmaを公開ダイジェストパスデータセット上の8つの最先端ssl法と比較し,提案手法がアノテーション比率の異なる他の手法よりも優れていることを示した。 コードは \href{https://github.com/HiLab-git/CDMA}{https://github.com/HiLab-git/CDMAで入手できる。 }

Segmentation of pathological images is a crucial step for accurate cancer diagnosis. However, acquiring dense annotations of such images for training is labor-intensive and time-consuming. To address this issue, Semi-Supervised Learning (SSL) has the potential for reducing the annotation cost, but it is challenged by a large number of unlabeled training images. In this paper, we propose a novel SSL method based on Cross Distillation of Multiple Attentions (CDMA) to effectively leverage unlabeled images. Firstly, we propose a Multi-attention Tri-branch Network (MTNet) that consists of an encoder and a three-branch decoder, with each branch using a different attention mechanism that calibrates features in different aspects to generate diverse outputs. Secondly, we introduce Cross Decoder Knowledge Distillation (CDKD) between the three decoder branches, allowing them to learn from each other's soft labels to mitigate the negative impact of incorrect pseudo labels in training. Additionally, uncertainty minimization is applied to the average prediction of the three branches, which further regularizes predictions on unlabeled images and encourages inter-branch consistency. Our proposed CDMA was compared with eight state-of-the-art SSL methods on the public DigestPath dataset, and the experimental results showed that our method outperforms the other approaches under different annotation ratios. The code is available at \href{https://github.com/HiLab-git/CDMA}{https://github.com/HiLab-git/CDMA.}
翻訳日:2023-05-31 17:30:14 公開日:2023-05-30
# Occ-BEV:3次元シーン再構成によるマルチカメラ統合事前訓練

Occ-BEV: Multi-Camera Unified Pre-training via 3D Scene Reconstruction ( http://arxiv.org/abs/2305.18829v1 )

ライセンス: Link先を確認
Chen Min, Xinli Xu, Dawei Zhao, Liang Xiao, Yiming Nie, Bin Dai(参考訳) マルチカメラの3D認識は、LiDARベースのソリューションに代わる実用的で費用対効果の高い代替手段を提供する、自動運転における顕著な研究分野として登場した。 しかし、既存のマルチカメラアルゴリズムは主に単眼画像の事前学習に依存しており、異なるカメラビュー間の空間的および時間的相関を見落としている。 この制限に対処するために,Occ-BEVと呼ばれる新しいマルチカメラ統合事前学習フレームワークを提案する。 具体的には、3Dデコーダは、多視点画像からBird's Eye View(BEV)機能を活用して、3Dの幾何学的占有率を予測することで、モデルがより包括的な3D環境理解を捉えることができる。 Occ-BEVの大きな利点の1つは、大量のラベルなしイメージ-LiDARペアを事前トレーニングに利用できることである。 提案するマルチカメラ統合事前学習フレームワークは,マルチカメラ3dオブジェクト検出やセマンティクスシーン補完といった重要なタスクにおいて,有望な結果を示す。 nuScenesデータセットの単分子事前学習法と比較すると,Occ-BEVは3次元オブジェクト検出ではmAPが2.0%,NDSが2.0%,セマンティックシーン完了ではmIOUが0.8%向上した。 コードはhttps://github.com/chaytonmin/Occ-BEVで公開されている。

Multi-camera 3D perception has emerged as a prominent research field in autonomous driving, offering a viable and cost-effective alternative to LiDAR-based solutions. However, existing multi-camera algorithms primarily rely on monocular image pre-training, which overlooks the spatial and temporal correlations among different camera views. To address this limitation, we propose a novel multi-camera unified pre-training framework called Occ-BEV, which involves initially reconstructing the 3D scene as the foundational stage and subsequently fine-tuning the model on downstream tasks. Specifically, a 3D decoder is designed for leveraging Bird's Eye View (BEV) features from multi-view images to predict the 3D geometry occupancy to enable the model to capture a more comprehensive understanding of the 3D environment. One significant advantage of Occ-BEV is that it can utilize a vast amount of unlabeled image-LiDAR pairs for pre-training. The proposed multi-camera unified pre-training framework demonstrates promising results in key tasks such as multi-camera 3D object detection and semantic scene completion. When compared to monocular pre-training methods on the nuScenes dataset, Occ-BEV demonstrates a significant improvement of 2.0% in mAP and 2.0% in NDS for 3D object detection, as well as a 0.8% increase in mIOU for semantic scene completion. codes are publicly available at https://github.com/chaytonmin/Occ-BEV.
翻訳日:2023-05-31 17:29:48 公開日:2023-05-30
# 古文書の注釈と転写のためのクラウドソーシングのための意思決定支援:RECITALワークショップ

Decision Support to Crowdsourcing for Annotation and Transcription of Ancient Documents: The RECITAL Workshop ( http://arxiv.org/abs/2305.18828v1 )

ライセンス: Link先を確認
Olivier Aubert (LS2N, Nantes Univ, LS2N - \'equipe DUKe), Benjamin Hervy (CFV, Nantes Univ, LS2N - \'equipe DUKe), Guillaume Raschia (LINA, Nantes Univ, LS2N - \'equipe DUKe), Fran\c{c}oise Rubellin (LAMO, Nantes Univ)(参考訳) 18世紀のパリでは、公式の喜劇を上演できる劇場は2つしかなかった: "com{\'e}die-fran{\c c}aise" と "com{\'e}die-italienne" である。 後者はあまり知られていなかった。 一世紀にわたる会計簿の研究により、その成功作、俳優、音楽家、セットデザイナー、そしてその運営、管理、物流、財務に必要なすべての小さな取引についてより深く学ぶことを目指している。 この目的のために我々は、フランス国立図書館(bnf)で利用可能な63の日次レジスターのうち27,544ページという、未出版のリソースを大量に採用している。 そして私たちは、エンタテインメント経済における新たな創造形態と変化を、明確に見直す。 クラウドソーシングプラットフォームrecitalを開発したのは、デジタルヒューマニティの新たなトレンドに従って、テリジストからデータを収集し、インデクシングするためのものだ。 RECITALはScribeAPIフレームワーク上に構築されており、ページの分類、マークとタグの注釈付け、インデックス付きマークの書き起こし、さらには以前の書き起こしの検証のための、本格的なWebアプリケーションを提供している。 また,クラウドソーシングデータ管理を支援するため,マルチレベルデータモデルについて記述し,一連のモニタリング・意思決定ツールを開発する。

In the 18th century in Paris, only two public theatres could officially perform comedies: the Com{\'e}die-Fran{\c c}aise, and the Com{\'e}die-Italienne. The latter was much less well known. By studying a century of accounting registers, we aim to learn more about its successful plays, its actors, musicians, set designers, and all the small trades necessary for its operation, its administration, logistics and finances. To this end, we employ a mass of untapped and unpublished resources, the 27,544 pages of 63 daily registers available at the Biblioth{\`e}que Nationale de France (BnF). And we take a decidedly fresh look at emerging forms of creation and changes in the entertainmenteconomy. We developed the crowdsourcing platform RECITAL to collect and index the data from theregisters, following an emerging trend in Digital Humanities. RECITAL is built upon the ScribeAPI framework and it offers a fully-fledged web application to classify the pages, annotate with marks and tags, transcribe the indexed marks and even to verify the previous transcripts. We also describe a multi-level data model and to develop a series of monitoring anddecision tools to support crowdsourced data management up to their definitive form.
翻訳日:2023-05-31 17:29:19 公開日:2023-05-30
# 言語間単語埋め込みに基づく多言語ニュースクラスタリングに関する研究

Research on Multilingual News Clustering Based on Cross-Language Word Embeddings ( http://arxiv.org/abs/2305.18880v1 )

ライセンス: Link先を確認
Lin Wu, Rui Li, Wong-Hing Lam(参考訳) 異なる国が報告した同じ出来事を分類することは、世論統制と情報収集において重要な意味を持つ。 様々なタイプのニュースのために、トランスラレータのみに依存するのはコストがかかり非効率であり、翻訳システムのみに依存すると、翻訳インターフェースの呼び出しや翻訳テキストの保存においてかなりのパフォーマンス上のオーバーヘッドが生じる。 この問題に対処するため、我々は主に言語間ニュースのクラスタリング問題に焦点をあてる。 具体的には、混合意味空間におけるニュース見出しの文ベクトル表現とニュースコンテンツの話題確率分布の組み合わせを用いてニュース記事を表現する。 言語間モデルの訓練では、2つの意味空間を混合意味空間に適合させるために知識蒸留技術を用いる。 我々はK-MeansやAGNESのような従来の静的クラスタリング手法を廃止し、インクリメンタルクラスタリングアルゴリズムSingle-Passを採用した。 本研究の主な貢献は,(1)英語標準BERTを教師モデルとし,XLM-Robertaを学生モデルとし,中国語と英語の文レベルのバイリンガルテキストを表現可能な知識蒸留による言語間モデルを訓練する。 2)LDAトピックモデルを用いて,ニュースをニュースコンテンツ表現におけるクロスランガル問題に対処するためのトピック類似性などの概念を導入し,ニュースを見出しのクロスランガルベクトルとコンテントのトピック確率分布の組合せとして表現する。 3) ニュースコンテキストに単一パスクラスタリングアルゴリズムを適用することで,その適用性を高める。 シングルパスの最適化には,サンプルとクラスタ間の距離アルゴリズムの調整,クラスタマージ操作の追加,ニュースタイムパラメータの組み込みなどが含まれる。

Classifying the same event reported by different countries is of significant importance for public opinion control and intelligence gathering. Due to the diverse types of news, relying solely on transla-tors would be costly and inefficient, while depending solely on translation systems would incur considerable performance overheads in invoking translation interfaces and storing translated texts. To address this issue, we mainly focus on the clustering problem of cross-lingual news. To be specific, we use a combination of sentence vector representations of news headlines in a mixed semantic space and the topic probability distributions of news content to represent a news article. In the training of cross-lingual models, we employ knowledge distillation techniques to fit two semantic spaces into a mixed semantic space. We abandon traditional static clustering methods like K-Means and AGNES in favor of the incremental clustering algorithm Single-Pass, which we further modify to better suit cross-lingual news clustering scenarios. Our main contributions are as follows: (1) We adopt the English standard BERT as the teacher model and XLM-Roberta as the student model, training a cross-lingual model through knowledge distillation that can represent sentence-level bilingual texts in both Chinese and English. (2) We use the LDA topic model to represent news as a combina-tion of cross-lingual vectors for headlines and topic probability distributions for con-tent, introducing concepts such as topic similarity to address the cross-lingual issue in news content representation. (3) We adapt the Single-Pass clustering algorithm for the news context to make it more applicable. Our optimizations of Single-Pass include ad-justing the distance algorithm between samples and clusters, adding cluster merging operations, and incorporating a news time parameter.
翻訳日:2023-05-31 17:21:42 公開日:2023-05-30
# マルチソーストランスレーショナルct再構成のためのbpfアルゴリズム

BPF Algorithms for Multiple Source-Translation Computed Tomography Reconstruction ( http://arxiv.org/abs/2305.18878v1 )

ライセンス: Link先を確認
Zhisheng Wang (1 and 2), Haijun Yu (3), Yixing Huang (4), Shunli Wang (1 and 2), Song Ni (3), Zongfeng Li (3), Fenglin Liu (3), Junning Cui (1 and 2) ((1) Center of Ultra-Precision Optoelectronic Instrument Engineering, Harbin Institute of Technology, Harbin 150080, China, (2) Key Lab of Ultra-Precision Intelligent Instrumentation (Harbin Institute of Technology), Ministry of Industry and Information Technology, Harbin 150080, China, (3) Key Laboratory of Optoelectronic Technology and Systems, Ministry of Education, Chongqing University, Chongqing 400044, China, (4) Oncology, University Hospital Erlangen, Friedrich-Alexander-University Erlangen-Nuremberg, 91054 Erlangen, Germany) These authors contributed equally: Zhisheng Wang, Haijun Yu Corresponding authors: Junning Cui, Fenglin Liu(参考訳) micro-computed tomography (micro-ct) は様々な分野の物体の形態構造を研究するために広く使われている最先端の装置である。 物体回転は、異なる角度からのデータ取得を可能にするmicro-ctの古典的な走査モードであるが、fov(field-of-view)は、高分解能撮像を目的とした検出器のサイズによって主に制限されている。 近年,Multiple Source Translation CT (mSTCT) と呼ばれる新しいスキャニングモードを導入し,マイクロCTシステムのFOVを効果的に拡張した。 さらに,高分解能再構成は数千のソースサンプリングを必要とするが,提案手法を応用した仮想投影型フィルタバックプロジェクション (V-FBP) アルゴリズムを開発した。 本稿では,低音源サンプリング比で高解像度画像の再構成を可能にする,mSTCT再構成,後方投影フィルタ (BPF) のための新しいアルゴリズムを提案する。 さらに, BPFの導関数を異なる方向(ソースと検出器)に沿って実装すると, 2つの異なるBPFアルゴリズム(S-BPFとD-BPF)がそれぞれ独自の再構成性能特性を持つことがわかった。 そこで本研究では, d-bpfの高分解能再現を実現することで, v-fbpと比較して, ソースサンプリングを75%削減できることを実証する。 S-BPFはV-FBPと類似した特性を有しており、空間分解能は主にソースサンプリングの影響を受けている。

Micro-computed tomography (micro-CT) is a widely used state-of-the-art instrument employed to study the morphological structures of objects in various fields. Object-rotation is a classical scanning mode in micro-CT allowing data acquisition from different angles; however, its field-of-view (FOV) is primarily constrained by the size of the detector when aiming for high spatial resolution imaging. Recently, we introduced a novel scanning mode called multiple source translation CT (mSTCT), which effectively enlarges the FOV of the micro-CT system. Furthermore, we developed a virtual projection-based filtered backprojection (V-FBP) algorithm to address truncated projection, albeit with a trade-off in acquisition efficiency (high resolution reconstruction typically requires thousands of source samplings). In this paper, we present a new algorithm for mSTCT reconstruction, backprojection-filtration (BPF), which enables reconstructions of high-resolution images with a low source sampling ratio. Additionally, we found that implementing derivatives in BPF along different directions (source and detector) yields two distinct BPF algorithms (S-BPF and D-BPF), each with its own reconstruction performance characteristics. Through simulated and real experiments conducted in this paper, we demonstrate that achieving same high-resolution reconstructions, D-BPF can reduce source sampling by 75% compared with V-FBP. S-BPF shares similar characteristics with V-FBP, where the spatial resolution is primarily influenced by the source sampling.
翻訳日:2023-05-31 17:21:09 公開日:2023-05-30
# 分散協調の集中リハーサル:マルチエージェント強化学習による住宅エネルギー柔軟性のスケーラブルな協調

Centralised rehearsal of decentralised cooperation: Multi-agent reinforcement learning for the scalable coordination of residential energy flexibility ( http://arxiv.org/abs/2305.18875v1 )

ライセンス: Link先を確認
Flora Charbonnier, Bei Peng(参考訳) 本稿では,多エージェント強化学習が住宅エネルギーの柔軟性のスケーラブルかつプライバシ保護的協調をいかに実現するかを検討する。 電気自動車や暖房といった分散資源の調整は、我々の電力網における再生可能エネルギーの大規模な共有をうまく統合し、気候変動を緩和する上で非常に重要である。 個別の強化学習ポリシーの事前学習は、実行中に個人データの共有が不要な分散制御を可能にする。 しかしながら、マルチエージェント強化学習に基づく分散エネルギー資源調整に対する以前のアプローチは、システムのサイズが大きくなるにつれて、計算負荷を増大させる。 そこで我々は,実行前にコーディネーションをリハーサルするために,emph{centralized but factored critic} を用いた深層マルチエージェントアクター批判手法を採用した。 その結果、調整は、最小限の情報と通信インフラの要件、日々の活動への干渉なし、プライバシー保護など、大規模に達成されている。 エネルギー使用者、配電網、温室効果ガス排出に対する重要な貯蓄が得られている。 さらに、30世帯の批判を伴わない最先端の強化学習アプローチでは、トレーニング時間は40倍近く短縮されている。

This paper investigates how deep multi-agent reinforcement learning can enable the scalable and privacy-preserving coordination of residential energy flexibility. The coordination of distributed resources such as electric vehicles and heating will be critical to the successful integration of large shares of renewable energy in our electricity grid and, thus, to help mitigate climate change. The pre-learning of individual reinforcement learning policies can enable distributed control with no sharing of personal data required during execution. However, previous approaches for multi-agent reinforcement learning-based distributed energy resources coordination impose an ever greater training computational burden as the size of the system increases. We therefore adopt a deep multi-agent actor-critic method which uses a \emph{centralised but factored critic} to rehearse coordination ahead of execution. Results show that coordination is achieved at scale, with minimal information and communication infrastructure requirements, no interference with daily activities, and privacy protection. Significant savings are obtained for energy users, the distribution network and greenhouse gas emissions. Moreover, training times are nearly 40 times shorter than with a previous state-of-the-art reinforcement learning approach without the factored critic for 30 homes.
翻訳日:2023-05-31 17:20:41 公開日:2023-05-30
# ハミルトニアンの量子変化点の同定

Identifying quantum change points for Hamiltonians ( http://arxiv.org/abs/2305.18872v1 )

ライセンス: Link先を確認
Kenji Nakahira(参考訳) 環境変化の特定は多くの分野で重要である。 本研究は, 量子系における変化点検出の最適性能を, ハミルトニアンが特定の時間で突然変化した場合に検討することを目的とした。 変化の前後にハミルトニアンが知られていることを仮定し、各変化点の事前確率が同一であると仮定する。 これらのハミルトニアンは時間依存である。 本研究で検討されている問題は、量子チャネルのシーケンスからなる複数の量子過程を識別する問題の拡張である。 このような問題に対する解析的解を見つけることは極めて困難であるが、ハミルトニアン変化点問題の最大成功確率は解析的に決定可能であり、簡単な形式を持つことを実証する。

The identification of environmental changes is crucial in many fields. The present research is aimed at investigating the optimal performance for detecting change points in a quantum system when its Hamiltonian suddenly changes at a specific time. Assume that the Hamiltonians before and after the change are known and that the prior probability of each prospective change point is identical. These Hamiltonians can be time-dependent. The problem considered in this study is an extension of the problem of discriminating multiple quantum processes that consist of sequences of quantum channels. Although it is often extremely difficult to find an analytical solution to such a problem, we demonstrate that the maximum success probability for the Hamiltonian change point problem can be determined analytically and has a simple form.
翻訳日:2023-05-31 17:20:22 公開日:2023-05-30
# 解離連鎖:MDPの構成的インコンテキスト学習に関する研究

Dissecting Chain-of-Thought: A Study on Compositional In-Context Learning of MLPs ( http://arxiv.org/abs/2305.18869v1 )

ライセンス: Link先を確認
Yingcong Li, Kartik Sreenivasan, Angeliki Giannou, Dimitris Papailiopoulos, Samet Oymak(参考訳) CoT(Chain-of-Thought)は、言語モデルが複雑な推論タスクを単純なステップに分解することで処理できるようにする手法である。 その成功にもかかわらず、CoTの基盤となる力学はまだ完全には理解されていない。 そこで本研究では, コンテクスト内コンテクスト変換におけるCoTの影響について検討し, 多層パーセプトロン(MLP)の一般的な構成関数群について検討した。 本稿では,CoTの成功は,構成関数の文脈内学習を,構成関数の各ステップに関連するデータと,単一ステップの構成関数のコンテキスト内学習の2つの相に分解することに起因することを示す。 実験的および理論的証拠により、CoTがコンテキスト内学習(ICL)のサンプル複雑性を著しく低減し、非CoT手法が抱える複雑な関数の学習を容易にすることを示す。 さらに,注意機構を介してCoTに必要なフィルタリングを行う付加層を単に組み込むことで,変換器がバニラ・イン・コンテキスト学習からCoTによる合成関数の習得へ移行する方法について述べる。 これらのテストタイムのメリットに加えて、CoTが複雑な関数を表現するためにショートカットを学習することで事前トレーニングを加速し、事前トレーニングにおいてフィルタリングが重要な役割を担っているかを強調した。 これらの知見は総合的にCoTの力学に関する洞察を与え、複雑な推論タスクにおけるCoTの役割についてさらなる研究を促している。

Chain-of-thought (CoT) is a method that enables language models to handle complex reasoning tasks by decomposing them into simpler steps. Despite its success, the underlying mechanics of CoT are not yet fully understood. In an attempt to shed light on this, our study investigates the impact of CoT on the ability of transformers to in-context learn a simple to study, yet general family of compositional functions: multi-layer perceptrons (MLPs). In this setting, we reveal that the success of CoT can be attributed to breaking down in-context learning of a compositional function into two distinct phases: focusing on data related to each step of the composition and in-context learning the single-step composition function. Through both experimental and theoretical evidence, we demonstrate how CoT significantly reduces the sample complexity of in-context learning (ICL) and facilitates the learning of complex functions that non-CoT methods struggle with. Furthermore, we illustrate how transformers can transition from vanilla in-context learning to mastering a compositional function with CoT by simply incorporating an additional layer that performs the necessary filtering for CoT via the attention mechanism. In addition to these test-time benefits, we highlight how CoT accelerates pretraining by learning shortcuts to represent complex functions and how filtering plays an important role in pretraining. These findings collectively provide insights into the mechanics of CoT, inviting further investigation of its role in complex reasoning tasks.
翻訳日:2023-05-31 17:20:10 公開日:2023-05-30
# 空間的・スケール不確実性認識ネットワークによる伸長生理構造分割

Elongated Physiological Structure Segmentation via Spatial and Scale Uncertainty-aware Network ( http://arxiv.org/abs/2305.18865v1 )

ライセンス: Link先を確認
Yinglin Zhang, Ruiling Xi, Huazhu Fu, Dave Towey, RuiBin Bai, Risa Higashita, Jiang Liu(参考訳) 伸長した生理構造に対するロバストで正確なセグメンテーションは、特に不均一な照明を持つ角膜内皮顕微鏡像や疾患干渉を伴う眼底像のような曖昧な領域において困難である。 本稿では,空間的・スケール的不確実性を考慮した空間的・スケール的不確実性認識ネットワーク(SSU-Net)を提案する。 まず,モンテカルロドロップアウトから近似ベイズネットワークへの認識的空間的不確かさマップを推定する。 このような空間不確実性マップに基づいて,不明瞭領域に焦点を合わせるためのゲート型ソフト不確実性認識モジュール(GSUA)を提案する。 次に,異なるスケールで不確かさを抽出し,階層的予測から構造的コンテキストを統合するマルチスケール不確実性認識(msua)融合モジュールを提案する。 最後に、最終予測の不確実性マップを可視化し、セグメンテーション結果の解釈可能性を提供する。 実験の結果,SSU-Netは角膜内皮細胞と網膜血管の分節機能に優れていた。 さらに、ssu-netは不確実性に基づく手法に比べて正確で堅牢である。

Robust and accurate segmentation for elongated physiological structures is challenging, especially in the ambiguous region, such as the corneal endothelium microscope image with uneven illumination or the fundus image with disease interference. In this paper, we present a spatial and scale uncertainty-aware network (SSU-Net) that fully uses both spatial and scale uncertainty to highlight ambiguous regions and integrate hierarchical structure contexts. First, we estimate epistemic and aleatoric spatial uncertainty maps using Monte Carlo dropout to approximate Bayesian networks. Based on these spatial uncertainty maps, we propose the gated soft uncertainty-aware (GSUA) module to guide the model to focus on ambiguous regions. Second, we extract the uncertainty under different scales and propose the multi-scale uncertainty-aware (MSUA) fusion module to integrate structure contexts from hierarchical predictions, strengthening the final prediction. Finally, we visualize the uncertainty map of final prediction, providing interpretability for segmentation results. Experiment results show that the SSU-Net performs best on cornea endothelial cell and retinal vessel segmentation tasks. Moreover, compared with counterpart uncertainty-based methods, SSU-Net is more accurate and robust.
翻訳日:2023-05-31 17:19:43 公開日:2023-05-30
# 量子最適化に基づく確率勾配ランジュバンダイナミクス

Stochastic Gradient Langevin Dynamics Based on Quantized Optimization ( http://arxiv.org/abs/2305.18864v1 )

ライセンス: Link先を確認
JInwuk Seok and Changsik Cho(参考訳) ディープニューラルネットワークにおけるLangevin あるいは Levy 確率微分方程式 (SDEs) に基づく確率的学習ダイナミクスは、ノイズの分散をミニバッチのサイズや直接ノイズを注入する方法によって制御する。 雑音分散は近似性能に影響を与えるため,SDEに基づく学習と実践において付加雑音の設計が重要である。 本稿では,非凸目的関数の量子化最適化に基づく確率的降下学習方程式を提案する。 提案手法では,Langevin SDEのダイナミックスを利用した量子最適化手法を用いて,加算雑音やミニバッチサイズを調整することなく,同一分布の制御可能なノイズを制御できる。 数値実験により,バニラ畳み込みニューラルネットワーク(CNN)モデルとResNet-50アーキテクチャに対する提案アルゴリズムの有効性が示された。 さらに,提案アルゴリズムの簡単なPyTorch実装を提案する。

Stochastic learning dynamics based on Langevin or Levy stochastic differential equations (SDEs) in deep neural networks control the variance of noise by varying the size of the mini-batch or directly those of injecting noise. Since the noise variance affects the approximation performance, the design of the additive noise is significant in SDE-based learning and practical implementation. In this paper, we propose an alternative stochastic descent learning equation based on quantized optimization for non-convex objective functions, adopting a stochastic analysis perspective. The proposed method employs a quantized optimization approach that utilizes Langevin SDE dynamics, allowing for controllable noise with an identical distribution without the need for additive noise or adjusting the mini-batch size. Numerical experiments demonstrate the effectiveness of the proposed algorithm on vanilla convolution neural network(CNN) models and the ResNet-50 architecture across various data sets. Furthermore, we provide a simple PyTorch implementation of the proposed algorithm.
翻訳日:2023-05-31 17:19:23 公開日:2023-05-30
# 実旅行需要に基づく大規模ライドシェアリングdarpインスタンス

Large-scale Ridesharing DARP Instances Based on Real Travel Demand ( http://arxiv.org/abs/2305.18859v1 )

ライセンス: Link先を確認
David Fiedler and Jan Mrkos(参考訳) 配車サービスを伴うモビリティ・オン・デマンド(MoD)システムのコンテキストにおいて、DARP(Dial-a-Ride Problem)を解くアルゴリズムの実際の性能を正確に予測するには、代表インスタンスでそれらを評価する必要がある。 しかし、最先端のDARPソリューション手法のベンチマークは、小さな人工インスタンスや時代遅れの非パブリックインスタンスに限られており、直接比較を妨げている。 大規模なMoDシステムの台頭と、多くのアメリカの都市でオープンな旅行需要データセットが利用可能になったことにより、これらのアルゴリズムを標準化され、現実的で、代表的なインスタンスで評価する機会が生まれました。 難解で多様なデータセットを処理することに関わる重要な課題にもかかわらず、実世界データに基づく大規模需要インスタンスの包括的なセットを作成する手法を開発した。 これらの事例は多種多様なユースケースをカバーしており、そのうちの1つは、挿入ヒューリスティックと最適車両群割り当てという2つの確立されたDARP手法の評価で実証されている。 両手法の完全な結果を標準化されたフォーマットで公開する。 その結果,各都市における評価方法の重要性が強調され,測定値の地域間で有意差がみられた。

Accurately predicting the real-life performance of algorithms solving the Dial-a-Ride Problem (DARP) in the context of Mobility on Demand (MoD) systems with ridesharing requires evaluating them on representative instances. However, the benchmarking of state-of-the-art DARP solution methods has been limited to small, artificial instances or outdated non-public instances, hindering direct comparisons. With the rise of large MoD systems and the availability of open travel demand datasets for many US cities, there is now an opportunity to evaluate these algorithms on standardized, realistic, and representative instances. Despite the significant challenges involved in processing obfuscated and diverse datasets, we have developed a methodology using which we have created a comprehensive set of large-scale demand instances based on real-world data. These instances cover diverse use cases, one of which is demonstrated in an evaluation of two established DARP methods: the insertion heuristic and optimal vehicle-group assignment method. We publish the full results of both methods in a standardized format. The results show significant differences between areas in all measured quantities, emphasizing the importance of evaluating methods across different cities.
翻訳日:2023-05-31 17:19:07 公開日:2023-05-30
# 生成型ニューラルネットワークを用いたフェデレーションチャネルモデリングシステム

A Federated Channel Modeling System using Generative Neural Networks ( http://arxiv.org/abs/2305.18856v1 )

ライセンス: Link先を確認
Saira Bano, Pietro Cassar\`a, Nicola Tonellotto, Alberto Gotta(参考訳) 本稿では,無人航空機のミリ波無線ネットワークにおける空対地チャネル推定のためのデータ駆動手法を提案する。 特定の地理的領域に特有で他に不適切である従来の集中型学習手法とは異なり、チャネル推定にフェデレート学習(fl)を使用し、低高度プラットフォームと地上端末の間の空対地経路損失を予測できる一般化モデルを提案する。 この目的のために提案するFL-GAN(Generative Adversarial Network)は,異なる種類のデータ分布を学習し,トレーニングフェーズ前の事前データ解析を必要とせず,同じ分布から現実的なパターンを生成する生成データモデルとして機能するように設計されている。 提案モデルの有効性を評価するため,Kullback-Leibler divergence (KL) と,モデルが生成した合成データ分布と実際のデータ分布とのワッサーシュタイン距離を用いて,その性能を評価する。 また,提案手法をFL-Variational Autoencoder (FL-VAE) やスタンドアローンVAE, GANモデルなど,他の生成モデルと比較した。 その結果,fl-ganが生成する合成データと実データとの分布の類似度が最も高いことがわかった。 これは、異なる領域で使用できるデータ駆動チャネルモデル作成における提案手法の有効性を示す。

The paper proposes a data-driven approach to air-to-ground channel estimation in a millimeter-wave wireless network on an unmanned aerial vehicle. Unlike traditional centralized learning methods that are specific to certain geographical areas and inappropriate for others, we propose a generalized model that uses Federated Learning (FL) for channel estimation and can predict the air-to-ground path loss between a low-altitude platform and a terrestrial terminal. To this end, our proposed FL-based Generative Adversarial Network (FL-GAN) is designed to function as a generative data model that can learn different types of data distributions and generate realistic patterns from the same distributions without requiring prior data analysis before the training phase. To evaluate the effectiveness of the proposed model, we evaluate its performance using Kullback-Leibler divergence (KL), and Wasserstein distance between the synthetic data distribution generated by the model and the actual data distribution. We also compare the proposed technique with other generative models, such as FL-Variational Autoencoder (FL-VAE) and stand-alone VAE and GAN models. The results of the study show that the synthetic data generated by FL-GAN has the highest similarity in distribution with the real data. This shows the effectiveness of the proposed approach in generating data-driven channel models that can be used in different regions
翻訳日:2023-05-31 17:18:46 公開日:2023-05-30
# STT4SG-350: スイス全ドイツ語方言の音声コーパス

STT4SG-350: A Speech Corpus for All Swiss German Dialect Regions ( http://arxiv.org/abs/2305.18855v1 )

ライセンス: Link先を確認
Michel Pl\"uss, Jan Deriu, Yanick Schraner, Claudio Paonessa, Julia Hartmann, Larissa Schmidt, Christian Scheller, Manuela H\"urlimann, Tanja Samard\v{z}i\'c, Manfred Vogel, Mark Cieliebak(参考訳) 我々はスイスドイツ語のコーパスであるSTT4SG-350(Speech-to-Text)を文レベルで標準ドイツ語のテキストで注釈付けした。 データは、話者が標準ドイツ語の文を表示するWebアプリを使って収集され、スイスドイツ語に翻訳され、記録される。 コーパスを公開しています。 全ての方言地域から343時間のスピーチがあり、現在までスイスドイツ人にとって最大の公的なスピーチコーパスである。 応用分野には、自動音声認識(asr)、音声合成、方言識別、話者認識などがある。 316人の話者の方言情報、年齢グループ、性別が提供される。 性別は等しく表現され、コーパスにはすべての年齢の話者が含まれる。 ほぼ同じ量の音声が方言領域毎に提供されるため、コーパスは異なる方言に対する音声技術の実験に最適である。 データのトレーニング、検証、テストの分割を提供します。 テストセットは、方言領域毎に同じ音声文で構成され、異なる方言における音声技術の品質を公平に評価することができる。 トレーニングセット上でASRモデルをトレーニングし、テストセット上での平均BLEUスコア74.7を達成する。 このモデルはスイスの他の2つのasrテストセットのbleuスコアを上回り、コーパスの品質を示している。

We present STT4SG-350 (Speech-to-Text for Swiss German), a corpus of Swiss German speech, annotated with Standard German text at the sentence level. The data is collected using a web app in which the speakers are shown Standard German sentences, which they translate to Swiss German and record. We make the corpus publicly available. It contains 343 hours of speech from all dialect regions and is the largest public speech corpus for Swiss German to date. Application areas include automatic speech recognition (ASR), text-to-speech, dialect identification, and speaker recognition. Dialect information, age group, and gender of the 316 speakers are provided. Genders are equally represented and the corpus includes speakers of all ages. Roughly the same amount of speech is provided per dialect region, which makes the corpus ideally suited for experiments with speech technology for different dialects. We provide training, validation, and test splits of the data. The test set consists of the same spoken sentences for each dialect region and allows a fair evaluation of the quality of speech technologies in different dialects. We train an ASR model on the training set and achieve an average BLEU score of 74.7 on the test set. The model beats the best published BLEU scores on 2 other Swiss German ASR test sets, demonstrating the quality of the corpus.
翻訳日:2023-05-31 17:18:20 公開日:2023-05-30
# One-line-of-Code Data Mollificationは、類似生成モデルの最適化を改善する

One-Line-of-Code Data Mollification Improves Optimization of Likelihood-based Generative Models ( http://arxiv.org/abs/2305.18900v1 )

ライセンス: Link先を確認
Ba-Hien Tran, Giulio Franzese, Pietro Michiardi, Maurizio Filippone(参考訳) 生成モデル(gms)は、コンピュータビジョンのような、印象的なリアルなイメージを生成できる様々な領域で大きな成功を収めているため、多くの注目を集めている。 LikelihoodベースのGMは、単一のモデル評価によって新しいデータを生成する可能性から魅力的である。 しかし、それらは通常、最先端のスコアベース拡散モデル(DM)と比較して低いサンプル品質を達成する。 本稿では,この限界に対処するための重要なステップを提供する。 この考え方は、低密度領域で正確な密度推定を行うことのできるスコアベースのDMの強みの1つを借り、データモリフィケーションによる過剰適合に対処することを目的としている。 我々はガウス雑音をガウスホモトピーに付加することでデータモリフィケーションを接続する。 データモラフィケーションは最適化ループに1行のコードを追加することで実装でき、計算のオーバーヘッドなしにラピッドベースgmsの生成品質を向上できることを実証する。 可変オートエンコーダの変種や正規化フローを含む,一般的な確率ベースGMを用いた画像データセットの結果を報告する。

Generative Models (GMs) have attracted considerable attention due to their tremendous success in various domains, such as computer vision where they are capable to generate impressive realistic-looking images. Likelihood-based GMs are attractive due to the possibility to generate new data by a single model evaluation. However, they typically achieve lower sample quality compared to state-of-the-art score-based diffusion models (DMs). This paper provides a significant step in the direction of addressing this limitation. The idea is to borrow one of the strengths of score-based DMs, which is the ability to perform accurate density estimation in low-density regions and to address manifold overfitting by means of data mollification. We connect data mollification through the addition of Gaussian noise to Gaussian homotopy, which is a well-known technique to improve optimization. Data mollification can be implemented by adding one line of code in the optimization loop, and we demonstrate that this provides a boost in generation quality of likelihood-based GMs, without computational overheads. We report results on image data sets with popular likelihood-based GMs, including variants of variational autoencoders and normalizing flows, showing large improvements in FID score.
翻訳日:2023-05-31 17:13:16 公開日:2023-05-30
# AlphaBlock:ロボット操作における視覚言語推論のための身体的ファインタニング

AlphaBlock: Embodied Finetuning for Vision-Language Reasoning in Robot Manipulation ( http://arxiv.org/abs/2305.18898v1 )

ライセンス: Link先を確認
Chuhao Jin, Wenhui Tan, Jiange Yang, Bei Liu, Ruihua Song, Limin Wang, Jianlong Fu(参考訳) ビルディングブロックを用いたスマイリー顔作成などロボット操作タスクにおける高レベル認知能力学習のための新しいフレームワークを提案する。 これらのタスクは複雑な多段階推論を伴い、人間の指示(例えば、笑顔の顔を作る)とロボットの動作(例えば、エンドエフェクタ運動)を繋ぐ限られたペアデータによる重大な課題を提示する。 既存のアプローチは、単純なサブタスクプランに高レベルの命令を分解するオープンループパラダイムを採用し、低レベルの制御モデルを使用してステップバイステップで実行することによって、この課題を緩和する。 しかし、これらのアプローチは多段階の推論における即時観測に乏しく、準最適結果をもたらす。 そこで本稿では,Large Language Models (LLM) による認知ロボットデータセットの自動収集を提案する。 得られたデータセットalphablockは、多段階テキストプランとペア化された観測シーケンスの35の包括的なハイレベルタスクで構成されている。 効率的なデータ取得を実現するため,広範囲な人的関与の負担を効果的に軽減するマルチラウンドプロンプト設計を採用した。 さらに,画像観察を入力として自己回帰的に計画を生成するクローズドループ型マルチモーダル実施計画モデルを提案する。 効率的な学習を容易にするために,我々はMiniGPT-4を凍結型視覚エンコーダとLCMで利用し,さらに視覚アダプターとQフォーマを微調整することで,操作タスクの空間認識を微調整する。 我々は,既存のオープンループおよびクローズドループ法よりも優れていることを検証する実験を行い,chatgptおよびgpt-4ベースのロボットタスクに対して,成功率を21.4%,14.5%向上させた。 実世界のデモはhttps://www.youtube.com/watch? v=ayazid1_qqk。

We propose a novel framework for learning high-level cognitive capabilities in robot manipulation tasks, such as making a smiley face using building blocks. These tasks often involve complex multi-step reasoning, presenting significant challenges due to the limited paired data connecting human instructions (e.g., making a smiley face) and robot actions (e.g., end-effector movement). Existing approaches relieve this challenge by adopting an open-loop paradigm decomposing high-level instructions into simple sub-task plans, and executing them step-by-step using low-level control models. However, these approaches are short of instant observations in multi-step reasoning, leading to sub-optimal results. To address this issue, we propose to automatically collect a cognitive robot dataset by Large Language Models (LLMs). The resulting dataset AlphaBlock consists of 35 comprehensive high-level tasks of multi-step text plans and paired observation sequences. To enable efficient data acquisition, we employ elaborated multi-round prompt designs that effectively reduce the burden of extensive human involvement. We further propose a closed-loop multi-modal embodied planning model that autoregressively generates plans by taking image observations as input. To facilitate effective learning, we leverage MiniGPT-4 with a frozen visual encoder and LLM, and finetune additional vision adapter and Q-former to enable fine-grained spatial perception for manipulation tasks. We conduct experiments to verify the superiority over existing open and closed-loop methods, and achieve a significant increase in success rate by 21.4% and 14.5% over ChatGPT and GPT-4 based robot tasks. Real-world demos are shown in https://www.youtube.com/watch?v=ayAzID1_qQk .
翻訳日:2023-05-31 17:12:55 公開日:2023-05-30
# 自己スーパービジョンのみを用いたオフロードトラバーサビリティの学習

Learning Off-Road Terrain Traversability with Self-Supervisions Only ( http://arxiv.org/abs/2305.18896v1 )

ライセンス: Link先を確認
Junwon Seo, Sungdae Sim, and Inwook Shim(参考訳) オフロード環境における自律走行の様々な条件下で、地形の走行可能性の推定は信頼性と正確性を有するべきである。 しかし、学習に基づくアプローチは、慣れ親しんだ文脈に直面すると信頼できない結果をもたらすことが多く、新しい状況において手動のアノテーションを頻繁に得ることは困難である。 本稿では,自己スーパービジョンのみを利用して手動ラベルを使用せず,新たな状況下で容易にトラバーサビリティを学習できる画像からトラバーサビリティを学習する手法を提案する。 この目的のために,我々はまず,車両が横断する標識領域を高いトラバーサブルにすることで,過去の走行軌跡から自己教師付きトラバーサビリティラベルを生成する。 自己教師付きラベルを用いて、一クラス分類アルゴリズムを用いて画像から安全な地形を特定するニューラルネットワークを訓練する。 さらに,視覚表現の自己教師付き学習手法を取り入れることで,自己教師付きラベルの制限を補う。 総合的な評価を行うため,様々な運転環境や知覚環境のデータを収集し,様々な環境で信頼性の高い推定を行うことを示す。 また,本手法は他の自己教師ありトラバーサビリティ推定手法よりも優れており,手動ラベル付きデータを用いた教師あり学習法と同等の性能が得られることを確認した。

Estimating the traversability of terrain should be reliable and accurate in diverse conditions for autonomous driving in off-road environments. However, learning-based approaches often yield unreliable results when confronted with unfamiliar contexts, and it is challenging to obtain manual annotations frequently for new circumstances. In this paper, we introduce a method for learning traversability from images that utilizes only self-supervision and no manual labels, enabling it to easily learn traversability in new circumstances. To this end, we first generate self-supervised traversability labels from past driving trajectories by labeling regions traversed by the vehicle as highly traversable. Using the self-supervised labels, we then train a neural network that identifies terrains that are safe to traverse from an image using a one-class classification algorithm. Additionally, we supplement the limitations of self-supervised labels by incorporating methods of self-supervised learning of visual representations. To conduct a comprehensive evaluation, we collect data in a variety of driving environments and perceptual conditions and show that our method produces reliable estimations in various environments. In addition, the experimental results validate that our method outperforms other self-supervised traversability estimation methods and achieves comparable performances with supervised learning methods trained on manually labeled data.
翻訳日:2023-05-31 17:12:21 公開日:2023-05-30
# ポイントはどこにありますか。 自己監督型多言語句読解-不可知文セグメンテーション

Where's the Point? Self-Supervised Multilingual Punctuation-Agnostic Sentence Segmentation ( http://arxiv.org/abs/2305.18893v1 )

ライセンス: Link先を確認
Benjamin Minixhofer, Jonas Pfeiffer, Ivan Vuli\'c(参考訳) 多くのNLPパイプラインはテキストを文に分割し、重要な前処理ステップの1つとなった。 前の文セグメンテーションツールは句読点に依存するか、あるいはかなりの量の文セグメンテーショントレーニングデータを必要とする。 そこで本研究では,現在85言語にまたがる多言語句読点非依存の文節分割法を紹介し,節分割を暗黙的に行なえる新文を用いた。 さらに,文分割例の少ない数 (64-256) を用いて,与えられたコーパスのセグメント化に我々の手法を適用する手法を提案する。 その結果,本手法は従来の最良文分割ツールを平均6.1%F1ポイントで上回る結果となった。 さらに, 機械翻訳 (mt) のような下流アプリケーションでは, (強力な) 文セグメンタの使用が相当な差をもたらすこと, 適切な文セグメンテーションにはポイントがあることを示す。 mtモデルのトレーニングに使用するセグメント化と文分割をマッチングする手法を用いることで、最善の事前セグメンテーションツールに対する2.3 bleu点の平均改善と、テキストを等サイズのブロックに分割する自明なセグメンテーションに対する大幅な向上を実現する。

Many NLP pipelines split text into sentences as one of the crucial preprocessing steps. Prior sentence segmentation tools either rely on punctuation or require a considerable amount of sentence-segmented training data: both central assumptions might fail when porting sentence segmenters to diverse languages on a massive scale. In this work, we thus introduce a multilingual punctuation-agnostic sentence segmentation method, currently covering 85 languages, trained in a self-supervised fashion on unsegmented text, by making use of newline characters which implicitly perform segmentation into paragraphs. We further propose an approach that adapts our method to the segmentation in a given corpus by using only a small number (64-256) of sentence-segmented examples. The main results indicate that our method outperforms all the prior best sentence-segmentation tools by an average of 6.1% F1 points. Furthermore, we demonstrate that proper sentence segmentation has a point: the use of a (powerful) sentence segmenter makes a considerable difference for a downstream application such as machine translation (MT). By using our method to match sentence segmentation to the segmentation used during training of MT models, we achieve an average improvement of 2.3 BLEU points over the best prior segmentation tool, as well as massive gains over a trivial segmenter that splits text into equally sized blocks.
翻訳日:2023-05-31 17:12:00 公開日:2023-05-30
# Emotion Gesture: 音声駆動の逆感情型3Dジェスチャー生成

EmotionGesture: Audio-Driven Diverse Emotional Co-Speech 3D Gesture Generation ( http://arxiv.org/abs/2305.18891v1 )

ライセンス: Link先を確認
Xingqun Qi, Chen Liu, Lincheng Li, Jie Hou, Haoran Xin, Xin Yu(参考訳) 鮮明で多様な3次元音声合成ジェスチャの生成は,仮想アバターのアニメーション化に不可欠である。 既存の方法の多くは、直接音声からジェスチャーを生成することができるが、感情が真の共同音声ジェスチャー生成の重要な要素の1つであることを見逃している。 本研究では,視覚的かつ多様な感情的な3Dジェスチャーを音声から合成する新しいフレームワークであるEmotionGestureを提案する。 音声のリズミカルビートに感情が絡み合うことを考えると、まず感情と音響ビートの特徴を抽出し、テキストベースの視覚リズムアライメントによって相関をモデル化する感情-ビートマイニングモジュール(EBM)を開発する。 次に,初期ポーズから将来のジェスチャーを生成するために,初期ポーズに基づく時空間プロンプタ(STP)を提案する。 STPは、初期ポーズと将来のジェスチャーの空間的時間的相関を効果的にモデル化し、空間的時間的コヒーレントなポーズプロンプトを生成する。 ポーズのプロンプト、感情、オーディオビート機能を得たら、トランスフォーマーアーキテクチャを通じて3d共同ジェスチャーを生成します。 しかし、既存のデータセットのポーズがジッタリング効果を含むことを考えると、不安定なジェスチャーが発生する。 この問題に対処するため,我々はモーションスムース損失と呼ばれる効果的な目的関数を提案する。 具体的には,動作オフセットをモデル化し,ジェスチャを滑らかにすることで地中を散らかすことを補う。 最後に、感情条件付きVAEを用いて感情特徴をサンプリングし、多様な感情結果を生成する。 広範な実験によって、我々のフレームワークは最先端を上回っており、鮮やかで多様な感情的な3dジェスチャを実現しています。

Generating vivid and diverse 3D co-speech gestures is crucial for various applications in animating virtual avatars. While most existing methods can generate gestures from audio directly, they usually overlook that emotion is one of the key factors of authentic co-speech gesture generation. In this work, we propose EmotionGesture, a novel framework for synthesizing vivid and diverse emotional co-speech 3D gestures from audio. Considering emotion is often entangled with the rhythmic beat in speech audio, we first develop an Emotion-Beat Mining module (EBM) to extract the emotion and audio beat features as well as model their correlation via a transcript-based visual-rhythm alignment. Then, we propose an initial pose based Spatial-Temporal Prompter (STP) to generate future gestures from the given initial poses. STP effectively models the spatial-temporal correlations between the initial poses and the future gestures, thus producing the spatial-temporal coherent pose prompt. Once we obtain pose prompts, emotion, and audio beat features, we will generate 3D co-speech gestures through a transformer architecture. However, considering the poses of existing datasets often contain jittering effects, this would lead to generating unstable gestures. To address this issue, we propose an effective objective function, dubbed Motion-Smooth Loss. Specifically, we model motion offset to compensate for jittering ground-truth by forcing gestures to be smooth. Last, we present an emotion-conditioned VAE to sample emotion features, enabling us to generate diverse emotional results. Extensive experiments demonstrate that our framework outperforms the state-of-the-art, achieving vivid and diverse emotional co-speech 3D gestures.
翻訳日:2023-05-31 17:11:35 公開日:2023-05-30
# スロットに基づく物体中心モデルのスロット数に対する感度

Sensitivity of Slot-Based Object-Centric Models to their Number of Slots ( http://arxiv.org/abs/2305.18890v1 )

ライセンス: Link先を確認
Roland S. Zimmermann, Sjoerd van Steenkiste, Mehdi S. M. Sajjadi, Thomas Kipf, Klaus Greff(参考訳) 近年,オブジェクト中心表現を学習するための自己教師型手法が,様々なデータセットに適用されている。 この進歩は、視覚シーンを意味のあるオブジェクトにクラスタリングする能力が、合成一般化と下流学習を大いに約束するスロットベースの手法に大きく支えられている。 これらの方法では、slot(クラスタ)$k$が通常、実際の設定では未知数であっても、データ内の接地オブジェクトの数にマッチするように選択される。 実際、スロットベースのメソッドのK$に対する感度と、それがデータ内のオブジェクトとの学習対応に与える影響は、文献でほとんど無視されている。 本研究では,スロットベース手法の体系的研究を通じてこの問題に対処する。 そこで我々は,適応乱数指数に基づく精度とリコールのためのアナログを用いて,広範囲にわたるモデル挙動を正確に定量化することを提案する。 特にトレーニング中は、k$ の誤った選択は、望ましいオブジェクトの分解を生じさせず、実際には、分離されたオブジェクトのかなりのオーバーセグメンテーションまたはマージを引き起こす(アンダーセグメンテーション)。 目的関数の選択とインスタンスレベルのアノテーションの導入は、この問題を完全に解決できないまま、この振る舞いを適度に軽減できることを示す。 実際、この問題は複数のメソッドやデータセットにまたがって持続し、将来のスロットベースモデルにおいてその重要性を強調している。

Self-supervised methods for learning object-centric representations have recently been applied successfully to various datasets. This progress is largely fueled by slot-based methods, whose ability to cluster visual scenes into meaningful objects holds great promise for compositional generalization and downstream learning. In these methods, the number of slots (clusters) $K$ is typically chosen to match the number of ground-truth objects in the data, even though this quantity is unknown in real-world settings. Indeed, the sensitivity of slot-based methods to $K$, and how this affects their learned correspondence to objects in the data has largely been ignored in the literature. In this work, we address this issue through a systematic study of slot-based methods. We propose using analogs to precision and recall based on the Adjusted Rand Index to accurately quantify model behavior over a large range of $K$. We find that, especially during training, incorrect choices of $K$ do not yield the desired object decomposition and, in fact, cause substantial oversegmentation or merging of separate objects (undersegmentation). We demonstrate that the choice of the objective function and incorporating instance-level annotations can moderately mitigate this behavior while still falling short of fully resolving this issue. Indeed, we show how this issue persists across multiple methods and datasets and stress its importance for future slot-based models.
翻訳日:2023-05-31 17:11:05 公開日:2023-05-30
# 教師なし多変量時系列表現学習のためのコントラストシェープレット学習

Contrastive Shapelet Learning for Unsupervised Multivariate Time Series Representation Learning ( http://arxiv.org/abs/2305.18888v1 )

ライセンス: Link先を確認
Zhiyu Liang, Jianfeng Zhang, Chen Liang, Hongzhi Wang, Zheng Liang, Lujia Pan(参考訳) 最近の研究は、多変量時系列に対する教師なし表現学習(URL)において、URLはアクセス不能なラベルを使わずに多くの下流タスクに対して一般化可能な表現を学習する能力を持っているため、大きな可能性を示している。 しかし、既存のアプローチは通常、他のドメイン(例えばコンピュータビジョン)向けに設計されたモデルを採用して時系列データをエンコードし、学習目標を設計するための強い仮定に依存している。 これらの問題に対処するために,一般的なコントラスト学習パラダイムを通じて,時系列特異的なシェープレット表現を学習することにより,多変量時系列のための新しいurlフレームワークを提案する。 私たちの知る限りでは、これは教師なしの汎用表現学習にシェープレットベースの埋め込みを探求する最初の作品です。 統一シェープレット型エンコーダと,多粒度コントラストとマルチスケールアライメントを用いた新しい学習目標を特に目標として設計し,その一般化のためにデータ拡張ライブラリを用いた。 我々は,何万もの実世界のデータセットを用いて,分類,クラスタリング,異常検出など,多くの下流タスクにおける表現品質の評価を行う。 提案手法は,URLコンペティタだけでなく,ダウンストリームタスク用に特別に設計された技術に対して優れていることを示す。 私たちのコードはhttps://github.com/real2fish/CSLで公開されています。

Recent studies have shown great promise in unsupervised representation learning (URL) for multivariate time series, because URL has the capability in learning generalizable representation for many downstream tasks without using inaccessible labels. However, existing approaches usually adopt the models originally designed for other domains (e.g., computer vision) to encode the time series data and rely on strong assumptions to design learning objectives, which limits their ability to perform well. To deal with these problems, we propose a novel URL framework for multivariate time series by learning time-series-specific shapelet-based representation through a popular contrasting learning paradigm. To the best of our knowledge, this is the first work that explores the shapelet-based embedding in the unsupervised general-purpose representation learning. A unified shapelet-based encoder and a novel learning objective with multi-grained contrasting and multi-scale alignment are particularly designed to achieve our goal, and a data augmentation library is employed to improve the generalization. We conduct extensive experiments using tens of real-world datasets to assess the representation quality on many downstream tasks, including classification, clustering, and anomaly detection. The results demonstrate the superiority of our method against not only URL competitors, but also techniques specially designed for downstream tasks. Our code has been made publicly available at https://github.com/real2fish/CSL.
翻訳日:2023-05-31 17:10:43 公開日:2023-05-30
# 情報基盤はディープラーニングにどのように役立つか

How Does Information Bottleneck Help Deep Learning? ( http://arxiv.org/abs/2305.18887v1 )

ライセンス: Link先を確認
Kenji Kawaguchi, Zhun Deng, Xu Ji, Jiaoyang Huang(参考訳) 多くのディープラーニングアルゴリズムは、不要な情報が(しばしば暗黙的に)最小化され、タスク関連の情報が最大化される情報ボトルネックの概念にインスパイアされ、理解されている。 しかし、情報のボトルネックを制御することが望ましい理由を正当化する厳格な議論が発覚した。 本稿では,情報ボトルネックと一般化誤差を数学的に関連付けることで,深層学習における情報ボトルネックのメリットを正当化する最初の厳密な学習理論を提案する。 本理論は,情報ボトルネックの制御が深層学習における一般化誤差を制御する一つの方法であることを示すものである。 我々は,新しい数学的発見のメリットを,様々なアーキテクチャと学習環境にまたがる実験によって検証する。 多くの場合、一般化誤差は情報ボトルネックの程度、すなわち隠蔽層における不要な情報の量と相関することが示される。 本稿では,情報ボトルネックのレンズによる現在および将来の手法の理論的基礎を提供する。 我々の新しい一般化は、パラメータの数、VC次元、ラデマッハの複雑さ、安定性、堅牢さとスケールする以前の境界とは異なり、情報のボトルネックの程度でスケールする。 私たちのコードは、https://github.com/xu-ji/information-bottleneckで公開されています。

Numerous deep learning algorithms have been inspired by and understood via the notion of information bottleneck, where unnecessary information is (often implicitly) minimized while task-relevant information is maximized. However, a rigorous argument for justifying why it is desirable to control information bottlenecks has been elusive. In this paper, we provide the first rigorous learning theory for justifying the benefit of information bottleneck in deep learning by mathematically relating information bottleneck to generalization errors. Our theory proves that controlling information bottleneck is one way to control generalization errors in deep learning, although it is not the only or necessary way. We investigate the merit of our new mathematical findings with experiments across a range of architectures and learning settings. In many cases, generalization errors are shown to correlate with the degree of information bottleneck: i.e., the amount of the unnecessary information at hidden layers. This paper provides a theoretical foundation for current and future methods through the lens of information bottleneck. Our new generalization bounds scale with the degree of information bottleneck, unlike the previous bounds that scale with the number of parameters, VC dimension, Rademacher complexity, stability or robustness. Our code is publicly available at: https://github.com/xu-ji/information-bottleneck
翻訳日:2023-05-31 17:10:15 公開日:2023-05-30
# 基準は格付け以上のことを教えてくれる - criteria preference-aware light graph convolution for effective multi-criteria recommendation

Criteria Tell You More than Ratings: Criteria Preference-Aware Light Graph Convolution for Effective Multi-Criteria Recommendation ( http://arxiv.org/abs/2305.18885v1 )

ライセンス: Link先を確認
Jin-Duk Park, Siqing Li, Xin Cao, Won-Yong Shin(参考訳) 広範囲のeコマースエリアにおけるMCレーティング情報を活用するマルチクレーター(MC)レコメンデーションシステムは,近年広く普及している。 グラフニューラルネットワーク(GNN)は、グラフ表現の学習において、GNNの表現能力が高いため、様々なレコメンデータシステムの開発に広く応用されているが、GNNでMCレコメンデータシステムを設計する方法はまだ明らかにされていない。 これを踏まえ、我々はGNN支援MCレコメンデータシステムを設計するための最初の試みを行う。 具体的には、既存のgnnベースの推奨手法をそのまま採用するのではなく、複雑な高次コネクティビティにおけるユーザの基準選好と協調信号を正確に捉えることができる、新しい基準選好認識型光グラフ畳み込みcpa-lgc法を考案する。 この目的のために,我々はまず,ユーザ主導のmc評価を拡張した2部グラフに変換するmc拡張グラフを構築し,mcレーティングにおける協調的信号から学習する。 次に, CPA-LGCは, ユーザ固有の基準基準埋め込みや項目固有の基準埋め込みなど, 新たに特徴付けられた埋め込みをグラフ畳み込みモデルに組み込む。 4つの実世界のデータセットを用いた包括的評価を通して (a)GNNを用いたベンチマークMCレコメンデーション法やベンチマークレコメンデーション法よりも優れていること。 b) CPA-LGCにおけるコアコンポーネントの有効性、及び (c)計算効率。

The multi-criteria (MC) recommender system, which leverages MC rating information in a wide range of e-commerce areas, is ubiquitous nowadays. Surprisingly, although graph neural networks (GNNs) have been widely applied to develop various recommender systems due to GNN's high expressive capability in learning graph representations, it has been still unexplored how to design MC recommender systems with GNNs. In light of this, we make the first attempt towards designing a GNN-aided MC recommender system. Specifically, rather than straightforwardly adopting existing GNN-based recommendation methods, we devise a novel criteria preference-aware light graph convolution CPA-LGC method, which is capable of precisely capturing the criteria preference of users as well as the collaborative signal in complex high-order connectivities. To this end, we first construct an MC expansion graph that transforms user--item MC ratings into an expanded bipartite graph to potentially learn from the collaborative signal in MC ratings. Next, to strengthen the capability of criteria preference awareness, CPA-LGC incorporates newly characterized embeddings, including user-specific criteria-preference embeddings and item-specific criterion embeddings, into our graph convolution model. Through comprehensive evaluations using four real-world datasets, we demonstrate (a) the superiority over benchmark MC recommendation methods and benchmark recommendation methods using GNNs with tremendous gains, (b) the effectiveness of core components in CPA-LGC, and (c) the computational efficiency.
翻訳日:2023-05-31 17:09:55 公開日:2023-05-30
# オフライン目標条件rlの無意識目標一般化に不可欠なものは何か?

What is Essential for Unseen Goal Generalization of Offline Goal-conditioned RL? ( http://arxiv.org/abs/2305.18882v1 )

ライセンス: Link先を確認
Rui Yang, Yong Lin, Xiaoteng Ma, Hao Hu, Chongjie Zhang, Tong Zhang(参考訳) オフラインの目標条件付きrl(gcrl)は、完全なオフラインデータセットから汎用エージェントをトレーニングする方法を提供する。 データセット内で保守的であることに加えて、目に見えない目標を達成するための一般化能力は、オフラインGCRLのもう一つの根本的な課題である。 しかし、我々の知る限りでは、この問題はまだよく研究されていない。 本稿では,オフラインGCRLのアウト・オブ・ディストリビューション(OOD)一般化を理論的および実験的に検討し,重要な要因を同定する。 多くの実験において,重み付き模倣学習はペシミズムに基づくオフラインrl法よりも優れた一般化を享受している。 この知見に基づいて、我々はOOD一般化の理論を導出し、いくつかの重要な設計選択を特徴付ける。 そこで我々は,実験および理論的研究から得られた知見を組み合わせて,新しいオフラインGCRL法であるGeneralizable Offline goAl-condiTioned RL (GOAT)を提案する。 9つの独立した同一分散(IID)タスクと17のOODタスクを含む新しいベンチマークでは、GOATは現在の最先端メソッドを大きなマージンで上回っている。

Offline goal-conditioned RL (GCRL) offers a way to train general-purpose agents from fully offline datasets. In addition to being conservative within the dataset, the generalization ability to achieve unseen goals is another fundamental challenge for offline GCRL. However, to the best of our knowledge, this problem has not been well studied yet. In this paper, we study out-of-distribution (OOD) generalization of offline GCRL both theoretically and empirically to identify factors that are important. In a number of experiments, we observe that weighted imitation learning enjoys better generalization than pessimism-based offline RL method. Based on this insight, we derive a theory for OOD generalization, which characterizes several important design choices. We then propose a new offline GCRL method, Generalizable Offline goAl-condiTioned RL (GOAT), by combining the findings from our theoretical and empirical studies. On a new benchmark containing 9 independent identically distributed (IID) tasks and 17 OOD tasks, GOAT outperforms current state-of-the-art methods by a large margin.
翻訳日:2023-05-31 17:09:27 公開日:2023-05-30
# 言語識別におけるモデル性能の調査: 単純なエラー統計を超えて

Investigating model performance in language identification: beyond simple error statistics ( http://arxiv.org/abs/2305.18925v1 )

ライセンス: Link先を確認
Suzy J. Styles, Victoria Y. H. Chua, Fei Ting Woon, Hexin Liu, Leibny Paola Garcia Perera, Sanjeev Khudanpur, Andy W. H. Khong, Justin Dauwels(参考訳) 言語開発の専門家は、会話型言語から言語を自動的に識別するツールを必要とし、個々の記録のレベルでの使用率の信頼できる見積もりを提供する。 しかし、言語識別システムは通常、音声コーパス全体のレベルで適用された、等しい誤り率とバランスの取れた精度などの指標に基づいて評価される。 これらの概要指標は、個々の話者、録音、言語特性の異なる音声単位のレベルでのモデル性能に関する情報を提供しない。 したがって、概観統計は、データの一部のサブセットに対するモデル性能の体系的な誤りを隠蔽し、その結果、人間の話者の一部のサブセットから派生したデータに対するパフォーマンスが悪化し、ある種のアルゴリズムバイアスが生じる。 本稿では,merlion ccsチャレンジにおいて,言語特性の異なる個々の記録と音声単位に対して,言語識別システムがどの程度有効であるかを検討する。 チャレンジデータセットには、アクセント付き英語-中国語コード切り替わった子供向け音声が特徴である。

Language development experts need tools that can automatically identify languages from fluent, conversational speech, and provide reliable estimates of usage rates at the level of an individual recording. However, language identification systems are typically evaluated on metrics such as equal error rate and balanced accuracy, applied at the level of an entire speech corpus. These overview metrics do not provide information about model performance at the level of individual speakers, recordings, or units of speech with different linguistic characteristics. Overview statistics may therefore mask systematic errors in model performance for some subsets of the data, and consequently, have worse performance on data derived from some subsets of human speakers, creating a kind of algorithmic bias. In the current paper, we investigate how well a number of language identification systems perform on individual recordings and speech units with different linguistic properties in the MERLIon CCS Challenge. The Challenge dataset features accented English-Mandarin code-switched child-directed speech.
翻訳日:2023-05-31 17:02:40 公開日:2023-05-30
# 確率論理プログラミングシステムfusemateにおけるボトムアップグラウンド

Bottom-Up Grounding in the Probabilistic Logic Programming System Fusemate ( http://arxiv.org/abs/2305.18924v1 )

ライセンス: Link先を確認
Peter Baumgartner, Elena Tartaglia(参考訳) 本稿では,Fusemate確率論理プログラミングシステムを紹介する。 fusemateの推論エンジンは、確率的推論のための接地成分と変数除去方法を含む。 Fusemateは他のシステムと異なり、一般的なトップダウン方式ではなくボトムアップ方式でプログラムを基盤にしている。 ボトムアップのグラウンドングは、様々なサポートサイズの分布を動的に生成するなど、いくつかの理由から魅力的だが、グラウンド節の生成量を制御するのが難しくなる。 我々は,クエリを指示した関連性テストでグラウンドング(およびプログラム階層化)をインターリーブすることにより,この問題に対処した。 このテストは、これまでの基底ルールによって動的に拡張されたクエリとヘッドが矛盾する基底ルールをプルーンする。 提案手法は,マルコフモデル (隠れマルコフモデル) のような '`time'' を含む例で詳細に提示し,それを実演する。 本実験は,高分岐問題に対する確率論的論理プログラミングシステムと比較して,競争力や性能を実証するものである。

This paper introduces the Fusemate probabilistic logic programming system. Fusemate's inference engine comprises a grounding component and a variable elimination method for probabilistic inference. Fusemate differs from most other systems by grounding the program in a bottom-up way instead of the common top-down way. While bottom-up grounding is attractive for a number of reasons, e.g., for dynamically creating distributions of varying support sizes, it makes it harder to control the amount of ground clauses generated. We address this problem by interleaving grounding (along program stratification) with a query-guided relevance test. This test prunes ground rules whose heads are inconsistent with the query dynamically extended by the ground rules so far. We present our method in detail and demonstrate it with examples that involve ``time'', such as (hidden) Markov models. Our experiments demonstrate competitive or better performance compared to a state-of-the probabilistic logic programming system, in particular for high branching problems.
翻訳日:2023-05-31 17:02:25 公開日:2023-05-30
# 光アクセス型決定論的電子核スピンレジスタを用いたダイヤモンドナノフォトニックインタフェース

A diamond nanophotonic interface with an optically accessible deterministic electronuclear spin register ( http://arxiv.org/abs/2305.18923v1 )

ライセンス: Link先を確認
Ryan A. Parker, Jes\'us Arjona Mart\'inez, Kevin C. Chen, Alexander M. Stramma, Isaac B. Harris, Cathryn P. Michaels, Matthew E. Trusheim, Martin Hayhurst Appel, Carola M. Purser, William G. Roth, Dirk Englund, Mete Atat\"ure(参考訳) 量子ネットワークのスケーラビリティに対する現代の課題は、高いフォトニック効率と長寿命量子ビットを同時に持つ量子ノードの開発である。 ここでは、スピン1/2$^{117}$sn核を持つスズ空洞中心をホストする繊維充填ナノフォトニックダイヤモンド導波路を示す。 電子スピンと核スピンの相互作用により、452(7)mhz超微粒子が分裂する。 これは16の因子で自然光線幅を超え、98.6(3)%の忠実度と80(1)%の忠実度を持つ単発読み出しで直接光スピン初期化を可能にする。 57(6)%の導波管-ファイバー抽出効率は,5光子事象の実用的な検出を可能にする。 光機能と光初期化核スピンを組み合わせることで、外部磁場が存在しない場合、スピンゲート単光子非線形性が 11(1)% のコントラストを持つことを示す。 これらの能力は、スケーラブルな量子ネットワークの追求において、我々のナノフォトニックインターフェースを汎用量子ノードとして位置づける。

A contemporary challenge for the scalability of quantum networks is developing quantum nodes with simultaneous high photonic efficiency and long-lived qubits. Here, we present a fibre-packaged nanophotonic diamond waveguide hosting a tin-vacancy centre with a spin-1/2 $^{117}$Sn nucleus. The interaction between the electronic and nuclear spins results in a signature 452(7) MHz hyperfine splitting. This exceeds the natural optical linewidth by a factor of 16, enabling direct optical nuclear-spin initialisation with 98.6(3)% fidelity and single-shot readout with 80(1)% fidelity. The waveguide-to-fibre extraction efficiency of our device of 57(6)% enables the practical detection of 5-photon events. Combining the photonic performance with the optically initialised nuclear spin, we demonstrate a spin-gated single-photon nonlinearity with 11(1)% contrast in the absence of an external magnetic field. These capabilities position our nanophotonic interface as a versatile quantum node in the pursuit of scalable quantum networks.
翻訳日:2023-05-31 17:02:08 公開日:2023-05-30
# バイアスと戦う:データセットバイアスの増幅によるモデルロバストネスの促進

Fighting Bias with Bias: Promoting Model Robustness by Amplifying Dataset Biases ( http://arxiv.org/abs/2305.18917v1 )

ライセンス: Link先を確認
Yuval Reif, Roy Schwartz(参考訳) NLPモデルは、しばしば顕著なパフォーマンスを達成するためにデータセットバイアスとして知られる表面的な手がかりに依存し、これらのバイアスが保持されない例で失敗する。 最近の研究は、トレーニングセットからバイアスのあるサンプルをフィルタリングすることで、頑健でバイアスのないモデルの開発を試みた。 この研究で、そのようなフィルタリングはバイアスを克服するモデルの真の能力を曖昧にし、データセットから完全に取り除かれることはない、と論じる。 微妙なバイアスに頑健なモデルの開発を進めるためには、データセットのバイアスをトレーニングセットで増幅すべきだと提案する。 既存のデータセットから自動抽出したバイアス増幅トレーニングセットとアンチバイアステストセットで定義された評価フレームワークを紹介する。 バイアスの3つの概念、データセット4つ、モデル2つにまたがる実験によると、私たちのフレームワークは、オリジナルのデータ分割よりもモデルにとってかなり難しい。 私たちの評価フレームワークは、モデルロバスト性をテストするために、時代遅れと考えられるあらゆる既存のデータセットを利用することができます。 我々の研究が表面バイアスや相関に依存しない堅牢なモデルの開発を導くことを期待しています。 この目的のために、コードとデータを公開しています。

NLP models often rely on superficial cues known as dataset biases to achieve impressive performance, and can fail on examples where these biases do not hold. Recent work sought to develop robust, unbiased models by filtering biased examples from training sets. In this work, we argue that such filtering can obscure the true capabilities of models to overcome biases, which might never be removed in full from the dataset. We suggest that in order to drive the development of models robust to subtle biases, dataset biases should be amplified in the training set. We introduce an evaluation framework defined by a bias-amplified training set and an anti-biased test set, both automatically extracted from existing datasets. Experiments across three notions of bias, four datasets and two models show that our framework is substantially more challenging for models than the original data splits, and even more challenging than hand-crafted challenge sets. Our evaluation framework can use any existing dataset, even those considered obsolete, to test model robustness. We hope our work will guide the development of robust models that do not rely on superficial biases and correlations. To this end, we publicly release our code and data.
翻訳日:2023-05-31 17:01:51 公開日:2023-05-30
# 局所的に発声した意味構造を持つ言語モデリングのための経験的下界

Empirical Sufficiency Lower Bounds for Language Modeling with Locally-Bootstrapped Semantic Structures ( http://arxiv.org/abs/2305.18915v1 )

ライセンス: Link先を確認
Jakob Prange and Emmanuele Chersoni(参考訳) 本研究は,予測意味構造を持つ言語モデリングの試みから,その試みを成功に導くための実証的な下限を確立するために,ネガティブな結果を構築した。 より具体的には、意味構造の簡潔なバイナリベクトル表現を語彙レベルで設計し、エンドツーエンドのセマンティクスブートストラップ言語モデルを用いて、ベースラインよりも優れたパフォーマンスを達成するためにインクリメンタルタガーがいかに優れているかを深く評価する。 我々は、(事前訓練された)逐次神経成分と階層的シンボリック成分からなるシステムを用いて、低主観的かつ高い言語解釈性を有するテキストを生成することを想定する。 私たちはそれを見つけ (a)意味ベクトル表現の次元性は、その主な利点を失わずに劇的に減少することができる。 b) 予測品質の下限は,単一のスコアだけでは確立できないが,信号と雑音の分布を考慮に入れる必要がある。

In this work we build upon negative results from an attempt at language modeling with predicted semantic structure, in order to establish empirical lower bounds on what could have made the attempt successful. More specifically, we design a concise binary vector representation of semantic structure at the lexical level and evaluate in-depth how good an incremental tagger needs to be in order to achieve better-than-baseline performance with an end-to-end semantic-bootstrapping language model. We envision such a system as consisting of a (pretrained) sequential-neural component and a hierarchical-symbolic component working together to generate text with low surprisal and high linguistic interpretability. We find that (a) dimensionality of the semantic vector representation can be dramatically reduced without losing its main advantages and (b) lower bounds on prediction quality cannot be established via a single score alone, but need to take the distributions of signal and noise into account.
翻訳日:2023-05-31 17:01:29 公開日:2023-05-30
# GANと正規化フローを用いた生成モデルのための高精度リコールダイバージェンス最適化

Precision-Recall Divergence Optimization for Generative Modeling with GANs and Normalizing Flows ( http://arxiv.org/abs/2305.18910v1 )

ライセンス: Link先を確認
Alexandre Verine, Benjamin Negrevergne, Muni Sreenivas Pydi, Yann Chevaleyre(参考訳) 画像品質(精度)と多様性(リコール)のバランスをとることは、生成モデルの領域において重要な課題である。 現在の最先端モデルは、主にFr'echet Inception Distanceのようなヒューリスティックの最適化に依存している。 近年の研究では、精度とリコールを評価するための原理的手法が導入されているが、生成モデルの訓練にうまく統合されていない。 本研究の主な貢献は,精度とリコールの間のユーザ定義トレードオフを明示的に最適化する生成的逆ネットワークや正規化フローなど,生成モデルに対する新たなトレーニング手法である。 より正確には、特定の精密呼び出しトレードオフを達成することは、我々が \mbox{\em pr-divergences} と呼ぶファミリーからユニークな$f$-divergenceを最小化することを意味する。 逆に、$f$-divergence はPR-divergences の線形結合として記述することができ、重み付けされた精度-リコールトレードオフに対応する。 包括的評価により,ImageNetなどのデータセットでテストした場合に,BigGANのような既存の最先端モデルの性能が向上することを示す。

Achieving a balance between image quality (precision) and diversity (recall) is a significant challenge in the domain of generative models. Current state-of-the-art models primarily rely on optimizing heuristics, such as the Fr\'echet Inception Distance. While recent developments have introduced principled methods for evaluating precision and recall, they have yet to be successfully integrated into the training of generative models. Our main contribution is a novel training method for generative models, such as Generative Adversarial Networks and Normalizing Flows, which explicitly optimizes a user-defined trade-off between precision and recall. More precisely, we show that achieving a specified precision-recall trade-off corresponds to minimizing a unique $f$-divergence from a family we call the \mbox{\em PR-divergences}. Conversely, any $f$-divergence can be written as a linear combination of PR-divergences and corresponds to a weighted precision-recall trade-off. Through comprehensive evaluations, we show that our approach improves the performance of existing state-of-the-art models like BigGAN in terms of either precision or recall when tested on datasets such as ImageNet.
翻訳日:2023-05-31 17:01:12 公開日:2023-05-30
# ソーシャルメディアにおけるストレス・抑うつ認識のためのマルチタスク学習

Multitask learning for recognizing stress and depression in social media ( http://arxiv.org/abs/2305.18907v1 )

ライセンス: Link先を確認
Loukas Ilias, Dimitris Askounis(参考訳) ストレスと抑うつは、人生の速いペースであらゆる年齢の人々の間で最近流行している。 人々はソーシャルメディアを使って感情を表現します。 したがって、ソーシャルメディアはストレスや抑うつを早期に発見するための貴重な情報形式である。 多くの研究がストレスと抑うつの早期認識をターゲットとして導入されているが、まだ限界がある。 抑うつと感情(あるいはフィギュラティブ言語)をそれぞれプライマリタスクと補助タスクとして使用するマルチタスク学習設定が提案されている。 しかし、ストレスはうつ病と密接な関係にあるものの、研究者はこの2つのタスクを2つの別々のタスクとして直面している。 そこで本研究では,異なる条件下で収集された2つのデータセットを活用し,抑うつとストレスを主タスクと補助タスクとして用いる2つのマルチタスク学習フレームワークを提案する。 具体的には、うつ病データセットと5つのドメインの10のサブレディットからのストレスの多いポストを含むストレスの多いデータセットを使用する。 最初のアプローチでは、各投稿は共有BERTレイヤを通過し、両方のタスクによって更新される。 次に、2つの別々のBERTエンコーダレイヤが利用され、各タスクによって個別に更新される。 第2のアプローチでは、関心融合ネットワークによって重み付けられた共有層とタスク固有の層で構成されている。 私たちは一連の実験を行い、既存の研究イニシアティブ、シングルタスク学習、トランスファー学習と比較します。 実験は、最先端のアプローチに対するアプローチの多くの利点を示している。

Stress and depression are prevalent nowadays across people of all ages due to the quick paces of life. People use social media to express their feelings. Thus, social media constitute a valuable form of information for the early detection of stress and depression. Although many research works have been introduced targeting the early recognition of stress and depression, there are still limitations. There have been proposed multi-task learning settings, which use depression and emotion (or figurative language) as the primary and auxiliary tasks respectively. However, although stress is inextricably linked with depression, researchers face these two tasks as two separate tasks. To address these limitations, we present the first study, which exploits two different datasets collected under different conditions, and introduce two multitask learning frameworks, which use depression and stress as the main and auxiliary tasks respectively. Specifically, we use a depression dataset and a stressful dataset including stressful posts from ten subreddits of five domains. In terms of the first approach, each post passes through a shared BERT layer, which is updated by both tasks. Next, two separate BERT encoder layers are exploited, which are updated by each task separately. Regarding the second approach, it consists of shared and task-specific layers weighted by attention fusion networks. We conduct a series of experiments and compare our approaches with existing research initiatives, single-task learning, and transfer learning. Experiments show multiple advantages of our approaches over state-of-the-art ones.
翻訳日:2023-05-31 17:00:39 公開日:2023-05-30
# 連続変数と離散変数の絡み合った状態を用いた長距離測定-デバイス非依存量子鍵分布

Long-distance measurement-device-independent quantum key distribution using entangled states between continuous and discrete variables ( http://arxiv.org/abs/2305.18906v1 )

ライセンス: Link先を確認
Soumyakanti Bose and Jaskaran Singh and Ad\'an Cabello and Hyunseok Jeong(参考訳) 連続変数 (CV) と離散変数 (DV) のハイブリッド絡み合い (HE) を用いた高速長距離絡み合わせを実現するための実現可能なスキームを提案する。 既存のcvおよびdv測定デバイス非依存量子鍵分布(mdi-qkd)プロトコルの実験的制限を効果的に除去できることを示す。 鍵となるアイデアは、高いセキュアなキーレートを達成するためにDV部を使用しながら、光子損失に対して堅牢であるように調整できるCV部を使用することである。 従来のプロトコルよりも1桁高いセキュアな鍵レートで、標準の通信ファイバーで300kmの速度でmdi-qkdが可能であることを示す。 HE状態は, 実用的長距離高速エンタングルメントの利点を指摘する。

We introduce a feasible scheme to produce high-rate long-distance entanglement which uses hybrid entanglement (HE) between continuous variables (CV) and discrete variables (DV). We show that HE can effectively remove the experimental limitations of existing CV and DV measurement-device-independent quantum key distribution (MDI-QKD) protocols. The key idea is using the CV part, which can be adjusted to be robust against photon losses, for increasing the transmission distance, while using the DV part for achieving high secure key rates. We show that, using HE states, MDI-QKD is possible with standard telecom fibers for 300 km with a secure key rate which is an order of magnitude higher than in existing protocols. Our results point out that HE states provide advantage for practical long-distance high-rate entanglement.
翻訳日:2023-05-31 16:59:53 公開日:2023-05-30
# AtTRACTive:アクティブラーニングを用いた半自動白質トラクションセグメンテーション

atTRACTive: Semi-automatic white matter tract segmentation using active learning ( http://arxiv.org/abs/2305.18905v1 )

ライセンス: Link先を確認
Robin Peretzke, Klaus Maier-Hein, Jonas Bohn, Yannick Kirchhoff, Saikat Roy, Sabrina Oberli-Palma, Daniela Becker, Pavlina Lenga, Peter Neher(参考訳) 医用画像における白質の正確な識別は,手術計画や臓器特異的解析など,様々な応用に不可欠である。 教師付き機械学習モデルは、このタスクを自動的に解決する最新技術に到達した。 しかし、これらのモデルは主に健康な被験者で訓練され、脳腫瘍によって引き起こされる強い解剖学的収差に苦しむ。 この制限は、通常、目標経路の時間的および挑戦的な手作業による記述が使用される場合、術前計画のようなタスクには適さない。 数百万のストリームラインからなる全脳トラクトグラフィーから,ホワイトマターの高速かつ直感的なセグメンテーションのための半自動エントロピーに基づくアクティブラーニングを提案する。 ヒトコネクトームプロジェクトおよび神経外科10例の内部データセットから,21名の健常者を対象に評価を行った。 提案手法では, 健常者と同等な腫瘍症例(dice=0.71)に区分できるが, 自動的手法(dice=0.34)の性能は, 健常者と比較して大幅に低下した。 この方法はMITK DiffusionというフリーソフトウェアでTRACTiveという名前のプロトタイプとして実装されている。 腫瘍データを用いた手動実験では, 従来のROIベースのセグメンテーションに比べて, セグメンテーション時間が少なくて高い効率を示した。

Accurately identifying white matter tracts in medical images is essential for various applications, including surgery planning and tract-specific analysis. Supervised machine learning models have reached state-of-the-art solving this task automatically. However, these models are primarily trained on healthy subjects and struggle with strong anatomical aberrations, e.g. caused by brain tumors. This limitation makes them unsuitable for tasks such as preoperative planning, wherefore time-consuming and challenging manual delineation of the target tract is typically employed. We propose semi-automatic entropy-based active learning for quick and intuitive segmentation of white matter tracts from whole-brain tractography consisting of millions of streamlines. The method is evaluated on 21 openly available healthy subjects from the Human Connectome Project and an internal dataset of ten neurosurgical cases. With only a few annotations, the proposed approach enables segmenting tracts on tumor cases comparable to healthy subjects (dice=0.71), while the performance of automatic methods, like TractSeg dropped substantially (dice=0.34) in comparison to healthy subjects. The method is implemented as a prototype named atTRACTive in the freely available software MITK Diffusion. Manual experiments on tumor data showed higher efficiency due to lower segmentation times compared to traditional ROI-based segmentation.
翻訳日:2023-05-31 16:59:31 公開日:2023-05-30
# 継続的強化学習のためのポリシー最適化

Policy Optimization for Continuous Reinforcement Learning ( http://arxiv.org/abs/2305.18901v1 )

ライセンス: Link先を確認
Hanyang Zhao, Wenpin Tang, David D. Yao(参考訳) 本研究では,連続時間と空間の設定における強化学習(rl)について,確率微分方程式によって駆動される無限大地平線と基礎となる力学について検討する。 RLへの継続的なアプローチの最近の進歩を基盤として、職業時間(具体的には割引対象)の概念を開発し、性能差と局所近似式を効果的に導出する方法を示す。 さらに、これらの結果を拡張し、PG(政治勾配)とTRPO/PPO(信頼地域政策最適化/近位政策最適化)の手法で、離散的なRL設定では馴染み深く、かつ強力なツールであるが、連続的なRLでは未開発であることを示す。 数値実験により,本手法の有効性と利点を実証した。

We study reinforcement learning (RL) in the setting of continuous time and space, for an infinite horizon with a discounted objective and the underlying dynamics driven by a stochastic differential equation. Built upon recent advances in the continuous approach to RL, we develop a notion of occupation time (specifically for a discounted objective), and show how it can be effectively used to derive performance-difference and local-approximation formulas. We further extend these results to illustrate their applications in the PG (policy gradient) and TRPO/PPO (trust region policy optimization/ proximal policy optimization) methods, which have been familiar and powerful tools in the discrete RL setting but under-developed in continuous RL. Through numerical experiments, we demonstrate the effectiveness and advantages of our approach.
翻訳日:2023-05-31 16:59:09 公開日:2023-05-30
# マルチセンター医用画像分割のためのトランスフォーマーモデルのプロンプトベースチューニング

Prompt-based Tuning of Transformer Models for Multi-Center Medical Image Segmentation ( http://arxiv.org/abs/2305.18948v1 )

ライセンス: Link先を確認
Numan Saeed, Muhammad Ridzuan, Roba Al Majzoub, Mohammad Yaqub(参考訳) 医療画像分割は、適切な診断と治療のために正確かつ効率的なモデルを必要とする重要な医療活動である。 ビジョントランスフォーマティブに基づくセグメンテーションモデルは、このタスクの達成において優れた性能を示している。 しかし、強力なバックボーンを構築するには、ViTの自己注意ブロックは大規模な事前学習データを必要とする。 事前訓練されたモデルの修正には、バックボーンパラメータの全てまたは一部を更新する必要がある。 本稿では,新しい医療センターのデータに事前訓練されたトランスフォーマーベースセグメンテーションモデルを適用するための,新しい微調整戦略を提案する。 この方法では、学習可能な少数のパラメータ(プロンプトと呼ばれる)を入力空間に導入し(モデルのパラメータの1\%未満)、残りのパラメータは凍結する。 新しい医療センターのデータを用いた広範囲にわたる研究は、医療セグメントモデルのプロンプトに基づく微調整が、古いセンターに無視できないドロップで新しいセンターデータに優れたパフォーマンスをもたらすことを示している。 さらに,本手法は,新たなセンターデータに対して最小限のトレーニングを行い,微調整済みモデルの計算コストと時間コストを大幅に削減する。

Medical image segmentation is a vital healthcare endeavor requiring precise and efficient models for appropriate diagnosis and treatment. Vision transformer-based segmentation models have shown great performance in accomplishing this task. However, to build a powerful backbone, the self-attention block of ViT requires large-scale pre-training data. The present method of modifying pre-trained models entails updating all or some of the backbone parameters. This paper proposes a novel fine-tuning strategy for adapting a pretrained transformer-based segmentation model on data from a new medical center. This method introduces a small number of learnable parameters, termed prompts, into the input space (less than 1\% of model parameters) while keeping the rest of the model parameters frozen. Extensive studies employing data from new unseen medical centers show that prompts-based fine-tuning of medical segmentation models provides excellent performance on the new center data with a negligible drop on the old centers. Additionally, our strategy delivers great accuracy with minimum re-training on new center data, significantly decreasing the computational and time costs of fine-tuning pre-trained models.
翻訳日:2023-05-31 16:53:15 公開日:2023-05-30
# 効率良く計算可能なビンガム損失関数を用いた対称形状の確率的回転表現

A Probabilistic Rotation Representation for Symmetric Shapes With an Efficiently Computable Bingham Loss Function ( http://arxiv.org/abs/2305.18947v1 )

ライセンス: Link先を確認
Hiroya Sato, Takuya Ikeda, Koichi Nishiwaki(参考訳) 近年,オブジェクトのポーズ推定にディープラーニングフレームワークが広く用いられている。 四元数は回転表現の共通の選択であるが、観測の曖昧さを表すことはできない。 曖昧さに対処するために、ビンガム分布は有望な解の1つである。 しかし、負のlog-likelihood (nll) 損失が発生すると複雑な計算が必要となる。 複雑な計算を避けるために実装容易損失関数が提案されているが、対称分布を表現するのに困難である。 本稿では,ビンガム分布に対する高速で容易に実装可能なNLL損失関数を提案する。 また、推論ネットワークを作成し、損失関数がその点クラウドから対象オブジェクトの対称特性をキャプチャできることを示します。

In recent years, a deep learning framework has been widely used for object pose estimation. While quaternion is a common choice for rotation representation, it cannot represent the ambiguity of the observation. In order to handle the ambiguity, the Bingham distribution is one promising solution. However, it requires complicated calculation when yielding the negative log-likelihood (NLL) loss. An alternative easy-to-implement loss function has been proposed to avoid complex computations but has difficulty expressing symmetric distribution. In this paper, we introduce a fast-computable and easy-to-implement NLL loss function for Bingham distribution. We also create the inference network and show that our loss function can capture the symmetric property of target objects from their point clouds.
翻訳日:2023-05-31 16:52:59 公開日:2023-05-30
# 熱平衡外におけるグラフェン系構造間のカシミール・リフシッツ力

Casimir-Lifshitz force between graphene-based structures out of thermal equilibrium ( http://arxiv.org/abs/2305.18946v1 )

ライセンス: Link先を確認
Youssef Jeyar, Kevin Austry, Minggang Luo, Brahim Guizal, H. B. Chan, Mauro Antezza(参考訳) グラフェン系並列構造間の非平衡カシミール・リフシッツ力について, 温度差および第3温度の外部熱浴の存在下で検討した。 グラフェンの伝導度は温度と化学的ポテンシャルの関数であり、カシミール・リフシッツ力のその場で調整することができる。 グラフェン化学ポテンシャルの異なる値を考慮して, 異なる非平衡配置を探索する。 特に興味深い事例として、熱平衡下での挙動とは対照的に、力は魅力的な状態から反発的な状態に変化するか、あるいは化学ポテンシャルの変化に対して非単調な状態になる可能性がある。

We study the non equilibrium Casimir-Lifshitz force between graphene-based parallel structures held at different temperatures and in presence of an external thermal bath at a third temperature. The graphene conductivity, which is itself a function of temperature, as well as of chemical potential, allows us to tune in situ the Casimir-Lifshitz force. We explore different non equilibrium configurations while considering different values of the graphene chemical potential. Particularly interesting cases are investigated, where the force can change sign going from attractive to repulsive or where the force becomes non monotonic with respect to chemical potential variations, contrary to the behaviour under thermal equilibrium.
翻訳日:2023-05-31 16:52:49 公開日:2023-05-30
# ニューラルPDEサロゲートを用いたダイバータプラズマの高速動的1次元シミュレーション

Fast Dynamic 1D Simulation of Divertor Plasmas with Neural PDE Surrogates ( http://arxiv.org/abs/2305.18944v1 )

ライセンス: Link先を確認
Yoeri Poels, Gijs Derks, Egbert Westerhof, Koen Minartz, Sven Wiesen, Vlado Menkovski(参考訳) ダイバータプラズマの管理は、ダイバータターゲットの熱と粒子フラックスの制約により、原子炉スケールトカマク装置の動作に不可欠である。 シミュレーションは、これらのプラズマを理解し制御するための重要なツールであるが、リアルタイムアプリケーションや徹底的なパラメータスキャンでは、単純な近似のみが現在十分高速である。 古典的数値解法を用いて学習した,データ駆動型ニューラルネットワークに基づくサロゲートモデルであるneural pde surrogatesを用いた高速シミュレータの欠如に対処する。 サーロゲートは、参照物理学に基づくモデルの完全な空間解を時間とともに発展させる時間ステップ作用素を近似する。 データ生成の基準モデルとして,ダイバータプラズマの1次元動的モデルであるDIV1Dを用いる。 DIV1DドメインはX点(上流)からターゲットまでの1次元熱流束管をカバーしている。 我々は,上流密度ランプによって誘導されるダイナミックスで現実的なTCVダイバータプラズマをシミュレートし,高速過渡現象への探索的展望を提供する。 最先端のニューラルPDEサロゲートは共通のフレームワークで評価され、DIV1Dデータの性質のために拡張される。 1) 速度精度のトレードオフ, (2) 非線形動作の再現, (3) データ効率, (4) パラメータ間および外挿について評価する。 一度訓練すると、ニューラルpdeサロゲートは準リアルタイム計算速度でdiv1dのダイバータプラズマダイナミクスを忠実に近似することができる: 提案された構成では、プラズマダイナミクスの2msは壁時計時間の約0.63msで計算でき、div1dよりも数桁速い。

Managing divertor plasmas is crucial for operating reactor scale tokamak devices due to heat and particle flux constraints on the divertor target. Simulation is an important tool to understand and control these plasmas, however, for real-time applications or exhaustive parameter scans only simple approximations are currently fast enough. We address this lack of fast simulators using neural PDE surrogates, data-driven neural network-based surrogate models trained using solutions generated with a classical numerical method. The surrogate approximates a time-stepping operator that evolves the full spatial solution of a reference physics-based model over time. We use DIV1D, a 1D dynamic model of the divertor plasma, as reference model to generate data. DIV1D's domain covers a 1D heat flux tube from the X-point (upstream) to the target. We simulate a realistic TCV divertor plasma with dynamics induced by upstream density ramps and provide an exploratory outlook towards fast transients. State-of-the-art neural PDE surrogates are evaluated in a common framework and extended for properties of the DIV1D data. We evaluate (1) the speed-accuracy trade-off; (2) recreating non-linear behavior; (3) data efficiency; and (4) parameter inter- and extrapolation. Once trained, neural PDE surrogates can faithfully approximate DIV1D's divertor plasma dynamics at sub real-time computation speeds: In the proposed configuration, 2ms of plasma dynamics can be computed in $\approx$0.63ms of wall-clock time, several orders of magnitude faster than DIV1D.
翻訳日:2023-05-31 16:52:36 公開日:2023-05-30
# DEPLAIN: 平易な文文翻訳と文書単純化のための言語内翻訳機能を備えたドイツのパラレルコーパス

DEPLAIN: A German Parallel Corpus with Intralingual Translations into Plain Language for Sentence and Document Simplification ( http://arxiv.org/abs/2305.18939v1 )

ライセンス: Link先を確認
Regina Stodden and Omar Momen and Laura Kallmeyer(参考訳) テキストsimplificationは、複雑なソーステキストの文書や文を目的のオーディエンスに対して単純化する言語内翻訳タスクである。 自動テキスト簡略化システムの成功は、訓練と評価に使用される並列データの品質に大きく依存する。 文の単純化と文書の単純化をドイツ語で進めるために,本稿では,文の簡略化を専門的に記述し,手作業で整理した新しいデータセットであるdeplain("plain de"またはドイツ語で"einfache sprache")を提案する。 Deplainはニュースドメイン(約500のドキュメントペア、約13kの文ペア)とWebドメインコーパス(約150のドキュメント、約2kの文ペア)で構成されている。 さらに,Web コントリビュータを構築し,非整合性の統合と並列文書の公開を容易にする自動アライメント手法の実験を行っている。 このアプローチを用いることで、Webドメインのコーパスを動的に増加させています。 750の文書対と近似 3.5kの文対。 Deplain を用いてトランスフォーマーベースの seq2seq テキスト簡易化モデルを訓練することで,有望な結果が得られることを示す。 我々は、コーパス、ドイツ語の適合したアライメントメソッド、webハーベスター、およびトレーニングされたモデルをここで利用可能にしている。

Text simplification is an intralingual translation task in which documents, or sentences of a complex source text are simplified for a target audience. The success of automatic text simplification systems is highly dependent on the quality of parallel data used for training and evaluation. To advance sentence simplification and document simplification in German, this paper presents DEplain, a new dataset of parallel, professionally written and manually aligned simplifications in plain German ("plain DE" or in German: "Einfache Sprache"). DEplain consists of a news domain (approx. 500 document pairs, approx. 13k sentence pairs) and a web-domain corpus (approx. 150 aligned documents, approx. 2k aligned sentence pairs). In addition, we are building a web harvester and experimenting with automatic alignment methods to facilitate the integration of non-aligned and to be published parallel documents. Using this approach, we are dynamically increasing the web domain corpus, so it is currently extended to approx. 750 document pairs and approx. 3.5k aligned sentence pairs. We show that using DEplain to train a transformer-based seq2seq text simplification model can achieve promising results. We make available the corpus, the adapted alignment methods for German, the web harvester and the trained models here: https://github.com/rstodden/DEPlain.
翻訳日:2023-05-31 16:52:04 公開日:2023-05-30
# ハミルトン格子ゲージ理論におけるキラルフェルミオン

Chiral fermion in the Hamiltonian lattice gauge theory ( http://arxiv.org/abs/2305.18934v1 )

ライセンス: Link先を確認
Tomoya Hayata, Katsumasa Nakayama, Arata Yamamoto(参考訳) 格子ゲージ理論のハミルトン形式論におけるカイラルフェルミオンについて議論する。 ナイーブなカイラル電荷作用素はハミルトニアンと可換ではないが、可換作用素は重なりフェルミオンに対して定義することができる。 エネルギーの固有値とカイラル電荷を同時に定義することができる。 固有値スペクトルがキラル化学ポテンシャルや軸異常といった系のキラル特性をどのように反映するかについて検討する。 また、ウィルソンフェルミオンは1次元のキラルフェルミオンであることを示した。

We discuss the chiral fermion in the Hamiltonian formalism of lattice gauge theory. Although the naive chiral charge operator does not commute with the Hamiltonian, the commutable one can be defined for the overlap fermion. The eigenvalues of the energy and the chiral charge can be defined simultaneously. We study how the eigenvalue spectrum reflects chiral properties of systems, such as a chiral chemical potential and the axial anomaly. We also show that the Wilson fermion is a chiral fermion in one dimension.
翻訳日:2023-05-31 16:51:36 公開日:2023-05-30
# 逆入力に対するNERロバスト性の多言語評価

A Multilingual Evaluation of NER Robustness to Adversarial Inputs ( http://arxiv.org/abs/2305.18933v1 )

ライセンス: Link先を確認
Akshay Srinivasan and Sowmya Vajjala(参考訳) 言語モデルの敵対的評価は通常、英語のみに焦点を当てる。 本稿では,入力中の小さな摂動に対する頑健性の観点から,名前付きエンティティ認識(NER)の多言語評価を行った。 その結果,3つの言語(英語,ドイツ語,ヒンディー語)で探索したNERモデルは,F1スコア全体の変動やよりきめ細かな評価によって示されるように,そのような変化に対してあまり頑健ではないことがわかった。 そこで本研究では,新たなNERモデルをトレーニングするための強化トレーニングデータや,既存のNERモデルを適応するための微調整データとして,生成したNERデータセットの一部を用いて既存のNERモデルを改善することができるかどうかをさらに検討した。 その結果,これら2つのアプローチは,オリジナルおよび逆テストセットのパフォーマンスを向上させることが判明した。 英語の2つのアプローチには大きな違いはないが、ドイツ語とヒンディー語の微調整よりも再訓練の方がはるかに優れている。

Adversarial evaluations of language models typically focus on English alone. In this paper, we performed a multilingual evaluation of Named Entity Recognition (NER) in terms of its robustness to small perturbations in the input. Our results showed the NER models we explored across three languages (English, German and Hindi) are not very robust to such changes, as indicated by the fluctuations in the overall F1 score as well as in a more fine-grained evaluation. With that knowledge, we further explored whether it is possible to improve the existing NER models using a part of the generated adversarial data sets as augmented training data to train a new NER model or as fine-tuning data to adapt an existing NER model. Our results showed that both these approaches improve performance on the original as well as adversarial test sets. While there is no significant difference between the two approaches for English, re-training is significantly better than fine-tuning for German and Hindi.
翻訳日:2023-05-31 16:51:28 公開日:2023-05-30
# Clip21: グラディエントクリッピングのエラーフィードバック

Clip21: Error Feedback for Gradient Clipping ( http://arxiv.org/abs/2305.18929v1 )

ライセンス: Link先を確認
Sarit Khirirat, Eduard Gorbunov, Samuel Horv\'ath, Rustem Islamov, Fakhri Karray, Peter Richt\'arik(参考訳) 差分プライバシ(DP)制約下での大規模トレーニングの普及と重要性に感銘を受けて,ノードの局所情報から計算した勾配に適用されるクリッピングを応用した分散勾配法について検討した。 勾配クリッピングは、正規のDP保証を勾配ベースのメソッドに注入する上で必須のツールであるが、分散設定に固有の深刻な収束問題を引き起こすバイアスも引き起こす。 近年,Top-k$ [2]のような通信圧縮演算子によるバイアス/エラーの回避に焦点をあてたエラーフィードバック文学の進歩と,クリッピング演算子と収縮圧縮演算子との数学的類似性から着想を得て,Clip21を設計した。 本手法は,滑らかな非凸系における分散勾配降下と同じ$\mathcal{o}\left(\frac{1}{k}\right)$率で収束することが証明され,より強い仮定の下で得られた以前の最良の$\mathcal{o}\left(\frac{1}{\sqrt{k}}\right)$レートが向上する。 本手法は, 競合手法よりもはるかに高速に収束する。

Motivated by the increasing popularity and importance of large-scale training under differential privacy (DP) constraints, we study distributed gradient methods with gradient clipping, i.e., clipping applied to the gradients computed from local information at the nodes. While gradient clipping is an essential tool for injecting formal DP guarantees into gradient-based methods [1], it also induces bias which causes serious convergence issues specific to the distributed setting. Inspired by recent progress in the error-feedback literature which is focused on taming the bias/error introduced by communication compression operators such as Top-$k$ [2], and mathematical similarities between the clipping operator and contractive compression operators, we design Clip21 -- the first provably effective and practically useful error feedback mechanism for distributed methods with gradient clipping. We prove that our method converges at the same $\mathcal{O}\left(\frac{1}{K}\right)$ rate as distributed gradient descent in the smooth nonconvex regime, which improves the previous best $\mathcal{O}\left(\frac{1}{\sqrt{K}}\right)$ rate which was obtained under significantly stronger assumptions. Our method converges significantly faster in practice than competing methods.
翻訳日:2023-05-31 16:51:11 公開日:2023-05-30
# 胸部X線データ生成における生成モデルの有用性評価

Evaluating the feasibility of using Generative Models to generate Chest X-Ray Data ( http://arxiv.org/abs/2305.18927v1 )

ライセンス: Link先を確認
Muhammad Danyal Malik and Danish Humair(参考訳) 本稿では, 生成モデル, 特にPG-GAN(Progressive Growing GANs)と安定拡散微調整を用いて, 医用胸部X線画像の生成の可能性について検討する。 倫理的な懸念から、機械学習のための十分な医療データを取得することは課題であり、我々のアプローチはより多くのデータを合成することを目指しています。 我々は、ケストX線14データセットを実験に利用し、定性的および定量的解析によりモデルの性能を評価した。 その結果,生成した画像は視覚的に説得力があり,分類モデルの精度向上に有効であることが示唆された。 しかし、過剰フィッティングやトレーニングやテストのための実データの可用性の制限といった問題に対処するために、さらなる作業が必要である。 我々のアプローチが深層学習によるより効果的な医療診断に貢献する可能性は有望であり、画像生成技術の継続的な進歩が将来さらに有望な結果をもたらすと信じている。

In this paper, we explore the feasibility of using generative models, specifically Progressive Growing GANs (PG-GANs) and Stable Diffusion fine-tuning, to generate synthetic chest X-ray images for medical diagnosis purposes. Due to ethical concerns, obtaining sufficient medical data for machine learning is a challenge, which our approach aims to address by synthesising more data. We utilised the Chest X-ray 14 dataset for our experiments and evaluated the performance of our models through qualitative and quantitative analysis. Our results show that the generated images are visually convincing and can be used to improve the accuracy of classification models. However, further work is needed to address issues such as overfitting and the limited availability of real data for training and testing. The potential of our approach to contribute to more effective medical diagnosis through deep learning is promising, and we believe that continued advancements in image generation technology will lead to even more promising results in the future.
翻訳日:2023-05-31 16:50:44 公開日:2023-05-30
# イベントプロキシノードを用いた文書レベルマルチイベント抽出とハウスドルフ距離最小化

Document-Level Multi-Event Extraction with Event Proxy Nodes and Hausdorff Distance Minimization ( http://arxiv.org/abs/2305.18926v1 )

ライセンス: Link先を確認
Xinyu Wang, Lin Gui, Yulan He(参考訳) 文書レベルのマルチイベント抽出は、所定の文書から構造情報を自動抽出することを目的としている。 最近のアプローチでは、(1)エンティティインタラクションをモデリングし、(2)エンティティインタラクションをイベントにデコードする。 しかし、このようなアプローチは、複数のイベントの相互依存のグローバルな見解を無視している。 さらに、イベントは関連するエンティティを引数として反復的にマージすることでデコードされる。 本稿では,イベントプロキシノードを用いた文書レベルのマルチイベント抽出とHausdorff距離最小化のための代替手法を提案する。 疑似イベントを表すイベントプロキシノードは、他のイベントプロキシノードとの接続を構築することができ、基本的にはグローバルな情報をキャプチャする。 ハウスドルフ距離は、予測された事象の集合と地対事象の集合との類似性を比較することができる。 ハウスドルフ距離を直接最小化することにより、モデルはグローバルな最適化に向けて直接訓練される。 実験結果から,F1スコアの従来手法よりもトレーニング時間が少ない2つのデータセットの方が優れていた。

Document-level multi-event extraction aims to extract the structural information from a given document automatically. Most recent approaches usually involve two steps: (1) modeling entity interactions; (2) decoding entity interactions into events. However, such approaches ignore a global view of inter-dependency of multiple events. Moreover, an event is decoded by iteratively merging its related entities as arguments, which might suffer from error propagation and is computationally inefficient. In this paper, we propose an alternative approach for document-level multi-event extraction with event proxy nodes and Hausdorff distance minimization. The event proxy nodes, representing pseudo-events, are able to build connections with other event proxy nodes, essentially capturing global information. The Hausdorff distance makes it possible to compare the similarity between the set of predicted events and the set of ground-truth events. By directly minimizing Hausdorff distance, the model is trained towards the global optimum directly, which improves performance and reduces training time. Experimental results show that our model outperforms previous state-of-the-art method in F1-score on two datasets with only a fraction of training time.
翻訳日:2023-05-31 16:50:26 公開日:2023-05-30
# グラフニューラルネットワークにおけるニューラルハミルトン軌道からのノード埋め込み

Node Embedding from Neural Hamiltonian Orbits in Graph Neural Networks ( http://arxiv.org/abs/2305.18965v1 )

ライセンス: Link先を確認
Qiyu Kang and Kai Zhao and Yang Song and Sijie Wang and Wee Peng Tay(参考訳) グラフノードの埋め込み問題では、埋め込み空間は異なるデータ型に対して大きく異なるため、異なるGNNモデルタイプが必要になる。 本稿では,ノードの特徴の埋め込み更新を時間経過とともにハミルトン軌道としてモデル化する。 ハミルトニアン軌道は指数写像を一般化するので、この方法では閉指数写像解を持つ固定グラフ埋め込み多様体を仮定する既存の文献のほとんどとは対照的に、訓練中のグラフの基底多様体を学習することができる。 提案したノード埋め込み戦略は,多様なジオメトリを持つ場合でも,任意のグラフデータセットの基盤となる幾何学を,広範囲なチューニングなしに自動的に学習することができる。 異なる形式のハミルトニア関数をテストし,ダウンストリームタスクを埋め込み,ノード分類とリンク予測という2つのグラフノードにおけるアプローチの性能を検証する。 数値実験により,gnnを組み込んだグラフノードよりも,異なる種類のグラフデータセットに適合することを示す。 コードは \url{https://github.com/zknus/hamiltonian-gnn} で入手できる。

In the graph node embedding problem, embedding spaces can vary significantly for different data types, leading to the need for different GNN model types. In this paper, we model the embedding update of a node feature as a Hamiltonian orbit over time. Since the Hamiltonian orbits generalize the exponential maps, this approach allows us to learn the underlying manifold of the graph in training, in contrast to most of the existing literature that assumes a fixed graph embedding manifold with a closed exponential map solution. Our proposed node embedding strategy can automatically learn, without extensive tuning, the underlying geometry of any given graph dataset even if it has diverse geometries. We test Hamiltonian functions of different forms and verify the performance of our approach on two graph node embedding downstream tasks: node classification and link prediction. Numerical experiments demonstrate that our approach adapts better to different types of graph datasets than popular state-of-the-art graph node embedding GNNs. The code is available at \url{https://github.com/zknus/Hamiltonian-GNN}.
翻訳日:2023-05-31 16:42:52 公開日:2023-05-30
# 階層的表現学習のための双曲拡散埋め込みと距離

Hyperbolic Diffusion Embedding and Distance for Hierarchical Representation Learning ( http://arxiv.org/abs/2305.18962v1 )

ライセンス: Link先を確認
Ya-Wei Eileen Lin, Ronald R. Coifman, Gal Mishne, Ronen Talmon(参考訳) 階層的データの有意義な表現と距離を見つけることは、多くの分野で重要である。 本稿では階層データ埋め込みと距離の新たな手法を提案する。 本手法は拡散幾何学,多様体学習の中心的なアプローチ,双曲幾何学を組み合わせたものである。 具体的には、拡散幾何学を用いて、データの多スケール密度を構築し、それらの階層構造を明らかにし、双曲空間の積にそれらを埋め込む。 埋め込みと距離が基礎となる階層構造を回復することを示す。 さらに,グラフ埋め込みベンチマークや階層的データセットにおける既存手法と比較して,提案手法の有効性と利点を示す。

Finding meaningful representations and distances of hierarchical data is important in many fields. This paper presents a new method for hierarchical data embedding and distance. Our method relies on combining diffusion geometry, a central approach to manifold learning, and hyperbolic geometry. Specifically, using diffusion geometry, we build multi-scale densities on the data, aimed to reveal their hierarchical structure, and then embed them into a product of hyperbolic spaces. We show theoretically that our embedding and distance recover the underlying hierarchical structure. In addition, we demonstrate the efficacy of the proposed method and its advantages compared to existing methods on graph embedding benchmarks and hierarchical datasets.
翻訳日:2023-05-31 16:42:34 公開日:2023-05-30
# マルチチャネル監視学習のための量子畳み込みニューラルネットワーク

Quantum Convolutional Neural Networks for Multi-Channel Supervised Learning ( http://arxiv.org/abs/2305.18961v1 )

ライセンス: Link先を確認
Anthony M. Smaldone, Gregory W. Kyro, Victor S. Batista(参考訳) 機械学習の急速に進化する分野が、信じられないほど有用なツールやモデルを生み出し続けている中、機械学習アルゴリズムのスピードアップを提供する量子コンピューティングの可能性はますます好まれている。 特に、画像検出に基づくタスクのための古典的な畳み込みフィルタの代わりに量子回路が研究され、量子優位性を利用することができる。 しかし、これらの試みは量子畳み込みニューラルネットワーク(QCNN)と呼ばれ、複数のチャネルで効率的にデータを処理できないため、比較的単純な入力に限られる。 本稿では,畳み込みカーネルとして使用する様々なハードウェア対応量子回路 ansatze を示し,マルチチャネルデータを含む分類タスクにおいて,我々が報告する量子ニューラルネットワークが既存のqcnnを上回っていることを示す。 これらの実装がチャネル間情報を効果的に学習することで、量子機械学習手法がより複雑なデータで操作できるようになると期待する。 この仕事は、https://github.com/anthonysmaldone/qcnn-multi-channel-supervised-learningでオープンソースとして入手できる。

As the rapidly evolving field of machine learning continues to produce incredibly useful tools and models, the potential for quantum computing to provide speed up for machine learning algorithms is becoming increasingly desirable. In particular, quantum circuits in place of classical convolutional filters for image detection-based tasks are being investigated for the ability to exploit quantum advantage. However, these attempts, referred to as quantum convolutional neural networks (QCNNs), lack the ability to efficiently process data with multiple channels and therefore are limited to relatively simple inputs. In this work, we present a variety of hardware-adaptable quantum circuit ansatzes for use as convolutional kernels, and demonstrate that the quantum neural networks we report outperform existing QCNNs on classification tasks involving multi-channel data. We envision that the ability of these implementations to effectively learn inter-channel information will allow quantum machine learning methods to operate with more complex data. This work is available as open source at https://github.com/anthonysmaldone/QCNN-Multi-Channel-Supervised-Learning.
翻訳日:2023-05-31 16:42:24 公開日:2023-05-30
# 考古学における内在的形状分析--古代スンディアルを事例として

Intrinsic shape analysis in archaeology: A case study on ancient sundials ( http://arxiv.org/abs/2305.18960v1 )

ライセンス: Link先を確認
Martin Hanik and Benjamin Ducke and Hans-Christian Hege and Friederike Fless and Christoph von Tycowicz(参考訳) 本稿では, 類似の遺構形状のアンサンブルから考古学的知見を抽出するための新しい数学的アプローチについて検討する。 その結果, 出土品の形状情報を全て考慮し, 個々に検討するか, 形状を予め定義された考古学的タイプに分類し, 関連する識別特性を分析することで, 識別しにくい形状パターンを識別できることがわかった。 近年, 古代ギリシア・ローマ時代のサンディアルの3次元モデルにおいて, 「条例による厳密な抽出」という伝統的な考古学的方法の代替として, その可能性を探るべく, 一連の高解像度デジタル表現が利用可能になっている。 提案手法では、各3次元形状は、高次元、曲面、非ユークリッド空間の形状空間内の点として表現される。 形状空間で回帰を行うことで、ローマの日食では、日食の影を受容する表面の曲がりは、位置の緯度とともに変化することがわかった。 これは、刻まれた時間線とは別に、日時計の形状も設置場所に合わせて調整されたことを示している。 より先進的な推測の例として,設置位置が不明な日射の緯度を推定するために,同定された傾向を用いる。 また, 幾何学的統計学と形状解析学を基礎として, 形態的傾向のアサーションを区別する新しい手法を導出する。 具体的には、パラメータ依存効果(トレンド)と説明不能な変数を分離する手段として機能する形状の統計的正規化の回帰に基づく手法を提案する。

This paper explores a novel mathematical approach to extract archaeological insights from ensembles of similar artifact shapes. We show that by considering all the shape information in a find collection, it is possible to identify shape patterns that would be difficult to discern by considering the artifacts individually or by classifying shapes into predefined archaeological types and analyzing the associated distinguishing characteristics. Recently, series of high-resolution digital representations of artifacts have become available, and we explore their potential on a set of 3D models of ancient Greek and Roman sundials, with the aim of providing alternatives to the traditional archaeological method of ``trend extraction by ordination'' (typology). In the proposed approach, each 3D shape is represented as a point in a shape space -- a high-dimensional, curved, non-Euclidean space. By performing regression in shape space, we find that for Roman sundials, the bend of the sundials' shadow-receiving surface changes with the location's latitude. This suggests that, apart from the inscribed hour lines, also a sundial's shape was adjusted to the place of installation. As an example of more advanced inference, we use the identified trend to infer the latitude at which a sundial, whose installation location is unknown, was placed. We also derive a novel method for differentiated morphological trend assertion, building upon and extending the theory of geometric statistics and shape analysis. Specifically, we present a regression-based method for statistical normalization of shapes that serves as a means of disentangling parameter-dependent effects (trends) and unexplained variability.
翻訳日:2023-05-31 16:42:07 公開日:2023-05-30
# Wave to Syntax: 構文のための音声言語モデルの提案

Wave to Syntax: Probing spoken language models for syntax ( http://arxiv.org/abs/2305.18957v1 )

ライセンス: Link先を確認
Gaofei Shen, Afra Alishahi, Arianna Bisazza, Grzegorz Chrupa{\l}a(参考訳) 音声および文字言語の深層モデルにエンコードされる情報を理解することは、これらのアーキテクチャのデバッグと改善に不可欠であるため、近年多くの研究の焦点となっている。 これまでの研究のほとんどは、話者特性の探索、音声言語のモデルにおける音響的および音韻的情報、および書き言葉のモデルにおける構文的情報に焦点を当てている。 ここでは、音声言語の自己教師型および視覚的基盤モデルにおける構文の符号化に焦点を当てる。 対象モデルのアクティベーションで構文構造がエンコードされる程度を定量化するために,ベースラインと参照表現を組み合わせた2つの補完的探索法を用いる。 我々は、構文がネットワークの中間層で最も顕著に捉えられ、より多くのパラメータを持つモデルでより明確に表現されていることを示す。

Understanding which information is encoded in deep models of spoken and written language has been the focus of much research in recent years, as it is crucial for debugging and improving these architectures. Most previous work has focused on probing for speaker characteristics, acoustic and phonological information in models of spoken language, and for syntactic information in models of written language. Here we focus on the encoding of syntax in several self-supervised and visually grounded models of spoken language. We employ two complementary probing methods, combined with baselines and reference representations to quantify the degree to which syntactic structure is encoded in the activations of the target models. We show that syntax is captured most prominently in the middle layers of the networks, and more explicitly within models with more parameters.
翻訳日:2023-05-31 16:41:37 公開日:2023-05-30
# ダイナミックウェイト旅行セールスマン問題に対する進化アルゴリズムにおけるオペレーターと人口の影響について

On the Impact of Operators and Populations within Evolutionary Algorithms for the Dynamic Weighted Traveling Salesperson Problem ( http://arxiv.org/abs/2305.18955v1 )

ライセンス: Link先を確認
Jakob Bossek, Aneta Neumann, Frank Neumann(参考訳) 進化的アルゴリズムは、静的および動的環境における複雑な最適化問題に対する優れた解が得られることが示されている。 動的および確率的要素を体系的に含む複雑な最適化問題に対する進化的アルゴリズムの振る舞いを理解することは、実世界問題への適用性をさらに高めるために重要である。 本研究では,多様な重み付きTSP問題を動的設定で抽象化するノード重み付き旅行セールスパー問題 (W-TSP) について検討する。 問題の動的設定では、時間とともにTSPツアーの一部として収集されるアイテムが変更される。 まず,ツアーの進行時に収集するアイテムの集合に適用される変化の種類によってパラメータ化される動的W-TSPの動的セットアップについて述べる。 最初の実験では、最適化ソリューションの構造的洞察を提供するために、これらの変化が結果の最適化ツアーに与える影響について検討した。 その後、簡単な突然変異に基づく進化アルゴリズムを検証し、突然変異演算子の影響と、問題のノード重みの動的変化に対処する集団の利用について検討する。

Evolutionary algorithms have been shown to obtain good solutions for complex optimization problems in static and dynamic environments. It is important to understand the behaviour of evolutionary algorithms for complex optimization problems that also involve dynamic and/or stochastic components in a systematic way in order to further increase their applicability to real-world problems. We investigate the node weighted traveling salesperson problem (W-TSP), which provides an abstraction of a wide range of weighted TSP problems, in dynamic settings. In the dynamic setting of the problem, items that have to be collected as part of a TSP tour change over time. We first present a dynamic setup for the dynamic W-TSP parameterized by different types of changes that are applied to the set of items to be collected when traversing the tour. Our first experimental investigations study the impact of such changes on resulting optimized tours in order to provide structural insights of optimization solutions. Afterwards, we investigate simple mutation-based evolutionary algorithms and study the impact of the mutation operators and the use of populations with dealing with the dynamic changes to the node weights of the problem.
翻訳日:2023-05-31 16:41:25 公開日:2023-05-30
# 資源制約型mcuの機械学習と推論

Towards Machine Learning and Inference for Resource-constrained MCUs ( http://arxiv.org/abs/2305.18954v1 )

ライセンス: Link先を確認
Yushan Huang, Hamed Haddadi(参考訳) 機械学習(ML)はエッジデバイスに向かっている。 しかし、高い計算要求とエネルギー消費を持つMLモデルは、深海のような資源制約のある環境でML推論に挑戦する。 これらの課題に対処するために、マイクロコントローラユニット(MCU)のための電池レスML推論とモデルパーソナライズパイプラインを提案する。 一例として,海洋における魚の画像認識を行った。 我々は,最適化前後のモデルの精度,実行時,電力,エネルギー消費量を評価し,比較した。 その結果,483.82kbフラッシュ,70.32kb ram,118msランタイム,4.83mw電力,0.57mjエネルギー消費で97.78%の精度を達成でき,ベースラインと比較して64.17%,12.31%,52.42%,63.74%,82.67%削減できた。 その結果,MCU上でのバッテリフリーML推論の可能性が示唆された。

Machine learning (ML) is moving towards edge devices. However, ML models with high computational demands and energy consumption pose challenges for ML inference in resource-constrained environments, such as the deep sea. To address these challenges, we propose a battery-free ML inference and model personalization pipeline for microcontroller units (MCUs). As an example, we performed fish image recognition in the ocean. We evaluated and compared the accuracy, runtime, power, and energy consumption of the model before and after optimization. The results demonstrate that, our pipeline can achieve 97.78% accuracy with 483.82 KB Flash, 70.32 KB RAM, 118 ms runtime, 4.83 mW power, and 0.57 mJ energy consumption on MCUs, reducing by 64.17%, 12.31%, 52.42%, 63.74%, and 82.67%, compared to the baseline. The results indicate the feasibility of battery-free ML inference on MCUs.
翻訳日:2023-05-31 16:41:07 公開日:2023-05-30
# Sit Back and Relax: あらゆる気象条件下でインクリメンタルに運転を学ぶ

Sit Back and Relax: Learning to Drive Incrementally in All Weather Conditions ( http://arxiv.org/abs/2305.18953v1 )

ライセンス: Link先を確認
Stefan Leitner, M. Jehanzeb Mirza, Wei Lin, Jakub Micorek, Marc Masana, Mateusz Kozinski, Horst Possegger, Horst Bischof(参考訳) 自律走行シナリオでは、現在の物体検出モデルは、晴れた天候でテストした場合に強い性能を示す。 しかし, 気象条件が悪化すると, その性能は著しく低下する。 また、異なる気象条件の連続でロバストに振る舞うように適応しても、これら全てではうまく機能せず、壊滅的な忘れに苦しむことが多い。 そこで本研究では,事前学習されたネットワークのアフィンパラメータのみを異なる気象条件に適応させるために,教師なし特徴アライメントを用いたアクティベーションマッチング(dilam)によるドメインインクリメンタル学習を提案する。 我々は,これらのアフィンパラメータを各気象条件のメモリバンクとして格納し,各気象条件に遭遇した運転中(すなわちテスト時間)にその気象パラメータをプラグインする。 私たちのメモリバンクは非常に軽量で、アフィンパラメータは典型的な物体検出器の2%以下である。 さらに、従来のドメイン増分学習手法とは対照的に、テスト時に天気ラベルを必要とせず、多数決線形分類器による気象条件の自動推測を提案する。

In autonomous driving scenarios, current object detection models show strong performance when tested in clear weather. However, their performance deteriorates significantly when tested in degrading weather conditions. In addition, even when adapted to perform robustly in a sequence of different weather conditions, they are often unable to perform well in all of them and suffer from catastrophic forgetting. To efficiently mitigate forgetting, we propose Domain-Incremental Learning through Activation Matching (DILAM), which employs unsupervised feature alignment to adapt only the affine parameters of a clear weather pre-trained network to different weather conditions. We propose to store these affine parameters as a memory bank for each weather condition and plug-in their weather-specific parameters during driving (i.e. test time) when the respective weather conditions are encountered. Our memory bank is extremely lightweight, since affine parameters account for less than 2% of a typical object detector. Furthermore, contrary to previous domain-incremental learning approaches, we do not require the weather label when testing and propose to automatically infer the weather condition by a majority voting linear classifier.
翻訳日:2023-05-31 16:40:47 公開日:2023-05-30
# 3次元環境における準変分グラフ強化学習

Subequivariant Graph Reinforcement Learning in 3D Environments ( http://arxiv.org/abs/2305.18951v1 )

ライセンス: Link先を確認
Runfa Chen, Jiaqi Han, Fuchun Sun, Wenbing Huang(参考訳) 異なるエージェントの移動を導く共有政策の学習は強化学習(Reinforcement Learning, RL)における中核的な関心であり、モルフォロジーに依存しないRLの研究につながる。 しかし、既存のベンチマークは出発点と目標点の選択に非常に制限があり、2次元空間内のエージェントの動きを制限している。 本研究では,3D環境下での3D-SGRLにおける部分同変グラフRLという,形態に依存しないRLの新たなセットアップを提案する。 具体的には、まず3次元空間においてより実用的で挑戦的なベンチマークを新たに導入し、任意の設定から任意の方向を探索できるようにします。 さらに, 拡大状態-作用空間上のポリシーを最適化するために, 方針のモデル化やq関数に幾何対称性,すなわち準同値を注入し, ポリシーをあらゆる方向に一般化し, 探索効率を向上させることを提案する。 この目標は、表現力のあるメッセージ交換を可能にする新しいSubEquivariant Transformer (SET)によって達成される。 最後に,提案手法は,シングルタスク,マルチタスク,ゼロショット一般化のシナリオにおいて,既存の手法を一貫して著しく上回る評価を行う。 設計を検証するために広範囲のアブレーションも実施されている。 コードとビデオはプロジェクトのページで公開されている。

Learning a shared policy that guides the locomotion of different agents is of core interest in Reinforcement Learning (RL), which leads to the study of morphology-agnostic RL. However, existing benchmarks are highly restrictive in the choice of starting point and target point, constraining the movement of the agents within 2D space. In this work, we propose a novel setup for morphology-agnostic RL, dubbed Subequivariant Graph RL in 3D environments (3D-SGRL). Specifically, we first introduce a new set of more practical yet challenging benchmarks in 3D space that allows the agent to have full Degree-of-Freedoms to explore in arbitrary directions starting from arbitrary configurations. Moreover, to optimize the policy over the enlarged state-action space, we propose to inject geometric symmetry, i.e., subequivariance, into the modeling of the policy and Q-function such that the policy can generalize to all directions, improving exploration efficiency. This goal is achieved by a novel SubEquivariant Transformer (SET) that permits expressive message exchange. Finally, we evaluate the proposed method on the proposed benchmarks, where our method consistently and significantly outperforms existing approaches on single-task, multi-task, and zero-shot generalization scenarios. Extensive ablations are also conducted to verify our design. Code and videos are available on our project page: https://alpc91.github.io/SGRL/.
翻訳日:2023-05-31 16:40:08 公開日:2023-05-30
# 野生動物におけるマルチモーダル問合せ対象検出

Multi-modal Queried Object Detection in the Wild ( http://arxiv.org/abs/2305.18980v1 )

ライセンス: Link先を確認
Yifan Xu, Mengdan Zhang, Chaoyou Fu, Peixian Chen, Xiaoshan Yang, Ke Li, Changsheng Xu(参考訳) オープンセットの一般化によるテキスト記述と,豊富な記述の粒度をカテゴリクエリとして活用するための,効率的なアーキテクチャと事前学習戦略設計であるMQ-Detを導入する。 MQ-Detは、既存の言語クエリ専用検出器にビジョンクエリを組み込む。 凍った検出器上にゲート型クラススケーブルパーシーバーモジュールを装着し,カテゴリテキストをクラス別視覚情報で拡張する。 凍結検出器がもたらした学習慣性問題に対処するために,視覚条件付きマスキング言語予測戦略を提案する。 MQ-Detのシンプルで効果的なアーキテクチャとトレーニング戦略は、ほとんどの言語でクエリされたオブジェクト検出器と互換性があるため、汎用的なアプリケーションが得られる。 実験の結果,マルチモーダルクエリはオープンワールド検出に大きく寄与することがわかった。 例えば、MQ-Detは、LVISベンチマークにおいて、最先端のオープンセット検出器GLIPを+7.8%ゼロショットAPで改善し、13のショットダウンストリームタスクでは平均+6.3%APで、GLIPの事前トレーニング時間はわずか3%である。 コードはhttps://github.com/yifanxu74/mq-detで入手できる。

We introduce MQ-Det, an efficient architecture and pre-training strategy design to utilize both textual description with open-set generalization and visual exemplars with rich description granularity as category queries, namely, Multi-modal Queried object Detection, for real-world detection with both open-vocabulary categories and various granularity. MQ-Det incorporates vision queries into existing well-established language-queried-only detectors. A plug-and-play gated class-scalable perceiver module upon the frozen detector is proposed to augment category text with class-wise visual information. To address the learning inertia problem brought by the frozen detector, a vision conditioned masked language prediction strategy is proposed. MQ-Det's simple yet effective architecture and training strategy design is compatible with most language-queried object detectors, thus yielding versatile applications. Experimental results demonstrate that multi-modal queries largely boost open-world detection. For instance, MQ-Det significantly improves the state-of-the-art open-set detector GLIP by +7.8% zero-shot AP on the LVIS benchmark and averagely +6.3% AP on 13 few-shot downstream tasks, with merely 3% pre-training time required by GLIP. Code is available at https://github.com/YifanXu74/MQ-Det.
翻訳日:2023-05-31 16:34:14 公開日:2023-05-30
# IDToolkit:ナノフォトニクスにおける逆設計アルゴリズムのベンチマークと開発のためのツールキット

IDToolkit: A Toolkit for Benchmarking and Developing Inverse Design Algorithms in Nanophotonics ( http://arxiv.org/abs/2305.18978v1 )

ライセンス: Link先を確認
Jia-Qi Yang, Yu-Cheng Xu, Jia-Lei Shen, Ke-Bin Fan, De-Chuan Zhan, Yang Yang(参考訳) 人工知能(ai)と機械学習(ml)の最もエキサイティングな分野の1つは、新しい薬物の発見、新しい物質や化学物質の設計などの可能性である。 しかし、科学設計は通常、AI研究者になじみのない複雑なドメイン知識を必要とする。 さらに、科学研究は、実験と評価を行うための専門的なスキルを含んでいる。 これらの障害は、AI研究者が科学設計のための特殊な方法を開発するのを妨げる。 科学的設計の理解が容易で再現性のある研究に向けて一歩を踏み出すため,ナノフォトニックデバイスの逆設計のためのベンチマークを提案する。 具体的には,3つの異なるナノフォトニック設計問題,すなわち放射冷却器,熱光電池用選択エミッタ,および構造カラーフィルタを実装した。 ベンチマーク環境はオープンソースシミュレータで実装されている。 さらに10種類の逆設計アルゴリズムを実装し,再現可能で公平なフレームワークで比較した。 その結果、既存の手法の強みと弱みが明らかとなり、より効率的な逆設計アルゴリズムを開発するためのいくつかの将来の方向性が明らかになった。 我々のベンチマークは、より困難な科学的設計問題の出発点にもなり得る。 idtoolkitのコードはhttps://github.com/thyrixyang/idtoolkitで入手できる。

Aiding humans with scientific designs is one of the most exciting of artificial intelligence (AI) and machine learning (ML), due to their potential for the discovery of new drugs, design of new materials and chemical compounds, etc. However, scientific design typically requires complex domain knowledge that is not familiar to AI researchers. Further, scientific studies involve professional skills to perform experiments and evaluations. These obstacles prevent AI researchers from developing specialized methods for scientific designs. To take a step towards easy-to-understand and reproducible research of scientific design, we propose a benchmark for the inverse design of nanophotonic devices, which can be verified computationally and accurately. Specifically, we implemented three different nanophotonic design problems, namely a radiative cooler, a selective emitter for thermophotovoltaics, and structural color filters, all of which are different in design parameter spaces, complexity, and design targets. The benchmark environments are implemented with an open-source simulator. We further implemented 10 different inverse design algorithms and compared them in a reproducible and fair framework. The results revealed the strengths and weaknesses of existing methods, which shed light on several future directions for developing more efficient inverse design algorithms. Our benchmark can also serve as the starting point for more challenging scientific design problems. The code of IDToolkit is available at https://github.com/ThyrixYang/IDToolkit.
翻訳日:2023-05-31 16:33:46 公開日:2023-05-30
# 増補としてのクロスエンコーディング : 効果的な教育用テキスト分類を目指して

Cross Encoding as Augmentation: Towards Effective Educational Text Classification ( http://arxiv.org/abs/2305.18977v1 )

ライセンス: Link先を確認
Hyun Seung Lee, Seungtaek Choi, Yunsung Lee, Hyeongdon Moon, Shinhyeok Oh, Myeongho Jeong, Hyojun Go, Christian Wallraven(参考訳) 教育におけるテキスト分類は、通常オートタグと呼ばれるが、質問や教科書などの教育コンテンツに関連タグを割り当てる自動化プロセスである。 しかし、自動タグ付けはデータ不足の問題に悩まされている。 1)大きなタグスペースを持ち、 2)マルチラベルである。 検索手法は低リソースのシナリオに適していると言われているが、データ不足問題に直接対処する取り組みは少ない。 この問題を軽減するため,本研究では,教育用テキスト分類における効果的な学習を提供する新しい検索手法ceaaを提案する。 主な貢献は以下の通りである。 1)質問応答データセットから転送学習を利用する。 2) より効率的な推論のために,クロスエンコーダスタイルのテキストをバイエンコーダアーキテクチャに導入する,単純だが効果的なデータ拡張手法を提案する。 提案手法は,最先端モデルと比較して,マルチラベルシナリオや低リソースタグに有効であることを示す。

Text classification in education, usually called auto-tagging, is the automated process of assigning relevant tags to educational content, such as questions and textbooks. However, auto-tagging suffers from a data scarcity problem, which stems from two major challenges: 1) it possesses a large tag space and 2) it is multi-label. Though a retrieval approach is reportedly good at low-resource scenarios, there have been fewer efforts to directly address the data scarcity problem. To mitigate these issues, here we propose a novel retrieval approach CEAA that provides effective learning in educational text classification. Our main contributions are as follows: 1) we leverage transfer learning from question-answering datasets, and 2) we propose a simple but effective data augmentation method introducing cross-encoder style texts to a bi-encoder architecture for more efficient inference. An extensive set of experiments shows that our proposed method is effective in multi-label scenarios and low-resource tags compared to state-of-the-art models.
翻訳日:2023-05-31 16:33:26 公開日:2023-05-30
# 隣人だけに近づいた音声変換

Voice Conversion With Just Nearest Neighbors ( http://arxiv.org/abs/2305.18975v1 )

ライセンス: Link先を確認
Matthew Baas, Benjamin van Niekerk, Herman Kamper(参考訳) 任意の音声変換は、ターゲット話者のわずかな例を参照として、ソース音声をターゲット音声に変換することを目的としている。 最近の手法は説得力のある変換を生み出すが、複雑さが増大するコストがかかるため、結果の再現と構築が困難になる。 その代わり、私たちはシンプルに保ちます。 我々はk-nearest neighbors voice conversion (kNN-VC)を提案する。 まず、ソースと参照音声の自己教師付き表現を抽出する。 対象話者に変換するために、参照において、ソース表現の各フレームを最も近い隣人に置き換える。 最後に、事前訓練されたボコーダが変換された表現から音声を合成する。 主観的および主観的評価は,kNN-VCが既存手法と類似した聞きやすさを向上することを示す。 コード、サンプル、トレーニングされたモデル: https://bshall.github.io/knn-vc

Any-to-any voice conversion aims to transform source speech into a target voice with just a few examples of the target speaker as a reference. Recent methods produce convincing conversions, but at the cost of increased complexity -- making results difficult to reproduce and build on. Instead, we keep it simple. We propose k-nearest neighbors voice conversion (kNN-VC): a straightforward yet effective method for any-to-any conversion. First, we extract self-supervised representations of the source and reference speech. To convert to the target speaker, we replace each frame of the source representation with its nearest neighbor in the reference. Finally, a pretrained vocoder synthesizes audio from the converted representation. Objective and subjective evaluations show that kNN-VC improves speaker similarity with similar intelligibility scores to existing methods. Code, samples, trained models: https://bshall.github.io/knn-vc
翻訳日:2023-05-31 16:33:11 公開日:2023-05-30
# 外乱の有無によるロバストな経験的リスク最小化性能の漸近的評価

Asymptotic Characterisation of Robust Empirical Risk Minimisation Performance in the Presence of Outliers ( http://arxiv.org/abs/2305.18974v1 )

ライセンス: Link先を確認
Matteo Vilucchio, Emanuele Troiani, Vittorio Erba, Florent Krzakala(参考訳) 次元 $d$ とデータポイント数 $n$ の両方が固定比 $\alpha=n/d$ で分岐する場合、高次元におけるロバストな線形回帰を研究し、外れ値を含むデータモデルを調べる。 このような問題に対する標準的なアプローチである $\ell_2$-regularized $\ell_2$, $\ell_1$, Huber loss を用いた経験的リスク最小化(ERM)の性能に対する正確な漸近を提供する。 性能の指標として,異常値を持つ類似データセットに対する一般化誤差と,元の未定関数の推定誤差の2つに注目した。 その結果,情報理論ベイズ最適推定値と比較した。 一般化誤差の場合、最適な正規化ermは、単純なキャリブレーションを行い、収束率を計算すると、大きなサンプル複雑性限界において漸近的に一致することが分かる。 しかし, 推定誤差は, 標準校正ミスマッチのため, 推定器の整合性には最適基準のオラクル推定が必要であること, あるいは, 異常値が不完全でないクロスバリデーションセットの存在が示される。 学習セットにおける損失関数と異常破壊の程度にパフォーマンスがどのように依存するかを詳細に検討し,フーバー損失の最適性能が$\ell_2$損失と同一であるパラメータの領域を特定し,異なる損失関数のユースケースに対する洞察を提供する。

We study robust linear regression in high-dimension, when both the dimension $d$ and the number of data points $n$ diverge with a fixed ratio $\alpha=n/d$, and study a data model that includes outliers. We provide exact asymptotics for the performances of the empirical risk minimisation (ERM) using $\ell_2$-regularised $\ell_2$, $\ell_1$, and Huber loss, which are the standard approach to such problems. We focus on two metrics for the performance: the generalisation error to similar datasets with outliers, and the estimation error of the original, unpolluted function. Our results are compared with the information theoretic Bayes-optimal estimation bound. For the generalization error, we find that optimally-regularised ERM is asymptotically consistent in the large sample complexity limit if one perform a simple calibration, and compute the rates of convergence. For the estimation error however, we show that due to a norm calibration mismatch, the consistency of the estimator requires an oracle estimate of the optimal norm, or the presence of a cross-validation set not corrupted by the outliers. We examine in detail how performance depends on the loss function and on the degree of outlier corruption in the training set and identify a region of parameters where the optimal performance of the Huber loss is identical to that of the $\ell_2$ loss, offering insights into the use cases of different loss functions.
翻訳日:2023-05-31 16:32:59 公開日:2023-05-30
# ボルン-オッペンハイマー分子動力学におけるマデルング変換と変分漸近

Madelung transform and variational asymptotics in Born-Oppenheimer molecular dynamics ( http://arxiv.org/abs/2305.18972v1 )

ライセンス: Link先を確認
Paul Bergold and Cesare Tronci(参考訳) ボルン・オッペンハイマー分子動力学(bomd)は、数学的解析における強力な手法を用いて広く研究されてきたが、ハミルトンの変分原理と対称性によるオイラー・ポインカルの還元という観点から幾何学的定式化を提案する。 マデラン変換で利用できるラグランジアン流体力学経路を利用すると、BOMDは異なる連続体モデルとそれらの粒子閉包スキームの基礎となる変動原理に漸近的手法を適用することによって生じることを示す。 特に、完全量子力学の流体力学的形式に着目した後、最近提案されたbohmionスキームがbomdの代替実装にどのようにつながるかを示す。 さらに,量子古典力学の混合モデルにも解析を拡張した。

While Born-Oppenheimer molecular dynamics (BOMD) has been widely studied by resorting to powerful methods in mathematical analysis, this paper presents a geometric formulation in terms of Hamilton's variational principle and Euler-Poincar\'{e} reduction by symmetry. Upon resorting to the Lagrangian hydrodynamic paths made available by the Madelung transform, we show how BOMD arises by applying asymptotic methods to the variational principles underlying different continuum models and their particle closure schemes. In particular, after focusing on the hydrodynamic form of the fully quantum dynamics, we show how the recently proposed bohmion scheme leads to an alternative implementation of BOMD. In addition, we extend our analysis to models of mixed quantum-classical dynamics.
翻訳日:2023-05-31 16:32:29 公開日:2023-05-30
# Srinkage Exemplars を用いたFew-shot 分類

Few-shot Classification with Shrinkage Exemplars ( http://arxiv.org/abs/2305.18970v1 )

ライセンス: Link先を確認
Tao Zhang and Wu Huang(参考訳) プロトタイプは、過剰適合の問題に対処するための単純な帰納バイアスとして提案された、数ショット学習のためのカテゴリの内部構造を表現するために広く用いられている。 しかし, 単体表現は通常, 個々の試料から平均されるため, 試料分布の過小化につながる可能性のある試料差の保持能力を柔軟に調整することはできない。 この問題に対処するため,本研究では,少数の分類のためのShrinkage Exemplar Networks (SENet)を提案する。 SENetは、収縮推定器を用いて、プロトタイプ表現(ハイバイアス、低分散)とサンプル表現(低バイアス、高分散)のバランスをとる。 さらに, 個々の収縮サンプルの情報を取り込むために, 広く使用されるクロスエントロピー損失を置き換えるために, 縮小損失が提案されている。 miniimagenet、tiered-imagenet、cifar-fsデータセットでいくつかの実験が行われた。 提案手法は,タスクのサンプルモデルやプロトタイプモデルよりも優れていることを示す。

Prototype is widely used to represent internal structure of category for few-shot learning, which was proposed as a simple inductive bias to address the issue of overfitting. However, since prototype representation is normally averaged from individual samples, it cannot flexibly adjust the retention ability of sample differences that may leads to underfitting in some cases of sample distribution. To address this problem, in this work, we propose Shrinkage Exemplar Networks (SENet) for few-shot classification. SENet balances the prototype representations (high-bias, low-variance) and example representations (low-bias, high-variance) using a shrinkage estimator, where the categories are represented by the embedings of samples that shrink to their mean via spectral filtering. Furthermore, a shrinkage exemplar loss is proposed to replace the widely used cross entropy loss for capturing the information of individual shrinkage samples. Several experiments were conducted on miniImageNet, tiered-ImageNet and CIFAR-FS datasets. We demonstrate that our proposed model is superior to the example model and the prototype model for some tasks.
翻訳日:2023-05-31 16:32:12 公開日:2023-05-30
# MS-DETR: モーメント-モーメント相互作用のサンプリングによる自然言語ビデオのローカライゼーション

MS-DETR: Natural Language Video Localization with Sampling Moment-Moment Interaction ( http://arxiv.org/abs/2305.18969v1 )

ライセンス: Link先を確認
Jing Wang, Aixin Sun, Hao Zhang, and Xiaoli Li(参考訳) クエリが与えられた場合、自然言語ビデオローカライゼーション(NLVL)のタスクは、クエリにセマンティックにマッチする未編集ビデオに時間的モーメントをローカライズすることである。 本稿では,提案を生成する提案ベースソリューション(すなわち,候補モーメント)を採用し,その上で最適な提案を選択する。 提案したモーメントサンプリングDETR(MS-DETR)は,候補モーメントとクエリ間の相互モーダル相互作用のモデル化に加えて,効率的なモーメント関係モデリングを実現する。 中心となる考え方は、学習可能なテンプレートによって導かれるモーメントのサブセットをDETR(Detection TRansformer)フレームワークでサンプリングすることである。 これを実現するために,マルチスケールのビジュアル言語エンコーダと,学習可能なテンプレートセットと組んだアンカーガイドモーメントデコーダを設計した。 3つの公開データセットの実験結果は、MS-DETRの優れた性能を示している。

Given a query, the task of Natural Language Video Localization (NLVL) is to localize a temporal moment in an untrimmed video that semantically matches the query. In this paper, we adopt a proposal-based solution that generates proposals (i.e., candidate moments) and then select the best matching proposal. On top of modeling the cross-modal interaction between candidate moments and the query, our proposed Moment Sampling DETR (MS-DETR) enables efficient moment-moment relation modeling. The core idea is to sample a subset of moments guided by the learnable templates with an adopted DETR (DEtection TRansformer) framework. To achieve this, we design a multi-scale visual-linguistic encoder, and an anchor-guided moment decoder paired with a set of learnable templates. Experimental results on three public datasets demonstrate the superior performance of MS-DETR.
翻訳日:2023-05-31 16:31:54 公開日:2023-05-30
# 2D SU($N$)フェルミ-ハバードモデルの状態方程式と温度測定

Equation of State and Thermometry of the 2D SU($N$) Fermi-Hubbard Model ( http://arxiv.org/abs/2305.18967v1 )

ライセンス: Link先を確認
Giulio Pasqualetti, Oscar Bettermann, Nelson Darkwah Oppong, Eduardo Ibarra-Garc\'ia-Padilla, Sohail Dasgupta, Richard T. Scalettar, Kaden R. A. Hazzard, Immanuel Bloch, Simon F\"olling(参考訳) 我々は, SU($N>2$) Fermi-Hubbard Model (FHM) の状態方程式 (EoS) を2次元の1層2乗光学格子で特徴づける。 我々は,N = 3, 4$および6の相互作用強度と温度の関数として,密度と部位占有確率を探索する。 本測定は,DQMC (Determinantal quantum Monte Carlo) やNLCE ( numerical linked cluster expansion) など,最先端の数値手法のベンチマークとして用いられる。 密度変動を推定することにより, 数値計算したEoS結果に測定値を適用し, モデル非依存で決定された温度を比較し, SU($N$) FHMの探索と評価において特に興味深いステップとなる。

We characterize the equation of state (EoS) of the SU($N>2$) Fermi-Hubbard Model (FHM) in a two-dimensional single-layer square optical lattice. We probe the density and the site occupation probabilities as functions of interaction strength and temperature for $N = 3, 4$ and 6. Our measurements are used as a benchmark for state-of-the-art numerical methods including determinantal quantum Monte Carlo (DQMC) and numerical linked cluster expansion (NLCE). By probing the density fluctuations, we compare temperatures determined in a model-independent way by fitting measurements to numerically calculated EoS results, making this a particularly interesting new step in the exploration and characterization of the SU($N$) FHM.
翻訳日:2023-05-31 16:31:35 公開日:2023-05-30
# 品質多様性アルゴリズムの実行時解析

Runtime Analysis of Quality Diversity Algorithms ( http://arxiv.org/abs/2305.18966v1 )

ライセンス: Link先を確認
Jakob Bossek, Dirk Sudholt(参考訳) 品質の多様性~(QD)は進化的計算の分野であり、近年関心が高まりつつある。 map-elites qdアプローチは、探索空間の分割のような特徴空間を定義し、この空間の各セルに対して最適な解を格納する。 我々は,$i$th セルが $[(i-1)k, ik-1]$ で多数のセルを持つセルに対して最適な解を格納する ``number of ones'' 特徴空間上の疑似boolean 最適化の文脈において,単純な qd アルゴリズムについて検討する。 ここで$k$は粒度パラメータ $1 \leq k \leq n+1$ である。 我々は、全てのセルが任意のフィットネス関数に被覆されるまでの期待時間に厳密な拘束を与え、すべての$k$に対して \textsc{OneMax} 上の QD の期待最適化時間と、特徴空間に好適に整合する他の問題を分析する。 組合せ問題では、QD は単調部分モジュラ函数を 1 つの一様濃度制約で効率的に最大化するときに${(1-1/e)}$-近似を求める。 連結グラフの連結成分の個数として特徴空間を定義すると、QDが期待される多項式時間で最小のスパンニングツリーを見つけることを示す。

Quality diversity~(QD) is a branch of evolutionary computation that gained increasing interest in recent years. The Map-Elites QD approach defines a feature space, i.e., a partition of the search space, and stores the best solution for each cell of this space. We study a simple QD algorithm in the context of pseudo-Boolean optimisation on the ``number of ones'' feature space, where the $i$th cell stores the best solution amongst those with a number of ones in $[(i-1)k, ik-1]$. Here $k$ is a granularity parameter $1 \leq k \leq n+1$. We give a tight bound on the expected time until all cells are covered for arbitrary fitness functions and for all $k$ and analyse the expected optimisation time of QD on \textsc{OneMax} and other problems whose structure aligns favourably with the feature space. On combinatorial problems we show that QD finds a ${(1-1/e)}$-approximation when maximising any monotone sub-modular function with a single uniform cardinality constraint efficiently. Defining the feature space as the number of connected components of a connected graph, we show that QD finds a minimum spanning tree in expected polynomial time.
翻訳日:2023-05-31 16:31:21 公開日:2023-05-30
# インテリジェント反射型ミリ波通信におけるチャネル推定のためのハイブリッド駆動学習

Hybrid Driven Learning for Channel Estimation in Intelligent Reflecting Surface Aided Millimeter Wave Communications ( http://arxiv.org/abs/2305.19005v1 )

ライセンス: Link先を確認
Shuntian Zheng, Sheng Wu, Chunxiao Jiang, Wei Zhang, Xiaojun Jing(参考訳) ミリ波(mmWave)とテラヘルツ(THz)システムにおいて、ハイブリッドプリコーダ、コンバインダ、IRSの設計がチャネル状態情報に依存している場合のカバレッジとキャパシティの向上を実現するために、インテリジェント反射面(IRS)が提案されている。 本稿では,ハイブリッドアーキテクチャを用いたマルチユーザマルチインプット単一出力(MISO)システムにおけるアップリンク広帯域チャネル推定の問題に対処する。 モデル駆動型とデータ駆動型ディープラーニングのアプローチの構造を組み合わせることで、チャネル特性の同時推定と学習のためにハイブリッド駆動型学習アーキテクチャが考案される。 受動IRS支援システムにおいて、モデル駆動型ネットワークとして残差学習した近似メッセージパッシングを提案する。 空間的・周波数的特徴を共同学習するために、データ駆動ネットワーク内の分断・注意ネットワークを用いる。 さらに,irsとirsのハイブリッドシステムにおいて,柔軟なハイブリッド駆動ネットワークを設計する。 具体的には、深度的に分離可能な畳み込みがデータ駆動ネットワークに適用され、ネットワークの複雑さが小さくなり、IRS側のパラメータも少なくなる。 数値計算の結果,両システムにおいて提案するハイブリッド型チャネル推定手法は,既存のディープラーニング方式を著しく上回っており,irs支援システムのパイロットオーバヘッドを約60%削減できることがわかった。

Intelligent reflecting surfaces (IRS) have been proposed in millimeter wave (mmWave) and terahertz (THz) systems to achieve both coverage and capacity enhancement, where the design of hybrid precoders, combiners, and the IRS typically relies on channel state information. In this paper, we address the problem of uplink wideband channel estimation for IRS aided multiuser multiple-input single-output (MISO) systems with hybrid architectures. Combining the structure of model driven and data driven deep learning approaches, a hybrid driven learning architecture is devised for joint estimation and learning the properties of the channels. For a passive IRS aided system, we propose a residual learned approximate message passing as a model driven network. A denoising and attention network in the data driven network is used to jointly learn spatial and frequency features. Furthermore, we design a flexible hybrid driven network in a hybrid passive and active IRS aided system. Specifically, the depthwise separable convolution is applied to the data driven network, leading to less network complexity and fewer parameters at the IRS side. Numerical results indicate that in both systems, the proposed hybrid driven channel estimation methods significantly outperform existing deep learning-based schemes and effectively reduce the pilot overhead by about 60% in IRS aided systems.
翻訳日:2023-05-31 16:23:50 公開日:2023-05-30
# 非矩形不確かさ集合をもつロバストMDPのポリシー勾配アルゴリズム

Policy Gradient Algorithms for Robust MDPs with Non-Rectangular Uncertainty Sets ( http://arxiv.org/abs/2305.19004v1 )

ライセンス: Link先を確認
Mengmeng Li, Tobias Sutter, Daniel Kuhn(参考訳) 非矩形不確実性集合を持つロバストな無限水平マルコフ決定過程(MDP)に対するポリシー勾配アルゴリズムを提案し、ロバストなMDP文献におけるオープンな課題に対処する。 実際、統計的最適性特性を示し、限られたデータの最適利用を行う不確実性集合は長方形でないことが多い。 残念なことに、対応する堅牢なMDPは動的プログラミング技術では解決できず、実際は難解である。 これにより,グローバルな最適性保証を提供するロバストポリシー評価問題に適したランゲヴィン動的アルゴリズムの開発が促される。 また,ロバストな政策評価問題を概ね解く決定論的政策勾配法を提案し,不確実性集合の非正方性の新しい尺度を用いて近似誤差がスケールすることを示す。 数値実験により,予測したランジュバンダイナミクスアルゴリズムは局所光学を逃れることができたが,矩形不確かさに合わせたアルゴリズムはそうはならなかった。

We propose a policy gradient algorithm for robust infinite-horizon Markov Decision Processes (MDPs) with non-rectangular uncertainty sets, thereby addressing an open challenge in the robust MDP literature. Indeed, uncertainty sets that display statistical optimality properties and make optimal use of limited data often fail to be rectangular. Unfortunately, the corresponding robust MDPs cannot be solved with dynamic programming techniques and are in fact provably intractable. This prompts us to develop a projected Langevin dynamics algorithm tailored to the robust policy evaluation problem, which offers global optimality guarantees. We also propose a deterministic policy gradient method that solves the robust policy evaluation problem approximately, and we prove that the approximation error scales with a new measure of non-rectangularity of the uncertainty set. Numerical experiments showcase that our projected Langevin dynamics algorithm can escape local optima, while algorithms tailored to rectangular uncertainty fail to do so.
翻訳日:2023-05-31 16:23:29 公開日:2023-05-30
# 線形関数近似を用いた政策評価のためのシャープ高確率サンプル複合体

Sharp high-probability sample complexities for policy evaluation with linear function approximation ( http://arxiv.org/abs/2305.19001v1 )

ライセンス: Link先を確認
Gen Li, Weichen Wu, Yuejie Chi, Cong Ma, Alessandro Rinaldo, Yuting Wei(参考訳) 本稿では, 無限地平面マルコフ決定過程における線形関数近似を用いた政策評価の問題について述べる。 本研究では, 時差学習法(td)と勾配補正法(tdc)法(tdc)の2つの手法について, 最適線形係数の事前推定誤差の保証に必要なサンプル複素性について検討した。 対象ポリシーから観察が生成されるオンポリシー設定と、対象ポリシーと潜在的に異なる行動ポリシーからサンプルが引き出されるオフポリシー設定の両方において、許容レベルへの最適依存性を達成する高確率収束保証に結びついた最初のサンプル複雑性を確立する。 また,問題関連量への明示的な依存を強調し,上限が問題パラメータの最小値下限と一致することをオンポリシー設定で示し,特徴写像の選択や問題次元を含む。

This paper is concerned with the problem of policy evaluation with linear function approximation in discounted infinite horizon Markov decision processes. We investigate the sample complexities required to guarantee a predefined estimation error of the best linear coefficients for two widely-used policy evaluation algorithms: the temporal difference (TD) learning algorithm and the two-timescale linear TD with gradient correction (TDC) algorithm. In both the on-policy setting, where observations are generated from the target policy, and the off-policy setting, where samples are drawn from a behavior policy potentially different from the target policy, we establish the first sample complexity bound with high-probability convergence guarantee that attains the optimal dependence on the tolerance level. We also exhihit an explicit dependence on problem-related quantities, and show in the on-policy setting that our upper bound matches the minimax lower bound on crucial problem parameters, including the choice of the feature maps and the problem dimension.
翻訳日:2023-05-31 16:23:12 公開日:2023-05-30
# マルチタスク学習のための独立コンポーネントアライメント

Independent Component Alignment for Multi-Task Learning ( http://arxiv.org/abs/2305.19000v1 )

ライセンス: Link先を確認
Dmitry Senushkin, Nikolay Patakin, Arseny Kuznetsov, Anton Konushin(参考訳) マルチタスク学習(MTL)では、複数のタスクに共同で取り組むために単一のモデルを訓練する。 この分野の急速な進歩にもかかわらず、MTLは競合や支配的な勾配といった最適化の問題のため、依然として困難である。 本研究では,mtl最適化の安定性基準として,勾配の線形系の条件数を用いることを提案する。 理論的には、上記の最適化問題を反映した条件数を示す。 そこで我々は,線形勾配系の直交成分を整列させることにより,学習過程の不安定性を解消する新しいMTL最適化手法であるAligned-MTLを提案する。 最近のMTLアプローチの多くは最小限の収束を保証するが、タスクトレードオフを事前に指定することはできない。 対照的に、Aligned-MTLは、予め定義されたタスク固有の重み付き最適点に確実に収束し、最適化結果をより制御する。 実験により,提案手法は,semantic and instance segmentation, depth estimation, surface normal estimation, reinforcement learningなど,様々なmtlベンチマークの性能を一貫して向上させることを示した。 ソースコードはhttps://github.com/SamsungLabs/MTLで公開されている。

In a multi-task learning (MTL) setting, a single model is trained to tackle a diverse set of tasks jointly. Despite rapid progress in the field, MTL remains challenging due to optimization issues such as conflicting and dominating gradients. In this work, we propose using a condition number of a linear system of gradients as a stability criterion of an MTL optimization. We theoretically demonstrate that a condition number reflects the aforementioned optimization issues. Accordingly, we present Aligned-MTL, a novel MTL optimization approach based on the proposed criterion, that eliminates instability in the training process by aligning the orthogonal components of the linear system of gradients. While many recent MTL approaches guarantee convergence to a minimum, task trade-offs cannot be specified in advance. In contrast, Aligned-MTL provably converges to an optimal point with pre-defined task-specific weights, which provides more control over the optimization result. Through experiments, we show that the proposed approach consistently improves performance on a diverse set of MTL benchmarks, including semantic and instance segmentation, depth estimation, surface normal estimation, and reinforcement learning. The source code is publicly available at https://github.com/SamsungLabs/MTL .
翻訳日:2023-05-31 16:22:54 公開日:2023-05-30
# 絡み付き無増分演算を伴う多部交絡理論

Multipartite entanglement theory with entanglement-nonincreasing operations ( http://arxiv.org/abs/2305.18999v1 )

ライセンス: Link先を確認
Alexander Streltsov(参考訳) 量子情報科学における鍵となる問題は、遠隔当事者間で共有される絡み合った状態の相互変換のための最適なプロトコルを決定することである。 2つのパーティでは、この方向で多くの結果が得られるが、マルチパーティの設定は依然として大きな課題である。 このレターでは、局所的な演算や古典的な通信の標準フレームワークを超えて、マルチパーティシステムにおける絡み合いの資源理論を拡張することでこの問題に対処する。 具体的には、状態の絡み合いを小さく、制御可能な増加を可能とし、その増加を任意に小さくすることを要求できる変換を考える。 この調整された枠組みでは、多粒子状態間の変換速度は、それぞれの量子状態の二粒子エンタングルメントエントロピーによって決定される。 注目すべきことに、このアプローチは二部類縁体への三部体絡みの縮小を可能にし、全ての純粋な三部体状態が、一対のパーティー間で分散された適切な数の一重項から可逆的に合成可能であることを示す。

A key problem in quantum information science is to determine optimal protocols for the interconversion of entangled states shared between remote parties. While for two parties a large number of results in this direction is available, the multipartite setting still remains a major challenge. In this Letter, this problem is addressed by extending the resource theory of entanglement for multipartite systems beyond the standard framework of local operations and classical communication. Specifically, we consider transformations capable of introducing a small, controllable increase of entanglement of a state, with the requirement that the increase can be made arbitrarily small. We demonstrate that in this adjusted framework, the transformation rates between multipartite states are fundamentally dictated by the bipartite entanglement entropies of the respective quantum states. Remarkably, this approach allows the reduction of tripartite entanglement to its bipartite analog, indicating that every pure tripartite state can be reversibly synthesized from a suitable number of singlets distributed between pairs of parties.
翻訳日:2023-05-31 16:22:35 公開日:2023-05-30
# 建設業におけるGPTモデル--機会・限界・ユースケース検証

GPT Models in Construction Industry: Opportunities, Limitations, and a Use Case Validation ( http://arxiv.org/abs/2305.18997v1 )

ライセンス: Link先を確認
Abdullahi Saka, Ridwan Taiwo, Nurudeen Saka, Babatunde Salami, Saheed Ajayi, Kabiru Akande, and Hadi Kazemi(参考訳) 大規模なデータセットでトレーニングされた大規模言語モデル(llm)は、googleがbertを導入した2018年に注目を集めた。 その後、OpenAI の GPT モデルなど様々な LLM がリリースされた。 これらのモデルは様々なタスクでうまく動作し、ビジネスや教育といった分野で広く応用されている。 しかし, 建設業における LLM の利用機会や課題についてはほとんど分かっていない。 そこで本研究では,建設業におけるGPTモデルの評価を目的とした。 研究目的を達成するために,批判的レビュー,エキスパートディスカッション,ケーススタディ検証が採用されている。 その結果,プロジェクトライフサイクル全体を通してGPTモデルの可能性が明らかになった。 GPTモデルを活用する上での課題が強調され,材料選択と最適化のためのユースケースプロトタイプが開発された。 この研究の成果は、建設業界におけるLLMの研究ビスタを示すため、研究者、実践者、ステークホルダーに利益をもたらすだろう。

Large Language Models(LLMs) trained on large data sets came into prominence in 2018 after Google introduced BERT. Subsequently, different LLMs such as GPT models from OpenAI have been released. These models perform well on diverse tasks and have been gaining widespread applications in fields such as business and education. However, little is known about the opportunities and challenges of using LLMs in the construction industry. Thus, this study aims to assess GPT models in the construction industry. A critical review, expert discussion and case study validation are employed to achieve the study objectives. The findings revealed opportunities for GPT models throughout the project lifecycle. The challenges of leveraging GPT models are highlighted and a use case prototype is developed for materials selection and optimization. The findings of the study would be of benefit to researchers, practitioners and stakeholders, as it presents research vistas for LLMs in the construction industry.
翻訳日:2023-05-31 16:22:17 公開日:2023-05-30
# 現実の光場超解像を目指して

Toward Real-World Light Field Super-Resolution ( http://arxiv.org/abs/2305.18994v1 )

ライセンス: Link先を確認
Zeyu Xiao, Ruisheng Gao, Yutong Liu, Yueyi Zhang, Zhiwei Xiong(参考訳) ディープラーニングは、ライトフィールドスーパーレゾリューション(sr)の新たな可能性を開いたが、単純な劣化(bicubic downsamplingなど)を持つ合成データセットでトレーニングされた既存の方法では、複雑な実世界のシナリオに適用するとパフォーマンスが低下する。 この問題に対処するため,Lytro ILLUMカメラを用いて屋内および屋外の様々なシーンの低解像度と高解像度の2つの光場をキャプチャする,世界初の実世界の光場SRデータセットであるLytroZoomを紹介した。 さらに,全周波成分を分解し,全周波成分を反復的に拡張する全周波投影ネットワーク(ofpnet)を提案する。 実験によると、LytroZoomでトレーニングされたモデルは、合成データセットでトレーニングされたモデルよりも優れており、多様なコンテンツやデバイスに一般化可能である。 OFPNetの優位性を定量的かつ質的に評価する。 我々は、この研究が現実世界の光場SRの将来の研究に刺激を与えると信じている。

Deep learning has opened up new possibilities for light field super-resolution (SR), but existing methods trained on synthetic datasets with simple degradations (e.g., bicubic downsampling) suffer from poor performance when applied to complex real-world scenarios. To address this problem, we introduce LytroZoom, the first real-world light field SR dataset capturing paired low- and high-resolution light fields of diverse indoor and outdoor scenes using a Lytro ILLUM camera. Additionally, we propose the Omni-Frequency Projection Network (OFPNet), which decomposes the omni-frequency components and iteratively enhances them through frequency projection operations to address spatially variant degradation processes present in all frequency components. Experiments demonstrate that models trained on LytroZoom outperform those trained on synthetic datasets and are generalizable to diverse content and devices. Quantitative and qualitative evaluations verify the superiority of OFPNet. We believe this work will inspire future research in real-world light field SR.
翻訳日:2023-05-31 16:22:05 公開日:2023-05-30
# ConES:大規模視覚言語モデルのパラメータ調整のための概念埋め込み

ConES: Concept Embedding Search for Parameter Efficient Tuning Large Vision Language Models ( http://arxiv.org/abs/2305.18993v1 )

ライセンス: Link先を確認
Huahui Yi, Ziyuan Qin, Wei Xu, Miaotian Guo, Kun Wang, Shaoting Zhang, Kang Li, Qicheng Lao(参考訳) 大きな事前学習された視覚言語モデルでは、事前取得した知識を様々なドメインや下流タスクに適切なプロンプトやチューニングで移すことができる。 既存の一般的なチューニング方法は、一般的に3つのジャンルに分類できる。 1) 時間を要し、ドメインの専門知識を必要とする適切なプロンプトテキストを作成することにより、エンジニアリングを促進する。 2) あるいは,極めて非効率なモデル全体の微調整を単に行う。 3) テキストエンコーダによるパラメータ化プロンプト埋め込みによるプロンプトチューニング。 それでも、すべての手法は、視覚と言語の間のモダリティギャップを埋めるためにテキストエンコーダに依存している。 本研究では、より軽量で効率的なチューニングパラダイムと、画像表現に近いより代表的なプロンプト埋め込みのための、面倒なテキストエンコーダの必要性を問う。 そこで本研究では,テキストエンコーダを必要とせず,迅速な埋め込みを最適化し,様々なタスクの目的を通じて画像モダリティの「概念」を捉えるConES(Concept Embedding Search)アプローチを提案する。 テキストエンコーダをドロップすることで、生成品質を損なうことなく、パーソナライズされたテキストから画像への生成実験の約1時間から10分という、学習プロセスの大幅なスピードアップが可能になります。 さらに,提案手法は既存のチューニング手法と直交するものであり,探索された概念埋め込みは,事前学習された大規模モデルを微調整して性能を高める次の段階にさらに活用することができる。 広範な実験により,提案手法は,異論検出,インスタンスセグメンテーション,画像生成など,下流タスクのプロンプトチューニングやテキストインバージョン手法に勝ることが示された。 また,本手法は,医療領域などの専門領域における未確認概念のより優れた一般化能力を示す。

Large pre-trained vision-language models have shown great prominence in transferring pre-acquired knowledge to various domains and downstream tasks with appropriate prompting or tuning. Existing prevalent tuning methods can be generally categorized into three genres: 1) prompt engineering by creating suitable prompt texts, which is time-consuming and requires domain expertise; 2) or simply fine-tuning the whole model, which is extremely inefficient; 3) prompt tuning through parameterized prompt embeddings with the text encoder. Nevertheless, all methods rely on the text encoder for bridging the modality gap between vision and language. In this work, we question the necessity of the cumbersome text encoder for a more lightweight and efficient tuning paradigm as well as more representative prompt embeddings closer to the image representations. To achieve this, we propose a Concept Embedding Search (ConES) approach by optimizing prompt embeddings -- without the need of the text encoder -- to capture the 'concept' of the image modality through a variety of task objectives. By dropping the text encoder, we are able to significantly speed up the learning process, \eg, from about an hour to just ten minutes in our experiments for personalized text-to-image generation without impairing the generation quality. Moreover, our proposed approach is orthogonal to current existing tuning methods since the searched concept embeddings can be further utilized in the next stage of fine-tuning the pre-trained large models for boosting performance. Extensive experiments show that our approach can beat the prompt tuning and textual inversion methods in a variety of downstream tasks including objection detection, instance segmentation, and image generation. Our approach also shows better generalization capability for unseen concepts in specialized domains, such as the medical domain.
翻訳日:2023-05-31 16:21:45 公開日:2023-05-30
# 総合的自己回帰スコア木と森林

Generalized Autoregressive Score Trees and Forests ( http://arxiv.org/abs/2305.18991v1 )

ライセンス: Link先を確認
Andrew J. Patton and Yasin Simsek(参考訳) 本稿では,GASモデル(Creal et. al, 2013; Harvey, 2013)から決定木やランダム林を用いてパラメータを定位することで,予測を改善する手法を提案する。 これらの方法は、カーネルベースのアプローチが直面する次元性の呪いを回避し、複数の状態変数から情報を同時に引き出すことができる。 新しいモデルは4つの異なる経験的分析に適用し,提案手法は基礎ガスモデルを大きく上回っている。 ストックリターンのボラティリティと密度予測への応用において,最適ガスツリーモデルはレバレッジ効果と分散リスクプレミアム効果を明らかにする。 本研究は,高頻度取引継続時間の解析によって体積変動性効果が明らかにされる一方で,最適ガス林予測における飛行から品質への影響の証拠を見出した。

We propose methods to improve the forecasts from generalized autoregressive score (GAS) models (Creal et. al, 2013; Harvey, 2013) by localizing their parameters using decision trees and random forests. These methods avoid the curse of dimensionality faced by kernel-based approaches, and allow one to draw on information from multiple state variables simultaneously. We apply the new models to four distinct empirical analyses, and in all applications the proposed new methods significantly outperform the baseline GAS model. In our applications to stock return volatility and density prediction, the optimal GAS tree model reveals a leverage effect and a variance risk premium effect. Our study of stock-bond dependence finds evidence of a flight-to-quality effect in the optimal GAS forest forecasts, while our analysis of high-frequency trade durations uncovers a volume-volatility effect.
翻訳日:2023-05-31 16:21:22 公開日:2023-05-30
# 効率的なSBIRモデルのレシピ: 相対的三重項損失とバッチ正規化と知識蒸留の組み合わせ

A Recipe for Efficient SBIR Models: Combining Relative Triplet Loss with Batch Normalization and Knowledge Distillation ( http://arxiv.org/abs/2305.18988v1 )

ライセンス: Link先を確認
Omar Seddati, Nathan Hubens, St\'ephane Dupont, Thierry Dutoit(参考訳) SBIR(Sketch-Based Image Retrieval)は、マルチメディア検索において重要なタスクであり、指定されたスケッチクエリにマッチした画像の集合を検索することを目的としている。 研究者は、このタスクのためにいくつかの優れたソリューションを提案しているが、ほとんどはトリプレット損失、四重項損失、データ拡張の追加、エッジ抽出など、様々なアプローチによる埋め込み強化に重点を置いている。 本研究では,様々な角度からこの問題に取り組む。 まず、トレーニングデータの品質を調べ、いくつかの制限を示します。 次に, 相対三重項損失 (RTL) を導入し, アンカーの類似性に基づく損失重み付けにより, それらの制限を克服する。 一連の実験を通じて,rtlによるトリプルトロスの置き換えは,データ拡張を必要とせず,従来の最先端技術よりも優れていることを実証した。 さらに、バッチ正規化がl2正規化よりもsbir埋め込みに適している理由を実証し、モデルの性能を大幅に改善することを示す。 写真領域およびスケッチ領域に必要なモデルの容量をさらに調査し, [34] で定式化された仮説を検証するスケッチエンコーダよりも高い容量を必要とすることを示す。 そこで本研究では,ShuffleNetv2 [22] などの小型モデルを,知識蒸留による精度の限界損失で効率的に訓練する方法を提案する。 より大きなモデルで使われるのと同じアプローチで、以前の最先端の結果を上回り、スケッチデータベース[30]上でk = 1で62.38%のリコールを達成しました。

Sketch-Based Image Retrieval (SBIR) is a crucial task in multimedia retrieval, where the goal is to retrieve a set of images that match a given sketch query. Researchers have already proposed several well-performing solutions for this task, but most focus on enhancing embedding through different approaches such as triplet loss, quadruplet loss, adding data augmentation, and using edge extraction. In this work, we tackle the problem from various angles. We start by examining the training data quality and show some of its limitations. Then, we introduce a Relative Triplet Loss (RTL), an adapted triplet loss to overcome those limitations through loss weighting based on anchors similarity. Through a series of experiments, we demonstrate that replacing a triplet loss with RTL outperforms previous state-of-the-art without the need for any data augmentation. In addition, we demonstrate why batch normalization is more suited for SBIR embeddings than l2-normalization and show that it improves significantly the performance of our models. We further investigate the capacity of models required for the photo and sketch domains and demonstrate that the photo encoder requires a higher capacity than the sketch encoder, which validates the hypothesis formulated in [34]. Then, we propose a straightforward approach to train small models, such as ShuffleNetv2 [22] efficiently with a marginal loss of accuracy through knowledge distillation. The same approach used with larger models enabled us to outperform previous state-of-the-art results and achieve a recall of 62.38% at k = 1 on The Sketchy Database [30].
翻訳日:2023-05-31 16:21:07 公開日:2023-05-30
# no-regretダイナミクスによるロバストmdpの解法

Solving Robust MDPs through No-Regret Dynamics ( http://arxiv.org/abs/2305.19035v1 )

ライセンス: Link先を確認
Etash Kumar Guha, Jason D. Lee(参考訳) 強化学習は、エージェントが異なる状況をナビゲートするための強力なフレームワークであるが、環境力学の変化に影響を受けやすい。 しかしながら、変化に対して堅牢なマルコフ決定過程の解決は、非凸性やアクションや状態空間のサイズのため困難である。 ほとんどの研究は問題を異なる仮定で分析しているが、一般論と効率的な理論解析はまだ欠落している。 しかし,我々は,政策プレーヤと環境ダイナミクスプレーヤが対戦するミニマックス反復最適化問題を解くことで,ロバスト性を改善するための簡単なフレームワークを作成する。 オンラインの非凸学習の最近の結果と、ポリシー勾配法の改善によるテクニックを活用して、$t$がアルゴリズムの反復数である$\mathcal{o}\left(\frac{1}{t^{\frac{1}{2}}}\right)$の順で値関数のロバスト性を最大化するアルゴリズムを得る。

Reinforcement Learning is a powerful framework for training agents to navigate different situations, but it is susceptible to changes in environmental dynamics. However, solving Markov Decision Processes that are robust to changes is difficult due to nonconvexity and size of action or state spaces. While most works have analyzed this problem by taking different assumptions on the problem, a general and efficient theoretical analysis is still missing. However, we generate a simple framework for improving robustness by solving a minimax iterative optimization problem where a policy player and an environmental dynamics player are playing against each other. Leveraging recent results in online nonconvex learning and techniques from improving policy gradient methods, we yield an algorithm that maximizes the robustness of the Value Function on the order of $\mathcal{O}\left(\frac{1}{T^{\frac{1}{2}}}\right)$ where $T$ is the number of iterations of the algorithm.
翻訳日:2023-05-31 16:14:55 公開日:2023-05-30
# パリティ時対称二量子系:絡み合いとセンシング

Parity-time-symmetric two-qubit system: entanglement and sensing ( http://arxiv.org/abs/2305.19034v1 )

ライセンス: Link先を確認
J. Zhang, Y. L. Zhou, Y. L. Zuo, P. X. Chen, H. Jing, L. M. Kuang(参考訳) 本稿では,Ising型相互作用を用いたパリティ時間(PT)対称2ビット系における例外点効果と量子センシングについて検討する。 エネルギー固有値の縮退や固有状態の絡み合いを分析してシステムのEP特性を考察する。 2つの量子ビットの絡み合いのダイナミクスを詳細に検討する。 特に, PT-破壊相における定常的絡み合いと, 長期進化中のPT-対称相における崩壊・回復現象を再現できることを実証した。 エンタングルメントは対応するエルミート系よりも高速に生成可能であることを示す。 最後に, パラメータに対する固有状態量子センシングの感度は, EPにおける顕著なエンハーエンスメントを示すことを証明し, EPの存在を観測するための量子コヒーレンス測定を提案する。

In this paper we study exceptional-point (EP) effects and quantum sensing in a parity-time (PT)-symmetric two-qubit system with the Ising-type interaction. We explore EP properties of the system by analyzing degeneracy of energy eigenvalues or entanglement of eigenstates. We investigate entanglement dynamics of the two qubits in detail. In particular, we demonstrate that the system can create the steady-state entanglement in the PT-broken phase and collapse-revival phenomenon of entanglement in the PT-symmetric phase during the long-time evolution. We show that entanglement can be generated more quickly than the corresponding Hermitian system. Finally, we prove that the sensitivity of eigenstate quantum sensing for the parameters exhibits the remarkable enharncement at EPs, and propose a quantum-coherence measurement to witness the existence of EPs.
翻訳日:2023-05-31 16:14:36 公開日:2023-05-30
# データ分析を使ってビジネスインテリジェンスを導出するケーススタディ

Using Data Analytics to Derive Business Intelligence: A Case Study ( http://arxiv.org/abs/2305.19021v1 )

ライセンス: Link先を確認
Ugochukwu Orji, Ezugwu Obianuju, Modesta Ezema, Chikodili Ugwuishiwu, Elochukwu Ukwandu, Uchechukwu Agomuo(参考訳) 近年のデータ革命は、さまざまな産業のあらゆる規模のビジネスに新たな挑戦と機会を与えている。 ビッグデータ分析は、現在利用可能な大量の生データから有意義なビジネス上の決定を下すためのイノベーションの最前線にいる。 ビジネスインテリジェンスとアナリティクスは、あらゆる規模の企業がビジネスプロセスを改善し、データ駆動ソリューションを使ってスケールアップしようとしている現在、itの世界において大きなトレンドになっています。 本稿では,バイクシェアリング企業の歴史的データを通じてビジネスインテリジェンスを導出するデータ分析過程を実証し,カジュアルライダーを年間有給会員に転換する革新的な方法を探究することを目的とする。 使用されるデータセットは、Chicago Divvy Bicycle Sharing Data on Kaggleとして無償公開されている。 著者らはrstudioのrtidyverseライブラリを使ってデータを分析し、ask、promise、process、analytice、share、actの6つのデータ分析ステップに従って、カジュアルライダーを年会費の会員に変換するために、同社が採用可能なアクション可能なアプローチを推奨した。 この研究から得られた知見は、業界におけるBIA技術の現実的な展開、データ実践者や研究者、その他の潜在的なユーザのためのデータ分析サイクルの実証など、貴重な事例となっている。

The data revolution experienced in recent times has thrown up new challenges and opportunities for businesses of all sizes in diverse industries. Big data analytics is already at the forefront of innovations to help make meaningful business decisions from the abundance of raw data available today. Business intelligence and analytics has become a huge trend in todays IT world as companies of all sizes are looking to improve their business processes and scale up using data driven solutions. This paper aims to demonstrate the data analytical process of deriving business intelligence via the historical data of a fictional bike share company seeking to find innovative ways to convert their casual riders to annual paying registered members. The dataset used is freely available as Chicago Divvy Bicycle Sharing Data on Kaggle. The authors used the RTidyverse library in RStudio to analyse the data and followed the six data analysis steps of ask, prepare, process, analyse, share, and act to recommend some actionable approaches the company could adopt to convert casual riders to paying annual members. The findings from this research serve as a valuable case example, of a real world deployment of BIA technologies in the industry, and a demonstration of the data analysis cycle for data practitioners, researchers, and other potential users.
翻訳日:2023-05-31 16:14:21 公開日:2023-05-30
# Web検索におけるイベント中心クエリの拡張

Event-Centric Query Expansion in Web Search ( http://arxiv.org/abs/2305.19019v1 )

ライセンス: Link先を確認
Yanan Zhang, Weijie Cui, Yangfan Zhang, Xiaoling Bai, Zhe Zhang, Jin Ma, Xiang Chen, Tianhua Zhou(参考訳) 検索エンジンでは,クエリ拡張(QE)が検索エクスペリエンスを向上させる重要な手法である。 従来の研究はしばしば長期の検索ログマイニングに依存しており、更新が遅くなり、時間に敏感なニュース検索に最適である。 本稿では,イベント中心のクエリ拡張(eqe)について述べる。このqeシステムでは,大量の潜在的なイベントから最適な拡張を迅速かつ正確に抽出することにより,これらの問題に対処する。 このシステムは、イベント収集、イベントリフォーム、意味検索、オンラインランキングの4段階からなる。 具体的には、まずニュースの見出しをWebサイトから集めてフィルターする。 そこで我々は,これらの見出しを簡潔な候補に再構成するために,コントラスト学習と即時学習を取り入れた生成モデルを提案する。 さらに,イベント検索のためのエンコーダとして機能するデュアルタワーセマンティクスモデルを微調整し,イベント検索の精度を向上させるための2段階コントラストトレーニング手法を検討する。 最後に、検索したイベントをランク付けし、最適なイベントをQEとして選択し、イベント関連文書の検索を改善する。 オフライン分析とオンラインA/Bテストにより、EQEシステムはベースラインと比較して多くの指標を著しく改善する。 このシステムはTencent QQ Browser Searchにデプロイされ、数億人のユーザーに提供された。 データセットとベースラインコードはhttps://open-event-hub.github.io/eqeで入手できる。

In search engines, query expansion (QE) is a crucial technique to improve search experience. Previous studies often rely on long-term search log mining, which leads to slow updates and is sub-optimal for time-sensitive news searches. In this work, we present Event-Centric Query Expansion (EQE), a novel QE system that addresses these issues by mining the best expansion from a significant amount of potential events rapidly and accurately. This system consists of four stages, i.e., event collection, event reformulation, semantic retrieval and online ranking. Specifically, we first collect and filter news headlines from websites. Then we propose a generation model that incorporates contrastive learning and prompt-tuning techniques to reformulate these headlines to concise candidates. Additionally, we fine-tune a dual-tower semantic model to function as an encoder for event retrieval and explore a two-stage contrastive training approach to enhance the accuracy of event retrieval. Finally, we rank the retrieved events and select the optimal one as QE, which is then used to improve the retrieval of event-related documents. Through offline analysis and online A/B testing, we observe that the EQE system significantly improves many metrics compared to the baseline. The system has been deployed in Tencent QQ Browser Search and served hundreds of millions of users. The dataset and baseline codes are available at https://open-event-hub.github.io/eqe .
翻訳日:2023-05-31 16:13:58 公開日:2023-05-30
# 高精度COVID-19診断のための医用イメージングにおける軽量深層学習技術の評価

An Evaluation of Lightweight Deep Learning Techniques in Medical Imaging for High Precision COVID-19 Diagnostics ( http://arxiv.org/abs/2305.19016v1 )

ライセンス: Link先を確認
Ogechukwu Ukwandu, Hanan Hindy and Elochukwu Ukwandu(参考訳) タイムリーかつ迅速な診断は、新型コロナウイルスの感染拡大を抑制する最適な介入を知らせる中核となる。 胸部X線やCTなどの医用画像の使用は、RT-PCR(Reverse-Transcription Polymerase Chain Reaction)テストの補完として提唱され、感染検出のための自動化システムの開発においてディープラーニング技術の適用が促進された。 意思決定支援システムは、画像の物理的検査に固有の課題を緩和する。 関連する研究のレビューによると、ディープラーニングアルゴリズムを利用したアプローチの多くは、リソースに制約されたデバイスの実装に適していない。 感染率の上昇を踏まえると、迅速で信頼性の高い診断は、特に中・低所得国において、低コストで移動可能なポイント・オブ・ケアシステムの必要性を課すスプレッド管理の中心的なツールである。 本稿では,MobileNetV2モデルを用いた新型コロナウイルス検出のための軽量深層学習手法の開発と評価について述べる。 その結果,軽量ディープラーニングモデルの性能はヘビーウェイトモデルと競合するが,特にコンピューティングリソースのコストとメモリ要求の低減において,デプロイメントの効率が大幅に向上することが示された。

Timely and rapid diagnoses are core to informing on optimum interventions that curb the spread of COVID-19. The use of medical images such as chest X-rays and CTs has been advocated to supplement the Reverse-Transcription Polymerase Chain Reaction (RT-PCR) test, which in turn has stimulated the application of deep learning techniques in the development of automated systems for the detection of infections. Decision support systems relax the challenges inherent to the physical examination of images, which is both time consuming and requires interpretation by highly trained clinicians. A review of relevant reported studies to date shows that most deep learning algorithms utilised approaches are not amenable to implementation on resource-constrained devices. Given the rate of infections is increasing, rapid, trusted diagnoses are a central tool in the management of the spread, mandating a need for a low-cost and mobile point-of-care detection systems, especially for middle- and low-income nations. The paper presents the development and evaluation of the performance of lightweight deep learning technique for the detection of COVID-19 using the MobileNetV2 model. Results demonstrate that the performance of the lightweight deep learning model is competitive with respect to heavyweight models but delivers a significant increase in the efficiency of deployment, notably in the lowering of the cost and memory requirements of computing resources.
翻訳日:2023-05-31 16:13:34 公開日:2023-05-30
# カスケード変分量子固有解法を用いた量子コンピュータ上のjastrow-gutzwiller演算子の実装

Implementing Jastrow--Gutzwiller operators on a quantum computer using the cascaded variational quantum eigensolver algorithm ( http://arxiv.org/abs/2305.19014v1 )

ライセンス: Link先を確認
John P. T. Stenger and C. Stephen Hellberg and Daniel Gunlycke(参考訳) Jastrow--Gutzwiller演算子は、量子状態に多体相関を加える。 しかし、演算子は単体ではないため、量子コンピュータ上で直接実装することは困難である。 本稿では,カスケード変分量子固有解法を用いたjastrow-gutzwiller演算子の新たな実装を提案する。 本稿では,ハバードモデルに対するIBM Q Lagosの手法を実証する。

A Jastrow--Gutzwiller operator adds many-body correlations to a quantum state. However, the operator is non-unitary, making it difficult to implement directly on a quantum computer. We present a novel implementation of the Jastrow--Gutzwiller operator using the cascaded variational quantum eigensolver algorithm. We demonstrate the method on IBM Q Lagos for a Hubbard model.
翻訳日:2023-05-31 16:13:11 公開日:2023-05-30
# StyleAvatar3D:高忠実度3Dアバター生成のための画像テキスト拡散モデルの活用

StyleAvatar3D: Leveraging Image-Text Diffusion Models for High-Fidelity 3D Avatar Generation ( http://arxiv.org/abs/2305.19012v1 )

ライセンス: Link先を確認
Chi Zhang, Yiwen Chen, Yijun Fu, Zhenglin Zhou, Gang YU, Billzb Wang, Bin Fu, Tao Chen, Guosheng Lin, Chunhua Shen(参考訳) 近年の画像テキスト拡散モデルの発展は、大規模3次元生成モデルの研究の関心を刺激している。 それでも、多様な3Dリソースの可用性の制限は、学習に重大な課題をもたらす。 本稿では,データ生成のための事前学習された画像テキスト拡散モデルを用いた高品質な3Dアバター作成のための新しい手法と,GANベースのトレーニング用3D生成ネットワークを提案する。 本手法は,画像テキスト拡散モデルによって提供される外観や形状の包括的先行を利用して,様々なスタイルのアバターの多視点画像を生成する。 データ生成では,既存の3次元モデルから抽出したポーズを用いてマルチビュー画像の生成を誘導する。 データ中のポーズと画像の相違に対処するために、ビュー固有のプロンプトを調査し、GANトレーニングのための粗大な識別器を開発する。 また,アバターの多様性を高めるために属性関連プロンプトを探索する。 さらに,画像入力に基づくアバター生成を可能にするために,スタイルGANのスタイル空間内に潜時拡散モデルを構築した。 提案手法は, 生成するアバターの視覚的品質と多様性の観点から, 最先端の手法よりも優れた性能を示す。

The recent advancements in image-text diffusion models have stimulated research interest in large-scale 3D generative models. Nevertheless, the limited availability of diverse 3D resources presents significant challenges to learning. In this paper, we present a novel method for generating high-quality, stylized 3D avatars that utilizes pre-trained image-text diffusion models for data generation and a Generative Adversarial Network (GAN)-based 3D generation network for training. Our method leverages the comprehensive priors of appearance and geometry offered by image-text diffusion models to generate multi-view images of avatars in various styles. During data generation, we employ poses extracted from existing 3D models to guide the generation of multi-view images. To address the misalignment between poses and images in data, we investigate view-specific prompts and develop a coarse-to-fine discriminator for GAN training. We also delve into attribute-related prompts to increase the diversity of the generated avatars. Additionally, we develop a latent diffusion model within the style space of StyleGAN to enable the generation of avatars based on image inputs. Our approach demonstrates superior performance over current state-of-the-art methods in terms of visual quality and diversity of the produced avatars.
翻訳日:2023-05-31 16:13:04 公開日:2023-05-30
# MiniSUPERB:自己教師型音声モデルの軽量ベンチマーク

MiniSUPERB: Lightweight Benchmark for Self-supervised Speech Models ( http://arxiv.org/abs/2305.19011v1 )

ライセンス: Link先を確認
Yu-Hsiang Wang, Huang-Yu Chen, Kai-Wei Chang, Winston Hsu, Hung-yi Lee(参考訳) 自己教師付き学習(SSL)は、音声処理における一般的な研究トピックである。 SSL音声モデルは、うまく一般化する必要がある。 SUPERBは、多くの音声タスクにまたがるSSL音声モデルの能力を評価するために提案された。 しかし、タスクの多様性のため、評価プロセスは膨大な計算コストを必要とする。 本稿では,SUPERBに匹敵するSSL音声モデルを効率よく評価し,計算コストを大幅に削減する軽量ベンチマークであるMiniSUPERBを提案する。 代表タスクとサンプルデータセットを選択し, モデル表現をオフラインで抽出し, SUPERB Paper と SUPERB Challenge と 0.954 と 0.982 Spearman のランク相関をそれぞれ達成した。 一方、我々が選択したタスクにおけるmac(multiply-accumulate operations)に関しては、計算コストが97%削減されます。 私たちの知る限りでは、これはモデル自体の計算コストだけでなく、ベンチマークでそれを評価するコストも調査した最初の研究です。

Self-supervised learning (SSL) is a popular research topic in speech processing. Successful SSL speech models must generalize well. SUPERB was proposed to evaluate the ability of SSL speech models across many speech tasks. However, due to the diversity of tasks, the evaluation process requires huge computational costs. We present MiniSUPERB, a lightweight benchmark that efficiently evaluates SSL speech models with comparable results to SUPERB while greatly reducing the computational cost. We select representative tasks and sample datasets and extract model representation offline, achieving 0.954 and 0.982 Spearman's rank correlation with SUPERB Paper and SUPERB Challenge, respectively. In the meanwhile, the computational cost is reduced by 97% in regard to MACs (number of Multiply-ACcumulate operations) in the tasks we choose. To the best of our knowledge, this is the first study to examine not only the computational cost of a model itself but the cost of evaluating it on a benchmark.
翻訳日:2023-05-31 16:12:44 公開日:2023-05-30
# 学習特徴のボトルネック構造:低次元対正規性トレードオフ

Bottleneck Structure in Learned Features: Low-Dimension vs Regularity Tradeoff ( http://arxiv.org/abs/2305.19008v1 )

ライセンス: Link先を確認
Arthur Jacot(参考訳) 以前の研究では、大深度の$l$ と $l_{2}$-正規化を持つdnnは入力の低次元表現の学習に偏りがあり、これはボトルネックランクであると推測された学習関数 $f$ のランク $r^{(0)}(f)$ の概念の最小化と解釈できる。 この結果に対する有限深度補正を計算し、ヤコビアン $\left|Jf(x)\right|_{+}$ の擬行列式を有界とする正則性の測度 $R^{(1)}$ を明らかにし、合成と加法の下で加法的である。 これは低次元表現の学習と特徴写像における複雑性/不規則性の最小化のバランスを形式化し、ネットワークが'右'内部次元を学習できるようにする。 また,学習率が大きく,学習機能の規則性も制御できることを示す。 最後に、これらの理論ツールを用いて学習した特徴のボトルネック構造を$L\to\infty$: 大深度の場合、ほとんどすべての隠れた表現は$R^{(0)}(f)$-次元表現に集中する。 これらの制限された低次元表現は第二補正 $r^{(2)}$ を用いて記述できる。

Previous work has shown that DNNs with large depth $L$ and $L_{2}$-regularization are biased towards learning low-dimensional representations of the inputs, which can be interpreted as minimizing a notion of rank $R^{(0)}(f)$ of the learned function $f$, conjectured to be the Bottleneck rank. We compute finite depth corrections to this result, revealing a measure $R^{(1)}$ of regularity which bounds the pseudo-determinant of the Jacobian $\left|Jf(x)\right|_{+}$ and is subadditive under composition and addition. This formalizes a balance between learning low-dimensional representations and minimizing complexity/irregularity in the feature maps, allowing the network to learn the `right' inner dimension. We also show how large learning rates also control the regularity of the learned function. Finally, we use these theoretical tools to prove the conjectured bottleneck structure in the learned features as $L\to\infty$: for large depths, almost all hidden representations concentrates around $R^{(0)}(f)$-dimensional representations. These limiting low-dimensional representation can be described using the second correction $R^{(2)}$.
翻訳日:2023-05-31 16:12:29 公開日:2023-05-30
# 信頼度閾値を用いた超次元計算分類器の訓練

Training a HyperDimensional Computing Classifier using a Threshold on its Confidence ( http://arxiv.org/abs/2305.19007v1 )

ライセンス: Link先を確認
Laura Smets, Werner Van Leekwijck, Ing Jyh Tsang and Steven Latre(参考訳) 超次元コンピューティング(HDC)は、軽量でエネルギー効率のよい機械学習に人気があり、ウェアラブルなIoTデバイスや、ニアセンサーやオンデバイス処理に適している。 hdcは従来のディープラーニングアルゴリズムよりも計算量が少なく、適度な分類性能を実現している。 本稿では,hdcモデルによって正しく分類されたサンプルだけでなく,信頼性の低いサンプルについても考慮して,hdcのトレーニング手順を拡張することを提案する。 そのため、各データセットに対して最適な分類精度を達成するために調整可能な信頼しきい値が導入された。 提案手法は,ucihar,ctg,isolet,ハンドデータセットでテストされ,信頼しきい値の範囲において,ベースラインと比較して一貫して性能が向上する。 拡張されたトレーニング手順は、正しく分類されたサンプルの信頼度の高い値へとシフトし、分類器がより正確になるだけでなく、その予測に対する自信も高まる。

Hyperdimensional computing (HDC) has become popular for light-weight and energy-efficient machine learning, suitable for wearable Internet-of-Things (IoT) devices and near-sensor or on-device processing. HDC is computationally less complex than traditional deep learning algorithms and achieves moderate to good classification performance. This article proposes to extend the training procedure in HDC by taking into account not only wrongly classified samples, but also samples that are correctly classified by the HDC model but with low confidence. As such, a confidence threshold is introduced that can be tuned for each dataset to achieve the best classification accuracy. The proposed training procedure is tested on UCIHAR, CTG, ISOLET and HAND dataset for which the performance consistently improves compared to the baseline across a range of confidence threshold values. The extended training procedure also results in a shift towards higher confidence values of the correctly classified samples making the classifier not only more accurate but also more confident about its predictions.
翻訳日:2023-05-31 16:12:03 公開日:2023-05-30
# 訓練中の畳み込み層のランク適応スペクトルプルーニング

Rank-adaptive spectral pruning of convolutional layers during training ( http://arxiv.org/abs/2305.19059v1 )

ライセンス: Link先を確認
Emanuele Zangrando, Steffen Schotth\"ofer, Gianluca Ceruti, Jonas Kusch, Francesco Tudisco(参考訳) 近年、ディープラーニングパイプラインの計算コストとメモリ需要は急速に増加しており、モデルパラメータを減らすために様々なプルーニング技術が開発されている。 これらの技術の大部分は、フルトレーニングのパス後にネットワークをprunすることで、推論コストを削減することに重点を置いている。 トレーニングコストの削減に対処する手法は少ないが、主に低ランク層分解によるネットワークの圧縮に基づいている。 線形層に対する効率にもかかわらず、これらの手法は畳み込みフィルタを効果的に扱えない。 本研究では,畳み込みをテンソルタッカー形式に分解し,学習中の畳み込みカーネルのタッカーランクを適応的に推定する低パラメトリックトレーニング手法を提案する。 テンソル多様体上の微分方程式の幾何積分理論の基本的な結果を利用して、正にベースライン性能を近似し、損失降下を保証する頑健なトレーニングアルゴリズムを得る。 フルモデルおよび代替低ランクベースラインに対する様々な実験が実施され、提案手法はトレーニングコストを大幅に削減すると同時に、フルベースラインと同等かそれ以上の性能を達成し、競合する低ランクアプローチを一貫して上回っている。

The computing cost and memory demand of deep learning pipelines have grown fast in recent years and thus a variety of pruning techniques have been developed to reduce model parameters. The majority of these techniques focus on reducing inference costs by pruning the network after a pass of full training. A smaller number of methods address the reduction of training costs, mostly based on compressing the network via low-rank layer factorizations. Despite their efficiency for linear layers, these methods fail to effectively handle convolutional filters. In this work, we propose a low-parametric training method that factorizes the convolutions into tensor Tucker format and adaptively prunes the Tucker ranks of the convolutional kernel during training. Leveraging fundamental results from geometric integration theory of differential equations on tensor manifolds, we obtain a robust training algorithm that provably approximates the full baseline performance and guarantees loss descent. A variety of experiments against the full model and alternative low-rank baselines are implemented, showing that the proposed method drastically reduces the training costs, while achieving high performance, comparable to or better than the full baseline, and consistently outperforms competing low-rank approaches.
翻訳日:2023-05-31 16:04:36 公開日:2023-05-30
# 巣から出て行け! TwitterMigration to Mastodonにおける社会的影響の要因

Get Out of the Nest! Drivers of Social Influence in the #TwitterMigration to Mastodon ( http://arxiv.org/abs/2305.19056v1 )

ライセンス: Link先を確認
Lucio La Cava, Luca Maria Aiello, Andrea Tagarelli(参考訳) elon muskが買収された後、twitterユーザーのマストドンへの移行は、集団行動を研究し、オンラインメディアにおける協調行動の原動力となる洞察を得るユニークな機会をもたらす。 我々は,約75,000人の移住者のソーシャル・ネットワークと公的な会話を分析し,情報拡散の包括的流行モデルを用いて,移動の時間的痕跡が社会的影響の現象と相容れないことを観察した。 行動変化に関する以前の研究から、さまざまなTwitterコミュニティの多様性を考慮に入れた要因を、移行への影響力の拡散の有効性について検討した。 影響プロセスが急速に拡大するコミュニティは、社会的つながりの密度の低下、移住へのコミットメントのレベル上昇、コミュニティの議論において共有アイデンティティと事実知識の交換に重点を置いている。 これらの因子は、観測データのばらつきの57%を占める。 本研究は,草の根集団行動の記述における社会的相互作用のネットワーク構造,コミットメント,心理言語学的側面の連立の重要性を強調し,オンライン集団の行動変化の過程の解明に寄与する。

The migration of Twitter users to Mastodon following Elon Musk's acquisition presents a unique opportunity to study collective behavior and gain insights into the drivers of coordinated behavior in online media. We analyzed the social network and the public conversations of about 75,000 migrated users and observed that the temporal trace of their migrations is compatible with a phenomenon of social influence, as described by a compartmental epidemic model of information diffusion. Drawing from prior research on behavioral change, we delved into the factors that account for variations across different Twitter communities in the effectiveness of the spreading of the influence to migrate. Communities in which the influence process unfolded more rapidly exhibit lower density of social connections, higher levels of signaled commitment to migrating, and more emphasis on shared identity and exchange of factual knowledge in the community discussion. These factors account collectively for 57% of the variance in the observed data. Our results highlight the joint importance of network structure, commitment, and psycho-linguistic aspects of social interactions in describing grassroots collective action, and contribute to deepen our understanding of the mechanisms driving processes of behavior change of online groups.
翻訳日:2023-05-31 16:04:14 公開日:2023-05-30
# ダイヤモンド表面電子によるラベリング分子の増幅ナノスケール検出

Amplified Nanoscale Detection of Labelled Molecules via Surface Electrons on Diamond ( http://arxiv.org/abs/2305.19055v1 )

ライセンス: Link先を確認
A. Biteri-Uribarren, P. Alsina-Bol\'ivar, C. Munuera-Javaloy, R. Puebla, J. Casanova(参考訳) 個々の分子とそのダイナミクスの検出は、ナノテクノロジー分野における長年にわたる課題である。 本研究では, 窒素空孔(NV)中心とダイヤモンド表面のダングリング結合を利用して, マクロ分子上にタグ付けされた2つの電子標的間の結合を測定する手法を提案する。 これを実現するために,窒素空孔中心とダングリング結合との強い相互作用を利用するマルチトーン動的脱カップリング配列を設計する。 さらに、このシーケンスはデコヒーレンスの影響を最小限に抑え、最終的に信号対雑音比が増加する。 この提案は、生物物理学や生化学のような異なる分野における基礎研究と技術革新のための新しい道を開く可能性を秘めている。

The detection of individual molecules and their dynamics has been a long-standing challenge in the field of nanotechnology. In this work, we present a method that utilizes a nitrogen vacancy (NV) center and a dangling-bond on the diamond surface to measure the coupling between two electronic targets tagged on a macromolecule. To achieve this, we design a multi-tone dynamical decoupling sequence that leverages the strong interaction between the nitrogen vacancy center and the dangling bond. In addition, this sequence minimizes the impact of decoherence finally resulting in an increased signal-to-noise ratio. This proposal has the potential to open up new avenues for fundamental research and technological innovation in distinct areas such as biophysics and biochemistry.
翻訳日:2023-05-31 16:03:54 公開日:2023-05-30
# 一般時間依存二次ハミルトニアンに対する量子プロパゲータ:外部場における相互作用振動子への応用

Quantum propagator for a general time-dependent quadratic Hamiltonian: Application to interacting oscillators in external fields ( http://arxiv.org/abs/2305.19052v1 )

ライセンス: Link先を確認
Shohreh Janjan and Fardin Kheirandish(参考訳) 本稿では,一般の時間依存二次ハミルトニアンに対する量子伝播子を求める。 この方法は、プロパゲータの性質と量子プロパゲータが位置とモーメントのハイゼンベルク方程式に由来する2つの独立な偏微分方程式を満たすという事実に基づいている。 この方法の応用として、周期境界条件とディリクレ境界条件の両方に対する相互作用振動子の線形鎖に対する量子伝播子を求める。 外部の古典的音源の欠如と存在における調和鎖に沿った状態と励起伝播について検討・考察した。 確率振幅$P(n,\tau)$の最初の最大値の位置は$(n,\tau)$-平面の直線であり、鎖に沿った励起伝播の一定の速度を示す。

In this paper, we find the quantum propagator for a general time-dependent quadratic Hamiltonian. The method is based on the properties of the propagator and the fact that the quantum propagator fulfills two independent partial differential equations originating from Heisenberg equations for positions and momenta. As an application of the method, we find the quantum propagator for a linear chain of interacting oscillators for both periodic and Dirichlet boundary conditions. The state and excitation propagation along the harmonic chain in the absence and presence of an external classical source is studied and discussed. The location of the first maxima of the probability amplitude $P(n,\tau)$ is a straight line in the $(n,\tau)$-plane, indicating a constant speed of excitation propagation along the chain.
翻訳日:2023-05-31 16:03:42 公開日:2023-05-30
# 単一spoofing-aware speaker verification embeddedsに向けて

Towards single integrated spoofing-aware speaker verification embeddings ( http://arxiv.org/abs/2305.19051v1 )

ライセンス: Link先を確認
Sung Hwan Mun, Hye-jin Shim, Hemlata Tak, Xin Wang, Xuechen Liu, Md Sahidullah, Myeonghun Jeong, Min Hyun Han, Massimiliano Todisco, Kong Aik Lee, Junichi Yamagishi, Nicholas Evans, Tomi Kinnunen, Nam Soo Kim, and Jee-weon Jung(参考訳) 本研究は,2つの側面を満たす1つの統合スプーフィング対応話者検証(SASV)の組込みを開発することを目的とする。 まず、ターゲット以外の話者の入力とターゲット話者のスプーフ入力を拒否する。 第2に、自動話者検証(ASV)と対策(CM)の融合との比較により、SASV2022の課題において、単一埋め込みソリューションよりも優れた競合性能を示すべきである。 単一のSASV埋め込みの劣った性能は、トレーニングデータの不足と、ASVおよびCMタスクの異なる性質から生じると分析する。 そこで本研究では,多段階学習と損失関数の組み合わせを含む新しいフレームワークを提案する。 コピー合成といくつかのボコーダを組み合わせることで、スプーフデータの欠如にも対処することができる。 実験結果から,SASV2022課題の評価プロトコルにおいて,SASV-EERが1.06%に達した。

This study aims to develop a single integrated spoofing-aware speaker verification (SASV) embeddings that satisfy two aspects. First, rejecting non-target speakers' input as well as target speakers' spoofed inputs should be addressed. Second, competitive performance should be demonstrated compared to the fusion of automatic speaker verification (ASV) and countermeasure (CM) embeddings, which outperformed single embedding solutions by a large margin in the SASV2022 challenge. We analyze that the inferior performance of single SASV embeddings comes from insufficient amount of training data and distinct nature of ASV and CM tasks. To this end, we propose a novel framework that includes multi-stage training and a combination of loss functions. Copy synthesis, combined with several vocoders, is also exploited to address the lack of spoofed data. Experimental results show dramatic improvements, achieving a SASV-EER of 1.06% on the evaluation protocol of the SASV2022 challenge.
翻訳日:2023-05-31 16:03:28 公開日:2023-05-30
# Back to Patterns: 特徴系列による効率的な日本語形態素解析

Back to Patterns: Efficient Japanese Morphological Analysis with Feature-Sequence Trie ( http://arxiv.org/abs/2305.19045v1 )

ライセンス: Link先を確認
Naoki Yoshinaga(参考訳) 正確なニューラルネットワークモデルは、非神経モデルよりもはるかに効率的で、何十億ものソーシャルメディア投稿を処理したり、限られた予算でリアルタイムにユーザクエリを処理するのに役立ちません。 本研究は,最も高速なパターンベースNLP法を再検討し,その精度を極力向上させることにより,日本人にとって驚くほど単純かつ驚くほど正確な形態解析を行う。 提案手法は形態素辞書と注釈データから信頼できるパターンを導出する。 2つの標準データセットの実験結果は、この手法が学習ベースのベースラインに匹敵する精度を示す一方で、1つのモダンCPU上で毎秒1000,000文以上のスループットを誇っていることを確認した。 ソースコードはhttps://www.tkl.iis.u-tokyo.ac.jp/~ynaga/jagger/で入手できる。

Accurate neural models are much less efficient than non-neural models and are useless for processing billions of social media posts or handling user queries in real time with a limited budget. This study revisits the fastest pattern-based NLP methods to make them as accurate as possible, thus yielding a strikingly simple yet surprisingly accurate morphological analyzer for Japanese. The proposed method induces reliable patterns from a morphological dictionary and annotated data. Experimental results on two standard datasets confirm that the method exhibits comparable accuracy to learning-based baselines, while boasting a remarkable throughput of over 1,000,000 sentences per second on a single modern CPU. The source code is available at https://www.tkl.iis.u-tokyo.ac.jp/~ynaga/jagger/
翻訳日:2023-05-31 16:03:11 公開日:2023-05-30
# リアルタイム反復学習の約束と限界を探る

Exploring the Promise and Limits of Real-Time Recurrent Learning ( http://arxiv.org/abs/2305.19044v1 )

ライセンス: Link先を確認
Kazuki Irie, Anand Gopalakrishnan, J\"urgen Schmidhuber(参考訳) シーケンス処理リカレントニューラルネットワーク(rnns)のためのリアルタイムリカレント学習(rtrl)は、バックプロパゲーション時間(bptt)よりも概念上の利点を提供する。 RTRLは過去のアクティベーションやトラッピングコンテキストをキャッシュする必要がなく、オンライン学習を可能にする。 しかし、rtrlの時間と空間の複雑さは実用的でない。 この問題を解決するために、RTRLに関する最近の研究は近似理論に焦点を当てているが、実験は診断設定に限られることが多い。 本稿では,より現実的な環境でのRTRLの実践的可能性について考察する。 DMLab-30, ProcGen, Atari-2600環境のいくつかのサブセットにおいて, RTRLとポリシー勾配を組み合わせたアクタ批判手法を検証した。 DMLabのメモリタスクでは、1.2B未満の環境フレームでトレーニングしたシステムは、よく知られたIMPALAとR2D2のベースラインで10Bフレームでトレーニングしたよりも優れている。 このような困難なタスクにスケールするために、要素毎の繰り返しを伴う既知のニューラルアーキテクチャにフォーカスし、rtrlを近似することなく扱いやすいものにした。 また,マルチレイヤの場合の複雑性など,実世界のアプリケーションにおけるRTRLの限界について論じる。

Real-time recurrent learning (RTRL) for sequence-processing recurrent neural networks (RNNs) offers certain conceptual advantages over backpropagation through time (BPTT). RTRL requires neither caching past activations nor truncating context, and enables online learning. However, RTRL's time and space complexity make it impractical. To overcome this problem, most recent work on RTRL focuses on approximation theories, while experiments are often limited to diagnostic settings. Here we explore the practical promise of RTRL in more realistic settings. We study actor-critic methods that combine RTRL and policy gradients, and test them in several subsets of DMLab-30, ProcGen, and Atari-2600 environments. On DMLab memory tasks, our system trained on fewer than 1.2 B environmental frames is competitive with or outperforms well-known IMPALA and R2D2 baselines trained on 10 B frames. To scale to such challenging tasks, we focus on certain well-known neural architectures with element-wise recurrence, allowing for tractable RTRL without approximation. We also discuss rarely addressed limitations of RTRL in real-world applications, such as its complexity in the multi-layer case.
翻訳日:2023-05-31 16:02:57 公開日:2023-05-30
# 測地線保存次元低減における熱拡散の展望

A Heat Diffusion Perspective on Geodesic Preserving Dimensionality Reduction ( http://arxiv.org/abs/2305.19043v1 )

ライセンス: Link先を確認
Guillaume Huguet, Alexander Tong, Edward De Brouwer, Yanlei Zhang, Guy Wolf, Ian Adelstein, Smita Krishnaswamy(参考訳) 拡散に基づく多様体学習法は、現代高次元、高スループット、ノイズデータセットの表現学習と次元縮小に有用であることが証明されている。 このようなデータセットは特に生物学や物理学などの分野に存在する。 これらの手法は測地線距離のプロキシを学習することでデータの基本多様体構造を保存していると考えられるが、具体的な理論的リンクは確立されていない。 ここでは、リーマン幾何学において、熱拡散を多様体距離に明示的に接続する結果を通じてそのようなリンクを確立する。 このプロセスでは、熱測地埋め込みと呼ばれるより一般的な熱カーネルベースの多様体埋め込み法も定式化する。 この新しい視点は、多様体の学習と認知において利用できる選択肢を明確にする。 その結果,本手法は,地中真理多様体距離の保存,および玩具データセットのクラスタ構造の保存において,既存の技術よりも優れていた。 また, 連続体とクラスタ構造を併用した単一セルRNAシークエンシングデータセットに本手法を適用し, 非保持タイムポイントの補間を可能にする。 最後に,より一般的な手法のパラメータは,PHATE(最先端拡散型多様体学習法)やSNE(t-SNEの基盤となるアトラクション/反発近傍法)に類似した結果を与えるように構成できることを示す。

Diffusion-based manifold learning methods have proven useful in representation learning and dimensionality reduction of modern high dimensional, high throughput, noisy datasets. Such datasets are especially present in fields like biology and physics. While it is thought that these methods preserve underlying manifold structure of data by learning a proxy for geodesic distances, no specific theoretical links have been established. Here, we establish such a link via results in Riemannian geometry explicitly connecting heat diffusion to manifold distances. In this process, we also formulate a more general heat kernel based manifold embedding method that we call heat geodesic embeddings. This novel perspective makes clearer the choices available in manifold learning and denoising. Results show that our method outperforms existing state of the art in preserving ground truth manifold distances, and preserving cluster structure in toy datasets. We also showcase our method on single cell RNA-sequencing datasets with both continuum and cluster structure, where our method enables interpolation of withheld timepoints of data. Finally, we show that parameters of our more general method can be configured to give results similar to PHATE (a state-of-the-art diffusion based manifold learning method) as well as SNE (an attraction/repulsion neighborhood based method that forms the basis of t-SNE).
翻訳日:2023-05-31 16:02:34 公開日:2023-05-30
# NicePIM:3DスタックDRAMを用いたメモリ内DNN高速化のための空間探索

NicePIM: Design Space Exploration for Processing-In-Memory DNN Accelerators with 3D-Stacked-DRAM ( http://arxiv.org/abs/2305.19041v1 )

ライセンス: Link先を確認
Junpeng Wang, Mengke Ge, Bo Ding, Qi Xu, Song Chen, Yi Kang(参考訳) インテリジェントシステムにおけるディープニューラルネットワーク(DNN)の普及に伴い、高性能でエネルギー効率の高いDNNアクセラレータが大幅に要求される。 実現可能なPIMアーキテクチャの1つとして、3DスタックDRAMベースのPIM(DRAM-PIM)アーキテクチャが大容量メモリと低コストメモリアクセスを可能にしている。 しかし、スタック化DRAMの低コスト特性とメモリアクセスとデータ格納の分散化は、ハードウェア設計とDNNマッピングの再バランスを必要とする。 本稿では,ハードウェアアーキテクチャとDRAM-PIMアクセラレータの設計空間を効率的に探索するNicePIMを提案し,PIM-Tuner,PIM-Mapper,Data-Schedulerの3つの重要なコンポーネントからなるDRAM-PIMアクセラレータのDNNマッピングを提案する。 PIM-Tunerは、領域準拠アーキテクチャを分類するためのDNNモデルと、より良いハードウェアパラメータを特定するためのディープカーネル学習モデルを活用するハードウェア構成を最適化する。 PIM-Mapperは、DNNのブランチ間の並列性、DNN層のパーティショニング、DRAMのキャパシティ割り当て、DRAMのデータレイアウトパターンなど、さまざまなDNNマッピング構成を調査し、様々なハードウェア構成のための高ハードウエア利用DNNマッピングスキームを生成する。 Data-Schedulerは整数線形プログラミングに基づくデータスケジューリングアルゴリズムを用いて、DNN層分割によるデータ共有のPIMノード間通信オーバーヘッドを軽減する。 実験結果から,NicePIMはDRAM-PIMシステムのハードウェア構成を効果的に最適化し,ベースライン法と比較して平均で37%,エネルギーコストが28%削減された高品質DNNマッピングスキームを生成することができることがわかった。

With the widespread use of deep neural networks(DNNs) in intelligent systems, DNN accelerators with high performance and energy efficiency are greatly demanded. As one of the feasible processing-in-memory(PIM) architectures, 3D-stacked-DRAM-based PIM(DRAM-PIM) architecture enables large-capacity memory and low-cost memory access, which is a promising solution for DNN accelerators with better performance and energy efficiency. However, the low-cost characteristics of stacked DRAM and the distributed manner of memory access and data storing require us to rebalance the hardware design and DNN mapping. In this paper, we propose NicePIM to efficiently explore the design space of hardware architecture and DNN mapping of DRAM-PIM accelerators, which consists of three key components: PIM-Tuner, PIM-Mapper and Data-Scheduler. PIM-Tuner optimizes the hardware configurations leveraging a DNN model for classifying area-compliant architectures and a deep kernel learning model for identifying better hardware parameters. PIM-Mapper explores a variety of DNN mapping configurations, including parallelism between branches of DNN, DNN layer partitioning, DRAM capacity allocation and data layout pattern in DRAM to generate high-hardware-utilization DNN mapping schemes for various hardware configurations. The Data-Scheduler employs an integer-linear-programming-based data scheduling algorithm to alleviate the inter-PIM-node communication overhead of data-sharing brought by DNN layer partitioning. Experimental results demonstrate that NicePIM can optimize hardware configurations for DRAM-PIM systems effectively and can generate high-quality DNN mapping schemes with latency and energy cost reduced by 37% and 28% on average respectively compared to the baseline method.
翻訳日:2023-05-31 16:02:17 公開日:2023-05-30
# 遅延帯域: 中間観察はいつ役に立つか?

Delayed Bandits: When Do Intermediate Observations Help? ( http://arxiv.org/abs/2305.19036v1 )

ライセンス: Link先を確認
Emmanuel Esposito, Saeed Masoudian, Hao Qiu, Dirk van der Hoeven, Nicol\`o Cesa-Bianchi, Yevgeny Seldin(参考訳) 遅延フィードバックと中間観測を伴って,k$-armed banditについて検討した。 本研究では, 中間観測が有限状態の形で, 動作開始直後に観測されるのに対して, 逆選択された遅延後に損失が観測されるモデルを考える。 我々は、状態への対応のマッピングが確率的か逆かにかかわらず、状態から損失へのマッピングの体制が問題の複雑さを決定することを示した。 状態の損失へのマッピングが逆ならば、後悔率は次数$\sqrt{(K+d)T}$(ログ要素なしで)であり、$T$は時間軸、$d$は固定遅延である。 これは、$Kの武器付きバンディットの後悔率と、遅延したフィードバックと中間的な観察がなければ、中間的な観察が役に立たないことを意味する。 しかし、損失への状態のマッピングが確率的であれば、後悔は$\sqrt{\big(k+\min\{|\mathcal{s}|,d\}\big)t}$(対数係数を含む)の割合で増加することが示され、もし$|\mathcal{s}|$の状態が遅延よりも小さいなら、中間観測は助けとなる。 また,非一様遅延に対する高確率後悔上限と,アルゴリズムの実験的検証も提供する。

We study a $K$-armed bandit with delayed feedback and intermediate observations. We consider a model where intermediate observations have a form of a finite state, which is observed immediately after taking an action, whereas the loss is observed after an adversarially chosen delay. We show that the regime of the mapping of states to losses determines the complexity of the problem, irrespective of whether the mapping of actions to states is stochastic or adversarial. If the mapping of states to losses is adversarial, then the regret rate is of order $\sqrt{(K+d)T}$ (within log factors), where $T$ is the time horizon and $d$ is a fixed delay. This matches the regret rate of a $K$-armed bandit with delayed feedback and without intermediate observations, implying that intermediate observations are not helpful. However, if the mapping of states to losses is stochastic, we show that the regret grows at a rate of $\sqrt{\big(K+\min\{|\mathcal{S}|,d\}\big)T}$ (within log factors), implying that if the number $|\mathcal{S}|$ of states is smaller than the delay, then intermediate observations help. We also provide refined high-probability regret upper bounds for non-uniform delays, together with experimental validation of our algorithms.
翻訳日:2023-05-31 16:01:42 公開日:2023-05-30
# DHRL-FNMR:SDNにおける深層階層強化学習に基づくインテリジェントマルチキャストルーティング手法

DHRL-FNMR: An Intelligent Multicast Routing Approach Based on Deep Hierarchical Reinforcement Learning in SDN ( http://arxiv.org/abs/2305.19077v1 )

ライセンス: Link先を確認
Miao Ye, Chenwei Zhao, Xingsi Xue, Jinqiang Li, Hongwen Hu, Yejin Yang and Qiuxiang Jiang(参考訳) Software-Defined Networking (SDN) における最適マルチキャストツリー問題はNPハード組合せ最適化問題である。 深い強化学習に基づく既存のSDNインテリジェントソリューション手法は、複雑なネットワークリンク状態の変化に動的に適応できるが、これらの手法は冗長分岐、大きなアクション空間、遅いエージェント収束といった問題に悩まされている。 本稿では,上記の問題を回避すべく,階層的強化学習に基づくsdnインテリジェントマルチキャストルーティングアルゴリズムを提案する。 まず、マルチキャストツリー構築問題は、フォークノード選択問題と、フォークノードから宛先ノードへの最適なパスの構築という2つのサブ問題に分解される。 第2に,SDNグローバルネットワーク知覚の情報特性に基づいて,マルチキャストツリー状態行列,リンク帯域幅行列,リンク遅延行列,リンクパケット損失率行列,サブゴール行列を固有およびメタコントローラの状態空間として設計する。 そして、過剰な動作空間を緩和するために、我々のアプローチは、上層と下層レベルで異なるアクション空間を構築します。 メタコントローラはネットワークノードを使用してforkノードを選択するアクションスペースを生成し、本質コントローラは現在のノードの隣接エッジをアクションスペースとして使用し、マルチキャストツリーの構築において4つの異なるアクション選択戦略を実装する。 最適なマルチキャストツリーを高速に構築する際の知的エージェントを容易にするために,単一ステップノードアクションと複数の宛先ノードに対するマルチステップアクションを区別する報奨戦略を開発した。

The optimal multicast tree problem in the Software-Defined Networking (SDN) multicast routing is an NP-hard combinatorial optimization problem. Although existing SDN intelligent solution methods, which are based on deep reinforcement learning, can dynamically adapt to complex network link state changes, these methods are plagued by problems such as redundant branches, large action space, and slow agent convergence. In this paper, an SDN intelligent multicast routing algorithm based on deep hierarchical reinforcement learning is proposed to circumvent the aforementioned problems. First, the multicast tree construction problem is decomposed into two sub-problems: the fork node selection problem and the construction of the optimal path from the fork node to the destination node. Second, based on the information characteristics of SDN global network perception, the multicast tree state matrix, link bandwidth matrix, link delay matrix, link packet loss rate matrix, and sub-goal matrix are designed as the state space of intrinsic and meta controllers. Then, in order to mitigate the excessive action space, our approach constructs different action spaces at the upper and lower levels. The meta-controller generates an action space using network nodes to select the fork node, and the intrinsic controller uses the adjacent edges of the current node as its action space, thus implementing four different action selection strategies in the construction of the multicast tree. To facilitate the intelligent agent in constructing the optimal multicast tree with greater speed, we developed alternative reward strategies that distinguish between single-step node actions and multi-step actions towards multiple destination nodes.
翻訳日:2023-05-31 15:56:20 公開日:2023-05-30
# 連続学習のためのクラス条件ガウスアン

Class Conditional Gaussians for Continual Learning ( http://arxiv.org/abs/2305.19076v1 )

ライセンス: Link先を確認
Thomas L. Lee and Amos Storkey(参考訳) 表現のシフトを扱うことは、オンライン連続学習の主要な問題の一つだ。 現在のメソッドは主に表現シフトを減らすことでこの問題を解決するが、多くの更新ステップにおいて、表現の最上部の分類器は、残りの表現シフトに徐々に適応し、忘れることが増える。 この問題を解決するための経験的ベイズ的手法であるDeepCCGを提案する。 DeepCCGは、クラス条件付きガウス分類器の後部を更新して、分類器が表現シフトに即座に適応するようにする。 クラス条件付きガウス分類器を使用することで、deepccgは、新しいタイプのリプレイと見なすことができる表現を更新するために、ログ条件付き限界可能性損失を利用することができる。 分類器と表現の更新を行うため、DeepCCGはメモリ内の固定されたサンプル数を保持しており、DeepCCGのキー部分は格納するサンプルを選択し、サブセットによって誘導される真の後部と後部のKLの発散を最小限にするサブセットを選択する。 本稿では,DeepCCGのタスクをオーバーラップしたタスクを含む,さまざまな環境での性能を実証する。 実験では、DeepCCGは他のすべての方法よりも優れており、その可能性を証明している。

Dealing with representation shift is one of the main problems in online continual learning. Current methods mainly solve this by reducing representation shift, but leave the classifier on top of the representation to slowly adapt, in many update steps, to the remaining representation shift, increasing forgetting. We propose DeepCCG, an empirical Bayesian approach to solve this problem. DeepCCG works by updating the posterior of a class conditional Gaussian classifier such that the classifier adapts instantly to representation shift. The use of a class conditional Gaussian classifier also enables DeepCCG to use a log conditional marginal likelihood loss to update the representation, which can be seen as a new type of replay. To perform the update to the classifier and representation, DeepCCG maintains a fixed number of examples in memory and so a key part of DeepCCG is selecting what examples to store, choosing the subset that minimises the KL divergence between the true posterior and the posterior induced by the subset. We demonstrate the performance of DeepCCG on a range of settings, including those with overlapping tasks which thus far have been under-explored. In the experiments, DeepCCG outperforms all other methods, evidencing its potential.
翻訳日:2023-05-31 15:55:55 公開日:2023-05-30
# 非構造化データに基づく基礎スキル優先による言語条件付き模倣学習

Language-Conditioned Imitation Learning with Base Skill Priors under Unstructured Data ( http://arxiv.org/abs/2305.19075v1 )

ライセンス: Link先を確認
Hongkuan Zhou, Zhenshan Bing, Xiangtong Yao, Xiaojie Su, Chenguang Yang, Kai Huang, Alois Knoll(参考訳) 言語条件ロボット操作への関心が高まる中、ロボットが言語コマンドを解釈し、それに従ってオブジェクトを操作することを可能にする目的で、複雑なタスクの理解と実行が可能なロボットの開発が目的である。 言語条件付きアプローチは、慣れ親しんだ環境でタスクに対処するための素晴らしい能力を示しているが、慣れ親しんだ環境設定への適応の限界に遭遇する。 本研究では,非構造化データに基づく基礎的スキル事前学習と模倣学習を組み合わせた汎用的言語条件付き手法を提案し,不慣れな環境に適応するアルゴリズムの一般化を強化する。 ゼロショット設定を用いてシミュレーション環境と実環境の両方におけるモデルの性能を評価する。 シミュレーション環境において,提案手法は,これまでに報告されたカルビンベンチマーク,特に挑戦的ゼロショットマルチ環境設定のスコアを上回った。 エージェントが連続的に完了できるタスクの平均数を示す平均タスク長は、最先端のHULCに比べて2.5倍以上改善されている。 さらに,具体的な適応を伴わずにシミュレーション環境のみを対象としたトレーニングを行い,実世界におけるポリシーのゼロショット評価を行った。 本評価では,10のタスクを設定し,現状のアプローチと比較して平均30%の改善を実現し,シミュレーション環境と実世界の両方において高い一般化能力を示した。 コードやビデオへのアクセスなどの詳細については、追加資料を参照してください。

The growing interest in language-conditioned robot manipulation aims to develop robots capable of understanding and executing complex tasks, with the objective of enabling robots to interpret language commands and manipulate objects accordingly. While language-conditioned approaches demonstrate impressive capabilities for addressing tasks in familiar environments, they encounter limitations in adapting to unfamiliar environment settings. In this study, we propose a general-purpose, language-conditioned approach that combines base skill priors and imitation learning under unstructured data to enhance the algorithm's generalization in adapting to unfamiliar environments. We assess our model's performance in both simulated and real-world environments using a zero-shot setting. In the simulated environment, the proposed approach surpasses previously reported scores for CALVIN benchmark, especially in the challenging Zero-Shot Multi-Environment setting. The average completed task length, indicating the average number of tasks the agent can continuously complete, improves more than 2.5 times compared to the state-of-the-art method HULC. In addition, we conduct a zero-shot evaluation of our policy in a real-world setting, following training exclusively in simulated environments without additional specific adaptations. In this evaluation, we set up ten tasks and achieved an average 30% improvement in our approach compared to the current state-of-the-art approach, demonstrating a high generalization capability in both simulated environments and the real world. For further details, including access to our code and videos, please refer to our supplementary materials.
翻訳日:2023-05-31 15:55:35 公開日:2023-05-30
# 超音波画像の類似度を限定したマルチソース逆転写学習

Multi-source adversarial transfer learning for ultrasound image segmentation with limited similarity ( http://arxiv.org/abs/2305.19069v1 )

ライセンス: Link先を確認
Yifu Zhang, Hongru Li, Tao Yang, Rui Tao, Zhengyuan Liu, Shimeng Shi, Jiansong Zhang, Ning Ma, Wujin Feng, Zhanhu Zhang, Xinyu Zhang(参考訳) 深部学習技術に基づく超音波画像の病変分割は,疾患の診断に広く用いられている。 医療センターや他の場所には大量の超音波画像データが存在するが、ラベル付き超音波データセットは乏しい資源であり、新しい組織や組織にはデータセットが利用できない可能性が高い。 転送学習はこの問題を解決することができるが、対象領域とは無関係な自然画像には多すぎる特徴がある。 ソースドメインとして、タスクに導出されない冗長なフィーチャが抽出される。 超音波画像間の移動はこの問題を回避することができるが、公開データセットのタイプはほとんどなく、十分に類似したソースドメインを見つけることは困難である。 自然画像と比較すると、超音波画像は情報が少なく、異なる超音波画像間で伝達可能な特徴が少なく、負の転送を引き起こす可能性がある。 この目的のために,超音波画像分割のための多元逆転写学習ネットワークを提案する。 具体的には、アノテーションの欠如に対処するため、特定のソースとターゲットドメイン間の共通特徴を適応的に抽出するために、逆転写学習の考え方を用いて、ラベルのない超音波データを利用することができる。 単一のソースドメインにおける知識不足を軽減するため、複数のソースドメインからの知識を融合するために、マルチソース転送学習を採用する。 また、融合の有効性を保証し、貴重なデータの利用を最大化するために、複数のドメインにおける多ソース逆マイグレーション学習ネットワークの学習能力を高めるために、対象ドメインデータ分布の推定を改善するためのマルチソースドメイン独立戦略も提案されている。

Lesion segmentation of ultrasound medical images based on deep learning techniques is a widely used method for diagnosing diseases. Although there is a large amount of ultrasound image data in medical centers and other places, labeled ultrasound datasets are a scarce resource, and it is likely that no datasets are available for new tissues/organs. Transfer learning provides the possibility to solve this problem, but there are too many features in natural images that are not related to the target domain. As a source domain, redundant features that are not conducive to the task will be extracted. Migration between ultrasound images can avoid this problem, but there are few types of public datasets, and it is difficult to find sufficiently similar source domains. Compared with natural images, ultrasound images have less information, and there are fewer transferable features between different ultrasound images, which may cause negative transfer. To this end, a multi-source adversarial transfer learning network for ultrasound image segmentation is proposed. Specifically, to address the lack of annotations, the idea of adversarial transfer learning is used to adaptively extract common features between a certain pair of source and target domains, which provides the possibility to utilize unlabeled ultrasound data. To alleviate the lack of knowledge in a single source domain, multi-source transfer learning is adopted to fuse knowledge from multiple source domains. In order to ensure the effectiveness of the fusion and maximize the use of precious data, a multi-source domain independent strategy is also proposed to improve the estimation of the target domain data distribution, which further increases the learning ability of the multi-source adversarial migration learning network in multiple domains.
翻訳日:2023-05-31 15:55:11 公開日:2023-05-30
# 含意論理制約を用いた事象性知識グラフの複雑解法

Complex Query Answering on Eventuality Knowledge Graph with Implicit Logical Constraints ( http://arxiv.org/abs/2305.19068v1 )

ライセンス: Link先を確認
Jiaxin Bai, Xin Liu, Weiqi Wang, Chen Luo, Yangqiu Song(参考訳) ディープラーニングアプローチを用いた不完全な知識グラフ(KG)のクエリは、推論と一般化能力を活用して、より良い回答を推論することができる。 従来のニューラルネットワーククエリ応答(CQA)アプローチは主にエンティティ中心のKGで動作する。 しかし, 現実世界では, ヨシュア・ベンジオが提唱したシステムIからシステムIIへ学習システムをプッシュするために, 事象, 状態, 活動(事象, 状況)に関する論理的推論を行う必要がある。 結果中心のkg(evkg)から論理的に問い合わせると、自然にこのような直感的かつ論理的な推論への参照を提供できる。 そこで本稿では,従来の一階述語論理の制約だけでなく,その発生と順序に関する結果に関する暗黙の論理制約も満たせる,evkgに基づく複雑な論理クエリにニューラルネットワークを適用する新しい枠組みを提案する。 例えば、'`Food is bad' が ``PersonX add soy sauce'' の前に起こるとすると、'`PersonX add soy sauce'' は暗黙の時間的制約のため ``Food is bad' の原因とはならない。 EVKGにおける一貫した推論を容易にするために,CQAのより厳密な定義である複合事象検索(CEQA)を提案する。 そこで本研究では,統計的制約を満たすために,ベンチマークデータセットを構築するための定理生成法を提案する。 また,ceqaタスクにおける最先端のニューラルネットワーククエリエンコーダの性能を大幅に向上するためのメモリエンハンスドクエリエンコーディング(meqe)手法を提案する。

Querying incomplete knowledge graphs (KGs) using deep learning approaches can naturally leverage the reasoning and generalization ability to learn to infer better answers. Traditional neural complex query answering (CQA) approaches mostly work on entity-centric KGs. However, in the real world, we also need to make logical inferences about events, states, and activities (i.e., eventualities or situations) to push learning systems from System I to System II, as proposed by Yoshua Bengio. Querying logically from an EVentuality-centric KG (EVKG) can naturally provide references to such kind of intuitive and logical inference. Thus, in this paper, we propose a new framework to leverage neural methods to answer complex logical queries based on an EVKG, which can satisfy not only traditional first-order logic constraints but also implicit logical constraints over eventualities concerning their occurrences and orders. For instance, if we know that ``Food is bad'' happens before ``PersonX adds soy sauce,'' then ``PersonX adds soy sauce'' is unlikely to be the cause of ``Food is bad'' due to implicit temporal constraint. To facilitate consistent reasoning on EVKGs, we propose Complex Eventuality Query Answering (CEQA), a more rigorous definition of CQA that considers the implicit logical constraints governing the temporal order and occurrence of eventualities. In this manner, we propose to leverage theorem provers for constructing benchmark datasets to ensure the answers satisfy implicit logical constraints. We also propose a Memory-Enhanced Query Encoding (MEQE) approach to significantly improve the performance of state-of-the-art neural query encoders on the CEQA task.
翻訳日:2023-05-31 15:54:43 公開日:2023-05-30
# 局所的特徴を持つ類似のソースドメインに基づく多元逆伝達学習

Multi-source adversarial transfer learning based on similar source domains with local features ( http://arxiv.org/abs/2305.19067v1 )

ライセンス: Link先を確認
Yifu Zhang, Hongru Li, Shimeng Shi, Youqi Li, Jiansong Zhang(参考訳) 転送学習は他のドメインからの知識を活用し、多くのアプリケーションで成功している。 転送学習方法は、ソースとターゲットドメインの全体的な類似性に依存する。 しかし、場合によっては、全体的な類似のソースドメインを提供することは不可能であり、類似のローカル機能を持つソースドメインのみを提供することができる。 転校学習は可能か? 本稿では,ソース領域と対象領域が局所的類似性しか持たない転送シナリオを処理するために,ソース領域と局所的特徴類似性に基づく多元逆伝達学習手法を提案する。 サブネットワークを介して、単一ソースドメインと対象ドメイン間の転送可能なローカル特徴を抽出する。 具体的には、サブネットワークの特徴抽出器をドメイン判別器によって誘導し、ソースドメインとターゲットドメインとの間の転送可能な知識を学習する。 抽出した特徴をアテンションモジュールで重み付けし、非伝達可能な局所特徴を抑えるとともに、伝達可能な局所特徴を増強する。 同じバッチで異なるサブネットワーク内のターゲットドメインからのデータが全く同じであるように、我々は、後続のローカル機能融合が必要とされる重要な機能を完成させる可能性を提供するために、マルチソースドメイン独立戦略を設計しました。 本手法の有効性を検証するため,データセットを「局所カルバナ画像マスキングデータセット」とした。 提案手法を画像分割タスクに適用することで、他の複数ソース転送学習手法よりも優れた転送性能が得られる。 ソースドメインとターゲットドメインが局所的類似性しか持たない転送シナリオに対して,設計した転送学習が実現可能であることを示す。

Transfer learning leverages knowledge from other domains and has been successful in many applications. Transfer learning methods rely on the overall similarity of the source and target domains. However, in some cases, it is impossible to provide an overall similar source domain, and only some source domains with similar local features can be provided. Can transfer learning be achieved? In this regard, we propose a multi-source adversarial transfer learning method based on local feature similarity to the source domain to handle transfer scenarios where the source and target domains have only local similarities. This method extracts transferable local features between a single source domain and the target domain through a sub-network. Specifically, the feature extractor of the sub-network is induced by the domain discriminator to learn transferable knowledge between the source domain and the target domain. The extracted features are then weighted by an attention module to suppress non-transferable local features while enhancing transferable local features. In order to ensure that the data from the target domain in different sub-networks in the same batch is exactly the same, we designed a multi-source domain independent strategy to provide the possibility for later local feature fusion to complete the key features required. In order to verify the effectiveness of the method, we made the dataset "Local Carvana Image Masking Dataset". Applying the proposed method to the image segmentation task of the proposed dataset achieves better transfer performance than other multi-source transfer learning methods. It is shown that the designed transfer learning method is feasible for transfer scenarios where the source and target domains have only local similarities.
翻訳日:2023-05-31 15:54:11 公開日:2023-05-30
# 常時画像生成のためのネスト拡散過程

Nested Diffusion Processes for Anytime Image Generation ( http://arxiv.org/abs/2305.19066v1 )

ライセンス: Link先を確認
Noam Elata, Bahjat Kawar, Tomer Michaeli, Michael Elad(参考訳) 拡散モデルは、画像生成における最先端のモデルであり、生成プロセスを多くの細かなデノイジングステップに分解することで高品質な画像を合成する。 優れた性能にもかかわらず、拡散モデルは計算コストが高く、多くの神経機能評価(NFE)を必要とする。 本研究では,完了前に任意のタイミングで停止した場合に実行可能画像を生成する,任意の時間拡散に基づく手法を提案する。 既存の事前学習拡散モデルを用いて、生成スキームを2つのネスト拡散過程として再構成し、生成した画像の高速反復精錬を可能にする。 我々は,このネスト拡散手法を用いて生成過程を覗き込み,ユーザの瞬時嗜好に基づく柔軟なスケジューリングを実現する。 ImageNetとStable Diffusionを用いたテキスト・ツー・イメージ生成実験において,本手法の中間生成品質が元の拡散モデルを大きく上回る一方で,最終的な遅い生成結果と同等であることを示す。

Diffusion models are the current state-of-the-art in image generation, synthesizing high-quality images by breaking down the generation process into many fine-grained denoising steps. Despite their good performance, diffusion models are computationally expensive, requiring many neural function evaluations (NFEs). In this work, we propose an anytime diffusion-based method that can generate viable images when stopped at arbitrary times before completion. Using existing pretrained diffusion models, we show that the generation scheme can be recomposed as two nested diffusion processes, enabling fast iterative refinement of a generated image. We use this Nested Diffusion approach to peek into the generation process and enable flexible scheduling based on the instantaneous preference of the user. In experiments on ImageNet and Stable Diffusion-based text-to-image generation, we show, both qualitatively and quantitatively, that our method's intermediate generation quality greatly exceeds that of the original diffusion model, while the final slow generation result remains comparable.
翻訳日:2023-05-31 15:53:46 公開日:2023-05-30
# テンプレートフリーのarticulated neural point clouds for reposable view synthesis

Template-free Articulated Neural Point Clouds for Reposable View Synthesis ( http://arxiv.org/abs/2305.19065v1 )

ライセンス: Link先を確認
Lukas Uzolas, Elmar Eisemann, Petr Kellnhofer(参考訳) 動的ニューラルラジアンス場(NeRF)は、時間進化する3Dシーンの新たなビューを合成する際に、目覚ましい視覚的品質を達成する。 しかし、後方変形場への共通依存は、捕獲された物体の再アニメーションを難しくする。 さらに、アートダイナミックモデルの状態は、しばしば、低い視覚的忠実度、長い再構築時間、狭いアプリケーションドメインに対する特異性によって制限される。 本稿では,ポイントベース表現とリニアブレンドスキニング(LBS)を用いた新しい手法を提案する。 提案手法は,既存の作業に比べて学習時間を大幅に削減しながら,新たなビューやポーズを合成する時の最先端の視覚的忠実性を実現する。 共通データセットから多種多種多種多種多様オブジェクトへの表現の汎用性を実証し,オブジェクト固有の骨格テンプレートを必要とせずに再現可能な3D再構成を実現する。 コードはhttps://github.com/lukasuz/Articulated-Point-NeRFで公開される。

Dynamic Neural Radiance Fields (NeRFs) achieve remarkable visual quality when synthesizing novel views of time-evolving 3D scenes. However, the common reliance on backward deformation fields makes reanimation of the captured object poses challenging. Moreover, the state of the art dynamic models are often limited by low visual fidelity, long reconstruction time or specificity to narrow application domains. In this paper, we present a novel method utilizing a point-based representation and Linear Blend Skinning (LBS) to jointly learn a Dynamic NeRF and an associated skeletal model from even sparse multi-view video. Our forward-warping approach achieves state-of-the-art visual fidelity when synthesizing novel views and poses while significantly reducing the necessary learning time when compared to existing work. We demonstrate the versatility of our representation on a variety of articulated objects from common datasets and obtain reposable 3D reconstructions without the need of object-specific skeletal templates. Code will be made available at https://github.com/lukasuz/Articulated-Point-NeRF.
翻訳日:2023-05-31 15:53:26 公開日:2023-05-30
# 医療画像からの病変分割のためのdual affinity learningを用いたスケールアウェア・スーパーレゾリューションネットワーク

Scale-aware Super-resolution Network with Dual Affinity Learning for Lesion Segmentation from Medical Images ( http://arxiv.org/abs/2305.19063v1 )

ライセンス: Link先を確認
Yanwen Li, Luyang Luo, Huangjing Lin, Pheng-Ann Heng, Hao Chen(参考訳) 畳み込みニューラルネットワーク(CNN)は医用画像のセグメンテーションにおいて顕著な進歩を見せている。 しかし, 病変分割は, スケールや形状のばらつきにより, 最先端のcnnベースのアルゴリズムにとって課題となっている。 一方、小さな病変は、しばしば低い解像度の医用画像から正確に脱線することが困難である。 一方,大病変の分節化には大きな受容野が必要であり,最初の課題がさらに悪化する。 本稿では,低解像度医用画像から様々な大きさの病変を適応的に区分する,スケールアウェア・スーパーレゾリューションネットワークを提案する。 提案するネットワークは,病変マスクのスーパーレゾリューションと病変画像のスーパーレゾリューションを同時に行う2つのブランチを含む。 イメージスーパーレゾリューションブランチは、細粒度のセグメンテーションのために、セグメンテーションブランチ、すなわちマスクスーパーレゾリューションブランチに対してより詳細な機能を提供する。 一方,マルチタスクデコーダにスケールアウェア拡張畳み込みブロックを導入し,病変の大きさに応じて畳み込みカーネルの受容野を適応的に調整する。 セグメンテーションブランチを,よりリッチな高分解能機能から学ぶためのガイドとして,機能アフィニティモジュールと,デュアルブランチのマルチタスク学習を強化するスケールアフィニティモジュールを提案する。 複数の挑戦的病変分割データセットにおいて,提案するネットワークは,他の最先端手法と比較して一貫した改善を実現した。

Convolutional Neural Networks (CNNs) have shown remarkable progress in medical image segmentation. However, lesion segmentation remains a challenge to state-of-the-art CNN-based algorithms due to the variance in scales and shapes. On the one hand, tiny lesions are hard to be delineated precisely from the medical images which are often of low resolutions. On the other hand, segmenting large-size lesions requires large receptive fields, which exacerbates the first challenge. In this paper, we present a scale-aware super-resolution network to adaptively segment lesions of various sizes from the low-resolution medical images. Our proposed network contains dual branches to simultaneously conduct lesion mask super-resolution and lesion image super-resolution. The image super-resolution branch will provide more detailed features for the segmentation branch, i.e., the mask super-resolution branch, for fine-grained segmentation. Meanwhile, we introduce scale-aware dilated convolution blocks into the multi-task decoders to adaptively adjust the receptive fields of the convolutional kernels according to the lesion sizes. To guide the segmentation branch to learn from richer high-resolution features, we propose a feature affinity module and a scale affinity module to enhance the multi-task learning of the dual branches. On multiple challenging lesion segmentation datasets, our proposed network achieved consistent improvements compared to other state-of-the-art methods.
翻訳日:2023-05-31 15:53:07 公開日:2023-05-30
# 強い相互作用を持つ量子気体中の創発的赤外コンフォーマルダイナミクス

Emergent Infrared Conformal Dynamics in Strongly Interacting Quantum Gases ( http://arxiv.org/abs/2305.19061v1 )

ライセンス: Link先を確認
Jeff Maki and Fei Zhou(参考訳) 共形力学は、相互作用がスケール対称に調整されたときに量子気体に現れる。 そのような系のよく知られた例は、フェシュバッハ共鳴の3次元フェルミ気体である。 このレターでは、一次元調和的に閉じ込められたフェルミ気体の赤外限界において、系が正確にはスケール対称な相互作用を持たないとしても、共形力学がどのように現れるかを説明している。 共形力学は、近赤外安定スケール不変相互作用による強い再正規化効果によって誘導される。 システムが赤外線限界に近づくとき、または外部調和トラップ周波数$\omega_f \rightarrow 0$のとき、ダイナミクスは一般的な相互作用系のように定数ではなく、ユニークな消滅率$\Gamma \propto \omega_f$によって特徴づけられる。 また、2つのクエンチプロトコルで実行される作業、$w$と平均的なパワー$\mathcal{p}$を調べます。 一次元において、平均的なパワーである$\mathcal{p} \propto \omega_f$ は、創発的共形力学の署名である赤外線限界において、無限に小さくなる。

Conformal dynamics can appear in quantum gases when the interactions are fine tuned to be scale symmetric. One well-known example of such a system is a three-dimensional Fermi gas at a Feshbach resonance. In this letter, we illustrate how conformal dynamics can also emerge in the infrared limit in one-dimensional harmonically trapped Fermi gases, even though the system may not have exactly scale symmetric interactions. The conformal dynamics are induced by strong renormalization effects due to the nearby infrared stable scale invariant interaction. When the system approaches the infrared limit, or when the external harmonic trapping frequency $\omega_f \rightarrow 0$, the dynamics are characterized by a unique vanishingly small dissipation rate, $\Gamma \propto \omega_f$, rather than a constant as in generic interacting systems. We also examine the work done in a two-quench protocol, $W$, and the average power $\mathcal{P}$. In one dimension, the average power, $\mathcal{P} \propto \omega_f$, becomes vanishingly small in the infrared limit, a signature of emergent conformal dynamics.
翻訳日:2023-05-31 15:52:41 公開日:2023-05-30
# Voxel2血行動態:冠動脈血行動態予測のためのエンドツーエンドディープラーニング手法

Voxel2Hemodynamics: An End-to-end Deep Learning Method for Predicting Coronary Artery Hemodynamics ( http://arxiv.org/abs/2305.19107v1 )

ライセンス: Link先を確認
Ziyu Ni, Linda Wei, Lijian Xu, Simon Yu, Qing Xia, Hongsheng Li and Shaoting Zhang(参考訳) 局所血行動態は冠動脈狭窄の機能的意義を判定し,冠動脈疾患進展のメカニズムを理解する上で重要な役割を担っている。 冠動脈造影CT(CCTA)画像から血行動態を非侵襲的にシミュレートするためにCFD(Computational fluid dynamics)が広く行われている。 しかし、正確な計算分析は、患者固有のモデリングと時間を要する計算の複雑な構成によって制限されている。 本研究では,CCTA画像から冠状動脈血行動態を予測できるエンドツーエンドのディープラーニングフレームワークを提案する。 このモデルは、合成データと実際のデータセットの3次元シミュレーションから得られた血行力学的データに基づいて訓練された。 本法により予測された血行動態分布はCFD由来の結果とよく一致した。 定量的に,提案手法では,合成データセットと実データセットの平均誤差が0.5\%,2.5\%の分数フロー予備量を予測することができる。 特に,point cloudインプットを用いたpointnet++と比較して,実際のデータセットの精度が大幅に向上した。 本研究は,血行動態解析のための高速かつ高精度なアプローチとして,エンドツーエンドの深層学習法の有効性と可能性を示す。

Local hemodynamic forces play an important role in determining the functional significance of coronary arterial stenosis and understanding the mechanism of coronary disease progression. Computational fluid dynamics (CFD) have been widely performed to simulate hemodynamics non-invasively from coronary computed tomography angiography (CCTA) images. However, accurate computational analysis is still limited by the complex construction of patient-specific modeling and time-consuming computation. In this work, we proposed an end-to-end deep learning framework, which could predict the coronary artery hemodynamics from CCTA images. The model was trained on the hemodynamic data obtained from 3D simulations of synthetic and real datasets. Extensive experiments demonstrated that the predicted hemdynamic distributions by our method agreed well with the CFD-derived results. Quantitatively, the proposed method has the capability of predicting the fractional flow reserve with an average error of 0.5\% and 2.5\% for the synthetic dataset and real dataset, respectively. Particularly, our method achieved much better accuracy for the real dataset compared to PointNet++ with the point cloud input. This study demonstrates the feasibility and great potential of our end-to-end deep learning method as a fast and accurate approach for hemodynamic analysis.
翻訳日:2023-05-31 15:47:04 公開日:2023-05-30
# 概念表現は身体を必要とするか? 大規模言語モデルからの洞察

Does Conceptual Representation Require Embodiment? Insights From Large Language Models ( http://arxiv.org/abs/2305.19103v1 )

ライセンス: Link先を確認
Qihui Xu, Yingying Peng, Minghua Wu, Feng Xiao, Martin Chodorow, and Ping Li(参考訳) 大規模言語モデル(llm)の最近の進歩は、知識表現が具体的経験の基盤を必要とする程度に関する議論に光を当てる可能性がある。 限られたモダリティ(例えば GPT-3.5 のテキストと GPT-4 のテキスト+イメージ)から学ぶにもかかわらず、LLM は様々な心理学的タスクにおいて人間のような振る舞いを実証し、概念的知識の獲得の代替解釈を提供する。 ヒトとChatGPT(GPT-3.5, GPT-4)の語彙的概念表現を,様々な語彙的概念的特徴や次元(感情的覚醒,具体性,触覚など)の主観的評価と比較した。 その結果、GPT-3.5とGPT-4は、感情やサリエンスなどの抽象的な次元において人間と強く相関していた。 GPT-3.5ではGPT-4はGPT-3.5に比べて有意に進行した。 それでもgpt-4は、足/足、口/足、胴体などの概念知識の運動面を完全に捉えるのに苦労している。 さらに, GPT-4の進歩は視覚領域でのトレーニングと大きく関連していることがわかった。 概念表現の特定の側面は感覚能力からある程度独立しているように見えるが、それらを必要とするものもいる。 本研究は,多様な視点から知識表現の複雑さを考察し,言語形成や認知における具体的経験の潜在的影響を明らかにする。

Recent advances in large language models (LLM) have the potential to shed light on the debate regarding the extent to which knowledge representation requires the grounding of embodied experience. Despite learning from limited modalities (e.g., text for GPT-3.5, and text+image for GPT-4), LLMs have nevertheless demonstrated human-like behaviors in various psychology tasks, which may provide an alternative interpretation of the acquisition of conceptual knowledge. We compared lexical conceptual representations between humans and ChatGPT (GPT-3.5 and GPT-4) on subjective ratings of various lexical conceptual features or dimensions (e.g., emotional arousal, concreteness, haptic, etc.). The results show that both GPT-3.5 and GPT-4 were strongly correlated with humans in some abstract dimensions, such as emotion and salience. In dimensions related to sensory and motor domains, GPT-3.5 shows weaker correlations while GPT-4 has made significant progress compared to GPT-3.5. Still, GPT-4 struggles to fully capture motor aspects of conceptual knowledge such as actions with foot/leg, mouth/throat, and torso. Moreover, we found that GPT-4's progress can largely be associated with its training in the visual domain. Certain aspects of conceptual representation appear to exhibit a degree of independence from sensory capacities, but others seem to necessitate them. Our findings provide insights into the complexities of knowledge representation from diverse perspectives and highlights the potential influence of embodied experience in shaping language and cognition.
翻訳日:2023-05-31 15:46:28 公開日:2023-05-30
# どのモデルが知覚に相応しい勾配を持つか? off-manifold robustness による説明

Which Models have Perceptually-Aligned Gradients? An Explanation via Off-Manifold Robustness ( http://arxiv.org/abs/2305.19101v1 )

ライセンス: Link先を確認
Suraj Srinivas, Sebastian Bordt, Hima Lakkaraju(参考訳) 堅牢なコンピュータビジョンモデルの顕著な特性の1つは、その入力勾配が人間の知覚と整合していることであり、文献では知覚整合勾配(PAG)と呼ばれている。 分類のためにのみ訓練されているにもかかわらず、PAGは堅牢なモデルに画像生成、装飾、塗装を含む初歩的な生成能力をもたらす。 しかし、これらの現象の背後にあるメカニズムは不明である。 本研究では,モデルがデータ多様体よりもより頑健でなければならないことを述べる,\emph{off-manifold robustness} によるpagsの最初の説明を提供する。 まず,オフ多様体のロバスト性が入力勾配をおよそデータ多様体上に置くことを示し,その知覚的アライメントを説明する。 次に,ベイズ最適モデルはオフ・マニフォールド・ロバスト性を満たすことを示し,勾配ノルム正則化,ノイズ拡張,ランダム化平滑化によってトレーニングされたロバストモデルについても経験的に同じことを確認する。 モデル勾配の知覚的アライメントの定量化と生成モデルの勾配との類似性から,オフマニフォールドのロバスト性は知覚的アライメントとよく相関することを示す。 最後に,onおよびoff-manifoldのロバスト性レベルに基づいて,知覚的アライメントとモデルの正確性の両方に影響を与える3つの異なるロバスト性(弱ロバスト性,ベイズアライメントロバスト性,過度のロバスト性)を同定する。

One of the remarkable properties of robust computer vision models is that their input-gradients are often aligned with human perception, referred to in the literature as perceptually-aligned gradients (PAGs). Despite only being trained for classification, PAGs cause robust models to have rudimentary generative capabilities, including image generation, denoising, and in-painting. However, the underlying mechanisms behind these phenomena remain unknown. In this work, we provide a first explanation of PAGs via \emph{off-manifold robustness}, which states that models must be more robust off- the data manifold than they are on-manifold. We first demonstrate theoretically that off-manifold robustness leads input gradients to lie approximately on the data manifold, explaining their perceptual alignment. We then show that Bayes optimal models satisfy off-manifold robustness, and confirm the same empirically for robust models trained via gradient norm regularization, noise augmentation, and randomized smoothing. Quantifying the perceptual alignment of model gradients via their similarity with the gradients of generative models, we show that off-manifold robustness correlates well with perceptual alignment. Finally, based on the levels of on- and off-manifold robustness, we identify three different regimes of robustness that affect both perceptual alignment and model accuracy: weak robustness, bayes-aligned robustness, and excessive robustness.
翻訳日:2023-05-31 15:45:42 公開日:2023-05-30
# 医用順序ラベルからの連続スコア予測のための一般化フレームワーク

A generalized framework to predict continuous scores from medical ordinal labels ( http://arxiv.org/abs/2305.19097v1 )

ライセンス: Link先を確認
Katharina V. Hoebel, Andreanne Lemay, John Peter Campbell, Susan Ostmo, Michael F. Chiang, Christopher P. Bridge, Matthew D. Li, Praveer Singh, Aaron S. Coyner, Jayashree Kalpathy-Cramer(参考訳) 病気の重症度などの臨床医学への関心の多くの変数は、通常/ミルド/モデレート/重症度のような個別の順序分類を用いて記録される。 これらのラベルは、疾病重症度予測モデルを訓練し、評価するために使用される。 しかし、順序圏は下層の連続重度スペクトルの単純化を表す。 順序カテゴリーの代わりに連続的なスコアを使うことは、時間とともに病気の重症度が小さな変化を検知するのにより敏感である。 本稿では,モデル開発中に離散順序ラベルのみを用いて,連続価値変数を正確に予測する一般化フレームワークを提案する。 3つの臨床予測タスクにおいて,訓練ラベルの順序関係を考慮したモデルが,従来のマルチクラス分類モデルよりも優れていた。 特に,順序分類と回帰モデルによって生成された連続スコアは,マルチクラス分類モデルと比較して,病害度および平均二乗誤差のエキスパートランキングと有意に高い相関を示した。 さらに,MCドロップアウトの使用により,基礎となる連続目標変数を真に反映した連続的な評価スコアを予測するための,すべての評価されたディープラーニングアプローチの能力が大幅に向上した。 モデル開発が離散順序ラベルのみを含む場合でも,精度の高い連続的価値予測が生成可能であることを示した。 この新しいフレームワークは、3つの異なる臨床予測タスクで検証され、離散順序ラベルと基礎となる連続的価値変数の間のギャップを埋めることが証明されている。

Many variables of interest in clinical medicine, like disease severity, are recorded using discrete ordinal categories such as normal/mild/moderate/severe. These labels are used to train and evaluate disease severity prediction models. However, ordinal categories represent a simplification of an underlying continuous severity spectrum. Using continuous scores instead of ordinal categories is more sensitive to detecting small changes in disease severity over time. Here, we present a generalized framework that accurately predicts continuously valued variables using only discrete ordinal labels during model development. We found that for three clinical prediction tasks, models that take the ordinal relationship of the training labels into account outperformed conventional multi-class classification models. Particularly the continuous scores generated by ordinal classification and regression models showed a significantly higher correlation with expert rankings of disease severity and lower mean squared errors compared to the multi-class classification models. Furthermore, the use of MC dropout significantly improved the ability of all evaluated deep learning approaches to predict continuously valued scores that truthfully reflect the underlying continuous target variable. We showed that accurate continuously valued predictions can be generated even if the model development only involves discrete ordinal labels. The novel framework has been validated on three different clinical prediction tasks and has proven to bridge the gap between discrete ordinal labels and the underlying continuously valued variables.
翻訳日:2023-05-31 15:45:08 公開日:2023-05-30
# DiffMatch:Dense Matchingのための拡散モデル

DiffMatch: Diffusion Model for Dense Matching ( http://arxiv.org/abs/2305.19094v1 )

ライセンス: Link先を確認
Jisu Nam, Gyuseong Lee, Sunwoo Kim, Hyeonsu Kim, Hyoungwon Cho, Seyeon Kim, Seungryong Kim(参考訳) ペア画像間の密接な対応を確立する目的は、データ項と前項の2つの用語からなる。 しかし近年のアプローチでは,モデル自体が大規模データセットから最適な事前学習能力を持つことを前提として,事前を明示的にモデル化することなく,深層ニューラルネットワークによるデータ項の学習に重点を置いている。 性能改善は明らかであったが、しばしば、テクスチャレス領域、反復パターン、大きな変位など、マッチングの本来の曖昧さに対処できなかった。 そこで我々は,データと先行項の両方を明示的にモデル化する新しい条件付き拡散ベースフレームワークdiffmatchを提案する。 従来の手法とは異なり、これは条件付き縮退拡散モデルを活用することで達成される。 DiffMatchは2つの主要なコンポーネントで構成されている。 段階的なトレーニング戦略により,トレーニングプロセスの安定化とメモリ使用量の削減を図る。 さらに,性能向上のため,精度の高いマッチングフィールドへのより良いパスを見出す推論手法を提案する。 実験の結果,既存手法よりも提案手法の大幅な性能向上が示され,各部品の有効性とともに設計選択の有効性が検証された。 プロジェクトページはhttps://ku-cvlab.github.io/diffmatch/。

The objective for establishing dense correspondence between paired images consists of two terms: a data term and a prior term. While conventional techniques focused on defining hand-designed prior terms, which are difficult to formulate, recent approaches have focused on learning the data term with deep neural networks without explicitly modeling the prior, assuming that the model itself has the capacity to learn an optimal prior from a large-scale dataset. The performance improvement was obvious, however, they often fail to address inherent ambiguities of matching, such as textureless regions, repetitive patterns, and large displacements. To address this, we propose DiffMatch, a novel conditional diffusion-based framework designed to explicitly model both the data and prior terms. Unlike previous approaches, this is accomplished by leveraging a conditional denoising diffusion model. DiffMatch consists of two main components: conditional denoising diffusion module and cost injection module. We stabilize the training process and reduce memory usage with a stage-wise training strategy. Furthermore, to boost performance, we introduce an inference technique that finds a better path to the accurate matching field. Our experimental results demonstrate significant performance improvements of our method over existing approaches, and the ablation studies validate our design choices along with the effectiveness of each component. Project page is available at https://ku-cvlab.github.io/DiffMatch/.
翻訳日:2023-05-31 15:44:43 公開日:2023-05-30
# 共にセンスを作る - 事前訓練された静的センス埋め込みからメタセンス埋め込みを学ぶ

Together We Make Sense -- Learning Meta-Sense Embeddings from Pretrained Static Sense Embeddings ( http://arxiv.org/abs/2305.19092v1 )

ライセンス: Link先を確認
Haochen Luo, Yi Zhou, Danushka Bollegala(参考訳) 感覚埋め込み学習法は、与えられた曖昧な単語に対して複数のベクトルを学習する。 この目的のために, センスインベントリ, センスタグ付きコーパス, 学習方法を用いた感覚埋め込み学習の先行研究において, 様々な手法が提案されている。 しかし、既存のすべての感覚埋め込みが、トレーニングリソースの相違により、曖昧な言葉のあらゆる感覚を均等にカバーしているわけではない。 そこで,本研究では,複数の個別に訓練されたソース感覚埋め込みを組み合わせることで,ソース埋め込みから計算された感覚がメタ埋め込み空間に保存されるようにすることで,メタセンス埋め込みを学習するメタセンス埋め込みの保存手法を提案する。 提案手法は,異なる単語知覚セットをカバーするソースセンス埋め込みを組み合わせることができる。 Word Sense Disambiguation (WSD) と Word-in-Context (WiC) のタスクに対する実験結果から,提案したメタセンス埋め込み手法は競争力のあるベースラインを一貫して上回ることがわかった。

Sense embedding learning methods learn multiple vectors for a given ambiguous word, corresponding to its different word senses. For this purpose, different methods have been proposed in prior work on sense embedding learning that use different sense inventories, sense-tagged corpora and learning methods. However, not all existing sense embeddings cover all senses of ambiguous words equally well due to the discrepancies in their training resources. To address this problem, we propose the first-ever meta-sense embedding method -- Neighbour Preserving Meta-Sense Embeddings, which learns meta-sense embeddings by combining multiple independently trained source sense embeddings such that the sense neighbourhoods computed from the source embeddings are preserved in the meta-embedding space. Our proposed method can combine source sense embeddings that cover different sets of word senses. Experimental results on Word Sense Disambiguation (WSD) and Word-in-Context (WiC) tasks show that the proposed meta-sense embedding method consistently outperforms several competitive baselines.
翻訳日:2023-05-31 15:44:23 公開日:2023-05-30
# TrueDeep: 少ないデータによるき裂検出の体系的アプローチ

TrueDeep: A systematic approach of crack detection with less data ( http://arxiv.org/abs/2305.19088v1 )

ライセンス: Link先を確認
Ram Krishna Pandey and Akshit Achara(参考訳) 教師付きおよび半教師付きセマンティックセグメンテーションアルゴリズムは、優れたパフォーマンスを達成するために大量のアノテートデータを必要とする。 多くの場合、データは利用できないか、アノテーションが高価である。 この研究の目的は、ドメイン知識とディープラーニングアーキテクチャを組み合わせることで、少ないデータで同様のパフォーマンスを実現することができることを示すことである。 我々は公開のクラックセグメンテーションデータセットを用いて,知識を用いた入力画像の選択により,ディープラーニングベースのアーキテクチャの性能が著しく向上することを示した。 提案手法は,アノテーションやトレーニングコストの低減,エネルギー消費量の低減など,多くの利点がある。 我々は,mIoU(mIoU)とF(F)の平均交叉率の観点から,アルゴリズムの性能を定量的に測定した。 当社のアルゴリズムは全体の23%で開発されており、テストデータでも同様のパフォーマンスと、複数のブラインドデータセットでのパフォーマンスが大幅に向上しています。

Supervised and semi-supervised semantic segmentation algorithms require significant amount of annotated data to achieve a good performance. In many situations, the data is either not available or the annotation is expensive. The objective of this work is to show that by incorporating domain knowledge along with deep learning architectures, we can achieve similar performance with less data. We have used publicly available crack segmentation datasets and shown that selecting the input images using knowledge can significantly boost the performance of deep-learning based architectures. Our proposed approaches have many fold advantages such as low annotation and training cost, and less energy consumption. We have measured the performance of our algorithm quantitatively in terms of mean intersection over union (mIoU) and F score. Our algorithms, developed with 23% of the overall data; have a similar performance on the test data and significantly better performance on multiple blind datasets.
翻訳日:2023-05-31 15:44:03 公開日:2023-05-30
# セグメンテーションにおけるクラス特化訓練とテストタイムデータの統合最適化

Joint Optimization of Class-Specific Training- and Test-Time Data Augmentation in Segmentation ( http://arxiv.org/abs/2305.19084v1 )

ライセンス: Link先を確認
Zeju Li, Konstantinos Kamnitsas, Qi Dou, Chen Qin and Ben Glocker(参考訳) 本稿では,医療画像分割のための有効かつ汎用的なデータ拡張フレームワークを提案する。 本研究では,未確認テストデータのプロキシとして使用されるトレーニングデータと検証データの分布を,計算効率が高く,データ効率のよいメタラーニング方式を採用する。 2つのコア設計で現在のデータ拡張戦略を改善します。 まず、クラス固有のトレーニング時間データ拡張(TRA)を学習し、トレーニングサブセット内の不均一性を効果的に増加させ、セグメンテーションに共通するクラス不均衡に取り組む。 第2に、TRAとテスト時間データ拡張(TEA)を協調的に最適化し、トレーニングとテストデータ分布の整合性を両立させることを目的としているが、これまでは別途検討されてきた。 本稿では,DeepMedic と nnU-Net の2つの最先端セグメンテーションモデルを用いて,異なるシナリオにまたがる4つの医用画像セグメンテーションタスクの有効性を示す。 大規模な実験により,提案したデータ拡張フレームワークは,既存のソリューションと比較してセグメンテーション性能を大幅に向上させることができることがわかった。 コードは公開されている。

This paper presents an effective and general data augmentation framework for medical image segmentation. We adopt a computationally efficient and data-efficient gradient-based meta-learning scheme to explicitly align the distribution of training and validation data which is used as a proxy for unseen test data. We improve the current data augmentation strategies with two core designs. First, we learn class-specific training-time data augmentation (TRA) effectively increasing the heterogeneity within the training subsets and tackling the class imbalance common in segmentation. Second, we jointly optimize TRA and test-time data augmentation (TEA), which are closely connected as both aim to align the training and test data distribution but were so far considered separately in previous works. We demonstrate the effectiveness of our method on four medical image segmentation tasks across different scenarios with two state-of-the-art segmentation models, DeepMedic and nnU-Net. Extensive experimentation shows that the proposed data augmentation framework can significantly and consistently improve the segmentation performance when compared to existing solutions. Code is publicly available.
翻訳日:2023-05-31 15:43:48 公開日:2023-05-30
# バロン型空間に対する埋め込み不等式

Embedding Inequalities for Barron-type Spaces ( http://arxiv.org/abs/2305.19082v1 )

ライセンス: Link先を確認
Lei Wu(参考訳) 深層学習理論における根本的な問題の一つは、高次元の2層ニューラルネットワークの近似と一般化特性を理解することである。 この問題に取り組むために、研究者はバロン空間 $\mathcal{B}_s(\Omega)$ とスペクトルバロン空間 $\mathcal{F}_s(\Omega)$ を導入し、インデックス $s$ はこれらの空間内の関数の滑らかさを特徴づけ、$\Omega\subset\mathbb{R}^d$ は入力領域を表す。 しかし、この二つのタイプのバロン空間の間の関係は未だ明らかではない。 任意の$\delta\in (0,1), s\in \mathbb{N}^{+}$, $f: \Omega \mapsto\mathbb{R}$, \[ \delta\gamma^{\delta-s}_{\Omega}\|f\|_{\mathcal{F}_{s-\delta}(\Omega)}\lesssim_s \|f\|_{\mathcal{B}_s(\Omega)}\lesssim_s \|f\|_{\mathcal{F}_{s+1}(\Omega)}, \] ここで $\gammaOmega \mapsto\mathbb{R}$, $f: \Omega \mapsto\mathbb{R}$, \\Omega}\|f\|_{\mathcal{F}_{s-\delta}(\Omega)} が成立する。 さらに、下界が密であることを示す例を示す。

One of the fundamental problems in deep learning theory is understanding the approximation and generalization properties of two-layer neural networks in high dimensions. In order to tackle this issue, researchers have introduced the Barron space $\mathcal{B}_s(\Omega)$ and the spectral Barron space $\mathcal{F}_s(\Omega)$, where the index $s$ characterizes the smoothness of functions within these spaces and $\Omega\subset\mathbb{R}^d$ represents the input domain. However, it is still not clear what is the relationship between the two types of Barron spaces. In this paper, we establish continuous embeddings between these spaces as implied by the following inequality: for any $\delta\in (0,1), s\in \mathbb{N}^{+}$ and $f: \Omega \mapsto\mathbb{R}$, it holds that \[ \delta\gamma^{\delta-s}_{\Omega}\|f\|_{\mathcal{F}_{s-\delta}(\Omega)}\lesssim_s \|f\|_{\mathcal{B}_s(\Omega)}\lesssim_s \|f\|_{\mathcal{F}_{s+1}(\Omega)}, \] where $\gamma_{\Omega}=\sup_{\|v\|_2=1,x\in\Omega}|v^Tx|$ and notably, the hidden constants depend solely on the value of $s$. Furthermore, we provide examples to demonstrate that the lower bound is tight.
翻訳日:2023-05-31 15:43:26 公開日:2023-05-30
# 自己教師あり画像再構成法のサンプル複雑さの解析

Analyzing the Sample Complexity of Self-Supervised Image Reconstruction Methods ( http://arxiv.org/abs/2305.19079v1 )

ライセンス: Link先を確認
Tobit Klug, Dogukan Atik, Reinhard Heckel(参考訳) クリーンな画像とノイズ測定のペアによるディープニューラルネットワークのトレーニングは、多くの画像再構成タスクにおいて最先端のパフォーマンスを達成するが、そのようなトレーニングペアの収集は通常困難である。 様々な自己監督手法は、クリーンな画像なしでノイズ測定のみに基づくトレーニングを可能にする。 本研究では,サンプルの複雑さを特徴付けることで,自己指導型トレーニングのコストについて検討する。 ノイズ2ノイズ法を含む教師付き損失の勾配の偏りのない推定値の計算を可能にする自己教師付き手法のクラスに着目した。 まず,このような自己監督訓練を受けたモデルが、自己監督訓練で訓練されたモデルと同等に優れていることを分析的に示すが、自己監督訓練では、指導訓練よりも多くの例が必要となる。 そこで我々は,MRIの自己指導・加速を実証的に研究し,追加サンプル数の観点から自己指導訓練のコストを特徴付けるとともに,自己指導訓練と教師訓練のパフォーマンスギャップが,問題依存率で,我々の理論によって予測される訓練例の関数として消滅することを発見した。

Supervised training of deep neural networks on pairs of clean image and noisy measurement achieves state-of-the-art performance for many image reconstruction tasks, but such training pairs are usually difficult to collect. A variety of self-supervised methods enable training based on noisy measurements only, without clean images. In this work, we investigate the cost of self-supervised training by characterizing its sample complexity. We focus on a class of self-supervised methods that enable the computation of unbiased estimates of gradients of the supervised loss, including noise2noise methods. We first analytically show that a model trained with such self-supervised training is as good as the same model trained in a supervised fashion, but self-supervised training requires more examples than supervised training. We then study self-supervised denoising and accelerated MRI empirically and characterize the cost of self-supervised training in terms of the number of additional samples required, and find that the performance gap between self-supervised and supervised training vanishes as a function of the training examples, at a problem-dependent rate, as predicted by our theory.
翻訳日:2023-05-31 15:42:18 公開日:2023-05-30
# k^2$-trees による階層グラフ生成

Hierarchical Graph Generation with $K^2$-trees ( http://arxiv.org/abs/2305.19125v1 )

ライセンス: Link先を確認
Yunhui Jang, Dongwoo Kim, Sungsoo Ahn(参考訳) ターゲットの分布からグラフを生成することは、薬物発見やソーシャルネットワーク分析など、多くのドメインで大きな課題である。 本研究では,もともとロスレスグラフ圧縮のために設計された$k^2$-tree表現を用いた新しいグラフ生成手法を提案する。 我々の動機は、グラフの固有の階層構造を同時に捉えながら、コンパクト生成を可能にするために$k^2$-treesの能力にある。 また,(1)プランニング,フラット化,およびトークン化処理を組み込んだ逐次$k^2$-tree表現と,(2)特別な木位置符号化スキームを組み込んでシーケンスを生成するよう設計されたトランスフォーマティブアーキテクチャを導入することで,さらなる貢献を行う。 最後に,本アルゴリズムを4つの一般および2つの分子グラフデータセット上で広範囲に評価し,グラフ生成の優位性を確認する。

Generating graphs from a target distribution is a significant challenge across many domains, including drug discovery and social network analysis. In this work, we introduce a novel graph generation method leveraging $K^2$-tree representation which was originally designed for lossless graph compression. Our motivation stems from the ability of the $K^2$-trees to enable compact generation while concurrently capturing the inherent hierarchical structure of a graph. In addition, we make further contributions by (1) presenting a sequential $K^2$-tree representation that incorporates pruning, flattening, and tokenization processes and (2) introducing a Transformer-based architecture designed to generate the sequence by incorporating a specialized tree positional encoding scheme. Finally, we extensively evaluate our algorithm on four general and two molecular graph datasets to confirm its superiority for graph generation.
翻訳日:2023-05-31 15:36:31 公開日:2023-05-30
# カリーフフュージョン:拡散モデルによる中国の書道生成と書体伝達

Calliffusion: Chinese Calligraphy Generation and Style Transfer with Diffusion Modeling ( http://arxiv.org/abs/2305.19124v1 )

ライセンス: Link先を確認
Qisheng Liao, Gus Xia, Zhinuo Wang(参考訳) 本稿では,拡散モデルを用いた高品質中国語書道作成システムであるcalliffusionを提案する。 我々のモデルアーキテクチャはDDPM(Denoising Diffusion Probabilistic Models)に基づいており、5つの異なるスクリプトで共通文字を生成し、有名な書体のスタイルを模倣することができる。 実験により,本モデルは実際の美術品と区別が難しい書跡を生成でき,文字,スクリプト,スタイルの制御が効果的であることを実証した。 さらに,LoRA(Low-Rank Adaptation)を用いて中国語の書風を未知の文字や,英語の文字や数字などドメイン外記号に変換する一発転写学習を実演する。

In this paper, we propose Calliffusion, a system for generating high-quality Chinese calligraphy using diffusion models. Our model architecture is based on DDPM (Denoising Diffusion Probabilistic Models), and it is capable of generating common characters in five different scripts and mimicking the styles of famous calligraphers. Experiments demonstrate that our model can generate calligraphy that is difficult to distinguish from real artworks and that our controls for characters, scripts, and styles are effective. Moreover, we demonstrate one-shot transfer learning, using LoRA (Low-Rank Adaptation) to transfer Chinese calligraphy art styles to unseen characters and even out-of-domain symbols such as English letters and digits.
翻訳日:2023-05-31 15:36:14 公開日:2023-05-30
# ELSA:半パラメトリックモデルのレンズによる効率的なラベルシフト適応

ELSA: Efficient Label Shift Adaptation through the Lens of Semiparametric Models ( http://arxiv.org/abs/2305.19123v1 )

ライセンス: Link先を確認
Qinglong Tian, Xin Zhang, Jiwei Zhao(参考訳) 本研究ではラベルシフトを伴う領域適応問題について検討する。 ラベルシフトのコンテキスト下では、ラベルの限界分布はトレーニングとテストデータセットによって異なり、ラベルが与えられた機能の条件分布は同じである。 従来のラベルシフト適応法は、大きな推定誤差に苦しむか、予測後キャリブレーションが必要となる。 これらの問題に対処するために,まず,インフルエンス関数の幾何学に基づくラベルシフト適応のためのモーメントマッチングフレームワークを提案する。 そのような枠組みの下で、線形系を解くことで適応重みを推定できる新しい手法である \underline{E}fficient \underline{L}abel \underline{S}hift \underline{A}daptation (ELSA) を提案する。 理論的には、ELSA推定子は$\sqrt{n}$-consistent ($n$ is the sample size of the source data)であり、漸近的に正規である。 実験により,ELSAは予測後のキャリブレーションを伴わずに最先端の予測性能を達成でき,計算効率が向上することを示した。

We study the domain adaptation problem with label shift in this work. Under the label shift context, the marginal distribution of the label varies across the training and testing datasets, while the conditional distribution of features given the label is the same. Traditional label shift adaptation methods either suffer from large estimation errors or require cumbersome post-prediction calibrations. To address these issues, we first propose a moment-matching framework for adapting the label shift based on the geometry of the influence function. Under such a framework, we propose a novel method named \underline{E}fficient \underline{L}abel \underline{S}hift \underline{A}daptation (ELSA), in which the adaptation weights can be estimated by solving linear systems. Theoretically, the ELSA estimator is $\sqrt{n}$-consistent ($n$ is the sample size of the source data) and asymptotically normal. Empirically, we show that ELSA can achieve state-of-the-art estimation performances without post-prediction calibrations, thus, gaining computational efficiency.
翻訳日:2023-05-31 15:36:00 公開日:2023-05-30
# バイオメディカルタスクにおけるNERアプローチの比較と組み合わせ

Comparing and combining some popular NER approaches on Biomedical tasks ( http://arxiv.org/abs/2305.19120v1 )

ライセンス: Link先を確認
Harsh Verma, Sabine Bergler, Narjesossadat Tahaei(参考訳) NERに対する3つのシンプルで一般的なアプローチを比較します。 1) seq(線形トークン分類器付きシーケンスラベル) 2)SeqCRF(条件付ランダムフィールド付きシーケンスラベル)及び 3) SpanPred(span-prediction with boundary token embeddeds) バイオメディカルNERの課題として,genia,NCBI-Disease,LivingNER(スペイン語),SocialDisNER(スペイン語)の4つを比較した。 SpanPredモデルは、LivingNERとSocialDisNERの最先端のパフォーマンスを示し、それぞれ1.3と0.6のF1を改善している。 SeqCRFモデルはまた、LivingNERとSocialDisNERの最先端性能を示し、それぞれF1を0.2F1、0.7改善した。 SEQモデルは、LivingNERデータセットの最先端と競合する。 3つのアプローチを組み合わせるための簡単な方法を探る。 過半数の投票は、4つのデータセットすべてに高い精度と高いF1を与える。 最後に、SEQとSpanPredの予測を組み合わせて学習するシステムを実装し、4つのデータセットすべてに高いリコールと高いF1を与えるシステムを生成する。 geniaデータセットでは、学習したコンビネータシステムは、結合するシステムに対してf1(+1.2)とrecall(+2.1)を大幅に増加させることがわかった。 私たちはすべてのシステムを再現するのに必要な文書化されたコードをhttps://github.com/flyingmothman/bionlpですべてリリースします。

We compare three simple and popular approaches for NER: 1) SEQ (sequence-labeling with a linear token classifier) 2) SeqCRF (sequence-labeling with Conditional Random Fields), and 3) SpanPred (span-prediction with boundary token embeddings). We compare the approaches on 4 biomedical NER tasks: GENIA, NCBI-Disease, LivingNER (Spanish), and SocialDisNER (Spanish). The SpanPred model demonstrates state-of-the-art performance on LivingNER and SocialDisNER, improving F1 by 1.3 and 0.6 F1 respectively. The SeqCRF model also demonstrates state-of-the-art performance on LivingNER and SocialDisNER, improving F1 by 0.2 F1 and 0.7 respectively. The SEQ model is competitive with the state-of-the-art on the LivingNER dataset. We explore some simple ways of combining the three approaches. We find that majority voting consistently gives high precision and high F1 across all 4 datasets. Lastly, we implement a system that learns to combine the predictions of SEQ and SpanPred, generating systems that consistently give high recall and high F1 across all 4 datasets. On the GENIA dataset, we find that our learned combiner system significantly boosts F1(+1.2) and recall(+2.1) over the systems being combined. We release all the well-documented code necessary to reproduce all systems at https://github.com/flyingmothman/bionlp.
翻訳日:2023-05-31 15:35:37 公開日:2023-05-30
# 原子配列$^{171}$ybにおける中回路量子ビットの測定と再構成

Mid-circuit qubit measurement and rearrangement in a $^{171}$Yb atomic array ( http://arxiv.org/abs/2305.19119v1 )

ライセンス: Link先を確認
M. A. Norcia, W. B. Cairncross, K. Barnes, P. Battaglino, A. Brown, M. O. Brown, K. Cassella, C.-A. Chen, R. Coxe, D. Crow, J. Epstein, C. Griger, A. M. W. Jones, H. Kim, J. M. Kindem, J. King, S. S. Kondov, K. Kotru, J. Lauigan, M. Li, M. Lu, E. Megidish, J. Marjanovic, M. McDonald, T. Mittiga, J. A. Muniz, S. Narayanaswami, C. Nishiguchi, R. Notermans, T. Paule, K. Pawlak, L. Peng, A. Ryou, A. Smull, D. Stack, M. Stone, A. Sucich, M. Urbanek, R. van de Veerdonk, Z. Vendeiro, T. Wilkason, T.-Y. Wu, X. Xie, B. J. Bloom(参考訳) 測定に基づく量子誤り訂正は、残りの量子ビットの状態を明らかにしたり邪魔したりすることなく、プロセッサ内の量子ビット(アンシラ)のサブセットの状態を決定する能力に依存する。 中性原子ベースのプラットフォームでは、アンシラキュービットを将来の操作に適した状態で保持する中回路計測へのスケーラブルで高忠実なアプローチはまだ実証されていない。 本研究では,Tweezer-confined $^{171}$Yb 原子配列の狭い直線遷移を用いてイメージングを行い,非破壊的な状態選択およびサイト選択検出を示す。 サイト固有の光シフトを適用することで、アレイ内の選択された原子を撮像光から隠蔽することができるため、残りの量子ビットにパーセンテージレベルのエラーしか発生せず、キュービットのサブセットを測定できる。 中間回路測定結果に基づく条件付き操作の原理実証と,この条件付き量子ビットを再利用する能力の実証として,データキュービットのコヒーレンスを維持しつつ,アシラサイトを条件付きで満たし,時折アトムロスを補正する。 真の連続動作をめざして、最小の量子ビットデコヒーレンスを持つ磁気光学トラップの載荷を実演する。

Measurement-based quantum error correction relies on the ability to determine the state of a subset of qubits (ancillae) within a processor without revealing or disturbing the state of the remaining qubits. Among neutral-atom based platforms, a scalable, high-fidelity approach to mid-circuit measurement that retains the ancilla qubits in a state suitable for future operations has not yet been demonstrated. In this work, we perform imaging using a narrow-linewidth transition in an array of tweezer-confined $^{171}$Yb atoms to demonstrate nondestructive state-selective and site-selective detection. By applying site-specific light shifts, selected atoms within the array can be hidden from imaging light, which allows a subset of qubits to be measured while causing only percent-level errors on the remaining qubits. As a proof-of-principle demonstration of conditional operations based on the results of the mid-circuit measurements, and of our ability to reuse ancilla qubits, we perform conditional refilling of ancilla sites to correct for occasional atom loss, while maintaining the coherence of data qubits. Looking towards true continuous operation, we demonstrate loading of a magneto-optical trap with a minimal degree of qubit decoherence.
翻訳日:2023-05-31 15:35:14 公開日:2023-05-30
# マルチエージェント討論による大規模言語モデルにおける異種思考の促進

Encouraging Divergent Thinking in Large Language Models through Multi-Agent Debate ( http://arxiv.org/abs/2305.19118v1 )

ライセンス: Link先を確認
Tian Liang, Zhiwei He, Wenxiang Jiao, Xing Wang, Yan Wang, Rui Wang, Yujiu Yang, Zhaopeng Tu, Shuming Shi(参考訳) ChatGPTのような現代の大規模言語モデル(LLM)は、一般的な言語タスクにおいて顕著なパフォーマンスを示したが、複雑な推論タスクに苦戦している。 この方向に沿って、1つの代表的な戦略は自己回帰であり、llmに反復的に生成したフィードバックでソリューションを洗練するよう要求する。 しかし,本研究は,このようなリフレクションスタイルの手法が「脱生(DoT)問題」に悩まされていることを示唆している。 DoT問題に対処するために,複数のエージェントが"tit for tat"の状態で議論を表現し,審査員が議論プロセスを管理して最終解を得る,マルチエージェント議論(MAD)フレームワークを提案する。 明らかに、我々のMADフレームワークは、深い熟考を必要とするタスクに役に立つLSMにおける分岐思考を促進する。 2つの挑戦的データセット(コモンセンス機械翻訳と反直観的算術推論)の実験結果から,MADフレームワークの有効性が示された。 総合的な分析から,MADが良好な性能を得るためには,議論の適応的断裂と「試行錯誤状態」の質素なレベルが必要であることが示唆された。 さらに,異なるLSMをエージェントとして使用する場合,LSMは公平な判断にはならない可能性がある。 コード:https://github.com/Skytliang/Multi-Agents-Debate

Modern large language models (LLMs) like ChatGPT have shown remarkable performance on general language tasks but still struggle on complex reasoning tasks, which drives the research on cognitive behaviors of LLMs to explore human-like problem-solving strategies. Along this direction, one representative strategy is self-reflection, which asks an LLM to refine the solution with the feedback generated by itself iteratively. However, our study shows that such reflection-style methods suffer from the Degeneration-of-Thought (DoT) problem: once the LLM has established confidence in its solutions, it is unable to generate novel thoughts later through reflection even if its initial stance is incorrect. To address the DoT problem, we propose a Multi-Agent Debate (MAD) framework, in which multiple agents express their arguments in the state of "tit for tat" and a judge manages the debate process to obtain a final solution. Clearly, our MAD framework encourages divergent thinking in LLMs which would be helpful for tasks that require deep levels of contemplation. Experiment results on two challenging datasets, commonsense machine translation and counter-intuitive arithmetic reasoning, demonstrate the effectiveness of our MAD framework. Extensive analyses suggest that the adaptive break of debate and the modest level of "tit for tat" state are required for MAD to obtain good performance. Moreover, we find that LLMs might not be a fair judge if different LLMs are used for agents. Codes: https://github.com/Skytliang/Multi-Agents-Debate
翻訳日:2023-05-31 15:34:50 公開日:2023-05-30
# DENTEX:パノラマX線検査における歯列と診断基準を用いた異常歯検出

DENTEX: An Abnormal Tooth Detection with Dental Enumeration and Diagnosis Benchmark for Panoramic X-rays ( http://arxiv.org/abs/2305.19112v1 )

ライセンス: Link先を確認
Ibrahim Ethem Hamamci, Sezgin Er, Enis Simsar, Atif Emre Yuksel, Sadullah Gultekin, Serife Damla Ozdemir, Kaiyuan Yang, Hongwei Bran Li, Sarthak Pati, Bernd Stadlinger, Albert Mehl, Mustafa Gundogar, Bjoern Menze(参考訳) パノラマX線は歯科治療計画によく用いられるが、その解釈には時間と誤りの傾向がある。 人工知能(AI)は、これらのX線の分析を助ける可能性があり、それによって歯科診断と治療計画の精度が向上する。 それにもかかわらず、この目的のために自動アルゴリズムを設計することは、主に注釈付きデータの不足と解剖学的構造の変化のために大きな課題を生んでいる。 これらの課題に対処するため、2023年の医用画像コンピューティング・コンピュータ支援介入国際会議(MICCAI)と連携して、パノラマX線チャレンジ(DENTEX)の歯科列挙と診断が実施された。 この課題は,3種類の階層的アノテートデータ,部分的にアノテートされた四重項列挙データ,完全アノテートされた四重項列挙型診断データを用いて,異常歯のマルチラベル検出のためのアルゴリズムの開発を促進することを目的としている。 本稿では, 完全注釈データを用いた受像者アルゴリズムの評価結果と, 異常歯の検出における二次的, 列挙的, 診断ラベルのパフォーマンス変化について検討する。 この注釈付きデータセットの提供は、この課題の結果と共に、歯科医療の分野でより正確で効率的な診断と治療計画を提供するAIツールの開発の基礎を成すかもしれない。 評価コードとデータセットはhttps://github.com/ibrahimethemhamamci/dentexでアクセスできる。

Panoramic X-rays are frequently used in dentistry for treatment planning, but their interpretation can be both time-consuming and prone to error. Artificial intelligence (AI) has the potential to aid in the analysis of these X-rays, thereby improving the accuracy of dental diagnoses and treatment plans. Nevertheless, designing automated algorithms for this purpose poses significant challenges, mainly due to the scarcity of annotated data and variations in anatomical structure. To address these issues, the Dental Enumeration and Diagnosis on Panoramic X-rays Challenge (DENTEX) has been organized in association with the International Conference on Medical Image Computing and Computer-Assisted Intervention (MICCAI) in 2023. This challenge aims to promote the development of algorithms for multi-label detection of abnormal teeth, using three types of hierarchically annotated data: partially annotated quadrant data, partially annotated quadrant-enumeration data, and fully annotated quadrant-enumeration-diagnosis data, inclusive of four different diagnoses. In this paper, we present the results of evaluating participant algorithms on the fully annotated data, additionally investigating performance variation for quadrant, enumeration, and diagnosis labels in the detection of abnormal teeth. The provision of this annotated dataset, alongside the results of this challenge, may lay the groundwork for the creation of AI-powered tools that can offer more precise and efficient diagnosis and treatment planning in the field of dentistry. The evaluation code and datasets can be accessed at https://github.com/ibrahimethemhamamci/DENTEX
翻訳日:2023-05-31 15:34:21 公開日:2023-05-30
# GAN-MPC: パラメータ化コスト関数を用いた学習モデル予測制御

GAN-MPC: Training Model Predictive Controllers with Parameterized Cost Functions using Demonstrations from Non-identical Experts ( http://arxiv.org/abs/2305.19111v1 )

ライセンス: Link先を確認
Returaj Burnwal, Anirban Santara, Nirav P. Bhatt, Balaraman Ravindran, Gaurav Aggarwal(参考訳) モデル予測制御(MPC)は、実用的なロボット工学応用における軌道最適化の一般的なアプローチである。 MPCポリシーは、キノダイナミックおよび安全制約の下で軌道パラメータを最適化し、安全性、最適性、一般化可能性、解釈可能性、説明可能性に関する保証を提供する。 しかし、いくつかの動作は複雑であり、mpcの目的関数を手作りすることは困難である。 Learnable-MPCと呼ばれるMPCポリシーの特別なクラスは、専門家によるデモンストレーションから模倣学習を使用することでこの問題に対処する。 しかし、ロボット工学の現実的な応用の多くでは満足できないような、デモレーターと模倣エージェントを同一にする必要がある。 本稿では,実証者と模倣者が同じダイナミクスを共有せず,その状態空間が部分的に重複している場合の学習可能MPCポリシーの実践的問題に対処する。 本稿では,GAN(Generative Adversarial Network)を用いて,デモンストレータと模倣者の状態-軌道分布間のジェンセン-シャノンのばらつきを最小化する手法を提案する。 我々は、DeepMind Controlスイートの様々なロボットタスクに対するアプローチを評価し、その動作をコピーすることなく、実証者の振る舞いを学習するためのアプローチの有効性を実証した。

Model predictive control (MPC) is a popular approach for trajectory optimization in practical robotics applications. MPC policies can optimize trajectory parameters under kinodynamic and safety constraints and provide guarantees on safety, optimality, generalizability, interpretability, and explainability. However, some behaviors are complex and it is difficult to hand-craft an MPC objective function. A special class of MPC policies called Learnable-MPC addresses this difficulty using imitation learning from expert demonstrations. However, they require the demonstrator and the imitator agents to be identical which is hard to satisfy in many real world applications of robotics. In this paper, we address the practical problem of training Learnable-MPC policies when the demonstrator and the imitator do not share the same dynamics and their state spaces may have a partial overlap. We propose a novel approach that uses a generative adversarial network (GAN) to minimize the Jensen-Shannon divergence between the state-trajectory distributions of the demonstrator and the imitator. We evaluate our approach on a variety of simulated robotics tasks of DeepMind Control suite and demonstrate the efficacy of our approach at learning the demonstrator's behavior without having to copy their actions.
翻訳日:2023-05-31 15:33:52 公開日:2023-05-30
# DisCLIP: オープン語彙参照式生成

DisCLIP: Open-Vocabulary Referring Expression Generation ( http://arxiv.org/abs/2305.19108v1 )

ライセンス: Link先を確認
Lior Bracha, Eitan Shaar, Aviv Shamsian, Ethan Fetaya, Gal Chechik(参考訳) Referring Expressions Generation (REG)は、視覚シーン内の特定のオブジェクトを明確に識別するテキスト記述を作成することを目的としている。 伝統的に、これは特定のデータ分布でうまく機能するが、しばしば新しい画像や概念への一般化に苦しむ教師付き学習手法によって達成されてきた。 この問題に対処するため、差別的CLIPの略であるDisCLIPと呼ばれるREGの新しいアプローチを提案する。 大規模ビジュアル・セマンティック・モデルであるCLIPを用いてLLMを誘導し、他の注意をそらす概念を避けつつ、画像中のターゲット概念の文脈記述を生成する。 特に、この最適化は推論時に行われ、追加のトレーニングや学習パラメータのチューニングは必要ない。 本研究では、シーン内の記述対象を正確に識別する受信機モデルの能力を評価することにより、生成されたテキストの品質を測定する。 これを実現するために、生成した参照式に対する批判として、凍結ゼロショット理解モジュールを使用する。 複数の参照式ベンチマークのDisCLIPを人的評価により評価し、ドメイン外データセットにおける従来の手法よりも大幅に優れていたことを示す。 本結果は,事前学習した視覚意味論モデルを用いて,高品質な文脈記述を生成する可能性を強調した。

Referring Expressions Generation (REG) aims to produce textual descriptions that unambiguously identifies specific objects within a visual scene. Traditionally, this has been achieved through supervised learning methods, which perform well on specific data distributions but often struggle to generalize to new images and concepts. To address this issue, we present a novel approach for REG, named DisCLIP, short for discriminative CLIP. We build on CLIP, a large-scale visual-semantic model, to guide an LLM to generate a contextual description of a target concept in an image while avoiding other distracting concepts. Notably, this optimization happens at inference time and does not require additional training or tuning of learned parameters. We measure the quality of the generated text by evaluating the capability of a receiver model to accurately identify the described object within the scene. To achieve this, we use a frozen zero-shot comprehension module as a critique of our generated referring expressions. We evaluate DisCLIP on multiple referring expression benchmarks through human evaluation and show that it significantly outperforms previous methods on out-of-domain datasets. Our results highlight the potential of using pre-trained visual-semantic models for generating high-quality contextual descriptions.
翻訳日:2023-05-31 15:33:30 公開日:2023-05-30
# 量子コンピュータのための効率的な安定化器エントロピー

Efficient stabilizer entropies for quantum computers ( http://arxiv.org/abs/2305.19152v1 )

ライセンス: Link先を確認
Tobias Haug, Soovin Lee, M.S. Kim(参考訳) 安定化器エントロピー(ses)は、状態が安定化器によって記述される程度を定量化する非安定性の尺度または「魔法」である。 SEは特に興味深いのは、スクランブルやローカライゼーション、プロパティテストとのつながりのためです。 しかし、実際の応用は、従来知られていたses測定プロトコルが量子ビット数に指数関数的に制限されている。 ここでは,量子コンピュータの非安定化性の効率的な尺度として tsallis-$n$ se を導入する。 測定値の数は、任意の整数インデックス $n>1$ に対する qubits の数に依存しており、測定値のスケーラビリティを保証する。 Tsallis SE は、数量子ビットを超えて計算できる様々な非安定化性モノトンの効率的な境界である。 イオンq量子コンピュータを用いて,非クリフォードゲートをドープしたランダムクリフォード回路のtsallis seを実験的に測定し,魔法の安定化忠実性,安定化度,ロバスト性の境界を与える。 アプリケーションとして,4n$-point out-of-time-ordercorrelator と multifractal flatness を測定する効率的なアルゴリズムを提供する。 その結果,量子コンピュータによる非安定性の探索が可能となった。

Stabilizer entropies (SEs) are measures of nonstabilizerness or `magic' that quantify the degree to which a state is described by stabilizers. SEs are especially interesting due to their connections to scrambling, localization and property testing. However, practical applications have been limited so far as previously known measurement protocols for SEs scale exponentially with the number of qubits. Here, we introduce the Tsallis-$n$ SE as an efficient measure of nonstabilizerness for quantum computers. We find that the number of measurements is independent of the number of qubits for any integer index $n>1$ which ensures the scalability of the measure. The Tsallis SE is an efficient bound of various nonstabilizerness monotones which are intractable to compute beyond a few qubits. Using the IonQ quantum computer, we experimentally measure the Tsallis SE of random Clifford circuits doped with non-Clifford gates and give bounds for the stabilizer fidelity, stabilizer extent and robustness of magic. As applications, we provide efficient algorithms to measure $4n$-point out-of-time-order correlators and multifractal flatness. Our results open up the exploration of nonstabilizerness with quantum computers.
翻訳日:2023-05-31 15:25:52 公開日:2023-05-30
# BLEUがCOMETを発表:ロバスト機械翻訳評価に向けた語彙とニューラルネットワークのメトリクスを組み合わせる

BLEU Meets COMET: Combining Lexical and Neural Metrics Towards Robust Machine Translation Evaluation ( http://arxiv.org/abs/2305.19144v1 )

ライセンス: Link先を確認
Taisiya Glushkova, Chrysoula Zerva, Andr\'e F. T. Martins(参考訳) cometやbleurtといったニューラルベースの機械翻訳評価指標は、人間の判断と強い相関関係を築いているが、エンティティや数値の偏りなど、批判的なエラーと見なされるような特定の現象を検出することは、しばしば信頼できない。 対照的に、翻訳仮説と人間の参照の間の語彙または文字の重なりを測定するbleuやchrfのような従来の評価指標は、人間の判断との相関は低いが、そのような偏差に敏感である。 本稿では,2つの手法を組み合わせることで,限界誤りのある翻訳に対する最先端評価手法の堅牢性を高める方法について検討する。 文レベルの特徴や単語レベルのタグなどの学習中に追加情報を使用することで、トレーニングされた指標は、特定の厄介な現象で翻訳をペナルティ化する能力を改善し、人間の判断と最近の言語対における課題セットの相関が向上することを示した。

Although neural-based machine translation evaluation metrics, such as COMET or BLEURT, have achieved strong correlations with human judgements, they are sometimes unreliable in detecting certain phenomena that can be considered as critical errors, such as deviations in entities and numbers. In contrast, traditional evaluation metrics, such as BLEU or chrF, which measure lexical or character overlap between translation hypotheses and human references, have lower correlations with human judgements but are sensitive to such deviations. In this paper, we investigate several ways of combining the two approaches in order to increase robustness of state-of-the-art evaluation methods to translations with critical errors. We show that by using additional information during training, such as sentence-level features and word-level tags, the trained metrics improve their capability to penalize translations with specific troublesome phenomena, which leads to gains in correlation with human judgments and on recent challenge sets on several language pairs.
翻訳日:2023-05-31 15:24:36 公開日:2023-05-30
# 意味変化の2つの法則--分布意味モデルによる同義語変化の予測

A Tale of Two Laws of Semantic Change: Predicting Synonym Changes with Distributional Semantic Models ( http://arxiv.org/abs/2305.19143v1 )

ライセンス: Link先を確認
Bastien Li\'etard and Mikaela Keller and Pascal Denis(参考訳) 語彙意味変化(英:lexical semantic change)とは、単語の意味がどのように時間をかけて進化するかの研究である。 もう一つの関連する問題は、同義語のような単語対の語彙関係が時間とともに変化するかどうかである。 区別法(LD)は、同義語は時間とともに異なる意味を持つ傾向があるが、平行変化法(LPC)は、同義語は同じ意味変化を受け、同義語は同義語のままであると主張している。 これまでのところ、これらの法律が歴史的コーパスにどの程度適用されるかを評価するために、分布モデルを用いた研究はほとんど行われていない。 本研究では,LD と LPC が与えられた単語対に対して動作するかどうかを検知する第一歩を踏み出す。 問題をより扱いやすいタスクに再キャストした後、我々は2つの言語資源を組み合わせることで、この問題に対する最初の完全な評価フレームワークを提案し、ldの支配に有利な実証的な証拠を提供する。 次に,分布的意味モデルを用いてこの問題に対する様々な計算手法を提案し,語彙的意味変化検出に関する最近の文献を基礎とする。 私たちのベストアプローチは、データセットの0.6以上のバランスの取れた精度を達成することです。 我々は、ポリセミーや、同義語とハイパーニミーの潜在的な混同など、これらのアプローチが直面する課題について議論する。

Lexical Semantic Change is the study of how the meaning of words evolves through time. Another related question is whether and how lexical relations over pairs of words, such as synonymy, change over time. There are currently two competing, apparently opposite hypotheses in the historical linguistic literature regarding how synonymous words evolve: the Law of Differentiation (LD) argues that synonyms tend to take on different meanings over time, whereas the Law of Parallel Change (LPC) claims that synonyms tend to undergo the same semantic change and therefore remain synonyms. So far, there has been little research using distributional models to assess to what extent these laws apply on historical corpora. In this work, we take a first step toward detecting whether LD or LPC operates for given word pairs. After recasting the problem into a more tractable task, we combine two linguistic resources to propose the first complete evaluation framework on this problem and provide empirical evidence in favor of a dominance of LD. We then propose various computational approaches to the problem using Distributional Semantic Models and grounded in recent literature on Lexical Semantic Change detection. Our best approaches achieve a balanced accuracy above 0.6 on our dataset. We discuss challenges still faced by these approaches, such as polysemy or the potential confusion between synonymy and hypernymy.
翻訳日:2023-05-31 15:24:16 公開日:2023-05-30
# Taylorformer: 時系列やその他のプロセスの確率予測

Taylorformer: Probabilistic Predictions for Time Series and other Processes ( http://arxiv.org/abs/2305.19141v1 )

ライセンス: Link先を確認
Omer Nivron, Raghul Parthipan and Damon J. Wischik(参考訳) 時系列や他のランダムなプロセスに対するTaylorformerを提案する。 その2つの重要な要素は 1)予測のためにテイラー級数に基づく近似を用いる方法と方法を学ぶための局所テイラーラッパー 2) ガウス過程の平均予測が文脈データの線形滑らか化にどのように影響するかに着想を得たMHA-Xアテンションブロック。 Taylorformerは、電気、油温、為替レートなどいくつかの予測データセットにおいて、すべてのタスクにおいて少なくとも14%改善されたMSE、メタラーニング1D関数のような5/6古典的なニューラルプロセスタスクにおいて、最先端のデータセットよりも優れています。 Taylorformerは、ニューラル・プロセス(不確実性を認識した予測と一貫性)と予測(予測精度)の文学から望ましい特徴を組み合わせる。

We propose the Taylorformer for time series and other random processes. Its two key components are: 1) the LocalTaylor wrapper to learn how and when to use Taylor series-based approximations for predictions, and 2) the MHA-X attention block which makes predictions in a way inspired by how Gaussian Processes' mean predictions are linear smoothings of contextual data. Taylorformer outperforms the state-of-the-art on several forecasting datasets, including electricity, oil temperatures and exchange rates with at least 14% improvement in MSE on all tasks, and better likelihood on 5/6 classic Neural Process tasks such as meta-learning 1D functions. Taylorformer combines desirable features from the Neural Process (uncertainty-aware predictions and consistency) and forecasting (predictive accuracy) literature, two previously distinct bodies.
翻訳日:2023-05-31 15:23:50 公開日:2023-05-30
# ポートレートスタイライゼーションのための文脈保存型2段階ビデオドメイン翻訳

Context-Preserving Two-Stage Video Domain Translation for Portrait Stylization ( http://arxiv.org/abs/2305.19135v1 )

ライセンス: Link先を確認
Doyeon Kim, Eunji Ko, Hyunsu Kim, Yunji Kim, Junho Kim, Dongchan Min, Junmo Kim, Sung Ju Hwang(参考訳) 本物の人間の顔画像を芸術的にスタイリゼーションされたイメージに変換するポートレート・スタイリゼーションは、かなりの関心を集めており、近年は多くの先行作品が印象的な品質を示している。 しかし、画像レベルの翻訳タスクでは顕著な性能を示すものの、従来の手法では、ビデオ領域に適用された場合の結果が不十分である。 そこで,本稿では,映像の文脈を保存しつつ,時間的にコヒーレントなスタイリッシュな映像を生成することを強制する目的関数を持つ,新しい2段階ビデオ翻訳フレームワークを提案する。 さらに,本モデルでは1フレームあたり0.011秒のレイテンシでリアルタイムに動作し,5.6Mパラメータしか必要とせず,実用的な実世界のアプリケーションに適用可能である。

Portrait stylization, which translates a real human face image into an artistically stylized image, has attracted considerable interest and many prior works have shown impressive quality in recent years. However, despite their remarkable performances in the image-level translation tasks, prior methods show unsatisfactory results when they are applied to the video domain. To address the issue, we propose a novel two-stage video translation framework with an objective function which enforces a model to generate a temporally coherent stylized video while preserving context in the source video. Furthermore, our model runs in real-time with the latency of 0.011 seconds per frame and requires only 5.6M parameters, and thus is widely applicable to practical real-world applications.
翻訳日:2023-05-31 15:23:35 公開日:2023-05-30
# 空間変換器ネットワークを用いた舌超音波によるサイレント音声インタフェースの適応

Adaptation of Tongue Ultrasound-Based Silent Speech Interfaces Using Spatial Transformer Networks ( http://arxiv.org/abs/2305.19130v1 )

ライセンス: Link先を確認
L\'aszl\'o T\'oth, Amin Honarmandi Shandiz, G\'abor Gosztolya, Csap\'o Tam\'as G\'abor(参考訳) 最新のディープラーニングアルゴリズムにより、サイレント音声インタフェース(SSI)は、特定の条件下での調音運動データから知覚可能な音声を合成できるようになった。 しかし、結果のモデルはかなりスピーカー固有のもので、ユーザー間で素早く切り替えるのが面倒だ。 同じ話者であっても、これらのモデルは、記録装置の降着と再装着後のクロスセッションが不十分である。 超音波舌画像を用いたSSIモデルの迅速な話者適応とセッション適応を支援するため,入力画像上でアフィン変換を行うことのできる空間トランスフォーマネットワーク(STN)モジュールを用いてディープネットワークを拡張した。 STNはネットワークの約10%を占めるが,本実験により,STNモジュールのみを適応させることで,ネットワーク全体の再トレーニングに比べて平均88%削減できる可能性が示された。 この改善は、同じ話者から異なる録音セッションにネットワークを適用する際にさらに大きくなる(約92\%)。

Thanks to the latest deep learning algorithms, silent speech interfaces (SSI) are now able to synthesize intelligible speech from articulatory movement data under certain conditions. However, the resulting models are rather speaker-specific, making a quick switch between users troublesome. Even for the same speaker, these models perform poorly cross-session, i.e. after dismounting and re-mounting the recording equipment. To aid quick speaker and session adaptation of ultrasound tongue imaging-based SSI models, we extend our deep networks with a spatial transformer network (STN) module, capable of performing an affine transformation on the input images. Although the STN part takes up only about 10\% of the network, our experiments show that adapting just the STN module might allow to reduce MSE by 88\% on the average, compared to retraining the whole network. The improvement is even larger (around 92\%) when adapting the network to different recording sessions from the same speaker.
翻訳日:2023-05-31 15:23:01 公開日:2023-05-30
# 量子非慣性効果の証人としてのラムシフト

Lamb shift as a witness for quantum noninertial effects ( http://arxiv.org/abs/2305.19172v1 )

ライセンス: Link先を確認
Navdeep Arya(参考訳) 原子分光に関する激しい実験的活動と、結果として生じる原子スペクトル線の高精度測定は、量子系における非慣性効果の証人としてラムシフトに関心を惹きつける。 均一な円運動と共振器内の量子電磁場に結合した2段系のラムシフトについて検討した。 異なるキャビティモード間の分離が各キャビティモードの幅よりも大きい場合,ラムシフトに対する慣性と非慣性の両方が収束することを示す。 さらに、純粋な非慣性ラムシフトは、循環原子の角周波数によって決定される量によって原子共鳴から最大化され、キャビティパラメータの適切なチューニングによって効率的に増強される。 我々は、非慣性寄与が加速度$\sim 10^{14}~\mathrm{m/s^2}$で検出できると主張する。

The sustained intense experimental activity around atomic spectroscopy and the resulting high-precision measurements of atomic spectral lines attract interest in Lamb shift as a witness for noninertial effects in quantum systems. We investigate the Lamb shift in a two-level system undergoing uniform circular motion and coupled to a quantum electromagnetic field inside a cavity. We show that when the separation between different cavity modes is large compared to the width of each cavity mode, both the inertial and noninertial contributions to the Lamb shift are convergent. In addition, we find that the purely-noninertial Lamb shift maximizes away from the atomic resonance by an amount decided by the angular frequency of the circulating atom, lending itself to efficient enhancement by a suitable tuning of the cavity parameters. We argue that the noninertial contribution becomes detectable at accelerations $\sim 10^{14}~\mathrm{m/s^2}$.
翻訳日:2023-05-31 15:17:38 公開日:2023-05-30
# 光ニューラルネットワークの前方トレーニング

Forward-Forward Training of an Optical Neural Network ( http://arxiv.org/abs/2305.19170v1 )

ライセンス: Link先を確認
Ilker Oguz, Junjie Ke, Qifei Wang, Feng Yang, Mustafa Yildirim, Niyazi Ulas Dinc, Jih-Liang Hsieh, Christophe Moser and Demetri Psaltis(参考訳) ニューラルネットワーク(NN)は様々なタスクにおいて顕著な能力を示しているが、その計算集約性はより高速でエネルギー効率の高いハードウェア実装を必要とする。 シリコンフォトニクスや空間光変調器などの技術を用いた光学ベースのプラットフォームは、この目標を達成するための有望な道を提供する。 しかしながら、これらの物理システムと連動して複数のトレーニング可能なレイヤをトレーニングすることは、完全に特徴付け、異なる関数で記述することが困難であるため、エラーバックプロパゲーションアルゴリズムの使用を妨げる。 最近導入された Forward-Forward Algorithm (FFA) は、学習システムの完全な特徴付けの必要性を排除し、多数のプログラム可能なパラメータによる効率的なトレーニングを約束する。 FFAは重みを更新するためにエラー信号のバックプロパゲートを必要としないが、重みは1方向に情報を送るだけで更新される。 各トレーニング可能なウェイトに対する局所損失関数は、メタヒューリスティックアルゴリズムや強化学習に頼ることなく、低消費電力アナログハードウェアの実装を可能にする。 本稿では,光ファイバにおける多モード非線形波動伝搬を用いた実験を行い,光システムを用いたffa手法の実現可能性を示す。 その結果、FFAで訓練された多層NNアーキテクチャに光変換を組み込むことで、比較的少数のトレーニング可能な重量でも性能が向上することを示した。 提案手法は,光NNのトレーニングにおける新たなパスを提供し,NN性能向上のための物理変換の活用に関する洞察を提供する。

Neural networks (NN) have demonstrated remarkable capabilities in various tasks, but their computation-intensive nature demands faster and more energy-efficient hardware implementations. Optics-based platforms, using technologies such as silicon photonics and spatial light modulators, offer promising avenues for achieving this goal. However, training multiple trainable layers in tandem with these physical systems poses challenges, as they are difficult to fully characterize and describe with differentiable functions, hindering the use of error backpropagation algorithm. The recently introduced Forward-Forward Algorithm (FFA) eliminates the need for perfect characterization of the learning system and shows promise for efficient training with large numbers of programmable parameters. The FFA does not require backpropagating an error signal to update the weights, rather the weights are updated by only sending information in one direction. The local loss function for each set of trainable weights enables low-power analog hardware implementations without resorting to metaheuristic algorithms or reinforcement learning. In this paper, we present an experiment utilizing multimode nonlinear wave propagation in an optical fiber demonstrating the feasibility of the FFA approach using an optical system. The results show that incorporating optical transforms in multilayer NN architectures trained with the FFA, can lead to performance improvements, even with a relatively small number of trainable weights. The proposed method offers a new path to the challenge of training optical NNs and provides insights into leveraging physical transformations for enhancing NN performance.
翻訳日:2023-05-31 15:17:24 公開日:2023-05-30
# マイクロコントローラを用いた深層ニューラルネットワークの高精度浮動小数点最適化

Reduced Precision Floating-Point Optimization for Deep Neural Network On-Device Learning on MicroControllers ( http://arxiv.org/abs/2305.19167v1 )

ライセンス: Link先を確認
Davide Nadalini, Manuele Rusci, Luca Benini, Francesco Conti(参考訳) 超低消費電力マイクロコントローラユニット(MCU)のためのODLは、将来のTinyMLアプリケーションにおけるDeep Neural Network(DNN)モデルのデプロイ後適応と微調整のための重要なステップである。 本稿では,mcu級デバイスにおけるodlプリミティブの最適化手法を新たに導入し,ベクトル化16ビット浮動小数点(fp16)シングルインストラクションマルチデータ(simd)操作をサポートするrisc-v rv32アーキテクチャの最先端技術を活用する。 バックプロパゲーショントレーニングアルゴリズムの前方および後方ステップへのアプローチは,並列化とループアンロールにより高速化された,特殊な形状変換演算子と行列乗算(mm)カーネルから構成される。 2D Convolution層の1つのトレーニングステップで評価すると、SIMD最適化されたFP16プリミティブは、RISC-Vベースの8+1コアMCU上のFP32ベースラインよりも1.72$\times$高速になる。 ResNet8と画像分類とキーワードスポッティングのためのDS-CNNのエンドツーエンドのトレーニングタスクに対して、それぞれ1つのサンプルで17.1msと6.4msのトレーニングステップを計算するために、クロックサイクル毎の3.11乗算および累積演算(MAC/clk)と0.81MAC/clkの平均演算効率を測定する。 全体として、我々のアプローチは、シングルコアMCU向けの既存のODLソフトウェアフレームワークよりも2桁以上高速で、継続学習セットアップ上で以前のFP32並列実装よりも1.6$\times$性能が向上する。

Enabling On-Device Learning (ODL) for Ultra-Low-Power Micro-Controller Units (MCUs) is a key step for post-deployment adaptation and fine-tuning of Deep Neural Network (DNN) models in future TinyML applications. This paper tackles this challenge by introducing a novel reduced precision optimization technique for ODL primitives on MCU-class devices, leveraging the State-of-Art advancements in RISC-V RV32 architectures with support for vectorized 16-bit floating-point (FP16) Single-Instruction Multiple-Data (SIMD) operations. Our approach for the Forward and Backward steps of the Back-Propagation training algorithm is composed of specialized shape transform operators and Matrix Multiplication (MM) kernels, accelerated with parallelization and loop unrolling. When evaluated on a single training step of a 2D Convolution layer, the SIMD-optimized FP16 primitives result up to 1.72$\times$ faster than the FP32 baseline on a RISC-V-based 8+1-core MCU. An average computing efficiency of 3.11 Multiply and Accumulate operations per clock cycle (MAC/clk) and 0.81 MAC/clk is measured for the end-to-end training tasks of a ResNet8 and a DS-CNN for Image Classification and Keyword Spotting, respectively -- requiring 17.1 ms and 6.4 ms on the target platform to compute a training step on a single sample. Overall, our approach results more than two orders of magnitude faster than existing ODL software frameworks for single-core MCUs and outperforms by 1.6 $\times$ previous FP32 parallel implementations on a Continual Learning setup.
翻訳日:2023-05-31 15:16:58 公開日:2023-05-30
# 言語モデルによる戦略的推論

Strategic Reasoning with Language Models ( http://arxiv.org/abs/2305.19165v1 )

ライセンス: Link先を確認
Kanishk Gandhi, Dorsa Sadigh, Noah D. Goodman(参考訳) 戦略的な推論により、エージェントは様々な状況で他のエージェントと協力し、コミュニケーションし、競争することができる。 戦略ゲームを解く既存のアプローチは広範なトレーニングに依存しており、再トレーニングせずに新しいシナリオやゲームに一般化しない戦略を生み出している。 大規模言語モデル(llm)は、複雑なコンテキストに富んだ言語を理解し、生成する能力を備えており、戦略的ゲームプレイのツールとして強力である。 本稿では,AIエージェントの戦略的推論を可能にするために,事前訓練されたLLMと数発の連鎖例を用いたアプローチを提案する。 我々のアプローチは、状態、価値観、信念を推論する体系的に生成されたデモを使用してモデルを促進する。 単純なマトリクスゲームの多種多様なバリエーションを用いて,体系的に生成されたプロンプトに基づく戦略が,新しいゲーム構造,代替目的,隠れた情報にほぼ完全に一般化することを示す。 さらに,我々のアプローチが,トレーニングや微調整を必要とせずに,現実的なシナリオで人間的な交渉戦略につながることを実証する。 本研究は,多種多様な戦略シナリオに適応し,卓越するLLMを,系統的推論実証によって導出する能力を強調した。

Strategic reasoning enables agents to cooperate, communicate, and compete with other agents in diverse situations. Existing approaches to solving strategic games rely on extensive training, yielding strategies that do not generalize to new scenarios or games without retraining. Large Language Models (LLMs), with their ability to comprehend and generate complex, context-rich language, could prove powerful as tools for strategic gameplay. This paper introduces an approach that uses pretrained LLMs with few-shot chain-of-thought examples to enable strategic reasoning for AI agents. Our approach uses systematically generated demonstrations of reasoning about states, values, and beliefs to prompt the model. Using extensive variations of simple matrix games, we show that strategies that are derived based on systematically generated prompts generalize almost perfectly to new game structures, alternate objectives, and hidden information. Additionally, we demonstrate our approach can lead to human-like negotiation strategies in realistic scenarios without any extra training or fine-tuning. Our results highlight the ability of LLMs, guided by systematic reasoning demonstrations, to adapt and excel in diverse strategic scenarios.
翻訳日:2023-05-31 15:16:19 公開日:2023-05-30
# lance: 言語誘導偽画像生成によるストレステスト視覚モデル

LANCE: Stress-testing Visual Models by Generating Language-guided Counterfactual Images ( http://arxiv.org/abs/2305.19164v1 )

ライセンス: Link先を確認
Viraj Prabhu, Sriram Yenamandra, Prithvijit Chattopadhyay, Judy Hoffman(参考訳) 本稿では,言語誘導型対実テスト画像(LANCE)を生成することで,訓練された視覚モデルをストレステストする自動アルゴリズムを提案する。 本手法は,大規模言語モデリングとテキストベースの画像編集の最近の進歩を活かし,モデル重み付けを変更せずに,多様でリアルで挑戦的なテスト画像群で iid テストセットを補強する。 生成したデータに対して,事前訓練済みモデルの多種多様な性能をベンチマークし,顕著かつ一貫した性能低下を観察する。 さらに、異なる種類の編集に対してモデルの感度を解析し、ImageNetの未知のクラスレベルのモデルバイアスを克服し、その適用性を示す。

We propose an automated algorithm to stress-test a trained visual model by generating language-guided counterfactual test images (LANCE). Our method leverages recent progress in large language modeling and text-based image editing to augment an IID test set with a suite of diverse, realistic, and challenging test images without altering model weights. We benchmark the performance of a diverse set of pretrained models on our generated data and observe significant and consistent performance drops. We further analyze model sensitivity across different types of edits, and demonstrate its applicability at surfacing previously unknown class-level model biases in ImageNet.
翻訳日:2023-05-31 15:16:00 公開日:2023-05-30
# 文書レベルイベント引数抽出のためのamrに基づくリンク予測手法

An AMR-based Link Prediction Approach for Document-level Event Argument Extraction ( http://arxiv.org/abs/2305.19162v1 )

ライセンス: Link先を確認
Yuqing Yang, Qipeng Guo, Xiangkun Hu, Yue Zhang, Xipeng Qiu, Zheng Zhang(参考訳) 最近の研究は、ドキュメントレベルのイベント引数抽出(Doc-level Event Argument extract, EAE)のための抽象的意味表現(AMR)を導入している。 しかし、これらの作品では、AMRは暗黙的にのみ、例えば追加機能やトレーニング信号としてのみ使用される。 全ての事象構造がAMRから推測できるという事実により、この研究はAEをAMRグラフ上のリンク予測問題として再定義する。 AMRは汎用構造であり,EAEに完全に適合しないため,情報量が少ないサブグラフやエッジタイプを圧縮し,スパン情報を統合し,同じ文書内のイベントをハイライトする新たなグラフ構造であるTalored AMR Graph(TAG)を提案する。 さらに,TAGを用いて,リンク予測モデルとしてグラフニューラルネットワークを用いたイベント引数の探索手法を提案する。 WikiEvents と RAMS に関する広範な実験により、この単純なアプローチは最先端モデルの3.63pt と 2.33pt F1 をそれぞれ上回り、推論時間を 56% 削減した。 コードはhttps://github.com/ayyyq/TARAで利用可能である。

Recent works have introduced Abstract Meaning Representation (AMR) for Document-level Event Argument Extraction (Doc-level EAE), since AMR provides a useful interpretation of complex semantic structures and helps to capture long-distance dependency. However, in these works AMR is used only implicitly, for instance, as additional features or training signals. Motivated by the fact that all event structures can be inferred from AMR, this work reformulates EAE as a link prediction problem on AMR graphs. Since AMR is a generic structure and does not perfectly suit EAE, we propose a novel graph structure, Tailored AMR Graph (TAG), which compresses less informative subgraphs and edge types, integrates span information, and highlights surrounding events in the same document. With TAG, we further propose a novel method using graph neural networks as a link prediction model to find event arguments. Our extensive experiments on WikiEvents and RAMS show that this simpler approach outperforms the state-of-the-art models by 3.63pt and 2.33pt F1, respectively, and do so with reduced 56% inference time. The code is availabel at https://github.com/ayyyq/TARA.
翻訳日:2023-05-31 15:15:50 公開日:2023-05-30
# Sparse Linear Bandit に対するLasso 留置術

Cooperative Thresholded Lasso for Sparse Linear Bandit ( http://arxiv.org/abs/2305.19161v1 )

ライセンス: Link先を確認
Haniyeh Barghi, Xiaotong Cheng, Setareh Maghsudi(参考訳) 本稿では,特徴ベクトルが高次元$d$を持つマルチエージェントな文脈線形バンディット問題に対処するための新しい手法を提案する。 さらに、学習は情報共有の制約に従う。 提案手法では,主次元の近似集合を各エージェントが独立に推定し,その情報をネットワーク構造に応じて他のエージェントと共有できるラッソ回帰を用いた。 情報は特定のプロセスを通じて集約され、すべてのエージェントと共有される。 それぞれのエージェントは、抽出された次元にのみ焦点をあてたリッジ回帰で問題を解く。 我々は星型ネットワークとピアツーピアネットワークの両方のアルゴリズムを表現する。 このアプローチは、エージェントごとの累積後悔を最小限に抑えつつ、通信コストを効果的に削減する。 理論的には、提案手法は高い確率で$t$ が時間軸であるような順序 $\mathcal{o}(s_0 \log d + s_0 \sqrt{t})$ を持つ。 私たちの知る限りでは、sparse linear banditsで行毎の分散データを扱う最初のアルゴリズムで、最先端のシングルエージェントとマルチエージェントメソッドと同等のパフォーマンスを実現しています。 さらに, 効率的な特徴抽出が重要となる高次元マルチエージェント問題にも適用可能である。 本手法の有効性を検証するために,合成データと実世界データの両方について実験結果を示す。

We present a novel approach to address the multi-agent sparse contextual linear bandit problem, in which the feature vectors have a high dimension $d$ whereas the reward function depends on only a limited set of features - precisely $s_0 \ll d$. Furthermore, the learning follows under information-sharing constraints. The proposed method employs Lasso regression for dimension reduction, allowing each agent to independently estimate an approximate set of main dimensions and share that information with others depending on the network's structure. The information is then aggregated through a specific process and shared with all agents. Each agent then resolves the problem with ridge regression focusing solely on the extracted dimensions. We represent algorithms for both a star-shaped network and a peer-to-peer network. The approaches effectively reduce communication costs while ensuring minimal cumulative regret per agent. Theoretically, we show that our proposed methods have a regret bound of order $\mathcal{O}(s_0 \log d + s_0 \sqrt{T})$ with high probability, where $T$ is the time horizon. To our best knowledge, it is the first algorithm that tackles row-wise distributed data in sparse linear bandits, achieving comparable performance compared to the state-of-the-art single and multi-agent methods. Besides, it is widely applicable to high-dimensional multi-agent problems where efficient feature extraction is critical for minimizing regret. To validate the effectiveness of our approach, we present experimental results on both synthetic and real-world datasets.
翻訳日:2023-05-31 15:15:27 公開日:2023-05-30
# 画像と単語の深部ネットワークを用いた人体形状の認識

Recognizing People by Body Shape Using Deep Networks of Images and Words ( http://arxiv.org/abs/2305.19160v1 )

ライセンス: Link先を確認
Blake A. Myers, Lucas Jaggernauth, Thomas M. Metz, Matthew Q. Hill, Veda Nandan Gandi, Carlos D. Castillo, Alice J. O'Toole(参考訳) 人物識別の一般的かつ重要な応用は、顔が見えない、あるいは十分に解決されていないような距離や視点で発生する。 身体形状を距離と視点の変化のバイオメトリックとして検討する。 本稿では,標準対象分類ネットワークと,身体の言語的(単語ベース)記述に基づく表現を組み合わせる手法を提案する。 言語訓練をともなうアルゴリズムは,多岐にわたる距離/視点で撮影された画像(近距離,100m,200m,270m,300m,370m,400m,490m,500m,600m,無人航空機(uav)で撮影された画像の体型から人物を識別する能力について比較した。 オープンセットテストにおいて、IDマッチランキングと偽受け入れエラーによって測定された精度は驚くほど良好だった。 アイデンティティレベルの言語モデルは、近距離画像ではより正確であるが、非言語モデルは中間距離ではより正確であった。 言語的および非言語的埋め込みの融合は、パフォーマンスを全く改善したが、最も遠かった。 非言語モデルはあらゆる距離において偽の受け入れを減らしたが、言語モデルと非言語モデルの融合は、すべてにおいて偽の受け入れを減らした。 我々は、身体形状の言語的および非言語的表現は、興味のある応用における識別を改善する身体の相補的アイデンティティ情報を提供することができると結論づける。

Common and important applications of person identification occur at distances and viewpoints in which the face is not visible or is not sufficiently resolved to be useful. We examine body shape as a biometric across distance and viewpoint variation. We propose an approach that combines standard object classification networks with representations based on linguistic (word-based) descriptions of bodies. Algorithms with and without linguistic training were compared on their ability to identify people from body shape in images captured across a large range of distances/views (close-range, 100m, 200m, 270m, 300m, 370m, 400m, 490m, 500m, 600m, and at elevated pitch in images taken by an unmanned aerial vehicle [UAV]). Accuracy, as measured by identity-match ranking and false accept errors in an open-set test, was surprisingly good. For identity-ranking, linguistic models were more accurate for close-range images, whereas non-linguistic models fared better at intermediary distances. Fusion of the linguistic and non-linguistic embeddings improved performance at all, but the farthest distance. Although the non-linguistic model yielded fewer false accepts at all distances, fusion of the linguistic and non-linguistic models decreased false accepts for all, but the UAV images. We conclude that linguistic and non-linguistic representations of body shape can offer complementary identity information for bodies that can improve identification in applications of interest.
翻訳日:2023-05-31 15:15:04 公開日:2023-05-30
# マルチプレイヤーマルチアーマバンドにおける共有アームの競争

Competing for Shareable Arms in Multi-Player Multi-Armed Bandits ( http://arxiv.org/abs/2305.19158v1 )

ライセンス: Link先を確認
Renzhe Xu, Haotian Wang, Xingxuan Zhang, Bo Li, Peng Cui(参考訳) 共有可能な限られた資源の競争は、長い間戦略エージェントで研究されてきた。 実際、エージェントはしばしばリソースの報酬を同時に学び、最大化する必要があります。 個人化された競合ポリシーを設計するために,プレイヤーが利己的であり,自身の報酬を最大化することを目的とした,新しいマルチプレイヤーマルチアームバンディット(MPMAB)のエージェント間の競争をモデル化する。 また、複数の選手が同じ腕を引っ張るとき、これらの選手は平均して期待して腕の報酬を共有すると仮定する。 この条件下では,まず腕の報酬が知られているとき,ナッシュ平衡を解析する。 その後、平衡に基づく平均割当(SMAA)を用いた新しいセルフシッシュMPMABを提案する。 理論的には、全てのプレイヤーがアルゴリズムに従うと、SMAAは各プレイヤーに良い後悔の保証を与えることができる。 さらに,一人の利己的なプレイヤーが,逸脱によって報酬を著しく増加させることはできず,また,他のプレイヤーの報酬に有害な影響を及ぼすこともない。 本手法の有効性を,広範囲な合成実験で検証した。

Competitions for shareable and limited resources have long been studied with strategic agents. In reality, agents often have to learn and maximize the rewards of the resources at the same time. To design an individualized competing policy, we model the competition between agents in a novel multi-player multi-armed bandit (MPMAB) setting where players are selfish and aim to maximize their own rewards. In addition, when several players pull the same arm, we assume that these players averagely share the arms' rewards by expectation. Under this setting, we first analyze the Nash equilibrium when arms' rewards are known. Subsequently, we propose a novel SelfishMPMAB with Averaging Allocation (SMAA) approach based on the equilibrium. We theoretically demonstrate that SMAA could achieve a good regret guarantee for each player when all players follow the algorithm. Additionally, we establish that no single selfish player can significantly increase their rewards through deviation, nor can they detrimentally affect other players' rewards without incurring substantial losses for themselves. We finally validate the effectiveness of the method in extensive synthetic experiments.
翻訳日:2023-05-31 15:14:36 公開日:2023-05-30
# FERN: 障害評価とロバストネットワーク設計にグラフ注意ネットワークを活用する

FERN: Leveraging Graph Attention Networks for Failure Evaluation and Robust Network Design ( http://arxiv.org/abs/2305.19153v1 )

ライセンス: Link先を確認
Chenyi Liu, Vaneet Aggarwal, Tian Lan, Nan Geng, Yuan Yang, Mingwei Xu, and Qing Li(参考訳) パフォーマンス/コスト目標を最適化しながら、さまざまな障害シナリオでネットワーク可用性を保証することを目的としたロバストなネットワーク設計が注目されている。 既存のアプローチはしばしばモデルベースの混合整数最適化に依存しており、拡張性やディープラーニングを用いて特定のエンジニアリング問題を解決することは難しいが、一般化性は限られている。 本稿では,既存のソリューションのトラクタビリティとスケーラビリティを向上させるために,障害評価が共通のカーネルを提供することを示す。 グラフアテンションネットワークを用いて、この共通カーネルのニューラルネットワーク関数近似を提供することにより、スケーラブルな障害評価とロバストネットワーク設計のための統合学習ベースのフレームワークFERNを開発する。 FERNは、リッチな問題入力をグラフとして表現し、グラフから特徴抽出を行うことにより、局所ビューとグローバルビューの両方をキャプチャする。 本稿では,ロバストなネットワーク検証,ネットワークアップグレード最適化,フォールトトレラントなトラフィックエンジニアリングなど,広範な堅牢なネットワーク設計問題に対して,共通カーネルに関して再キャストを行い,ニューラルネットワークや少数の臨界障害シナリオを用いて効率的に計算することを可能にする。 実世界のネットワークトポロジに関する大規模な実験により、FERNはOSPFと最適ルーティング方式の両方のキー障害シナリオを効率的かつ正確に識別し、異なるトポロジと入力トラフィックパターンによく適合することを示した。 複数のロバストなネットワーク設計問題をそれぞれ80倍、200倍、10倍のスピードアップできるが、パフォーマンスの差は無視できる。

Robust network design, which aims to guarantee network availability under various failure scenarios while optimizing performance/cost objectives, has received significant attention. Existing approaches often rely on model-based mixed-integer optimization that is hard to scale or employ deep learning to solve specific engineering problems yet with limited generalizability. In this paper, we show that failure evaluation provides a common kernel to improve the tractability and scalability of existing solutions. By providing a neural network function approximation of this common kernel using graph attention networks, we develop a unified learning-based framework, FERN, for scalable Failure Evaluation and Robust Network design. FERN represents rich problem inputs as a graph and captures both local and global views by attentively performing feature extraction from the graph. It enables a broad range of robust network design problems, including robust network validation, network upgrade optimization, and fault-tolerant traffic engineering that are discussed in this paper, to be recasted with respect to the common kernel and thus computed efficiently using neural networks and over a small set of critical failure scenarios. Extensive experiments on real-world network topologies show that FERN can efficiently and accurately identify key failure scenarios for both OSPF and optimal routing scheme, and generalizes well to different topologies and input traffic patterns. It can speed up multiple robust network design problems by more than 80x, 200x, 10x, respectively with negligible performance gap.
翻訳日:2023-05-31 15:14:17 公開日:2023-05-30
# PanoGen:視覚・言語ナビゲーションのためのテキスト記述型パノラマ環境生成

PanoGen: Text-Conditioned Panoramic Environment Generation for Vision-and-Language Navigation ( http://arxiv.org/abs/2305.19195v1 )

ライセンス: Link先を確認
Jialu Li, Mohit Bansal(参考訳) vision-and-language navigation (vln) はエージェントが3d環境をナビゲートするために言語命令に従う必要がある。 VLNの主な課題の1つは、フォトリアリスティックなトレーニング環境の可用性の制限である。 そこで本研究では,テキストに条件付けされたパノラマ環境を無限に生成可能な生成手法であるPanoGenを提案する。 具体的には,既存のMatterport3D環境に部屋イメージをキャプションすることで部屋記述を収集し,最先端のテキスト・画像拡散モデルを用いて新しいパノラマ環境を生成する。 生成した画像に対する再帰的露光を利用して、一貫した360度パノラマビューを作成します。 新しいパノラマ環境は、テキスト記述を条件付けすることで、同じ意味情報を元の環境と共有し、パノラマ内のオブジェクトの共起が人間の直感に従うことを保証する。 最後に、VLNの事前学習と微調整にPanoGenを利用する2つの方法を検討する。 我々は,VLN事前学習のための事前学習型ビジョン・アンド・ランゲージモデルに基づく話者を用いて,パノラマ環境におけるパスの指示を生成し,エージェントの微調整中にパノラマ環境による視覚的観察を増強し,観察環境への過度な適合を避ける。 経験的に、PanoGen環境での学習は、Room-to-Room、Room-for-Room、CVDNデータセットの新たな最先端を実現する。 PanoGenの話者データによる事前学習は、未指定の指示と常識知識を必要とするCVDNに特に有効である。 最後に、エージェントはより生成されたパノラマ環境でのトレーニングの恩恵を受けることができ、PanoGen環境をスケールアップするための有望な結果を示唆する。

Vision-and-Language Navigation (VLN) requires the agent to follow language instructions to navigate through 3D environments. One main challenge in VLN is the limited availability of photorealistic training environments, which makes it hard to generalize to new and unseen environments. To address this problem, we propose PanoGen, a generation method that can potentially create an infinite number of diverse panoramic environments conditioned on text. Specifically, we collect room descriptions by captioning the room images in existing Matterport3D environments, and leverage a state-of-the-art text-to-image diffusion model to generate the new panoramic environments. We use recursive outpainting over the generated images to create consistent 360-degree panorama views. Our new panoramic environments share similar semantic information with the original environments by conditioning on text descriptions, which ensures the co-occurrence of objects in the panorama follows human intuition, and creates enough diversity in room appearance and layout with image outpainting. Lastly, we explore two ways of utilizing PanoGen in VLN pre-training and fine-tuning. We generate instructions for paths in our PanoGen environments with a speaker built on a pre-trained vision-and-language model for VLN pre-training, and augment the visual observation with our panoramic environments during agents' fine-tuning to avoid overfitting to seen environments. Empirically, learning with our PanoGen environments achieves the new state-of-the-art on the Room-to-Room, Room-for-Room, and CVDN datasets. Pre-training with our PanoGen speaker data is especially effective for CVDN, which has under-specified instructions and needs commonsense knowledge. Lastly, we show that the agent can benefit from training with more generated panoramic environments, suggesting promising results for scaling up the PanoGen environments.
翻訳日:2023-05-31 15:06:30 公開日:2023-05-30
# FakeSwarm:スワーミング特性によるフェイクニュース検出の改善

FakeSwarm: Improving Fake News Detection with Swarming Characteristics ( http://arxiv.org/abs/2305.19194v1 )

ライセンス: Link先を確認
Jun Wu and Xuesong Ye(参考訳) フェイクニュースの拡散は社会に深刻な脅威をもたらし、大衆を誤解させ、操作し、機関への信頼を失わせ、民主的プロセスを損なう可能性がある。 この問題に対処するため,偽ニュースのスワーミング特性を利用した偽ニュース識別システムであるFakeSwarmを提案する。 そこで,本研究では,疑似ニューススワーミング特性の新たな概念を提案し,主成分分析,メートル法表現,位置符号化を含む3種類のスワーミング特徴を設計する。 本研究では,これら3種類のSwarm特徴を組み合わせ,f1スコアと97%以上の精度を達成し,偽ニュース識別にSwarm特徴を組み込むことの有効性を実証した。 さらに,フェイクニュース発生の時間分布パターンの仮説に基づいたオンライン学習パイプラインを設計し,初期のフェイクニュースやテキストサンプルの不足といった話題に基づいて検証し,これらの事例のリコール率を大幅に向上させることができることを示す。 本研究は,偽ニュース検出に対する新たな視点とアプローチを提供し,偽ニュース検出におけるスワーミング特性の考察の重要性を強調した。

The proliferation of fake news poses a serious threat to society, as it can misinform and manipulate the public, erode trust in institutions, and undermine democratic processes. To address this issue, we present FakeSwarm, a fake news identification system that leverages the swarming characteristics of fake news. To extract the swarm behavior, we propose a novel concept of fake news swarming characteristics and design three types of swarm features, including principal component analysis, metric representation, and position encoding. We evaluate our system on a public dataset and demonstrate the effectiveness of incorporating swarm features in fake news identification, achieving an f1-score and accuracy of over 97% by combining all three types of swarm features. Furthermore, we design an online learning pipeline based on the hypothesis of the temporal distribution pattern of fake news emergence, validated on a topic with early emerging fake news and a shortage of text samples, showing that swarm features can significantly improve recall rates in such cases. Our work provides a new perspective and approach to fake news detection and highlights the importance of considering swarming characteristics in detecting fake news.
翻訳日:2023-05-31 15:05:54 公開日:2023-05-30
# video controlnet:条件付き画像拡散モデルを用いた時間的一貫性のある合成から実写へのビデオ翻訳

Video ControlNet: Towards Temporally Consistent Synthetic-to-Real Video Translation Using Conditional Image Diffusion Models ( http://arxiv.org/abs/2305.19193v1 )

ライセンス: Link先を確認
Ernie Chu, Shuo-Yen Lin, Jun-Cheng Chen(参考訳) 本研究では,長さの異なるビデオにおいて,時間的に一貫した合成-実ビデオ翻訳を実現するための効率的かつ効果的な手法を提案する。 本手法は,市販の条件付き画像拡散モデルを利用して,複数の合成-実画像生成を行う。 合成ビデオから利用可能な光フロー情報を利用することで,フレーム間の画素間の時間的一貫性をシームレスに実現する。 これは共同ノイズ最適化によって実現され、空間的および時間的差異を効果的に最小化する。 提案手法は,条件付き画像拡散モデルを用いて,多様で時間的に一貫性のある合成から実写への映像翻訳を実現する最初の方法である。 さらに,この手法では拡散モデルのトレーニングや微調整は不要である。 合成から実写へのビデオ翻訳のための様々なベンチマークで行った広範囲な実験により,本手法の有効性が定量的および質的に証明された。 最後に,本手法は,時間的一貫性と視覚品質の両面で,他のベースラインメソッドよりも優れていることを示す。

In this study, we present an efficient and effective approach for achieving temporally consistent synthetic-to-real video translation in videos of varying lengths. Our method leverages off-the-shelf conditional image diffusion models, allowing us to perform multiple synthetic-to-real image generations in parallel. By utilizing the available optical flow information from the synthetic videos, our approach seamlessly enforces temporal consistency among corresponding pixels across frames. This is achieved through joint noise optimization, effectively minimizing spatial and temporal discrepancies. To the best of our knowledge, our proposed method is the first to accomplish diverse and temporally consistent synthetic-to-real video translation using conditional image diffusion models. Furthermore, our approach does not require any training or fine-tuning of the diffusion models. Extensive experiments conducted on various benchmarks for synthetic-to-real video translation demonstrate the effectiveness of our approach, both quantitatively and qualitatively. Finally, we show that our method outperforms other baseline methods in terms of both temporal consistency and visual quality.
翻訳日:2023-05-31 15:05:33 公開日:2023-05-30
# 非線形リカレントニューラルネットワークの逆近似理論

Inverse Approximation Theory for Nonlinear Recurrent Neural Networks ( http://arxiv.org/abs/2305.19190v1 )

ライセンス: Link先を確認
Shida Wang, Zhong Li and Qianxiao Li(参考訳) RNNを用いた非線形列列列関係の近似に対する逆近似定理を証明した。 これはいわゆるベルンシュタイン型近似理論の結果であり、仮説空間によって効果的に近似できるという仮定の下で対象関数の性質を推論する。 特に、ハードタン/タンの活性化を持つrnnによって安定に近似できる関数列と見なされる非線形列関係は指数関数的減衰記憶構造を持つ必要がある。 これは線形rnnにおけるメモリの呪いを一般的な非線形設定に拡張し、長期記憶とのシーケンシャルな関係を学習するためのrnnアーキテクチャの本質的な制限を定量化する。 そこで本研究では,その限界を克服する原理的パラメータ化手法を提案する。 理論的結果は数値実験によって確認される。

We prove an inverse approximation theorem for the approximation of nonlinear sequence-to-sequence relationships using RNNs. This is a so-called Bernstein-type result in approximation theory, which deduces properties of a target function under the assumption that it can be effectively approximated by a hypothesis space. In particular, we show that nonlinear sequence relationships, viewed as functional sequences, that can be stably approximated by RNNs with hardtanh/tanh activations must have an exponential decaying memory structure -- a notion that can be made precise. This extends the previously identified curse of memory in linear RNNs into the general nonlinear setting, and quantifies the essential limitations of the RNN architecture for learning sequential relationships with long-term memory. Based on the analysis, we propose a principled reparameterization method to overcome the limitations. Our theoretical results are confirmed by numerical experiments.
翻訳日:2023-05-31 15:05:17 公開日:2023-05-30
# 信頼による生成:ブラックボックス大言語モデルの不確実性定量化

Generating with Confidence: Uncertainty Quantification for Black-box Large Language Models ( http://arxiv.org/abs/2305.19187v1 )

ライセンス: Link先を確認
Zhen Lin, Shubhendu Trivedi, Jimeng Sun(参考訳) 自然言語生成(NLG)に特化した大規模言語モデル(LLM)は、最近、様々な領域で有望な能力を示すようになった。 しかし、LSMsが生み出す応答の信頼性を高めることは、NLGの不確実性定量化の研究が限られているため、未解決の課題である。 さらに、既存の文献では、言語モデルへのホワイトボックスアクセスを前提としており、これは最新のLCMのクローズドソースの性質や計算上の制約によって非現実的になっている。 本研究では NLG における $\textit{black-box}$ LLM の不確かさの定量化について検討する。 まず、入力のみに依存する$\textit{uncertainty}$と、生成したレスポンスに依存する$\textit{confidence}$という2つの密接な関係を持つ概念を区別します。 次に、いくつかの信頼度/不確実性指標を提案し、それらを$\textit{selective nlg}$に適用する。 これらの結果から,LLM応答の質の予測因子として,平均的セマンティック分散の簡易かつ効果的な指標が期待できることがわかった。 本研究は,llm導入時の不確実性管理に関する実践者にとって有用な知見を提供する。 すべての実験を再現するコードはhttps://github.com/zlin7/UQ-NLG.orgで公開されている。

Large language models (LLMs) specializing in natural language generation (NLG) have recently started exhibiting promising capabilities across a variety of domains. However, gauging the trustworthiness of responses generated by LLMs remains an open challenge, with limited research on uncertainty quantification for NLG. Furthermore, existing literature typically assumes white-box access to language models, which is becoming unrealistic either due to the closed-source nature of the latest LLMs or due to computational constraints. In this work, we investigate uncertainty quantification in NLG for $\textit{black-box}$ LLMs. We first differentiate two closely-related notions: $\textit{uncertainty}$, which depends only on the input, and $\textit{confidence}$, which additionally depends on the generated response. We then propose and compare several confidence/uncertainty metrics, applying them to $\textit{selective NLG}$, where unreliable results could either be ignored or yielded for further assessment. Our findings on several popular LLMs and datasets reveal that a simple yet effective metric for the average semantic dispersion can be a reliable predictor of the quality of LLM responses. This study can provide valuable insights for practitioners on uncertainty management when adopting LLMs. The code to replicate all our experiments is available at https://github.com/zlin7/UQ-NLG.
翻訳日:2023-05-31 15:05:03 公開日:2023-05-30
# Bayesian Implicit Neural Representation による圧縮

Compression with Bayesian Implicit Neural Representations ( http://arxiv.org/abs/2305.19185v1 )

ライセンス: Link先を確認
Zongyu Guo, Gergely Flamich, Jiajun He, Zhibo Chen, Jos\'e Miguel Hern\'andez-Lobato(参考訳) 多くの一般的なデータ型は、ピクセルの位置や画像の場合のrgb値など、座標を信号値にマッピングする関数として表現することができる。 このビューに基づいて、コンパクトニューラルネットワークを機能表現に過度に適合させ、ネットワーク重みを符号化することで、データを圧縮することができる。 しかし、現在のソリューションのほとんどは非効率であり、低ビット精度への量子化は再構成品質を実質的に低下させる。 この問題に対処するために、変分ベイズニューラルネットワークをデータに適用し、量子化やエントロピー符号化の代わりに相対エントロピー符号化を用いて近似後重みサンプルを圧縮する手法を提案する。 この戦略により、$\beta$-elboを最小化し、$\beta$を調整して所定のネットワークアーキテクチャの異なるレートディストリクトトレードオフを目標とするレートディストリクト性能の直接最適化が可能になる。 さらに, 先行体重分布を学習するための反復アルゴリズムを導入し, 変動後方の漸進的改良プロセスを採用し, 性能を著しく向上させる。 実験により,本手法は単純さを維持しつつ,画像および音声の圧縮に強い性能を発揮することが示された。

Many common types of data can be represented as functions that map coordinates to signal values, such as pixel locations to RGB values in the case of an image. Based on this view, data can be compressed by overfitting a compact neural network to its functional representation and then encoding the network weights. However, most current solutions for this are inefficient, as quantization to low-bit precision substantially degrades the reconstruction quality. To address this issue, we propose overfitting variational Bayesian neural networks to the data and compressing an approximate posterior weight sample using relative entropy coding instead of quantizing and entropy coding it. This strategy enables direct optimization of the rate-distortion performance by minimizing the $\beta$-ELBO, and target different rate-distortion trade-offs for a given network architecture by adjusting $\beta$. Moreover, we introduce an iterative algorithm for learning prior weight distributions and employ a progressive refinement process for the variational posterior that significantly enhances performance. Experiments show that our method achieves strong performance on image and audio compression while retaining simplicity.
翻訳日:2023-05-31 15:04:42 公開日:2023-05-30
# 音声テキスト蒸留モデルを用いた効率的な自己監督感情認識のための意味情報の活用

Leveraging Semantic Information for Efficient Self-Supervised Emotion Recognition with Audio-Textual Distilled Models ( http://arxiv.org/abs/2305.19184v1 )

ライセンス: Link先を確認
Danilo de Oliveira, Navin Raj Prabhu, Timo Gerkmann(参考訳) 暗黙的なセマンティックモデリングにより、自己教師付き学習(SSL)手法は、音声認識(SER)システムにおける価値認識の性能を大幅に向上させた。 しかし、その大きなサイズは実用的な実装を妨げることが多い。 本稿では,HuBERTをSSLモデルの例として捉え,各レイヤの関連性をSERで解析する。 浅い層は覚醒的認識においてより重要であり,深い層は原子価にとってより重要であることを示す。 この観察は、大規模なSSL教師の奥行きを欠いた蒸留フレームワークにより、精度の高い原子価認識のための追加のテキスト情報の重要性を動機付けている。 そこで本稿では,MSP-Podcast v1.10データセット上の3つの感情次元(覚醒,原子価,支配性)に対して,トレーニング可能なパラメータの約20%しか持たないオーディオテキスト蒸留SSLフレームワークを提案する。

In large part due to their implicit semantic modeling, self-supervised learning (SSL) methods have significantly increased the performance of valence recognition in speech emotion recognition (SER) systems. Yet, their large size may often hinder practical implementations. In this work, we take HuBERT as an example of an SSL model and analyze the relevance of each of its layers for SER. We show that shallow layers are more important for arousal recognition while deeper layers are more important for valence. This observation motivates the importance of additional textual information for accurate valence recognition, as the distilled framework lacks the depth of its large-scale SSL teacher. Thus, we propose an audio-textual distilled SSL framework that, while having only ~20% of the trainable parameters of a large SSL model, achieves on par performance across the three emotion dimensions (arousal, valence, dominance) on the MSP-Podcast v1.10 dataset.
翻訳日:2023-05-31 15:04:22 公開日:2023-05-30
# グラフに基づく階層型予測のための時系列クラスタリング

Graph-based Time Series Clustering for End-to-End Hierarchical Forecasting ( http://arxiv.org/abs/2305.19183v1 )

ライセンス: Link先を確認
Andrea Cini, Danilo Mandic, Cesare Alippi(参考訳) 時系列間の既存の関係は、効果的な予測モデルを学ぶための帰納的バイアスとして活用できる。 階層的時系列では、列のサブセット間の関係は予測値に厳しい制約(階層的帰納的バイアス)をもたらす。 本稿では,時系列予測のためのディープラーニングの文脈において,関係的および階層的帰納的バイアスを統一するグラフベース手法を提案する。 特に、階層のレベルに対応する各ピラミッド層とともに、両方の関係をピラミッドグラフ構造における依存関係としてモデル化する。 現代的な-トレーニング可能な-グラフプーリング演算子を利用することで、階層構造が事前で利用できない場合、データから直接学習できることを示し、予測目的に沿ったクラスタ割り当てを取得する。 処理アーキテクチャには差別化可能な和解段階が組み込まれており、階層的な制約がアーキテクチャのバイアスと予測の正規化要素の両方として振る舞うことができる。 代表的データセットのシミュレーション結果は,提案手法が技術状況と良好に比較できることを示している。

Existing relationships among time series can be exploited as inductive biases in learning effective forecasting models. In hierarchical time series, relationships among subsets of sequences induce hard constraints (hierarchical inductive biases) on the predicted values. In this paper, we propose a graph-based methodology to unify relational and hierarchical inductive biases in the context of deep learning for time series forecasting. In particular, we model both types of relationships as dependencies in a pyramidal graph structure, with each pyramidal layer corresponding to a level of the hierarchy. By exploiting modern - trainable - graph pooling operators we show that the hierarchical structure, if not available as a prior, can be learned directly from data, thus obtaining cluster assignments aligned with the forecasting objective. A differentiable reconciliation stage is incorporated into the processing architecture, allowing hierarchical constraints to act both as an architectural bias as well as a regularization element for predictions. Simulation results on representative datasets show that the proposed method compares favorably against the state of the art.
翻訳日:2023-05-31 15:04:05 公開日:2023-05-30
# ビジュアルリッチな文書画像のテーブル検出

Table Detection for Visually Rich Document Images ( http://arxiv.org/abs/2305.19181v1 )

ライセンス: Link先を確認
Bin Xiao, Murat Simsek, Burak Kantarci, Ala Abu Alkheir(参考訳) テーブル検出(td)は、視覚的にリッチな文書理解のための基本的なタスクである。 現在の研究では、TD問題をオブジェクト検出問題として定式化し、次にIntersection over Union(IoU)ベースのメトリクスを利用してモデル性能とIoUベースの損失関数を評価し、モデルを最適化する。 TDアプリケーションは、通常、全てのテーブルの内容をカバーするために予測結果を必要とし、情報損失を避ける。 しかし、IoUとIoUに基づく損失関数は、予測結果に対する情報損失の程度を直接反映することはできない。 そこで,本論文では,IoUを,予測結果の情報損失を測定するために前者を用いるような,基礎的真理カバレッジ項と予測カバレッジ項に分離することを提案する。 さらに、文書の表は通常大きく、細かな分散であり、人間の読者にとって読みやすく解釈しやすくするために重要な情報を要約するように設計されているため重複しない。 そこで本研究では,SparseR-CNNをベースモデルとし,ガウス雑音強調画像サイズ領域の提案と多対一のラベル割り当てを用いてモデルを改善する。 提案手法の有効性を実証し,最先端手法と同等に比較するために,実験を行い,IoUに基づく評価指標を用いてモデル性能を評価する。 実験結果から, 提案手法は, 様々なデータセット上で, 異なるIoU基準の下で, 常に最先端の手法より優れることが示された。 IoUに基づく損失関数と評価指標を、提案した非結合IoUと置き換えることで、提案した非結合IoUのTDアプリケーションに対する優位性を示すためのさらなる実験を行う。 実験結果から,提案した分離したIoU損失は,情報損失を軽減できる可能性が示唆された。

Table Detection (TD) is a fundamental task towards visually rich document understanding. Current studies usually formulate the TD problem as an object detection problem, then leverage Intersection over Union (IoU) based metrics to evaluate the model performance and IoU-based loss functions to optimize the model. TD applications usually require the prediction results to cover all the table contents and avoid information loss. However, IoU and IoU-based loss functions cannot directly reflect the degree of information loss for the prediction results. Therefore, we propose to decouple IoU into a ground truth coverage term and a prediction coverage term, in which the former can be used to measure the information loss of the prediction results. Besides, tables in the documents are usually large, sparsely distributed, and have no overlaps because they are designed to summarize essential information to make it easy to read and interpret for human readers. Therefore, in this study, we use SparseR-CNN as the base model, and further improve the model by using Gaussian Noise Augmented Image Size region proposals and many-to-one label assignments. To demonstrate the effectiveness of proposed method and compare with state-of-the-art methods fairly, we conduct experiments and use IoU-based evaluation metrics to evaluate the model performance. The experimental results show that the proposed method can consistently outperform state-of-the-art methods under different IoU-based metric on a variety of datasets. We conduct further experiments to show the superiority of the proposed decoupled IoU for the TD applications by replacing the IoU-based loss functions and evaluation metrics with proposed decoupled IoU counterparts. The experimental results show that our proposed decoupled IoU loss can encourage the model to alleviate information loss.
翻訳日:2023-05-31 15:03:49 公開日:2023-05-30
# 時間相関による目撃環境次元

Witnessing environment dimension through temporal correlations ( http://arxiv.org/abs/2305.19175v1 )

ライセンス: Link先を確認
Lucas B. Vieira, Simon Milz, Giuseppe Vitagliano, Costantino Budroni(参考訳) 本稿では,開量子系力学において達成可能な時間的相関の上限を計算するためのフレームワークを提案する。 これらの相関は、記憶資源として働く環境によって生じるため、観測された統計と互換性のある有効環境の最小次元の証人である。 これらの証人は、漸近収束が保証された半定プログラムの階層に由来する。 我々は、量子ビット系と量子ビット環境を含む様々なシーケンスの非自明な境界を計算し、その結果を同じ結果列を生成する最もよく知られた量子戦略と比較する。 本研究は,オープン量子系力学におけるマルチ時間確率分布の境界を数値的に決定し,システムのみの探索による有効環境次元の目撃を可能にする方法である。

We introduce a framework to compute upper bounds for temporal correlations achievable in open quantum system dynamics, obtained by repeated measurements on the system. As these correlations arise by virtue of the environment acting as a memory resource, such bounds are witnesses for the minimal dimension of an effective environment compatible with the observed statistics. These witnesses are derived from a hierarchy of semidefinite programs with guaranteed asymptotic convergence. We compute non-trivial bounds for various sequences involving a qubit system and a qubit environment, and compare the results to the best known quantum strategies producing the same outcome sequences. Our results provide a numerically tractable method to determine bounds on multi-time probability distributions in open quantum system dynamics and allow for the witnessing of effective environment dimensions through probing of the system alone.
翻訳日:2023-05-31 15:03:20 公開日:2023-05-30
# IoTマイクロコントローラデバイスにおけるインテリジェントパケットフィルタリングの設計と実装

Design and implementation of intelligent packet filtering in IoT microcontroller-based devices ( http://arxiv.org/abs/2305.19214v1 )

ライセンス: Link先を確認
Gustavo de Carvalho Bertoli, Gabriel Victor C. Fernandes, Pedro H. Borges Monici, C\'esar H. de Araujo Guibo, Louren\c{c}o Alves Pereira Jr., Aldri Santos(参考訳) IoT(Internet of Things)デバイスは,新たなアプリケーションやサービスを実現する上で,ますます普及し,不可欠なコンポーネントとなっている。 しかし、その広範な使用によって、悪用可能な脆弱性や欠陥も露呈し、大きな損失につながる可能性がある。 この文脈では、悪意のある攻撃からIoTデバイスを保護するために、堅牢なサイバーセキュリティ対策を保証することが不可欠である。 しかし、フレキシブルなポリシー仕様とIoTデバイスのセキュリティレベルを提供する現在のソリューションは少ない。 このギャップに対処するために,機械学習(ML)アルゴリズムを用いてIoTデバイスにパケットを分類する低リソースパケットフィルタであるT800を導入する。 本稿では,ESP32システムオンチップマイクロコントローラとESP-IDFフレームワーク上でT800の有効性を示す。 評価の結果,T800は処理パイプラインからの不正なトラフィックを排除し,デバイスの計算能力を向上させる効率的なソリューションであることがわかった。 さらに、T800はさまざまなシステムに適用可能で、ESP32ベースのIoTシステム上でのセキュリティMLベースのメカニズムに対して、十分に文書化されたパフォーマンス評価戦略を提供する。 我々の研究は、リソース制限されたIoTデバイスのサイバーセキュリティの改善に貢献し、IoTシステムのセキュリティを強化するために使用できるスケーラブルで効率的なソリューションを提供する。

Internet of Things (IoT) devices are increasingly pervasive and essential components in enabling new applications and services. However, their widespread use also exposes them to exploitable vulnerabilities and flaws that can lead to significant losses. In this context, ensuring robust cybersecurity measures is essential to protect IoT devices from malicious attacks. However, the current solutions that provide flexible policy specifications and higher security levels for IoT devices are scarce. To address this gap, we introduce T800, a low-resource packet filter that utilizes machine learning (ML) algorithms to classify packets in IoT devices. We present a detailed performance benchmarking framework and demonstrate T800's effectiveness on the ESP32 system-on-chip microcontroller and ESP-IDF framework. Our evaluation shows that T800 is an efficient solution that increases device computational capacity by excluding unsolicited malicious traffic from the processing pipeline. Additionally, T800 is adaptable to different systems and provides a well-documented performance evaluation strategy for security ML-based mechanisms on ESP32-based IoT systems. Our research contributes to improving the cybersecurity of resource-constrained IoT devices and provides a scalable, efficient solution that can be used to enhance the security of IoT systems.
翻訳日:2023-05-31 14:58:32 公開日:2023-05-30
# IFの魔法:コードの大規模言語モデルにおける因果推論能力の調査

The Magic of IF: Investigating Causal Reasoning Abilities in Large Language Models of Code ( http://arxiv.org/abs/2305.19213v1 )

ライセンス: Link先を確認
Xiao Liu, Da Yin, Chen Zhang, Yansong Feng, Dongyan Zhao(参考訳) 因果関係を特定する能力である因果推論は、人間の思考において重要である。 大きな言語モデル(llm)は多くのnlpタスクで成功するが、アブダクション推論や反事実推論のような複雑な因果推論を行うことは依然として困難である。 のような条件文で、より頻繁に、明示的に因果関係を表現することを考えると、コード-LLMがより良い因果関係の能力を得るかどうかを探求したい。 実験の結果,テキストのみのLLMと比較して,コードプロンプトを用いたコード-LLMの方が因果推論において有意に優れていることがわかった。 さらに異なる側面からのプロンプトに介入し、コードプロンプト設計においてプログラミング構造が不可欠であるのに対して、コード-LLMはフォーマットの摂動に対して堅牢であることを示す。

Causal reasoning, the ability to identify cause-and-effect relationship, is crucial in human thinking. Although large language models (LLMs) succeed in many NLP tasks, it is still challenging for them to conduct complex causal reasoning like abductive reasoning and counterfactual reasoning. Given the fact that programming code may express causal relations more often and explicitly with conditional statements like ``if``, we want to explore whether Code-LLMs acquire better causal reasoning abilities. Our experiments show that compared to text-only LLMs, Code-LLMs with code prompts are significantly better in causal reasoning. We further intervene on the prompts from different aspects, and discover that the programming structure is crucial in code prompt design, while Code-LLMs are robust towards format perturbations.
翻訳日:2023-05-31 14:58:16 公開日:2023-05-30
# treewidth を利用した投影モデルカウントの解法とその限界

Solving Projected Model Counting by Utilizing Treewidth and its Limits ( http://arxiv.org/abs/2305.19212v1 )

ライセンス: Link先を確認
Johannes K. Fichte, Markus Hecher, Michael Morak, Patrick Thier, Stefan Woltran(参考訳) 本稿では,予測モデルカウント(PMC)を解く新しいアルゴリズムを提案する。 pmc は与えられた射影変数の集合に関してブール公式の解を数えることを要求し、射影変数に制限された複数の解は一つの解として数えられる。 いわゆる「木幅」が最も顕著な構造パラメータの1つであるという観測に触発されて、本アルゴリズムは入力インスタンスの原始グラフの小さな木幅を利用する。 より正確には、時間 O(2^2k+4n2) で、k は木幅、n はインスタンスの入力サイズである。 言い換えると、問題はtreewidthによってパラメータ化されるとき、pmc は固定パラメータ扱い可能である。 さらに, 指数時間仮説 (eth) を考慮に入れ, pmc の有界木幅アルゴリズムの下限を定め, アルゴリズムの漸近的にタイトなランタイム境界を導出する。 上記のアルゴリズムは、最初の理論上界として機能し、kの小さな値に非常にアピールするかもしれないが、当然ながら、この実行時境界に固執する単純な実装は、既に比較的小さな幅のインスタンスに悩まされている。 そこで,本研究では,木幅を活用すべく,いくつかの手法に注意を向ける。我々は,あるインスタンスの木の分解を(再帰的に)計算し,精製するために,基本グラフの抽象レベルが異なるネスト動的プログラミングと呼ばれる手法を提案する。 最後に、ネストされた動的プログラミングアルゴリズムと、MCのデータベース技術に依存した実装と、MCの顕著な特別なケースであるモデルカウント(#Sat)を提供する。 実験によると、この進歩は有望であり、200以上の木幅上限のインスタンスを解決できる。

In this paper, we introduce a novel algorithm to solve projected model counting (PMC). PMC asks to count solutions of a Boolean formula with respect to a given set of projection variables, where multiple solutions that are identical when restricted to the projection variables count as only one solution. Inspired by the observation that the so-called "treewidth" is one of the most prominent structural parameters, our algorithm utilizes small treewidth of the primal graph of the input instance. More precisely, it runs in time O(2^2k+4n2) where k is the treewidth and n is the input size of the instance. In other words, we obtain that the problem PMC is fixed-parameter tractable when parameterized by treewidth. Further, we take the exponential time hypothesis (ETH) into consideration and establish lower bounds of bounded treewidth algorithms for PMC, yielding asymptotically tight runtime bounds of our algorithm. While the algorithm above serves as a first theoretical upper bound and although it might be quite appealing for small values of k, unsurprisingly a naive implementation adhering to this runtime bound suffers already from instances of relatively small width. Therefore, we turn our attention to several measures in order to resolve this issue towards exploiting treewidth in practice: We present a technique called nested dynamic programming, where different levels of abstractions of the primal graph are used to (recursively) compute and refine tree decompositions of a given instance. Finally, we provide a nested dynamic programming algorithm and an implementation that relies on database technology for PMC and a prominent special case of PMC, namely model counting (#Sat). Experiments indicate that the advancements are promising, allowing us to solve instances of treewidth upper bounds beyond 200.
翻訳日:2023-05-31 14:58:01 公開日:2023-05-30
# 吐き気のマススペクトルからのCOVID-19検出

COVID-19 Detection from Mass Spectra of Exhaled Breath ( http://arxiv.org/abs/2305.19211v1 )

ライセンス: Link先を確認
Nicol\`o Bellarmino, Giorgio Bozzini, Riccardo Cantoro, Francesco Castelletti, Michele Castelluzzo, Carla Ciricugno, Raffaele Correale, Daniela Dalla Gasperina, Francesco Dentali, Giovanni Poggialini, Piergiorgio Salerno, Giovanni Squillero, Stefano Taborelli(参考訳) 世界保健機関(WHO)によると、SARS-CoV-2ウイルスは2020年から2023年の間に世界的な緊急事態を引き起こし、新型コロナウイルスと診断された7500万人以上のうち約700万人が死亡した。 この間、ポリメラーゼ連鎖反応と抗原検査は疾患の制御において重要な役割を担った。 本研究では,独自の質量分析計を用いて呼気中のイオンを測定する高速かつ非侵襲的な検出システムを提案する。 感染した患者は, たとえ無症状であっても, 肺から排出される空気の特徴をナノテクノロジー技術で検出し, 軟式計算アルゴリズムで認識できることを実証した。 10-351質量対電荷範囲の質量スペクトルを測定、適切に前処理し、異なる分類モデルで分析し、最終的には95%の精度と94%のリコールを示した。 従来の手法に匹敵するパフォーマンスで,本システムでは,共通疾患の定期検査と新規流行の緊急対応の両方において重要な役割を担っている。

According to the World Health Organization, the SARS-CoV-2 virus generated a global emergency between 2020 and 2023 resulting in about 7 million deaths out of more than 750 million individuals diagnosed with COVID-19. During these years, polymerase-chain-reaction and antigen testing played a prominent role in disease control. In this study, we propose a fast and non-invasive detection system exploiting a proprietary mass spectrometer to measure ions in exhaled breath. We demonstrated that infected individuals, even if asymptomatic, exhibit characteristics in the air expelled from the lungs that can be detected by a nanotech-based technology and then recognized by soft-computing algorithms. A clinical trial was ran on about 300 patients: the mass spectra in the 10-351 mass-to-charge range were measured, suitably pre-processed, and analyzed by different classification models; eventually, the system shown an accuracy of 95% and a recall of 94% in identifying cases of COVID-19. With performances comparable to traditional methodologies, the proposed system could play a significant role in both routine examination for common diseases and emergency response for new epidemics.
翻訳日:2023-05-31 14:57:28 公開日:2023-05-30
# グループ不変グローバルプール

Group Invariant Global Pooling ( http://arxiv.org/abs/2305.19207v1 )

ライセンス: Link先を確認
Kamil Bujel, Yonatan Gideoni, Chaitanya K. Joshi, Pietro Li\`o(参考訳) 多くの作業はグループ同変表現を構築するアーキテクチャの考案に費やされてきたが、不変性はしばしば単純なグローバルプール機構を使って誘導される。 様々な分子タスクにおける置換不変プールの成功にもかかわらず、与えられた対称性に不変な表現的層を作成する作業はほとんど行われていない。 本研究では,不変関数の大きなクラスを表現するために十分に表現可能な不変プーリング層であるgigp(group invariant global pooling)を提案する。 回転MNISTとQM9ではGIGPが有効であり, 後者では改善がみられ, 前者では同様の結果が得られた。 プーリング過程群を軌道認識させることにより、この不変集約法は、高い精度でグループアグリゲーションを実行しながら、パフォーマンスを向上させる。

Much work has been devoted to devising architectures that build group-equivariant representations, while invariance is often induced using simple global pooling mechanisms. Little work has been done on creating expressive layers that are invariant to given symmetries, despite the success of permutation invariant pooling in various molecular tasks. In this work, we present Group Invariant Global Pooling (GIGP), an invariant pooling layer that is provably sufficiently expressive to represent a large class of invariant functions. We validate GIGP on rotated MNIST and QM9, showing improvements for the latter while attaining identical results for the former. By making the pooling process group orbit-aware, this invariant aggregation method leads to improved performance, while performing well-principled group aggregation.
翻訳日:2023-05-31 14:57:11 公開日:2023-05-30
# 低ランク行列近似に対する勾配降下の高速大域収束

Fast global convergence of gradient descent for low-rank matrix approximation ( http://arxiv.org/abs/2305.19206v1 )

ライセンス: Link先を確認
Hengchao Chen, Xin Chen, Mohamad Elmasri, Qiang Sun(参考訳) 本稿では,低ランク行列近似問題の解法における勾配勾配について検討する。 まず、対称行列近似に対する勾配降下の局所線型収束を確立することから始める。 この結果に基づき, 勾配降下の急速大域収束を, 特に小さなランダム値で初期化した場合に証明する。 特例として小さなランダム初期化を含む適度なランダム初期化であっても、勾配降下は、最上位固有値が同一のシナリオにおいて高速な大域収束を達成する。 さらに,非対称行列近似問題に対する解析を拡張し,レトラクションフリー固有空間計算法の有効性について検討する。 数値実験は我々の理論を強く支持する。 特に、retraction-freeアルゴリズムは対応するリーマン勾配降下法を上回り、その結果、実行時間の29\%減少する。

This paper investigates gradient descent for solving low-rank matrix approximation problems. We begin by establishing the local linear convergence of gradient descent for symmetric matrix approximation. Building on this result, we prove the rapid global convergence of gradient descent, particularly when initialized with small random values. Remarkably, we show that even with moderate random initialization, which includes small random initialization as a special case, gradient descent achieves fast global convergence in scenarios where the top eigenvalues are identical. Furthermore, we extend our analysis to address asymmetric matrix approximation problems and investigate the effectiveness of a retraction-free eigenspace computation method. Numerical experiments strongly support our theory. In particular, the retraction-free algorithm outperforms the corresponding Riemannian gradient descent method, resulting in a significant 29\% reduction in runtime.
翻訳日:2023-05-31 14:56:55 公開日:2023-05-30
# AMatFormer: Anchor Matching Transformerによる効率的な特徴マッチング

AMatFormer: Efficient Feature Matching via Anchor Matching Transformer ( http://arxiv.org/abs/2305.19205v1 )

ライセンス: Link先を確認
Bo Jiang, Shuxian Luo, Xiao Wang, Chuanfu Li, Jin Tang(参考訳) 近年,学習に基づく特徴マッチング手法が広く研究されている。 特徴マッチング学習の核となる課題は、(1)画像内の各特徴点(または領域)の識別的表現、(2)画像間の特徴点のコンセンサス表現の学習である。 最近、この問題に対処するために自己と横断的なモデルが活用されている。 しかし、多くのシーンで、機能は大規模で冗長で、異常なほど汚染されている。 従来の自己/横断型モデルは、通常、すべての原始的特徴に対してメッセージパッシングを行い、冗長な学習と高い計算コストをもたらす。 本稿では,近年のシードマッチング法に触発された制約を緩和するため,特徴マッチング問題に対する新しい効率的なアンカーマッチング変換器 (AMatFormer) を提案する。 amatformerには2つの主な側面がある。 まず、アンカー機能で主に自己/クロスアテンションを行い、これらのアンカー機能をメッセージボトルネックとして活用して、すべての基本的な特徴の表現を学ぶ。 これにより、効率良くコンパクトに実装することができる。 第二に、amatformerは共有ffnモジュールを採用し、2つの画像の特徴をさらに共通ドメインに埋め込むことにより、マッチング問題のコンセンサス特徴表現を学ぶ。 いくつかのベンチマークにおける実験により、提案手法の有効性と効率が実証された。

Learning based feature matching methods have been commonly studied in recent years. The core issue for learning feature matching is to how to learn (1) discriminative representations for feature points (or regions) within each intra-image and (2) consensus representations for feature points across inter-images. Recently, self- and cross-attention models have been exploited to address this issue. However, in many scenes, features are coming with large-scale, redundant and outliers contaminated. Previous self-/cross-attention models generally conduct message passing on all primal features which thus lead to redundant learning and high computational cost. To mitigate limitations, inspired by recent seed matching methods, in this paper, we propose a novel efficient Anchor Matching Transformer (AMatFormer) for the feature matching problem. AMatFormer has two main aspects: First, it mainly conducts self-/cross-attention on some anchor features and leverages these anchor features as message bottleneck to learn the representations for all primal features. Thus, it can be implemented efficiently and compactly. Second, AMatFormer adopts a shared FFN module to further embed the features of two images into the common domain and thus learn the consensus feature representations for the matching problem. Experiments on several benchmarks demonstrate the effectiveness and efficiency of the proposed AMatFormer matching approach.
翻訳日:2023-05-31 14:56:32 公開日:2023-05-30
# SWiPE:ウィキペディアページのドキュメントレベル単純化のためのデータセット

SWiPE: A Dataset for Document-Level Simplification of Wikipedia Pages ( http://arxiv.org/abs/2305.19204v1 )

ライセンス: Link先を確認
Philippe Laban, Jesse Vig, Wojciech Kryscinski, Shafiq Joty, Caiming Xiong, Chien-Sheng Wu(参考訳) テキストの簡易化研究は主に文レベルの単純化に重点を置いているが、適切な背景情報の追加やコンテンツの再注文など、多くの望ましい編集には文書レベルのコンテキストが必要である。 以前の作業は、単純化プロセスを解明する細粒度でスパンレベルの編集を暗黙的にモデル化する単一ステップの入出力タスクとして、主に単純化された。 両ギャップに対処するため、SWiPEデータセットを導入し、英語ウィキペディア(EW)記事から単純なウィキペディア(SEW)記事への文書レベルの編集プロセスを再構築する。 以前の作業とは対照的に、SWiPEは、ページをペアリングする際のリビジョン履歴全体を活用して、単純化編集をより正確に識別する。 我々はウィキペディアの編集者と協力して5000のEW-SEWドキュメントペアを注釈付けし、提案19のカテゴリで4万以上の編集をラベル付けしています。 そこで我々は,F-1スコアを最大70.6まで達成し,編集を自動ラベル付けするモデルを提案し,これは難易度だが難解なNLUタスクであることを示す。 最後に、複数の単純化モデルによって生成された編集を分類し、SWiPEで訓練されたモデルが不要な編集を減らしながらより複雑な編集を生成することを示す。

Text simplification research has mostly focused on sentence-level simplification, even though many desirable edits - such as adding relevant background information or reordering content - may require document-level context. Prior work has also predominantly framed simplification as a single-step, input-to-output task, only implicitly modeling the fine-grained, span-level edits that elucidate the simplification process. To address both gaps, we introduce the SWiPE dataset, which reconstructs the document-level editing process from English Wikipedia (EW) articles to paired Simple Wikipedia (SEW) articles. In contrast to prior work, SWiPE leverages the entire revision history when pairing pages in order to better identify simplification edits. We work with Wikipedia editors to annotate 5,000 EW-SEW document pairs, labeling more than 40,000 edits with proposed 19 categories. To scale our efforts, we propose several models to automatically label edits, achieving an F-1 score of up to 70.6, indicating that this is a tractable but challenging NLU task. Finally, we categorize the edits produced by several simplification models and find that SWiPE-trained models generate more complex edits while reducing unwanted edits.
翻訳日:2023-05-31 14:55:53 公開日:2023-05-30
# D\"aRF":単眼深度適応によるスパース入力からの放射場向上

D\"aRF: Boosting Radiance Fields from Sparse Inputs with Monocular Depth Adaptation ( http://arxiv.org/abs/2305.19201v1 )

ライセンス: Link先を確認
Jiuhn Song, Seonghoon Park, Honggyu An, Seokju Cho, Min-Seop Kwak, Sungjin Cho, Seungryong Kim(参考訳) ニューラルレイディアンス場(NeRF)は、新しいビュー合成と3次元幾何再構成において強力な性能を示すが、既知の視点の数が劇的に減少すると、重要な性能劣化に悩まされる。 既存の作業は、外部の事前情報を利用することでこの問題を克服しようとするが、その成功は特定のシーンやデータセットに限られる。 大規模rgb-dデータセットで事前学習されたmde(monocular depth estimation)ネットワークを使用することで、強力な一般化能力を備えることが、この問題の鍵となる。 そこで本研究では,NRFの強みと単眼深度推定を相補的学習により組み合わせることで,一握りの現実世界画像と頑健なNeRF再構成を実現する,D\"aRF"と呼ばれる新しいフレームワークを提案する。 提案手法では,nrf表現前のmdeネットワークの強固な幾何構造を,視・視認の両視点で強制し,強固性とコヒーレンス性を高める。 さらに,mdeネットワークを応用し,nrf幾何に正確に整列した深さを生成するパッチワイズ・スケールシフト・フィッティングと幾何蒸留により,単眼深度の曖昧性問題を克服した。 実験により,本フレームワークは室内および屋外の実世界のデータセットにおいて,定量的かつ質的に,一貫した信頼性のある性能を示す。 プロジェクトページはhttps://ku-cvlab.github.io/darf/。

Neural radiance fields (NeRF) shows powerful performance in novel view synthesis and 3D geometry reconstruction, but it suffers from critical performance degradation when the number of known viewpoints is drastically reduced. Existing works attempt to overcome this problem by employing external priors, but their success is limited to certain types of scenes or datasets. Employing monocular depth estimation (MDE) networks, pretrained on large-scale RGB-D datasets, with powerful generalization capability would be a key to solving this problem: however, using MDE in conjunction with NeRF comes with a new set of challenges due to various ambiguity problems exhibited by monocular depths. In this light, we propose a novel framework, dubbed D\"aRF, that achieves robust NeRF reconstruction with a handful of real-world images by combining the strengths of NeRF and monocular depth estimation through online complementary training. Our framework imposes the MDE network's powerful geometry prior to NeRF representation at both seen and unseen viewpoints to enhance its robustness and coherence. In addition, we overcome the ambiguity problems of monocular depths through patch-wise scale-shift fitting and geometry distillation, which adapts the MDE network to produce depths aligned accurately with NeRF geometry. Experiments show our framework achieves state-of-the-art results both quantitatively and qualitatively, demonstrating consistent and reliable performance in both indoor and outdoor real-world datasets. Project page is available at https://ku-cvlab.github.io/DaRF/.
翻訳日:2023-05-31 14:55:09 公開日:2023-05-30
# ハイブリッド変分量子固有解法:マージ計算モデル

Hybrid variational quantum eigensolvers: merging computational models ( http://arxiv.org/abs/2305.19200v1 )

ライセンス: Link先を確認
Albie Chan, Zheng Shi, Luca Dellantonio, Wolfgang D\"ur and Christine A. Muschik(参考訳) 変分量子固有ソルバ(英: variational quantum eigensolvers, vqes)は、量子コンピュータ上で物理モデルをシミュレートする手法である。 近年、量子コンピューティングの計測に基づくアプローチに拡張され、この計算モデルの強みと利点がVQEにもたらされた。 本研究では,VQEの設計と統合のフロンティアを,測定ベース要素をゲートベースパラダイムにブレンドすることで,ハイブリッドVQEを形成する。 これにより、問題インフォームド変分アンサッツの設計が容易になり、またNISQデバイス上で多体ハミルトンの効率的な実装が可能になる。 本研究では, 摂動平面符号, Z2, SU(3) 格子ゲージ理論, LiH 分子を解析し, 超伝導量子コンピュータへのアプローチを実験的に実証した。

Variational quantum eigensolvers (VQEs) are a highly successful technique for simulating physical models on quantum computers. Recently, they were extended to the measurement-based approach of quantum computing, bringing the strengths and advantages of this computational model to VQEs. In this work, we push the design and integration frontiers of VQE further by blending measurement-based elements into the gate-based paradigm to form a hybrid VQE. This facilitates the design of a problem-informed variational ansatz and also allows the efficient implementation of many-body Hamiltonians on NISQ devices. We experimentally demonstrate our approach on a superconducting quantum computer by investigating the perturbed planar code, Z2 and SU(3) lattice gauge theories, and the LiH molecule.
翻訳日:2023-05-31 14:54:40 公開日:2023-05-30
# 隠れ表現変換を用いたテキスト生成制御

Controlled Text Generation with Hidden Representation Transformations ( http://arxiv.org/abs/2305.19230v1 )

ライセンス: Link先を確認
Vaibhav Kumar, Hana Koorehdavoudi, Masud Moshtaghi, Amita Misra, Ankit Chadha, Emilio Ferrara(参考訳) 提案するCHRT(Control Hidden Representation Transformation)は,大規模言語モデルを用いて特定の属性(毒性など)に関連するテキストを生成する制御言語生成フレームワークである。 CHRTは、学習された変換を通じてベースモデルの隠れ表現を変更することで属性制御を得る。 コントラスト学習フレームワークを用いてこれらの変換を学習し、それを組み合わせてマルチ属性制御を実現する。 CHRTの有効性は、3つの属性に対して7つのベースラインと比較することによって実験的に示される。 CHRTは、言語品質の損失を最小限に抑えながら、解毒、ポジティブな感情ステアリング、テキストの単純化といったタスクにおいて、すべてのベースラインを上回ります。 さらに,本手法はベースモデルよりも0.01秒遅れの低い推論レイテンシを持ち,高性能な実運用環境に最も適している。 コードをオープンソース化し、2つの新しいデータセットをリリースし、制御された言語生成の研究をさらに推進します。

We propose CHRT (Control Hidden Representation Transformation) - a controlled language generation framework that steers large language models to generate text pertaining to certain attributes (such as toxicity). CHRT gains attribute control by modifying the hidden representation of the base model through learned transformations. We employ a contrastive-learning framework to learn these transformations that can be combined to gain multi-attribute control. The effectiveness of CHRT is experimentally shown by comparing it with seven baselines over three attributes. CHRT outperforms all the baselines in the task of detoxification, positive sentiment steering, and text simplification while minimizing the loss in linguistic qualities. Further, our approach has the lowest inference latency of only 0.01 seconds more than the base model, making it the most suitable for high-performance production environments. We open-source our code and release two novel datasets to further propel controlled language generation research.
翻訳日:2023-05-31 14:47:11 公開日:2023-05-30
# feddisco: 疎結合なコラボレーションによる連合学習

FedDisco: Federated Learning with Discrepancy-Aware Collaboration ( http://arxiv.org/abs/2305.19229v1 )

ライセンス: Link先を確認
Rui Ye, Mingkai Xu, Jianyu Wang, Chenxin Xu,Siheng Chen, Yanfeng Wang(参考訳) 本研究は,連合学習におけるカテゴリー分布の不均一性について考察する。 この問題は、複数のクライアントでのバイアス付きラベリングの好みが原因であり、データの不均一性の典型的な設定である。 この問題を軽減するため、以前のほとんどの著作では、局所モデルを正規化するか、グローバルモデルを微調整するかを検討するが、集約重みの調整を無視し、データセットサイズに基づいて重みを割り当てるだけである。 しかし,実験的な観測と理論的分析から,データセットのサイズは最適ではなく,局所分布と大域分布の差は,集合重み付けを決定する上で有益かつ補完的な指標となりうることがわかった。 そこで本研究では,データセットサイズと不一致値の両方に集約重みが関係するだけでなく,最適化誤差のより厳密な理論的上限に寄与する,新たなアグリゲーション手法Federated Learning with Discrepancy-Aware Collaboration(FedDisco)を提案する。 FedDiscoはまた、モジュール性だけでなく、プライバシ保護、通信、計算効率も推進している。 大規模な実験により、我々のFedDiscoはいくつかの最先端の手法より優れており、多くの既存手法に簡単に組み込むことで、パフォーマンスをさらに向上できることがわかった。 私たちのコードはhttps://github.com/MediaBrain-SJTU/FedDisco.comで公開されます。

This work considers the category distribution heterogeneity in federated learning. This issue is due to biased labeling preferences at multiple clients and is a typical setting of data heterogeneity. To alleviate this issue, most previous works consider either regularizing local models or fine-tuning the global model, while they ignore the adjustment of aggregation weights and simply assign weights based on the dataset size. However, based on our empirical observations and theoretical analysis, we find that the dataset size is not optimal and the discrepancy between local and global category distributions could be a beneficial and complementary indicator for determining aggregation weights. We thus propose a novel aggregation method, Federated Learning with Discrepancy-aware Collaboration (FedDisco), whose aggregation weights not only involve both the dataset size and the discrepancy value, but also contribute to a tighter theoretical upper bound of the optimization error. FedDisco also promotes privacy-preservation, communication and computation efficiency, as well as modularity. Extensive experiments show that our FedDisco outperforms several state-of-the-art methods and can be easily incorporated with many existing methods to further enhance the performance. Our code will be available at https://github.com/MediaBrain-SJTU/FedDisco.
翻訳日:2023-05-31 14:46:57 公開日:2023-05-30
# 教師なしメロディ-歌詞生成

Unsupervised Melody-to-Lyric Generation ( http://arxiv.org/abs/2305.19228v1 )

ライセンス: Link先を確認
Yufei Tian, Anjali Narayan-Chen, Shereen Oraby, Alessandra Cervone, Gunnar Sigurdsson, Chenyang Tao, Wenbo Zhao, Tagyoung Chung, Jing Huang, Nanyun Peng(参考訳) メロディと歌詞の自動生成は、与えられたメロディと共に歌詞を生成するタスクである。 音楽が歌詞に追加の制約を課すため、これは、制約のない歌詞生成よりも重要な実践的関心と挑戦である。 ほとんどの楽曲は著作権を侵害されるため、トレーニングデータは制限され、メロディと歌詞の複雑な相互モーダル関係に不適合なモデルとなる。 本研究では,任意のメロディ・歌詞データを訓練することなく高品質な歌詞を生成する手法を提案する。 具体的には、まず歌の輪郭を生成し、次に完全な歌詞を生成する階層的歌詞生成フレームワークを設計する。 このフレームワークは、(純粋にテキストに基づく)トレーニングを推論(メロディ誘導テキスト生成)から切り離すことで、並列データの不足を回避する。 我々はメロディと歌詞のセグメンテーションとリズムアライメントを活用し、そのメロディを推論中の指示としてデコード制約にコンパイルする。 2段階の階層デザインは、共同曲作成を民主化するための非常に望ましい機能である、歌詞概要によるコンテンツ制御を可能にする。 実験結果から,本モデルは,例えば,並列データセットを用いたSOTAモデルであるSongMASSや,人間の評価に基づく全体的な品質改善率の24%といった,強靭なベースラインよりもオントピー的,歌声的,知的な,一貫性のある高品質な歌詞を生成することができることがわかった。 お

Automatic melody-to-lyric generation is a task in which song lyrics are generated to go with a given melody. It is of significant practical interest and more challenging than unconstrained lyric generation as the music imposes additional constraints onto the lyrics. The training data is limited as most songs are copyrighted, resulting in models that underfit the complicated cross-modal relationship between melody and lyrics. In this work, we propose a method for generating high-quality lyrics without training on any aligned melody-lyric data. Specifically, we design a hierarchical lyric generation framework that first generates a song outline and second the complete lyrics. The framework enables disentanglement of training (based purely on text) from inference (melody-guided text generation) to circumvent the shortage of parallel data. We leverage the segmentation and rhythm alignment between melody and lyrics to compile the given melody into decoding constraints as guidance during inference. The two-step hierarchical design also enables content control via the lyric outline, a much-desired feature for democratizing collaborative song creation. Experimental results show that our model can generate high-quality lyrics that are more on-topic, singable, intelligible, and coherent than strong baselines, for example SongMASS, a SOTA model trained on a parallel dataset, with a 24% relative overall quality improvement based on human ratings. O
翻訳日:2023-05-31 14:46:33 公開日:2023-05-30
# InPナノワイヤ太陽電池における放射トンネルとプラズモン-フォノン相互作用

Radiative tunneling and plasmon-phonon interaction in InP nanowire solar cell ( http://arxiv.org/abs/2305.19227v1 )

ライセンス: Link先を確認
Ilya Kolpakov and Thijs Smulders(参考訳) inpナノワイヤ太陽電池では、低温で放射トンネル再結合機構が観察される。 観測された放射トンネルと電界支配的な電気輸送との関係は、特徴的なトンネルエネルギーによって確立される。 プラズモン-フォノン相互作用は太陽電池の性能に重要な役割を果たす

Radiative tunneling recombination mechanism is observed in an InP nanowire solar cell at low temperatures. A link between observed radiative tunneling and field-emission dominated electrical transport is established through the characteristic tunneling energy. Plasmon-phonon interaction is found to play an important role in solar cell performance
翻訳日:2023-05-31 14:46:07 公開日:2023-05-30
# インテント・アラインなAIシステムは人事機関を減らし、AI安全に関する機関の基礎研究の必要性

Intent-aligned AI systems deplete human agency: the need for agency foundations research in AI safety ( http://arxiv.org/abs/2305.19223v1 )

ライセンス: Link先を確認
Catalin Mitelut, Ben Smith, Peter Vamplew(参考訳) 人工知能(AI)システムの急速な進歩は、人工知能(AGI)システムがまもなくやってくることを示唆している。 多くの研究者は、AIとAIが意図的な誤用(AI誤用)や事故(AI事故)によって人間を傷つけるのではないかと懸念している。 AI事故に関しては、AIシステムが人間の意図と一致していることを保証するアルゴリズムやパラダイムの開発に重点が置かれている。 ここでは、人間の意図の一致は、安全なAIシステムには不十分であり、人間の長期的な機関の保存は、より堅牢な標準であり、最適化中に明示的に分離する必要がある。 我々は、AIシステムが人間の意図を再構築し、人間をエージェントの喪失から守る生物学的・心理的メカニズムの欠如を議論することができると論じる。 我々は、先見的な機関評価に焦点を当てた、機関保存AI-ヒューマンインタラクションの最初の正式な定義を提供する。 時間差学習を用いて行動レコメンデーションを行う組込みエージェントを含む単純な環境において,エージェントの損失がどのように生じるかを示す。 最後に、「緊急基盤」と呼ばれる新しい研究分野を提案し、AIと人間の相互作用におけるエージェントの理解を改善するために設計された4つの最初のトピックを提示する: 受益ゲーム理論、人権のアルゴリズム的基礎、ニューラルネットワークにおけるエージェント表現の機械論的解釈可能性、内部状態からの強化学習。

The rapid advancement of artificial intelligence (AI) systems suggests that artificial general intelligence (AGI) systems may soon arrive. Many researchers are concerned that AIs and AGIs will harm humans via intentional misuse (AI-misuse) or through accidents (AI-accidents). In respect of AI-accidents, there is an increasing effort focused on developing algorithms and paradigms that ensure AI systems are aligned to what humans intend, e.g. AI systems that yield actions or recommendations that humans might judge as consistent with their intentions and goals. Here we argue that alignment to human intent is insufficient for safe AI systems and that preservation of long-term agency of humans may be a more robust standard, and one that needs to be separated explicitly and a priori during optimization. We argue that AI systems can reshape human intention and discuss the lack of biological and psychological mechanisms that protect humans from loss of agency. We provide the first formal definition of agency-preserving AI-human interactions which focuses on forward-looking agency evaluations and argue that AI systems - not humans - must be increasingly tasked with making these evaluations. We show how agency loss can occur in simple environments containing embedded agents that use temporal-difference learning to make action recommendations. Finally, we propose a new area of research called "agency foundations" and pose four initial topics designed to improve our understanding of agency in AI-human interactions: benevolent game theory, algorithmic foundations of human rights, mechanistic interpretability of agency representation in neural-networks and reinforcement learning from internal states.
翻訳日:2023-05-31 14:46:03 公開日:2023-05-30
# 周波数分割多重制御による室温$^{87}$rb蒸気中のマイクロ波-光変換

Microwave-to-optical conversion in a room-temperature $^{87}$Rb vapor with frequency-division multiplexing control ( http://arxiv.org/abs/2305.19221v1 )

ライセンス: Link先を確認
Benjamin D. Smith, Bahar Babaei, Andal Narayanan, Lindsay J. LeBlanc(参考訳) コヒーレントマイクロ波-光変換は、マイクロ波領域で発生した量子情報を光周波数に転送するために重要である。 コヒーレントなマイクロ波-光変換を実現する様々な物理プラットフォームのうち、原子をトランスデューサとして使用するプラットフォームは近年急速に進歩している。 本稿では、室温$^{87}$rb原子を用いてマイクロ波信号を波長可変の大きい550(30)mhzの範囲の光周波数にマッピングするコヒーレントなマイクロ波から光への変換の実験的な実証を行う。 不均質な原子蒸気のドップラー拡大は、ドップラー幅内の任意の光周波数チャネルへの入力マイクロ波チャネルの調整性と、対応する光チャネルへのマルチチャネル入力マイクロ波フィールドの同時変換を有利にサポートする。 さらに,選択チャネルの位相相関振幅制御を実証し,チャネルの1つを完全に消滅させ,周波数領域ビームスプリッタのアナログを5桁の周波数で提供する。 周波数分割多重化機能、マルチチャネル変換、周波数チャネルの振幅制御により、中性原子系は周波数ビン量子ビットで符号化された量子情報に有効な量子プロセッサとなる。

Coherent microwave-to-optical conversion is crucial for transferring quantum information generated in the microwave domain to optical frequencies, where propagation losses can be minimised. Among the various physical platforms that have realized coherent microwave-to-optical transduction, those that use atoms as transducers have shown rapid progress in recent years. In this paper we report an experimental demonstration of coherent microwave-to-optical conversion that maps a microwave signal to a large, tunable 550(30) MHz range of optical frequencies using room-temperature $^{87}$Rb atoms. The inhomogeneous Doppler broadening of the atomic vapor advantageously supports the tunability of an input microwave channel to any optical frequency channel within the Doppler width, along with simultaneous conversion of a multi-channel input microwave field to corresponding optical channels. In addition, we demonstrate phase-correlated amplitude control of select channels, resulting in complete extinction of one of the channels, providing an analog to a frequency domain beam splitter across five orders of magnitude in frequency. With frequency-division multiplexing capability, multi-channel conversion, and amplitude control of frequency channels, neutral atomic systems may be effective quantum processors for quantum information encoded in frequency-bin qubits.
翻訳日:2023-05-31 14:45:33 公開日:2023-05-30
# グローバル駆動rydberg原子配列における普遍量子計算

Universal Quantum Computation in Globally Driven Rydberg Atom Arrays ( http://arxiv.org/abs/2305.19220v1 )

ライセンス: Link先を確認
Francesco Cesa and Hannes Pichler(参考訳) 我々は,量子ビットの局所アドレスを必要とせず,グローバルドライブのみに依存する量子計算モデルを開発した。 提案手法は二重種プロセッサに基づいており,Rydbergブロック制約を受ける中性原子の枠組みで提案する。 回路は原子の(静的な)トラップ位置に印字され、このアルゴリズムは、大域的共振性レーザーパルス列によって実行され、量子計算のこのモデルは普遍的でスケーラブルであることを示す。

We develop a model for quantum computation which only relies on global driving, without the need of local addressing of the qubits. Our scheme is based on dual-species processors, and we present it in the framework on neutral atoms subjected to Rydberg blockade constraints. A circuit is imprinted in the (static) trap positions of the atoms, and the algorithm is executed by a sequence of global, resonant laser pulses; we show that this model for quantum computation is universal and scalable.
翻訳日:2023-05-31 14:45:11 公開日:2023-05-30
# 確率的クリックモデルを用いたオンライン学習における逆攻撃

Adversarial Attacks on Online Learning to Rank with Stochastic Click Models ( http://arxiv.org/abs/2305.19218v1 )

ライセンス: Link先を確認
Zichen Wang, Rishab Balasubramanian, Hui Yuan, Chenyu Song, Mengdi Wang, Huazheng Wang(参考訳) 本稿では,オンライン学習のランク付けに対する敵意攻撃に関する最初の研究を提案する。 敵の目標は、オンライン学習がアルゴリズムをランク付けしてランキングリストの上位にターゲット項目を置くことを誤解し、サブ線形攻撃コストで時間水平線をT$に設定することである。 本稿では,ユーザに提示されるランキングリストを乱す汎用的なリスト中毒攻撃を提案する。 この戦略は、一般的な確率クリックモデルにおいて、任意の非回帰ランカを効率的に攻撃することができる。 さらに,確率的クリックモデルのための2つの代表的なoltrアルゴリズムを効率的に攻撃できる,attack-then-quitと呼ばれるクリック中毒ベースの戦略を提案する。 提案手法の成功とコストの上限を理論的に解析した。 合成および実世界のデータに基づく実験結果は,提案手法の有効性とコスト効率をさらに検証する。

We propose the first study of adversarial attacks on online learning to rank. The goal of the adversary is to misguide the online learning to rank algorithm to place the target item on top of the ranking list linear times to time horizon $T$ with a sublinear attack cost. We propose generalized list poisoning attacks that perturb the ranking list presented to the user. This strategy can efficiently attack any no-regret ranker in general stochastic click models. Furthermore, we propose a click poisoning-based strategy named attack-then-quit that can efficiently attack two representative OLTR algorithms for stochastic click models. We theoretically analyze the success and cost upper bound of the two proposed methods. Experimental results based on synthetic and real-world data further validate the effectiveness and cost-efficiency of the proposed attack strategies.
翻訳日:2023-05-31 14:45:02 公開日:2023-05-30
# 翻訳強調多言語テキスト対画像生成

Translation-Enhanced Multilingual Text-to-Image Generation ( http://arxiv.org/abs/2305.19216v1 )

ライセンス: Link先を確認
Yaoyiran Li, Ching-Yun Chang, Stephen Rawls, Ivan Vuli\'c, Anna Korhonen(参考訳) テキスト対画像生成(tti: text-to-image generation)の研究は、他の言語でアノテートされた画像データがないため、依然として英語に重点を置いている。 本研究では,多言語TTI (termed mTTI) とニューラルマシン翻訳 (NMT) によるmTTIシステムのブートストラップの可能性について検討する。 重要な貢献は2つあります。 1) 多言語マルチモーダルエンコーダをベースとして,mTTIの翻訳列車,翻訳試験,ゼロショット転送に適用する場合に,多言語NLPで使用される標準手法の系統的研究を行った。 2) Ensemble Adapter (EnsAd) は,mTTIフレームワーク内での多言語テキスト知識の重み付けと統合を学習し,言語ギャップを緩和し,mTTI性能を向上させる新しいパラメータ効率向上手法である。 標準mTTIデータセットであるCOCO-CN,Multi30K Task2,LAION-5Bの評価は,翻訳強化mTTIシステムの可能性を実証し,全データセット間で一貫した利得を導出するEnsAdの利点を検証する。 モデル変種、アブレーション研究、定性的分析に関するさらなる研究は、提案したmTTIアプローチの内部動作に関するさらなる洞察を提供する。

Research on text-to-image generation (TTI) still predominantly focuses on the English language due to the lack of annotated image-caption data in other languages; in the long run, this might widen inequitable access to TTI technology. In this work, we thus investigate multilingual TTI (termed mTTI) and the current potential of neural machine translation (NMT) to bootstrap mTTI systems. We provide two key contributions. 1) Relying on a multilingual multi-modal encoder, we provide a systematic empirical study of standard methods used in cross-lingual NLP when applied to mTTI: Translate Train, Translate Test, and Zero-Shot Transfer. 2) We propose Ensemble Adapter (EnsAd), a novel parameter-efficient approach that learns to weigh and consolidate the multilingual text knowledge within the mTTI framework, mitigating the language gap and thus improving mTTI performance. Our evaluations on standard mTTI datasets COCO-CN, Multi30K Task2, and LAION-5B demonstrate the potential of translation-enhanced mTTI systems and also validate the benefits of the proposed EnsAd which derives consistent gains across all datasets. Further investigations on model variants, ablation studies, and qualitative analyses provide additional insights on the inner workings of the proposed mTTI approaches.
翻訳日:2023-05-31 14:44:51 公開日:2023-05-30
# dotears:観測データと介入データを用いたスケーラブルで一貫したDAG推定

dotears: Scalable, consistent DAG estimation using observational and interventional data ( http://arxiv.org/abs/2305.19215v1 )

ライセンス: Link先を確認
Albert Xue, Jingyou Rao, Sriram Sankararaman, Harold Pimentel(参考訳) データからの因果有向非巡回グラフ(DAG)の学習は、識別可能性の欠如と解の組合せ空間によって複雑である。 最近の研究は、観測データにおけるDAGのスコアに基づく構造学習のトラクタビリティを改善したが、外因性エラー分散の構造に敏感である。 一方,観測データから外因的分散構造を学ぶには,事前構造知識が必要である。 高次遺伝子介入と高次元の観察を結びつける新しい生物学的技術に触発され、連続的な最適化を通じて単一の因果構造を推測するために観察・介入データを活用するスケーラブルな構造学習フレームワークである$\texttt{dotears}$[doo-tairs]を提示する。 dotears}$\texttt{dotears}$は、外因性エラー構造を直接推定するために介入の予測可能な構造的結果を利用する。 経験的および分析的に、従来の方法の推論は外因的分散構造によって駆動されるが、$\texttt{dotears}$ は外因的分散構造に頑健であることを示すために、以前の研究を拡張した。 大規模ランダムDAGの様々なシミュレーション、$\texttt{dotears}$は構造推定における最先端の手法より優れている。 最後に、$\texttt{dotears}$は、穏やかな仮定の下で真DAGの証明可能な一貫した推定量であることを示す。

Learning causal directed acyclic graphs (DAGs) from data is complicated by a lack of identifiability and the combinatorial space of solutions. Recent work has improved tractability of score-based structure learning of DAGs in observational data, but is sensitive to the structure of the exogenous error variances. On the other hand, learning exogenous variance structure from observational data requires prior knowledge of structure. Motivated by new biological technologies that link highly parallel gene interventions to a high-dimensional observation, we present $\texttt{dotears}$ [doo-tairs], a scalable structure learning framework which leverages observational and interventional data to infer a single causal structure through continuous optimization. $\texttt{dotears}$ exploits predictable structural consequences of interventions to directly estimate the exogenous error structure, bypassing the circular estimation problem. We extend previous work to show, both empirically and analytically, that the inferences of previous methods are driven by exogenous variance structure, but $\texttt{dotears}$ is robust to exogenous variance structure. Across varied simulations of large random DAGs, $\texttt{dotears}$ outperforms state-of-the-art methods in structure estimation. Finally, we show that $\texttt{dotears}$ is a provably consistent estimator of the true DAG under mild assumptions.
翻訳日:2023-05-31 14:44:26 公開日:2023-05-30
# 滅多に来ない, マルチラベル問題としてのクロスコーパス・スタッタ検出

A Stutter Seldom Comes Alone -- Cross-Corpus Stuttering Detection as a Multi-label Problem ( http://arxiv.org/abs/2305.19255v1 )

ライセンス: Link先を確認
Sebastian P. Bayerl, Dominik Wagner, Ilja Baumann, Florian H\"onig, Tobias Bocklet, Elmar N\"oth, Korbinian Riedhammer(参考訳) 多くのスタチング検出・分類研究は、スタチングを多クラス分類問題や、各ディスフルエンシータイプに対するバイナリ検出タスクと見ているが、これはスタチングの性質とは一致せず、単一のディフルエンシーが単独で現れることはほとんどなく、むしろ他と共起している。 本稿では,注意に基づく分類ヘッドとマルチタスク学習を備えた修正wav2vec 2.0システムを用いたマルチラベル問題として,マルチ言語とクロスコーポレートなエンドツーエンドスッタリング検出について検討する。 本手法は,英語とドイツ語の散文を含む3つのデータセットの組み合わせを用いて評価する。 実験結果と誤差解析により,クロスコーパスおよび多言語データに基づいて学習したマルチラベルスタブリング検出システムは競合する結果を得るが,複数のラベルを持つサンプルの性能はオーバーオール検出結果以下であることがわかった。

Most stuttering detection and classification research has viewed stuttering as a multi-class classification problem or a binary detection task for each dysfluency type; however, this does not match the nature of stuttering, in which one dysfluency seldom comes alone but rather co-occurs with others. This paper explores multi-language and cross-corpus end-to-end stuttering detection as a multi-label problem using a modified wav2vec 2.0 system with an attention-based classification head and multi-task learning. We evaluate the method using combinations of three datasets containing English and German stuttered speech, one containing speech modified by fluency shaping. The experimental results and an error analysis show that multi-label stuttering detection systems trained on cross-corpus and multi-language data achieve competitive results but performance on samples with multiple labels stays below over-all detection results.
翻訳日:2023-05-31 14:38:26 公開日:2023-05-30
# 学習不可能なデータセットから何が学べるか?

What Can We Learn from Unlearnable Datasets? ( http://arxiv.org/abs/2305.19254v1 )

ライセンス: Link先を確認
Pedro Sandoval-Segura, Vasu Singla, Jonas Geiping, Micah Goldblum, Tom Goldstein(参考訳) 広範なWebスクレイピングの時代、未学習のデータセットメソッドは、ディープニューラルネットワークの一般化を防ぎ、データのプライバシを保護する可能性がある。 しかし、それらの利用を危うくする多くの実用的な制限に加えて、データを保護する能力に疑問を投げかける多くの発見を行ないました。 まず、学習不可能なデータセットでトレーニングされたニューラルネットワークはショートカットのみを学ぶと広く信じられている。 対照的に、ネットワークは、高いテストパフォーマンスのために強化できる有用な機能を学ぶことができ、イメージプライバシが保存されていないことを示唆している。 学習不能なデータセットは、追加の摂動の線形分離性を通じて学習ショートカットを誘導すると考えられている。 摂動の線形分離性は必要条件ではないことを示す反例を提供する。 線形分離可能な摂動を頼りにすべきでない理由を強調するため,ICML 2021 と ICLR 2023 で発行された未学習データセットから学習が可能な直交射影攻撃を提案する。 提案手法は, 提案手法に比べてかなり複雑ではない。

In an era of widespread web scraping, unlearnable dataset methods have the potential to protect data privacy by preventing deep neural networks from generalizing. But in addition to a number of practical limitations that make their use unlikely, we make a number of findings that call into question their ability to safeguard data. First, it is widely believed that neural networks trained on unlearnable datasets only learn shortcuts, simpler rules that are not useful for generalization. In contrast, we find that networks actually can learn useful features that can be reweighed for high test performance, suggesting that image privacy is not preserved. Unlearnable datasets are also believed to induce learning shortcuts through linear separability of added perturbations. We provide a counterexample, demonstrating that linear separability of perturbations is not a necessary condition. To emphasize why linearly separable perturbations should not be relied upon, we propose an orthogonal projection attack which allows learning from unlearnable datasets published in ICML 2021 and ICLR 2023. Our proposed attack is significantly less complex than recently proposed techniques.
翻訳日:2023-05-31 14:38:06 公開日:2023-05-30
# 訓練済みの機能を保存することで、微調整言語モデルの校正を支援する

Preserving Pre-trained Features Helps Calibrate Fine-tuned Language Models ( http://arxiv.org/abs/2305.19249v1 )

ライセンス: Link先を確認
Guande He, Jianfei Chen, Jun Zhu(参考訳) 大規模事前学習型言語モデル(PLM)は、微調整により自然言語理解(NLU)タスクに強い性能を示す。 しかし、微調整されたモデルは、特にドメイン外設定において、自信過剰な予測に苦しむ。 本稿では,微調整言語モデルの校正問題に取り組む。 PLMは,ドメインシフト下では頑健な予測信頼を保ちつつ,マスク付き言語モデリングタスクにおいて十分に校正されていることを実証するが,その微調整モデルは,ダウンストリーム分類タスクの校正に影響を及ぼす破滅的な誤りにより,そのような特性を保たない。 これらの観測から,事前学習した特徴を保存するいくつかの手法の校正を評価し,事前学習した特徴を保存することで,微調整された言語モデルの校正を改善することを示す。 提案手法は,3つの下流NLUタスクにおいて,ドメイン内およびドメイン外の両方の条件下での強いベースラインと比較して,競合精度と最小のキャリブレーション誤差を達成し,生成表現を学習するための微調整モデルを提案する。

Large pre-trained language models (PLMs) have demonstrated strong performance on natural language understanding (NLU) tasks through fine-tuning. However, fine-tuned models still suffer from overconfident predictions, especially in out-of-domain settings. In this paper, we tackle the problem of calibrating fine-tuned language models. We demonstrate that the PLMs are well-calibrated on the masked language modeling task with robust predictive confidence under domain shift, yet the fine-tuned models fail to retain such property due to catastrophic forgetting, which impacts the calibration on the downstream classification task. In light of these observations, we evaluate the calibration of several methods that preserve pre-trained features and show that preserving pre-trained features can improve the calibration of fine-tuned language models. Among these methods, our proposed method that encourages the fine-tuned model to learn generative representations with auxiliary language modeling objective achieves competitive accuracy and the lowest expected calibration error compared to several strong baselines under both in-domain and out-of-domain settings on three downstream NLU tasks.
翻訳日:2023-05-31 14:37:46 公開日:2023-05-30
# 排他性の基本グラフの量子極大はベルのシナリオでは到達できない

The quantum maxima for the basic graphs of exclusivity are not reachable in Bell scenarios ( http://arxiv.org/abs/2305.19247v1 )

ライセンス: Link先を確認
Lucas E. A. Porto, Rafael Rabelo, Marcelo Terra Cunha, Ad\'an Cabello(参考訳) ベルの非局所性やコッチェン・スペックカーの文脈性を示す一連の事象の確率の条件は、事象の排他性のグラフは5つ以上の頂点、奇数孔またはそれらの補数、奇数対孔(odd antiholes)と呼ばれる誘導的奇数サイクルを含むことである。 この観点では、排他性グラフが奇孔または反ホールである事象は文脈性の構成要素である。 任意の奇数の穴や反ホールに対して、量子力学によって許される確率の割り当ては、特定の文脈性シナリオで達成できる。 しかし、任意の奇妙なブラックホールに対して、量子最大値を達成する確率はベルのシナリオでは達成できないことが証明される。 私たちはまた、最も単純な奇妙なアンチホールについても証明します。 これにより、ビルディングブロックの任意の量子最大値がベルのシナリオでは達成できないという予想が導かれる。 この結果、なぜ確率割当が量子であるのかという問題は決定可能であるのに対して、ベルシナリオ内の確率割当が量子であるかどうかは一般に決定不可能である。 これはまた、特定のシナリオに言及せずに定義された確率の量子集合の原理を特定することから始めると、量子相関の原理がよりシンプルになる理由を理解するのに役立つ。

A necessary condition for the probabilities of a set of events to exhibit Bell nonlocality or Kochen-Specker contextuality is that the graph of exclusivity of the events contains induced odd cycles with five or more vertices, called odd holes, or their complements, called odd antiholes. From this perspective, events whose graph of exclusivity are odd holes or antiholes are the building blocks of contextuality. For any odd hole or antihole, any assignment of probabilities allowed by quantum mechanics can be achieved in specific contextuality scenarios. However, here we prove that, for any odd hole, the probabilities that attain the quantum maxima cannot be achieved in Bell scenarios. We also prove it for the simplest odd antiholes. This leads us to the conjecture that the quantum maxima for any of the building blocks cannot be achieved in Bell scenarios. This result sheds light on why the problem of whether a probability assignment is quantum is decidable, while whether a probability assignment within a given Bell scenario is quantum is, in general, undecidable. This also helps to undertand why identifying principles for quantum correlations is simpler when we start by identifying principles for quantum sets of probabilities defined with no reference to specific scenarios.
翻訳日:2023-05-31 14:37:27 公開日:2023-05-30
# AlteredAvatar:高速なスタイル適応による動的3Dアバターのスタイリング

AlteredAvatar: Stylizing Dynamic 3D Avatars with Fast Style Adaptation ( http://arxiv.org/abs/2305.19245v1 )

ライセンス: Link先を確認
Thu Nguyen-Phuoc, Gabriel Schwartz, Yuting Ye, Stephen Lombardi, Lei Xiao(参考訳) 本稿では,動的3Dアバターを新しいスタイルの任意のテキスト記述に迅速に適応させる手法を提案する。 既存のアバタースタイライゼーションのアプローチの中で、直接最適化手法は任意のスタイルに対して優れた結果をもたらすが、不快なほど遅い。 さらに、新しい入力毎に最適化プロセスをスクラッチから再設計する必要がある。 フィードフォワードネットワークを用いた高速な近似法は,新しい入力結果の高速な生成が可能であるが,新しいスタイルを一般化せず,品質が低下する傾向にある。 そこで、メタラーニングフレームワークを用いてこれらの2つのアプローチを組み合わせる新しいアプローチAlteredAvatarについて検討する。 内部ループでは、モデルは単一のターゲットスタイルに合致するように最適化することを学び、外部ループでは、多くのスタイルで効率的にスタイライズすることを学習する。 トレーニング後、modifiedavatarは初期化を学習し、少数の更新ステップで新しいスタイルに素早く適応することができる。 我々は,AlteredAvatarが,様々な新しいビューや表情の一貫性を維持しつつ,速度,柔軟性,品質のバランスを良好に維持できることを示す。

This paper presents a method that can quickly adapt dynamic 3D avatars to arbitrary text descriptions of novel styles. Among existing approaches for avatar stylization, direct optimization methods can produce excellent results for arbitrary styles but they are unpleasantly slow. Furthermore, they require redoing the optimization process from scratch for every new input. Fast approximation methods using feed-forward networks trained on a large dataset of style images can generate results for new inputs quickly, but tend not to generalize well to novel styles and fall short in quality. We therefore investigate a new approach, AlteredAvatar, that combines those two approaches using the meta-learning framework. In the inner loop, the model learns to optimize to match a single target style well; while in the outer loop, the model learns to stylize efficiently across many styles. After training, AlteredAvatar learns an initialization that can quickly adapt within a small number of update steps to a novel style, which can be given using texts, a reference image, or a combination of both. We show that AlteredAvatar can achieve a good balance between speed, flexibility and quality, while maintaining consistency across a wide range of novel views and facial expressions.
翻訳日:2023-05-31 14:37:05 公開日:2023-05-30
# 深層条件生成学習による時系列マルコフ特性の検証

Testing for the Markov Property in Time Series via Deep Conditional Generative Learning ( http://arxiv.org/abs/2305.19244v1 )

ライセンス: Link先を確認
Yunzhe Zhou and Chengchun Shi and Lexin Li and Qiwei Yao(参考訳) マルコフ特性は時系列データの解析において広く課せられる。 対応して、マルコフ特性のテスト、および関連するマルコフモデルの順序を推測することは、最重要事項である。 本稿では,高次元時系列におけるマルコフ特性の非パラメトリックテストを提案する。 また,マルコフモデルの順序を決定するために,逐次テストを適用する。 テストはタイプIエラーを漸近的に制御し,出力が近づいていることを示す。 我々の提案はいくつかの点で新しい貢献をする。 本研究では,最先端の深層生成学習を用いて条件密度関数を推定し,推定器の近似誤差の鋭い上限を確立する。 非パラメトリック推定を用いるが、パラメトリック収束率を達成する二重ロバストなテスト統計を導出する。 テストの一貫性を確保するために必要な条件を最小限に抑えるために、サンプル分割とクロスフィッティングも採用しています。 シミュレーションと3つのデータ応用の両方を通して,テストの有効性を実証する。

The Markov property is widely imposed in analysis of time series data. Correspondingly, testing the Markov property, and relatedly, inferring the order of a Markov model, are of paramount importance. In this article, we propose a nonparametric test for the Markov property in high-dimensional time series via deep conditional generative learning. We also apply the test sequentially to determine the order of the Markov model. We show that the test controls the type-I error asymptotically, and has the power approaching one. Our proposal makes novel contributions in several ways. We utilize and extend state-of-the-art deep generative learning to estimate the conditional density functions, and establish a sharp upper bound on the approximation error of the estimators. We derive a doubly robust test statistic, which employs a nonparametric estimation but achieves a parametric convergence rate. We further adopt sample splitting and cross-fitting to minimize the conditions required to ensure the consistency of the test. We demonstrate the efficacy of the test through both simulations and the three data applications.
翻訳日:2023-05-31 14:36:44 公開日:2023-05-30
# Auto-Tune: ニューラルネットワークの事前および後処理に対するPAC-Bayes最適化

Auto-tune: PAC-Bayes Optimization over Prior and Posterior for Neural Networks ( http://arxiv.org/abs/2305.19243v1 )

ライセンス: Link先を確認
Xitong Zhang, Avrajit Ghosh, Guangliang Liu and Rongrong Wang(参考訳) トレーニング手順を慎重に設計することにより,ニューラルネットワークの一般化能力が大幅に向上することが広く認識されている。 現在の最先端のトレーニングアプローチでは、確率勾配降下(SGD)またはアダム最適化アルゴリズムと、重み付け減衰、ドロップアウト、ノイズ注入といった追加の正規化手法を組み合わせる。 最適な一般化は、グリッド検索を通じて多数のハイパーパラメータをチューニングすることによってのみ達成できる。 そこで本研究では,完全グリッド探索と余分な正規化により,sgd/adamと同等のテスト性能を実現すると同時に,ほぼチューニングフリーで追加の正規化を必要としない,実用的なpac-bayesトレーニングフレームワークを提案する。 提案アルゴリズムは,高ロバスト性と解釈性を有するディープニューラルネットワーク上での最先端性能を実現するためのPACトレーニングの可能性を示す。

It is widely recognized that the generalization ability of neural networks can be greatly enhanced through carefully designing the training procedure. The current state-of-the-art training approach involves utilizing stochastic gradient descent (SGD) or Adam optimization algorithms along with a combination of additional regularization techniques such as weight decay, dropout, or noise injection. Optimal generalization can only be achieved by tuning a multitude of hyperparameters through grid search, which can be time-consuming and necessitates additional validation datasets. To address this issue, we introduce a practical PAC-Bayes training framework that is nearly tuning-free and requires no additional regularization while achieving comparable testing performance to that of SGD/Adam after a complete grid search and with extra regularizations. Our proposed algorithm demonstrates the remarkable potential of PAC training to achieve state-of-the-art performance on deep neural networks with enhanced robustness and interpretability.
翻訳日:2023-05-31 14:36:29 公開日:2023-05-30
# NetHackはハッキングが難しい

NetHack is Hard to Hack ( http://arxiv.org/abs/2305.19240v1 )

ライセンス: Link先を確認
Ulyana Piterbarg, Lerrel Pinto, Rob Fergus(参考訳) ニューラルポリシー学習法は,アタリゲームからシミュレーションロコモーションに至るまで,様々な制御問題において顕著な成果を上げている。 しかし、これらの手法は特に、一般的なダンジョンクローラーゲームであるNetHackのようなマルチモーダルな観察を伴うオープンな環境において、長期的タスクで苦労する。 興味深いことに、NeurIPS 2021 NetHack Challengeは、シンボリックエージェントが中央値のゲームスコアで4倍以上のニューラルアプローチを上回りました。 本稿では,この性能格差の背景にある理由を考察し,nethackのニューラルポリシー学習に関する広範な研究を行う。 本研究は,勝利の象徴的エージェントを解析し,コードベースを拡張して内部戦略の選択を追跡し,最大規模のデモデータセットを生成する。 このデータセットを用いて検討する (i)行動階層の長所 (ii)ニューラルアーキテクチャの強化、及び (iii)強化学習と模倣学習の統合。 我々の調査では、従来の完全なニューラルネットワークポリシーを127%のオフライン設定で、中央値のオンライン設定で25%超える最先端のニューラルエージェントを作成しました。 しかし,優れたシンボリックモデルやトップヒューマンプレイヤーでパフォーマンスギャップを埋めるには,単にスケーリングが不十分であることも示している。

Neural policy learning methods have achieved remarkable results in various control problems, ranging from Atari games to simulated locomotion. However, these methods struggle in long-horizon tasks, especially in open-ended environments with multi-modal observations, such as the popular dungeon-crawler game, NetHack. Intriguingly, the NeurIPS 2021 NetHack Challenge revealed that symbolic agents outperformed neural approaches by over four times in median game score. In this paper, we delve into the reasons behind this performance gap and present an extensive study on neural policy learning for NetHack. To conduct this study, we analyze the winning symbolic agent, extending its codebase to track internal strategy selection in order to generate one of the largest available demonstration datasets. Utilizing this dataset, we examine (i) the advantages of an action hierarchy; (ii) enhancements in neural architecture; and (iii) the integration of reinforcement learning with imitation learning. Our investigations produce a state-of-the-art neural agent that surpasses previous fully neural policies by 127% in offline settings and 25% in online settings on median game score. However, we also demonstrate that mere scaling is insufficient to bridge the performance gap with the best symbolic models or even the top human players.
翻訳日:2023-05-31 14:36:10 公開日:2023-05-30
# 大規模言語モデルを用いたドメイン固有言語生成のための文法プロンプト

Grammar Prompting for Domain-Specific Language Generation with Large Language Models ( http://arxiv.org/abs/2305.19234v1 )

ライセンス: Link先を確認
Bailin Wang, Zi Wang, Xuezhi Wang, Yuan Cao, Rif A. Saurous and Yoon Kim(参考訳) 大規模言語モデル(LLM)は、少数のインコンテキストの例から、幅広い自然言語タスクを実行することを学ぶことができる。 しかし、高度に構造化された言語(例えば、複雑なドメイン固有言語への意味解析)から文字列を生成するためには、LLMがいくつかの例から一般化することは困難である。 backus--Naur Form (BNF) で表現された文法を通して LLM が外部知識やドメイン固有の制約を利用できるようにするためのシンプルなアプローチとして $\textbf{grammar prompting}$ を探索する。 文法のプロンプトは、それぞれの実演例を、特定の出力例を生成するのに最小限の特殊な文法で拡張します。 推論のために、LLMはまずテスト入力が与えられたBNF文法を予測し、次に文法の規則に従って出力を生成する。 実験により、文法のプロンプトにより、意味解析(SMCalFlow、Overnight、GeoQuery)、PDDL計画、さらには分子生成(SMILES)など、様々なDSL生成タスクでLLMが競争力を発揮することが示されている。

Large language models (LLMs) can learn to perform a wide range of natural language tasks from just a handful of in-context examples. However, for generating strings from highly structured languages (e.g., semantic parsing to complex domain-specific languages), it is challenging for the LLM to generalize from just a few exemplars. We explore $\textbf{grammar prompting}$ as a simple approach for enabling LLMs to use external knowledge and domain-specific constraints, expressed through a grammar expressed in Backus--Naur Form (BNF), during in-context learning. Grammar prompting augments each demonstration example with a specialized grammar that is minimally sufficient for generating the particular output example, where the specialized grammar is a subset of the full DSL grammar. For inference, the LLM first predicts a BNF grammar given a test input, and then generates the output according to the rules of the grammar. Experiments demonstrate that grammar prompting can enable LLMs to perform competitively on a diverse set of DSL generation tasks, including semantic parsing (SMCalFlow, Overnight, GeoQuery), PDDL planning, and even molecule generation (SMILES).
翻訳日:2023-05-31 14:35:49 公開日:2023-05-30
# 行列積状態と雑音量子コンピュータの組み合わせによる量子シミュレーション

Combining Matrix Product States and Noisy Quantum Computers for Quantum Simulation ( http://arxiv.org/abs/2305.19231v1 )

ライセンス: Link先を確認
Baptiste Anselme Martin, Thomas Ayral, Fran\c{c}ois Jamet, Marko J. Ran\v{c}i\'c, Pascal Simon(参考訳) マトリックス生成状態(MPS)は、量子多体系を研究するための強力なツールであることが証明されているが、パラメータの数がエントロピーと指数関数的にスケールするため、適度に絡み合った状態に制限されている。 MPSは1Dシステムの基底状態を効率的に見つけることができるが、その能力は力学をシミュレートする際に制限される。 一方、量子デバイスは時間進化に適した相関した多体状態を符号化する自然なプラットフォームとして現れる。 しかし、長い時間ダイナミクスのモデリングシステムにアクセスすることは、量子ノイズによって妨げられる。 短時間のダイナミクスはMPSによって効率的に実行され、短深さの量子回路にコンパイルされ、次いで量子コンピュータ上で実行されるトロッター回路が続く。 我々は,このハイブリッド古典量子スキームのキャパシティを,現実的な雑音モデルを考慮したフィダリティと絡み合い生成の観点から定量化する。 mpssの形で古典的知識を使用することで、限られた量子リソースをよりよく利用し、実用的な量子優位性に到達するためのノイズ要件を低減できることを示す。 我々の手法は強力なノイズ緩和法と組み合わせることで、低結合次元MPSや純粋量子トロッター進化よりも長い時間スケールで実際の量子デバイス上の8量子系をシミュレートすることができる。

Matrix Product States (MPS) have been proven to be a powerful tool to study quantum many-body systems but are restricted to moderately entangled states as the number of parameters scales exponentially with the entanglement entropy. While MPS can efficiently find ground states of 1D systems, their capacities are limited when simulating their dynamics, where the entanglement can increase ballistically with time. On the other hand, quantum devices appear as a natural platform to encode correlated many-body states, suited to perform time evolution. However, accessing the regime of modeling long-time dynamics is hampered by quantum noise. In this study we use the best of worlds: the short-time dynamics is efficiently performed by MPSs, compiled into short-depth quantum circuits followed by Trotter circuits run on a quantum computer. We quantify the capacities of this hybrid classical-quantum scheme in terms of fidelities and entanglement production taking into account a realistic noise model. We show that using classical knowledge in the form of MPSs provides a way to better use limited quantum resources and lowers the noise requirements to reach a practical quantum advantage. Combined with powerful noise-mitigation methods our approach allows us to simulate an 8-qubit system on an actual quantum device over a longer time scale than low bond dimension MPSs and purely quantum Trotter evolution.
翻訳日:2023-05-31 14:35:26 公開日:2023-05-30
# 複雑質問に対する簡潔回答:長文回答の要約

Concise Answers to Complex Questions: Summarization of Long-form Answers ( http://arxiv.org/abs/2305.19271v1 )

ライセンス: Link先を確認
Abhilash Potluri, Fangyuan Xu, Eunsol Choi(参考訳) 長文質問応答システムは段落レベルの回答を提示し、しばしばオプションの背景情報や補助情報を含むリッチな情報を提供する。 このような包括的な回答は役に立つが、質問に答えるためにすべての情報が必要なわけではない(例えば、ドメイン知識を持つユーザーは背景の説明を必要としない)。 質問に対処しながら,要約することで,簡潔な回答版を提供できますか? 我々は,最先端モデルから生成した要約回答と,新たに提案する抽出・脱コンテキスト化アプローチについてユーザ調査を行う。 ELI5領域の長い解答(90%以上)は少なくとも1つのシステムで適切に要約できるが、複雑で暗黙的な解答は圧縮が難しい。 脱文脈化は抽出要約の品質を向上し,要約タスクにおけるその可能性を示す。 今後の作業を促進するために,1Kの長文回答を網羅した抽出要約データセットとユーザスタディアノテーションを提供する。 本研究は,複数粒度で回答を得られるQAエージェントの一歩を踏み出した,長文回答の要約に関する最初の研究である。

Long-form question answering systems provide rich information by presenting paragraph-level answers, often containing optional background or auxiliary information. While such comprehensive answers are helpful, not all information is required to answer the question (e.g. users with domain knowledge do not need an explanation of background). Can we provide a concise version of the answer by summarizing it, while still addressing the question? We conduct a user study on summarized answers generated from state-of-the-art models and our newly proposed extract-and-decontextualize approach. We find a large proportion of long-form answers (over 90%) in the ELI5 domain can be adequately summarized by at least one system, while complex and implicit answers are challenging to compress. We observe that decontextualization improves the quality of the extractive summary, exemplifying its potential in the summarization task. To promote future work, we provide an extractive summarization dataset covering 1K long-form answers and our user study annotations. Together, we present the first study on summarizing long-form answers, taking a step forward for QA agents that can provide answers at multiple granularities.
翻訳日:2023-05-31 14:28:21 公開日:2023-05-30
# 視覚言語モデルのための学習

Learning without Forgetting for Vision-Language Models ( http://arxiv.org/abs/2305.19270v1 )

ライセンス: Link先を確認
Da-Wei Zhou, Yuanhan Zhang, Jingyi Ning, Han-Jia Ye, De-Chuan Zhan, Ziwei Liu(参考訳) クラスインクリメンタルラーニング(クラスインクリメンタルラーニング、Class-Incremental Learning、CIL)は、学習システムが新しいタスクに適応するために必要な、現実の世界で望まれる能力である。 従来のcil手法では視覚情報に着目し,視覚言語モデル (vlm) の最近の進歩は,テキスト情報を用いた一般化表現の学習に有望な能力を示している。 しかし、新しいクラスで継続的に訓練すると、VLMはかつての知識を破滅的に忘れてしまう。 VLMをCILに適用することは2つの大きな課題をもたらす。 1)モデルを忘れることなく適応させる方法、及び 2)マルチモーダル情報をフル活用する方法。 この目的のために,VLM を忘れずに学習できる ProjectiOn Fusion (PROOF) を提案する。 第1の課題に対処するために,凍結画像/テキストエンコーダに基づくタスク固有プロジェクションのトレーニングを提案する。 新しいタスクに直面すると、新しいプロジェクションが拡張され、以前のプロジェクションが修正され、古い概念の忘れが緩和される。 第2の課題として,クロスモダリティ情報を活用するための融合モジュールを提案する。 視覚的特徴とテキスト的特徴を協調的に調整することにより、モデルはより強力な表現能力で意味情報をキャプチャすることができる。 PROOFを検証する9つのベンチマークデータセットの大規模な実験は、最先端のパフォーマンスを達成する。

Class-Incremental Learning (CIL) or continual learning is a desired capability in the real world, which requires a learning system to adapt to new tasks without forgetting former ones. While traditional CIL methods focus on visual information to grasp core features, recent advances in Vision-Language Models (VLM) have shown promising capabilities in learning generalizable representations with the aid of textual information. However, when continually trained with new classes, VLMs often suffer from catastrophic forgetting of former knowledge. Applying VLMs to CIL poses two major challenges: 1) how to adapt the model without forgetting; and 2) how to make full use of the multi-modal information. To this end, we propose PROjectiOn Fusion (PROOF) that enables VLMs to learn without forgetting. To handle the first challenge, we propose training task-specific projections based on the frozen image/text encoders. When facing new tasks, new projections are expanded and former projections are fixed, alleviating the forgetting of old concepts. For the second challenge, we propose the fusion module to better utilize the cross-modality information. By jointly adjusting visual and textual features, the model can capture semantic information with stronger representation ability. Extensive experiments on nine benchmark datasets validate PROOF achieves state-of-the-art performance.
翻訳日:2023-05-31 14:28:03 公開日:2023-05-30
# Make-A-Voice:離散表現を用いた統一音声合成

Make-A-Voice: Unified Voice Synthesis With Discrete Representation ( http://arxiv.org/abs/2305.19269v1 )

ライセンス: Link先を確認
Rongjie Huang, Chunlei Zhang, Yongqi Wang, Dongchao Yang, Luping Liu, Zhenhui Ye, Ziyue Jiang, Chao Weng, Zhou Zhao, Dong Yu(参考訳) 音声合成の様々な応用は、共通して「声」を生成するという事実にもかかわらず、独立して開発されてきた。 加えて、音声合成モデルの大部分は、現在注釈付き音声データに依存しているが、話者のアイデンティティ、感情、韻律など、人間の声に含まれる幅広い音響変化を効果的に捉えるために、自己教師付きデータセットに拡張することが重要である。 本研究では,個別表現から音声信号を合成・操作するための統合フレームワークであるMake-A-Voiceを提案する。 Make-A-Voiceは、人間の声をモデル化するために「粗い」アプローチを活用している。 1)意味段階:言語内容と自己教師付き意味トークン間のハイレベル変換のモデル化 2)音響段階:意味-音響モデルのための音響条件として様々な制御信号を導入し、 3) 生成段階: 音響トークンから高忠実度波形を合成する。 Make-A-Voiceは、統合音声合成フレームワークとして注目すべき利点を提供する。 1) データのスケーラビリティ: 主要なバックボーン(すなわちアコースティックおよびジェネレーションステージ)はアノテーションを必要としないため、トレーニングデータをスケールアップすることができる。 2) 制御可能性と条件付けの柔軟性: 異なる条件付け機構を調査し,テキスト音声合成 (tts), 音声変換 (vc), 歌声合成 (svs) を含む3つの音声合成アプリケーションを, 迅速誘導により再合成することにより効果的に処理する。 実験の結果, 基本モデルと比較して, 音声の質やスタイルに優れた類似性を示すことがわかった。 オーディオサンプルはhttps://Make-A-Voice.github.ioで入手できる。

Various applications of voice synthesis have been developed independently despite the fact that they generate "voice" as output in common. In addition, the majority of voice synthesis models currently rely on annotated audio data, but it is crucial to scale them to self-supervised datasets in order to effectively capture the wide range of acoustic variations present in human voice, including speaker identity, emotion, and prosody. In this work, we propose Make-A-Voice, a unified framework for synthesizing and manipulating voice signals from discrete representations. Make-A-Voice leverages a "coarse-to-fine" approach to model the human voice, which involves three stages: 1) semantic stage: model high-level transformation between linguistic content and self-supervised semantic tokens, 2) acoustic stage: introduce varying control signals as acoustic conditions for semantic-to-acoustic modeling, and 3) generation stage: synthesize high-fidelity waveforms from acoustic tokens. Make-A-Voice offers notable benefits as a unified voice synthesis framework: 1) Data scalability: the major backbone (i.e., acoustic and generation stage) does not require any annotations, and thus the training data could be scaled up. 2) Controllability and conditioning flexibility: we investigate different conditioning mechanisms and effectively handle three voice synthesis applications, including text-to-speech (TTS), voice conversion (VC), and singing voice synthesis (SVS) by re-synthesizing the discrete voice representations with prompt guidance. Experimental results demonstrate that Make-A-Voice exhibits superior audio quality and style similarity compared with competitive baseline models. Audio samples are available at https://Make-A-Voice.github.io
翻訳日:2023-05-31 14:27:42 公開日:2023-05-30
# 大規模量子化の興味深い性質

Intriguing Properties of Quantization at Scale ( http://arxiv.org/abs/2305.19268v1 )

ライセンス: Link先を確認
Arash Ahmadian, Saurabh Dash, Hongyu Chen, Bharat Venkitesh, Stephen Gou, Phil Blunsom, Ahmet \"Ust\"un, Sara Hooker(参考訳) 創発的特性は、より小さなモデルには存在せず、より大きなモデルで観察される行動を記述する用語として広く採用されている。 最近の研究は、量子化によって引き起こされるトレードオフもまた創発的な性質であり、6Bパラメータ以上のモデルの性能の急激な低下を示唆している。 本研究では,「性能の定量化の崖はスケールの要因にすぎないか? ある種の創発特性が大規模に表面化する理由に関する研究の背景から、この研究は有用な反例を提供する。 我々は,大きなアクティベーションマグニチュード異常を抑制する量子化フレンドリーなトレーニングレシピの最適化が可能であることを実証する。 ここで、アウトリアー次元はスケールの固有積ではなく、プレトレーニング中に生じる最適化条件に敏感であることが分かる。 これはどちらもより効率的な量子化のための方向を開き、他の創発的性質が固有ののか、最適化とアーキテクチャ設計の選択によって変更および条件付けできるのかという疑問を提起する。 性能を最小限に抑えながら,410Mから52Bまでの範囲のモデルを定量化した。

Emergent properties have been widely adopted as a term to describe behavior not present in smaller models but observed in larger models. Recent work suggests that the trade-off incurred by quantization is also an emergent property, with sharp drops in performance in models over 6B parameters. In this work, we ask "are quantization cliffs in performance solely a factor of scale?" Against a backdrop of increased research focus on why certain emergent properties surface at scale, this work provides a useful counter-example. We posit that it is possible to optimize for a quantization friendly training recipe that suppresses large activation magnitude outliers. Here, we find that outlier dimensions are not an inherent product of scale, but rather sensitive to the optimization conditions present during pre-training. This both opens up directions for more efficient quantization, and poses the question of whether other emergent properties are inherent or can be altered and conditioned by optimization and architecture design choices. We successfully quantize models ranging in size from 410M to 52B with minimal degradation in performance.
翻訳日:2023-05-31 14:27:17 公開日:2023-05-30
# モンテカルロサンプリングを用いた能動学習のための並列化獲得

Parallelized Acquisition for Active Learning using Monte Carlo Sampling ( http://arxiv.org/abs/2305.19267v1 )

ライセンス: Link先を確認
Jes\'us Torrado, Nils Sch\"oneberg, Jonas El Gammal(参考訳) ベイズ推論は科学者にとって最も重要な道具の1つであり続けているが、より複雑な実験にはますます高価な可能性関数が必要となり、後方のモンテカルロサンプルを生成するコストが高まった。 近年,gaussian process (gp) 回帰法とアクティブサンプリング法を組み合わせた後肢エミュレータの使用が注目されている。 このアプローチの鍵となるのは、プロポーザルのバッチ取得であり、真の後部を並列に評価することができる。 これは通常、高度マルチモーダル取得関数の逐次最大化によって達成される。 残念ながら、このアプローチは並列性が悪く、局所的な最大値で立ち往生する傾向がある。 提案手法は,GPの平均予測に基づいて,ほぼ恥ずかしい並列なNested Samplerを用いて,ほぼ最適な候補のバッチを生成することでこの問題に対処する。 得られたほぼ分類されたモンテカルロサンプルは、逐次条件付き取得関数値に従ってランク付けされた候補のバッチを少ないコストで生成するために使用される。 最後のサンプルは、限界量の推測にも利用できる。 提案手法 (NORA) は, 様々な合成および宇宙的推論問題において, 逐次条件付き取得最適化および効率的な並列化に匹敵する精度を示す。

Bayesian inference remains one of the most important tool-kits for any scientist, but increasingly expensive likelihood functions are required for ever-more complex experiments, raising the cost of generating a Monte Carlo sample of the posterior. Recent attention has been directed towards the use of emulators of the posterior based on Gaussian Process (GP) regression combined with active sampling to achieve comparable precision with far fewer costly likelihood evaluations. Key to this approach is the batched acquisition of proposals, so that the true posterior can be evaluated in parallel. This is usually achieved via sequential maximization of the highly multimodal acquisition function. Unfortunately, this approach parallelizes poorly and is prone to getting stuck in local maxima. Our approach addresses this issue by generating nearly-optimal batches of candidates using an almost-embarrassingly parallel Nested Sampler on the mean prediction of the GP. The resulting nearly-sorted Monte Carlo sample is used to generate a batch of candidates ranked according to their sequentially conditioned acquisition function values at little cost. The final sample can also be used for inferring marginal quantities. Our proposed implementation (NORA) demonstrates comparable accuracy to sequential conditioned acquisition optimization and efficient parallelization in various synthetic and cosmological inference problems.
翻訳日:2023-05-31 14:26:59 公開日:2023-05-30
# 中性原子配列におけるomg-architectureを用いた中回路演算

Mid-circuit operations using the omg-architecture in neutral atom arrays ( http://arxiv.org/abs/2305.19266v1 )

ライセンス: Link先を確認
Joanna W. Lis, Aruku Senoo, William F. McGrew, Felix R\"onchen, Alec Jenkins, Adam M. Kaufman(参考訳) 我々は,${}^{171}$yb にある$\textit{omg}$ (optical-metastable-ground state qubit) アーキテクチャを制御するための新しい方法によって,中性原子の48箇所の配列に中回路演算を実装した。 レーザーによる1量子ビット当たり平均$f_{g} = 99.968(3)$, $f_{m} = 99.12(4)$, $f_{o} = 99.804(8)$の地上・準安定・光量子ビットの制御を示す。 基底状態と準安定状態の間の状態感知シェルヴィングにより、$^{171}$Ybの非破壊状態検出を実現し、大域的な制御と局所的なフィードフォワード操作で地上状態を再起動する。 我々は、光時計遷移の局所的なアドレス付けを用いて、測定、スピンリセット、運動リセットなどの中間回路動作を地中冷却の形で行う。 基底状態の量子ビットにおける中循環の測定を特徴付けるため、ancilla qubitsでは1.8(6)%$、データキュービットでは4.5(1.0)\%$であり、前者(ラッター)は$1.0(2)\%$ (2.0(2)\%$)の準備と測定エラーで訂正されない。 この$\textit{omg}$アーキテクチャとmid-circuit操作の実現は、量子エラー訂正、絡み合い生成、メトロロジーなど、量子情報科学における多くのタスクのドア・オープンである。

We implement mid-circuit operations in a 48-site array of neutral atoms, enabled by new methods for control of the $\textit{omg}$ (optical-metastable-ground state qubit) architecture present in ${}^{171}$Yb. We demonstrate laser-based control of ground, metastable and optical qubits with average single-qubit fidelities of $F_{g} = 99.968(3)$, $F_{m} = 99.12(4)$ and $F_{o} = 99.804(8)$. With state-sensitive shelving between the ground and metastable states, we realize a non-destructive state-detection for $^{171}$Yb, and reinitialize in the ground state with either global control or local feed-forward operations. We use local addressing of the optical clock transition to perform mid-circuit operations, including measurement, spin reset, and motional reset in the form of ground-state cooling. In characterizing mid-circuit measurement on ground-state qubits, we observe raw errors of $1.8(6)\%$ on ancilla qubits and $4.5(1.0)\%$ on data qubits, with the former (latter) uncorrected for $1.0(2)\%$ ($2.0(2)\%$) preparation and measurement error; we observe similar performance for mid-circuit reset operations. The reported realization of the $\textit{omg}$ architecture and mid-circuit operations are door-opening for many tasks in quantum information science, including quantum error-correction, entanglement generation, and metrology.
翻訳日:2023-05-31 14:26:40 公開日:2023-05-30
# 創発的共分散を用いた確率論的計算:効率的な不確実性定量化に向けて

Probabilistic Computation with Emerging Covariance: towards efficient uncertainty quantification ( http://arxiv.org/abs/2305.19265v1 )

ライセンス: Link先を確認
Hengyuan Ma, Yang Qi, Li Zhang, Wenlian Lu, Jianfeng Feng(参考訳) 堅牢で解釈可能でセキュアな人工知能システムを構築するには、人間の認知能力を模倣できるため、確率論的観点から不確実性をある程度定量化し、表現する必要がある。 しかし確率的計算は、その固有の複雑さのために大きな課題を生んでいる。 本稿では,確率表現をその最初の2つのモーメント,すなわち平均と共分散に切り換えることで,効率よく解釈可能な確率計算フレームワークを開発する。 我々は、簡単なアクティベーションの組み合わせによって複雑な確率表現を学習する確率ネットワークの決定論的サロゲートを訓練し、平均と共分散の非線形結合をカプセル化する。 課題目標を最適化するために平均が監督されている場合、非線形結合から自然に生じる非教師なし共分散は、モデル予測に関連する不確実性を忠実に捉えていることを示す。 本研究は,確率計算に固有の計算可能性と単純さを強調し,大規模環境での応用を可能にした。

Building robust, interpretable, and secure artificial intelligence system requires some degree of quantifying and representing uncertainty via a probabilistic perspective, as it allows to mimic human cognitive abilities. However, probabilistic computation presents significant challenges due to its inherent complexity. In this paper, we develop an efficient and interpretable probabilistic computation framework by truncating the probabilistic representation up to its first two moments, i.e., mean and covariance. We instantiate the framework by training a deterministic surrogate of a stochastic network that learns the complex probabilistic representation via combinations of simple activations, encapsulating the non-linearities coupling of the mean and covariance. We show that when the mean is supervised for optimizing the task objective, the unsupervised covariance spontaneously emerging from the non-linear coupling with the mean faithfully captures the uncertainty associated with model predictions. Our research highlights the inherent computability and simplicity of probabilistic computation, enabling its wider application in large-scale settings.
翻訳日:2023-05-31 14:26:04 公開日:2023-05-30
# 能率・プライベートチューニングのための連立多重層適応法

Jointly Reparametrized Multi-Layer Adaptation for Efficient and Private Tuning ( http://arxiv.org/abs/2305.19264v1 )

ライセンス: Link先を確認
Umang Gupta, Aram Galstyan, Greg Ver Steeg(参考訳) 自然言語処理タスクを解くために,事前学習した言語トランスフォーマーの効率的な微調整が普及しつつある。 有効ではあるが、多くの調整可能なパラメータを必要とすることがある。 これは低リソースのアプリケーションや、微調整中に過剰なノイズを発生させる差分プライバシ制約によるトレーニングの欠点となる可能性がある。 そこで本研究では,複数のトランスフォーマー層にタスク固有のパラメータを導入する言語トランスフォーマーの微調整手法を提案する。 これらのパラメータは、単一のトレーニング可能なベクトルの固定されたランダムなプロジェクションから導出され、性能を維持しながらパラメータを著しく少なく微調整することができる。 タスク毎に最大4,100パラメータしか持たないglueタスクの完全な微調整性能の5%以下を達成し,同様のタスク毎パラメータを使用する他のパラメータ効率の微調整手法よりも優れています。 さらに、ランダムなプロジェクションは推論時にプリ計算され、さらなる計算遅延を回避することができる。 これらすべてが,低リソースアプリケーションに特にアピールしています。 最後に,本手法は,同一のプライバシー制約でトレーニングを行う場合のファインタニング手法と比較して,その有効性と潜在的な実世界への影響を裏付ける。

Efficient finetuning of pretrained language transformers is becoming increasingly prevalent for solving natural language processing tasks. While effective, it can still require a large number of tunable parameters. This can be a drawback for low-resource applications and training with differential-privacy constraints, where excessive noise may be introduced during finetuning. To this end, we propose a novel language transformer finetuning strategy that introduces task-specific parameters in multiple transformer layers. These parameters are derived from fixed random projections of a single trainable vector, enabling finetuning with significantly fewer parameters while maintaining performance. We achieve within 5% of full finetuning performance on GLUE tasks with as few as 4,100 parameters per task, outperforming other parameter-efficient finetuning approaches that use a similar number of per-task parameters. Besides, the random projections can be precomputed at inference, avoiding additional computational latency. All these make our method particularly appealing for low-resource applications. Finally, our method achieves the best or comparable utility compared to several recent finetuning methods when training with the same privacy constraints, underscoring its effectiveness and potential real-world impact.
翻訳日:2023-05-31 14:25:45 公開日:2023-05-30
# Shuffle SGD は常に SGD より優れている: 任意データ順序による SGD の解析の改善

Shuffle SGD is Always Better than SGD: Improved Analysis of SGD with Arbitrary Data Orders ( http://arxiv.org/abs/2305.19259v1 )

ライセンス: Link先を確認
Anastasia Koloskova, Nikita Doikov, Sebastian U. Stich, Martin Jaggi(参考訳) 確率勾配 Descent (SGD) アルゴリズムはニューラルネットワークの最適化に広く用いられ、ランダムリシャッフル (RR) とシングルシャッフル (SS) はトレーニングデータのランダムまたは単一置換によるサイクリングの一般的な選択肢である。 しかし、非凸の場合におけるこれらのアルゴリズムの収束性は完全には理解されていない。 既存の結果から,エポックの数がトレーニングセットサイズよりも小さい現実的なトレーニングシナリオでは,RRはSGDよりも悪いパフォーマンスを示す可能性が示唆された。 本稿では,任意のデータ順序付けが可能な一般SGDアルゴリズムを解析し,非凸関数に対する収束率の向上を示す。 具体的には, ランダムかつ単一シャッフルのSGDは, イテレーション数に関係なく, 従来のSGDよりも常に高速か,少なくとも同等であることを示す。 本研究は,SGDをランダム/単一シャッフルで使用することの利点を強調し,非凸最適化のための収束特性に関する新たな知見を提供する。

Stochastic Gradient Descent (SGD) algorithms are widely used in optimizing neural networks, with Random Reshuffling (RR) and Single Shuffle (SS) being popular choices for cycling through random or single permutations of the training data. However, the convergence properties of these algorithms in the non-convex case are not fully understood. Existing results suggest that, in realistic training scenarios where the number of epochs is smaller than the training set size, RR may perform worse than SGD. In this paper, we analyze a general SGD algorithm that allows for arbitrary data orderings and show improved convergence rates for non-convex functions. Specifically, our analysis reveals that SGD with random and single shuffling is always faster or at least as good as classical SGD with replacement, regardless of the number of iterations. Overall, our study highlights the benefits of using SGD with random/single shuffling and provides new insights into its convergence properties for non-convex optimization.
翻訳日:2023-05-31 14:25:26 公開日:2023-05-30
# Ambient Diffusion: 破損したデータからクリーンな分散を学ぶ

Ambient Diffusion: Learning Clean Distributions from Corrupted Data ( http://arxiv.org/abs/2305.19256v1 )

ライセンス: Link先を確認
Giannis Daras, Kulin Shah, Yuval Dagan, Aravind Gollakota, Alexandros G. Dimakis, Adam Klivans(参考訳) 高度に分解されたサンプルのみを使用して未知の分布を学習できる最初の拡散ベースのフレームワークを提案する。 この問題は、未破壊のサンプルへのアクセスが不可能または高価な科学的な応用で発生する。 このアプローチのもう1つの利点は、クリーンなトレーニングデータを決して観測しないため、個々のトレーニングサンプルを記憶しにくい生成モデルのトレーニングを可能にすることです。 本研究の主目的は,拡散過程に付加的な測定歪みを導入し,さらに劣化した画像から元の劣化画像を予測することである。 本手法は, この付加的な測定誤差を考慮し, 完全非破壊画像の条件予測を学習するモデルに導かれることを示す。 これは、いくつかの技術的条件(特に塗り込みや圧縮センシングを含む)を満たすいかなる腐敗プロセスにも当てはまる。 標準ベンチマーク(CelebA, CIFAR-10, AFHQ)でモデルをトレーニングし、すべてのトレーニングサンプルが90セントのピクセルが欠落している場合でも、分布を学習できることを示します。 また、小さな破損したデータセット(例えば、ブロック破損を伴うmriスキャン)の基盤モデルを微調整し、トレーニングセットを覚えることなくクリーンな分布を学習できることも示します。

We present the first diffusion-based framework that can learn an unknown distribution using only highly-corrupted samples. This problem arises in scientific applications where access to uncorrupted samples is impossible or expensive to acquire. Another benefit of our approach is the ability to train generative models that are less likely to memorize individual training samples since they never observe clean training data. Our main idea is to introduce additional measurement distortion during the diffusion process and require the model to predict the original corrupted image from the further corrupted image. We prove that our method leads to models that learn the conditional expectation of the full uncorrupted image given this additional measurement corruption. This holds for any corruption process that satisfies some technical conditions (and in particular includes inpainting and compressed sensing). We train models on standard benchmarks (CelebA, CIFAR-10 and AFHQ) and show that we can learn the distribution even when all the training samples have $90\%$ of their pixels missing. We also show that we can finetune foundation models on small corrupted datasets (e.g. MRI scans with block corruptions) and learn the clean distribution without memorizing the training set.
翻訳日:2023-05-31 14:25:05 公開日:2023-05-30
# Multi-VALUE: クロスプラットフォーム英語NLPフレームワーク

Multi-VALUE: A Framework for Cross-Dialectal English NLP ( http://arxiv.org/abs/2212.08011v3 )

ライセンス: Link先を確認
Caleb Ziems, William Held, Jingfeng Yang, Jwala Dhamala, Rahul Gupta, Diyi Yang(参考訳) 地域、社会的、経済的要因による方言の違いは、言語技術利用者の多くのグループでパフォーマンスの相違を引き起こす。 包含的かつ平等な言語技術は、方言不変性(英語版)に批判的でなければならない。 現在のシステムは、単一の方言であるスタンダード・アメリカン・イングリッシュ(sae)で設計・テストされているため、この理想に欠けることが多い。 英語の方言の不変性を評価・達成するためのリソース群を紹介する。 このリソースはMulti-VALUEと呼ばれ、50の英語方言と189の言語的特徴にまたがる制御可能なルールベースの翻訳システムである。 多値は、saeを各方言の合成形式にマッピングする。 まず,本システムを用いて質問応答,機械翻訳,意味解析を行う。 ストレステストは、非標準方言の先行モデルに対する顕著な性能格差を示す。 第2に,本システムは既存のシステムの方言ロバスト性を改善するために,データ拡張手法として用いる。 最後に、チカノとインド英語のネイティブスピーカーと提携して、人気のあるCoQAタスクの新しいゴールドスタンダード版をリリースします。 変換コードを実行するには、モデルチェックポイントを実行し、合成および金標準の方言ベンチマークデータセットをダウンロードする。

Dialect differences caused by regional, social, and economic factors cause performance discrepancies for many groups of language technology users. Inclusive and equitable language technology must critically be dialect invariant, meaning that performance remains constant over dialectal shifts. Current systems often fall short of this ideal since they are designed and tested on a single dialect: Standard American English (SAE). We introduce a suite of resources for evaluating and achieving English dialect invariance. The resource is called Multi-VALUE, a controllable rule-based translation system spanning 50 English dialects and 189 unique linguistic features. Multi-VALUE maps SAE to synthetic forms of each dialect. First, we use this system to stress tests question answering, machine translation, and semantic parsing. Stress tests reveal significant performance disparities for leading models on non-standard dialects. Second, we use this system as a data augmentation technique to improve the dialect robustness of existing systems. Finally, we partner with native speakers of Chicano and Indian English to release new gold-standard variants of the popular CoQA task. To execute the transformation code, run model checkpoints, and download both synthetic and gold-standard dialectal benchmark datasets, see http://value-nlp.org.
翻訳日:2023-05-31 12:04:35 公開日:2023-05-30
# 複合超解像と逆トーン・マッピング:特徴分解集約ネットワークと新しいベンチマーク

Joint Super-Resolution and Inverse Tone-Mapping: A Feature Decomposition Aggregation Network and A New Benchmark ( http://arxiv.org/abs/2207.03367v3 )

ライセンス: Link先を確認
Gang Xu (1), Yu-chen Yang (1), Liang Wang (2), Xian-Tong Zhen (3), Jun Xu (1) ((1) Nankai University, (2) Institute of Automation, CAS, (3) United Imaging Intelligence)(参考訳) 超解像と逆トーン・マッピング(交叉SR-ITM)は,低解像度および標準ダイナミックレンジ画像の解像度とダイナミックレンジの向上を目的としている。 最近のネットワークは主に複雑なマルチブランチアーキテクチャによる画像分解技術に依存している。 しかし、固定分解技術は多彩な画像に対するパワーをほとんど制限する。 本稿では,分解機構の潜在的な力を利用するために,画像領域からより広い特徴領域へ一般化する。 そこで本稿では,軽量な特徴分解集約ネットワーク(fdan)を提案する。 特に,特徴分解ブロック(FDB)を設計して,詳細と基本特徴マップの学習可能な分離を実現し,FDBをカスケードして階層的特徴分解グループを構築する。 さらに、比較手法をよりよく評価するために、ロバストモデルトレーニングと評価のための汎用シナリオを提供する共同SR-ITM、すなわちSRITM-4Kの大規模データセットを収集する。 2つのベンチマークデータセットによる実験結果から、FDANは効率的で、関節SR-ITMの最先端手法よりも優れていることが示された。 FDANとSRITM-4Kデータセットのコードはhttps://github.com/CS-GangXu/FDANで公開されている。

Joint Super-Resolution and Inverse Tone-Mapping (joint SR-ITM) aims to increase the resolution and dynamic range of low-resolution and standard dynamic range images. Recent networks mainly resort to image decomposition techniques with complex multi-branch architectures. However, the fixed decomposition techniques would largely restricts their power on versatile images. To exploit the potential power of decomposition mechanism, in this paper, we generalize it from the image domain to the broader feature domain. To this end, we propose a lightweight Feature Decomposition Aggregation Network (FDAN). In particular, we design a Feature Decomposition Block (FDB) to achieve learnable separation of detail and base feature maps, and develop a Hierarchical Feature Decomposition Group by cascading FDBs for powerful multi-level feature decomposition. Moreover, to better evaluate the comparison methods, we collect a large-scale dataset for joint SR-ITM, i.e., SRITM-4K, which provides versatile scenarios for robust model training and evaluation. Experimental results on two benchmark datasets demonstrate that our FDAN is efficient and outperforms state-of-the-art methods on joint SR-ITM. The code of our FDAN and the SRITM-4K dataset are available at https://github.com/CS-GangXu/FDAN.
翻訳日:2023-05-31 12:04:05 公開日:2023-05-30
# 少数ショットセグメンテーションのための注意深いプロトタイプ推論

Attentional Prototype Inference for Few-Shot Segmentation ( http://arxiv.org/abs/2105.06668v3 )

ライセンス: Link先を確認
Haoliang Sun, Xiankai Lu, Haochen Wang, Yilong Yin, Xiantong Zhen, Cees G. M. Snoek, and Ling Shao(参考訳) 本稿では,数発のセグメンテーションを提案する。 既存のプロトタイプベースの手法は大きな成功を収めているが、限定された例によって生じる不確実性と曖昧さに苦しめられている。 本研究では,少数ショットセグメンテーションのための確率潜在変数フレームワークである注意型プロトタイプ推論(API)を提案する。 我々は各オブジェクトカテゴリのプロトタイプを表現するためにグローバル潜在変数を定義し、確率分布としてモデル化する。 プロトタイプの確率論的モデリングは、限られたデータやクラス内の変化に起因する固有の不確実性を扱うことにより、モデルの一般化能力を高める。 このモデルをさらに強化するため,各問合せ画像のアテンションマップを表すローカル潜在変数を導入し,背景を抑えながら前景オブジェクトへの参照を可能にする。 提案モデルの最適化は変分ベイズ推論問題として定式化され, 償却推論ネットワークによって確立された。 我々は4つのベンチマークについて広範な実験を行い,提案手法は最先端のプロトタイプベース手法よりも,少なくとも競争性が高く,しばしば優れた性能を得る。 また,本手法の有効性を明らかにするため,包括的分析およびアブレーション研究も行った。

This paper aims to address few-shot segmentation. While existing prototype-based methods have achieved considerable success, they suffer from uncertainty and ambiguity caused by limited labeled examples. In this work, we propose attentional prototype inference (API), a probabilistic latent variable framework for few-shot segmentation. We define a global latent variable to represent the prototype of each object category, which we model as a probabilistic distribution. The probabilistic modeling of the prototype enhances the model's generalization ability by handling the inherent uncertainty caused by limited data and intra-class variations of objects. To further enhance the model, we introduce a local latent variable to represent the attention map of each query image, which enables the model to attend to foreground objects while suppressing the background. The optimization of the proposed model is formulated as a variational Bayesian inference problem, which is established by amortized inference networks. We conduct extensive experiments on four benchmarks, where our proposal obtains at least competitive and often better performance than state-of-the-art prototype-based methods. We also provide comprehensive analyses and ablation studies to gain insight into the effectiveness of our method for few-shot segmentation.
翻訳日:2023-05-31 12:03:40 公開日:2023-05-30
# VisorGPT: 生成的事前学習による視覚的優先学習

VisorGPT: Learning Visual Prior via Generative Pre-Training ( http://arxiv.org/abs/2305.13777v4 )

ライセンス: Link先を確認
Jinheng Xie, Kai Ye, Yudong Li, Yuexiang Li, Kevin Qinghong Lin, Yefeng Zheng, Linlin Shen, Mike Zheng Shou(参考訳) 視覚データのさまざまなものやものは特定の特性を持ち、深層ニューラルネットワークによって学習され、暗黙的にモデル内のオブジェクトの位置や形状などの視覚的先行として表現される。 このような事前処理は多くの視覚タスクに影響を与える可能性がある。 例えば、条件付き画像合成では、事前に固執しない空間条件は、視覚的に不正確な合成結果をもたらす。 この作業は、視覚的事前学習とサンプリングのカスタマイズを可能にすることを目的としている。 言語モデリングの進歩に触発されて、私たちはVisorGPTと呼ばれるジェネレーティブ・プレトレーニングを通してビジュアル・プレトレーニングを学ぶことを提案する。 オブジェクトの視覚的位置、例えば、バウンディングボックス、人間のポーズ、インスタンスマスクをシーケンスに識別することで、VisorGPTは最大化によって視覚的事前をモデル化することができる。 さらに、様々な視覚的位置を統一し、学習前の逐次的な出力のサンプリングをカスタマイズできるようにする。 実験の結果、visorgptは視覚前兆を効果的にモデル化できることが示され、例えば、制御ネットのような条件付き画像合成モデルのための正確な人間のポーズをカスタマイズするなど、多くの視覚タスクに使用できる。 コードはhttps://github.com/Sierkinhane/VisorGPTでリリースされる。

Various stuff and things in visual data possess specific traits, which can be learned by deep neural networks and are implicitly represented as the visual prior, e.g., object location and shape, in the model. Such prior potentially impacts many vision tasks. For example, in conditional image synthesis, spatial conditions failing to adhere to the prior can result in visually inaccurate synthetic results. This work aims to explicitly learn the visual prior and enable the customization of sampling. Inspired by advances in language modeling, we propose to learn Visual prior via Generative Pre-Training, dubbed VisorGPT. By discretizing visual locations of objects, e.g., bounding boxes, human pose, and instance masks, into sequences, VisorGPT can model visual prior through likelihood maximization. Besides, prompt engineering is investigated to unify various visual locations and enable customized sampling of sequential outputs from the learned prior. Experimental results demonstrate that VisorGPT can effectively model the visual prior, which can be employed for many vision tasks, such as customizing accurate human pose for conditional image synthesis models like ControlNet. Code will be released at https://github.com/Sierkinhane/VisorGPT.
翻訳日:2023-05-31 11:55:32 公開日:2023-05-30
# 動的シーン理解のための教師なしオブジェクト中心ボクセル化

Unsupervised Object-Centric Voxelization for Dynamic Scene Understanding ( http://arxiv.org/abs/2305.00393v3 )

ライセンス: Link先を確認
Siyu Gao, Yanpeng Zhao, Yunbo Wang, Xiaokang Yang(参考訳) 教師なし視覚環境における複数物体の構成ダイナミクスを理解することは困難であり、既存のオブジェクト中心表現学習法はシーン分解における3次元一貫性をしばしば無視する。 ニューラルレンダリングフレームワークでオブジェクト中心の容積表現を学習する逆グラフィックスアプローチであるDynaVolを提案する。 DynaVolは、異なるオブジェクトに属する各空間位置の確率を明確に表した時間変化の3Dボクセルグリッドを維持し、標準空間変形場を学習することで時間的ダイナミクスと空間情報を分離する。 ボリューム機能を最適化するために、完全に微分可能なニューラルネットワークにそれらを埋め込み、オブジェクト中心のグローバルな特徴に結合し、シーン再構築のために合成NeRFを駆動する。 dynavolは、新しいビュー合成と教師なしのシーン分解で既存のメソッドを上回り、動的シーンの追加、削除、オブジェクトの置換、それらのトラジェクタの変更などの編集を可能にする。

Understanding the compositional dynamics of multiple objects in unsupervised visual environments is challenging, and existing object-centric representation learning methods often ignore 3D consistency in scene decomposition. We propose DynaVol, an inverse graphics approach that learns object-centric volumetric representations in a neural rendering framework. DynaVol maintains time-varying 3D voxel grids that explicitly represent the probability of each spatial location belonging to different objects, and decouple temporal dynamics and spatial information by learning a canonical-space deformation field. To optimize the volumetric features, we embed them into a fully differentiable neural network, binding them to object-centric global features and then driving a compositional NeRF for scene reconstruction. DynaVol outperforms existing methods in novel view synthesis and unsupervised scene decomposition and allows for the editing of dynamic scenes, such as adding, deleting, replacing objects, and modifying their trajectories.
翻訳日:2023-05-31 11:55:11 公開日:2023-05-30
# CB2: 共同自然言語インタラクション研究プラットフォーム

CB2: Collaborative Natural Language Interaction Research Platform ( http://arxiv.org/abs/2303.08127v3 )

ライセンス: Link先を確認
Jacob Sharf, Mustafa Omer Gul, Yoav Artzi(参考訳) CB2はタスク指向のシナリオで協調的な自然言語インタラクションを研究するマルチエージェントプラットフォームである。 3dゲーム環境、トレーニングされたモデルを人間エージェントに提供するように設計されたバックエンドサーバ、スケーラブルな研究を可能にするためのさまざまなツールやプロセスが含まれている。 我々は CB2 を https://cb2.ai にデプロイし、学習した命令に従うモデルでシステムデモを行う。

CB2 is a multi-agent platform to study collaborative natural language interaction in a grounded task-oriented scenario. It includes a 3D game environment, a backend server designed to serve trained models to human agents, and various tools and processes to enable scalable studies. We deploy CB2 at https://cb2.ai as a system demonstration with a learned instruction following model.
翻訳日:2023-05-31 11:54:52 公開日:2023-05-30
# LiDAR点雲における変化検出のための最適輸送

Optimal Transport for Change Detection on LiDAR Point Clouds ( http://arxiv.org/abs/2302.07025v3 )

ライセンス: Link先を確認
Marco Fiorucci, Peter Naylor, Makoto Yamada(参考訳) 大気中LiDARデータポイント間の非監督的変化検出は, 取得システムからの空間的支持とノイズのアンマッチのため困難である。 点雲の変化を検出するための現在のアプローチは、DEM(Digital Elevation Models)画像と教師付き手法の計算に大きく依存している。 demを取得すると、ピクセル化によるlidar情報損失が発生し、監視には現実世界のシナリオでは利用できない大量のラベル付きデータが必要になる。 本稿では,2つの時間的支援による3次元LiDAR点の移動の計算に基づく教師なしアプローチを提案する。 この方法は不均衡な最適輸送に基づいており、LiDARデータによるあらゆる変化検出問題に一般化することができる。 提案手法を利用可能なデータセットに適用し,実際に使用されるセンサを模倣した様々なノイズや解像度の設定による都市スプロールの監視を行う。 本手法では,教師なしのマルチクラス分類が可能であり,それまでの教師なしのアプローチを有意差で上回っている。

Unsupervised change detection between airborne LiDAR data points, taken at separate times over the same location, can be difficult due to unmatching spatial support and noise from the acquisition system. Most current approaches to detect changes in point clouds rely heavily on the computation of Digital Elevation Models (DEM) images and supervised methods. Obtaining a DEM leads to LiDAR informational loss due to pixelisation, and supervision requires large amounts of labelled data often unavailable in real-world scenarios. We propose an unsupervised approach based on the computation of the transport of 3D LiDAR points over two temporal supports. The method is based on unbalanced optimal transport and can be generalised to any change detection problem with LiDAR data. We apply our approach to publicly available datasets for monitoring urban sprawling in various noise and resolution configurations that mimic several sensors used in practice. Our method allows for unsupervised multi-class classification and outperforms the previous state-of-the-art unsupervised approaches by a significant margin.
翻訳日:2023-05-31 11:54:45 公開日:2023-05-30
# フリンジ投影プロファイロメトリーにおける自己制御位相解離

Self-supervised phase unwrapping in fringe projection profilometry ( http://arxiv.org/abs/2302.06381v3 )

ライセンス: Link先を確認
Xiaomin Gao, Wanzhong Song, Chunqian Tan, Junzhe Lei(参考訳) 高速かつ高精度な3次元形状測定は、FPP (fringe projection profilometry) において常に目標となっている。 二周波時相解離法(DF-TPU)はこの目的を達成するための重要な技術の一つである。 しかしながら、既存のdf-tpuアプローチの高周波パターンの周期数は、通常避けられない位相誤差によって制限され、測定精度の限界となる。 シングルカメラFPPの深層学習に基づく位相解放法は通常、トレーニングのためにラベル付きデータを必要とする。 本稿では,単一カメラ用FPPシステムの自己監督型位相解放手法を提案する。 訓練されたネットワークは、64周期の1フェーズマップから絶対縁順を検索し、深さ精度でDF-TPUアプローチをオーバーパフォーマンスすることができる。 実験により, 提案手法が実際の動きのぼやけ, 孤立物体, 低反射率, 位相不連続の場面で有効であることを示す。

Fast-speed and high-accuracy three-dimensional (3D) shape measurement has been the goal all along in fringe projection profilometry (FPP). The dual-frequency temporal phase unwrapping method (DF-TPU) is one of the prominent technologies to achieve this goal. However, the period number of the high-frequency pattern of existing DF-TPU approaches is usually limited by the inevitable phase errors, setting a limit to measurement accuracy. Deep-learning-based phase unwrapping methods for single-camera FPP usually require labeled data for training. In this letter, a novel self-supervised phase unwrapping method for single-camera FPP systems is proposed. The trained network can retrieve the absolute fringe order from one phase map of 64-period and overperform DF-TPU approaches in terms of depth accuracy. Experimental results demonstrate the validation of the proposed method on real scenes of motion blur, isolated objects, low reflectivity, and phase discontinuity.
翻訳日:2023-05-31 11:54:29 公開日:2023-05-30
# エンド・ツー・エンドフル原子抗体設計

End-to-End Full-Atom Antibody Design ( http://arxiv.org/abs/2302.00203v4 )

ライセンス: Link先を確認
Xiangzhe Kong, Wenbing Huang, Yang Liu(参考訳) 抗体の設計は治療や生物学といった様々な分野において必須だが困難な課題である。 現在の学習手法には2つの大きな欠陥がある。 1) 抗体設計パイプライン全体の特定のサブタスクのみに取り組むことで, 最適あるいは資源集約化を実現した。 2) フレームワーク領域またはサイドチェーンのどちらかを省略することで、フル原子の形状を捉えることができない。 これらの落とし穴に対処するために, エピトープと不完全配列を付与したE(3)-equivariant 抗体設計のためのエンド・ツー・エンドフル原子モデルである動的マルチチャネル等価型graAph Network (dyMEAN)を提案する。 具体的には、まず、抗体構造の知識に富んだ推測として構造初期化を探求し、エピトープ-抗体結合をブリッジするシャドーパラトープを提案する。 1D配列と3D構造は、完全な原子を考える際に、可変サイズのタンパク質残基を処理できる適応型多チャンネル同変エンコーダによって更新される。 最後に、更新された抗体は、シャドウパラトープのアライメントを介してエピトープにドッキングされる。 エピトープ結合型cdr-h3設計、複雑な構造予測、親和性最適化の実験は、エンドツーエンドフレームワークとフルアトムモデリングの優位性を示しています。

Antibody design is an essential yet challenging task in various domains like therapeutics and biology. There are two major defects in current learning-based methods: 1) tackling only a certain subtask of the whole antibody design pipeline, making them suboptimal or resource-intensive. 2) omitting either the framework regions or side chains, thus incapable of capturing the full-atom geometry. To address these pitfalls, we propose dynamic Multi-channel Equivariant grAph Network (dyMEAN), an end-to-end full-atom model for E(3)-equivariant antibody design given the epitope and the incomplete sequence of the antibody. Specifically, we first explore structural initialization as a knowledgeable guess of the antibody structure and then propose shadow paratope to bridge the epitope-antibody connections. Both 1D sequences and 3D structures are updated via an adaptive multi-channel equivariant encoder that is able to process protein residues of variable sizes when considering full atoms. Finally, the updated antibody is docked to the epitope via the alignment of the shadow paratope. Experiments on epitope-binding CDR-H3 design, complex structure prediction, and affinity optimization demonstrate the superiority of our end-to-end framework and full-atom modeling.
翻訳日:2023-05-31 11:54:16 公開日:2023-05-30
# WL meet VC

WL meet VC ( http://arxiv.org/abs/2301.11039v3 )

ライセンス: Link先を確認
Christopher Morris, Floris Geerts, Jan T\"onshoff, Martin Grohe(参考訳) 近年,グラフニューラルネットワーク(GNN)の表現力について,1次元Weisfeiler-Lemanアルゴリズム(1\text{-}\mathsf{WL}$)にリンクすることで研究されている。 ここで、1\text{-}\mathsf{WL}$ はグラフ同型問題に対するよく研究されたヒューリスティックであり、グラフの頂点集合を反復的に色付けまたは分割する。 この関係は、GNNの表現力の理解と強化に大きな進歩をもたらしたが、その一般化性能、すなわちトレーニングセットを超えて有意義な予測を行う能力についての洞察を与えていない。 本稿では,GNNの一般化能力を,Vapnik-Chervonenkis(VC)次元理論のレンズを用いて2つの設定で研究し,グラフレベルの予測に焦点を当てた。 まず、グラフの順序の上限が知られていない場合、gnnの重みのビット長がvc次元に密着していることを示す。 さらに、GNN の VC 次元の上限を $1\text{-}\mathsf{WL}$ で生成される色数を用いて導出する。 第二に、グラフの順序の上限が分かっているとき、 1\text{-}\mathsf{wl}$ と gnns の vc 次元で区別可能なグラフの数と密接な関係を示す。 実験結果は理論的な結果の妥当性を確認した。

Recently, many works studied the expressive power of graph neural networks (GNNs) by linking it to the $1$-dimensional Weisfeiler--Leman algorithm ($1\text{-}\mathsf{WL}$). Here, the $1\text{-}\mathsf{WL}$ is a well-studied heuristic for the graph isomorphism problem, which iteratively colors or partitions a graph's vertex set. While this connection has led to significant advances in understanding and enhancing GNNs' expressive power, it does not provide insights into their generalization performance, i.e., their ability to make meaningful predictions beyond the training set. In this paper, we study GNNs' generalization ability through the lens of Vapnik--Chervonenkis (VC) dimension theory in two settings, focusing on graph-level predictions. First, when no upper bound on the graphs' order is known, we show that the bitlength of GNNs' weights tightly bounds their VC dimension. Further, we derive an upper bound for GNNs' VC dimension using the number of colors produced by the $1\text{-}\mathsf{WL}$. Secondly, when an upper bound on the graphs' order is known, we show a tight connection between the number of graphs distinguishable by the $1\text{-}\mathsf{WL}$ and GNNs' VC dimension. Our empirical study confirms the validity of our theoretical findings.
翻訳日:2023-05-31 11:53:55 公開日:2023-05-30
# ボルツマン密度間の補間学習

Learning Interpolations between Boltzmann Densities ( http://arxiv.org/abs/2301.07388v5 )

ライセンス: Link先を確認
B\'alint M\'at\'e, Fran\c{c}ois Fleuret(参考訳) 本研究では, サンプルの有無ではなく, エネルギー関数の存在下で使用可能な連続正規化フローのトレーニング目標を提案する。 目的エネルギー$f_1$と一般化されたガウス$f_0(x) = ||x/\sigma||_p^p$のエネルギー関数の間の所定あるいは学習した補間$f_t$に依存する。 エネルギー関数の補間はボルツマン密度$p_t \propto e^{-f_t}$の補間を誘導し、密度のファミリー$p_t$に沿ってサンプルを輸送する時間依存ベクトル場$V_t$を求める。 関数 $p_t$ に沿ってサンプルを運ぶ条件は、$v_t$ と $p_t = z_t^{-1}e^{-f_t}$ の連続式を満たす条件と等価である。 したがって、この偏微分方程式を満たすために、$V_t$と$f_t$を最適化する。 提案した学習目標とガウス混合物の逆KL偏差と量子力学粒子のボルツマン密度を二重ポテンシャルで比較した。

We introduce a training objective for continuous normalizing flows that can be used in the absence of samples but in the presence of an energy function. Our method relies on either a prescribed or a learnt interpolation $f_t$ of energy functions between the target energy $f_1$ and the energy function of a generalized Gaussian $f_0(x) = ||x/\sigma||_p^p$. The interpolation of energy functions induces an interpolation of Boltzmann densities $p_t \propto e^{-f_t}$ and we aim to find a time-dependent vector field $V_t$ that transports samples along the family $p_t$ of densities. The condition of transporting samples along the family $p_t$ is equivalent to satisfying the continuity equation with $V_t$ and $p_t = Z_t^{-1}e^{-f_t}$. Consequently, we optimize $V_t$ and $f_t$ to satisfy this partial differential equation. We experimentally compare the proposed training objective to the reverse KL-divergence on Gaussian mixtures and on the Boltzmann density of a quantum mechanical particle in a double-well potential.
翻訳日:2023-05-31 11:53:28 公開日:2023-05-30
# 言語モデルを信頼しないとき-パラメトリックおよび非パラメトリック記憶の有効性の検討

When Not to Trust Language Models: Investigating Effectiveness of Parametric and Non-Parametric Memories ( http://arxiv.org/abs/2212.10511v3 )

ライセンス: Link先を確認
Alex Mallen, Akari Asai, Victor Zhong, Rajarshi Das, Daniel Khashabi, Hannaneh Hajishirzi(参考訳) 大きな言語モデル(LM)は、多種多様なタスクにおける印象的なパフォーマンスにもかかわらず、豊かな世界の知識を必要とするタスクに苦戦し、豊富な世界の知識を符号化するためにパラメータのみに依存するという制限を暗示している。 本稿では,10モデルと4つの拡張手法を用いた大規模知識探索実験をPopQA上で実施することにより,事実知識の記憶におけるLMの強みと限界を理解することを目的とする。 LMは、あまり一般的でない事実知識に苦しむとともに、長期にわたる事実知識の記憶の改善に失敗する。 そして, 検索拡張されたLMは, 大容量のLMよりもはるかに優れており, 高人気エンティティに関する問題では, LMの非支援が競争力を維持していることを示す。 これらの結果に基づき,非パラメトリック記憶を必要時にのみ検索できる,強力かつ効率的な検索型lms法を考案した。 実験結果から,モデルの性能が大幅に向上し,推論コストが低減された。

Despite their impressive performance on diverse tasks, large language models (LMs) still struggle with tasks requiring rich world knowledge, implying the limitations of relying solely on their parameters to encode a wealth of world knowledge. This paper aims to understand LMs' strengths and limitations in memorizing factual knowledge, by conducting large-scale knowledge probing experiments of 10 models and 4 augmentation methods on PopQA, our new open-domain QA dataset with 14k questions. We find that LMs struggle with less popular factual knowledge, and that scaling fails to appreciably improve memorization of factual knowledge in the long tail. We then show that retrieval-augmented LMs largely outperform orders of magnitude larger LMs, while unassisted LMs remain competitive in questions about high-popularity entities. Based on those findings, we devise a simple, yet effective, method for powerful and efficient retrieval-augmented LMs, which retrieves non-parametric memories only when necessary. Experimental results show that this significantly improves models' performance while reducing the inference costs.
翻訳日:2023-05-31 11:53:04 公開日:2023-05-30
# スケールにまたがる言語モデルの訓練軌跡

Training Trajectories of Language Models Across Scales ( http://arxiv.org/abs/2212.09803v3 )

ライセンス: Link先を確認
Mengzhou Xia, Mikel Artetxe, Chunting Zhou, Xi Victoria Lin, Ramakanth Pasunuru, Danqi Chen, Luke Zettlemoyer, Ves Stoyanov(参考訳) 言語モデルのスケールアップは前例のないパフォーマンス向上につながったが、モデルが大きくなるにつれてトレーニングのダイナミクスがどのように変化するかはほとんど分かっていない。 異なるサイズの言語モデルは事前学習中にどのように学習するか? より大きな言語モデルはなぜ望ましい振る舞いを示すのか? 本稿では,様々なサイズのオプティモデル(zhang et al.,2022)の中間トレーニングチェックポイントを125mから175bのパラメータで分析し,次の予測,シーケンスレベル生成,ダウンストリームタスクについて検討した。 私たちはそれを見つけ 1) 所定の難易度及びモデルサイズに依存しない場合において、同様の訓練トークンのサブセットは、損失の最も顕著な減少を示し、残りは停滞又は二重発振を示す。 2) 訓練の早い段階で,すべてのモデルは,幻覚を含む文法的配列の難易度を低下させ,この準最適分布で小さなモデルが停止し,より大きなモデルが最終的にこれらの配列を低い確率で割り当てることを学ぶ。 3) パープレキシティは,BIG-Benchの74種類の複数選択タスクにおいて,コンテキスト内学習性能の強い予測因子であり,モデルサイズに依存しない。 これらの結果から,パープレキシティはモデルサイズやトレーニング計算よりもモデル行動の予測性が高いことが示された。

Scaling up language models has led to unprecedented performance gains, but little is understood about how the training dynamics change as models get larger. How do language models of different sizes learn during pre-training? Why do larger language models demonstrate more desirable behaviors? In this paper, we analyze the intermediate training checkpoints of differently sized OPT models (Zhang et al.,2022)--from 125M to 175B parameters--on next-token prediction, sequence-level generation, and downstream tasks. We find that 1) at a given perplexity and independent of model sizes, a similar subset of training tokens see the most significant reduction in loss, with the rest stagnating or showing double-descent behavior; 2) early in training, all models learn to reduce the perplexity of grammatical sequences that contain hallucinations, with small models halting at this suboptimal distribution and larger ones eventually learning to assign these sequences lower probabilities; 3) perplexity is a strong predictor of in-context learning performance on 74 multiple-choice tasks from BIG-Bench, and this holds independent of the model size. Together, these results show that perplexity is more predictive of model behaviors than model size or training computation.
翻訳日:2023-05-31 11:52:45 公開日:2023-05-30
# ファインチューニングとインコンテキスト学習 : 公正な比較と評価

Few-shot Fine-tuning vs. In-context Learning: A Fair Comparison and Evaluation ( http://arxiv.org/abs/2305.16938v2 )

ライセンス: Link先を確認
Marius Mosbach, Tiago Pimentel, Shauli Ravfogel, Dietrich Klakow, Yanai Elazar(参考訳) 事前訓練された言語モデルのタスク適応のための2つの代替戦略として、ファインチューニングとインコンテキスト学習がある。 近年,その単純さとドメイン外一般化の改善により,文脈内学習が微調整よりも人気となり,微調整モデルが急激な相関関係を拾い上げることが証明されている。 残念ながら、2つのアプローチの以前の比較は、異なるサイズのモデルを使用して行われた。 これにより、観測された細調整されたモデルのより弱い領域外一般化が、微調整の固有の性質であるか、または実験装置の制限なのかという疑問が提起される。 本稿では,データセットに挑戦し,使用したモデル,サンプル数,パラメータ数を125Mから30Bの範囲で制御しながら,少数ショットの微調整と文脈内学習の一般化を比較した。 この結果から,微調整言語モデルがドメイン外をうまく一般化できることが示唆された。 それらは大きな変動を示し、モデルのサイズやサンプル数などの特性に依存しており、堅牢なタスク適応が依然として課題であることを示している。

Few-shot fine-tuning and in-context learning are two alternative strategies for task adaptation of pre-trained language models. Recently, in-context learning has gained popularity over fine-tuning due to its simplicity and improved out-of-domain generalization, and because extensive evidence shows that fine-tuned models pick up on spurious correlations. Unfortunately, previous comparisons of the two approaches were done using models of different sizes. This raises the question of whether the observed weaker out-of-domain generalization of fine-tuned models is an inherent property of fine-tuning or a limitation of the experimental setup. In this paper, we compare the generalization of few-shot fine-tuning and in-context learning to challenge datasets, while controlling for the models used, the number of examples, and the number of parameters, ranging from 125M to 30B. Our results show that fine-tuned language models can in fact generalize well out-of-domain. We find that both approaches generalize similarly; they exhibit large variation and depend on properties such as model size and the number of examples, highlighting that robust task adaptation remains a challenge.
翻訳日:2023-05-31 11:44:33 公開日:2023-05-30
# 測定不整合性は外乱よりも強い

Measurement incompatibility is strictly stronger than disturbance ( http://arxiv.org/abs/2305.16931v3 )

ライセンス: Link先を確認
Marco Erba, Paolo Perinotti, Davide Rolino, Alessandro Tosini(参考訳) 有名な$\gamma$-ray microscope $\textit{Gedankenexperiment}$を含む、不確実性原理に関するハイゼンベルクの主張の核心は、それらが作用する系の状態を不可逆的に変化させる測定の存在であり、その後の測定で不可逆的な乱れを引き起こす。 この議論は、非互換な測定の存在、すなわち共同で実行できない測定の存在を正当化するために進められた。 一方,本書では,不和が乱れの十分な条件であることを示す説得力のある論証を提示する一方で,逆含みの反例である玩具理論を示す。

The core of Heisenberg's argument for the uncertainty principle, involving the famous $\gamma$-ray microscope $\textit{Gedankenexperiment}$, consists in the existence of measurements that irreversibly alter the state of the system on which they are acting, causing an irreducible disturbance on subsequent measurements. The argument was put forward to justify the existence of incompatible measurements, namely, measurements that cannot be performed jointly. In this Letter, on the one hand, we provide a compelling argument showing that incompatibility is indeed a sufficient condition for disturbance, while, on the other hand, we exhibit a toy theory that is a counterexample for the converse implication.
翻訳日:2023-05-31 11:44:13 公開日:2023-05-30
# PlaNeRF: SVD非教師型3次元平面規則化による大規模シーン再構成

PlaNeRF: SVD Unsupervised 3D Plane Regularization for NeRF Large-Scale Scene Reconstruction ( http://arxiv.org/abs/2305.16914v2 )

ライセンス: Link先を確認
Fusang Wang, Arnaud Louys, Nathan Piasco, Moussab Bennehar, Luis Rold\~ao, Dzmitry Tsishkou(参考訳) neural radiance fields (nerf) は2次元画像からの3次元シーン再構成を可能にする。 NeRFはフォトリアリスティックな結果を生み出すことができるが、しばしばトレーニングビューに過度に適合し、特に低テクスチュア領域において幾何再構成が不十分になる。 この制限は、外挿されたnvs、hdマッピング、シーン編集など、正確な幾何を必要とする多くの重要なアプリケーションを制限する。 そこで本研究では,RGB画像とセマンティックマップのみを用いて,NeRFの3次元構造を改善する手法を提案する。 本手法では,幾何的事前に依存しない特異値分解(SVD)に基づく新しい平面正規化を導入する。 さらに、損失設計における構造類似度指標(SSIM)を利用して、NeRFの体積表現を適切に初期化する。 KITTI-360 NVSベンチマークにおいて,大規模屋外シーンの正確な形状再構成において,本手法が一般的な正規化手法より優れ,SoTAレンダリング品質が向上していることを示す。

Neural Radiance Fields (NeRF) enable 3D scene reconstruction from 2D images and camera poses for Novel View Synthesis (NVS). Although NeRF can produce photorealistic results, it often suffers from overfitting to training views, leading to poor geometry reconstruction, especially in low-texture areas. This limitation restricts many important applications which require accurate geometry, such as extrapolated NVS, HD mapping and scene editing. To address this limitation, we propose a new method to improve NeRF's 3D structure using only RGB images and semantic maps. Our approach introduces a novel plane regularization based on Singular Value Decomposition (SVD), that does not rely on any geometric prior. In addition, we leverage the Structural Similarity Index Measure (SSIM) in our loss design to properly initialize the volumetric representation of NeRF. Quantitative and qualitative results show that our method outperforms popular regularization approaches in accurate geometry reconstruction for large-scale outdoor scenes and achieves SoTA rendering quality on the KITTI-360 NVS benchmark.
翻訳日:2023-05-31 11:43:43 公開日:2023-05-30
# GenQ: 子どもと物語を読みながら、介護者を支援する自動質問生成

GenQ: Automated Question Generation to Support Caregivers While Reading Stories with Children ( http://arxiv.org/abs/2305.16809v2 )

ライセンス: Link先を確認
Arun Balajiee Lekshmi Narayanan, Ligia E. Gomez, Martha Michelle Soto Fernandez, Tri Nguyen, Chris Blais, M. Adelaida Restrepo, Art Glenberg(参考訳) 介護者が子どもとの対話を動機付けるためにオープンエンドの質問をすると、子どもの読書理解スキルが促進されるが、ここで言う「知的な学習システム」と呼ばれる技術ツールの使用のスコープがあるものの、現在、人間の言語のような質問を生成する既存の知的システムが有用かどうかは不明である。 さらに、これらの自動質問生成システムの開発に使用されるトレーニングデータは通常、人口統計学に注意を払わずにソースされるが、異なる文化的背景を持つ人々は異なる質問をすることができる。 ラテン系子どもたちのためのインテリジェントな読書支援アプリを設計する、より広いプロジェクトの一環として、ラテン系介護者や非介護者、他の人口層からの介護者や非介護者からの質問をクラウドソースしました。 個人的,文化的,文脈的要因を媒介とするデータセットにおける質問行動の多様性について検討し,そのデータからテンプレートを自動的に抽出し,ラテン系介護者の質問に代表されるオープンエンドな質問を生成するシステムを設計する。

When caregivers ask open--ended questions to motivate dialogue with children, it facilitates the child's reading comprehension skills.Although there is scope for use of technological tools, referred here as "intelligent tutoring systems", to scaffold this process, it is currently unclear whether existing intelligent systems that generate human--language like questions is beneficial. Additionally, training data used in the development of these automated question generation systems is typically sourced without attention to demographics, but people with different cultural backgrounds may ask different questions. As a part of a broader project to design an intelligent reading support app for Latinx children, we crowdsourced questions from Latinx caregivers and noncaregivers as well as caregivers and noncaregivers from other demographics. We examine variations in question--asking within this dataset mediated by individual, cultural, and contextual factors. We then design a system that automatically extracts templates from this data to generate open--ended questions that are representative of those asked by Latinx caregivers.
翻訳日:2023-05-31 11:43:23 公開日:2023-05-30
# GPTはリテラル翻訳が少ないか?

Do GPTs Produce Less Literal Translations? ( http://arxiv.org/abs/2305.16806v2 )

ライセンス: Link先を確認
Vikas Raunak, Arul Menezes, Matt Post, Hany Hassan Awadallah(参考訳) GPT-3のような大規模言語モデル(LLM)は多くの自然言語生成や理解タスクに対処できる汎用言語モデルとして登場した。 機械翻訳のタスク(mt)では、複数の作品がllmからの翻訳を改善するために、数発のプロンプト機構を調査した。 しかし, 標準的なニューラル機械翻訳(NMT)モデルによる翻訳と, それらの翻訳が質的にどう異なるかは, 比較的研究されていない。 本研究では,この2つのシステムによる翻訳のリテラル性の観点から,これらの差異について検討する。 単語アライメントと単調性を含むリテラルネス尺度を用いて、GPTからの英語(E-X)からの翻訳はリテラルが低い傾向にあり、MTの品質指標に類似あるいはより良いスコアが現れる。 我々は、この発見が人間の評価にも反映されていることを実証する。 その結果,慣用的な表現を含む文を翻訳する場合,これらの差異は特に顕著であることがわかった。

Large Language Models (LLMs) such as GPT-3 have emerged as general-purpose language models capable of addressing many natural language generation or understanding tasks. On the task of Machine Translation (MT), multiple works have investigated few-shot prompting mechanisms to elicit better translations from LLMs. However, there has been relatively little investigation on how such translations differ qualitatively from the translations generated by standard Neural Machine Translation (NMT) models. In this work, we investigate these differences in terms of the literalness of translations produced by the two systems. Using literalness measures involving word alignment and monotonicity, we find that translations out of English (E-X) from GPTs tend to be less literal, while exhibiting similar or better scores on MT quality metrics. We demonstrate that this finding is borne out in human evaluations as well. We then show that these differences are especially pronounced when translating sentences that contain idiomatic expressions.
翻訳日:2023-05-31 11:43:00 公開日:2023-05-30
# ヘテロフィリーを用いたグラフ神経対流拡散

Graph Neural Convection-Diffusion with Heterophily ( http://arxiv.org/abs/2305.16780v2 )

ライセンス: Link先を確認
Kai Zhao, Qiyu Kang, Yang Song, Rui She, Sijie Wang and Wee Peng Tay(参考訳) グラフニューラルネットワーク(gnns)は、さまざまなグラフ学習タスクで有望な結果を示しているが、相同性がしばしば仮定されるため、親水性グラフではパフォーマンスが低下する可能性がある。 連結ノードは異なるクラスからのものであるか、異種グラフ上の異種特徴を持つ可能性が高い。 本稿では, 対流拡散方程式(CDE)を用いてノード上の情報の流れをモデル化し, ヘテロフィリエの原理を取り入れた新しいGNNを提案する。 これにより、CDEはホモフィリによる情報の拡散とヘテロフィリによる情報の「対流」の両方を考慮することができる。 提案手法は,親和性グラフのノード分類タスクにおいて,最先端の手法と比較して競合性能を発揮できることを示唆する。 コードは \url{https://github.com/zknus/Graph-Diffusion-CDE} で公開されている。

Graph neural networks (GNNs) have shown promising results across various graph learning tasks, but they often assume homophily, which can result in poor performance on heterophilic graphs. The connected nodes are likely to be from different classes or have dissimilar features on heterophilic graphs. In this paper, we propose a novel GNN that incorporates the principle of heterophily by modeling the flow of information on nodes using the convection-diffusion equation (CDE). This allows the CDE to take into account both the diffusion of information due to homophily and the ``convection'' of information due to heterophily. We conduct extensive experiments, which suggest that our framework can achieve competitive performance on node classification tasks for heterophilic graphs, compared to the state-of-the-art methods. The code is available at \url{https://github.com/zknus/Graph-Diffusion-CDE}.
翻訳日:2023-05-31 11:42:44 公開日:2023-05-30
# 自由電子レーザー放射の量子記述と非線形振幅方程式

Quantum Description of Free Electron Laser Radiation and Nonlinear Amplitude Equations ( http://arxiv.org/abs/2305.16761v2 )

ライセンス: Link先を確認
Stephan I. Tzenov and Zhichu Chen(参考訳) 量子FEL力学を記述する相対論的量子力学モデルを開発した。 衝突するビーム内の電子のスピンを無視したこのモデルは、空間電荷ポテンシャルのポアソン方程式と放射場の横成分の波動方程式とを結合したクライン・ゴルドン方程式に基づいている。 さらに、電子ビーム分布と放射磁場のゆっくりと変化する振幅に対する非線形エンベロープ方程式の結合式が導出されている。 基本方程式の基本系は適切な流体力学定式化にキャスティングされている。 流体力学表現の枠組みでは、電子ビームの空間電荷振動を考慮した量子と準古典的状態の両方において、新しい分散関係が導かれ、解析されている。

A relativistic quantum mechanical model to describe the quantum FEL dynamics has been developed. Neglecting the spin of electrons in the impacting beam, this model is based on the Klein-Gordon equation coupled to the Poisson equation for the space-charge potential and the wave equation for the transverse components of the radiation field. Furthermore, a system of coupled nonlinear envelope equations for the slowly varying amplitudes of the electron beam distribution and the radiation field has been derived. The fundamental system of basic equations have been cast into a suitable hydrodynamic formulation. In the framework of the hydrodynamic representation, a new dispersion relation has been derived and analyzed in both the quantum and the quasi-classical regimes, where the space-charge oscillations of the electron beam are taken into account.
翻訳日:2023-05-31 11:42:29 公開日:2023-05-30
# 包括的かつバイアス対応の人道的応答エントリー分類のためのドメイン知識の活用

Leveraging Domain Knowledge for Inclusive and Bias-aware Humanitarian Response Entry Classification ( http://arxiv.org/abs/2305.16756v2 )

ライセンス: Link先を確認
Nicol\`o Tamagnone, Selim Fekih, Ximena Contla, Nayid Orozco, Navid Rekabsaz(参考訳) 人道的危機時の正確かつ迅速な状況分析は、人道的援助を効果的に提供するために重要であり、人道的衝動とLeave No One Behind(LNOB)の原則に根ざしている。 このデータ分析は、例えば人道的オントロジーに従ってテキストデータを分類することで、言語処理システムから大きな恩恵を受けることができる。 しかし、汎用的な大規模言語モデル(LLM)を微調整するだけでこれに取り組むには、特にデータスパースや複雑なサブドメインの有効性の欠如、社会的バイアスや望ましくない関連性の符号化など、かなり実践的で倫理的な問題が発生する。 本研究では,人道的データ分析のための効果的かつ倫理的なシステムの提供を目的とする。 本研究では,(1)人道的分析フレームワークに適応した新しいアーキテクチャの導入,(2)HumBertと呼ばれる人道的なLLMの作成とリリース,(3)バイアスを計測・緩和する体系的な方法を提案する。 実験結果から,ゼロショットおよびフルトレーニング環境において,強いベースラインモデルと比較して,提案手法の性能が向上し,結果のllmにおけるバイアスの存在も明らかとなった。 対象とする反事実データ拡張手法を用いて,性能を損なうことなく,これらのバイアスを著しく低減する。

Accurate and rapid situation analysis during humanitarian crises is critical to delivering humanitarian aid efficiently and is fundamental to humanitarian imperatives and the Leave No One Behind (LNOB) principle. This data analysis can highly benefit from language processing systems, e.g., by classifying the text data according to a humanitarian ontology. However, approaching this by simply fine-tuning a generic large language model (LLM) involves considerable practical and ethical issues, particularly the lack of effectiveness on data-sparse and complex subdomains, and the encoding of societal biases and unwanted associations. In this work, we aim to provide an effective and ethically-aware system for humanitarian data analysis. We approach this by (1) introducing a novel architecture adjusted to the humanitarian analysis framework, (2) creating and releasing a novel humanitarian-specific LLM called HumBert, and (3) proposing a systematic way to measure and mitigate biases. Our experiments' results show the better performance of our approach on zero-shot and full-training settings in comparison with strong baseline models, while also revealing the existence of biases in the resulting LLMs. Utilizing a targeted counterfactual data augmentation approach, we significantly reduce these biases without compromising performance.
翻訳日:2023-05-31 11:42:18 公開日:2023-05-30
# ナレッジデザイン:ナレッジリファインメントによるタンパク質設計の限界を押し上げる

Knowledge-Design: Pushing the Limit of Protein Design via Knowledge Refinement ( http://arxiv.org/abs/2305.15151v4 )

ライセンス: Link先を確認
Zhangyang Gao, Cheng Tan, Stan Z. Li(参考訳) 近年の研究では、アミノ酸配列を所望の構造に折りたたむことを目的としたタンパク質設計における競合性が示されている。 しかし、その多くは予測信頼の重要性を無視し、広大なタンパク質空間をカバーできず、共通のタンパク質知識を取り入れていない。 タンパク質関連タスクにおける事前学習モデルの成功と、リカバリが信頼と非常に相関しているという事実を目撃した後、この知識がタンパク質設計の限界をさらに推し進めるかどうか疑問である。 そこで,我々は,低品質残基を洗練する知識認識モジュールを提案する。 また、トレーニング時間の50%以上を節約するメモリ検索機構も導入しました。 提案手法をCATH, TS50, TS500データセット上で広範囲に評価した結果, 知識設計法は従来のPiFold手法よりも約9倍高い性能を示した。 具体的には、知識設計はCATH、TS50、TS500ベンチマークで60%以上のリカバリを達成する最初の方法である。 また,提案手法の有効性を示すための追加分析を行った。 コードは公開される予定だ。

Recent studies have shown competitive performance in protein design that aims to find the amino acid sequence folding into the desired structure. However, most of them disregard the importance of predictive confidence, fail to cover the vast protein space, and do not incorporate common protein knowledge. After witnessing the great success of pretrained models on diverse protein-related tasks and the fact that recovery is highly correlated with confidence, we wonder whether this knowledge can push the limits of protein design further. As a solution, we propose a knowledge-aware module that refines low-quality residues. We also introduce a memory-retrieval mechanism to save more than 50\% of the training time. We extensively evaluate our proposed method on the CATH, TS50, and TS500 datasets and our results show that our Knowledge-Design method outperforms the previous PiFold method by approximately 9\% on the CATH dataset. Specifically, Knowledge-Design is the first method that achieves 60+\% recovery on CATH, TS50 and TS500 benchmarks. We also provide additional analysis to demonstrate the effectiveness of our proposed method. The code will be publicly available.
翻訳日:2023-05-31 11:41:52 公開日:2023-05-30
# 子どもからの学習 : カリキュラムによるイメージキャプチャ事前学習の改善

Learning from Children: Improving Image-Caption Pretraining via Curriculum ( http://arxiv.org/abs/2305.17540v2 )

ライセンス: Link先を確認
Hammad A. Ayyubi, Rahul Lokesh, Alireza Zareian, Bo Wu, Shih-Fu Chang(参考訳) 画像キャプチャ事前トレーニングは、ゼロショット画像分類やオブジェクト検出といった下流の視覚タスクに成功している。 しかし、画像キャプチャの事前トレーニングは依然として難しい問題だ。キャプションから複数の概念(名詞)をイメージ内の複数のオブジェクトに整列させる必要がある。この問題に対処するためには、最良の学習者である子どもたちの根元に進む。 我々は,子どもの言語学習を扱う認知科学研究から着想を得て,カリキュラム学習フレームワークを提案する。 学習は、キャプションごとにひとつの概念を含む画像キャプションペアから始まります。 新しいフェーズごとに、キャプションごとに1つずつ概念を追加することで、難易度が徐々に増加する。 次いで、学習段階ごとに獲得した知識を次の段階に活用し、学習問題を効果的に制約して、各段階に1つの新しい概念と対象のペアを整合させる。 この学習戦略は,事前学習された画像や/および事前学習されたテキストエンコーダ,低データ構造など,さまざまな環境でのバニラ画像キャプチャトレーニングよりも改善されていることを示す。

Image-caption pretraining has been quite successfully used for downstream vision tasks like zero-shot image classification and object detection. However, image-caption pretraining is still a hard problem -- it requires multiple concepts (nouns) from captions to be aligned to several objects in images. To tackle this problem, we go to the roots -- the best learner, children. We take inspiration from cognitive science studies dealing with children's language learning to propose a curriculum learning framework. The learning begins with easy-to-align image caption pairs containing one concept per caption. The difficulty is progressively increased with each new phase by adding one more concept per caption. Correspondingly, the knowledge acquired in each learning phase is utilized in subsequent phases to effectively constrain the learning problem to aligning one new concept-object pair in each phase. We show that this learning strategy improves over vanilla image-caption training in various settings -- pretraining from scratch, using a pretrained image or/and pretrained text encoder, low data regime etc.
翻訳日:2023-05-31 11:36:57 公開日:2023-05-30
# 天国におけるマッチ:ハイパーボイルとメタファー検出のためのマルチタスクフレームワーク

A Match Made in Heaven: A Multi-task Framework for Hyperbole and Metaphor Detection ( http://arxiv.org/abs/2305.17480v2 )

ライセンス: Link先を確認
Naveen Badathala, Abisek Rajakumar Kalarani, Tejpalsingh Siledar, Pushpak Bhattacharyya(参考訳) ハイパーボイルとメタファーは、日々のコミュニケーション(例えば、"i am in deep trouble": how does trouble have depth?)において一般的であり、特に会話型ai環境では、その検出が重要である。 メタファとハイパーボイルを自動的に検出する既存のアプローチは、これらの言語現象を独立に研究してきたが、それらの関係が計算的に研究されることはなかった。 本稿では,ハイパーボラとメタファを同時に検出するマルチタスク深層学習フレームワークを提案する。 我々はメタファがハイパボラ検出に役立ち、その逆を仮定する。 この仮説をテストするために,2つのハイパボラデータセット(HYPOとHYPO-L)をメタファーラベルで注釈付けする。 同時に、2つのメタファデータセット、TroFi と LCC をハイパボレラベルで注釈付けする。 これらのデータセットを用いた実験は、ハイパーボールの検出技術の現状を12%改善する。 さらに、マルチタスク学習(MTL)アプローチでは、ハイパボラとメタファ検出の両方において、シングルタスク学習(STL)よりも最大17%改善し、仮説を支持しています。 我々の知る限りでは、メタファーとハイパーボールの言語親和性を利用した計算の初めての実証であり、ハイパーボールのSTLよりもMTLの方が優れていることを示す。

Hyperbole and metaphor are common in day-to-day communication (e.g., "I am in deep trouble": how does trouble have depth?), which makes their detection important, especially in a conversational AI setting. Existing approaches to automatically detect metaphor and hyperbole have studied these language phenomena independently, but their relationship has hardly, if ever, been explored computationally. In this paper, we propose a multi-task deep learning framework to detect hyperbole and metaphor simultaneously. We hypothesize that metaphors help in hyperbole detection, and vice-versa. To test this hypothesis, we annotate two hyperbole datasets- HYPO and HYPO-L- with metaphor labels. Simultaneously, we annotate two metaphor datasets- TroFi and LCC- with hyperbole labels. Experiments using these datasets give an improvement of the state of the art of hyperbole detection by 12%. Additionally, our multi-task learning (MTL) approach shows an improvement of up to 17% over single-task learning (STL) for both hyperbole and metaphor detection, supporting our hypothesis. To the best of our knowledge, ours is the first demonstration of computational leveraging of linguistic intimacy between metaphor and hyperbole, leading to showing the superiority of MTL over STL for hyperbole and metaphor detection.
翻訳日:2023-05-31 11:36:36 公開日:2023-05-30
# $\ell_1-\ell_2$最適化による構造モデル選択

Structured model selection via $\ell_1-\ell_2$ optimization ( http://arxiv.org/abs/2305.17467v2 )

ライセンス: Link先を確認
Xiaofan Lu, Linan Zhang and Hongjin He(参考訳) 自動モデル選択は科学と工学において重要な応用である。 本研究では,アンダーサンプルとノイズのある時空間データから構造化力学系を同定する学習手法を開発する。 非凸$\ell_1-\ell_2$スパース最適化を乗算器の交互方向法で解くことにより、多数の候補関数に対してスパース最小二乗法により学習を行う。 コヒーレンス条件を持つベルンシュタイン的不等式を用いて、候補関数の集合が有界直交系の構造化ランダムサンプリング行列を形成する場合、回復は安定であり、誤差は有界であることを示す。 学習アプローチは、粘性バーガース方程式と2つの反応拡散方程式によって生成された合成データに基づいて検証される。 計算結果は, 環境次元と候補関数数に関して, 成功の理論的保証と効率を示す。

Automated model selection is an important application in science and engineering. In this work, we develop a learning approach for identifying structured dynamical systems from undersampled and noisy spatiotemporal data. The learning is performed by a sparse least-squares fitting over a large set of candidate functions via a nonconvex $\ell_1-\ell_2$ sparse optimization solved by the alternating direction method of multipliers. Using a Bernstein-like inequality with a coherence condition, we show that if the set of candidate functions forms a structured random sampling matrix of a bounded orthogonal system, the recovery is stable and the error is bounded. The learning approach is validated on synthetic data generated by the viscous Burgers' equation and two reaction-diffusion equations. The computational results demonstrate the theoretical guarantees of success and the efficiency with respect to the ambient dimension and the number of candidate functions.
翻訳日:2023-05-31 11:36:13 公開日:2023-05-30
# 逆損失と遷移を考慮したオンライン強化学習

No-Regret Online Reinforcement Learning with Adversarial Losses and Transitions ( http://arxiv.org/abs/2305.17380v2 )

ライセンス: Link先を確認
Tiancheng Jin, Junyan Liu, Chlo\'e Rouyer, William Chang, Chen-Yu Wei, Haipeng Luo(参考訳) 既存の対戦型マルコフ決定過程のオンライン学習アルゴリズムは、もし損失関数が敵によって任意に選択されたとしても、その遷移関数が固定されなければならないという注意を払っても、$T$の相互作用の後に${O}(\sqrt{T})$後悔を達成する。 これは、対向遷移関数が非回帰学習を不可能にすることが示されているためである。 このような不合理な結果にもかかわらず、本研究では、敵の悪意の程度で後悔がスムーズに増加し、敵の損失と敵の遷移の両方を処理できるアルゴリズムを開発する。 より具体的には、まず、$\widetilde{O}}(\sqrt{T} + C^{\textsf{P}})$ regret ここで、$C^{\textsf{P}}$は、遷移関数がいかに敵対的であり、少なくとも${O}(T)$であるかを測るアルゴリズムを提案する。 このアルゴリズム自体は$c^{\textsf{p}}$の知識を必要とするが、我々はこの要件を取り除くブラックボックス還元アプローチをさらに開発する。 さらに、アルゴリズムのさらなる改良は、同じ後悔境界を維持するだけでなく、より簡単な環境(Jin et al. [2021] のような確率的に制約された方法で損失が発生する)にも同時に適応し、$\widetilde{O}}(U + \sqrt{UCUCtextsf{L}}} + C^{\textsf{P}})$ regret, ここで$U$は標準的なギャップ依存係数であり、$C^{\textsf{L}}$は損失の破損量であることを示す。

Existing online learning algorithms for adversarial Markov Decision Processes achieve ${O}(\sqrt{T})$ regret after $T$ rounds of interactions even if the loss functions are chosen arbitrarily by an adversary, with the caveat that the transition function has to be fixed. This is because it has been shown that adversarial transition functions make no-regret learning impossible. Despite such impossibility results, in this work, we develop algorithms that can handle both adversarial losses and adversarial transitions, with regret increasing smoothly in the degree of maliciousness of the adversary. More concretely, we first propose an algorithm that enjoys $\widetilde{{O}}(\sqrt{T} + C^{\textsf{P}})$ regret where $C^{\textsf{P}}$ measures how adversarial the transition functions are and can be at most ${O}(T)$. While this algorithm itself requires knowledge of $C^{\textsf{P}}$, we further develop a black-box reduction approach that removes this requirement. Moreover, we also show that further refinements of the algorithm not only maintains the same regret bound, but also simultaneously adapts to easier environments (where losses are generated in a certain stochastically constrained manner as in Jin et al. [2021]) and achieves $\widetilde{{O}}(U + \sqrt{UC^{\textsf{L}}} + C^{\textsf{P}})$ regret, where $U$ is some standard gap-dependent coefficient and $C^{\textsf{L}}$ is the amount of corruption on losses.
翻訳日:2023-05-31 11:35:58 公開日:2023-05-30
# kernel-ssl: 自己教師付き学習のためのカーネルklダイバージェンス

Kernel-SSL: Kernel KL Divergence for Self-Supervised Learning ( http://arxiv.org/abs/2305.17326v2 )

ライセンス: Link先を確認
Yifan Zhang, Zhiquan Tan, Jingqin Yang, Yang Yuan(参考訳) 対照的な学習は通常、1つの正のアンカーサンプルと多くの負のサンプルを比較して自己監督学習(SSL)を実行する。 あるいは、BYOL、SimSiam、Barlow Twinsといった手法で実証された非コントラスト学習は、負のサンプルを明示的に使用せずにSSLを達成する。 コントラスト学習のための既存の解析に触発されて、既存の多くの非矛盾学習法を再現するカーネルヒルベルト空間(rkhs)を提供する。 次に、RKHS内の平均埋め込みと共分散演算子を直接最適化する新しい損失関数Kernel-SSLを提案する。 実験では,Kernel-SSL法は,線形評価条件下でのImageNetデータセットにおいて,最先端の手法よりも高い性能を示した。 具体的には,100エポックの事前学習を行う場合,SimCLRが4.6%向上する。

Contrastive learning usually compares one positive anchor sample with lots of negative samples to perform Self-Supervised Learning (SSL). Alternatively, non-contrastive learning, as exemplified by methods like BYOL, SimSiam, and Barlow Twins, accomplishes SSL without the explicit use of negative samples. Inspired by the existing analysis for contrastive learning, we provide a reproducing kernel Hilbert space (RKHS) understanding of many existing non-contrastive learning methods. Subsequently, we propose a novel loss function, Kernel-SSL, which directly optimizes the mean embedding and the covariance operator within the RKHS. In experiments, our method Kernel-SSL outperforms state-of-the-art methods by a large margin on ImageNet datasets under the linear evaluation settings. Specifically, when performing 100 epochs pre-training, our method outperforms SimCLR by 4.6%.
翻訳日:2023-05-31 11:34:58 公開日:2023-05-30
# VoxDet: 新しいインスタンス検出のためのVoxel Learning

VoxDet: Voxel Learning for Novel Instance Detection ( http://arxiv.org/abs/2305.17220v2 )

ライセンス: Link先を確認
Bowen Li, Jiashun Wang, Yaoyu Hu, Chen Wang, Sebastian Scherer(参考訳) マルチビューテンプレートに基づくunseenインスタンスの検出は、そのオープンワールドの性質上、難しい問題である。 2次元表現とマッチング技術に主に依存する伝統的な方法論は、ポーズのバリエーションやオクルージョンを扱うのに不十分であることが多い。 この問題を解決するために,我々は,強力な3次元ボクセル表現と信頼性の高いボクセルマッチング機構をフルに活用した,先駆的な3次元幾何認識フレームワークvoxdetを紹介する。 VoxDetはまず、マルチビュー2D画像を効果的に3Dボクセル特徴に変換するテンプレートボクセルアグリゲーション(TVA)モジュールを提案する。 関連するカメラポーズを活用することで、これらの機能はコンパクトな3dテンプレートvoxelに集約される。 新規なインスタンス検出では、このボクセル表現は閉塞に対する抵抗性を高め、変動を生じさせる。 また,TVAの2D-3Dマッピングを事前学習する上で,3次元再構成の目的が有効であることが判明した。 次に、VoxDetはテンプレートのvoxelと迅速に連携するために、Query Voxel Matching (QVM)モジュールを組み込んでいる。 2dクエリはまず、学習した2d-3dマッピングでvoxel表現に変換される。 3次元ボクセル表現は幾何学をエンコードするので、まず相対回転を推定し、配置されたボクセルを比較することで精度と効率が向上する。 要求されるLineMod-Occlusion、YCB-video、新たに構築されたRoboToolsベンチマークにおいて、VoxDetはリコール率20%、高速な2Dベースラインを著しく上回っている。 私たちの知識を最大限に活用するために、VoxDetは暗黙の3D知識を2Dタスクに取り入れた最初の企業です。

Detecting unseen instances based on multi-view templates is a challenging problem due to its open-world nature. Traditional methodologies, which primarily rely on 2D representations and matching techniques, are often inadequate in handling pose variations and occlusions. To solve this, we introduce VoxDet, a pioneer 3D geometry-aware framework that fully utilizes the strong 3D voxel representation and reliable voxel matching mechanism. VoxDet first ingeniously proposes template voxel aggregation (TVA) module, effectively transforming multi-view 2D images into 3D voxel features. By leveraging associated camera poses, these features are aggregated into a compact 3D template voxel. In novel instance detection, this voxel representation demonstrates heightened resilience to occlusion and pose variations. We also discover that a 3D reconstruction objective helps to pre-train the 2D-3D mapping in TVA. Second, to quickly align with the template voxel, VoxDet incorporates a Query Voxel Matching (QVM) module. The 2D queries are first converted into their voxel representation with the learned 2D-3D mapping. We find that since the 3D voxel representations encode the geometry, we can first estimate the relative rotation and then compare the aligned voxels, leading to improved accuracy and efficiency. Exhaustive experiments are conducted on the demanding LineMod-Occlusion, YCB-video, and the newly built RoboTools benchmarks, where VoxDet outperforms various 2D baselines remarkably with 20% higher recall and faster speed. To the best of our knowledge, VoxDet is the first to incorporate implicit 3D knowledge for 2D tasks.
翻訳日:2023-05-31 11:34:43 公開日:2023-05-30
# mldr.resampling:マルチラベル再サンプリングアルゴリズムの効率的な参照実装

mldr.resampling: Efficient Reference Implementations of Multilabel Resampling Algorithms ( http://arxiv.org/abs/2305.17152v2 )

ライセンス: Link先を確認
Antonio J. Rivera, Miguel A. D\'avila, David Elizondo, Mar\'ia J. del Jesus, Francisco Charte(参考訳) 再サンプリングアルゴリズムは、マルチラベルシナリオにおける不均衡学習を扱うための有用なアプローチである。 これらの方法は、同じ事例において頻繁かつ頻繁なラベルの発生など、マルチラベルデータの特異点を扱う必要がある。 これらの手法の実装は、著者が論文で提供している擬似コードに制限されることがある。 このオリジナルソフトウェアパブリケーションは mldr.resampling という,11個のマルチラベルリサンプリングメソッドのリファレンス実装を提供するソフトウェアパッケージを提示する。

Resampling algorithms are a useful approach to deal with imbalanced learning in multilabel scenarios. These methods have to deal with singularities in the multilabel data, such as the occurrence of frequent and infrequent labels in the same instance. Implementations of these methods are sometimes limited to the pseudocode provided by their authors in a paper. This Original Software Publication presents mldr.resampling, a software package that provides reference implementations for eleven multilabel resampling methods, with an emphasis on efficiency since these algorithms are usually time-consuming.
翻訳日:2023-05-31 11:34:12 公開日:2023-05-30
# 検索言語モデルを用いた生体データにおけるGPT-3/4結果の精度向上

Improving accuracy of GPT-3/4 results on biomedical data using a retrieval-augmented language model ( http://arxiv.org/abs/2305.17116v2 )

ライセンス: Link先を確認
David Soong, Sriram Sridhar, Han Si, Jan-Samuel Wagner, Ana Caroline Costa S\'a, Christina Y Yu, Kubra Karagoz, Meijian Guan, Hisham Hamadeh, Brandon W Higgs(参考訳) 大規模言語モデル(LLM)は自然言語処理(NLP)に大きな進歩をもたらした。 broad corporaは多様なパターンをキャプチャするが、無関係なパターンを導入することができるが、焦点を合わせると誤解を招く情報を減らすことで信頼性が向上する。 LLMを集中コーパスでトレーニングすることは、計算上の課題を引き起こす。 別のアプローチとして、特定のドメインでテストされた検索拡張(RetA)メソッドを使用する方法がある。 OpenAIのGPT-3, GPT-4, BingのPrometheus, および独自のRetAモデルについて, びまん性大B細胞リンパ腫(DLBCL)19問を比較検討した。 8人の独立したレビュアーが,正確性,妥当性,可読性(評価1-3。 RetAモデルは、12/19の3点スコア、47点、関連13/19, 50点、GPT-4(8/19, 43; 11/19, 49点)の精度が最も高かった。 GPT-4は最高可読性スコア (17/19, 55) を受け、続いて GPT-3 (15/19, 53) と RetA (11/19, 47) が続いた。 prometheusは精度(34)、妥当性(32)、可読性(38)が低かった。 gpt-3.5とgpt-4はいずれもretaモデルとprometheusよりも19反応中より幻覚が多かった。 幻覚は、ほとんどが存在しない参照や効果データと関連していた。 これらの結果から,ドメイン固有コーパスを補足したRetAモデルは,特定のドメイン内での精度および関連性において汎用LLMよりも優れている可能性が示唆された。 しかし、この評価は特定の質問やメトリクスに限られており、セマンティック検索や他のNLPタスクの課題を捉えていない可能性がある。 さらなる研究は、強みと限界をより包括的に評価するための様々なllmアーキテクチャ、reta方法論、評価方法を検討する。

Large language models (LLMs) have made significant advancements in natural language processing (NLP). Broad corpora capture diverse patterns but can introduce irrelevance, while focused corpora enhance reliability by reducing misleading information. Training LLMs on focused corpora poses computational challenges. An alternative approach is to use a retrieval-augmentation (RetA) method tested in a specific domain. To evaluate LLM performance, OpenAI's GPT-3, GPT-4, Bing's Prometheus, and a custom RetA model were compared using 19 questions on diffuse large B-cell lymphoma (DLBCL) disease. Eight independent reviewers assessed responses based on accuracy, relevance, and readability (rated 1-3). The RetA model performed best in accuracy (12/19 3-point scores, total=47) and relevance (13/19, 50), followed by GPT-4 (8/19, 43; 11/19, 49). GPT-4 received the highest readability scores (17/19, 55), followed by GPT-3 (15/19, 53) and the RetA model (11/19, 47). Prometheus underperformed in accuracy (34), relevance (32), and readability (38). Both GPT-3.5 and GPT-4 had more hallucinations in all 19 responses compared to the RetA model and Prometheus. Hallucinations were mostly associated with non-existent references or fabricated efficacy data. These findings suggest that RetA models, supplemented with domain-specific corpora, may outperform general-purpose LLMs in accuracy and relevance within specific domains. However, this evaluation was limited to specific questions and metrics and may not capture challenges in semantic search and other NLP tasks. Further research will explore different LLM architectures, RetA methodologies, and evaluation methods to assess strengths and limitations more comprehensively.
翻訳日:2023-05-31 11:33:54 公開日:2023-05-30
# 次文予測と相互情報を用いた潜在空間におけるオープンドメイン対話の評価

Evaluating Open-Domain Dialogues in Latent Space with Next Sentence Prediction and Mutual Information ( http://arxiv.org/abs/2305.16967v2 )

ライセンス: Link先を確認
Kun Zhao, Bohao Yang, Chenghua Lin, Wenge Rong, Aline Villavicencio and Xiaohui Cui(参考訳) オープンドメイン対話の長年にわたる一対多問題は、自動評価手法に重大な課題を生じさせ、例えば、与えられた会話コンテキストのセマンティクスが異なる複数の適切な応答が存在する可能性がある。 この課題に取り組むために,条件付き変分オートエンコーダ(cvaes)を次文予測(nsp)目標で拡張し,相互情報(mi)を用いて潜在空間におけるテキストの意味的類似性をモデル化することにより,オープンドメイン対話を頑健に評価できる新しい学習型自動評価指標(cmn)を提案する。 2つのオープンドメイン対話データセットにおける実験結果から,本手法は広範囲のベースライン,特にセマンティクスにおけるゴールデンリファレンス応答に遠く及ばない応答の処理において優れていることが示された。

The long-standing one-to-many issue of the open-domain dialogues poses significant challenges for automatic evaluation methods, i.e., there may be multiple suitable responses which differ in semantics for a given conversational context. To tackle this challenge, we propose a novel learning-based automatic evaluation metric (CMN), which can robustly evaluate open-domain dialogues by augmenting Conditional Variational Autoencoders (CVAEs) with a Next Sentence Prediction (NSP) objective and employing Mutual Information (MI) to model the semantic similarity of text in the latent space. Experimental results on two open-domain dialogue datasets demonstrate the superiority of our method compared with a wide range of baselines, especially in handling responses which are distant to the golden reference responses in semantics.
翻訳日:2023-05-31 11:33:10 公開日:2023-05-30
# TaleCrafter: 複数のキャラクタによるインタラクティブなストーリービジュアライゼーション

TaleCrafter: Interactive Story Visualization with Multiple Characters ( http://arxiv.org/abs/2305.18247v2 )

ライセンス: Link先を確認
Yuan Gong, Youxin Pang, Xiaodong Cun, Menghan Xia, Yingqing He, Haoxin Chen, Longyue Wang, Yong Zhang, Xintao Wang, Ying Shan, Yujiu Yang(参考訳) 正確なストーリーの視覚化には、フレーム間のアイデンティティ一貫性、プレーンテキストとビジュアルコンテンツのアライメント、イメージ内のオブジェクトの適切なレイアウトなど、いくつかの必要な要素が必要です。 以前の作品の多くは、同じスタイルで同じ文字の動画群、例えばフリントストーンsvデータセットにテキスト・ツー・イメージ(t2i)モデルを適合させることで、これらの要件を満たそうとしている。 しかし、学習されたT2Iモデルは一般的に新しいキャラクター、シーン、スタイルに適応するのに苦労し、しばしば合成画像のレイアウトを変更する柔軟性に欠ける。 本稿では,複数の新規文字を処理し,レイアウトや局所構造の編集を支援する汎用対話型ストーリー可視化システムを提案する。 大規模コーパスで訓練された大規模言語とT2Iモデルの事前知識を活用することで開発される。 システムは、ストーリー・ツー・プロンプト生成(S2P)、テキスト・トゥ・レイアウト生成(T2L)、制御可能なテキスト・ツー・イメージ生成(C-T2I)、イメージ・トゥ・ビデオアニメーション(I2V)の4つの相互接続コンポーネントからなる。 まず、S2Pモジュールは、簡潔なストーリー情報をその後の段階に必要な詳細なプロンプトに変換する。 次に、T2Lはプロンプトに基づいて多様で合理的なレイアウトを生成し、ユーザが好みに合わせてレイアウトを調整および洗練する機能を提供する。 コアコンポーネントであるc-t2iは、レイアウト、スケッチ、アクタ固有の識別子でガイドされたイメージの作成を可能にする。 最後に、I2Vは生成した画像をアニメーションすることで可視化プロセスを強化する。 提案システムの対話型編集の有効性と柔軟性を検証するため,広範な実験とユーザ調査を行った。

Accurate Story visualization requires several necessary elements, such as identity consistency across frames, the alignment between plain text and visual content, and a reasonable layout of objects in images. Most previous works endeavor to meet these requirements by fitting a text-to-image (T2I) model on a set of videos in the same style and with the same characters, e.g., the FlintstonesSV dataset. However, the learned T2I models typically struggle to adapt to new characters, scenes, and styles, and often lack the flexibility to revise the layout of the synthesized images. This paper proposes a system for generic interactive story visualization, capable of handling multiple novel characters and supporting the editing of layout and local structure. It is developed by leveraging the prior knowledge of large language and T2I models, trained on massive corpora. The system comprises four interconnected components: story-to-prompt generation (S2P), text-to-layout generation (T2L), controllable text-to-image generation (C-T2I), and image-to-video animation (I2V). First, the S2P module converts concise story information into detailed prompts required for subsequent stages. Next, T2L generates diverse and reasonable layouts based on the prompts, offering users the ability to adjust and refine the layout to their preference. The core component, C-T2I, enables the creation of images guided by layouts, sketches, and actor-specific identifiers to maintain consistency and detail across visualizations. Finally, I2V enriches the visualization process by animating the generated images. Extensive experiments and a user study are conducted to validate the effectiveness and flexibility of interactive editing of the proposed system.
翻訳日:2023-05-31 11:25:49 公開日:2023-05-30
# ロバストな半教師付き学習のための分散セマンティクスプラニング

Out-of-Distributed Semantic Pruning for Robust Semi-Supervised Learning ( http://arxiv.org/abs/2305.18158v2 )

ライセンス: Link先を確認
Yu Wang, Pengchong Qiao, Chang Liu, Guoli Song, Xiawu Zheng, Jie Chen(参考訳) 堅牢な半教師付き学習(SSL)の最近の進歩は、典型的にはサンプルレベルでのアウト・オブ・ディストリビューション(OOD)情報をフィルタリングする。 我々は、ロバストSSLの見落とされがちな問題は、セマンティックレベルの情報の破損であり、フィールドの開発を事実上制限していると論じる。 本稿では,OODセマンティック・プルーニング (OSP) という,OODセマンティック・プルーニング(OOD Semantic Pruning, OODセマンティック・プルーニング, OODセマンティック・プルーニング, OODセマンティック・プルーニング, OODセマンティック・プルーニング, OODセマンティック・プルーニング, OODセマンティック・プルーニング, セマンティック・プルーニング, セマンティック・プルーニング, セマンティック・プルーニング, セマンティック・プルーニング, セマンティック・プルーニング(OODセマンティック・プルーニング, セマンティック・プルーニング) 具体的には i)各IDサンプルとOODサンプルをセマンティックオーバーラップしたペアリングOODマッチングモジュールを提案する。 (ii) ソフトな直交正規化をデザインし, ペアのoodサンプルと共線形な意味成分を抑圧することにより, まず各id特徴を変換する。 すると、ソフト直交分解の前後の予測が一貫するように強制される。 本手法は,OOD検出とID分類において,難易度の高いベンチマークで高い性能を示す。 特にOSPは、ID分類の精度を13.7%、TinyImageNetデータセットのOOD検出のAUROCを5.9%上回る。 ソースコードはhttps://github.com/rain305f/OSPで公開されている。

Recent advances in robust semi-supervised learning (SSL) typically filter out-of-distribution (OOD) information at the sample level. We argue that an overlooked problem of robust SSL is its corrupted information on semantic level, practically limiting the development of the field. In this paper, we take an initial step to explore and propose a unified framework termed OOD Semantic Pruning (OSP), which aims at pruning OOD semantics out from in-distribution (ID) features. Specifically, (i) we propose an aliasing OOD matching module to pair each ID sample with an OOD sample with semantic overlap. (ii) We design a soft orthogonality regularization, which first transforms each ID feature by suppressing its semantic component that is collinear with paired OOD sample. It then forces the predictions before and after soft orthogonality decomposition to be consistent. Being practically simple, our method shows a strong performance in OOD detection and ID classification on challenging benchmarks. In particular, OSP surpasses the previous state-of-the-art by 13.7% on accuracy for ID classification and 5.9% on AUROC for OOD detection on TinyImageNet dataset. The source codes are publicly available at https://github.com/rain305f/OSP.
翻訳日:2023-05-31 11:25:15 公開日:2023-05-30
# 大きな言語モデルは、彼らが知らないことを知っていますか?

Do Large Language Models Know What They Don't Know? ( http://arxiv.org/abs/2305.18153v2 )

ライセンス: Link先を確認
Zhangyue Yin, Qiushi Sun, Qipeng Guo, Jiawen Wu, Xipeng Qiu, Xuanjing Huang(参考訳) 大規模言語モデル(llm)には豊富な知識があり、様々な自然言語処理(nlp)タスクにおいて優れている。 現在の研究は、彼らの既存の知識におけるパフォーマンスの向上に焦点を当てている。 膨大な知識にもかかわらず、LLMはそれらが適合し理解できる情報の量によって制限されている。 したがって、自己知識と呼ばれる無知における自身の限界を理解する能力は、最重要事項である。 本研究は,llmsの自己認識能力を評価することを目的としている。 我々は,これらのモデルの応答の不確実性を検出するための自動化手法を導入し,その自己認識の新たな尺度を提供する。 さらに,5つのカテゴリと回答可能なカテゴリから回答できない質問からなる,ユニークなデータセットであるSelfAwareを導入する。 GPT-3, InstructGPT, LLaMAを含む20個のLLMを対象とし, これらのモデルに内在する自己認識能力について検討した。 さらに,インコンテキスト学習と命令チューニングが,この自己認識をさらに強化できることを実証する。 この有望な洞察にもかかわらず、我々の研究結果は、これらのモデルの能力と人間の知識の限界を認識する能力の間にかなりのギャップがあることも示している。

Large language models (LLMs) have a wealth of knowledge that allows them to excel in various Natural Language Processing (NLP) tasks. Current research focuses on enhancing their performance within their existing knowledge. Despite their vast knowledge, LLMs are still limited by the amount of information they can accommodate and comprehend. Therefore, the ability to understand their own limitations on the unknows, referred to as self-knowledge, is of paramount importance. This study aims to evaluate LLMs' self-knowledge by assessing their ability to identify unanswerable or unknowable questions. We introduce an automated methodology to detect uncertainty in the responses of these models, providing a novel measure of their self-knowledge. We further introduce a unique dataset, SelfAware, consisting of unanswerable questions from five diverse categories and their answerable counterparts. Our extensive analysis, involving 20 LLMs including GPT-3, InstructGPT, and LLaMA, discovering an intrinsic capacity for self-knowledge within these models. Moreover, we demonstrate that in-context learning and instruction tuning can further enhance this self-knowledge. Despite this promising insight, our findings also highlight a considerable gap between the capabilities of these models and human proficiency in recognizing the limits of their knowledge.
翻訳日:2023-05-31 11:24:34 公開日:2023-05-30
# NeRF評価のためのロバストフレームワークを目指して

Towards a Robust Framework for NeRF Evaluation ( http://arxiv.org/abs/2305.18079v2 )

ライセンス: Link先を確認
Adrian Azzarelli, Nantheera Anantrasirichai, David R Bull(参考訳) neural radiance field (nerf)の研究は、3dモデリング、バーチャル/拡張現実、視覚効果など、近年注目を集めている。 現在のNeRF実装では、高品質な視覚的結果が得られるが、それらを評価するための信頼性の高い方法が特に欠けている。 従来の画像品質評価手法と分析指標(PSNR、SSIM、LPIPSなど)は、NeRFパイプライン全体の能力を一般化するため、性能の近似指標を提供するだけである。 そこで本稿では,ニューラルレンダリングネットワークをNeRFパイプラインから分離した上で,明示的な放射場表現に基づいてNeRFをトレーニングし,評価することで,パラメトリック評価を行う新しいテストフレームワークを提案する。 また,評価目的に特有な表現を生成するための構成可能なアプローチも導入する。 これは、メッシュモデルを明示的なNeRFサンプルに変換するためにレイキャストを使用し、これらの表現を"シェード"する。 これら2つのアプローチを組み合わせることで、このフレームワーク内で異なる「タスク」(視覚効果や学習戦略の異なるシーン)と種類のネットワーク(nerfs and depth-wise implicit neural representations (inrs))をどのように評価できるかを実証する。 さらに,視覚的パラメータと空間データの分布を考慮に入れたフレームワークのタスク複雑性を測定するための新しい指標を提案する。 我々のアプローチは、NeRF法の比較客観的評価フレームワークを作成する可能性を提供します。

Neural Radiance Field (NeRF) research has attracted significant attention recently, with 3D modelling, virtual/augmented reality, and visual effects driving its application. While current NeRF implementations can produce high quality visual results, there is a conspicuous lack of reliable methods for evaluating them. Conventional image quality assessment methods and analytical metrics (e.g. PSNR, SSIM, LPIPS etc.) only provide approximate indicators of performance since they generalise the ability of the entire NeRF pipeline. Hence, in this paper, we propose a new test framework which isolates the neural rendering network from the NeRF pipeline and then performs a parametric evaluation by training and evaluating the NeRF on an explicit radiance field representation. We also introduce a configurable approach for generating representations specifically for evaluation purposes. This employs ray-casting to transform mesh models into explicit NeRF samples, as well as to "shade" these representations. Combining these two approaches, we demonstrate how different "tasks" (scenes with different visual effects or learning strategies) and types of networks (NeRFs and depth-wise implicit neural representations (INRs)) can be evaluated within this framework. Additionally, we propose a novel metric to measure task complexity of the framework which accounts for the visual parameters and the distribution of the spatial data. Our approach offers the potential to create a comparative objective evaluation framework for NeRF methods.
翻訳日:2023-05-31 11:24:16 公開日:2023-05-30
# 3状態ツインフィールド量子鍵分散プロトコルの有限鍵法における鍵レート解析

Key Rate Analysis of a 3-State Twin-Field Quantum Key Distribution Protocol in the Finite-key Regime ( http://arxiv.org/abs/2305.18006v2 )

ライセンス: Link先を確認
Matt Young, Darius Bunandar, Marco Lucamarini, Stefano Pirandola(参考訳) 量子鍵分配(QKD)プロトコルを分析する場合、いくつかのメトリクスが決定できるが、最も重要なものはシークレット鍵レートである。 シークレットキーレート(英: Secret Key Rate)は、2つのパーティ間でシークレットキーの一部となる送信当たりのビット数である。 例えばbb84プロトコルでは、[1, p.1032] からの方程式 52 は与えられた量子ビット誤り率 (qber) の秘密鍵レートを与える。 しかし、これらのような方程式に繋がる解析は漸近的アプローチに依拠することが多く、そこでは2つの通信相手の間で無限の送信が送られると仮定される(アリスとボブと表記される)。 実用的な実装では、これは明らかに不可能です。 さらに、いくつかのQKDプロトコルは非対称プロトコルと呼ばれるカテゴリに属しており、そのような分析を行うことが著しく困難である。 そのため、現在、Finite-key regimeと呼ばれる別のアプローチについて多くの調査が行われている。 Bunandarらによる作品。 [2] は半定値プログラミングを使って非対称プロトコルの秘密鍵レートの低いバウンダリを生成するコードを生成する。 本稿では,BB84[3]の3状態バージョンとTwin-Fieldプロトコル[4]の両方からインスピレーションを得て,新しいQKDプロトコルを考案し,そのコードを用いて新しいプロトコルの解析を行う。

When analysing Quantum Key Distribution (QKD) protocols several metrics can be determined, but one of the most important is the Secret Key Rate. The Secret Key Rate is the number of bits per transmission that result in being part of a Secret Key between two parties. There are equations that give the Secret Key Rate, for example, for the BB84 protocol, equation 52 from [1, p.1032] gives the Secret Key Rate for a given Quantum Bit Error Rate (QBER). However, the analysis leading to equations such as these often rely on an Asymptotic approach, where it is assumed that an infinite number of transmissions are sent between the two communicating parties (henceforth denoted as Alice and Bob). In a practical implementation this is obviously impossible. Moreover, some QKD protocols belong to a category called Asymmetric protocols, for which it is significantly more difficult to perform such an analysis. As such, there is currently a lot of investigation into a different approach called the Finite-key regime. Work by Bunandar et al. [2] has produced code that used Semi-Definite Programming to produce lower bounds on the Secret Key Rate of even Asymmetric protocols. Our work looks at devising a novel QKD protocol taking inspiration from both the 3-state version of BB84 [3], and the Twin-Field protocol [4], and then using this code to perform analysis of the new protocol.
翻訳日:2023-05-31 11:23:50 公開日:2023-05-30
# 密結合型クロスモーダル・プロンプト学習

Deeply Coupled Cross-Modal Prompt Learning ( http://arxiv.org/abs/2305.17903v2 )

ライセンス: Link先を確認
Xuejing Liu, Wei Tang, Jinghui Lu, Rui Zhao, Zhaojun Guo and Fei Tan(参考訳) マルチモーダル基礎モデル(例えばCLIP)の最近の進歩はゼロショットの一般化に優れている。 近年,基礎モデルから下流タスクへの知識伝達に関わるプロンプトチューニングが注目されている。 しかし、モーダル間学習における既存のプロンプトチューニング手法は、言語分岐のみに焦点を当てるか、浅いメカニズムで視覚-言語相互作用を学ぶ。 この文脈では、CLIPに基づくDeeply coupled Cross-modal Prompt Learning (DCP)法を提案する。 DCPは、視覚と言語間の相互作用をCMPA(Cross-Modal Prompt Attention)機構で柔軟に調整し、適切に接続されたマルチヘッドアテンションモジュールを通じて各表現の相互交換を可能にする。 そして、11の画像分類データセットの総合的な数ショット学習実験を行い、ドメインシフトに対する堅牢性も分析する。 徹底した実験的分析は、非常に数ショットの一般化と、十分に実行されたDCPの説得力のあるドメイン適応能力を示す。 コードはhttps://github.com/GingL/CMPAで見ることができる。

Recent advancements in multimodal foundation models (e.g., CLIP) have excelled in zero-shot generalization. Prompt tuning involved in the knowledge transfer from foundation models to downstream tasks has gained significant attention recently. Existing prompt-tuning methods in cross-modal learning, however, either solely focus on language branch, or learn vision-language interaction in a shallow mechanism. In this context, we propose a Deeply coupled Cross-modal Prompt learning (DCP) method based on CLIP. DCP flexibly accommodates the interplay between vision and language with a Cross-Modal Prompt Attention (CMPA) mechanism, which enables the mutual exchange of respective representation through a well-connected multi-head attention module progressively and strongly. We then conduct comprehensive few-shot learning experiments on 11 image classification datasets and analyze the robustness to domain shift as well. Thorough experimental analysis evidently demonstrates the superb few-shot generalization and compelling domain adaption capacity of a well-executed DCP. The code can be found at https://github.com/GingL/CMPA.
翻訳日:2023-05-31 11:23:24 公開日:2023-05-30
# InDL:ビジュアルイリュージョンに基づくインダイアグラム論理解釈のための新しいデータセットとベンチマーク

InDL: A New Datasets and Benchmark for In-Diagram Logic Interpreting based on Visual Illusion ( http://arxiv.org/abs/2305.17716v2 )

ライセンス: Link先を確認
Haobo Yang, Wenyu Wang, Ze Cao, Zhekai Duan, Xuchen Liu(参考訳) 本稿では,深層学習モデルの論理解釈能力を評価するための新しい手法を提案する。 視覚錯視の興味深い領域を活用して、これらのモデルを厳格にテストし、ベンチマークするために設計されたユニークなデータセットInDLを構築します。 ディープラーニングはコンピュータビジョンや自然言語処理といった領域で顕著な進歩をみせた。 しかしながら、モデルは、決定過程を曖昧にする固有の「ブラックボックス」特性のために、論理的推論を必要とするタスクに悩まされることが多い。 私たちの研究は、知覚と論理の複雑な相互作用である視覚錯覚の扱いに焦点を当てることで、これらのモデルをよりよく理解するための新しいレンズを提示します。 6つの古典的な幾何学的錯覚を用いて,人間と機械の視覚知覚の比較枠組みを構築した。 この方法論は、モデルをランク付けし、潜在的な弱点を解明し、モデル改善のための実行可能な洞察を提供する。 実験により,本手法の有効性を検証し,その論理解釈能力に基づくモデルランキングの有効性を示す。 再現可能な研究へのコミットメントの一環として、ソースコードとデータセットはここで公開されている。 \href{https://github.com/rabbit-magic-wh/indl}{https://github.com/rabbit-magic-wh/indl} ソースコードは、ここで公開されている。

This paper introduces a novel approach to evaluating deep learning models' capacity for in-diagram logic interpretation. Leveraging the intriguing realm of visual illusions, we establish a unique dataset, InDL, designed to rigorously test and benchmark these models. Deep learning has witnessed remarkable progress in domains such as computer vision and natural language processing. However, models often stumble in tasks requiring logical reasoning due to their inherent 'black box' characteristics, which obscure the decision-making process. Our work presents a new lens to understand these models better by focusing on their handling of visual illusions -- a complex interplay of perception and logic. We utilize six classic geometric optical illusions to create a comparative framework between human and machine visual perception. This methodology offers a quantifiable measure to rank models, elucidating potential weaknesses and providing actionable insights for model improvements. Our experimental results affirm the efficacy of our benchmarking strategy, demonstrating its ability to effectively rank models based on their logic interpretation ability. As part of our commitment to reproducible research, the source code and datasets will be made publicly available here: \href{https://github.com/rabbit-magic-wh/InDL}{https://github.com/rabbit-magic-wh/InDL}.
翻訳日:2023-05-31 11:23:06 公開日:2023-05-30
# KoSBi: 大規模言語モデルアプリケーションへの社会的バイアスリスク緩和のためのデータセット

KoSBi: A Dataset for Mitigating Social Bias Risks Towards Safer Large Language Model Application ( http://arxiv.org/abs/2305.17701v2 )

ライセンス: Link先を確認
Hwaran Lee, Seokhee Hong, Joonsuk Park, Takyoung Kim, Gunhee Kim and Jung-Woo Ha(参考訳) 大規模言語モデル(llm)は、自然テキスト生成能力だけでなく、実世界データから異なる人口集団に対する社会バイアスも学習する。 LLMベースのアプリケーションをデプロイする場合、これは重大なリスクとなる。 既存の研究や資源は、言語と文化の違いにより、韓国では容易には適用できない。 この制限は、LLMの安全かつ効果的なデプロイを保証するために、局所的な社会的バイアスデータセットを必要とする。 この目的のために、韓国の72の人口集団を15のカテゴリーでカバーする34k対の文脈と文からなる新しい社会的バイアスデータセットKO SB Iを提案する。 フィルタリングに基づくモデレーションにより、HyperCLOVA (30B, 82B) と GPT-3 では、生成されたコンテンツの社会的バイアスを平均16.47%減少させることができる。

Large language models (LLMs) learn not only natural text generation abilities but also social biases against different demographic groups from real-world data. This poses a critical risk when deploying LLM-based applications. Existing research and resources are not readily applicable in South Korea due to the differences in language and culture, both of which significantly affect the biases and targeted demographic groups. This limitation requires localized social bias datasets to ensure the safe and effective deployment of LLMs. To this end, we present KO SB I, a new social bias dataset of 34k pairs of contexts and sentences in Korean covering 72 demographic groups in 15 categories. We find that through filtering-based moderation, social biases in generated content can be reduced by 16.47%p on average for HyperCLOVA (30B and 82B), and GPT-3.
翻訳日:2023-05-31 11:22:46 公開日:2023-05-30
# スピノルマター波の精密ラマン制御のための複合偏回転

Composite Biased Rotations for Precise Raman Control of Spinor Matterwaves ( http://arxiv.org/abs/2305.17610v2 )

ライセンス: Link先を確認
Liyang Qiu, Haidong Yuan and Saijun Wu(参考訳) ラマン励起による超微粒子の精密制御は、原子ベースの量子テクノロジーのクラスに寄与する。 我々は,ラマン励起電力効率と制御速度,励起状態断熱除去,自発的放出抑制条件のバランスを選択できる単光子デチューニング中間状態におけるアルカリ原子のラマンスピノル制御手法について検討した。 ラマン結合による原子スピノルの回転は、実質的な光シフトによってバイアスを受ける。 固定バイアス角を利用して、超微細な基底状態とレーザー照射が強い不均一な場合にも、複合偏光回転を最適化して、ナノ秒内で正確なエンサンブルスピノルマター波制御を可能にすることを示す。 本手法は光パルス原子干渉計の技術的ギャップを埋め、中程度のレーザーパワーで高速ラマンスピノル物質波制御を実現する。

Precise control of hyperfine matterwaves via Raman excitations is instrumental to a class of atom-based quantum technology. We investigate the Raman spinor control technique for alkaline atoms in an intermediate regime of single-photon detuning where a choice can be made to balance the Raman excitation power efficiency with the control speed, excited-state adiabatic elimination, and spontaneous emission suppression requirements. Within the regime, rotations of atomic spinors by the Raman coupling are biased by substantial light shifts. Taking advantage of the fixed bias angle, we show that composite biased rotations can be optimized to enable precise ensemble spinor matterwave control within nanoseconds, even for multiple Zeeman pseudo-spins defined on the hyperfine ground states and when the laser illumination is strongly inhomogeneous. Our scheme fills a technical gap in light pulse atom interferometry, for achieving high speed Raman spinor matterwave control with moderate laser power.
翻訳日:2023-05-31 11:22:34 公開日:2023-05-30
# 適切なスコアリングルールによる正直なパフォーマンス予測の動機付け

Incentivizing honest performative predictions with proper scoring rules ( http://arxiv.org/abs/2305.17601v2 )

ライセンス: Link先を確認
Caspar Oesterheld, Johannes Treutlein, Emery Cooper, Rubi Hudson(参考訳) 適切なスコアリングルールは、予測が結果に影響を及ぼさないと仮定して、専門家に信念を正確に報告するインセンティブを与える。 この仮定を緩和し、予測が実行可能である場合、すなわち株式市場に関する公開予測を行う場合など、予測の結果に影響を与える場合のインセンティブを調査します。 予測は、その予測がなされた後の専門家の信念を正確に反映するならば、不動点であると言える。 この設定では、期待スコアを最大化するレポートは専門家の信念を反映せず、そのようなレポートの正確性に限界を与える。 二項予測に対して、専門家の予測が結果に与える影響が限定されている場合、最適なレポートが任意に固定点に近づくスコアリングルールを定義することができる。 しかし、これは2つ以上の結果に対する予測では不可能である。 また、おもちゃの設定で数値シミュレーションを行い、いくつかの状況では境界がきついこと、予測誤差がかなり大きいこと(5~10%以上)を示しました。 最後に,最適性の代替概念について検討し,不動点の報告にインセンティブを与えることを示す。

Proper scoring rules incentivize experts to accurately report beliefs, assuming predictions cannot influence outcomes. We relax this assumption and investigate incentives when predictions are performative, i.e., when they can influence the outcome of the prediction, such as when making public predictions about the stock market. We say a prediction is a fixed point if it accurately reflects the expert's beliefs after that prediction has been made. We show that in this setting, reports maximizing expected score generally do not reflect an expert's beliefs, and we give bounds on the inaccuracy of such reports. We show that, for binary predictions, if the influence of the expert's prediction on outcomes is bounded, it is possible to define scoring rules under which optimal reports are arbitrarily close to fixed points. However, this is impossible for predictions over more than two outcomes. We also perform numerical simulations in a toy setting, showing that our bounds are tight in some situations and that prediction error is often substantial (greater than 5-10%). Lastly, we discuss alternative notions of optimality, including performative stability, and show that they incentivize reporting fixed points.
翻訳日:2023-05-31 11:22:17 公開日:2023-05-30