このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20231029となっている論文です。

PDF登録状況(公開日: 20231029)

TitleAuthorsAbstract論文公表日・翻訳日
# 安全衛星通信の規格更新:衛星・攻撃ベクトル・既存規格・企業・セキュリティアーキテクチャの分析

Updated Standard for Secure Satellite Communications: Analysis of Satellites, Attack Vectors, Existing Standards, and Enterprise and Security Architectures ( http://arxiv.org/abs/2310.19105v1 )

ライセンス: Link先を確認
Rupok Chowdhury Protik, (参考訳) 衛星は、従来の通信媒体が関連するコストや効率よりも利益を得るのに苦労する遠隔通信において重要な役割を担っている。 近年、LEO衛星の大量展開による高データレートの達成により、衛星通信は業界において大きな関心を集めている。 衛星の種類、通信手法、技術的障害、環境制限、生態系全体の要素、巨額の財政的影響、地政学的紛争と支配、衛星通信の容易なアクセス、その他様々な理由により、脅威ベクトルは脅威の風景の中で上昇している。 それらに対するレジリエンスを達成するには、技術的な解決策だけでは不十分だ。 効果的なアプローチはセキュリティ標準である。 しかし、衛星通信と宇宙データシステムのための一般的なセキュリティ標準フレームワークに関して、業界にはかなりのギャップがある。 いくつかの国や宇宙機関は独自の標準の枠組みと民間政策を持っている。 しかし、それらの多くはプライベートであり、特定のミッションの特定の要求を満たすか、長い間更新されていない。 プロジェクトレポートは、要素、脅威ランドスケープ、エンタープライズセキュリティアーキテクチャ、衛星通信および宇宙データシステムの公開標準の特定、分類、比較、評価に焦点を当てる。 その後、衛星通信と宇宙データシステムのための新しい標準フレームワークを提案する。

Satellites play a vital role in remote communication where traditional communication mediums struggle to provide benefits over associated costs and efficiency. In recent years, satellite communication has achieved utter interest in the industry due to the achievement of high data rates through the massive deployment of LEO satellites. Because of the complex diversity in types of satellites, communication methodologies, technological obstacles, environmental limitations, elements in the entire ecosystem, massive financial impact, geopolitical conflict and domination, easier access to satellite communications, and various other reasons, the threat vectors are rising in the threat landscape. To achieve resilience against those, only technological solutions are not enough. An effective approach will be through security standards. However, there is a considerable gap in the industry regarding a generic security standard framework for satellite communication and space data systems. A few countries and space agencies have their own standard framework and private policies. However, many of those are either private, serve the specific requirements of specific missions, or have not been updated for a long time. This project report will focus on identifying, categorizing, comparing, and assessing elements, threat landscape, enterprise security architectures, and available public standards of satellite communication and space data systems. After that, it will utilize the knowledge to propose an updated standard framework for secure satellite communications and space data systems.
翻訳日:2024-03-18 23:51:32 公開日:2023-10-29
# 同一性証明のためのデータ協調

Data Cooperatives for Identity Attestations ( http://arxiv.org/abs/2312.14158v1 )

ライセンス: Link先を確認
Thomas Hardjono, Alex Pentland, (参考訳) 会員に義務を負うデータ協同組合は、その協力者が個人データを管理している特定の会員について、有用な真理情報ソースを提供する。 協力モデルの主な提案の一つは、会員のデータプライバシを保護することであるため、参加者の1人に関する協力団体が発行した証明から被疑者の身元を除去するブラインド証明の概念を探求する。 これは各メンバーの要請により行われる。 本論では, 被証明者に対して, 被証明者に対して, 被証明者に対して, 被証明者に対して, 被証明者に対して, 被証明者に対して, 被証明者に対して, 被証明者に対して, 被証明者に対して, 法的に接触しうることを提案する。 この機能には、デジタル資産の取引におけるFunds Travel Ruleや、分散型ソーシャルネットワークにおけるプライバシ保護など、いくつかのユースケースがある。

Data cooperatives with fiduciary obligations to members provide a useful source of truthful information regarding a given member whose personal data is managed by the cooperative. Since one of the main propositions the cooperative model is to protect the data privacy of members, we explore the notion of blinded attestations in which the identity of the subject is removed from the attestations issued by the cooperative regarding one of its members. This is performed at the request of the individual member. We propose the use of a legal entity to countersign the blinded attestation, one that has an attorney-client relationship with the cooperative, and which can henceforth become the legal point of contact for inquiries regarding the individual related to the attribute being attested. There are several use-cases for this feature, including the Funds Travel Rule in transactions in digital assets, and the protection of privacy in decentralized social networks.
翻訳日:2024-03-18 11:38:03 公開日:2023-10-29
# DiffSpectralNet : ハイパースペクトル画像分類のための拡散モデルの可能性

DiffSpectralNet : Unveiling the Potential of Diffusion Models for Hyperspectral Image Classification ( http://arxiv.org/abs/2312.12441v1 )

ライセンス: Link先を確認
Neetu Sigger, Tuan Thanh Nguyen, Gianluca Tozzi, Quoc-Tuan Vien, Sinh Van Nguyen(参考訳) ハイパースペクトル画像 (hsi) は農業や医療など多分野のリモートセンシング画像の解析に人気がある。 しかし,既存のモデルではマルチバンド特性とハイパースペクトルデータのデータの冗長性のため,スペクトル空間データの複雑な関係や特性に苦慮している。 この制限に対処するため,拡散と変圧器技術を組み合わせたDiffSpectralNetという新しいネットワークを提案する。 我々のアプローチは2段階のプロセスを伴う。 まず,拡散モデルに基づく教師なし学習フレームワークを用いて,高レベルおよび低レベルのスペクトル空間特徴を抽出する。 拡散法は多種多様なスペクトル空間的特徴を抽出し,HSI分類の改善につながる。 次に,事前学習したU-Netを用いて中間階層的特徴を抽出する。 最後に,教師付き変圧器に基づく分類器を用いてhsi分類を行う。 hsiデータセットの包括的実験を通じてdiffspectralnetの分類性能を評価する。 その結果、我々のフレームワークは既存のアプローチを著しく上回り、最先端のパフォーマンスを実現しています。

Hyperspectral images (HSI) have become popular for analysing remotely sensed images in multiple domain like agriculture, medical. However, existing models struggle with complex relationships and characteristics of spectral-spatial data due to the multi-band nature and data redundancy of hyperspectral data. To address this limitation, we propose a new network called DiffSpectralNet, which combines diffusion and transformer techniques. Our approach involves a two-step process. First, we use an unsupervised learning framework based on the diffusion model to extract both high-level and low-level spectral-spatial features. The diffusion method is capable of extracting diverse and meaningful spectral-spatial features, leading to improvement in HSI classification. Then, we employ a pretrained denoising U-Net to extract intermediate hierarchical features for classification. Finally, we use a supervised transformer-based classifier to perform the HSI classification. Through comprehensive experiments on HSI datasets, we evaluate the classification performance of DiffSpectralNet. The results demonstrate that our framework significantly outperforms existing approaches, achieving state-of-the-art performance.
翻訳日:2024-01-15 13:11:44 公開日:2023-10-29
# クラウドにおけるレプリケーションのためのマイクロサービスコールレート予測の比較

Comparison of Microservice Call Rate Predictions for Replication in the Cloud ( http://arxiv.org/abs/2401.03319v1 )

ライセンス: Link先を確認
Narges Mehran, Arman Haghighi, Pedram Aminharati, Nikolay Nikolov, Ahmet Soylu, Dumitru Roman, Radu Prodan(参考訳) 今日では、多くのユーザがクラウドマシンのクラスタにさまざまな相互接続でマイクロサービスベースのアプリケーションをデプロイしています。 この問題に対処するために、マイクロサービス時間に基づいてマイクロサービス呼び出し率を予測するための3つの機械学習(ML)モデルを比較し、スケーラビリティ要件を見積もる。 本稿では,線形回帰(LR),多層知覚(MLP),勾配促進回帰(GBR)モデルをアリババのマイクロサービストレースに適用する。 その結果,LRモデルはGBRモデルやMLPモデルよりも訓練時間が短いことがわかった。 しかし、GBRはLRモデルやMLPモデルと比較して平均絶対誤差と平均絶対パーセンテージ誤差を減少させる。 さらに,予測結果から,勾配ブースティングモデルによる各マイクロサービスに必要なレプリカ数は,予測を伴わない実際のテストデータに近いことが示された。

Today, many users deploy their microservice-based applications with various interconnections on a cluster of Cloud machines, subject to stochastic changes due to dynamic user requirements. To address this problem, we compare three machine learning (ML) models for predicting the microservice call rates based on the microservice times and aiming at estimating the scalability requirements. We apply the linear regression (LR), multilayer perception (MLP), and gradient boosting regression (GBR) models on the Alibaba microservice traces. The prediction results reveal that the LR model reaches a lower training time than the GBR and MLP models. However, the GBR reduces the mean absolute error and the mean absolute percentage error compared to LR and MLP models. Moreover, the prediction results show that the required number of replicas for each microservice by the gradient boosting model is close to the actual test data without any prediction.
翻訳日:2024-01-15 09:18:16 公開日:2023-10-29
# FLORIDA:フェイクっぽいリアルイメージデータセット

FLORIDA: Fake-looking Real Images Dataset ( http://arxiv.org/abs/2311.10931v1 )

ライセンス: Link先を確認
Ali Borji(参考訳) ディープフェイクの検出におけるAIツールやモデルの有効性を評価するために、広範な研究がなされているが、これらのモデルが人工的に現れる真のイメージを正確に識別できるかどうかについては疑問が残る。 本研究では,この問題に対処するための最初のステップとして,偽の外観を示す510の本物画像のデータセットをキュレートし,2つのaiモデルを用いて評価を行った。 データセットに適用すると,2つのモデルがサブパー性能を示した。 さらに,我々のデータセットは,複雑な視覚刺激を理解するための深層学習モデルの能力を評価する上で有用なツールとなり得る。 本研究は,本分野におけるさらなる議論と調査の促進を期待する。 私たちのデータセットはhttps://github.com/aliborji/FLORIDAでアクセスできます。

Although extensive research has been carried out to evaluate the effectiveness of AI tools and models in detecting deep fakes, the question remains unanswered regarding whether these models can accurately identify genuine images that appear artificial. In this study, as an initial step towards addressing this issue, we have curated a dataset of 510 genuine images that exhibit a fake appearance and conducted an assessment using two AI models. We show that two models exhibited subpar performance when applied to our dataset. Additionally, our dataset can serve as a valuable tool for assessing the ability of deep learning models to comprehend complex visual stimuli. We anticipate that this research will stimulate further discussions and investigations in this area. Our dataset is accessible at https://github.com/aliborji/FLORIDA.
翻訳日:2023-11-27 00:34:24 公開日:2023-10-29
# 事前学習ニューラルネットワークを用いたロバスト四重項境界制御の効率的な学習

Efficient Learning of Control Policies for Robust Quadruped Bounding using Pretrained Neural Networks ( http://arxiv.org/abs/2011.00446v3 )

ライセンス: Link先を確認
Zhicheng Wang, Anqiao Li, Yixiao Zheng, Anhuan Xie, Zhibin Li, Jun Wu, Qiuguo Zhu(参考訳) 境界は、交渉障害に対する四足歩行における重要な歩行の1つである。 筆者らは,体の動きの変動が大きいにもかかわらず,ロバストなバウンディング歩行をより効率的に学べる効果的なアプローチを提案した。 著者らはまず、従来のモデルベースコントローラが操作するロボットのデータに基づいてニューラルネットワーク(NN)を事前訓練し、さらに深層強化学習(DRL)を介してトレーニング済みNNを最適化した。 特に,歩行対称性と周期性を実現するために,接触点と位相を考慮した報奨関数を考案し,境界性能を改善した。 NNベースのフィードバックコントローラはシミュレーションで学習され、実際の四足ロボットJueying Miniに直接デプロイされた。 様々な環境が屋内と屋外の両方で著者のアプローチで提示される。 著者らは、Jueying Miniの四足歩行ロボットが不均一な地形に面した効率的な計算と良好な移動結果を示す。

Bounding is one of the important gaits in quadrupedal locomotion for negotiating obstacles. The authors proposed an effective approach that can learn robust bounding gaits more efficiently despite its large variation in dynamic body movements. The authors first pretrained the neural network (NN) based on data from a robot operated by conventional model based controllers, and then further optimised the pretrained NN via deep reinforcement learning (DRL). In particular, the authors designed a reward function considering contact points and phases to enforce the gait symmetry and periodicity, which improved the bounding performance. The NN based feedback controller was learned in the simulation and directly deployed on the real quadruped robot Jueying Mini successfully. A variety of environments are presented both indoors and outdoors with the authors approach. The authors approach shows efficient computing and good locomotion results by the Jueying Mini quadrupedal robot bounding over uneven terrain.
翻訳日:2023-11-02 18:53:28 公開日:2023-10-29
# ソーシャルメディアにおけるヘイトスピーチ検出のための伝達学習

Transfer Learning for Hate Speech Detection in Social Media ( http://arxiv.org/abs/1906.03829v3 )

ライセンス: Link先を確認
Lanqin Yuan and Tianyu Wang and Gabriela Ferraro and Hanna Suominen and Marian-Andrei Rizoiu(参考訳) 今日では、インターネットは私たちの日常生活の不可欠な部分であり、人々がこれまで以上に繋がることができます。 しかし、この接続性の向上と情報へのアクセスにより、サイバーいじめやサイバー攻撃のような有害なコンテンツへの露出が増大する。 機械学習と自然言語に基づくモデルは、ウェブテキストでヘイトスピーチを自律的に識別することで、オンラインプラットフォームをより安全にする方法を提供する。 しかし、主な困難は、これらのモデルをトレーニングする十分な数のサンプルを注釈付けすることである。 本稿では,2つの独立したデータセットを共同で活用し,ヘイトスピーチの単一表現を構築するためのトランスファー学習手法を提案する。 我々は、構築されたヘイト表現(ヘイトマップと呼ばれる)の解釈可能な二次元可視化ツールを構築し、複数のデータセットを投影し、比較分析する。 憎しみのあるコンテンツは、2つのデータセット(あるデータセットでは人種差別と性差別、別のデータセットでは憎しみと嫌悪)で異なる注釈が付けられる。 しかし、共通表現は両方のデータセットの無害なクラスを同じ空間に投影することに成功し、ラベル付けエラー(偽陽性)を発見できる。 また,共同表現は,限られた監督範囲の場合にのみ予測性能を向上させることを示す。 これらの方法と洞察は、ソーシャルメディアをより安全なものにし、人間のモデレーターやアノテーターをオンラインメッセージングの苦痛に晒す必要性を減らす。

Today, the internet is an integral part of our daily lives, enabling people to be more connected than ever before. However, this greater connectivity and access to information increase exposure to harmful content such as cyber-bullying and cyber-hatred. Models based on machine learning and natural language offer a way to make online platforms safer by identifying hate speech in web text autonomously. However, the main difficulty is annotating a sufficiently large number of examples to train these models. This paper uses a transfer learning technique to leverage two independent datasets jointly and builds a single representation of hate speech. We build an interpretable two-dimensional visualization tool of the constructed hate speech representation -- dubbed the Map of Hate -- in which multiple datasets can be projected and comparatively analyzed. The hateful content is annotated differently across the two datasets (racist and sexist in one dataset, hateful and offensive in another). However, the common representation successfully projects the harmless class of both datasets into the same space and can be used to uncover labeling errors (false positives). We also show that the joint representation boosts prediction performances when only a limited amount of supervision is available. These methods and insights hold the potential for safer social media and reduce the need to expose human moderators and annotators to distressing online messaging.
翻訳日:2023-11-02 05:29:45 公開日:2023-10-29
# E-detectors:シーケンシャルな変化検出のための非パラメトリックフレームワーク

E-detectors: a nonparametric framework for sequential change detection ( http://arxiv.org/abs/2203.03532v4 )

ライセンス: Link先を確認
Jaehyeok Shin, Aaditya Ramdas, Alessandro Rinaldo(参考訳) 逐次変化検出は、様々な応用において古典的な問題である。 しかし、先行研究の大部分は指数関数族に焦点をあてたパラメトリックなものであった。 本研究では,変化前分布と後分布が非パラメトリックな(したがって合成)場合の逐次変化検出のための基本的かつ汎用的なフレームワークを開発する。 私たちの手順は、平均走行距離(誤報の頻度)のクリーンで無症状な境界が伴います。 ある種の非パラメトリック(準ガウスや準指数など)の場合、変化点の後の検出遅延についてほぼ最適境界を与える。 私たちが導入する主要な技術ツールは \emph{e-detector} と呼ばれ、e-プロセス(非負のスーパーマーチンガールの基本的な一般化)の和からなり、連続して開始される。 まず,シリャーエフ・ロバーツとCUSUM型e-detectorを導入し,統計的および計算効率の両立を図った。 我々のe-detectorフレームワークは、パラメトリック問題に対する古典的確率に基づく手順を復元し、多くの非パラメトリック問題に対する最初の変更検出方法を得るためにインスタンス化することができる。 実例として,複数シーズンにわたってバスケットボールチームのパフォーマンスを追跡するアプリケーションを用いて,i.i.d.仮定なしに有界確率変数の平均値の変化を検出する問題に取り組む。

Sequential change detection is a classical problem with a variety of applications. However, the majority of prior work has been parametric, for example, focusing on exponential families. We develop a fundamentally new and general framework for sequential change detection when the pre- and post-change distributions are nonparametrically specified (and thus composite). Our procedures come with clean, nonasymptotic bounds on the average run length (frequency of false alarms). In certain nonparametric cases (like sub-Gaussian or sub-exponential), we also provide near-optimal bounds on the detection delay following a changepoint. The primary technical tool that we introduce is called an \emph{e-detector}, which is composed of sums of e-processes -- a fundamental generalization of nonnegative supermartingales -- that are started at consecutive times. We first introduce simple Shiryaev-Roberts and CUSUM-style e-detectors, and then show how to design their mixtures in order to achieve both statistical and computational efficiency. Our e-detector framework can be instantiated to recover classical likelihood-based procedures for parametric problems, as well as yielding the first change detection method for many nonparametric problems. As a running example, we tackle the problem of detecting changes in the mean of a bounded random variable without i.i.d. assumptions, with an application to tracking the performance of a basketball team over multiple seasons.
翻訳日:2023-11-02 05:10:49 公開日:2023-10-29
# 動的出力フィードバックの最適化景観について:線形二次レギュレータを事例として

On the Optimization Landscape of Dynamic Output Feedback: A Case Study for Linear Quadratic Regulator ( http://arxiv.org/abs/2209.05042v3 )

ライセンス: Link先を確認
Jingliang Duan, Wenhan Cao, Yang Zheng, Lin Zhao(参考訳) 強化学習ヒンジにおけるポリシー勾配アルゴリズムの収束は、根底にある最適制御問題の最適化状況に依存する。 これらのアルゴリズムに対する理論的洞察は、線形二次制御の解析から得られることが多い。 しかしながら、既存の文献のほとんどは、静的なフルステートまたはアウトプットフィードバックポリシー(コントローラ)の最適化の展望のみを考慮に入れている。 本稿では,線形二次制御(dlqr)のための動的出力フィードバックポリシーのより困難な場合について検討する。 まず、dlqrコストが動的コントローラの座標変換とどのように変化するかを示し、与えられた可観測安定化コントローラの最適変換を導出する。 この結果の核となるのは、観測可能な場合の dLQR の定常点の特異性であり、これは最適な類似性変換を持つオブザーバベースのコントローラの簡潔な形式である。 これらの結果は、部分的に観測された情報を含む一般的な意思決定問題に対する効率的なアルゴリズムの設計に光を当てた。

The convergence of policy gradient algorithms in reinforcement learning hinges on the optimization landscape of the underlying optimal control problem. Theoretical insights into these algorithms can often be acquired from analyzing those of linear quadratic control. However, most of the existing literature only considers the optimization landscape for static full-state or output feedback policies (controllers). We investigate the more challenging case of dynamic output-feedback policies for linear quadratic regulation (abbreviated as dLQR), which is prevalent in practice but has a rather complicated optimization landscape. We first show how the dLQR cost varies with the coordinate transformation of the dynamic controller and then derive the optimal transformation for a given observable stabilizing controller. At the core of our results is the uniqueness of the stationary point of dLQR when it is observable, which is in a concise form of an observer-based controller with the optimal similarity transformation. These results shed light on designing efficient algorithms for general decision-making problems with partially observed information.
翻訳日:2023-11-02 04:46:08 公開日:2023-10-29
# パンテオンコンパイルを用いた宇宙のニューラルネットワーク再構成

Neural network reconstruction of cosmology using the Pantheon compilation ( http://arxiv.org/abs/2305.15499v2 )

ライセンス: Link先を確認
Konstantinos F. Dialektopoulos, Purba Mukherjee, Jackson Levi Said, Jurgen Mifsud(参考訳) 本研究では,ANN(Artificial Neural Networks)において,相関データを含むさまざまなデータセットを用いてハッブル図を再構成する。 独立不確実性のあるデータセットのために構築されたReFANNを用いて、非ガウス的データポイントや共分散行列を持つデータセットを含むように拡張する。 さらに,この結果とガウス過程から得られた既存手法を比較し,宇宙論の一致モデルの有効性を検証するためにヌルテストを行う。

In this work, we reconstruct the Hubble diagram using various data sets, including correlated ones, in Artificial Neural Networks (ANN). Using ReFANN, that was built for data sets with independent uncertainties, we expand it to include non-Guassian data points, as well as data sets with covariance matrices among others. Furthermore, we compare our results with the existing ones derived from Gaussian processes and we also perform null tests in order to test the validity of the concordance model of cosmology.
翻訳日:2023-11-02 02:30:41 公開日:2023-10-29
# カーネルを用いた複数グラフ学習とグラフ信号のクラスタリング

Kernel-based Joint Multiple Graph Learning and Clustering of Graph Signals ( http://arxiv.org/abs/2310.19005v1 )

ライセンス: Link先を確認
Mohamad H. Alizade, Aref Einizade(参考訳) グラフ信号処理(gsp)の文脈において、グラフ学習(gl)は、ノードの観測、すなわちグラフ信号からのグラフトポロジーの推論に関係している。 しかし、データは、しばしば異なる基盤構造に関する混合形式である。 この不均一性は、複数のグラフの合同クラスタリングと学習を必要とする。 多くの現実のアプリケーションでは、命令的に組み込むべきノード側共変量(すなわちカーネル)が利用可能であり、まれなグラフ信号クラスタリングアプローチでは対処されていない。 この目的のために,リッチk-meansフレームワークに着想を得て,ノード側情報を分割し,クラスタ毎にグラフを学習する新しいカーネルベースアルゴリズムを提案する。 数値実験は最先端技術に対する効果を示す。

Within the context of Graph Signal Processing (GSP), Graph Learning (GL) is concerned with the inference of a graph's topology from nodal observations, i.e., graph signals. However, data is often in mixed form, relating to different underlying structures. This heterogeneity necessitates the joint clustering and learning of multiple graphs. In many real-life applications, there are available node-side covariates (i.e., kernels) that imperatively should be incorporated, which has not been addressed by the rare graph signal clustering approaches. To this end and inspired by the rich K-means framework, we propose a novel kernel-based algorithm to incorporate this node-side information as we jointly partition the signals and learn a graph for each cluster. Numerical experiments demonstrate its effectiveness over the state-of-the-art.
翻訳日:2023-11-01 21:46:09 公開日:2023-10-29
# CrossEAI: 説明可能なAIを使用して、胸部X線画像のより良いバウンディングボックスを生成する

CrossEAI: Using Explainable AI to generate better bounding boxes for Chest X-ray images ( http://arxiv.org/abs/2310.19835v1 )

ライセンス: Link先を確認
Jinze Zhao(参考訳) 説明責任は、法規と責任に従って患者と医師の両方に解釈を提供するよう義務付けられている医療における深層学習アプリケーションにとって重要である。 統合勾配を用いた機能重要度、石灰を用いたモデル近似、特定の健康リスク予測のための解釈を提供するニューロン活性化および層コンダクタンスなどの説明可能なai手法。 医学的画像診断では、疾患の分類は通常、高い精度を達成するが、生成された境界ボックスは、IoU(Intersection over Union)よりもはるかに低い。 自己教師型あるいは半教師型学習戦略の異なる手法が提案されているが、境界ボックス生成のための改善は少ない。 従来の研究では、これらの手法によって生成された境界ボックスは、通常、地上の真実よりも大きく、主要な非放出領域を含んでいることが示されている。 本稿では,胸部x線画像診断のための境界ボックスを生成できるポストホックaiの利点を生かした。 本研究では,熱マップと勾配マップを組み合わせることで,よりターゲットを絞ったバウンディングボックスを生成するCrossEAIを提案する。 Guided Backproagation と Grad-CAM++ の重み付き平均を使い、基礎的な真実に近いバウンディングボックスを生成することができる。 胸部x線データを用いたモデル評価を行った。 パフォーマンスは、同じ設定のアートモデルよりも大幅に改善され、IoU全体のすべての疾患の平均値が9.%以上向上した。 さらに、トレーニングに接地真理境界箱情報を使用しないモデルとして、トレーニングに接地真理境界箱情報を80\%の費用で使用するモデルと同じ性能を達成する。

Explainability is critical for deep learning applications in healthcare which are mandated to provide interpretations to both patients and doctors according to legal regulations and responsibilities. Explainable AI methods, such as feature importance using integrated gradients, model approximation using LIME, or neuron activation and layer conductance to provide interpretations for certain health risk predictions. In medical imaging diagnosis, disease classification usually achieves high accuracy, but generated bounding boxes have much lower Intersection over Union (IoU). Different methods with self-supervised or semi-supervised learning strategies have been proposed, but few improvements have been identified for bounding box generation. Previous work shows that bounding boxes generated by these methods are usually larger than ground truth and contain major non-disease area. This paper utilizes the advantages of post-hoc AI explainable methods to generate bounding boxes for chest x-ray image diagnosis. In this work, we propose CrossEAI which combines heatmap and gradient map to generate more targeted bounding boxes. By using weighted average of Guided Backpropagation and Grad-CAM++, we are able to generate bounding boxes which are closer to the ground truth. We evaluate our model on a chest x-ray dataset. The performance has significant improvement over the state of the art model with the same setting, with $9\%$ improvement in average of all diseases over all IoU. Moreover, as a model that does not use any ground truth bounding box information for training, we achieve same performance in general as the model that uses $80\%$ of the ground truth bounding box information for training
翻訳日:2023-11-01 18:27:51 公開日:2023-10-29
# AMIR: COVID-19ワクチンデータセットに基づく推奨システム

AMIR: Automated MisInformation Rebuttal -- A COVID-19 Vaccination Datasets based Recommendation System ( http://arxiv.org/abs/2310.19834v1 )

ライセンス: Link先を確認
Shakshi Sharma, Anwitaman Datta, and Rajesh Sharma(参考訳) 近年、誤報は社会の脅威として現れており、特に新型コロナウイルス(COVID-19)のパンデミックの文脈では、ワクチンの狂気を燃やすことによってハボックを破滅させた。 偽情報と戦うためのコスト効率が高くスケーラブルなソリューションは、時間を必要とする。 本研究では、ソーシャルメディアから得られた既存の情報と、より厳密な事実チェックデータレポジトリを用いて、大規模な誤報の自動配信を容易にする方法について検討した。 この考え方は、様々な情報ソースを用いた誤情報緩和の幅広い文脈において一般化・再適用できるが、この研究は、概念実証として機能し、ツイートの配信のみに限定され、また、COVID-19に関する誤情報特定の文脈では、その範囲に限られている。 公開されている2つのデータセット、vizを利用する。 FaCov(ファクトチェック記事)と誤解を招く(ソーシャルメディアTwitter) COVID-19ワクチンに関するデータ。

Misinformation has emerged as a major societal threat in recent years in general; specifically in the context of the COVID-19 pandemic, it has wrecked havoc, for instance, by fuelling vaccine hesitancy. Cost-effective, scalable solutions for combating misinformation are the need of the hour. This work explored how existing information obtained from social media and augmented with more curated fact checked data repositories can be harnessed to facilitate automated rebuttal of misinformation at scale. While the ideas herein can be generalized and reapplied in the broader context of misinformation mitigation using a multitude of information sources and catering to the spectrum of social media platforms, this work serves as a proof of concept, and as such, it is confined in its scope to only rebuttal of tweets, and in the specific context of misinformation regarding COVID-19. It leverages two publicly available datasets, viz. FaCov (fact-checked articles) and misleading (social media Twitter) data on COVID-19 Vaccination.
翻訳日:2023-11-01 18:27:03 公開日:2023-10-29
# 不確かさ下でのインタラクティブなビジュアル推論

Interactive Visual Reasoning under Uncertainty ( http://arxiv.org/abs/2206.09203v2 )

ライセンス: Link先を確認
Manjie Xu, Guangyuan Jiang, Wei Liang, Chi Zhang, Yixin Zhu(参考訳) 人間の基本的な認知能力の1つは、仮説を生成し、アクティブトライアルを通じてそれらをテストすることで、不確実性を迅速に解決することである。 不明瞭な因果関係を伴う新しい現象を考慮し、人間はデータに対して仮説を立て、観察から推論を行い、実験を通して理論を検証し、矛盾が発生した場合の命題を正す。 これらの反復プロセスは、基盤となるメカニズムが明確になるまで持続する。 本研究では,不確実性下でのエージェントの推論能力を評価するために,ivre (ivory) 環境を考案する。 IVREは、Blicket検出を中心としたリッチなシナリオを備えた対話型環境である。 IVREのエージェントは、さまざまなあいまいなアクション効果対を持つ環境に配置され、各オブジェクトの役割を決定するように要求される。 彼らは、観察に基づいて仮説を検証する効果的で効率的な実験を提案し、積極的に新しい情報を集めることを奨励されている。 すべての不確実性が解決されたり、最大試行回数が消費された場合、ゲームは終了する。 現代の人工エージェントをIVREで評価することで、今日の学習方法が人間に比べて明らかに失敗していることに気づく。 不確実性下での対話的推論能力の非効率性は、人間のような知性を構築するための将来の研究を要求する。

One of the fundamental cognitive abilities of humans is to quickly resolve uncertainty by generating hypotheses and testing them via active trials. Encountering a novel phenomenon accompanied by ambiguous cause-effect relationships, humans make hypotheses against data, conduct inferences from observation, test their theory via experimentation, and correct the proposition if inconsistency arises. These iterative processes persist until the underlying mechanism becomes clear. In this work, we devise the IVRE (pronounced as "ivory") environment for evaluating artificial agents' reasoning ability under uncertainty. IVRE is an interactive environment featuring rich scenarios centered around Blicket detection. Agents in IVRE are placed into environments with various ambiguous action-effect pairs and asked to determine each object's role. They are encouraged to propose effective and efficient experiments to validate their hypotheses based on observations and actively gather new information. The game ends when all uncertainties are resolved or the maximum number of trials is consumed. By evaluating modern artificial agents in IVRE, we notice a clear failure of today's learning methods compared to humans. Such inefficacy in interactive reasoning ability under uncertainty calls for future research in building human-like intelligence.
翻訳日:2023-11-01 01:40:47 公開日:2023-10-29
# 事前学習型言語モデルにおけるパーソナリティの評価と誘導

Evaluating and Inducing Personality in Pre-trained Language Models ( http://arxiv.org/abs/2206.07550v3 )

ライセンス: Link先を確認
Guangyuan Jiang, Manjie Xu, Song-Chun Zhu, Wenjuan Han, Chi Zhang, Yixin Zhu(参考訳) 機械の挙動の標準化と定量化はLLMの理解の要点である。 本研究では,人間の性格理論を機械行動研究の道具として活用し,心理計測からインスピレーションを得た。 人間の行動に対する哲学的な探求として始まり、個性の研究は個人が思考、感覚、行動においてどのように異なるかに焦点をあてる。 人間の心理測定を原則的かつ定量的に活用することで、マシンの挙動を評価できますか? もしそうなら、LSMに特定の性格を誘導できるだろうか? これらの質問に答えるために、機械の行動を研究するためのmpi(machine personality inventory)ツールを紹介し、mpiは5つの大きなパーソナリティ要素(big five)理論とパーソナリティアセスメントインベントリに基づいて、標準化されたパーソナリティテストに従っている。 LLMをMPIで体系的に評価することにより,本研究におけるMPIの有効性を示す最初の証拠を提供する。 さらに、特定の個性を持つllmを制御可能な方法で誘導するパーソナリティ促進法(p^2)を考案し、多様で検証可能な行動を生成する。 この研究は、さまざまな下流課題にパーソナリティを欠かせない指標として採用することで将来の研究に光を当て、人間のようなマシンの振る舞いを均等に学べることを願っている。

Standardized and quantified evaluation of machine behaviors is a crux of understanding LLMs. In this study, we draw inspiration from psychometric studies by leveraging human personality theory as a tool for studying machine behaviors. Originating as a philosophical quest for human behaviors, the study of personality delves into how individuals differ in thinking, feeling, and behaving. Toward building and understanding human-like social machines, we are motivated to ask: Can we assess machine behaviors by leveraging human psychometric tests in a principled and quantitative manner? If so, can we induce a specific personality in LLMs? To answer these questions, we introduce the Machine Personality Inventory (MPI) tool for studying machine behaviors; MPI follows standardized personality tests, built upon the Big Five Personality Factors (Big Five) theory and personality assessment inventories. By systematically evaluating LLMs with MPI, we provide the first piece of evidence demonstrating the efficacy of MPI in studying LLMs behaviors. We further devise a Personality Prompting (P^2) method to induce LLMs with specific personalities in a controllable way, capable of producing diverse and verifiable behaviors. We hope this work sheds light on future studies by adopting personality as the essential indicator for various downstream tasks, and could further motivate research into equally intriguing human-like machine behaviors.
翻訳日:2023-11-01 01:40:30 公開日:2023-10-29
# DELTA: フェデレーション学習を高速化するためのクライアントサンプリング

DELTA: Diverse Client Sampling for Fasting Federated Learning ( http://arxiv.org/abs/2205.13925v4 )

ライセンス: Link先を確認
Lin Wang, YongXin Guo, Tao Lin, Xiaoying Tang(参考訳) フェデレートラーニング(FL)では、コミュニケーションの負担を効率的に軽減するために、部分的なクライアント参加が広く採用されている。 しかし、不十分なクライアントサンプリングスキームは、非表現部分集合の選択につながり、モデル更新の大幅なばらつきと収束の鈍化をもたらす。 既存のサンプリング手法は偏りがあるか,より高速な収束に最適化できるかのいずれかであり,本論文では,これらの問題を緩和するための非バイアスサンプリング方式であるDELTAを提案する。 DELTAは、クライアントの多様性と局所的な分散の影響を特徴付け、グローバルモデル更新のための貴重な情報を持つ代表クライアントをサンプリングする。 さらに、デルタは、部分的なクライアント参加による分散を最小限に抑え、収束の観点から他の非バイアスサンプリングスキームよりも優れる最適な非バイアスサンプリングスキームである。 さらに、全クライアントの勾配依存性に対処するために、利用可能なクライアントの情報に応じてデルタの実用的なバージョンを提供し、その収束を分析する。 結果は合成データと実世界のデータセットの両方で実験によって検証される。

Partial client participation has been widely adopted in Federated Learning (FL) to reduce the communication burden efficiently. However, an inadequate client sampling scheme can lead to the selection of unrepresentative subsets, resulting in significant variance in model updates and slowed convergence. Existing sampling methods are either biased or can be further optimized for faster convergence.In this paper, we present DELTA, an unbiased sampling scheme designed to alleviate these issues. DELTA characterizes the effects of client diversity and local variance, and samples representative clients with valuable information for global model updates. In addition, DELTA is a proven optimal unbiased sampling scheme that minimizes variance caused by partial client participation and outperforms other unbiased sampling schemes in terms of convergence. Furthermore, to address full-client gradient dependence,we provide a practical version of DELTA depending on the available clients' information, and also analyze its convergence. Our results are validated through experiments on both synthetic and real-world datasets.
翻訳日:2023-11-01 01:39:46 公開日:2023-10-29
# パラメトリック最適実行と機械学習サロゲートについて

On Parametric Optimal Execution and Machine Learning Surrogates ( http://arxiv.org/abs/2204.08581v3 )

ライセンス: Link先を確認
Tao Chen and Mike Ludkovski and Moritz Vo{\ss}(参考訳) 離散時間における最適順序実行問題を,瞬時価格の影響と確率的レジリエンスを用いて検討する。 まず、線形過渡的価格影響の設定において、最適戦略の閉形式的再帰を導き、Obishaeva と Wang (J Financial Markets, 2013) による決定論的結果を拡張する。 次に,bouchaudら(quant. finance, 2004)が提唱した非線形過渡価格の影響を考慮した動的計画法と深層学習に基づく数値アルゴリズムを開発した。 具体的には、価値関数とフィードバック制御のための2つのニューラルネットワーク(NN)サロゲートを構成するアクタ批判フレームワークを利用する。 NN関数近似器の柔軟なスケーラビリティによりパラメトリック学習が可能となり、入力空間の一部として複数のモデルや市場パラメータを組み込むことができる。 価格影響やレジリエンスの正確な校正は極めて困難であることが知られており、これらのパラメータに対する実行ポリシーの感度を理解することが重要である。 NN学習者は複数の入力次元にまたがって有機的にスケールし、幅広いパラメータ構成の最適戦略を正確に近似する。 本論文は, NN 実装による完全再現可能な Jupyter Notebook を提供することにより, NN サロゲートを (パラメトリック) 確率的制御問題で使用し易いことを示す。

We investigate optimal order execution problems in discrete time with instantaneous price impact and stochastic resilience. First, in the setting of linear transient price impact we derive a closed-form recursion for the optimal strategy, extending the deterministic results from Obizhaeva and Wang (J Financial Markets, 2013). Second, we develop a numerical algorithm based on dynamic programming and deep learning for the case of nonlinear transient price impact as proposed by Bouchaud et al. (Quant. Finance, 2004). Specifically, we utilize an actor-critic framework that constructs two neural-network (NN) surrogates for the value function and the feedback control. The flexible scalability of NN functional approximators enables parametric learning, i.e., incorporating several model or market parameters as part of the input space. Precise calibration of price impact, resilience, etc., is known to be extremely challenging and hence it is critical to understand sensitivity of the execution policy to these parameters. Our NN learner organically scales across multiple input dimensions and is shown to accurately approximate optimal strategies across a wide range of parameter configurations. We provide a fully reproducible Jupyter Notebook with our NN implementation, which is of independent pedagogical interest, demonstrating the ease of use of NN surrogates in (parametric) stochastic control problems.
翻訳日:2023-11-01 01:39:11 公開日:2023-10-29
# ロバスト微調整のための測地線マルチモーダル混合法

Geodesic Multi-Modal Mixup for Robust Fine-Tuning ( http://arxiv.org/abs/2203.03897v3 )

ライセンス: Link先を確認
Changdae Oh, Junhyuk So, Hoyoon Byun, YongTaek Lim, Minchul Shin, Jong-June Jeon, Kyungwoo Song(参考訳) CLIPのような事前訓練されたマルチモーダルモデルは、転送可能な埋め込みを提供し、多様なアプリケーションで有望な結果を示す。 しかし、学習したマルチモーダル埋め込みの解析は比較的未探索であり、埋め込み転送性を向上させることができる。 本研究では,CLIPが2つの異なるモードで分離された埋め込み部分空間を保持することを観察し,一様配向レンズを用いて学習表現の質を測定する。 理論的にも経験的にも,CLIPは微調整後も均一性やアライメントに乏しいことが示されている。 このようなアライメントと均一性の欠如は、埋め込みの転送可能性とロバスト性を制限する可能性がある。 そこで本研究では,アライメントと均一性に富むロバスト表現のための新しい微調整手法を提案する。 まず、画像とテキストの埋め込みを混合し、超球面上の硬い負のサンプルを生成するGeodesic Multi-Modal Mixupを提案する。 次に、ハード負のモデルと元の負のモデルと対照損失の正のモデルを微調整する。 硬さ保証と限界行動に関する理論的分析に基づき,本手法の使用を正当化する。 検索,キャリブレーション,少数あるいはゼロショットの分類(分布シフト),埋め込み算術,画像キャプションの広範な実験により,本手法が伝達可能な表現を提供し,多様なタスクに頑健なモデル適応を可能にすることを示す。 コード: https://github.com/changdaeoh/multimodal-mixup

Pre-trained multi-modal models, such as CLIP, provide transferable embeddings and show promising results in diverse applications. However, the analysis of learned multi-modal embeddings is relatively unexplored, and the embedding transferability can be improved. In this work, we observe that CLIP holds separated embedding subspaces for two different modalities, and then we investigate it through the lens of uniformity-alignment to measure the quality of learned representation. Both theoretically and empirically, we show that CLIP retains poor uniformity and alignment even after fine-tuning. Such a lack of alignment and uniformity might restrict the transferability and robustness of embeddings. To this end, we devise a new fine-tuning method for robust representation equipping better alignment and uniformity. First, we propose a Geodesic Multi-Modal Mixup that mixes the embeddings of image and text to generate hard negative samples on the hypersphere. Then, we fine-tune the model on hard negatives as well as original negatives and positives with contrastive loss. Based on the theoretical analysis about hardness guarantee and limiting behavior, we justify the use of our method. Extensive experiments on retrieval, calibration, few- or zero-shot classification (under distribution shift), embedding arithmetic, and image captioning further show that our method provides transferable representations, enabling robust model adaptation on diverse tasks. Code: https://github.com/changdaeoh/multimodal-mixup
翻訳日:2023-11-01 01:38:49 公開日:2023-10-29
# cubetr: トランスフォーマーを使ってルービックキューブの解法を学ぶ

CubeTR: Learning to Solve The Rubiks Cube Using Transformers ( http://arxiv.org/abs/2111.06036v2 )

ライセンス: Link先を確認
Mustafa Ebrahim Chasmai(参考訳) 最初の登場以来、トランスフォーマーはコンピュータビジョンから自然言語処理まで幅広い領域でうまく使われてきた。 シーケンスモデリング問題として再構成した強化学習における変圧器の適用は,最近になって提案された。 他の一般的な強化学習問題と比較すると、rubiks cubeは独自の課題となっている。 rubiks cubeは、可能な構成のクエンチリオンに対して単一の解決状態を持ち、極めて少ない報酬をもたらす。 提案モデルであるCubeTRは、より長いアクションシーケンスに参加し、スパース報酬の問題に対処する。 キューブTRは、ルービックキューブを人間に先行しない任意の開始状態から解く方法を学び、移動正則化の後、それによって生成される解の長さは、専門家の人間の解法が使用するアルゴリズムに非常に近いと期待されている。 CubeTRは、学習アルゴリズムの高次元立方体への一般化可能性と、他のスパース報酬シナリオにおける変換器の適用性に関する洞察を提供する。

Since its first appearance, transformers have been successfully used in wide ranging domains from computer vision to natural language processing. Application of transformers in Reinforcement Learning by reformulating it as a sequence modelling problem was proposed only recently. Compared to other commonly explored reinforcement learning problems, the Rubiks cube poses a unique set of challenges. The Rubiks cube has a single solved state for quintillions of possible configurations which leads to extremely sparse rewards. The proposed model CubeTR attends to longer sequences of actions and addresses the problem of sparse rewards. CubeTR learns how to solve the Rubiks cube from arbitrary starting states without any human prior, and after move regularisation, the lengths of solutions generated by it are expected to be very close to those given by algorithms used by expert human solvers. CubeTR provides insights to the generalisability of learning algorithms to higher dimensional cubes and the applicability of transformers in other relevant sparse reward scenarios.
翻訳日:2023-11-01 01:37:57 公開日:2023-10-29
# 事前学習モデルの知識向上に関する調査

A Survey of Knowledge Enhanced Pre-trained Models ( http://arxiv.org/abs/2110.00269v5 )

ライセンス: Link先を確認
Jian Yang, Xinyu Hu, Gang Xiao, Yulong Shen(参考訳) 事前学習された言語モデルは,自然言語処理(nlp)の分野で有望な性能を達成した自己教師あり学習を通じて,大規模テキストコーパスで情報表現を学習する。 しかし、これらのモデルは頑健さと解釈性の欠如に苦しむ。 我々は知識注入を伴う事前学習言語モデルを知識強化事前学習言語モデル(keplm)と呼ぶ。 これらのモデルは深い理解と論理的推論を示し、解釈可能性を導入する。 本調査では,NLPにおけるKEPLMの概要について概説する。 まず,事前学習言語モデルと知識表現学習の進歩について議論する。 次に,既存のKEPLMを3つの異なる視点から分類する。 最後に,KEPLMの今後の方向性について概説する。

Pre-trained language models learn informative word representations on a large-scale text corpus through self-supervised learning, which has achieved promising performance in fields of natural language processing (NLP) after fine-tuning. These models, however, suffer from poor robustness and lack of interpretability. We refer to pre-trained language models with knowledge injection as knowledge-enhanced pre-trained language models (KEPLMs). These models demonstrate deep understanding and logical reasoning and introduce interpretability. In this survey, we provide a comprehensive overview of KEPLMs in NLP. We first discuss the advancements in pre-trained language models and knowledge representation learning. Then we systematically categorize existing KEPLMs from three different perspectives. Finally, we outline some potential directions of KEPLMs for future research.
翻訳日:2023-11-01 01:37:42 公開日:2023-10-29
# 高次元ランダムテッセレーション林のミニマックスレート

Minimax Rates for High-Dimensional Random Tessellation Forests ( http://arxiv.org/abs/2109.10541v5 )

ライセンス: Link先を確認
Eliza O'Reilly and Ngoc Mai Tran(参考訳) ランダムフォレストは回帰と分類に使われるアルゴリズムの一般的なクラスである。 2001年にブレイマンによって導入されたアルゴリズムとその変種の多くは、特徴空間の軸方向の分割から構築されたランダム化決定木の集合である。 このような変種の一つ、モンドリアン・フォレスト(mondrian forests)はオンライン設定を扱うために提案され、任意の次元でミニマックス率が得られる最初のランダムフォレストである。 しかし、軸方向のスプリットに対する制限は特徴間の依存関係を捉えるのに失敗し、斜めスプリットを用いたランダムな森林は多くのタスクにおいて経験的性能が向上している。 本研究では,一般の分割方向を持つランダム林の大きなクラスが,任意の次元において最小の最適収束率を達成することを示す。 このクラスには、任意の分割方向へのモンドリアン森林の一般化であるSTIT林と、ポアソン超平面テッセルレーションに由来するランダム森林が含まれる。 これらは、斜め分割を持つランダムフォレスト変種が任意の次元のミニマックス最適性を得ることができることを示す最初の結果である。 この証明手法は,確率幾何学における定常ランダムテッセレーションの理論の統計学習理論への新しい応用に依拠している。

Random forests are a popular class of algorithms used for regression and classification. The algorithm introduced by Breiman in 2001 and many of its variants are ensembles of randomized decision trees built from axis-aligned partitions of the feature space. One such variant, called Mondrian forests, was proposed to handle the online setting and is the first class of random forests for which minimax rates were obtained in arbitrary dimension. However, the restriction to axis-aligned splits fails to capture dependencies between features, and random forests that use oblique splits have shown improved empirical performance for many tasks. In this work, we show that a large class of random forests with general split directions also achieve minimax optimal convergence rates in arbitrary dimension. This class includes STIT forests, a generalization of Mondrian forests to arbitrary split directions, as well as random forests derived from Poisson hyperplane tessellations. These are the first results showing that random forest variants with oblique splits can obtain minimax optimality in arbitrary dimension. Our proof technique relies on the novel application of the theory of stationary random tessellations in stochastic geometry to statistical learning theory.
翻訳日:2023-11-01 01:37:22 公開日:2023-10-29
# 医療プロファイルモデル:医療における科学的・実践的応用

Medical Profile Model: Scientific and Practical Applications in Healthcare ( http://arxiv.org/abs/2107.03913v3 )

ライセンス: Link先を確認
Pavel Blinov, Vladimir Kokh(参考訳) 電子健康記録における表現学習の課題について考察する。 本稿では, 患者履歴を, トランスフォーマーベースニューラルネットワークモデルを用いた教師なし設定で, 埋め込みを学習する病気の時間的シーケンスとして提示する。 埋め込みスペースには、一般的な患者プロファイルの作成と、他のドメインへの医療知識の転送を成功させるための人口統計パラメータが含まれている。 このような医療プロファイルモデルのトレーニングは、100万人以上の患者のデータセットで行われている。 詳細なモデル解析と最先端法との比較は, 診断予測タスクにおいて明らかに有利であることを示す。 さらに,開発したプロファイルモデルに基づく2つのアプリケーションを示す。 まず, 新たなハビンジャー病の発見法により, 疾患関連仮説を解明し, 疫学研究の設計に有用である可能性が示唆された。 第2に、保険評価タスクに適用したプロファイルモデルから抽出した患者埋め込みは、パフォーマンス指標を大幅に改善する。

The paper researches the problem of representation learning for electronic health records. We present the patient histories as temporal sequences of diseases for which embeddings are learned in an unsupervised setup with a transformer-based neural network model. Additionally the embedding space includes demographic parameters which allow the creation of generalized patient profiles and successful transfer of medical knowledge to other domains. The training of such a medical profile model has been performed on a dataset of more than one million patients. Detailed model analysis and its comparison with the state-of-the-art method show its clear advantage in the diagnosis prediction task. Further, we show two applications based on the developed profile model. First, a novel Harbinger Disease Discovery method allowing to reveal disease associated hypotheses and potentially are beneficial in the design of epidemiological studies. Second, the patient embeddings extracted from the profile model applied to the insurance scoring task allow significant improvement in the performance metrics.
翻訳日:2023-11-01 01:36:23 公開日:2023-10-29
# 不均一ニューラルネットワークを用いたニューロン障害の研究

Investigating Neuron Disturbing in Fusing Heterogeneous Neural Networks ( http://arxiv.org/abs/2210.12974v2 )

ライセンス: Link先を確認
Biao Zhang, and Shuqin Zhang(参考訳) 個別に配置されたクライアントでトレーニングされたディープラーニングモデルをワンショットのコミュニケーションラウンドでグローバルモデルに融合させることは、フェデレートラーニングの簡単な実装である。 現在のモデル融合法は、ほぼ同一のアーキテクチャを持つニューラルネットワークを融合するのに実験的に有効であるが、理論的に解析されることは滅多にない。 本稿では,異種局所モデルのニューロン同士が相互に干渉するニューロン乱れ現象を明らかにする。 本稿では、クライアント間のデータ不均一性とニューラルネットワークの特性を組み合わせたベイズ的視点による詳細な説明を行う。 さらに,神経障害を排除し,入力に応じて局所モデルであるamsを適応的に選択することでニューラルネットワークを融合させる実験手法を提案する。 実験により、AMSは一般モデル融合法やアンサンブル法よりもデータ不均一性において堅牢であることが示された。 これはモデル融合における神経障害を考える必要性を意味する。 加えて、amsは様々なアーキテクチャを実験的なアルゴリズムとして融合するモデルとして利用可能であり、将来の作業のためにいくつかのamsの拡張もリストアップしている。

Fusing deep learning models trained on separately located clients into a global model in a one-shot communication round is a straightforward implementation of Federated Learning. Although current model fusion methods are shown experimentally valid in fusing neural networks with almost identical architectures, they are rarely theoretically analyzed. In this paper, we reveal the phenomenon of neuron disturbing, where neurons from heterogeneous local models interfere with each other mutually. We give detailed explanations from a Bayesian viewpoint combining the data heterogeneity among clients and properties of neural networks. Furthermore, to validate our findings, we propose an experimental method that excludes neuron disturbing and fuses neural networks via adaptively selecting a local model, called AMS, to execute the prediction according to the input. The experiments demonstrate that AMS is more robust in data heterogeneity than general model fusion and ensemble methods. This implies the necessity of considering neural disturbing in model fusion. Besides, AMS is available for fusing models with varying architectures as an experimental algorithm, and we also list several possible extensions of AMS for future work.
翻訳日:2023-11-01 01:29:28 公開日:2023-10-29
# アイテム応答理論へのスペクトル的アプローチ

A Spectral Approach to Item Response Theory ( http://arxiv.org/abs/2210.04317v2 )

ライセンス: Link先を確認
Duc Nguyen and Anderson Zhang(参考訳) raschモデルは \emph{item response theory} の最も基本的なモデルの1つであり、教育試験からレコメンデーションシステムまで幅広い応用がある。 x_{li} \in \{0,1\}$ of a user $l$ with parameter $\theta^*_l$ to a item $i$ with parameter $\beta^*_i$ (例:ユーザーが映画が好きで、学生が正しく問題を解く)は$\Pr(X_{li}=1) = 1/(1 + \exp{-(\theta^*_l - \beta^*_i)} として配布される。 本稿では,この有名なモデル(すなわち$\beta^*$ を推定するために)に対する \emph{new item estimation} アルゴリズムを提案する。 我々のアルゴリズムの中核は、アイテム-イムグラフ上で定義されたマルコフ連鎖の定常分布の計算である。 本稿では,アルゴリズムの寄与を有限サンプル誤差保証で補うことにより,本アルゴリズムが一貫性を持ち,良好な最適性を持つことを示す。 実践者が採用できるアルゴリズムを加速し、強化するための実践的な修正について議論する。 小さな教育用データセットから大きなレコメンデーションシステムデータセットまで、合成および実生活データセットの実験では、アルゴリズムがスケーラブルで正確であり、文献でよく使われる手法と競合していることを示している。

The Rasch model is one of the most fundamental models in \emph{item response theory} and has wide-ranging applications from education testing to recommendation systems. In a universe with $n$ users and $m$ items, the Rasch model assumes that the binary response $X_{li} \in \{0,1\}$ of a user $l$ with parameter $\theta^*_l$ to an item $i$ with parameter $\beta^*_i$ (e.g., a user likes a movie, a student correctly solves a problem) is distributed as $\Pr(X_{li}=1) = 1/(1 + \exp{-(\theta^*_l - \beta^*_i)})$. In this paper, we propose a \emph{new item estimation} algorithm for this celebrated model (i.e., to estimate $\beta^*$). The core of our algorithm is the computation of the stationary distribution of a Markov chain defined on an item-item graph. We complement our algorithmic contributions with finite-sample error guarantees, the first of their kind in the literature, showing that our algorithm is consistent and enjoys favorable optimality properties. We discuss practical modifications to accelerate and robustify the algorithm that practitioners can adopt. Experiments on synthetic and real-life datasets, ranging from small education testing datasets to large recommendation systems datasets show that our algorithm is scalable, accurate, and competitive with the most commonly used methods in the literature.
翻訳日:2023-11-01 01:28:48 公開日:2023-10-29
# 潜在ガウス分布による双曲型VAE

Hyperbolic VAE via Latent Gaussian Distributions ( http://arxiv.org/abs/2209.15217v3 )

ライセンス: Link先を確認
Seunghyuk Cho, Juyong Lee, Dongwoo Kim(参考訳) 本稿ではガウス多様体の変分オートエンコーダ(GM-VAE)を提案する。 フィッシャー情報計量による単変数ガウス分布の集合が双曲空間を形成し、ガウス多様体と呼ぶことが知られている。 ガウス多様体に与えられたvaeを学習するために,2乗フィッシャー・ラオ距離の局所近似であるkullback-leibler divergenceに基づく擬ガウス多様体正規分布を提案し,潜在空間上の密度を定義する。 実験では,gm-vaeが画像データセットの密度推定と,モデルベース強化学習における環境モデリングに有効であることを示す。 GM-VAEは密度推定タスクにおいて他の双曲型およびユークリッド型VAEよりも優れ、モデルベース強化学習における競合性能を示す。 我々は,従来の双曲型VAEで報告された共通制限に対処し,強い数値安定性を提供する。

We propose a Gaussian manifold variational auto-encoder (GM-VAE) whose latent space consists of a set of Gaussian distributions. It is known that the set of the univariate Gaussian distributions with the Fisher information metric form a hyperbolic space, which we call a Gaussian manifold. To learn the VAE endowed with the Gaussian manifolds, we propose a pseudo-Gaussian manifold normal distribution based on the Kullback-Leibler divergence, a local approximation of the squared Fisher-Rao distance, to define a density over the latent space. In experiments, we demonstrate the efficacy of GM-VAE on two different tasks: density estimation of image datasets and environment modeling in model-based reinforcement learning. GM-VAE outperforms the other variants of hyperbolic- and Euclidean-VAEs on density estimation tasks and shows competitive performance in model-based reinforcement learning. We observe that our model provides strong numerical stability, addressing a common limitation reported in previous hyperbolic-VAEs.
翻訳日:2023-11-01 01:27:55 公開日:2023-10-29
# マルチプロンプトアライメントによるマルチソース非教師なしドメイン適応

Multi-Prompt Alignment for Multi-Source Unsupervised Domain Adaptation ( http://arxiv.org/abs/2209.15210v4 )

ライセンス: Link先を確認
Haoran Chen, Zuxuan Wu, Xintong Han, Yu-Gang Jiang(参考訳) 非教師なしドメイン適応(UDA)の既存の手法は、ドメイン不変の特徴を抽出するために共有ネットワークに依存している。 しかしながら、複数のソースドメインに直面する場合、そのようなネットワークを最適化するには、ネットワーク全体のパラメータを更新することが必要となる。 計算的経済的な方法で下流タスクに高容量モデルを適用する,近年の素早い学習の進歩に触発されて,マルチソースUDAのためのシンプルかつ効率的なフレームワークであるMPA(Multi-Prompt Alignment)を導入した。 ソースとターゲットのドメインペアが与えられた場合、MPAはまず個々のプロンプトをトレーニングし、対照的な損失によってドメインギャップを最小限にする。 そして、MPAは、学習したプロンプトを自動エンコードプロセスで認知し、再構成されたプロンプトの合意を最大化することでそれらを調整する。 さらに,自動符号化プロセスから得られる部分空間が,対象領域の合理化に容易に適用可能であることを示し,本手法を実用化するために有効であることを示す。 大規模な実験により、MPAは3つの一般的なデータセットで最先端の結果を達成し、DomainNetの平均精度は54.1%である。

Most existing methods for unsupervised domain adaptation (UDA) rely on a shared network to extract domain-invariant features. However, when facing multiple source domains, optimizing such a network involves updating the parameters of the entire network, making it both computationally expensive and challenging, particularly when coupled with min-max objectives. Inspired by recent advances in prompt learning that adapts high-capacity models for downstream tasks in a computationally economic way, we introduce Multi-Prompt Alignment (MPA), a simple yet efficient framework for multi-source UDA. Given a source and target domain pair, MPA first trains an individual prompt to minimize the domain gap through a contrastive loss. Then, MPA denoises the learned prompts through an auto-encoding process and aligns them by maximizing the agreement of all the reconstructed prompts. Moreover, we show that the resulting subspace acquired from the auto-encoding process can easily generalize to a streamlined set of target domains, making our method more efficient for practical usage. Extensive experiments show that MPA achieves state-of-the-art results on three popular datasets with an impressive average accuracy of 54.1% on DomainNet.
翻訳日:2023-11-01 01:27:37 公開日:2023-10-29
# 医学分野におけるフェデレートラーニング : 分類学, 現状, 課題, 今後の研究方向性

Federated Learning for Medical Applications: A Taxonomy, Current Trends, Challenges, and Future Research Directions ( http://arxiv.org/abs/2208.03392v5 )

ライセンス: Link先を確認
Ashish Rauniyar, Desta Haileselassie Hagos, Debesh Jha, Jan Erik H{\aa}keg{\aa}rd, Ulas Bagci, Danda B. Rawat, and Vladimir Vlassov(参考訳) iot、ai、ml、dlアルゴリズムの出現により、データ駆動医療アプリケーションの展望は、医療データから堅牢でスケーラブルな診断および予測モデルを設計するための有望な道として現れてきた。 これは学術と産業の両方から多くの注目を集め、医療の質が大幅に向上した。 しかし、AI駆動の医療アプリケーションの採用は、セキュリティ、プライバシ、QoS(Quality of Service)標準を満たすなど、依然として困難な課題に直面している。 近年の \ac{fl} の開発により、複雑な機械学習モデルの分散トレーニングが可能となり、特にネットワークの端にある医療データを、プライバシの保護とセキュリティ上の懸念に対処する分散型の方法で処理する、活発な研究領域となっている。 そこで本論文では,データ共有が重要な課題である医療アプリケーションにおけるFL技術の現状と将来について検討する。 信頼性が高くスケーラブルな \ac{FL} モデルの設計の複雑さを誇示し、現在の研究動向とその成果を掘り下げる。 本稿では,FLの基本的な統計問題を概説し,デバイス関連問題に取り組み,セキュリティ問題に対処し,プライバシー上の懸念の複雑さを回避しつつ,医療分野におけるその変革の可能性を強調した。 本研究は,特にグローバルながん診断の文脈における<ac{FL}の医学的応用に焦点を当てた。 我々はこの課題に対処するコンピュータ支援診断ツールを従来のデータ駆動手法よりも有効に活用する可能性を強調した。 この総合的なレビューがこの分野のチェックポイントとして機能し、現状を要約し、オープンな問題と今後の研究方向性を特定することを願っている。

With the advent of the IoT, AI, ML, and DL algorithms, the landscape of data-driven medical applications has emerged as a promising avenue for designing robust and scalable diagnostic and prognostic models from medical data. This has gained a lot of attention from both academia and industry, leading to significant improvements in healthcare quality. However, the adoption of AI-driven medical applications still faces tough challenges, including meeting security, privacy, and quality of service (QoS) standards. Recent developments in \ac{FL} have made it possible to train complex machine-learned models in a distributed manner and have become an active research domain, particularly processing the medical data at the edge of the network in a decentralized way to preserve privacy and address security concerns. To this end, in this paper, we explore the present and future of FL technology in medical applications where data sharing is a significant challenge. We delve into the current research trends and their outcomes, unravelling the complexities of designing reliable and scalable \ac{FL} models. Our paper outlines the fundamental statistical issues in FL, tackles device-related problems, addresses security challenges, and navigates the complexity of privacy concerns, all while highlighting its transformative potential in the medical field. Our study primarily focuses on medical applications of \ac{FL}, particularly in the context of global cancer diagnosis. We highlight the potential of FL to enable computer-aided diagnosis tools that address this challenge with greater effectiveness than traditional data-driven methods. We hope that this comprehensive review will serve as a checkpoint for the field, summarizing the current state-of-the-art and identifying open problems and future research directions.
翻訳日:2023-11-01 01:26:40 公開日:2023-10-29
# Hansel: 中国のFew-ShotとZero-Shot Entity Linkingベンチマーク

Hansel: A Chinese Few-Shot and Zero-Shot Entity Linking Benchmark ( http://arxiv.org/abs/2207.13005v2 )

ライセンス: Link先を確認
Zhenran Xu, Zifei Shan, Yuxin Li, Baotian Hu, Bing Qin(参考訳) 現代のエンティティリンク(EL)システムは、人気バイアスを抱いているが、英語以外の言語の尾と新興エンティティに焦点を当てたデータセットはない。 今回紹介するhanselは、中国語の新しいベンチマークで、英語以外の少数ショットとゼロショットのelチャレンジの空白を埋める。 Hanselのテストセットは注釈付きでレビューされ、ゼロショットのELデータセットを収集する新しい方法によって作成される。 Wikidataをターゲットとするニュース、ソーシャルメディア投稿、その他のウェブ記事の10万件の多種多様なドキュメントをカバーしている。 既存の最先端ELシステムはHansel(Few-ShotのR@1は36.6%)では性能が良くないことを示す。 次に、Few-Shotで46.2%、Zero-Shotで76.6%という強力なベースラインを確立します。 また,TAC-KBP2015 China Entity Linkingタスクにおいて,ベースラインが競合する結果を得ることを示す。

Modern Entity Linking (EL) systems entrench a popularity bias, yet there is no dataset focusing on tail and emerging entities in languages other than English. We present Hansel, a new benchmark in Chinese that fills the vacancy of non-English few-shot and zero-shot EL challenges. The test set of Hansel is human annotated and reviewed, created with a novel method for collecting zero-shot EL datasets. It covers 10K diverse documents in news, social media posts and other web articles, with Wikidata as its target Knowledge Base. We demonstrate that the existing state-of-the-art EL system performs poorly on Hansel (R@1 of 36.6% on Few-Shot). We then establish a strong baseline that scores a R@1 of 46.2% on Few-Shot and 76.6% on Zero-Shot on our dataset. We also show that our baseline achieves competitive results on TAC-KBP2015 Chinese Entity Linking task.
翻訳日:2023-11-01 01:25:32 公開日:2023-10-29
# 極性格子ガス中の非エルゴーディティーの格子制御

Lattice control of non-ergodicity in a polar lattice gas ( http://arxiv.org/abs/2207.06186v3 )

ライセンス: Link先を確認
H. Korbmacher, P. Sierant, W. Li, X. Deng, J. Zakrzewski, and L. Santos(参考訳) 極性格子ガス中のサイト間相互作用は、ヒルベルト空間の断片化により、障害がなくてもエルゴード性の欠如により生じる可能性がある。 光学格子中の一次元双極子気体のサイト間相互作用は、通常考慮される1/r^3$依存から逸脱し、横方向閉じ込めと格子深さに依存する普遍的な形態を得る。 ヒルベルト空間の断片化と粒子動力学は、最も近い隣人や隣人の重要な役割のため、パワーローモデル $1/r^{\beta_{\mathrm{eff}}<3}$ と非常によく似ており、$\beta_{\mathrm{eff}}$ は、横方向の閉じ込めを適切に調整することで実験的に制御可能である。 本研究は,光格子中の双極子気体実験の直接実験的妥当性を示し,準1次元格子モデルが強い3次元格子で実現された場合,あるいは強い交叉高調波閉じ込めにより粒子の動力学が著しく異なることを示す。

Inter-site interactions in polar lattice gases may result, due to Hilbert-space fragmentation, in a lack of ergodicity even in absence of disorder. We show that the inter-site interaction in a one-dimensional dipolar gas in an optical lattice departs from the usually considered $1/r^3$ dependence, acquiring a universal form that depends on the transversal confinement and the lattice depth. Due to the crucial role played by the nearest- and next-to-nearest neighbors, the Hilbert-space fragmentation and particle dynamics are very similar to that of a power-law model $1/r^{\beta_{\mathrm{eff}}<3}$, where $\beta_{\mathrm{eff}}$ is experimentally controllable by properly tailoring the transversal confinement. Our results are of direct experimental relevance for experiments on dipolar gases in optical lattices, and show that the particle dynamics may be remarkably different if the quasi-1D lattice model is realized in a strong 3D lattice, or by means of a strong transversal harmonic confinement.
翻訳日:2023-11-01 01:24:49 公開日:2023-10-29
# ロボット学習における公平性とバイアス

Fairness and Bias in Robot Learning ( http://arxiv.org/abs/2207.03444v2 )

ライセンス: Link先を確認
Laura Londo\~no, Juana Valeria Hurtado, Nora Hertz, Philipp Kellmeyer, Silja Voeneky, Abhinav Valada(参考訳) 機械学習はロボットの能力を大幅に向上させ、人間の環境で広範囲のタスクを実行し、不確実な現実世界に適応できるようにする。 機械学習領域における最近の研究は、これらのアルゴリズムが人間の偏見を再現せず、差別的な結果をもたらすことを確実にするため、公平性を考慮することの重要性を強調している。 ロボット学習システムは日々の生活の中でますます多くのタスクをこなすようになり、そのようなバイアスの影響を理解して、特定の集団に対する意図しない行動を防ぐことが不可欠である。 本研究では,技術的,倫理的,法的課題にまたがる学際的な観点から,ロボット学習における公正性に関する最初の調査を示す。 バイアスの発生源とそれに起因する差別の分類法を提案する。 異なるロボット学習領域の例を用いて、不公平な結果のシナリオとそれらを緩和するための戦略を検討する。 本稿では,公平性の定義,倫理的,法的考察,公平なロボット学習のための方法などについて述べる。 この研究により、公正なロボット学習における画期的な開発への道を切り開くことを目指している。

Machine learning has significantly enhanced the abilities of robots, enabling them to perform a wide range of tasks in human environments and adapt to our uncertain real world. Recent works in various machine learning domains have highlighted the importance of accounting for fairness to ensure that these algorithms do not reproduce human biases and consequently lead to discriminatory outcomes. With robot learning systems increasingly performing more and more tasks in our everyday lives, it is crucial to understand the influence of such biases to prevent unintended behavior toward certain groups of people. In this work, we present the first survey on fairness in robot learning from an interdisciplinary perspective spanning technical, ethical, and legal challenges. We propose a taxonomy for sources of bias and the resulting types of discrimination due to them. Using examples from different robot learning domains, we examine scenarios of unfair outcomes and strategies to mitigate them. We present early advances in the field by covering different fairness definitions, ethical and legal considerations, and methods for fair robot learning. With this work, we aim to pave the road for groundbreaking developments in fair robot learning.
翻訳日:2023-11-01 01:24:06 公開日:2023-10-29
# CGOF++:条件付き生成操作場を用いた制御可能な3次元顔合成

CGOF++: Controllable 3D Face Synthesis with Conditional Generative Occupancy Fields ( http://arxiv.org/abs/2211.13251v2 )

ライセンス: Link先を確認
Keqiang Sun, Shangzhe Wu, Ning Zhang, Zhaoyang Huang, Quan Wang, Hongsheng Li(参考訳) 画像生成モデルの最近の進歩を活かして、既存の制御可能な顔画像合成手法は、生成した顔画像の形状、表情、テクスチャ、ポーズの制御など、ある程度の制御性を持つ高忠実な画像を生成することができる。 しかし、従来の手法では制御可能な2次元画像生成モデルに焦点をあてており、大きな表情とポーズ変化の下で一貫性のない顔画像を生成する傾向がある。 本稿では,3次元顔先行画像から3次元条件を明示することにより,生成した顔画像の3次元制御を可能にする,NeRFベースの条件付き3次元顔合成フレームワークを提案する。 コアとなるのは条件付き生成操作場(cGOF++)であり、それによって生成された顔の形状を、最新の三面体ベースの生成モデルEG3D [1]上に構築された所定の3Dモルファブルモデル(3DMM)メッシュに効果的に適合させる。 合成画像の微細な3次元顔形状の正確な制御を実現するため,合成フレームワークに3次元ランドマークの損失と体積の歪みの損失を取り入れた。 提案手法の有効性を検証し,高忠実な顔画像を生成し,最先端の2Dベースの制御可能な顔合成法よりも高精度な3D制御性を示す。

Capitalizing on the recent advances in image generation models, existing controllable face image synthesis methods are able to generate high-fidelity images with some levels of controllability, e.g., controlling the shapes, expressions, textures, and poses of the generated face images. However, previous methods focus on controllable 2D image generative models, which are prone to producing inconsistent face images under large expression and pose changes. In this paper, we propose a new NeRF-based conditional 3D face synthesis framework, which enables 3D controllability over the generated face images by imposing explicit 3D conditions from 3D face priors. At its core is a conditional Generative Occupancy Field (cGOF++) that effectively enforces the shape of the generated face to conform to a given 3D Morphable Model (3DMM) mesh, built on top of EG3D [1], a recent tri-plane-based generative model. To achieve accurate control over fine-grained 3D face shapes of the synthesized images, we additionally incorporate a 3D landmark loss as well as a volume warping loss into our synthesis framework. Experiments validate the effectiveness of the proposed method, which is able to generate high-fidelity face images and shows more precise 3D controllability than state-of-the-art 2D-based controllable face synthesis methods.
翻訳日:2023-10-31 23:43:45 公開日:2023-10-29
# データ駆動神経科学 - データ収集とベンチマークについて

Data-Driven Network Neuroscience: On Data Collection and Benchmark ( http://arxiv.org/abs/2211.12421v6 )

ライセンス: Link先を確認
Jiaxing Xu, Yunhan Yang, David Tse Jung Huang, Sophi Shilpa Gururajapathy, Yiping Ke, Miao Qiao, Alan Wang, Haribalan Kumar, Josh McGeown, Eryn Kwon(参考訳) 本稿では,神経科学,機械学習,グラフ分析の交点研究のための機能的脳ネットワークデータの包括的かつ高品質な収集について述べる。 解剖学的および機能的mri画像は、脳の機能的結合を理解するために用いられており、特にアルツハイマー病、パーキンソン病、自閉症などの神経変性疾患の同定に重要である。 近年、機械学習とグラフ分析を用いた脳ネットワークの形での脳の研究が、特にこれらの状態の早期発生を予測するために人気が高まっている。 グラフとして表される脳ネットワークは、従来の検査方法では捉えられないような豊富な構造と位置情報を保持している。 しかし、公開アクセス可能な脳ネットワークデータの欠如は、研究者がデータ駆動の探索を妨げている。 主な難点の1つは、複雑なドメイン固有の前処理ステップと、mri画像から脳ネットワークへのデータ変換に必要な徹底的な計算である。 我々は、公開データベースとプライベートソースから大量のMRI画像を収集し、ドメインの専門家と協力して適切な設計選択を行い、MRIイメージを前処理して脳ネットワークデータセットのコレクションを作成することで、このギャップを埋める。 データセットは6つの異なるソースから始まり、4つの脳の状態をカバーし、合計で2,702人の被験者で構成されている。 グラフデータセットを12の機械学習モデルでテストし、ベースラインを提供し、最近のグラフ解析モデルでデータ品質を検証する。 この学際分野における参入障壁を低くし、研究を促進するために、我々は脳ネットワークデータと、https://doi.org/10.17608/k6.auckland.21397377およびhttps://github.com/brainnetuoa/data_driven_network_neuroscienceのコードを含む完全な前処理の詳細をリリースする。

This paper presents a comprehensive and quality collection of functional human brain network data for potential research in the intersection of neuroscience, machine learning, and graph analytics. Anatomical and functional MRI images have been used to understand the functional connectivity of the human brain and are particularly important in identifying underlying neurodegenerative conditions such as Alzheimer's, Parkinson's, and Autism. Recently, the study of the brain in the form of brain networks using machine learning and graph analytics has become increasingly popular, especially to predict the early onset of these conditions. A brain network, represented as a graph, retains rich structural and positional information that traditional examination methods are unable to capture. However, the lack of publicly accessible brain network data prevents researchers from data-driven explorations. One of the main difficulties lies in the complicated domain-specific preprocessing steps and the exhaustive computation required to convert the data from MRI images into brain networks. We bridge this gap by collecting a large amount of MRI images from public databases and a private source, working with domain experts to make sensible design choices, and preprocessing the MRI images to produce a collection of brain network datasets. The datasets originate from 6 different sources, cover 4 brain conditions, and consist of a total of 2,702 subjects. We test our graph datasets on 12 machine learning models to provide baselines and validate the data quality on a recent graph analysis model. To lower the barrier to entry and promote the research in this interdisciplinary field, we release our brain network data and complete preprocessing details including codes at https://doi.org/10.17608/k6.auckland.21397377 and https://github.com/brainnetuoa/data_driven_network_neuroscience.
翻訳日:2023-10-31 23:43:19 公開日:2023-10-29
# 非対向特異点を有するブレイド保護トポロジカルバンド構造

Braid Protected Topological Band Structures with Unpaired Exceptional Points ( http://arxiv.org/abs/2211.05788v2 )

ライセンス: Link先を確認
J. Lukas K. K\"onig, Kang Yang, Jan Carl Budich and Emil J. Bergholtz(参考訳) 位相的に安定な非ペア付き例外点 (eps) の存在を実証し, 単純非エルミート的(nh)タイト結合モデルを構築した。 フェルミオンは安定な節点の位相電荷を反ドートで補償する必要性を2倍にしながらも、エルミート半金属の領域における我々の発見の直接の対応を除外し、複雑なエネルギー準位の非可換ブレイドが非ペアリングなepをいかに安定させるかを導出する。 この知見に基づき、最小の3バンドモデルのブリルアンゾーンにおいて、非アベル単極として表される単一の非ペアリングepの存在を明らかにした。 この3階の縮退は、局所摂動によって完全にガッピングできない大きな位相相の中の甘いスポットを表している。 代わりに、ブリルアンゾーンの非同値な大円を移動した後、ペアの消滅によってのみギャップを空ける単純な(二階の)退化にしかならない。 この結果は,3つ以上の複雑なエネルギーレベルを絡むブレイド群の非アベリア表現による巻数に基づくトポロジカル分類の不完全性を示し,非エルミート系のトポロジカルロバスト性とその非アベリア位相遷移に関する洞察を与える。

We demonstrate the existence of topologically stable unpaired exceptional points (EPs), and construct simple non-Hermitian (NH) tight-binding models exemplifying such remarkable nodal phases. While fermion doubling, i.e. the necessity of compensating the topological charge of a stable nodal point by an anti-dote, rules out a direct counterpart of our findings in the realm of Hermitian semimetals, here we derive how noncommuting braids of complex energy levels may stabilize unpaired EPs. Drawing on this insight, we reveal the occurrence of a single, unpaired EP, manifested as a non-Abelian monopole in the Brillouin zone of a minimal three-band model. This third-order degeneracy represents a sweet spot within a larger topological phase that cannot be fully gapped by any local perturbation. Instead, it may only split into simpler (second-order) degeneracies that can only gap out by pairwise annihilation after having moved around inequivalent large circles of the Brillouin zone. Our results imply the incompleteness of a topological classification based on winding numbers, due to non-Abelian representations of the braid group intertwining three or more complex energy levels, and provide insights into the topological robustness of non-Hermitian systems and their non-Abelian phase transitions.
翻訳日:2023-10-31 23:41:51 公開日:2023-10-29
# バイアス軽減の再考: より公正なアーキテクチャはより公平な顔認識を実現する

Rethinking Bias Mitigation: Fairer Architectures Make for Fairer Face Recognition ( http://arxiv.org/abs/2210.09943v2 )

ライセンス: Link先を確認
Rhea Sanjay Sukthanker, Samuel Dooley, John P. Dickerson, Colin White, Frank Hutter, Micah Goldblum(参考訳) 顔認識システムは、法執行機関を含む安全クリティカルなアプリケーションで広く利用されているが、性別や人種など、さまざまな社会デミック次元に偏りがある。 従来の知識では、モデルのバイアスはバイアスのあるトレーニングデータから生じる。 その結果、バイアス緩和に関する以前の研究は、トレーニングデータの前処理に重点を置いており、トレーニング中にモデルにバイアスが影響することを防ぐためのペナルティを追加したり、それらを弱めるための後処理予測を加えたりしている。 私たちの研究では、バイアスはニューラルネットワークアーキテクチャ自体に固有のものであることが分かりました。 この再フレーミングに続いて、超パラメータの探索と共同で、最初のフェアネスのニューラルアーキテクチャ探索を行う。 我々の検索では,顔識別のための最も広く使われている2つのデータセットであるCelebAとVGGFace2に基づいて,他の高性能アーキテクチャや既存のバイアス軽減手法を精度と公平性の観点から支配するモデル群を出力する。 さらに、これらのモデルは、他のデータセットと繊細な属性に一般化する。 コード、モデル、生のデータファイルをhttps://github.com/dooleys/FR-NASでリリースします。

Face recognition systems are widely deployed in safety-critical applications, including law enforcement, yet they exhibit bias across a range of socio-demographic dimensions, such as gender and race. Conventional wisdom dictates that model biases arise from biased training data. As a consequence, previous works on bias mitigation largely focused on pre-processing the training data, adding penalties to prevent bias from effecting the model during training, or post-processing predictions to debias them, yet these approaches have shown limited success on hard problems such as face recognition. In our work, we discover that biases are actually inherent to neural network architectures themselves. Following this reframing, we conduct the first neural architecture search for fairness, jointly with a search for hyperparameters. Our search outputs a suite of models which Pareto-dominate all other high-performance architectures and existing bias mitigation methods in terms of accuracy and fairness, often by large margins, on the two most widely used datasets for face identification, CelebA and VGGFace2. Furthermore, these models generalize to other datasets and sensitive attributes. We release our code, models and raw data files at https://github.com/dooleys/FR-NAS.
翻訳日:2023-10-31 23:40:33 公開日:2023-10-29
# intel labsのego4d challenge 2022 - オーディオとビジュアルのダイアリゼーションのためのベースラインの改善

Intel Labs at Ego4D Challenge 2022: A Better Baseline for Audio-Visual Diarization ( http://arxiv.org/abs/2210.07764v3 )

ライセンス: Link先を確認
Kyle Min(参考訳) 本稿では,Ego4D Challenge 2022におけるAVD(Audio-Visual Diarization)の取り組みについて述べる。 具体的には、公式のベースラインに対して複数の技術的改善を加えます。 まず,モデルの学習方式を変更することにより,カメラ装着者の音声活動の検出性能を向上させる。 第2に,カメラ装着者の音声活動にのみ適用した場合,オフザシェルフ音声活動検出モデルにより,偽陽性を効果的に除去できることを見出した。 最後に、よりアクティブな話者検出が、より優れたAVD結果をもたらすことを示す。 最終手法はEgo4Dのテストセットの65.9%のDERを取得し,全てのベースラインを著しく上回る結果となった。 Ego4D Challenge 2022で1位を獲得した。

This report describes our approach for the Audio-Visual Diarization (AVD) task of the Ego4D Challenge 2022. Specifically, we present multiple technical improvements over the official baselines. First, we improve the detection performance of the camera wearer's voice activity by modifying the training scheme of its model. Second, we discover that an off-the-shelf voice activity detection model can effectively remove false positives when it is applied solely to the camera wearer's voice activities. Lastly, we show that better active speaker detection leads to a better AVD outcome. Our final method obtains 65.9% DER on the test set of Ego4D, which significantly outperforms all the baselines. Our submission achieved 1st place in the Ego4D Challenge 2022.
翻訳日:2023-10-31 23:39:15 公開日:2023-10-29
# Describe, Explain, Plan and Select: オープンワールドマルチタスクエージェントを実現する大規模言語モデルによる対話型プランニング

Describe, Explain, Plan and Select: Interactive Planning with Large Language Models Enables Open-World Multi-Task Agents ( http://arxiv.org/abs/2302.01560v2 )

ライセンス: Link先を確認
Zihao Wang, Shaofei Cai, Guanzhou Chen, Anji Liu, Xiaojian Ma, Yitao Liang(参考訳) オープンワールド環境におけるマルチタスク実施エージェントのタスクプランニングの課題について検討する。 主な難点は2つある。 1)オープンワールド環境(例えばminecraft)での計画実行は,タスクの長期的性質から,正確かつ多段階的な推論を必要とする。 2)バニラプランナーは、複雑な計画内で並列サブゴールを注文する際に、現在のエージェントが与えられたサブタスクをどれだけ容易に達成できるかを考慮しないので、結果として得られるプランは効率が悪いか、あるいは不可能かもしれない。 そこで本稿では,Large Language Models (LLMs) に基づいた対話型計画手法である "$\underline{D}$escribe, $\underline{E}$xplain, $\underline{P}$lan and $\underline{S}$elect" ("\textbf{DEPS}$") を提案する。 DEPSは、計画実行プロセスの$\textit{description}$を統合し、拡張計画フェーズで障害に遭遇した場合に、セルフ$\textit{explanation}$のフィードバックを提供することで、初期LLM生成の$\textit{plan}$のエラー修正を容易にする。 さらに、$\textit{selector}$という目標が含まれており、これは並列候補のサブゴールを推定された完了ステップに基づいてランク付けし、初期計画を精査するトレーニング可能なモジュールである。 われわれの実験は、70以上のMinecraftタスクをしっかりと達成し、全体的なパフォーマンスをほぼ2倍にするという、最初のゼロショットマルチタスクエージェントの節目だ。 さらなるテストにより、一般に採用されている非オープンなドメイン(ALFWorldやテーブルトップ操作など)においても、我々の手法の一般的な効果が明らかになる。 アブレーションと探索研究は、我々のデザインがどのようにそのデザインに勝っているかを詳述し、我々のアプローチに対する大きな挑戦である$\texttt{ObtainDiamond}の有望なアップデートを提供する。 コードはhttps://github.com/craftjarvis/mc-plannerでリリースされる。

We investigate the challenge of task planning for multi-task embodied agents in open-world environments. Two main difficulties are identified: 1) executing plans in an open-world environment (e.g., Minecraft) necessitates accurate and multi-step reasoning due to the long-term nature of tasks, and 2) as vanilla planners do not consider how easy the current agent can achieve a given sub-task when ordering parallel sub-goals within a complicated plan, the resulting plan could be inefficient or even infeasible. To this end, we propose "$\underline{D}$escribe, $\underline{E}$xplain, $\underline{P}$lan and $\underline{S}$elect" ($\textbf{DEPS}$), an interactive planning approach based on Large Language Models (LLMs). DEPS facilitates better error correction on initial LLM-generated $\textit{plan}$ by integrating $\textit{description}$ of the plan execution process and providing self-$\textit{explanation}$ of feedback when encountering failures during the extended planning phases. Furthermore, it includes a goal $\textit{selector}$, which is a trainable module that ranks parallel candidate sub-goals based on the estimated steps of completion, consequently refining the initial plan. Our experiments mark the milestone of the first zero-shot multi-task agent that can robustly accomplish 70+ Minecraft tasks and nearly double the overall performances. Further testing reveals our method's general effectiveness in popularly adopted non-open-ended domains as well (i.e., ALFWorld and tabletop manipulation). The ablation and exploratory studies detail how our design beats the counterparts and provide a promising update on the $\texttt{ObtainDiamond}$ grand challenge with our approach. The code is released at https://github.com/CraftJarvis/MC-Planner.
翻訳日:2023-10-31 23:31:11 公開日:2023-10-29
# ImageNetにおける決定論的ロバスト性証明のアンロック

Unlocking Deterministic Robustness Certification on ImageNet ( http://arxiv.org/abs/2301.12549v3 )

ライセンス: Link先を確認
Kai Hu, Andy Zou, Zifan Wang, Klas Leino, Matt Fredrikson(参考訳) リプシッツに基づく決定論的保証による確固たるロバスト深層学習手法の約束にもかかわらず、現在の最先端の結果はcifar-10のような低次元データに対するフィードフォワード畳み込みネットワーク(convnets)に限定されている。 本稿では,より大規模でより深いモデルに頑健なトレーニングを拡大するための戦略を検討する。 ディープネットワークの認証における重要な課題は、ResNetやViTアーキテクチャに見られる残差ブロックに対するリプシッツ境界の効率的な計算である。 従来のresnetに対するリプシッツ定数のバウンド方法がゆるいことを示すとともに、新しい残差ブロックを設計することにより、これに対処する方法を示し、これを \emph{linear resnet} (liresnet) アーキテクチャへと導く。 次に,emph{ efficient margin maximization} (emma) を導入する。これは,emph{all}クラスから最悪の例を同時にペナルタライズすることで,堅牢なトレーニングを安定化するロス関数である。 これらの貢献により、CIFAR-10/100とTiny-ImageNetで$\ell_2$の摂動の下で、新しいemph{state-of-the-art}の堅牢な精度が得られる。 さらに、我々は初めて、高速決定論的ロバストネス保証をimagenetにスケールアップすることができ、このロバスト学習アプローチが現実世界のアプリケーションに適用可能であることを実証する。 私たちはコードをgithubでリリースしています。

Despite the promise of Lipschitz-based methods for provably-robust deep learning with deterministic guarantees, current state-of-the-art results are limited to feed-forward Convolutional Networks (ConvNets) on low-dimensional data, such as CIFAR-10. This paper investigates strategies for expanding certifiably robust training to larger, deeper models. A key challenge in certifying deep networks is efficient calculation of the Lipschitz bound for residual blocks found in ResNet and ViT architectures. We show that fast ways of bounding the Lipschitz constant for conventional ResNets are loose, and show how to address this by designing a new residual block, leading to the \emph{Linear ResNet} (LiResNet) architecture. We then introduce \emph{Efficient Margin MAximization} (EMMA), a loss function that stabilizes robust training by simultaneously penalizing worst-case adversarial examples from \emph{all} classes. Together, these contributions yield new \emph{state-of-the-art} robust accuracy on CIFAR-10/100 and Tiny-ImageNet under $\ell_2$ perturbations. Moreover, for the first time, we are able to scale up fast deterministic robustness guarantees to ImageNet, demonstrating that this approach to robust learning can be applied to real-world applications. We release our code on Github: \url{https://github.com/klasleino/gloro}.
翻訳日:2023-10-31 23:29:32 公開日:2023-10-29
# Kernelized Cumulants: Kernel Mean Embeddingsを超えて

Kernelized Cumulants: Beyond Kernel Mean Embeddings ( http://arxiv.org/abs/2301.12466v2 )

ライセンス: Link先を確認
Patric Bonnier, Harald Oberhauser, Zolt\'an Szab\'o(参考訳) $\mathbb R^d$ では、累積が、低分散推定器のような多くの利点で同じ目標を達成するモーメントの代替となることが知られている。 本稿では、テンソル代数のツールを用いて、累積をカーネルヒルベルト空間(RKHS)に拡張し、カーネルトリックによって計算可能となることを示す。 古典的な最大誤差とヒルベルト=シュミット独立基準は、我々の一般的な構成における次数 1 の対象として生じる。 理論上も実証的にも(合成、環境、交通データ分析において)、次数1を超えるといくつかの利点があり、同じ計算複雑性と最小のオーバーヘッドで達成できると論じている。

In $\mathbb R^d$, it is well-known that cumulants provide an alternative to moments that can achieve the same goals with numerous benefits such as lower variance estimators. In this paper we extend cumulants to reproducing kernel Hilbert spaces (RKHS) using tools from tensor algebras and show that they are computationally tractable by a kernel trick. These kernelized cumulants provide a new set of all-purpose statistics; the classical maximum mean discrepancy and Hilbert-Schmidt independence criterion arise as the degree one objects in our general construction. We argue both theoretically and empirically (on synthetic, environmental, and traffic data analysis) that going beyond degree one has several advantages and can be achieved with the same computational complexity and minimal overhead in our experiments.
翻訳日:2023-10-31 23:29:05 公開日:2023-10-29
# 人間表現へのアライメントはロバストな少数ショット学習を支援する

Alignment with human representations supports robust few-shot learning ( http://arxiv.org/abs/2301.11990v3 )

ライセンス: Link先を確認
Ilia Sucholutsky, Thomas L. Griffiths(参考訳) AIシステムは、人間のものと似た世界の表現を持っているかどうかを気にすべきだろうか? 我々は,人間との表現的アライメントの程度と,少数の学習タスクにおけるパフォーマンスとの間には,u型関係があることを示唆する情報論的分析を行う。 この予測を実証的に確認し,491台のコンピュータビジョンモデルの性能解析において,このような関係を見出した。 また、高度に整合したモデルは、自然な敵攻撃とドメインシフトの両方に対してより堅牢であることを示す。 以上の結果から,モデルが限られたデータを有効に利用し,堅牢で,一般化するのには,人間関係は十分であるが必要ではない場合が多いことが示唆された。

Should we care whether AI systems have representations of the world that are similar to those of humans? We provide an information-theoretic analysis that suggests that there should be a U-shaped relationship between the degree of representational alignment with humans and performance on few-shot learning tasks. We confirm this prediction empirically, finding such a relationship in an analysis of the performance of 491 computer vision models. We also show that highly-aligned models are more robust to both natural adversarial attacks and domain shifts. Our results suggest that human-alignment is often a sufficient, but not necessary, condition for models to make effective use of limited data, be robust, and generalize well.
翻訳日:2023-10-31 23:28:50 公開日:2023-10-29
# CAPSTONE:ドキュメント拡張による高密度検索のためのカリキュラムサンプリング

CAPSTONE: Curriculum Sampling for Dense Retrieval with Document Expansion ( http://arxiv.org/abs/2212.09114v2 )

ライセンス: Link先を確認
Xingwei He, Yeyun Gong, A-Long Jin, Hang Zhang, Anlei Dong, Jian Jiao, Siu Ming Yiu, Nan Duan(参考訳) デュアルエンコーダは高密度検索のためのデファクトアーキテクチャとなっている。 通常、クエリとドキュメントの潜在表現を独立して計算し、クエリとドキュメント間のインタラクションを完全にキャプチャすることができない。 これを緩和するために、近年の研究は、クエリインフォームドドキュメント表現の獲得に焦点を当てている。 トレーニング中は、ドキュメントを実際のクエリで拡張するが、推論時には、実際のクエリを生成されたクエリに置き換える。 このトレーニングと推論の矛盾は、ドキュメント表現を計算する際に文書を無視しながら、高密度検索モデルにクエリ情報を優先させる。 そこで本稿では,学習中に擬似クエリを活用し,生成したクエリと実際のクエリの関連性を徐々に向上させるカリキュラムサンプリング戦略を提案する。 これにより、検索モデルはドキュメントのみからドキュメントとクエリの両方に注意を向けることを学び、高品質なクエリインフォームド文書表現を実現する。 in-domain と out-of-domain の両方のデータセットにおける実験結果から,従来の高密度検索モデルに勝ることを示す。

The dual-encoder has become the de facto architecture for dense retrieval. Typically, it computes the latent representations of the query and document independently, thus failing to fully capture the interactions between the query and document. To alleviate this, recent research has focused on obtaining query-informed document representations. During training, it expands the document with a real query, but during inference, it replaces the real query with a generated one. This inconsistency between training and inference causes the dense retrieval model to prioritize query information while disregarding the document when computing the document representation. Consequently, it performs even worse than the vanilla dense retrieval model because its performance heavily relies on the relevance between the generated queries and the real query.In this paper, we propose a curriculum sampling strategy that utilizes pseudo queries during training and progressively enhances the relevance between the generated query and the real query. By doing so, the retrieval model learns to extend its attention from the document alone to both the document and query, resulting in high-quality query-informed document representations. Experimental results on both in-domain and out-of-domain datasets demonstrate that our approach outperforms previous dense retrieval models.
翻訳日:2023-10-31 23:26:47 公開日:2023-10-29
# 地理空間探索のためのビジュアルアクティブ検索フレームワーク

A Visual Active Search Framework for Geospatial Exploration ( http://arxiv.org/abs/2211.15788v3 )

ライセンス: Link先を確認
Anindya Sarkar, Michael Lanier, Scott Alfeld, Jiarui Feng, Roman Garnett, Nathan Jacobs, Yevgeniy Vorobeychik(参考訳) 多くの問題は航空画像による地理空間探索の一種と見なすことができ、例えば、密猟活動の検出から人身売買まで多岐にわたる。 我々は,(1)領域に区分された探索領域全体の画像,(2)特定の領域に未発見のオブジェクトクラスが存在するか否かを判定する局所探索関数,(3)局所探索関数の回数を制限する固定検索予算,の3つの主要な入力を有するビジュアルアクティブ検索(vas)フレームワークにおいて,この問題のクラスをモデル化する。 目標は、検索予算に含まれるオブジェクトの数を最大化することです。 完全注釈付き検索タスクの集合からメタ検索ポリシーを学習するVASのための強化学習手法を提案する。 このメタ検索ポリシは、新しいターゲットオブジェクトクラスを動的に検索するために使用され、以前のクエリの結果を活用して、次にクエリする場所を決定する。 大規模衛星画像データセットの広範な実験を通じて,提案手法がいくつかの強いベースラインを著しく上回ることを示す。 また、トレーニングデータと重要なドメインギャップがある場合、決定時のポリシーを改善する新しいドメイン適応手法を提案する。 コードは公開されている。

Many problems can be viewed as forms of geospatial search aided by aerial imagery, with examples ranging from detecting poaching activity to human trafficking. We model this class of problems in a visual active search (VAS) framework, which has three key inputs: (1) an image of the entire search area, which is subdivided into regions, (2) a local search function, which determines whether a previously unseen object class is present in a given region, and (3) a fixed search budget, which limits the number of times the local search function can be evaluated. The goal is to maximize the number of objects found within the search budget. We propose a reinforcement learning approach for VAS that learns a meta-search policy from a collection of fully annotated search tasks. This meta-search policy is then used to dynamically search for a novel target-object class, leveraging the outcome of any previous queries to determine where to query next. Through extensive experiments on several large-scale satellite imagery datasets, we show that the proposed approach significantly outperforms several strong baselines. We also propose novel domain adaptation techniques that improve the policy at decision time when there is a significant domain gap with the training data. Code is publicly available.
翻訳日:2023-10-31 23:26:30 公開日:2023-10-29
# 畳み込みニューラルネットワークの入力マスキングの改善に向けて

Towards Improved Input Masking for Convolutional Neural Networks ( http://arxiv.org/abs/2211.14646v3 )

ライセンス: Link先を確認
Sriram Balasubramanian and Soheil Feizi(参考訳) 機械学習モデルの入力から特徴を取り除く能力は、モデル予測を理解し解釈することが非常に重要である。 しかし、入力画像の一部をマスキングすることは、通常、大きな分布シフトを引き起こすため、視覚モデルにとってこれは非自明である。 これは、マスク(通常は灰色または黒)の基線色が分布していないためである。 さらに、マスク自体の形状は、モデルによって予測に使用できる望ましくない信号を含むことができる。 近年,視覚トランスフォーマーの画像マスキングにおいて,この問題(欠落バイアスと呼ばれる)の緩和が進展している。 本研究では,マスキングによる欠落バイアスを広範囲に低減したcnnのための新しいマスキング手法を提案する。 直感的には、層マスキングは中間活性化マップにマスクを適用し、モデルが非マスク入力のみを処理する。 私たちの方法は (i)モデルの出力に対するマスク形状や色の影響を排除又は最小化することができる。 (ii) ライムなどの入力摂動に基づく解釈技術では, マスク領域を黒または灰色に置き換える方がはるかに優れている。 このように、層マスキングは、他のマスキング戦略よりも欠落バイアスの影響を受けない。 また,マスクの形状がクラスに関する情報を漏洩させる可能性を示し,入力マスキングによるクラス関連特徴のモデル依存度を推定する。 さらに,この問題に取り組むためのデータ拡張技術の役割について検討し,マスク形状へのモデル依存を防ぐには不十分であると主張する。 このプロジェクトのコードはhttps://github.com/sriramb-98/layer_maskingで公開されている。

The ability to remove features from the input of machine learning models is very important to understand and interpret model predictions. However, this is non-trivial for vision models since masking out parts of the input image typically causes large distribution shifts. This is because the baseline color used for masking (typically grey or black) is out of distribution. Furthermore, the shape of the mask itself can contain unwanted signals which can be used by the model for its predictions. Recently, there has been some progress in mitigating this issue (called missingness bias) in image masking for vision transformers. In this work, we propose a new masking method for CNNs we call layer masking in which the missingness bias caused by masking is reduced to a large extent. Intuitively, layer masking applies a mask to intermediate activation maps so that the model only processes the unmasked input. We show that our method (i) is able to eliminate or minimize the influence of the mask shape or color on the output of the model, and (ii) is much better than replacing the masked region by black or grey for input perturbation based interpretability techniques like LIME. Thus, layer masking is much less affected by missingness bias than other masking strategies. We also demonstrate how the shape of the mask may leak information about the class, thus affecting estimates of model reliance on class-relevant features derived from input masking. Furthermore, we discuss the role of data augmentation techniques for tackling this problem, and argue that they are not sufficient for preventing model reliance on mask shape. The code for this project is publicly available at https://github.com/SriramB-98/layer_masking
翻訳日:2023-10-31 23:26:09 公開日:2023-10-29
# 最小観測可能性原理による量子力学

Quantum Mechanics From Principle of Least Observability ( http://arxiv.org/abs/2302.14619v6 )

ライセンス: Link先を確認
Jianhao M. Yang(参考訳) 基礎的非相対論的量子定式化は最小可観測性の原理から導出できることを示す。 この原理は、2つの仮定を分解することで古典力学から最小作用原理の拡張と考えることができる。 第一に、Planck定数は、観測可能となるために物理オブジェクトが動的に示す必要のある最小のアクション量を定義する。 これにより、古典軌道から観測可能性の程度を計算することができる。 第二に、古典軌道に沿って一定の真空揺らぎがある。 真空ゆらぎによる追加観測可能性を測定するための新しい手法が提案されている。 可観測性の全体度を最小化するために変分原理を適用することで、不確かさ関係や、位置表現と運動量表現の両方におけるschr\"{o}dinger方程式を含む基本的な量子定式化をエレガントに復元することができる。 好ましくない表現仮定を加えると、位置と運動量表現の間の変換の定式化が得られる。 観測可能性の最も低い原理は、古典力学が量子力学となる方法を示している。 さらに、新しい結果をもたらすことができる数学的ツールである。 相対エントロピーのより一般的な定義を用いて真空揺らぎの情報メトリクスを定義することにより、相対エントロピーの順序に依存する一般化されたシュルンディンガー方程式を得る。 この原理は、量子スカラー場理論のようなより先進的な量子形式論を導出するために応用することができる。

We show that the basic non-relativistic quantum formulations can be derived from a principle of least observability. The principle can be considered as an extension of the least action principle from classical mechanics by factoring in two assumptions. First, the Planck constant defines the minimal amount of action a physical object needs to exhibit during its dynamics in order to be observable. This enables us to calculate the degree of observability from a classical trajectory. Second, there is constant vacuum fluctuation along a classical trajectory. A novel method is introduced to define the information metrics to measure additional observability due to vacuum fluctuations. Applying the variation principle to minimize the total degree of observability allows us to elegantly recover the basic quantum formulations including the uncertainty relation and the Schr\"{o}dinger equation in both position and momentum representations. Adding the no preferred representation assumption, we obtain the transformation formulation between position and momentum representations. The least observability principle shows clearly how classical mechanics becomes quantum mechanics. Furthermore, it is a mathematical tool that can bring in new results. By defining the information metrics for vacuum fluctuations using more general definitions of relative entropy, we obtain a generalized Schr\"{o}dinger equation that depends on the order of relative entropy. The principle can be applied to derive more advance quantum formalism such as quantum scalar field theory.
翻訳日:2023-10-31 23:18:58 公開日:2023-10-29
# 量子特異値変換のためのcsガイド

A CS guide to the quantum singular value transformation ( http://arxiv.org/abs/2302.14324v2 )

ライセンス: Link先を確認
Ewin Tang, Kevin Tian(参考訳) ブロックエンコード行列に多項式関数を適用するための量子特異値変換(qsvt)フレームワークを導入した [gily\'en, su, low, wiebe, stoc'19, arxiv:1806.01838] の一部を単純化した。 QSVTフレームワークは、[GSLW19]によって、行列関数の応用として自然に表現される多くの既存のアルゴリズムをカプセル化することが実証されたように、量子アルゴリズムコミュニティからかなりの関心を集めている。 まず、量子特異処理 (QSP) から QSVT への持ち上げは([GSLW19] によって示唆されたように)ジョルダンの補題を通してではなく、より明示的で強いヨルダンの補題として考えられるコサイン-正弦分解の応用であると仮定する。 第2に,フーリエ解析,チェビシェフ級数,テイラー級数から導かれる様々なアドホックなアプローチを用いた[gslw19] で与えられる有界多項式近似の構成は,チェビシェフ級数の切断の枠組みの下で統一することができ,実際,[trefethen, 2013] からの標準メタ理論の有界変種によって,大部分において一致することが示されている。 この作業が[gslw19]の強力なフレームワークを理解し,適用するためのコンパニオンガイドとして,コミュニティに利用されることを願っています。

We present a simplified exposition of some pieces of [Gily\'en, Su, Low, and Wiebe, STOC'19, arXiv:1806.01838], which introduced a quantum singular value transformation (QSVT) framework for applying polynomial functions to block-encoded matrices. The QSVT framework has garnered substantial recent interest from the quantum algorithms community, as it was demonstrated by [GSLW19] to encapsulate many existing algorithms naturally phrased as an application of a matrix function. First, we posit that the lifting of quantum singular processing (QSP) to QSVT is better viewed not through Jordan's lemma (as was suggested by [GSLW19]) but as an application of the cosine-sine decomposition, which can be thought of as a more explicit and stronger version of Jordan's lemma. Second, we demonstrate that the constructions of bounded polynomial approximations given in [GSLW19], which use a variety of ad hoc approaches drawing from Fourier analysis, Chebyshev series, and Taylor series, can be unified under the framework of truncation of Chebyshev series, and indeed, can in large part be matched via a bounded variant of a standard meta-theorem from [Trefethen, 2013]. We hope this work finds use to the community as a companion guide for understanding and applying the powerful framework of [GSLW19].
翻訳日:2023-10-31 23:18:36 公開日:2023-10-29
# 上位位相相の絡み合いエントロピー

Entanglement entropy of higher rank topological phases ( http://arxiv.org/abs/2302.11468v2 )

ライセンス: Link先を確認
Hiromi Ebisu(参考訳) 本研究では, フラクトン位相に類似した制限モビリティ制約を持つ分数励振を許容する異常な$\mathbb{Z}_N$位相安定化符号の絡み合いエントロピーについて検討する。 従来の位相的に順序付けられた位相における円板幾何学の絡み合いエントロピーのサブリーディング項は、分数励起の量子次元の総数に関係していることは広く知られている。 我々のモデルでは、そのような関係は持たない、すなわち、量子次元の総数はシステムサイズによって異なるが、エンタングルメントエントロピーのサブリード項はシステムサイズに関係なく定数数を取る。 この結果の物理的解釈を、モデルの最も単純な場合に適用する。 一般格子上のモデルの絡み合いエントロピーについてもより詳細な解析を行った。

We study entanglement entropy of unusual $\mathbb{Z}_N$ topological stabilizer codes which admit fractional excitations with restricted mobility constraint in a manner akin to fracton topological phases. It is widely known that the sub-leading term of the entanglement entropy of a disk geometry in conventional topologically ordered phases is related to the total number of the quantum dimension of the fractional excitations. We show that, in our model, such a relation does not hold, i.e, the total number of the quantum dimension varies depending on the system size, whereas the sub-leading term of the entanglement entropy takes a constant number irrespective to the system size. We give a physical interpretation of this result in the simplest case of the model. More thorough analysis on the entanglement entropy of the model on generic lattices is also presented.
翻訳日:2023-10-31 23:17:39 公開日:2023-10-29
# 対話混合管理のためのオフライン強化学習

Offline Reinforcement Learning for Mixture-of-Expert Dialogue Management ( http://arxiv.org/abs/2302.10850v2 )

ライセンス: Link先を確認
Dhawal Gupta, Yinlam Chow, Aza Tulepbergenov, Mohammad Ghavamzadeh, Craig Boutilier(参考訳) 強化学習(rl)は、非認知的であり、リッチな会話を行い、ユーザの満足度全体を最大化する対話管理(dm)エージェントを開発することに大きな期待を示している。 近年のRLと言語モデル(LM)の発展にもかかわらず、対話型チャットボットのパワーとしてRLを使用していることは困難である。 この問題は、ほとんどのlmエージェントが単語レベルで応答を生成するため、これらのアルゴリズムに直面する組合せアクションスペースによって悪化する。 我々は対話計画に特化したRLアルゴリズムを開発し、近年のMixture-of-Expert Language Models (MoE-LMs) を利用して、多様な意味を捉え、異なる意図を反映した発話を生成する。 提案手法は,MoE-LM構造を利用して,アクション空間のサイズを大幅に削減し,RLベースのDMの有効性を向上する。 提案手法をオープンドメイン対話で評価し,生成した発話における意図の多様性と総合的DM性能を示す。

Reinforcement learning (RL) has shown great promise for developing dialogue management (DM) agents that are non-myopic, conduct rich conversations, and maximize overall user satisfaction. Despite recent developments in RL and language models (LMs), using RL to power conversational chatbots remains challenging, in part because RL requires online exploration to learn effectively, whereas collecting novel human-bot interactions can be expensive and unsafe. This issue is exacerbated by the combinatorial action spaces facing these algorithms, as most LM agents generate responses at the word level. We develop a variety of RL algorithms, specialized to dialogue planning, that leverage recent Mixture-of-Expert Language Models (MoE-LMs) -- models that capture diverse semantics, generate utterances reflecting different intents, and are amenable for multi-turn DM. By exploiting MoE-LM structure, our methods significantly reduce the size of the action space and improve the efficacy of RL-based DM. We evaluate our methods in open-domain dialogue to demonstrate their effectiveness w.r.t.\ the diversity of intent in generated utterances and overall DM performance.
翻訳日:2023-10-31 23:17:25 公開日:2023-10-29
# 拡散確率モデルの校正について

On Calibrating Diffusion Probabilistic Models ( http://arxiv.org/abs/2302.10688v3 )

ライセンス: Link先を確認
Tianyu Pang, Cheng Lu, Chao Du, Min Lin, Shuicheng Yan, Zhijie Deng(参考訳) 近年,拡散確率モデル (DPM) は様々な生成タスクにおいて有望な結果を得た。 典型的なDPMフレームワークは、データ分散を徐々に拡散するフォワードプロセスと、時間依存のデータスコアからデータ分散を回復するリバースプロセスを含む。 本研究では,データスコアの確率的逆過程がマルティンゲールであり,そこからデータスコアに対する濃度境界と任意の停止定理が導出できることを示す。 そして、任意の事前学習DPMを校正する簡単な方法を見つけ、その結果、スコアマッチング損失を低減し、その結果、モデル確率の低い境界を増大させることができる。 各種モデルパラメトリゼーションの一般的な校正ガイドラインを提供する。 キャリブレーション法は1回だけ行い, 得られたモデルをサンプリングに繰り返し使用することができる。 複数のデータセットで実験を行い、提案を実証的に検証する。 私たちのコードはhttps://github.com/thudzj/Calibrated-DPMsにあります。

Recently, diffusion probabilistic models (DPMs) have achieved promising results in diverse generative tasks. A typical DPM framework includes a forward process that gradually diffuses the data distribution and a reverse process that recovers the data distribution from time-dependent data scores. In this work, we observe that the stochastic reverse process of data scores is a martingale, from which concentration bounds and the optional stopping theorem for data scores can be derived. Then, we discover a simple way for calibrating an arbitrary pretrained DPM, with which the score matching loss can be reduced and the lower bounds of model likelihood can consequently be increased. We provide general calibration guidelines under various model parametrizations. Our calibration method is performed only once and the resulting models can be used repeatedly for sampling. We conduct experiments on multiple datasets to empirically validate our proposal. Our code is at https://github.com/thudzj/Calibrated-DPMs.
翻訳日:2023-10-31 23:17:03 公開日:2023-10-29
# 群分布ロバスト最適化に対する確率近似手法

Stochastic Approximation Approaches to Group Distributionally Robust Optimization ( http://arxiv.org/abs/2302.09267v3 )

ライセンス: Link先を確認
Lijun Zhang, Peng Zhao, Zhen-Hua Zhuang, Tianbao Yang, Zhi-Hua Zhou(参考訳) 本稿では,群分布にロバストな最適化(gdro, group distributionally robust optimization)について検討する。 まず、GDROを確率的凸凹サドル点問題として定式化し、各反復において$m$のサンプルを用いて、$O(m)/\epsilon^2)$のサンプル複雑性を達成し、$Omega(m/\epsilon^2)$の対数係数に一致する$\epsilon$最適解を求める。 そして、オンライン学習の手法を使って、各ラウンドに必要なサンプル数を$m$から$$$に減らし、同じサンプルの複雑さを維持します。 具体的には、GDROを2人プレイヤゲームとして、一方のプレイヤーが単にSMDを実行し、他方のプレイヤーが非公開マルチアームバンディットのオンラインアルゴリズムを実行する。 次に,各分布から抽出できるサンプルの数が異なる,より実用的なシナリオを考察し,分布依存収束率の導出を可能にする重み付きGDROの新しい定式化を提案する。 n_i$ は$i$-th分布のサンプル予算を示し、$n_1 \geq n_2 \geq \cdots \geq n_m$ を仮定する。 最初のアプローチでは、サンプル予算が期待通りに満たされるように非一様サンプリングをsmdに組み込んで、$i$-th分布の過剰なリスクが$o(\sqrt{n_1 \log m}/n_i)$レートで減少することを証明する。 第2のアプローチでは、予算を正確に満たすためにミニバッチを使用し、確率勾配の分散を低減し、さらに小さな分散を活用可能な確率ミラープロキシアルゴリズムを利用して、慎重に設計された重み付きGDRO問題を最適化する。 適切な条件下では、$o((\log m)/\sqrt{n_i})$の収束率に達し、最適な$o(\sqrt{1/n_i})$の値にほぼ一致する。

This paper investigates group distributionally robust optimization (GDRO), with the purpose to learn a model that performs well over $m$ different distributions. First, we formulate GDRO as a stochastic convex-concave saddle-point problem, and demonstrate that stochastic mirror descent (SMD), using $m$ samples in each iteration, achieves an $O(m (\log m)/\epsilon^2)$ sample complexity for finding an $\epsilon$-optimal solution, which matches the $\Omega(m/\epsilon^2)$ lower bound up to a logarithmic factor. Then, we make use of techniques from online learning to reduce the number of samples required in each round from $m$ to $1$, keeping the same sample complexity. Specifically, we cast GDRO as a two-players game where one player simply performs SMD and the other executes an online algorithm for non-oblivious multi-armed bandits. Next, we consider a more practical scenario where the number of samples that can be drawn from each distribution is different, and propose a novel formulation of weighted GDRO, which allows us to derive distribution-dependent convergence rates. Denote by $n_i$ the sample budget for the $i$-th distribution, and assume $n_1 \geq n_2 \geq \cdots \geq n_m$. In the first approach, we incorporate non-uniform sampling into SMD such that the sample budget is satisfied in expectation, and prove that the excess risk of the $i$-th distribution decreases at an $O(\sqrt{n_1 \log m}/n_i)$ rate. In the second approach, we use mini-batches to meet the budget exactly and also reduce the variance in stochastic gradients, and then leverage stochastic mirror-prox algorithm, which can exploit small variances, to optimize a carefully designed weighted GDRO problem. Under appropriate conditions, it attains an $O((\log m)/\sqrt{n_i})$ convergence rate, which almost matches the optimal $O(\sqrt{1/n_i})$ rate of only learning from the $i$-th distribution with $n_i$ samples.
翻訳日:2023-10-31 23:16:49 公開日:2023-10-29
# 仮想量子エラー検出

Virtual quantum error detection ( http://arxiv.org/abs/2302.02626v5 )

ライセンス: Link先を確認
Kento Tsubouchi, Yasunari Suzuki, Yuuki Tokunaga, Nobuyuki Yoshioka, Suguru Endo(参考訳) 量子誤差補正と量子誤差検出は、エラーを検出するために症候群の測定を必要とする。 各安定化器発電機のシンドローム測定は、現在の量子ハードウェアにおける読み出し忠実度が一般的にゲート忠実度よりも低いという事実を考慮すると、大きなオーバーヘッドとなる。 本稿では,対称性拡張と呼ばれる量子エラー緩和手法を一般化することにより,仮想量子エラー検出(VQED)と呼ばれるプロトコルを提案する。 この方法では、回路実行中の量子誤差検出により得られた後選択量子状態に対応する計算結果を、シンドローム測定を実装せずに、事実上評価することができる。 安定化器発生器毎のアダマール試験回路の実装を必要とする従来の量子誤り検出とは異なり、我々のVQEDプロトコルは、安定化器発生器の数に関係なく、アンシラ量子ビットを持つ一定の深さの浅い量子回路で実行することができる。 さらに,vqedを用いて得られた計算結果は,vqedの動作中に発生する雑音に対して頑健であり,本手法は他の誤差軽減手法と完全互換であり,計算精度のさらなる向上と高忠実性量子計算の容易化を可能にする。

Quantum error correction and quantum error detection necessitate syndrome measurements to detect errors. Performing syndrome measurements for each stabilizer generator can be a significant overhead, considering the fact that the readout fidelity in the current quantum hardware is generally lower than gate fidelity. Here, by generalizing a quantum error mitigation method known as symmetry expansion, we propose a protocol called virtual quantum error detection (VQED). This method virtually allows for evaluating computation results corresponding to post-selected quantum states obtained through quantum error detection during circuit execution, without implementing syndrome measurements. Unlike conventional quantum error detection, which requires the implementation of Hadamard test circuits for each stabilizer generator, our VQED protocol can be performed with a constant depth shallow quantum circuit with an ancilla qubit, irrespective of the number of stabilizer generators. Furthermore, for some simple error models, the computation results obtained using VQED are robust against the noise that occurred during the operation of VQED, and our method is fully compatible with other error mitigation schemes, enabling further improvements in computation accuracy and facilitating high-fidelity quantum computing.
翻訳日:2023-10-31 23:14:29 公開日:2023-10-29
# ニューラルネットワークによる露光シフトの因果推定:米国における大気基準の健康効果の評価

Causal Estimation of Exposure Shifts with Neural Networks: Evaluating the Health Benefits of Stricter Air Quality Standards in the US ( http://arxiv.org/abs/2302.02560v2 )

ライセンス: Link先を確認
Mauricio Tec, Oladimeji Mudele, Kevin Josey, Francesca Dominici(参考訳) 政策研究において、最も重要な分析課題の1つは、政策関連シフトの利害結果に対する継続的な暴露/治療の分布への因果効果を推定することである。 我々はこの問題をシフト応答関数(SRF)推定と呼ぶ。 頑健な因果効果推定器を含む既存のニューラルネットワーク手法は、理論的な保証とSRF推定のための実践的な実装を欠いている。 公共衛生における重要な政策関連問題に動機づけられ,ロバスト性と効率保証を備えたsrfを推定するためのニューラルネットワーク法とその理論的基盤を開発した。 次に、米国全体で6800万人、死者2700万人からなるデータに適用し、米国国家大気基準(NAAQS)を12ドル\mu g/m^3$から9ドル\mu g/m^3$に改定することで因果効果を推定する。 この変更は米国環境保護庁(EPA)によって最近提案されている。 我々のゴールは、SRFの因果的方法を用いて、この予想された改正による死亡率の低下を初めて見積もることである。 Our proposed method, called {T}argeted {R}egularization for {E}xposure {S}hifts with Neural {Net}works (TRESNET), contributes to the neural network literature for causal inference in two ways: first, it proposes a targeted regularization loss with theoretical properties that ensure double robustness and achieves asymptotic efficiency specific for SRF estimation; second, it enables loss functions from the exponential family of distributions to accommodate non-continuous outcome distributions (such as hospitalization or mortality counts). 我々は、TRESNETの幅広い適用性と競争力を示すベンチマーク実験でアプリケーションを補完する。

In policy research, one of the most critical analytic tasks is to estimate the causal effect of a policy-relevant shift to the distribution of a continuous exposure/treatment on an outcome of interest. We call this problem shift-response function (SRF) estimation. Existing neural network methods involving robust causal-effect estimators lack theoretical guarantees and practical implementations for SRF estimation. Motivated by a key policy-relevant question in public health, we develop a neural network method and its theoretical underpinnings to estimate SRFs with robustness and efficiency guarantees. We then apply our method to data consisting of 68 million individuals and 27 million deaths across the U.S. to estimate the causal effect from revising the US National Ambient Air Quality Standards (NAAQS) for PM 2.5 from 12 $\mu g/m^3$ to 9 $\mu g/m^3$. This change has been recently proposed by the US Environmental Protection Agency (EPA). Our goal is to estimate, for the first time, the reduction in deaths that would result from this anticipated revision using causal methods for SRFs. Our proposed method, called {T}argeted {R}egularization for {E}xposure {S}hifts with Neural {Net}works (TRESNET), contributes to the neural network literature for causal inference in two ways: first, it proposes a targeted regularization loss with theoretical properties that ensure double robustness and achieves asymptotic efficiency specific for SRF estimation; second, it enables loss functions from the exponential family of distributions to accommodate non-continuous outcome distributions (such as hospitalization or mortality counts). We complement our application with benchmark experiments that demonstrate TRESNET's broad applicability and competitiveness.
翻訳日:2023-10-31 23:14:08 公開日:2023-10-29
# 駆動キャビティによる非局所多ビット量子ゲート

Non-Local Multi-Qubit Quantum Gates via a Driven Cavity ( http://arxiv.org/abs/2303.13127v3 )

ライセンス: Link先を確認
Sven Jandura, Vineesha Srivastava, Laura Pecorari, Gavin Brennen, Guido Pupillo(参考訳) 共振器モードに結合したキュービット上の決定論的非局所的マルチキュービット量子ゲートを実装するための2つのプロトコルを提案する。 プロトコルはキャビティモードの古典的なドライブのみに依存し、キュービットの外部ドライブは不要である。 第1のプロトコルでは、空洞の状態は位相空間の閉軌跡に従い、量子ビットの状態に応じて幾何学的位相を蓄積する。 第2のプロトコルは、結合されたキュービットキャビティシステムの断熱進化を利用して動的位相を蓄積する。 このプロトコルの繰り返しの応用は、位相回転ゲートや多制御Zゲートといった任意の位相を持つ位相ゲートの実現を可能にする。 どちらのプロトコルに対しても、誤り率の解析解を提供し、$\sim N/\sqrt{C}$、$C$の協調性と$N$の量子ビット数でスケールする。 我々のプロトコルは様々なシステムに適用でき、音素モードのような異なるボソニックモードでキャビティを置き換えることで一般化することができる。 我々は、光またはマイクロ波空洞に結合した原子および分子量子ビットのゲート密度と時間の推定を行い、量子誤差補正への応用を提案する。

We present two protocols for implementing deterministic non-local multi-qubit quantum gates on qubits coupled to a common cavity mode. The protocols rely only on a classical drive of the cavity modes, while no external drive of the qubits is required. In the first protocol, the state of the cavity follows a closed trajectory in phase space and accumulates a geometric phase depending on the state of the qubits. The second protocol uses an adiabatic evolution of the combined qubit-cavity system to accumulate a dynamical phase. Repeated applications of this protocol allow for the realization of phase gates with arbitrary phases, e.g. phase-rotation gates and multi-controlled-Z gates. For both protocols, we provide analytic solutions for the error rates, which scale as $\sim N/\sqrt{C}$, with $C$ the cooperativity and $N$ the qubit number. Our protocols are applicable to a variety of systems and can be generalized by replacing the cavity by a different bosonic mode, such as a phononic mode. We provide estimates of gate fidelities and durations for atomic and molecular qubits coupled to optical or microwave cavities, and suggest applications for quantum error correction.
翻訳日:2023-10-31 23:06:54 公開日:2023-10-29
# 最小分散木によるクラスタリング: どれくらいよいのか?

Clustering with minimum spanning trees: How good can it be? ( http://arxiv.org/abs/2303.05679v2 )

ライセンス: Link先を確認
Marek Gagolewski, Anna Cena, Maciej Bartoszuk, {\L}ukasz Brzozowski(参考訳) 最小スパンディングツリー(msts)は、多数のパターン認識アクティビティにおけるデータセットの便利な表現を提供する。 さらに、計算は比較的高速である。 本稿では,低次元空間における分割的データクラスタリングタスクにおいて,それらが有意である程度を定量化する。 最高の(oracle)アルゴリズムと専門家ラベルの間の合意の上限を、大量のベンチマークデータから特定することで、mstメソッドが全体的に非常に競争力があることが分かりました。 次に、限られた例でうまく機能する別のアルゴリズムを提案する代わりに、既存の最先端のMSTベースの分割スキームをレビュー、研究、拡張、一般化する。 これはいくつかの新しく注目すべきアプローチにつながります。 総じて、ゲニーと情報理論の手法は、k-平均、ガウス混合、スペクトルクラスタリング、バーチ、密度ベース、古典的な階層的凝集手順のような非mstアルゴリズムを上回ることが多い。 しかし,まだ改善の余地が残っており,新たなアルゴリズムの開発が奨励されている。

Minimum spanning trees (MSTs) provide a convenient representation of datasets in numerous pattern recognition activities. Moreover, they are relatively fast to compute. In this paper, we quantify the extent to which they can be meaningful in partitional data clustering tasks in low-dimensional spaces. By identifying the upper bounds for the agreement between the best (oracle) algorithm and the expert labels from a large battery of benchmark data, we discover that MST methods are overall very competitive. Next, instead of proposing yet another algorithm that performs well on a limited set of examples, we review, study, extend, and generalise existing, state-of-the-art MST-based partitioning schemes. This leads to a few new and noteworthy approaches. Overall, Genie and the information-theoretic methods often outperform the non-MST algorithms such as k-means, Gaussian mixtures, spectral clustering, Birch, density-based, and classical hierarchical agglomerative procedures. Nevertheless, we identify that there is still some room for improvement, and thus the development of novel algorithms is encouraged.
翻訳日:2023-10-31 23:05:31 公開日:2023-10-29
# 合成学習データ生成のための爆発的非対称性:SynthIEと情報抽出事例

Exploiting Asymmetry for Synthetic Training Data Generation: SynthIE and the Case of Information Extraction ( http://arxiv.org/abs/2303.04132v2 )

ライセンス: Link先を確認
Martin Josifoski, Marija Sakota, Maxime Peyrard, Robert West(参考訳) 大規模言語モデル(LLM)は、合成データ生成に大きな可能性を秘めている。 本研究は,LLMが直接解決できないタスクに対しても,有用なデータを合成的に生成できることを示し,構造化された出力の問題に対して,目標出力構造に対する可塑性入力テキストを生成することにより,LLMに逆方向のタスクを実行するように促すことが可能である。 この非対称性をタスク難易度に活用することで、複雑なタスクに対して大規模で高品質なデータを生成することができる。 提案手法の有効性は, 地上データ収集が困難であり, 十分なデータセットが存在しない閉情報抽出に有効であることを示す。 我々は、1.8Mのデータポイントのデータセットを合成的に生成し、人間の評価において既存のデータセットと比較して優れた品質を確立し、それをSynthIEと呼ばれる小さなモデル(220Mと770Mのパラメータ)の微粒化に利用し、マイクロF1の57の絶対点とマクロF1の79の点の実質的なマージンで芸術の先行状態(同じモデルサイズ)を上回ります。 コード、データ、モデルはhttps://github.com/epfl-dlab/synthieで入手できる。

Large language models (LLMs) have great potential for synthetic data generation. This work shows that useful data can be synthetically generated even for tasks that cannot be solved directly by LLMs: for problems with structured outputs, it is possible to prompt an LLM to perform the task in the reverse direction, by generating plausible input text for a target output structure. Leveraging this asymmetry in task difficulty makes it possible to produce large-scale, high-quality data for complex tasks. We demonstrate the effectiveness of this approach on closed information extraction, where collecting ground-truth data is challenging, and no satisfactory dataset exists to date. We synthetically generate a dataset of 1.8M data points, establish its superior quality compared to existing datasets in a human evaluation, and use it to finetune small models (220M and 770M parameters), termed SynthIE, that outperform the prior state of the art (with equal model size) by a substantial margin of 57 absolute points in micro-F1 and 79 points in macro-F1. Code, data, and models are available at https://github.com/epfl-dlab/SynthIE.
翻訳日:2023-10-31 23:03:40 公開日:2023-10-29
# 非凸低レベル二値最適化のためのモーメントベース勾配法について

On Momentum-Based Gradient Methods for Bilevel Optimization with Nonconvex Lower-Level ( http://arxiv.org/abs/2303.03944v3 )

ライセンス: Link先を確認
Feihu Huang(参考訳) バイレベル最適化は一般的な2レベル階層最適化であり、ハイパーパラメータ学習、メタ学習、継続的な学習など、多くの機械学習タスクに広く適用されている。 近年, 両レベル最適化法が数多く開発されているが, 両レベル最適化法は低レベル問題が非凸である場合によく研究されていない。 このギャップを埋めるため,本論文では,上層と下層の両方が非凸であり,下層がpolyak-{\l}ojasiewicz (pl) 条件を満たす非凸二層最適化問題について検討する。 本稿では,これらの決定論的問題を解くために,効率的な運動量に基づく勾配バイレベル法(MGBiO)を提案する。 一方,これらの確率問題を解くために,効率的な運動量に基づく確率勾配二段階法(MSGBiOとVR-MSGBiO)を提案する。 さらに,本手法に有用な収束分析フレームワークを提供する。 特に、いくつかの穏やかな条件下では、mgbio法が決定論的双レベル問題(すなわち、$\|\nabla f(x)\|\leq \epsilon$)に対する$\epsilon$-定常解を求めるために$o(\epsilon^{-2})のサンプル(または勾配)の複雑さを持つことが証明され、既存の最良の結果が$o(\epsilon^{-1})$によって改善される。 一方、我々のMSGBiO法とVR-MSGBiO法は、それぞれ$\tilde{O}(\epsilon^{-4})$と$\tilde{O}(\epsilon^{-3})$のサンプル複素量を持ち、確率的二値問題(例えば$\mathbb{E}\|\nabla F(x)\|\leq \epsilon$)の$\epsilon$-定常解を見つける際に、$\tilde{O}(\epsilon^{-3})$の既存の最良の結果を改善する。 2レベルplゲームとハイパー表現学習の広範な実験結果から,アルゴリズムの効率性が示された。 この論文は数学者ボリス・ポリャク(1935–2023)を記念している。

Bilevel optimization is a popular two-level hierarchical optimization, which has been widely applied to many machine learning tasks such as hyperparameter learning, meta learning and continual learning. Although many bilevel optimization methods recently have been developed, the bilevel methods are not well studied when the lower-level problem is nonconvex. To fill this gap, in the paper, we study a class of nonconvex bilevel optimization problems, where both upper-level and lower-level problems are nonconvex, and the lower-level problem satisfies Polyak-{\L}ojasiewicz (PL) condition. We propose an efficient momentum-based gradient bilevel method (MGBiO) to solve these deterministic problems. Meanwhile, we propose a class of efficient momentum-based stochastic gradient bilevel methods (MSGBiO and VR-MSGBiO) to solve these stochastic problems. Moreover, we provide a useful convergence analysis framework for our methods. Specifically, under some mild conditions, we prove that our MGBiO method has a sample (or gradient) complexity of $O(\epsilon^{-2})$ for finding an $\epsilon$-stationary solution of the deterministic bilevel problems (i.e., $\|\nabla F(x)\|\leq \epsilon$), which improves the existing best results by a factor of $O(\epsilon^{-1})$. Meanwhile, we prove that our MSGBiO and VR-MSGBiO methods have sample complexities of $\tilde{O}(\epsilon^{-4})$ and $\tilde{O}(\epsilon^{-3})$, respectively, in finding an $\epsilon$-stationary solution of the stochastic bilevel problems (i.e., $\mathbb{E}\|\nabla F(x)\|\leq \epsilon$), which improves the existing best results by a factor of $\tilde{O}(\epsilon^{-3})$. Extensive experimental results on bilevel PL game and hyper-representation learning demonstrate the efficiency of our algorithms. This paper commemorates the mathematician Boris Polyak (1935 -2023).
翻訳日:2023-10-31 23:03:07 公開日:2023-10-29
# 構造的ヒントの注入:言語学習における帰納的バイアスの研究に言語モデルを使う

Injecting structural hints: Using language models to study inductive biases in language learning ( http://arxiv.org/abs/2304.13060v2 )

ライセンス: Link先を確認
Isabel Papadimitriou and Dan Jurafsky(参考訳) 人間も大きな言語モデルも明確な構造的監督なしに言語を学べる。 帰納バイアスによってこの学習は可能か? 我々は、形式的構造化されたデータに事前学習することで、インダクティブバイアスを言語モデルに注入し、また、型論的に異なる自然言語を学習するバイアス学習者の能力を評価する。 我々の実験装置は、人間の言語学習における帰納的バイアスに関する仮説の検証ベッドを作成する。 3種類の誘導バイアスを伴うモデル注入の効果について検討する。 1)再帰的,階層的処理 2)文脈自由文法でモデル化できないトークンとトークンの関係を交わし、 3)zipfian power-law vocabulary distribution。 非文脈自由関係が最良の帰納バイアスとなることを示す。 本研究はトランスフォーマーモデルの能力を活用して,人間では実行できない制御型言語学習実験を実行し,人間と機械の両方で言語学習を促進する構造に関する仮説を提示する。

Both humans and large language models are able to learn language without explicit structural supervision. What inductive biases make this learning possible? We address this fundamental cognitive question by leveraging transformer language models: we inject inductive bias into language models by pretraining on formally-structured data, and then evaluate the biased learners' ability to learn typologically-diverse natural languages. Our experimental setup creates a testbed for hypotheses about inductive bias in human language learning. We investigate the effect of injecting models with three types of inductive bias: 1) recursive, hierarchical processing, 2) crossing token-token relationships that can't be modeled by context-free grammars, and 3) a Zipfian power-law vocabulary distribution. We show that non-context-free relationships form the best inductive biases. Our study leverages the capabilities of transformer models to run controlled language learning experiments that are not possible to run on humans, and surfaces hypotheses about the structures that facilitate language learning in both humans and machines.
翻訳日:2023-10-31 22:53:33 公開日:2023-10-29
# out-of-distribution generalizationにおける特徴学習の理解と改善

Understanding and Improving Feature Learning for Out-of-Distribution Generalization ( http://arxiv.org/abs/2304.11327v2 )

ライセンス: Link先を確認
Yongqiang Chen, Wei Huang, Kaiwen Zhou, Yatao Bian, Bo Han, James Cheng(参考訳) アウト・オブ・ディストリビューション(OOD)の一般化の失敗に関する一般的な説明は、経験的リスク最小化(ERM)で訓練されたモデルは、不変の特徴ではなく刺激的な特徴を学ぶことである。 しかし、最近のいくつかの研究は、この説明に異議を唱え、深層ネットワークがOODの一般化に十分な良い特徴を既に学んでいたかもしれないことを見出した。 一見の矛盾にもかかわらず、理論上、ermは基本的にスプリアスと不変な特徴の両方を学習するが、ermはスプリアス相関が強ければスプリアスの特徴をより早く学習する傾向がある。 さらに,ERMが学習した特徴をOODの目的に与えると,その不変な特徴学習品質はOODの最終的な性能に大きく影響する。 したがって、erm機能学習はood一般化のボトルネックとなりうる。 信頼性を緩和するため,OODの一般化に備えたよりリッチな特徴を学習するためのFeAT(Feature Augmented Training)を提案する。 反復的にモデルを拡張して、すでに学んだ機能を維持しながら、新しい機能を学ぶ。 各ラウンドにおいて、保持および拡張操作は、異なる特徴をキャプチャするトレーニングデータの異なるサブセットで実行される。 大規模な実験により、FeATはよりリッチな特徴を効果的に学習し、様々なOOD目標の性能を高めることが示されている。

A common explanation for the failure of out-of-distribution (OOD) generalization is that the model trained with empirical risk minimization (ERM) learns spurious features instead of invariant features. However, several recent studies challenged this explanation and found that deep networks may have already learned sufficiently good features for OOD generalization. Despite the contradictions at first glance, we theoretically show that ERM essentially learns both spurious and invariant features, while ERM tends to learn spurious features faster if the spurious correlation is stronger. Moreover, when fed the ERM learned features to the OOD objectives, the invariant feature learning quality significantly affects the final OOD performance, as OOD objectives rarely learn new features. Therefore, ERM feature learning can be a bottleneck to OOD generalization. To alleviate the reliance, we propose Feature Augmented Training (FeAT), to enforce the model to learn richer features ready for OOD generalization. FeAT iteratively augments the model to learn new features while retaining the already learned features. In each round, the retention and augmentation operations are performed on different subsets of the training data that capture distinct features. Extensive experiments show that FeAT effectively learns richer features thus boosting the performance of various OOD objectives.
翻訳日:2023-10-31 22:53:20 公開日:2023-10-29
# 虚時間進化のための非単体トロッター回路

Non-unitary Trotter circuits for imaginary time evolution ( http://arxiv.org/abs/2304.07917v3 )

ライセンス: Link先を確認
Chiara Leadbeater, Nathan Fitzpatrick, David Mu\~noz Ramo and Alex J. W. Thom(参考訳) 本研究では,1つのアンシラキュービット上の中回路計測を用いて,トロッター分解型リアルタイム進化のための定評あるpauliガジェットプリミティブに相当する想像時間を提案する。 Imaginary Time Evolution (ITE) は、古典的ハードウェア上のシステムの基底状態、熱平均の計算、および非単体進化を行う量子アルゴリズムの構成要素として広く使われている。 量子ハードウェアの短期実装はヒューリスティックスに依存し、その精度を損なう。 その結果、よりネイティブな量子アルゴリズムの開発への関心が高まっている。 非単体ゲートを決定論的に実装することは不可能であるため、ITE演算子のブロック符号化をシミュレーションするユニタリ量子回路に依存する確率的想像時間進化(PITE)アルゴリズムの実装を利用する。 従来のPITE提案と比較して,提案するブロック符号化は回路が短く,実装も簡単で,パウリのガジェットプリミティブをわずかに修正するだけでよい。 このスキームは、横イジングモデルとフェルミオンハバードモデルでテストされ、システムの基底状態に収束することが示されている。

We propose an imaginary time equivalent of the well-established Pauli gadget primitive for Trotter-decomposed real time evolution, using mid-circuit measurements on a single ancilla qubit. Imaginary time evolution (ITE) is widely used for obtaining the ground state of a system on classical hardware, computing thermal averages, and as a component of quantum algorithms that perform non-unitary evolution. Near-term implementations on quantum hardware rely on heuristics, compromising their accuracy. As a result, there is growing interest in the development of more natively quantum algorithms. Since it is not possible to implement a non-unitary gate deterministically, we resort to the implementation of probabilistic imaginary time evolution (PITE) algorithms, which rely on a unitary quantum circuit to simulate a block encoding of the ITE operator - that is, they rely on successful ancillary measurements to evolve the system non-unitarily. Compared with previous PITE proposals, the suggested block encoding in this paper results in shorter circuits and is simpler to implement, requiring only a slight modification of the Pauli gadget primitive. This scheme was tested on the transverse Ising model and the fermionic Hubbard model and is demonstrated to converge to the ground state of the system.
翻訳日:2023-10-31 22:52:33 公開日:2023-10-29
# 顔映像圧縮の知覚的品質評価 : ベンチマークと効果的な方法

Perceptual Quality Assessment of Face Video Compression: A Benchmark and An Effective Method ( http://arxiv.org/abs/2304.07056v3 )

ライセンス: Link先を確認
Yixuan Li, Bolin Chen, Baoliang Chen, Meng Wang, Shiqi Wang, Weisi Lin(参考訳) 近年、顔画像圧縮の需要が急激に増加し、人工知能の成功により、従来のハイブリッドビデオ符号化を超えて境界が拡大している。 生成的符号化アプローチは、顔ビデオの統計的先行性を利用して、合理的な知覚的レート歪みトレードオフを持つ有望な代替手段として認識されている。 しかしながら、伝統的なハイブリッドコーディングフレームワークから生成モデルまで、空間的および時間的領域における歪みタイプの大きな多様性は、vqa(compressed face video quality assessment)において大きな課題となっている。 本稿では,顔映像の知覚的品質と多角的圧縮歪みを体系的に理解する最初の試みである,cfvqaデータベースについて述べる。 このデータベースは3,240個の圧縮された顔ビデオクリップを複数の圧縮レベルに収めており、これは6つの代表ビデオコーデックを用いた135個のソースビデオから派生したもので、その中にはハイブリッドコーディングフレームワークに基づく2つの伝統的な方法、2つのエンドツーエンドメソッド、2つの生成方法が含まれる。 さらに,顔映像のコンテンツ特性と時間的先行性を考慮して,顔映像圧縮のためのFACE VideO IntegeRity(FAVOR)指標を開発した。 実験の結果,提案したCFVQAデータセットよりも優れた性能を示した。 ベンチマークは現在、https://github.com/Yixuan423/Compressed-Face-Videos-Quality-Assessmentで公開されている。

Recent years have witnessed an exponential increase in the demand for face video compression, and the success of artificial intelligence has expanded the boundaries beyond traditional hybrid video coding. Generative coding approaches have been identified as promising alternatives with reasonable perceptual rate-distortion trade-offs, leveraging the statistical priors of face videos. However, the great diversity of distortion types in spatial and temporal domains, ranging from the traditional hybrid coding frameworks to generative models, present grand challenges in compressed face video quality assessment (VQA). In this paper, we introduce the large-scale Compressed Face Video Quality Assessment (CFVQA) database, which is the first attempt to systematically understand the perceptual quality and diversified compression distortions in face videos. The database contains 3,240 compressed face video clips in multiple compression levels, which are derived from 135 source videos with diversified content using six representative video codecs, including two traditional methods based on hybrid coding frameworks, two end-to-end methods, and two generative methods. In addition, a FAce VideO IntegeRity (FAVOR) index for face video compression was developed to measure the perceptual quality, considering the distinct content characteristics and temporal priors of the face videos. Experimental results exhibit its superior performance on the proposed CFVQA dataset. The benchmark is now made publicly available at: https://github.com/Yixuan423/Compressed-Face-Videos-Quality-Assessment.
翻訳日:2023-10-31 22:52:11 公開日:2023-10-29
# 大規模言語モデルを用いた多言語機械翻訳:実験結果と分析

Multilingual Machine Translation with Large Language Models: Empirical Results and Analysis ( http://arxiv.org/abs/2304.04675v3 )

ライセンス: Link先を確認
Wenhao Zhu, Hongyi Liu, Qingxiu Dong, Jingjing Xu, Shujian Huang, Lingpeng Kong, Jiajun Chen, Lei Li(参考訳) 大規模言語モデル(LLM)は多言語機械翻訳(MMT)の処理において顕著な可能性を示している。 本稿では, MMT における LLM の利点と課題を, 2 つの質問に答えて体系的に検討する。 1) LLM は大規模言語を翻訳するのにどの程度効果があるか? 2)翻訳におけるLLMの性能に影響を及ぼす要因は何か? また,ChatGPTとGPT-4を含む8つのLLMを徹底的に評価した。 実験の結果,LLMの翻訳能力は継続的に向上していることがわかった。 GPT-4は、40.91%の翻訳方向で強力な教師付きベースラインのNLLBを破っているが、商用翻訳システム、特に低リソース言語に対する大きなギャップに直面している。 さらなる分析により,LSMはMTに使用する場合,新たな作業パターンを示すことがわかった。 まず、インコンテキストの例示が与えられた場合、命令セマンティクスは驚くほど無視される。 第2に、言語横断の例題は、同じ言語対の例題よりも、低リソース翻訳のための優れたタスクガイダンスを提供することができる。 第3に、LLMはリソース効率のよい翻訳能力を獲得し、ゼロリソース言語でも適度な翻訳を生成することができる。

Large language models (LLMs) have demonstrated remarkable potential in handling multilingual machine translation (MMT). In this paper, we systematically investigate the advantages and challenges of LLMs for MMT by answering two questions: 1) How well do LLMs perform in translating massive languages? 2) Which factors affect LLMs' performance in translation? We thoroughly evaluate eight popular LLMs, including ChatGPT and GPT-4. Our empirical results show that translation capabilities of LLMs are continually improving. GPT-4 has beat the strong supervised baseline NLLB in 40.91% of translation directions but still faces a large gap towards the commercial translation system, especially on low-resource languages. Through further analysis, we discover that LLMs exhibit new working patterns when used for MMT. First, instruction semantics can surprisingly be ignored when given in-context exemplars. Second, cross-lingual exemplars can provide better task guidance for low-resource translation than exemplars in the same language pairs. Third, LLM can acquire translation ability in a resource-efficient way and generate moderate translation even on zero-resource languages.
翻訳日:2023-10-31 22:51:23 公開日:2023-10-29
# 挑戦的環境における信頼性のある学習

Reliable learning in challenging environments ( http://arxiv.org/abs/2304.03370v2 )

ライセンス: Link先を確認
Maria-Florina Balcan, Steve Hanneke, Rattana Pukdee, Dravyansh Sharma(参考訳) 予測が確実に正しいことを保証する学習者を設計する問題は、機械学習の重要性を高めることである。 しかし、学習理論の保証は、非常に特定の設定でのみ考慮されている。 本研究では,現代の機械学習問題に遭遇するテストタイム環境における信頼性のある学習者の設計と分析について考察する。 本研究は,このような設定において,確実に最適な保証を得られる信頼性のある学習者を提供する。 本稿では,学習者の計算可能実装について考察し,例えば,対数凹面分布の線形分離器やスムーズな確率分布の境界分類器など,いくつかの自然例において,アルゴリズムが強い正の性能保証を実現することを示す。

The problem of designing learners that provide guarantees that their predictions are provably correct is of increasing importance in machine learning. However, learning theoretic guarantees have only been considered in very specific settings. In this work, we consider the design and analysis of reliable learners in challenging test-time environments as encountered in modern machine learning problems: namely `adversarial' test-time attacks (in several variations) and `natural' distribution shifts. In this work, we provide a reliable learner with provably optimal guarantees in such settings. We discuss computationally feasible implementations of the learner and further show that our algorithm achieves strong positive performance guarantees on several natural examples: for example, linear separators under log-concave distributions or smooth boundary classifiers under smooth probability distributions.
翻訳日:2023-10-31 22:50:56 公開日:2023-10-29
# AIを"Thirsty"以下にする - AIモデルの秘密のフットプリントの発見と対処

Making AI Less "Thirsty": Uncovering and Addressing the Secret Water Footprint of AI Models ( http://arxiv.org/abs/2304.03271v3 )

ライセンス: Link先を確認
Pengfei Li and Jianyi Yang and Mohammad A. Islam and Shaolei Ren(参考訳) 人工知能(AI)モデルの炭素フットプリントの増加、特にGPT-3のような大きなフットプリントは、公衆の監視を受けている。 しかし残念ながら、AIモデルの等しく重要で巨大な水(水と消費)のフットプリントは、まだレーダーの下に残っている。 例えば、Microsoftの最先端の米国データセンターでGPT-3をトレーニングすることで、70,000リットルの淡水を直接蒸発させることができるが、そのような情報は秘密にされている。 さらに重要なのは、世界のai需要が2027年の4.2~660億立方メートル(約6兆6600億立方メートル)に達する可能性があることだ。 人口が急増し、水資源が枯渇し、水のインフラが老朽化している中で、淡水不足は私たち全員が共有する最も急進的な課題の1つになっている。 世界的な水難に答えるためには、aiモデルは社会的責任を負い、自分の水量に対処し、例を挙げてリードする必要がある。 本稿では,AIモデルの水分フットプリントを推定する原理的手法を提案するとともに,AIモデルの実行時の水効率の空間的・時間的差異について考察する。 最後に,真に持続的なaiを実現するために,水フットプリントとカーボンフットプリントの連携の必要性を強調する。

The growing carbon footprint of artificial intelligence (AI) models, especially large ones such as GPT-3, has been undergoing public scrutiny. Unfortunately, however, the equally important and enormous water (withdrawal and consumption) footprint of AI models has remained under the radar. For example, training GPT-3 in Microsoft's state-of-the-art U.S. data centers can directly evaporate 700,000 liters of clean freshwater, but such information has been kept a secret. More critically, the global AI demand may be accountable for 4.2 -- 6.6 billion cubic meters of water withdrawal in 2027, which is more than the total annual water withdrawal of 4 -- 6 Denmark or half of the United Kingdom. This is very concerning, as freshwater scarcity has become one of the most pressing challenges shared by all of us in the wake of the rapidly growing population, depleting water resources, and aging water infrastructures. To respond to the global water challenges, AI models can, and also must, take social responsibility and lead by example by addressing their own water footprint. In this paper, we provide a principled methodology to estimate the water footprint of AI models, and also discuss the unique spatial-temporal diversities of AI models' runtime water efficiency. Finally, we highlight the necessity of holistically addressing water footprint along with carbon footprint to enable truly sustainable AI.
翻訳日:2023-10-31 22:50:43 公開日:2023-10-29
# MEGClass: ミューチュアルエンハンシングテキストの粒度による極端に弱められたテキスト分類

MEGClass: Extremely Weakly Supervised Text Classification via Mutually-Enhancing Text Granularities ( http://arxiv.org/abs/2304.01969v2 )

ライセンス: Link先を確認
Priyanka Kargupta, Tanay Komarlu, Susik Yoon, Xuan Wang, Jiawei Han(参考訳) 非構造化テキストの整理にはテキスト分類が不可欠である。 従来の手法は、人間のアノテーションに依存するか、あるいは最近では、特に専門分野や新興分野においてコストがかかる、監督のためのクラスシードワードのセットに依存する。 これを解決するために、クラス表面の名前のみを極めて弱い監督として用いることが提案されている。 しかし、既存のアプローチでは、異なるレベルのテキスト粒度(文書、文、単語)を独立に扱い、粒度間のクラス間の不一致や、ジョイント抽出によってのみ識別可能なコンテキストを無視している。 これらの問題に対処するために,Mutually-Enhancing Text Granularitiesを活用した極めて弱い教師付きテキスト分類手法であるMEGClassを紹介する。 MEGClassは、文書の最もクラスを示す単語と文を共同で考えることで得られる粗いコンテキスト信号ときめ細かいコンテキスト信号を利用する。 このアプローチは、最も識別性の高いクラスインジケータをキャプチャするコンテキスト化された文書表現の学習を可能にする。 潜在的なクラスの不均一性を保存することで、MEGClassは、最も情報に富んだクラス表示文書を反復的なフィードバックとして選択し、初期単語ベースのクラス表現を強化し、最終的に訓練済みのテキスト分類器を微調整することができる。 7つのベンチマークデータセットに対する大規模な実験により、MEGClassは他の弱い、非常に弱い教師付き手法よりも優れていることが示された。

Text classification is essential for organizing unstructured text. Traditional methods rely on human annotations or, more recently, a set of class seed words for supervision, which can be costly, particularly for specialized or emerging domains. To address this, using class surface names alone as extremely weak supervision has been proposed. However, existing approaches treat different levels of text granularity (documents, sentences, or words) independently, disregarding inter-granularity class disagreements and the context identifiable exclusively through joint extraction. In order to tackle these issues, we introduce MEGClass, an extremely weakly-supervised text classification method that leverages Mutually-Enhancing Text Granularities. MEGClass utilizes coarse- and fine-grained context signals obtained by jointly considering a document's most class-indicative words and sentences. This approach enables the learning of a contextualized document representation that captures the most discriminative class indicators. By preserving the heterogeneity of potential classes, MEGClass can select the most informative class-indicative documents as iterative feedback to enhance the initial word-based class representations and ultimately fine-tune a pre-trained text classifier. Extensive experiments on seven benchmark datasets demonstrate that MEGClass outperforms other weakly and extremely weakly supervised methods.
翻訳日:2023-10-31 22:49:43 公開日:2023-10-29
# クロスモデル対応アンサンブルを用いた非対称画像検索

Asymmetric Image Retrieval with Cross Model Compatible Ensembles ( http://arxiv.org/abs/2303.17531v2 )

ライセンス: Link先を確認
Ori Linial, Alon Shoshan, Nadav Bhonker, Elad Hirsch, Lior Zamir, Igor Kviatkovsky, Gerard Medioni(参考訳) 非対称検索設定は、顔認識や画像検索といったリソース制約のあるアプリケーションに適したソリューションである。 この設定では、ギャラリーのインデックス付けに大規模なモデルを使用し、クエリに軽量モデルを使用する。 このようなシステムの鍵となる原則は、両方のモデルが同じ埋め込み空間を共有することを保証することである。 この領域のほとんどの方法は知識蒸留に基づいている。 有用ではあるが、いくつかの欠点に苦しむ: それらは1つの最良のモデルのパフォーマンスによって上限に達し、簡単な方法でモデルのアンサンブルを使用するように拡張できない。 本稿では, 組込み変換モデルを利用するのではなく, 知識蒸留に依存しないアプローチを提案する。 これにより、n個の独立したトレーニングと多様なギャラリーモデル(例えば、異なるデータセットでトレーニングされたり、異なるアーキテクチャを持つ)と単一のクエリモデルの使用が可能になる。 その結果,クエリの計算予算を低く保ちながら,どのモデルよりも全体的な精度を向上させることができた。 さらに,複数変換埋め込み間の多様性を利用してギャラリー画像の不確実性を推定するギャラリー画像拒絶手法を提案する。

The asymmetrical retrieval setting is a well suited solution for resource constrained applications such as face recognition and image retrieval. In this setting, a large model is used for indexing the gallery while a lightweight model is used for querying. The key principle in such systems is ensuring that both models share the same embedding space. Most methods in this domain are based on knowledge distillation. While useful, they suffer from several drawbacks: they are upper-bounded by the performance of the single best model found and cannot be extended to use an ensemble of models in a straightforward manner. In this paper we present an approach that does not rely on knowledge distillation, rather it utilizes embedding transformation models. This allows the use of N independently trained and diverse gallery models (e.g., trained on different datasets or having a different architecture) and a single query model. As a result, we improve the overall accuracy beyond that of any single model while maintaining a low computational budget for querying. Additionally, we propose a gallery image rejection method that utilizes the diversity between multiple transformed embeddings to estimate the uncertainty of gallery images.
翻訳日:2023-10-31 22:49:18 公開日:2023-10-29
# 行列積状態からの高次ベリー曲率

Higher Berry curvature from matrix product states ( http://arxiv.org/abs/2305.08109v2 )

ライセンス: Link先を確認
Ken Shiozaki, Niclas Heinsdorf, Shuhei Ohyama(参考訳) 高いベリー曲率は、有限自由度を持つ量子力学系におけるベリー曲率の有限次元における量子多体系への拡張としてカプスティンとスポディニコによって導入された。 本稿では,翻訳不変行列積状態を用いた高次ベリー曲率の代替定式化を提案する。 これらは、離散化されたパラメータ空間を通して断熱的に進化するギャップ付きハミルトン多様体の基底状態である。 行列積状態は射影表現の下で変換されるので、パラメータ空間を通る閉ループ上のベリー曲率の評価は、すべてのゲージの自由度を固定するのに十分ではない。 ゲージ不変実量を得るため、パラメータ空間における小さなテトラヘドラ上で高次元ベリー曲率を評価する。 数値計算により,Adiabatic進化を通じて高いベリー曲率が連続的に変化し,閉じた3次元パラメータ空間上で量子化されることを確認した。

The higher Berry curvature was introduced by Kapustin and Spodyneiko as an extension of the Berry curvature in quantum mechanical systems with finite degrees of freedom to quantum many-body systems in finite spatial dimensions. In this paper, we propose an alternative formulation of the higher Berry curvature using translationally invariant matrix product states. They are the ground states of a set of gapped Hamiltonians which are evolved adiabatically through a discretized parameter space. Because matrix product states transform under a projective representation, evaluating the Berry curvature on a closed loop through parameter space is not sufficient to fix all the gauge degrees of freedom. To obtain a gauge-invariant real quantity, the higher-dimensional Berry curvature is evaluated on small tetrahedra in parameter space. Our numerical calculations confirm that the higher Berry curvature varies continuously throughout an adiabatic evolution and becomes quantized over a closed 3-dimensional parameter space.
翻訳日:2023-10-31 22:41:19 公開日:2023-10-29
# k匿名化と合成データ技術によるエネルギーコストと機械学習精度への影響

Energy cost and machine learning accuracy impact of k-anonymisation and synthetic data techniques ( http://arxiv.org/abs/2305.07116v2 )

ライセンス: Link先を確認
Pepijn de Reus, Ana Oprescu, Koen van Elsen(参考訳) プライバシーと気候に関する社会的懸念の高まりに対処するため、EUはGDPR(General Data Protection Regulation)を採用し、グリーンディールにコミットした。 ソフトウェアのエネルギー効率と匿名データセットでトレーニングされた機械学習モデルの精度について検討した。 最近の研究は、k匿名性に焦点を当てた機械学習モデルのエネルギー消費と正確性の両方にプライバシー向上技術(PET)が与える影響を探求し始めた。 合成データがPETとしてますます普及しつつある中、本稿では2つの相のエネルギー消費と精度について分析する。 イ 関係データセットにプライバシー強化技術を適用すること。 b) プライバシ強化データセット上でモデルをトレーニングすること。 プライバシエンハンシングにはk匿名化(一般化と抑制)と合成データと3つの機械学習モデルを用いる。 各モデルは、プライバシー強化されたデータセットでトレーニングされる。 以上の結果から,k匿名化データでトレーニングしたモデルは,元のデータでトレーニングしたモデルよりも少ないエネルギーを消費することがわかった。 合成データでトレーニングされたモデルは、元のデータでトレーニングされたモデルと同等のエネルギー消費量と低い精度を持つ。

To address increasing societal concerns regarding privacy and climate, the EU adopted the General Data Protection Regulation (GDPR) and committed to the Green Deal. Considerable research studied the energy efficiency of software and the accuracy of machine learning models trained on anonymised data sets. Recent work began exploring the impact of privacy-enhancing techniques (PET) on both the energy consumption and accuracy of the machine learning models, focusing on k-anonymity. As synthetic data is becoming an increasingly popular PET, this paper analyses the energy consumption and accuracy of two phases: a) applying privacy-enhancing techniques to the concerned data set, b) training the models on the concerned privacy-enhanced data set. We use two privacy-enhancing techniques: k-anonymisation (using generalisation and suppression) and synthetic data, and three machine-learning models. Each model is trained on each privacy-enhanced data set. Our results show that models trained on k-anonymised data consume less energy than models trained on the original data, with a similar performance regarding accuracy. Models trained on synthetic data have a similar energy consumption and a similar to lower accuracy compared to models trained on the original data.
翻訳日:2023-10-31 22:41:02 公開日:2023-10-29
# CoMoSpeech:一貫性モデルによるワンステップ音声と歌声合成

CoMoSpeech: One-Step Speech and Singing Voice Synthesis via Consistency Model ( http://arxiv.org/abs/2305.06908v4 )

ライセンス: Link先を確認
Zhen Ye, Wei Xue, Xu Tan, Jie Chen, Qifeng Liu, Yike Guo(参考訳) denoising diffusion probabilistic models (ddpms) は音声合成に有望な性能を示している。 しかし、高いサンプル品質を達成するためには、推論速度を制限するために、多数の反復的なステップが必要である。 サンプリング速度を高めながらサンプル品質を維持することが課題となっている。 本稿では,単一の拡散サンプリングステップで音声合成を行い,高い音声品質を実現し,音声合成を実現する「コ・ナンシスタンス・"mo"del-based "speech" 合成法,comospeechを提案する。 整合性制約を適用し、よく設計された拡散に基づく教師モデルから整合性モデルを蒸留し、最終的に蒸留したCoMoSpeechにおいて優れた性能を得る。 私たちの実験では、単一のサンプリングステップで音声記録を生成することで、hspeech2に匹敵する単一のnvidia a100 gpuで、リアルタイムよりも150倍高速で、拡散サンプリングベースの音声合成が真に実用的であることを示す。 一方,テキスト音声合成と歌唱音声合成における客観的・主観的評価では,提案する教師モデルが最高の音響品質を得られ,従来の多段階拡散モデルと同等の音響品質で最良な推定速度が得られることを示す。 オーディオサンプルはhttps://comospeech.github.io/で入手できる。

Denoising diffusion probabilistic models (DDPMs) have shown promising performance for speech synthesis. However, a large number of iterative steps are required to achieve high sample quality, which restricts the inference speed. Maintaining sample quality while increasing sampling speed has become a challenging task. In this paper, we propose a "Co"nsistency "Mo"del-based "Speech" synthesis method, CoMoSpeech, which achieve speech synthesis through a single diffusion sampling step while achieving high audio quality. The consistency constraint is applied to distill a consistency model from a well-designed diffusion-based teacher model, which ultimately yields superior performances in the distilled CoMoSpeech. Our experiments show that by generating audio recordings by a single sampling step, the CoMoSpeech achieves an inference speed more than 150 times faster than real-time on a single NVIDIA A100 GPU, which is comparable to FastSpeech2, making diffusion-sampling based speech synthesis truly practical. Meanwhile, objective and subjective evaluations on text-to-speech and singing voice synthesis show that the proposed teacher models yield the best audio quality, and the one-step sampling based CoMoSpeech achieves the best inference speed with better or comparable audio quality to other conventional multi-step diffusion model baselines. Audio samples are available at https://comospeech.github.io/.
翻訳日:2023-10-31 22:40:19 公開日:2023-10-29
# マルチエージェント強化学習における情報設計

Information Design in Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2305.06807v2 )

ライセンス: Link先を確認
Yue Lin, Wenhao Li, Hongyuan Zha, Baoxiang Wang(参考訳) 強化学習(rl)は、人間の幼児や動物が環境から学ぶ方法に触発されている。 この設定は、実際のタスクでは、環境内の他のエージェントが独自の目標を持ち、エゴエージェントに適応して振る舞うため、やや理想化されている。 これらの環境で繁栄するためには、エージェントは他のエージェントに影響を与える必要がある。 計算経済学の研究は、有形財(機械設計)と情報(情報設計)の2つの方法で他者に直接影響を与える方法を蒸留する。 本研究は,rlエージェント群の情報設計問題を調査する。 主な課題は2つある。 1つは、エージェントの軌跡の遷移に直ちに影響を及ぼす情報であり、追加の非定常性をもたらす。 もう1つは、情報は無視できるため、送信側は受信側が尊重する情報を提供しなければならない。 我々はマルコフシグナリングゲームを定式化し、これらの課題に対処するシグナリング勾配の概念と拡張された服従制約を開発する。 我々のアルゴリズムは様々な混合モチベーションタスクにおいて効率的であり、計算経済学のさらなる洞察を提供する。 私たちのコードはhttps://github.com/YueLin301/InformationDesignMARLで公開されています。

Reinforcement learning (RL) is inspired by the way human infants and animals learn from the environment. The setting is somewhat idealized because, in actual tasks, other agents in the environment have their own goals and behave adaptively to the ego agent. To thrive in those environments, the agent needs to influence other agents so their actions become more helpful and less harmful. Research in computational economics distills two ways to influence others directly: by providing tangible goods (mechanism design) and by providing information (information design). This work investigates information design problems for a group of RL agents. The main challenges are two-fold. One is the information provided will immediately affect the transition of the agent trajectories, which introduces additional non-stationarity. The other is the information can be ignored, so the sender must provide information that the receiver is willing to respect. We formulate the Markov signaling game, and develop the notions of signaling gradient and the extended obedience constraints that address these challenges. Our algorithm is efficient on various mixed-motive tasks and provides further insights into computational economics. Our code is publicly available at https://github.com/YueLin301/InformationDesignMARL.
翻訳日:2023-10-31 22:39:55 公開日:2023-10-29
# アフリカにおけるコンピュータビジョン研究コミュニティのより良い理解に向けて

Towards a Better Understanding of the Computer Vision Research Community in Africa ( http://arxiv.org/abs/2305.06773v2 )

ライセンス: Link先を確認
Abdul-Hakeem Omotayo, Mai Gamal, Eman Ehab, Gbetondji Dovonon, Zainab Akinjobi, Ismaila Lukman, Houcemeddine Turki, Mahmod Abdien, Idriss Tondji, Abigail Oppong, Yvan Pimi, Karim Gamal, Ro'ya-CV4Africa, Mennatullah Siam(参考訳) コンピュータビジョンは、様々なタスク(例えば、オブジェクト検出)を包含する幅広い研究分野である。 コンピュータビジョンは様々な応用においてアフリカのコミュニティと関係があるが、コンピュータビジョン研究は大陸で未調査であり、過去10年間でトップクラスの出版物の0.06%しか構築していない。 本稿では,アフリカにおけるコンピュータビジョン研究をより深く理解し,研究に株式が存在するか否かの指針を提供することを目標とする。 私たちは、2012年から2022年の間に約63,000の出版物を収集する、アフリカコンピュータビジョン出版物の実証分析を通じてこれを実施しています。 まず、アフリカの機関がトップクラスのコンピュータビジョン会場で出版する機会について調査する。 北米やアジアなど他の大陸と異なり,近年の上位層におけるアフリカの出版動向は一貫した成長を見せていない。 さらに、アフリカ各地の上位の会場を超える全てのコンピュータビジョン出版物を調査し、主に北アフリカと南アフリカが68.5%と15.9%のコンピュータビジョンで出版していることを発見した。 それでも、東アフリカと西アフリカの両方が、過去2年間に南アフリカとのギャップを埋めることで有望な増加を見せていることを強調する。 さらに,これらの出版物におけるコラボレーションのパターンについて検討し,アフリカの出版物よりも国際的な共同作業が盛んであることを示す。 また、これらの出版物の多くは、最初の著者または最後の著者として重要な貢献者であるアフリカ人作家を含んでいることも示している。 最後に,アフリカ地域ごとのコンピュータビジョン出版において,最も反復的なキーワードを示す。

Computer vision is a broad field of study that encompasses different tasks (e.g., object detection). Although computer vision is relevant to the African communities in various applications, yet computer vision research is under-explored in the continent and constructs only 0.06% of top-tier publications in the last ten years. In this paper, our goal is to have a better understanding of the computer vision research conducted in Africa and provide pointers on whether there is equity in research or not. We do this through an empirical analysis of the African computer vision publications that are Scopus indexed, where we collect around 63,000 publications over the period 2012-2022. We first study the opportunities available for African institutions to publish in top-tier computer vision venues. We show that African publishing trends in top-tier venues over the years do not exhibit consistent growth, unlike other continents such as North America or Asia. Moreover, we study all computer vision publications beyond top-tier venues in different African regions to find that mainly Northern and Southern Africa are publishing in computer vision with 68.5% and 15.9% of publications, resp. Nonetheless, we highlight that both Eastern and Western Africa are exhibiting a promising increase with the last two years closing the gap with Southern Africa. Additionally, we study the collaboration patterns in these publications to find that most of these exhibit international collaborations rather than African ones. We also show that most of these publications include an African author that is a key contributor as the first or last author. Finally, we present the most recurring keywords in computer vision publications per African region.
翻訳日:2023-10-31 22:39:29 公開日:2023-10-29
# flowchart をダイアログに変換する: 合成データ生成による flowchart 接地トラブルシューティングダイアログの拡張

Turning Flowchart into Dialog: Augmenting Flowchart-grounded Troubleshooting Dialogs via Synthetic Data Generation ( http://arxiv.org/abs/2305.01323v3 )

ライセンス: Link先を確認
Haolan Zhan and Sameen Maruf and Lizhen Qu and Yufei Wang and Ingrid Zukerman and Gholamreza Haffari(参考訳) フローチャートに基づくトラブルシューティング対話(FTD)システムは、特定のドメイン(例えば車、ラップトップ)におけるユーザの問題を診断するためのフローチャートの指示に従っており、近年研究の関心を集めている。 しかし,フローチャートに自然に根ざした十分な対話の収集にはコストがかかるため,FTDシステムは訓練データ不足に悩まされる。 そこで本研究では,簡潔なフローチャートを対話に変換し,多種多様な合成ダイアログデータを生成するプランベース合成データ生成(plansdg)手法を提案する。 具体的には、その生成モデルは、グローバルおよびローカルの潜在計画変数を含む階層的計画戦略を持つ変分ベースフレームワークを採用している。 フロディアルデータセットを用いた実験では,plandgが生成する合成対話により,フローチャートパス検索や応答生成などの下流タスク,特にフローチャート外設定のパフォーマンスが向上することが示された。 さらに、PlanSDGが生成した合成データの品質を、現在カバーされていないサンプル対話やパスによってカバーされているパスで示す。

Flowchart-grounded troubleshooting dialogue (FTD) systems, which follow the instructions of a flowchart to diagnose users' problems in specific domains (e.g., vehicle, laptop), have been gaining research interest in recent years. However, collecting sufficient dialogues that are naturally grounded on flowcharts is costly, thus FTD systems are impeded by scarce training data. To mitigate the data sparsity issue, we propose a plan-based synthetic data generation (PlanSDG) approach that generates diverse synthetic dialog data at scale by transforming concise flowchart into dialogues. Specifically, its generative model employs a variational-base framework with a hierarchical planning strategy that includes global and local latent planning variables. Experiments on the FloDial dataset show that synthetic dialogue produced by PlanSDG improves the performance of downstream tasks, including flowchart path retrieval and response generation, in particular on the Out-of-Flowchart settings. In addition, further analysis demonstrate the quality of synthetic data generated by PlanSDG in paths that are covered by current sample dialogues and paths that are not covered.
翻訳日:2023-10-31 22:37:18 公開日:2023-10-29
# 制御可能な人体動作合成のための誘導運動拡散

Guided Motion Diffusion for Controllable Human Motion Synthesis ( http://arxiv.org/abs/2305.12577v3 )

ライセンス: Link先を確認
Korrawe Karunratanakul, Konpat Preechakul, Supasorn Suwajanakorn, Siyu Tang(参考訳) 発声拡散モデルは、自然言語記述に基づく人間の運動合成において大きな期待が持たれている。 しかし, 運動軌跡や障害物などの空間的制約の統合は, 孤立した人間の運動と周囲の環境とのギャップを埋めるのに不可欠であるにもかかわらず, 依然として課題である。 この問題を解決するために,空間制約を運動生成プロセスに組み込む手法であるガイド運動拡散(GMD)を提案する。 具体的には,空間情報と局所ポーズの一貫性を高めるために,動作表現を操作する効果的な特徴投影方式を提案する。 新しい計算式とともに、生成された動きは、大域的な運動軌跡のような空間的制約に確実に適合することができる。 さらに,空間的制約(例えばスパースキーフレーム)が与えられた場合,逆ステップで無視されやすいスパース信号を,生成された動作を所定の制約に導くためにより密な信号に変換するための,新しい密集した誘導手法を導入する。 広範な実験によりgmdの開発が正当化され,空間制約のある合成動作の制御が可能となり,テキストベースモーション生成における最先端手法よりも大幅に改善した。

Denoising diffusion models have shown great promise in human motion synthesis conditioned on natural language descriptions. However, integrating spatial constraints, such as pre-defined motion trajectories and obstacles, remains a challenge despite being essential for bridging the gap between isolated human motion and its surrounding environment. To address this issue, we propose Guided Motion Diffusion (GMD), a method that incorporates spatial constraints into the motion generation process. Specifically, we propose an effective feature projection scheme that manipulates motion representation to enhance the coherency between spatial information and local poses. Together with a new imputation formulation, the generated motion can reliably conform to spatial constraints such as global motion trajectories. Furthermore, given sparse spatial constraints (e.g. sparse keyframes), we introduce a new dense guidance approach to turn a sparse signal, which is susceptible to being ignored during the reverse steps, into denser signals to guide the generated motion to the given constraints. Our extensive experiments justify the development of GMD, which achieves a significant improvement over state-of-the-art methods in text-based motion generation while allowing control of the synthesized motions with spatial constraints.
翻訳日:2023-10-31 22:28:46 公開日:2023-10-29
# オンライン学習者の攻撃:教師-学生分析

Attacks on Online Learners: a Teacher-Student Analysis ( http://arxiv.org/abs/2305.11132v2 )

ライセンス: Link先を確認
Riccardo Giuseppe Margiotta, Sebastian Goldt, Guido Sanguinetti(参考訳) 機械学習モデルは、敵対的な攻撃に弱いことで有名だ。 多くの文献が事前訓練されたモデルに対するテストタイム攻撃について研究しているが、オンライン学習環境における攻撃の重要事例は今のところほとんど注目されていない。 本研究では,攻撃者がデータラベルを摂動させてオンライン学習者の学習力学を操作できるシナリオを,制御理論の観点から研究する。 本研究は,教師と教師の学習環境において,異なる攻撃戦略を考慮し,問題の理論的解析を行い,単純な線形学習者の定常状態に対する解析結果を得る。 これらの結果から,攻撃強度が臨界しきい値を超えると,学習者の精度が不連続になることを示すことができる。 次に、実データを用いて複雑なアーキテクチャを持つ学習者に対する経験的攻撃を研究し、理論解析の知見を確認する。 その結果、特に小さなバッチでデータストリームを行う場合、欲深い攻撃は極めて効率的であることが分かりました。

Machine learning models are famously vulnerable to adversarial attacks: small ad-hoc perturbations of the data that can catastrophically alter the model predictions. While a large literature has studied the case of test-time attacks on pre-trained models, the important case of attacks in an online learning setting has received little attention so far. In this work, we use a control-theoretical perspective to study the scenario where an attacker may perturb data labels to manipulate the learning dynamics of an online learner. We perform a theoretical analysis of the problem in a teacher-student setup, considering different attack strategies, and obtaining analytical results for the steady state of simple linear learners. These results enable us to prove that a discontinuous transition in the learner's accuracy occurs when the attack strength exceeds a critical threshold. We then study empirically attacks on learners with complex architectures using real data, confirming the insights of our theoretical analysis. Our findings show that greedy attacks can be extremely efficient, especially when data stream in small batches.
翻訳日:2023-10-31 22:26:51 公開日:2023-10-29
# 読書中の架空の人物の性格理解

Personality Understanding of Fictional Characters during Book Reading ( http://arxiv.org/abs/2305.10156v3 )

ライセンス: Link先を確認
Mo Yu, Jiangnan Li, Shunyu Yao, Wenjie Pang, Xiaochen Zhou, Zhou Xiao, Fandong Meng and Jie Zhou(参考訳) 登場人物の性格の理解は、物語を読む上で重要な側面である。 読者が物語に携わるにつれて、キャラクターに対する理解は新たな出来事や情報に基づいて進化し、パーソナリティの複数の細かい側面が認識される。 これは、位置と細かなパーソナリティ理解の自然な問題につながる。 この問題は、本を読む過程を模倣する適切なデータセットがないため、nlpの分野では研究されていない。 この問題に対する最初のラベル付きデータセットPersoNetを提示する。 新しいアノテーション戦略は、オンライン読書アプリからユーザーノートをオリジナルの書籍の代理としてアノテートすることを含む。 実験と人間の研究は、データセットの構築が効率的かつ正確であることを示し、我々のタスクは、機械と人間の両方の正確な予測を達成するために、長期的なコンテキストに大きく依存している。 データセットはhttps://github.com/gorov/personet_acl23で入手できる。

Comprehending characters' personalities is a crucial aspect of story reading. As readers engage with a story, their understanding of a character evolves based on new events and information; and multiple fine-grained aspects of personalities can be perceived. This leads to a natural problem of situated and fine-grained personality understanding. The problem has not been studied in the NLP field, primarily due to the lack of appropriate datasets mimicking the process of book reading. We present the first labeled dataset PersoNet for this problem. Our novel annotation strategy involves annotating user notes from online reading apps as a proxy for the original books. Experiments and human studies indicate that our dataset construction is both efficient and accurate; and our task heavily relies on long-term context to achieve accurate predictions for both machines and humans. The dataset is available at https://github.com/Gorov/personet_acl23.
翻訳日:2023-10-31 22:25:43 公開日:2023-10-29
# MQuAKE:マルチホップ質問による言語モデルにおける知識編集の評価

MQuAKE: Assessing Knowledge Editing in Language Models via Multi-Hop Questions ( http://arxiv.org/abs/2305.14795v2 )

ライセンス: Link先を確認
Zexuan Zhong, Zhengxuan Wu, Christopher D. Manning, Christopher Potts, Danqi Chen(参考訳) 大きな言語モデル(LLM)に格納されている情報は、すぐに時代遅れになり、スクラッチから再トレーニングすることは、多くの場合オプションではない。 これは最近、モデル重み付けを更新して新しい事実を注入する様々なテクニックを生み出した。 現在の評価パラダイムは極めて限定的であり、主に編集された事実のリコールを検証するが、1つの事実を変更することは、モデルの関連する信念に波及する変化を引き起こすべきである。 もし英国首相をリシ・スナックに編集したら、誰がイギリス首相と結婚するのか、別の答えを得るべきだ。 本稿では,MQuAKE (Multi-hop Question Answering for Knowledge Editing) というベンチマークを提示する。 現在の知識編集アプローチは、編集された事実を正確に思い出すことができるが、構築されたマルチホップの質問で破滅的に失敗する。 そこで我々は,すべての編集された事実を外部に格納し,言語モデルを反復的に促し,編集された事実と一致する回答を生成するシンプルなメモリベースアプローチであるmelloを提案する。 MQuAKEは依然として挑戦的だが、MLLoはLLM(最大175B)と同等にスケールし、以前のモデルエディタよりも大きなマージンで優れていることを示す。

The information stored in large language models (LLMs) falls out of date quickly, and retraining from scratch is often not an option. This has recently given rise to a range of techniques for injecting new facts through updating model weights. Current evaluation paradigms are extremely limited, mainly validating the recall of edited facts, but changing one fact should cause rippling changes to the model's related beliefs. If we edit the UK Prime Minister to now be Rishi Sunak, then we should get a different answer to Who is married to the British Prime Minister? In this work, we present a benchmark, MQuAKE (Multi-hop Question Answering for Knowledge Editing), comprising multi-hop questions that assess whether edited models correctly answer questions where the answer should change as an entailed consequence of edited facts. While we find that current knowledge-editing approaches can recall edited facts accurately, they fail catastrophically on the constructed multi-hop questions. We thus propose a simple memory-based approach, MeLLo, which stores all edited facts externally while prompting the language model iteratively to generate answers that are consistent with the edited facts. While MQuAKE remains challenging, we show that MeLLo scales well with LLMs (up to 175B) and outperforms previous model editors by a large margin.
翻訳日:2023-10-31 22:16:01 公開日:2023-10-29
# ALGO: 生成したOracle検証によるアルゴリズムプログラムの合成

ALGO: Synthesizing Algorithmic Programs with Generated Oracle Verifiers ( http://arxiv.org/abs/2305.14591v2 )

ライセンス: Link先を確認
Kexun Zhang, Danqing Wang, Jingtao Xia, William Yang Wang, Lei Li(参考訳) 大きな言語モデル(LLM)は、機能記述からコードを実装するのに優れ、実装だけでなく適切なアルゴリズムの識別も必要とするアルゴリズムの問題に対処する。 さらに、LLM生成プログラムは、保証された正確さを欠き、人間の検証を必要とする。 これらの課題に対処するため,アルゴリズムプログラムを LLM-Generated Oracle で合成するフレームワークであるALGO を提案する。 ALGOはまず、LLMに関連する変数のすべての組み合わせを包括的に列挙するように促すことで、参照オラクルを生成する。 このオラクルは、アルゴリズム空間の探索と合成アルゴリズムの検証において任意の探索戦略を導くために利用される。 症例の88%は, LLM産生のオークルが正しいことが示唆された。 oracle as verifiersを使えば、algoはモデルに依存しない方法で既存のコード生成モデルと統合でき、パフォーマンスが向上する。 ALGOを装着すると、Codexモデルよりも8倍、CodeTよりも2.6倍、最先端モデルであるCodeContestsよりも2.6倍の1サブミッションパス率が得られる。 また、見えない問題に対してChatGPT Code Interpreterよりも1.3倍のパスレートを得ることができる。 テストに使った問題セット,使用するプロンプト,検証プログラム,ソリューションプログラム,ALGOが生成するテストケースなどは,https://github.com/zkx06111/ALGOで公開されている。

Large language models (LLMs) excel at implementing code from functionality descriptions but struggle with algorithmic problems that require not only implementation but also identification of the suitable algorithm. Moreover, LLM-generated programs lack guaranteed correctness and require human verification. To address these challenges, we propose ALGO, a framework that synthesizes Algorithmic programs with LLM-Generated Oracles to guide the generation and verify their correctness. ALGO first generates a reference oracle by prompting an LLM to exhaustively enumerate all the combinations of relevant variables. This oracle is then utilized to guide an arbitrary search strategy in exploring the algorithm space and to verify the synthesized algorithms. Our study shows that the LLM-generated oracles are correct for 88% of the cases. With the oracles as verifiers, ALGO can be integrated with any existing code generation model in a model-agnostic manner to enhance its performance. Experiments show that when equipped with ALGO, we achieve an 8x better one-submission pass rate over the Codex model and a 2.6x better one-submission pass rate over CodeT, the current state-of-the-art model on CodeContests. We can also get 1.3x better pass rate over the ChatGPT Code Interpreter on unseen problems. The problem set we used for testing, the prompts we used, the verifier and solution programs, and the test cases generated by ALGO are available at https://github.com/zkx06111/ALGO.
翻訳日:2023-10-31 22:13:38 公開日:2023-10-29
# 合理性を持つ言語モデル

Language Models with Rationality ( http://arxiv.org/abs/2305.14250v2 )

ライセンス: Link先を確認
Nora Kassner, Oyvind Tafjord, Ashish Sabharwal, Kyle Richardson, Hinrich Schuetze, Peter Clark(参考訳) 大きな言語モデル(LLM)はQA(Qanguage-Awering)に長けているが、その答えが潜んでいる「信条」からどのように従うかは必ずしも明確ではない。 この解釈可能性の欠如は、LLMの普及に支障をきたす。 これを解決するために、我々のゴールは、モデル信念とその推論的関係を明確にし、存在可能な矛盾を解消し、一貫した信念のネットワークから引き出された推論の解釈的連鎖によって答えが支持されるようにすることである。 我々のアプローチはREFLEXと呼ばれ、LLMの上に合理的な自己反射層を追加することです。 まず, モデル信念(解答候補に関する信念を含む)とその推論関係を構成するために, 逆連鎖法を用いて信念グラフを構築した。 第二に、形式的制約推論器を用いて、そのグラフの矛盾を識別し、最小化する。 その結果,REFLEXは全体の解答精度を損なうことなく,一貫性を8%-11%向上させ,より一貫した信念体系から引き出された推論の忠実な連鎖に支えられることがわかった。 これは、有理層で拡張されたLLMがシステム信念の解釈可能なウィンドウを提供し、体系的な推論能力を加え、LLMに存在する潜伏不整合を修復する、新しいシステムアーキテクチャのスタイルを示唆している。

While large language models (LLMs) are proficient at question-answering (QA), it is not always clear how (or even if) an answer follows from their latent "beliefs". This lack of interpretability is a growing impediment to widespread use of LLMs. To address this, our goals are to make model beliefs and their inferential relationships explicit, and to resolve inconsistencies that may exist, so that answers are supported by interpretable chains of reasoning drawn from a consistent network of beliefs. Our approach, which we call REFLEX, is to add a rational, self-reflecting layer on top of the LLM. First, given a question, we construct a belief graph using a backward-chaining process to materialize relevant model beliefs (including beliefs about answer candidates) and their inferential relationships. Second, we identify and minimize contradictions in that graph using a formal constraint reasoner. We find that REFLEX significantly improves consistency (by 8%-11% absolute) without harming overall answer accuracy, resulting in answers supported by faithful chains of reasoning drawn from a more consistent belief system. This suggests a new style of system architecture in which an LLM extended with a rational layer can provide an interpretable window into system beliefs, add a systematic reasoning capability, and repair latent inconsistencies present in the LLM.
翻訳日:2023-10-31 22:12:15 公開日:2023-10-29
# 賭けによる公正の監査

Auditing Fairness by Betting ( http://arxiv.org/abs/2305.17570v2 )

ライセンス: Link先を確認
Ben Chugg, Santiago Cortes-Gomez, Bryan Wilder, Aaditya Ramdas(参考訳) 我々は,デプロイされた分類と回帰モデルの公平性を監査するための実用的,効率的,非パラメトリックな手法を提供する。 従来の作業では固定サンプルサイズに依存していましたが、私たちの手法はシーケンシャルで、入ってくるデータの継続的な監視を可能にします。 我々はまた、人口から一様にサンプリングされるのに対して、確率的政策によってデータを収集することを許可する。 これにより、別の目的のために収集されたデータで監査を行うことができる。 さらに、この政策は時間とともに変化し、異なる政策は異なるサブ人口に使用される。 最後に,本手法は,モデルの変化や基盤人口の変化から生じる分布変化を処理できる。 我々のアプローチは、特に「賭けによるテスト」フレームワークであるanytime-valid推論とゲーム理論統計の最近の進歩に基づいている。 これらの接続により、私たちのメソッドは解釈可能で、高速で、実装が容易になります。 提案手法の有効性を3つのベンチマークフェアネスデータセットに示す。

We provide practical, efficient, and nonparametric methods for auditing the fairness of deployed classification and regression models. Whereas previous work relies on a fixed-sample size, our methods are sequential and allow for the continuous monitoring of incoming data, making them highly amenable to tracking the fairness of real-world systems. We also allow the data to be collected by a probabilistic policy as opposed to sampled uniformly from the population. This enables auditing to be conducted on data gathered for another purpose. Moreover, this policy may change over time and different policies may be used on different subpopulations. Finally, our methods can handle distribution shift resulting from either changes to the model or changes in the underlying population. Our approach is based on recent progress in anytime-valid inference and game-theoretic statistics-the "testing by betting" framework in particular. These connections ensure that our methods are interpretable, fast, and easy to implement. We demonstrate the efficacy of our approach on three benchmark fairness datasets.
翻訳日:2023-10-31 22:04:53 公開日:2023-10-29
# 大規模視覚言語モデルの逆ロバスト性評価について

On Evaluating Adversarial Robustness of Large Vision-Language Models ( http://arxiv.org/abs/2305.16934v2 )

ライセンス: Link先を確認
Yunqing Zhao, Tianyu Pang, Chao Du, Xiao Yang, Chongxuan Li, Ngai-Man Cheung, Min Lin(参考訳) GPT-4のような大きな視覚言語モデル(VLM)は、特に視覚入力で応答生成において前例のない性能を達成し、ChatGPTのような大きな言語モデルよりも創造的で適応的な相互作用を可能にした。 にもかかわらず、マルチモーダル生成は、最も脆弱なモダリティ(視覚など)を微妙に操作することで、敵がシステム全体を回避できるため、安全上の懸念を悪化させる。 そこで本研究では,敵がブラックボックスシステムアクセスのみを持ち,ターゲットとした応答を返すモデルを騙そうとする,最も現実的でハイリスクな環境において,オープンソースの大規模vlmのロバスト性を評価することを提案する。 特に,CLIP や BLIP などの事前学習モデルに対して,まず対象とする対向例を作成し,その対向例を MiniGPT-4,LLaVA,UniDiffuser,BLIP-2,Img2Prompt などの他の VLM に転送する。 さらに,これらのvlm上でのブラックボックスクエリは,目標回避の有効性をさらに向上させ,目標応答の生成に驚くほど高い成功率をもたらすことを確認した。 本研究は,大規模なVLMの敵意的脆弱性について定量的に把握し,実際に展開する前に,その潜在的なセキュリティ欠陥をより徹底的に調査することを求めるものである。 コードはhttps://github.com/yunqing-me/AttackVLMにある。

Large vision-language models (VLMs) such as GPT-4 have achieved unprecedented performance in response generation, especially with visual inputs, enabling more creative and adaptable interaction than large language models such as ChatGPT. Nonetheless, multimodal generation exacerbates safety concerns, since adversaries may successfully evade the entire system by subtly manipulating the most vulnerable modality (e.g., vision). To this end, we propose evaluating the robustness of open-source large VLMs in the most realistic and high-risk setting, where adversaries have only black-box system access and seek to deceive the model into returning the targeted responses. In particular, we first craft targeted adversarial examples against pretrained models such as CLIP and BLIP, and then transfer these adversarial examples to other VLMs such as MiniGPT-4, LLaVA, UniDiffuser, BLIP-2, and Img2Prompt. In addition, we observe that black-box queries on these VLMs can further improve the effectiveness of targeted evasion, resulting in a surprisingly high success rate for generating targeted responses. Our findings provide a quantitative understanding regarding the adversarial vulnerability of large VLMs and call for a more thorough examination of their potential security flaws before deployment in practice. Code is at https://github.com/yunqing-me/AttackVLM.
翻訳日:2023-10-31 22:04:02 公開日:2023-10-29
# Uni-ControlNet:テキスト間拡散モデルへのオールインワン制御

Uni-ControlNet: All-in-One Control to Text-to-Image Diffusion Models ( http://arxiv.org/abs/2305.16322v3 )

ライセンス: Link先を確認
Shihao Zhao and Dongdong Chen and Yen-Chun Chen and Jianmin Bao and Shaozhe Hao and Lu Yuan and Kwan-Yee K. Wong(参考訳) テキスト間拡散モデルは過去2年間に大きく進歩し、オープンドメインのテキスト記述に基づく非常にリアルな画像の生成を可能にした。 しかし、その成功にもかかわらず、テキスト記述は長く複雑なテキストであっても、詳細な制御を適切に伝えるのに苦労することが多い。 さらに、近年の研究では、これらのモデルがこのような複雑なテキストを理解し、対応する画像を生成する上での課題に直面していることも示されている。 そのため、テキスト記述以上の制御モードを有効にする必要性が増している。 本稿では,Uni-ControlNetについて紹介する。このフレームワークは,複数のローカルコントロール(エッジマップ,深度マップ,セグメンテーションマスクなど)とグローバルコントロール(CLIPイメージ埋め込みなど)を,単一のモデル内で柔軟かつ構成可能な方法で同時利用可能にする。 既存の方法とは異なり、Uni-ControlNetでは、凍結訓練済みのテキスト-画像拡散モデルに2つの追加アダプタを微調整するだけで、トレーニングの膨大なコストをゼロから排除できる。 さらに、いくつかの専用のアダプタ設計のおかげで、uni-controlnetは使用するローカルまたはグローバルコントロールの数に関係なく、アダプタの一定数(つまり2つ)しか必要としない。 これにより、微調整コストとモデルサイズが削減され、現実のデプロイメントにより適するだけでなく、異なる条件のコンポーザビリティも向上する。 定量的および質的な比較を通じて、Uni-ControlNetは、制御性、生成品質、構成性の観点から、既存の方法よりも優れていることを示す。 コードは \url{https://github.com/shihaozhaozsh/uni-controlnet} で入手できる。

Text-to-Image diffusion models have made tremendous progress over the past two years, enabling the generation of highly realistic images based on open-domain text descriptions. However, despite their success, text descriptions often struggle to adequately convey detailed controls, even when composed of long and complex texts. Moreover, recent studies have also shown that these models face challenges in understanding such complex texts and generating the corresponding images. Therefore, there is a growing need to enable more control modes beyond text description. In this paper, we introduce Uni-ControlNet, a unified framework that allows for the simultaneous utilization of different local controls (e.g., edge maps, depth map, segmentation masks) and global controls (e.g., CLIP image embeddings) in a flexible and composable manner within one single model. Unlike existing methods, Uni-ControlNet only requires the fine-tuning of two additional adapters upon frozen pre-trained text-to-image diffusion models, eliminating the huge cost of training from scratch. Moreover, thanks to some dedicated adapter designs, Uni-ControlNet only necessitates a constant number (i.e., 2) of adapters, regardless of the number of local or global controls used. This not only reduces the fine-tuning costs and model size, making it more suitable for real-world deployment, but also facilitate composability of different conditions. Through both quantitative and qualitative comparisons, Uni-ControlNet demonstrates its superiority over existing methods in terms of controllability, generation quality and composability. Code is available at \url{https://github.com/ShihaoZhaoZSH/Uni-ControlNet}.
翻訳日:2023-10-31 22:02:51 公開日:2023-10-29
# 自動拡散に基づく拡張によるビジョンデータセットの多様化

Diversify Your Vision Datasets with Automatic Diffusion-Based Augmentation ( http://arxiv.org/abs/2305.16289v2 )

ライセンス: Link先を確認
Lisa Dunlap, Alyssa Umino, Han Zhang, Jiezhi Yang, Joseph E. Gonzalez, Trevor Darrell(参考訳) 希少な動物識別のような粒度の細かい分類タスクは訓練データに制限があるため、これらのデータセットで訓練された分類器は、天候や位置の変化のような領域のバリエーションに一般化できないことが多い。 そこで本研究では,トレーニングデータに現れるドメインの自然言語記述を,さまざまな事前学習データセットに基づいてトレーニングされた大規模ビジョンモデルを用いて,トレーニングデータの有用なバリエーションを生成する方法について検討する。 ALIA(Automated Language-Guided Image Augmentation)は,大規模ビジョンと言語モデルを用いて,データセットのドメインの自然言語記述を自動的に生成し,言語誘導画像編集によるトレーニングデータの拡張を行う手法である。 データ整合性を維持するために、オリジナルのデータセットでトレーニングされたモデルは、最小限の画像編集とクラス関連情報を破損したデータをフィルタリングする。 その結果得られたデータセットは、元のトレーニングデータと視覚的に一致し、ダイバーシティが大幅に向上します。 我々は,ALIAが,ドメイン一般化やコンテキストバイアスなど,きめ細かな分類タスクにおいて,従来のデータ拡張やテキストから画像への変換を超越できることを示す。 コードはhttps://github.com/lisadunlap/aliaで入手できる。

Many fine-grained classification tasks, like rare animal identification, have limited training data and consequently classifiers trained on these datasets often fail to generalize to variations in the domain like changes in weather or location. As such, we explore how natural language descriptions of the domains seen in training data can be used with large vision models trained on diverse pretraining datasets to generate useful variations of the training data. We introduce ALIA (Automated Language-guided Image Augmentation), a method which utilizes large vision and language models to automatically generate natural language descriptions of a dataset's domains and augment the training data via language-guided image editing. To maintain data integrity, a model trained on the original dataset filters out minimal image edits and those which corrupt class-relevant information. The resulting dataset is visually consistent with the original training data and offers significantly enhanced diversity. We show that ALIA is able to surpasses traditional data augmentation and text-to-image generated data on fine-grained classification tasks, including cases of domain generalization and contextual bias. Code is available at https://github.com/lisadunlap/ALIA.
翻訳日:2023-10-31 22:01:59 公開日:2023-10-29
# dowg unleashed:効率的なパラメータフリー勾配降下法

DoWG Unleashed: An Efficient Universal Parameter-Free Gradient Descent Method ( http://arxiv.org/abs/2305.16284v2 )

ライセンス: Link先を確認
Ahmed Khaled and Konstantin Mishchenko and Chi Jin(参考訳) 本稿では,パラメータフリー勾配型最適化器DoWG(Distance over Weighted Gradients)を提案する。 凸最適化における最適調整勾配勾配勾配の収束率をパラメータを調整せずに対数係数に一致させ、スムーズな問題と非滑らかな問題の両方に自動的に適応させることを証明した。 AdaGradフレームワークに続く一般的なアルゴリズムは正規化に使用する2乗勾配のランニング平均を計算するが、DoWGはランニング平均の新しい距離ベース重み付きバージョンを維持しており、所望の特性を達成するのに不可欠である。 また,本理論を補完するために,DoWGが安定性の限界に到達したことを実証的に示し,実践的な機械学習タスクの有効性を検証した。

This paper proposes a new easy-to-implement parameter-free gradient-based optimizer: DoWG (Distance over Weighted Gradients). We prove that DoWG is efficient -- matching the convergence rate of optimally tuned gradient descent in convex optimization up to a logarithmic factor without tuning any parameters, and universal -- automatically adapting to both smooth and nonsmooth problems. While popular algorithms following the AdaGrad framework compute a running average of the squared gradients to use for normalization, DoWG maintains a new distance-based weighted version of the running average, which is crucial to achieve the desired properties. To complement our theory, we also show empirically that DoWG trains at the edge of stability, and validate its effectiveness on practical machine learning tasks.
翻訳日:2023-10-31 22:01:38 公開日:2023-10-29
# クープマンカーネル回帰

Koopman Kernel Regression ( http://arxiv.org/abs/2305.16215v2 )

ライセンス: Link先を確認
Petar Bevanda, Max Beier, Armin Lederer, Stefan Sosnowski, Eyke H\"ullermeier, Sandra Hirche(参考訳) 強化学習のような意思決定のための多くの機械学習アプローチは、エージェントの状態やポリシーの報酬など、興味のある量の時間進化を予測するためのシミュレータや予測モデルに依存している。 このような複雑な現象の予測は、高度に非線形な力学系によって一般的に説明され、最適化に基づく意思決定を困難にしている。 Koopman演算子理論は、線形時間不変(LTI)ODEによって予測を特徴づけることにより、この問題に対処するための有益なパラダイムを提供する。 様々な学習アプローチが存在するが、それらは通常、重要な学習理論的な保証を欠いている。 我々は、LTI力学系への変換のみにまたがる軌道上の新しい再生カーネルヒルベルト空間(RKHS)を導出した。 結果として、Koopman Kernel Regression (KKR) フレームワークは、新しい収束結果の関数近似と、既存の作業よりも弱い仮定の下での一般化誤差境界から統計学習ツールを使用することができる。 本実験は, RKHSにおけるKoopman演算子とシーケンシャルデータ予測器と比較して優れた予測性能を示す。

Many machine learning approaches for decision making, such as reinforcement learning, rely on simulators or predictive models to forecast the time-evolution of quantities of interest, e.g., the state of an agent or the reward of a policy. Forecasts of such complex phenomena are commonly described by highly nonlinear dynamical systems, making their use in optimization-based decision-making challenging. Koopman operator theory offers a beneficial paradigm for addressing this problem by characterizing forecasts via linear time-invariant (LTI) ODEs -- turning multi-step forecasting into sparse matrix multiplications. Though there exists a variety of learning approaches, they usually lack crucial learning-theoretic guarantees, making the behavior of the obtained models with increasing data and dimensionality unclear. We address the aforementioned by deriving a novel reproducing kernel Hilbert space (RKHS) over trajectories that solely spans transformations into LTI dynamical systems. The resulting Koopman Kernel Regression (KKR) framework enables the use of statistical learning tools from function approximation for novel convergence results and generalization error bounds under weaker assumptions than existing work. Our experiments demonstrate superior forecasting performance compared to Koopman operator and sequential data predictors in RKHS.
翻訳日:2023-10-31 22:01:23 公開日:2023-10-29
# 知識グラフの埋め込みを生成モデルに変換する方法

How to Turn Your Knowledge Graph Embeddings into Generative Models ( http://arxiv.org/abs/2305.15944v2 )

ライセンス: Link先を確認
Lorenzo Loconte, Nicola Di Mauro, Robert Peharz, Antonio Vergari(参考訳) リンク予測のための最も成功した知識グラフ埋め込み(KGE)モデル(CP、RESCAL、TuckER、ComplEx)は、エネルギーベースのモデルとして解釈できる。 この観点からは、mle(maximum-likelihood estimation)やサンプリング、論理的な制約の統合に苦慮している。 この研究は、これらのKGEのスコア関数を回路として再解釈する。 次に,その活性化を非負に制限するか,出力を絞り込むかして,効率的な生成回路モデルを得るための2つのレシピを設計する。 我々の解釈では、リンク予測の性能がほとんどあるいは全く失われていないのに対し、回路フレームワークは、MLEによる正確な学習を解放し、新しいトリプルの効率的なサンプリングを行い、論理的制約が設計によって満たされることを保証する。 さらに、私たちのモデルは、数百万のエンティティを持つグラフ上の元のKGEよりも優雅にスケールします。

Some of the most successful knowledge graph embedding (KGE) models for link prediction -- CP, RESCAL, TuckER, ComplEx -- can be interpreted as energy-based models. Under this perspective they are not amenable for exact maximum-likelihood estimation (MLE), sampling and struggle to integrate logical constraints. This work re-interprets the score functions of these KGEs as circuits -- constrained computational graphs allowing efficient marginalisation. Then, we design two recipes to obtain efficient generative circuit models by either restricting their activations to be non-negative or squaring their outputs. Our interpretation comes with little or no loss of performance for link prediction, while the circuits framework unlocks exact learning by MLE, efficient sampling of new triples, and guarantee that logical constraints are satisfied by design. Furthermore, our models scale more gracefully than the original KGEs on graphs with millions of entities.
翻訳日:2023-10-31 22:01:06 公開日:2023-10-29
# 深部ニューラルネットワークトレーニングの不整合・不安定・一般化ギャップ

Inconsistency, Instability, and Generalization Gap of Deep Neural Network Training ( http://arxiv.org/abs/2306.00169v2 )

ライセンス: Link先を確認
Rie Johnson and Tong Zhang(参考訳) ディープニューラルネットワークは非常に表現力が高いため、小さな一般化ギャップ(トレーニングデータのパフォーマンスと目に見えないデータとの差)のソリューションを見つけることが重要である。 まず,トレーニングの確率的性質に着目し,一般化ギャップの境界がモデル出力の不整合と不安定性に依存する理論的解析を行い,ラベルなしデータを用いて推定する。 この分析に基づく実証研究により,不安定性と不整合性は様々な環境における一般化ギャップを強く予測できることが示された。 特に,不整合は,損失景観の鋭さよりも,一般化ギャップの信頼性の高い指標であることが示唆された。 さらに,不整合のアルゴリズム的低減が優れた性能をもたらすことを示す。 この結果は、共蒸留やアンサンブルといった既存の手法の理論的基盤も提供する。

As deep neural networks are highly expressive, it is important to find solutions with small generalization gap (the difference between the performance on the training data and unseen data). Focusing on the stochastic nature of training, we first present a theoretical analysis in which the bound of generalization gap depends on what we call inconsistency and instability of model outputs, which can be estimated on unlabeled data. Our empirical study based on this analysis shows that instability and inconsistency are strongly predictive of generalization gap in various settings. In particular, our finding indicates that inconsistency is a more reliable indicator of generalization gap than the sharpness of the loss landscape. Furthermore, we show that algorithmic reduction of inconsistency leads to superior performance. The results also provide a theoretical basis for existing methods such as co-distillation and ensemble.
翻訳日:2023-10-31 21:52:52 公開日:2023-10-29
# 強化学習のための潜在探索

Latent Exploration for Reinforcement Learning ( http://arxiv.org/abs/2305.20065v2 )

ライセンス: Link先を確認
Alberto Silvio Chiappa and Alessandro Marin Vargas and Ann Zixiang Huang and Alexander Mathis(参考訳) 強化学習では、エージェントは環境を探索し、相互作用することでポリシーを学ぶ。 次元の呪いのため、高次元の感覚入力を運動出力にマッピングする学習方針は特に困難である。 訓練中、最先端の芸術手法(sac、ppoなど)は、独立したガウス雑音でアクチュエーションを摂動させることで環境を探索する。 この非構造的な探索は多くのタスクで成功したが、過度に作動するシステムには最適である。 モーターや筋肉などの複数のアクチュエーターが動作を駆動する場合、非相関的な摂動は互いの効果を低下させるか、タスク非関連な方法で動作を変更する。 動作摂動間の時間相関を導入する解が存在するが、アクチュエータ間の相関を導入することは無視されている。 本稿では,政策ネットワークの潜在状態に時間相関ノイズを注入し,オン・オフ・ポリシーアルゴリズムとシームレスに統合する手法であるlatticeを提案する。 ネットワークのアクティベーションを摂動することで生じる雑音作用を,共分散行列を持つ多変量ガウス分布としてモデル化できることを実証する。 PyBulletのロコモーションタスクでは、Lattice-SACは成果の状態を達成し、ヒューマノイド環境での非構造探査よりも18%高い報酬を得る。 また,MyoSuiteの筋骨格制御環境において,Lattice-PPOは,ほとんどの到達や物体操作作業において高い報酬を得られるとともに,20~60%の削減によるエネルギー効率の向上も期待できる。 全体として,複雑なモータ制御タスクにおいて,時間とアクチュエータ空間における構造的動作ノイズの有効性を示す。 コードは、https://github.com/amathislab/lattice.comで入手できる。

In Reinforcement Learning, agents learn policies by exploring and interacting with the environment. Due to the curse of dimensionality, learning policies that map high-dimensional sensory input to motor output is particularly challenging. During training, state of the art methods (SAC, PPO, etc.) explore the environment by perturbing the actuation with independent Gaussian noise. While this unstructured exploration has proven successful in numerous tasks, it can be suboptimal for overactuated systems. When multiple actuators, such as motors or muscles, drive behavior, uncorrelated perturbations risk diminishing each other's effect, or modifying the behavior in a task-irrelevant way. While solutions to introduce time correlation across action perturbations exist, introducing correlation across actuators has been largely ignored. Here, we propose LATent TIme-Correlated Exploration (Lattice), a method to inject temporally-correlated noise into the latent state of the policy network, which can be seamlessly integrated with on- and off-policy algorithms. We demonstrate that the noisy actions generated by perturbing the network's activations can be modeled as a multivariate Gaussian distribution with a full covariance matrix. In the PyBullet locomotion tasks, Lattice-SAC achieves state of the art results, and reaches 18% higher reward than unstructured exploration in the Humanoid environment. In the musculoskeletal control environments of MyoSuite, Lattice-PPO achieves higher reward in most reaching and object manipulation tasks, while also finding more energy-efficient policies with reductions of 20-60%. Overall, we demonstrate the effectiveness of structured action noise in time and actuator space for complex motor control tasks. The code is available at: https://github.com/amathislab/lattice.
翻訳日:2023-10-31 21:52:13 公開日:2023-10-29
# unssor: 過剰な訓練混合物を利用した教師なしニューラル音声分離

UNSSOR: Unsupervised Neural Speech Separation by Leveraging Over-determined Training Mixtures ( http://arxiv.org/abs/2305.20054v2 )

ライセンス: Link先を確認
Zhong-Qiu Wang and Shinji Watanabe(参考訳) 複数の同時話者を持つ残響状態において、各マイクは異なる場所で複数の話者の混合信号を取得する。 マイクロホンが話者数を上回る過大な条件下では、各混合信号を制約として利用することにより、話者画像に対する解を絞り込み、教師なし音声分離を実現することができる(例えば、マイクロホンにおける推定話者画像は、混合音声に加算されるべきである)。 この知見に基づき、UNSSORは、$\textbf{u}$nsupervised $\textbf{n}$eural $\textbf{s}$peech $\textbf{s}$eparationに対して、$\textbf{o}$ver-determined training mixtu$\textbf{r}$esを利用するアルゴリズムを提案する。 各トレーニングステップでは、入力混合物をディープニューラルネットワーク(dnn)に供給して、各話者の中間推定を生成し、その推定値を線形にフィルタリングし、損失を最適化することで、各マイクにおいて、上記の制約を満たすために、すべての話者のフィルタされた推定値が混合物に加算されるようにする。 この損失は、教師なし話者の分離を促進することができる。 線形フィルタは、フォワード畳み込み予測(fcp)アルゴリズムにより、混合およびdnn推定に基づいて各サブバンドで計算される。 サブバンドFCPを用いて発生する周波数変動問題に対処するため,ソース内規模の最小化に基づく損失項を提案する。 UNSSORは過度に決定された訓練混合物を必要とするが、過度に決定された分離を達成するためにDNNを訓練することができる。 残響条件における2話者分離の評価結果はUNSSORの有効性と可能性を示している。

In reverberant conditions with multiple concurrent speakers, each microphone acquires a mixture signal of multiple speakers at a different location. In over-determined conditions where the microphones out-number speakers, we can narrow down the solutions to speaker images and realize unsupervised speech separation by leveraging each mixture signal as a constraint (i.e., the estimated speaker images at a microphone should add up to the mixture). Equipped with this insight, we propose UNSSOR, an algorithm for $\textbf{u}$nsupervised $\textbf{n}$eural $\textbf{s}$peech $\textbf{s}$eparation by leveraging $\textbf{o}$ver-determined training mixtu$\textbf{r}$es. At each training step, we feed an input mixture to a deep neural network (DNN) to produce an intermediate estimate for each speaker, linearly filter the estimates, and optimize a loss so that, at each microphone, the filtered estimates of all the speakers can add up to the mixture to satisfy the above constraint. We show that this loss can promote unsupervised separation of speakers. The linear filters are computed in each sub-band based on the mixture and DNN estimates through the forward convolutive prediction (FCP) algorithm. To address the frequency permutation problem incurred by using sub-band FCP, a loss term based on minimizing intra-source magnitude scattering is proposed. Although UNSSOR requires over-determined training mixtures, we can train DNNs to achieve under-determined separation (e.g., unsupervised monaural speech separation). Evaluation results on two-speaker separation in reverberant conditions show the effectiveness and potential of UNSSOR.
翻訳日:2023-10-31 21:51:42 公開日:2023-10-29
# Bayesian Implicit Neural Representation による圧縮

Compression with Bayesian Implicit Neural Representations ( http://arxiv.org/abs/2305.19185v5 )

ライセンス: Link先を確認
Zongyu Guo, Gergely Flamich, Jiajun He, Zhibo Chen, Jos\'e Miguel Hern\'andez-Lobato(参考訳) 多くの一般的なデータ型は、ピクセルの位置や画像の場合のrgb値など、座標を信号値にマッピングする関数として表現することができる。 このビューに基づいて、コンパクトニューラルネットワークを機能表現に過度に適合させ、ネットワーク重みを符号化することで、データを圧縮することができる。 しかし、現在のソリューションのほとんどは非効率であり、低ビット精度への量子化は再構成品質を実質的に低下させる。 この問題に対処するために、変分ベイズニューラルネットワークをデータに適用し、量子化やエントロピー符号化の代わりに相対エントロピー符号化を用いて近似後重みサンプルを圧縮する手法を提案する。 この戦略により、$\beta$-elboを最小化し、$\beta$を調整して所定のネットワークアーキテクチャの異なるレートディストリクトトレードオフを目標とするレートディストリクト性能の直接最適化が可能になる。 さらに, 先行体重分布を学習するための反復アルゴリズムを導入し, 変動後方の漸進的改良プロセスを採用し, 性能を著しく向上させる。 実験により,本手法は単純さを維持しつつ,画像および音声の圧縮に強い性能を発揮することが示された。

Many common types of data can be represented as functions that map coordinates to signal values, such as pixel locations to RGB values in the case of an image. Based on this view, data can be compressed by overfitting a compact neural network to its functional representation and then encoding the network weights. However, most current solutions for this are inefficient, as quantization to low-bit precision substantially degrades the reconstruction quality. To address this issue, we propose overfitting variational Bayesian neural networks to the data and compressing an approximate posterior weight sample using relative entropy coding instead of quantizing and entropy coding it. This strategy enables direct optimization of the rate-distortion performance by minimizing the $\beta$-ELBO, and target different rate-distortion trade-offs for a given network architecture by adjusting $\beta$. Moreover, we introduce an iterative algorithm for learning prior weight distributions and employ a progressive refinement process for the variational posterior that significantly enhances performance. Experiments show that our method achieves strong performance on image and audio compression while retaining simplicity.
翻訳日:2023-10-31 21:50:00 公開日:2023-10-29
# 初期化時の等尺埋め込み獲得における活性化と正規化の影響について

On the impact of activation and normalization in obtaining isometric embeddings at initialization ( http://arxiv.org/abs/2305.18399v2 )

ライセンス: Link先を確認
Amir Joudaki, Hadi Daneshmand, Francis Bach(参考訳) 本稿では,入力のバッチに対応する出力のペアワイズ内積を含むディープニューラルネットワークにおけるペナルティメートグラム行列の構造について検討する。 いくつかのアーキテクチャでは、このグラム行列は初期化の深さで縮退し、トレーニングが劇的に遅くなることが観察されている。 バッチやレイヤの正規化といった正規化層は、ランクの崩壊を防止する上で重要な役割を果たす。 有望な進歩にもかかわらず、既存の理論的な結果はトランスフォーマーで広く使われている層正規化に及ばず、非線形活性化の役割を定量的に特徴づけることができない。 このギャップを埋めるために、活性化層と共に層正規化が、初期化の深さが指数関数的速度で同一性行列に向かって多層パーセプトロンのグラム行列を偏らせることを証明した。 活性化関数のHermite展開を用いて、この速度を定量化する。

In this paper, we explore the structure of the penultimate Gram matrix in deep neural networks, which contains the pairwise inner products of outputs corresponding to a batch of inputs. In several architectures it has been observed that this Gram matrix becomes degenerate with depth at initialization, which dramatically slows training. Normalization layers, such as batch or layer normalization, play a pivotal role in preventing the rank collapse issue. Despite promising advances, the existing theoretical results do not extend to layer normalization, which is widely used in transformers, and can not quantitatively characterize the role of non-linear activations. To bridge this gap, we prove that layer normalization, in conjunction with activation layers, biases the Gram matrix of a multilayer perceptron towards the identity matrix at an exponential rate with depth at initialization. We quantify this rate using the Hermite expansion of the activation function.
翻訳日:2023-10-31 21:48:27 公開日:2023-10-29
# スプリアス相関に対する漸進的データ拡張によるロバスト学習

Robust Learning with Progressive Data Expansion Against Spurious Correlation ( http://arxiv.org/abs/2306.04949v2 )

ライセンス: Link先を確認
Yihe Deng, Yu Yang, Baharan Mirzasoleiman, Quanquan Gu(参考訳) ディープラーニングモデルは様々なタスクで顕著なパフォーマンスを示しているが、真のラベルと真に相関するコア機能ではなく、一般化できないスプリアスな特徴の学習に敏感である。 本稿では,線形モデルの既存の解析を越えて,スプリアス特徴の存在下での2層非線形畳み込みニューラルネットワークの学習過程を理論的に検討する。 分析の結果,不均衡なデータ群と学習容易なスプリアス特徴が学習過程におけるスプリアス特徴の優位性に繋がる可能性が示唆された。 そこで,本研究では,モデルのロバスト性が向上し,最悪の集団性能が向上するpdeと呼ばれる新しい学習アルゴリズムを提案する。 PDEはトレーニングデータのグループバランスのサブセットから始まり、コア機能の学習を容易にするために徐々に拡張する。 ResNets や Transformer などのモデルを用いた合成および実世界のベンチマークデータセットの実験により,本手法の優れた性能が確認された。 平均すると, 最大10倍のトレーニング効率を保ちながら, 最先端法と比較して, 最悪群精度が2.8%向上した。 コードはhttps://github.com/uclaml/PDEで公開されている。

While deep learning models have shown remarkable performance in various tasks, they are susceptible to learning non-generalizable spurious features rather than the core features that are genuinely correlated to the true label. In this paper, beyond existing analyses of linear models, we theoretically examine the learning process of a two-layer nonlinear convolutional neural network in the presence of spurious features. Our analysis suggests that imbalanced data groups and easily learnable spurious features can lead to the dominance of spurious features during the learning process. In light of this, we propose a new training algorithm called PDE that efficiently enhances the model's robustness for a better worst-group performance. PDE begins with a group-balanced subset of training data and progressively expands it to facilitate the learning of the core features. Experiments on synthetic and real-world benchmark datasets confirm the superior performance of our method on models such as ResNets and Transformers. On average, our method achieves a 2.8% improvement in worst-group accuracy compared with the state-of-the-art method, while enjoying up to 10x faster training efficiency. Codes are available at https://github.com/uclaml/PDE.
翻訳日:2023-10-31 21:40:38 公開日:2023-10-29
# 分散平均推定におけるコミュニケーション・生産性・ユーティリティトレードオフの厳密な最適性

Exact Optimality of Communication-Privacy-Utility Tradeoffs in Distributed Mean Estimation ( http://arxiv.org/abs/2306.04924v2 )

ライセンス: Link先を確認
Berivan Isik, Wei-Ning Chen, Ayfer Ozgur, Tsachy Weissman, Albert No(参考訳) 通信における平均推定問題と局所的差分プライバシー制約について検討する。 前回の研究では、同じ問題(つまり、より多くのビットを費やすときに漸近的に最適)に対する \emph{order}-optimalアルゴリズムを提案したが、(非漸近的な設定において) \emph{exact} の最適性はまだ達成されていない。 本研究では,共有ランダム性(サーバとユーザの間で共有される確率変数)の存在下での \emph{exact}-optimal アプローチを特徴付け, \emph{exact} の最適性に関するいくつかの条件を同定する。 この条件の1つは、回転対称な共有ランダムコードブックを利用することである。 そこで本研究では,emph{exact}-optimal codebookの特性を満足する,コードブックがランダムに回転するsimplexであるランダム化機構を提案する。 提案手法は,ランダムに回転する単純なコードブックに対して,emph{exact}-optimalであることが証明された$k$-closestエンコーディングに基づいている。

We study the mean estimation problem under communication and local differential privacy constraints. While previous work has proposed \emph{order}-optimal algorithms for the same problem (i.e., asymptotically optimal as we spend more bits), \emph{exact} optimality (in the non-asymptotic setting) still has not been achieved. In this work, we take a step towards characterizing the \emph{exact}-optimal approach in the presence of shared randomness (a random variable shared between the server and the user) and identify several conditions for \emph{exact} optimality. We prove that one of the conditions is to utilize a rotationally symmetric shared random codebook. Based on this, we propose a randomization mechanism where the codebook is a randomly rotated simplex -- satisfying the properties of the \emph{exact}-optimal codebook. The proposed mechanism is based on a $k$-closest encoding which we prove to be \emph{exact}-optimal for the randomly rotated simplex codebook.
翻訳日:2023-10-31 21:40:16 公開日:2023-10-29
# LEACE: 閉形式の完全線形概念消去

LEACE: Perfect linear concept erasure in closed form ( http://arxiv.org/abs/2306.03819v3 )

ライセンス: Link先を確認
Nora Belrose, David Schneider-Joseph, Shauli Ravfogel, Ryan Cotterell, Edward Raff, Stella Biderman(参考訳) 概念消去は、特定の特徴を表現から削除することを目的としている。 公平性(例えば、分類器が性別や人種を使用するのを防ぐ)や解釈性(例えば、モデルの振る舞いの変化を観察するための概念を削除する)を改善することができる。 そこで我々は,LEAst-squares Concept Erasure (LEACE)を導入し,すべての線形分類器が可能な限り少ない値で表現を変更しながら概念を検出することを確実に防止する閉形式手法を提案する。 我々は,ネットワークの各層から対象概念情報を消去する「概念スクラブ」と呼ばれる新しい手法を用いて,大規模言語モデルに適用する。 提案手法は,音声情報への言語モデルの依存度を計測し,BERT埋め込みにおける性別バイアスを低減するという2つの課題について実証する。 コードはhttps://github.com/eleutherai/concept-erasureで入手できる。

Concept erasure aims to remove specified features from a representation. It can improve fairness (e.g. preventing a classifier from using gender or race) and interpretability (e.g. removing a concept to observe changes in model behavior). We introduce LEAst-squares Concept Erasure (LEACE), a closed-form method which provably prevents all linear classifiers from detecting a concept while changing the representation as little as possible, as measured by a broad class of norms. We apply LEACE to large language models with a novel procedure called "concept scrubbing," which erases target concept information from every layer in the network. We demonstrate our method on two tasks: measuring the reliance of language models on part-of-speech information, and reducing gender bias in BERT embeddings. Code is available at https://github.com/EleutherAI/concept-erasure.
翻訳日:2023-10-31 21:39:08 公開日:2023-10-29
# 条件付き単調性強制による初期itアーキテクチャの時限分類に向けて

Towards Anytime Classification in Early-Exit Architectures by Enforcing Conditional Monotonicity ( http://arxiv.org/abs/2306.02652v2 )

ライセンス: Link先を確認
Metod Jazbec, James Urquhart Allingham, Dan Zhang, Eric Nalisnick(参考訳) 現代の予測モデルは、しばしば計算予算が動的である環境に展開される。 アルゴリズムは、計算中の任意の時点において、計算時間の関数である品質の予測を出力できるような環境に適している。 ニューラルネットワークは、ネットワークのさまざまな段階で中間的な予測を提供する能力のために、任意の時間計算の文脈で注目を集めている。 しかし,各データポイントの予測の質は,計算時間を長くすれば改善することが保証されていないため,現在のアーリーエクイットネットワークはいつでも適用できないことを示す。 この欠点に対処するため,我々は,アーリーエクイティネットワークが徐々に自信を持つようになるように促す,専門家の製品に基づくエレガントなポストホックな修正を提案する。 これにより、私たちの深層モデルには、予測品質における条件付き単調性の性質が与えられます。 画像分類タスクにおける実験結果から, 平均精度を保ちながら, このような動作を実現できることを示す。

Modern predictive models are often deployed to environments in which computational budgets are dynamic. Anytime algorithms are well-suited to such environments as, at any point during computation, they can output a prediction whose quality is a function of computation time. Early-exit neural networks have garnered attention in the context of anytime computation due to their capability to provide intermediate predictions at various stages throughout the network. However, we demonstrate that current early-exit networks are not directly applicable to anytime settings, as the quality of predictions for individual data points is not guaranteed to improve with longer computation. To address this shortcoming, we propose an elegant post-hoc modification, based on the Product-of-Experts, that encourages an early-exit network to become gradually confident. This gives our deep models the property of conditional monotonicity in the prediction quality -- an essential stepping stone towards truly anytime predictive modeling using early-exit architectures. Our empirical results on standard image-classification tasks demonstrate that such behaviors can be achieved while preserving competitive accuracy on average.
翻訳日:2023-10-31 21:37:53 公開日:2023-10-29
# 概念の自動抽出と概念重要度推定を統一する包括的アプローチ

A Holistic Approach to Unifying Automatic Concept Extraction and Concept Importance Estimation ( http://arxiv.org/abs/2306.07304v2 )

ライセンス: Link先を確認
Thomas Fel, Victor Boutin, Mazda Moayeri, R\'emi Cad\`ene, Louis Bethune, L\'eo and\'eol, Mathieu Chalvidal, Thomas Serre(参考訳) 近年,ANN(Artificial Neural Networks)の決定を解釈する上で最も有望な説明可能性手法として,概念に基づくアプローチが登場している。 これらの手法は,(1)概念抽出,(2)重要度推定の2段階において,ANNアクティベーションの複雑なパターン内に埋もれた,理解不能な視覚的「概念」を発見する。 これら2つのステップはメソッド間で共有されるが、それぞれ固有の実装が異なる。 本稿では,これら2つのステップを包括的に定義し,明確化する統一理論フレームワークを提案する。 このフレームワークには、いくつかの利点があります。 一 異なる概念抽出アプローチを比較するための新しい評価指標を提案すること。 二 現代帰属法及び評価基準を活用し、最先端概念に基づくアプローチ及び重要度評価手法を拡張し、体系的に評価すること。 (iii)そのような方法の最適性に関する理論的保証を導出すること。 同様の共有戦略に基づいて分類されたデータポイントのクラスタを効率的に識別する方法です。 これらの知見を説明し,モデルの主要戦略を強調するために,戦略クラスタグラフと呼ばれる視覚的表現を導入する。 最後に、ImageNetデータセットの全クラスに対して、これらの視覚化の完全なコンパイルを提供する専用ウェブサイトであるhttps://serre-lab.github.io/Lensを紹介する。

In recent years, concept-based approaches have emerged as some of the most promising explainability methods to help us interpret the decisions of Artificial Neural Networks (ANNs). These methods seek to discover intelligible visual 'concepts' buried within the complex patterns of ANN activations in two key steps: (1) concept extraction followed by (2) importance estimation. While these two steps are shared across methods, they all differ in their specific implementations. Here, we introduce a unifying theoretical framework that comprehensively defines and clarifies these two steps. This framework offers several advantages as it allows us: (i) to propose new evaluation metrics for comparing different concept extraction approaches; (ii) to leverage modern attribution methods and evaluation metrics to extend and systematically evaluate state-of-the-art concept-based approaches and importance estimation techniques; (iii) to derive theoretical guarantees regarding the optimality of such methods. We further leverage our framework to try to tackle a crucial question in explainability: how to efficiently identify clusters of data points that are classified based on a similar shared strategy. To illustrate these findings and to highlight the main strategies of a model, we introduce a visual representation called the strategic cluster graph. Finally, we present https://serre-lab.github.io/Lens, a dedicated website that offers a complete compilation of these visualizations for all classes of the ImageNet dataset.
翻訳日:2023-10-31 21:28:31 公開日:2023-10-29
# MAgnitude Constrained Optimization を用いた深部ネットワークのアンロック特徴可視化

Unlocking Feature Visualization for Deeper Networks with MAgnitude Constrained Optimization ( http://arxiv.org/abs/2306.06805v2 )

ライセンス: Link先を確認
Thomas Fel, Thibaut Boissin, Victor Boutin, Agustin Picard, Paul Novello, Julien Colin, Drew Linsley, Tom Rousseau, R\'emi Cad\`ene, Laurent Gardes, Thomas Serre(参考訳) 機能可視化は、特に2017年のolahらによる影響力のある研究によって、説明可能性の重要なツールとして確立された後、かなりの人気を集めている。 しかしながら、解釈可能なイメージを生成するためのトリックへの依存と、より深いニューラルネットワークにスケールアップする際の課題により、広く採用されているのは限られている。 ここではこれらの欠点に対処するための簡単なアプローチであるMACOについて述べる。 主な考え方は、生成した説明が自然画像の空間に存在することを保証するために、位相スペクトルを最適化して画像を生成することである。 我々のアプローチは(質的にも量的にも)かなり良い結果をもたらし、大規模な最先端ニューラルネットワークの効率的かつ解釈可能な特徴可視化を解き放ちます。 また,我々のアプローチでは,特徴の可視化を空間的重要度で強化できる帰属機構が示されている。 特徴可視化手法を比較するための新しいベンチマークで本手法を検証し、画像Netデータセットの全クラスについてhttps://serre-lab.github.io/Lens/で視覚化する。 全体として、我々のアプローチは、パラメトリックな事前画像モデルに頼ることなく、大規模な最先端のディープニューラルネットワークの可視化を初めて行う。

Feature visualization has gained substantial popularity, particularly after the influential work by Olah et al. in 2017, which established it as a crucial tool for explainability. However, its widespread adoption has been limited due to a reliance on tricks to generate interpretable images, and corresponding challenges in scaling it to deeper neural networks. Here, we describe MACO, a simple approach to address these shortcomings. The main idea is to generate images by optimizing the phase spectrum while keeping the magnitude constant to ensure that generated explanations lie in the space of natural images. Our approach yields significantly better results (both qualitatively and quantitatively) and unlocks efficient and interpretable feature visualizations for large state-of-the-art neural networks. We also show that our approach exhibits an attribution mechanism allowing us to augment feature visualizations with spatial importance. We validate our method on a novel benchmark for comparing feature visualization methods, and release its visualizations for all classes of the ImageNet dataset on https://serre-lab.github.io/Lens/. Overall, our approach unlocks, for the first time, feature visualizations for large, state-of-the-art deep neural networks without resorting to any parametric prior image model.
翻訳日:2023-10-31 21:27:55 公開日:2023-10-29
# 有限証人定理による多重集合、測度、グラフに対する神経注入関数

Neural Injective Functions for Multisets, Measures and Graphs via a Finite Witness Theorem ( http://arxiv.org/abs/2306.06529v2 )

ライセンス: Link先を確認
Tal Amir, Steven J. Gortler, Ilai Avni, Ravina Ravina, Nadav Dym(参考訳) インジェクティブ・マルチセット関数は、マルチセットとグラフ上の機械学習の理論研究において重要な役割を果たす。 しかし、一般に多項式モーメントに依存する理論で検討されている有理な単射多重集合関数と、実際に使われる多重集合関数との間にはギャップがあり、それらは、その多重集合への単射性がこれまで研究されていない$\textit{neural moments}$$$\unicode{x2014}$に依存する。 本稿では,解析的非多項アクティベーションを用いることにより,ニューラルネットワークのモーメントが単射マルチセット関数を定義することを示すことで,このギャップを埋める。 我々の理論が要求するモーメントの数は、本質的には2の乗算係数まで最適である。 この結果を証明するために、我々は$\textit{finite witness theorem}$を宣言し、証明する。 主定理のまとめとして、多重集合と測度上の関数に対する新しい近似結果とグラフニューラルネットワークに対する新たな分離結果を導出する。 また,(1)区分線形ニューラルネットワークのモーメントは単射マルチセット関数であってはならない,(2)モーメントベースマルチセット関数が単射である場合でも、バイリプシッツではあり得ない,という2つの否定的な結果が得られた。

Injective multiset functions have a key role in the theoretical study of machine learning on multisets and graphs. Yet, there remains a gap between the provably injective multiset functions considered in theory, which typically rely on polynomial moments, and the multiset functions used in practice, which rely on $\textit{neural moments}$ $\unicode{x2014}$ whose injectivity on multisets has not been studied to date. In this paper, we bridge this gap by showing that moments of neural networks do define injective multiset functions, provided that an analytic non-polynomial activation is used. The number of moments required by our theory is optimal essentially up to a multiplicative factor of two. To prove this result, we state and prove a $\textit{finite witness theorem}$, which is of independent interest. As a corollary to our main theorem, we derive new approximation results for functions on multisets and measures, and new separation results for graph neural networks. We also provide two negative results: (1) moments of piecewise-linear neural networks cannot be injective multiset functions; and (2) even when moment-based multiset functions are injective, they can never be bi-Lipschitz.
翻訳日:2023-10-31 21:27:31 公開日:2023-10-29
# 決定スタック: モジュール生成モデルによる柔軟な強化学習

Decision Stacks: Flexible Reinforcement Learning via Modular Generative Models ( http://arxiv.org/abs/2306.06253v2 )

ライセンス: Link先を確認
Siyan Zhao and Aditya Grover(参考訳) 強化学習は、複雑な目標の特定、将来の観察と行動の計画、ユーティリティの評価など、シーケンシャルな意思決定のいくつかの異なる側面を推論するための魅力的なパラダイムを提供する。 しかし、これらの能力の統合は、効率的な学習と推論のためのモデリング選択の柔軟性を許容しながら、最大表現性を維持するためのアルゴリズム的課題を競合する。 目標条件付きポリシーエージェントを3つの生成モジュールに分解する生成フレームワークであるDecision Stacksを提案する。 これらのモジュールは、教師の強制によって並列に学習できる独立した生成モデルを通じて、観察、報酬、行動の時間的進化をシミュレートする。 このフレームワークは、アーキテクチャバイアス、最適化目標とダイナミクス、ドメイン間の転送可能性、推論速度といった重要な要因を考慮して、個々のモジュールを設計する際の表現性と柔軟性の両方を保証します。 実験の結果,いくつかのMDPおよびPMDP環境におけるオフラインポリシー最適化における決定スタックの有効性が実証された。

Reinforcement learning presents an attractive paradigm to reason about several distinct aspects of sequential decision making, such as specifying complex goals, planning future observations and actions, and critiquing their utilities. However, the combined integration of these capabilities poses competing algorithmic challenges in retaining maximal expressivity while allowing for flexibility in modeling choices for efficient learning and inference. We present Decision Stacks, a generative framework that decomposes goal-conditioned policy agents into 3 generative modules. These modules simulate the temporal evolution of observations, rewards, and actions via independent generative models that can be learned in parallel via teacher forcing. Our framework guarantees both expressivity and flexibility in designing individual modules to account for key factors such as architectural bias, optimization objective and dynamics, transferrability across domains, and inference speed. Our empirical results demonstrate the effectiveness of Decision Stacks for offline policy optimization for several MDP and POMDP environments, outperforming existing methods and enabling flexible generative decision making.
翻訳日:2023-10-31 21:26:19 公開日:2023-10-29
# Prodigy: 適応型パラメータフリー学習者

Prodigy: An Expeditiously Adaptive Parameter-Free Learner ( http://arxiv.org/abs/2306.06101v3 )

ライセンス: Link先を確認
Konstantin Mishchenko, Aaron Defazio(参考訳) 我々は,AdagradやAdamといった適応的な手法で学習率を推定する問題を考察する。 本稿では,学習率を最適に設定するために必要な解からD$までの距離を確実に推定する2つの手法,ProdigyとResettingについて述べる。 本手法は,学習速度フリー学習のためのd適応法の改良である。 我々の手法は、D-適応の収束率を$O(\sqrt{\log(D/d_0)})$で改善する。 我々は12の共通ロジスティック回帰ベンチマークデータセット、CIFAR10のVGG11およびResNet-50トレーニング、ImagenetのVTトレーニング、IWSLT14のLSTMトレーニング、CriteoデータセットのDLRMトレーニング、Knee MRIデータセットのVarNet、BookWikiのRoBERTaおよびGPTトランスフォーマートレーニングについてテストした。 実験の結果,D-Adaptationの精度は手作業のAdamと同等に向上し,精度も向上した。

We consider the problem of estimating the learning rate in adaptive methods, such as Adagrad and Adam. We describe two techniques, Prodigy and Resetting, to provably estimate the distance to the solution $D$, which is needed to set the learning rate optimally. Our techniques are modifications of the D-Adaptation method for learning-rate-free learning. Our methods improve upon the convergence rate of D-Adaptation by a factor of $O(\sqrt{\log(D/d_0)})$, where $d_0$ is the initial estimate of $D$. We test our methods on 12 common logistic-regression benchmark datasets, VGG11 and ResNet-50 training on CIFAR10, ViT training on Imagenet, LSTM training on IWSLT14, DLRM training on Criteo dataset, VarNet on Knee MRI dataset, as well as RoBERTa and GPT transformer training on BookWiki. Our experimental results show that our approaches consistently outperform D-Adaptation and reach test accuracy values close to that of hand-tuned Adam.
翻訳日:2023-10-31 21:25:25 公開日:2023-10-29
# グラフ上の関数のベイズ最適化

Bayesian Optimisation of Functions on Graphs ( http://arxiv.org/abs/2306.05304v2 )

ライセンス: Link先を確認
Xingchen Wan, Pierre Osselin, Henry Kenlay, Binxin Ru, Michael A. Osborne, Xiaowen Dong(参考訳) グラフ構造化データの可用性の増大は、グラフのノードセットで定義された関数を最適化するタスクを動機付ける。 従来のグラフ探索アルゴリズムは、この場合、サンプル非効率であり、関数値に関する情報を利用せず、一方ベイジアン最適化は、より優れたサンプル効率を持つ有望なブラックボックスソルバのクラスであるが、そのような新しい設定にはほとんど適用されていない。 このギャップを埋めるために,汎用,大規模,潜在的に未知のグラフ上で定義された関数を最適化するベイズ最適化フレームワークを提案する。 グラフ上の適切なカーネルの学習を通じて、我々のフレームワークは対象関数の振る舞いに適応する利点があります。 局所モデリングアプローチは,提案手法の効率をさらに保証する。 合成グラフと実世界のグラフの両方に対する大規模な実験は、提案した最適化フレームワークの有効性を示す。

The increasing availability of graph-structured data motivates the task of optimising over functions defined on the node set of graphs. Traditional graph search algorithms can be applied in this case, but they may be sample-inefficient and do not make use of information about the function values; on the other hand, Bayesian optimisation is a class of promising black-box solvers with superior sample efficiency, but it has been scarcely been applied to such novel setups. To fill this gap, we propose a novel Bayesian optimisation framework that optimises over functions defined on generic, large-scale and potentially unknown graphs. Through the learning of suitable kernels on graphs, our framework has the advantage of adapting to the behaviour of the target function. The local modelling approach further guarantees the efficiency of our method. Extensive experiments on both synthetic and real-world graphs demonstrate the effectiveness of the proposed optimisation framework.
翻訳日:2023-10-31 21:23:55 公開日:2023-10-29
# syncdiffusion:同期ジョイント拡散によるコヒーレントモンタージュ

SyncDiffusion: Coherent Montage via Synchronized Joint Diffusions ( http://arxiv.org/abs/2306.05178v3 )

ライセンス: Link先を確認
Yuseung Lee, Kunho Kim, Hyunjin Kim, Minhyuk Sung(参考訳) 事前訓練された画像拡散モデルの顕著な機能は、固定サイズ画像の生成だけでなく、パノラマの作成にも利用されてきた。 しかし、複数の画像を縫い合わせると、しばしば目に見える縫い目が生じる。 近年,複数ウィンドウで共同拡散を行い,重なり合う領域で遅延特性を平均化する手法が提案されている。 しかし、シームレスなモンタージュ生成に焦点をあてたこれらのアプローチは、1つの画像に異なるシーンを混ぜることで、しばしば不整合出力をもたらす。 この制限を克服するため,我々は,知覚的類似性損失からの勾配降下を通じて複数の拡散を同期するプラグアンドプレイモジュールであるsyncdiffusionを提案する。 具体的には,各音化ステップで予測された音化画像を用いて知覚損失の勾配を算出し,コヒーレントモンタージュを実現するための有意義なガイダンスを提供する。 実験結果から,提案手法は従来手法に比べて一貫性が向上し(ユーザ調査では66.35%対33.65%),忠実度(GIQAによる評価)と入力プロンプトとの整合性(CLIPスコアによる評価)は維持されていることがわかった。 さらに,レイアウト誘導画像生成,条件付き画像生成,360度パノラマ生成という3つのプラグアンドプレイアプリケーションに対して,本手法の汎用性を示す。 私たちのプロジェクトページはhttps://syncdiffusion.github.ioにあります。

The remarkable capabilities of pretrained image diffusion models have been utilized not only for generating fixed-size images but also for creating panoramas. However, naive stitching of multiple images often results in visible seams. Recent techniques have attempted to address this issue by performing joint diffusions in multiple windows and averaging latent features in overlapping regions. However, these approaches, which focus on seamless montage generation, often yield incoherent outputs by blending different scenes within a single image. To overcome this limitation, we propose SyncDiffusion, a plug-and-play module that synchronizes multiple diffusions through gradient descent from a perceptual similarity loss. Specifically, we compute the gradient of the perceptual loss using the predicted denoised images at each denoising step, providing meaningful guidance for achieving coherent montages. Our experimental results demonstrate that our method produces significantly more coherent outputs compared to previous methods (66.35% vs. 33.65% in our user study) while still maintaining fidelity (as assessed by GIQA) and compatibility with the input prompt (as measured by CLIP score). We further demonstrate the versatility of our method across three plug-and-play applications: layout-guided image generation, conditional image generation and 360-degree panorama generation. Our project page is at https://syncdiffusion.github.io.
翻訳日:2023-10-31 21:23:40 公開日:2023-10-29
# 確率勾配Descence を用いたガウスプロセス後部からのサンプリング

Sampling from Gaussian Process Posteriors using Stochastic Gradient Descent ( http://arxiv.org/abs/2306.11589v2 )

ライセンス: Link先を確認
Jihao Andreas Lin and Javier Antor\'an and Shreyas Padhy and David Janz and Jos\'e Miguel Hern\'andez-Lobato and Alexander Terenin(参考訳) ガウス過程は不確実性の定量化とシーケンシャルな意思決定のための強力なフレームワークであるが、線形システムを解く必要性によって制限されている。 一般に、これはデータセットのサイズが立方体コストであり、条件付けに敏感である。 確率勾配アルゴリズムを線形系を近似的に解くための計算効率の良い手法として検討し, 後方からサンプリングする低分散最適化目標を開発し, 誘導点まで拡張する。 反対に、確率勾配勾配は、最適値に急速に収束しない場合でも、しばしば正確な予測をもたらす。 非収束性からの暗黙バイアスのスペクトル的評価によりこれを説明できる。 確率勾配降下は、十分なデータカバレッジを持つ領域と、データから十分に離れた領域の両方において、真の後部に近い予測分布を生成する。 実験的に、確率勾配降下は十分に大規模または不条件の回帰タスクにおいて最先端の性能を達成する。 その不確実性推定は、大規模なベイズ最適化〜タスクにおけるはるかに高価なベースラインのパフォーマンスと一致する。

Gaussian processes are a powerful framework for quantifying uncertainty and for sequential decision-making but are limited by the requirement of solving linear systems. In general, this has a cubic cost in dataset size and is sensitive to conditioning. We explore stochastic gradient algorithms as a computationally efficient method of approximately solving these linear systems: we develop low-variance optimization objectives for sampling from the posterior and extend these to inducing points. Counterintuitively, stochastic gradient descent often produces accurate predictions, even in cases where it does not converge quickly to the optimum. We explain this through a spectral characterization of the implicit bias from non-convergence. We show that stochastic gradient descent produces predictive distributions close to the true posterior both in regions with sufficient data coverage, and in regions sufficiently far away from the data. Experimentally, stochastic gradient descent achieves state-of-the-art performance on sufficiently large-scale or ill-conditioned regression tasks. Its uncertainty estimates match the performance of significantly more expensive baselines on a large-scale Bayesian~optimization~task.
翻訳日:2023-10-31 21:14:47 公開日:2023-10-29
# STHG:空間時間不均一グラフ学習による高度なオーディオ・ビジュアルダイアリゼーション

STHG: Spatial-Temporal Heterogeneous Graph Learning for Advanced Audio-Visual Diarization ( http://arxiv.org/abs/2306.10608v3 )

ライセンス: Link先を確認
Kyle Min(参考訳) 本稿では,Ego4D Challenge 2023の音声・視覚ダイアリゼーションタスクにおけるSTHGという新しい手法を紹介する。 キーとなるイノベーションは、単一の一元的なグラフ学習フレームワークを使用して、ビデオ内のすべての話者をモデル化することです。 カメラ装着者のみに独立したコンポーネントを必要とする従来のアプローチとは異なり、STHGはカメラ装着者を含む全ての人の音声活動を共同で検出することができる。 最終手法はEgo4Dのテストセット上で61.1%のDERを得るが、これは昨年の勝者と同様に全てのベースラインを著しく上回っている。 Ego4D Challenge 2023で1位を獲得した。 また,本課題では,sthgによるダイアリゼーション音声セグメントに市販音声認識システムを適用することで,音声認識課題における競合性能が向上することを示す。

This report introduces our novel method named STHG for the Audio-Visual Diarization task of the Ego4D Challenge 2023. Our key innovation is that we model all the speakers in a video using a single, unified heterogeneous graph learning framework. Unlike previous approaches that require a separate component solely for the camera wearer, STHG can jointly detect the speech activities of all people including the camera wearer. Our final method obtains 61.1% DER on the test set of Ego4D, which significantly outperforms all the baselines as well as last year's winner. Our submission achieved 1st place in the Ego4D Challenge 2023. We additionally demonstrate that applying the off-the-shelf speech recognition system to the diarized speech segments by STHG produces a competitive performance on the Speech Transcription task of this challenge.
翻訳日:2023-10-31 21:14:10 公開日:2023-10-29
# beyond geometry: 神経回路における計算の時間構造と動的類似性解析の比較

Beyond Geometry: Comparing the Temporal Structure of Computation in Neural Circuits with Dynamical Similarity Analysis ( http://arxiv.org/abs/2306.10168v3 )

ライセンス: Link先を確認
Mitchell Ostrow, Adam Eisen, Leo Kozachkov, Ila Fiete(参考訳) 2つのニューラルネットワークが、特定の計算に同じ内部プロセスを使用するかどうかをどうやって判断できるのか? この問題は、ニューロAI、機械的解釈可能性、脳と機械のインターフェイスを含む、神経科学と機械学習の複数のサブフィールドに関係している。 ニューラルネットワークの比較のための標準的アプローチは、潜在状態の空間幾何学に焦点を当てている。 しかし、リカレントネットワークでは、計算はダイナミクスのレベルで実装され、同じダイナミクスで同じ計算を行う2つのネットワークは、同じ幾何学を示す必要はない。 このギャップを埋めるために,動的類似度解析(dynamical similarity analysis, dsa)と呼ばれる2つのシステムを比較する新しい類似度指標を導入する。 データ駆動力学系理論の最近の進歩を利用して、元の非線形力学の中核的特徴を正確に捉える高次元線形系を学習する。 次に, 直交変換下でベクトル場がどう変化するかを説明するprocrustes解析の新たな拡張を用いて, この埋め込みを通した異なるシステムを比較する。 4つのケーススタディにおいて、我々の手法は共役および非共役リカレントニューラルネットワーク(RNN)を解き、幾何学的手法は短くなることを示した。 また,本手法では教師なしの学習ルールを識別できることを示した。 本手法は,神経回路における計算の本質的時間構造を比較検討するための扉を開く。

How can we tell whether two neural networks utilize the same internal processes for a particular computation? This question is pertinent for multiple subfields of neuroscience and machine learning, including neuroAI, mechanistic interpretability, and brain-machine interfaces. Standard approaches for comparing neural networks focus on the spatial geometry of latent states. Yet in recurrent networks, computations are implemented at the level of dynamics, and two networks performing the same computation with equivalent dynamics need not exhibit the same geometry. To bridge this gap, we introduce a novel similarity metric that compares two systems at the level of their dynamics, called Dynamical Similarity Analysis (DSA). Our method incorporates two components: Using recent advances in data-driven dynamical systems theory, we learn a high-dimensional linear system that accurately captures core features of the original nonlinear dynamics. Next, we compare different systems passed through this embedding using a novel extension of Procrustes Analysis that accounts for how vector fields change under orthogonal transformation. In four case studies, we demonstrate that our method disentangles conjugate and non-conjugate recurrent neural networks (RNNs), while geometric methods fall short. We additionally show that our method can distinguish learning rules in an unsupervised manner. Our method opens the door to comparative analyses of the essential temporal structure of computation in neural circuits.
翻訳日:2023-10-31 21:13:29 公開日:2023-10-29
# 視覚言語モデルを用いたテキストプロンプタブル手術機器のセグメンテーション

Text Promptable Surgical Instrument Segmentation with Vision-Language Models ( http://arxiv.org/abs/2306.09244v2 )

ライセンス: Link先を確認
Zijian Zhou, Oluwatosin Alabi, Meng Wei, Tom Vercauteren, Miaojing Shi(参考訳) 本稿では,低侵襲手術における手術器具の多様性と分化に関わる課題を克服するために,新しいテキストプロンプト可能な手術器具セグメンテーション手法を提案する。 課題をテキストとして再定義することで,手術器具のよりきめ細やかな理解と,新たな機器タイプへの適応性を実現する。 近年の視覚言語モデルの進歩に触発されて,プリトレーニングされた画像とテキストエンコーダをモデルバックボーンとして活用し,注意と畳み込みに基づくセンセーション予測のためのテキストプロンプト可能なマスクデコーダを設計した。 本モデルでは,手術器具毎に複数のテキストプロンプトを併用し,新たなプロンプト機構によりセグメンテーション性能が向上した。 さらに,画像特徴理解とセグメンテーション精度を向上させるためのハードインスツルメンテーション領域強化モジュールを提案する。 いくつかの手術器具セグメンテーションデータセットに対する大規模な実験は、我々のモデルの優れた性能と有望な一般化能力を示している。 我々の知る限り、これは外科用機器セグメンテーションへの迅速なアプローチの最初の実装であり、ロボットアシスト手術の分野での実用化に有意義な可能性を秘めている。

In this paper, we propose a novel text promptable surgical instrument segmentation approach to overcome challenges associated with diversity and differentiation of surgical instruments in minimally invasive surgeries. We redefine the task as text promptable, thereby enabling a more nuanced comprehension of surgical instruments and adaptability to new instrument types. Inspired by recent advancements in vision-language models, we leverage pretrained image and text encoders as our model backbone and design a text promptable mask decoder consisting of attention- and convolution-based prompting schemes for surgical instrument segmentation prediction. Our model leverages multiple text prompts for each surgical instrument through a new mixture of prompts mechanism, resulting in enhanced segmentation performance. Additionally, we introduce a hard instrument area reinforcement module to improve image feature comprehension and segmentation precision. Extensive experiments on several surgical instrument segmentation datasets demonstrate our model's superior performance and promising generalization capability. To our knowledge, this is the first implementation of a promptable approach to surgical instrument segmentation, offering significant potential for practical application in the field of robotic-assisted surgery.
翻訳日:2023-10-31 21:12:09 公開日:2023-10-29
# 任意微分次数のハード制約を持つニューラルフィールド

Neural Fields with Hard Constraints of Arbitrary Differential Order ( http://arxiv.org/abs/2306.08943v2 )

ライセンス: Link先を確認
Fangcheng Zhong, Kyle Fogarty, Param Hanji, Tianhao Wu, Alejandro Sztrajman, Andrew Spielberg, Andrea Tagliasacchi, Petra Bosilj, Cengiz Oztireli(参考訳) ディープラーニング技術は、幅広い最適化問題を解決するために非常に人気があるが、特にディープニューラルネットワークでは、最適化中に厳しい制約を課す方法が未開発のままである。 メッシュレス補間に関する豊富な文献や、科学計算におけるスペクトルコロケーション法の拡張に触発された我々は、ニューラルネットワークに厳しい制約を課すための一連のアプローチを開発し、これを制約ニューラルネットワーク(Constrained Neural Fields, CNF)と呼ぶ。 制約は、ニューラルネットワークとそのデリバティブに適用される線形作用素として指定することができる。 また,システムの条件付けやメモリ消費,ネットワーク容量の制約など,標準モデルが問題に遭遇する可能性のある問題に対して,特定のモデル表現とトレーニング戦略を設計する。 私たちのアプローチは、幅広い現実世界のアプリケーションで実証されています。 さらに,最適化中に厳密な制約を明示的に満たさなければならないダウンストリームタスクに容易に適用可能な,高効率なモデルと制約仕様を実現するフレームワークを開発する。

While deep learning techniques have become extremely popular for solving a broad range of optimization problems, methods to enforce hard constraints during optimization, particularly on deep neural networks, remain underdeveloped. Inspired by the rich literature on meshless interpolation and its extension to spectral collocation methods in scientific computing, we develop a series of approaches for enforcing hard constraints on neural fields, which we refer to as Constrained Neural Fields (CNF). The constraints can be specified as a linear operator applied to the neural field and its derivatives. We also design specific model representations and training strategies for problems where standard models may encounter difficulties, such as conditioning of the system, memory consumption, and capacity of the network when being constrained. Our approaches are demonstrated in a wide range of real-world applications. Additionally, we develop a framework that enables highly efficient model and constraint specification, which can be readily applied to any downstream task where hard constraints need to be explicitly satisfied during optimization.
翻訳日:2023-10-31 21:11:47 公開日:2023-10-29
# 連成勾配流による相互作用剤の戦略的分布変化

Strategic Distribution Shift of Interacting Agents via Coupled Gradient Flows ( http://arxiv.org/abs/2307.01166v3 )

ライセンス: Link先を確認
Lauren Conger, Franca Hoffmann, Eric Mazumdar, Lillian Ratliff(参考訳) 本稿では,学習アルゴリズムとデプロイ対象の分布のフィードバックループをキャプチャする,実世界のシステムにおける分散シフトのダイナミクスを解析するための新しいフレームワークを提案する。 先行研究は主に、フィードバックによって引き起こされる分布シフトを敵対的あるいは過度に単純化された分布シフト構造を通してモデル化する。 これとは対照的に,アルゴリズム決定,非局所内在性集団間相互作用,および他の外因性分布シフトの源泉に対する戦略応答から生じる複雑なダイナミクスを考慮し,時間とともに分布のきめ細かい変化を捉える結合偏微分方程式モデルを提案する。 機械学習では,情報非対称性を伴う協調的な設定と,学習者が戦略的ユーザと直面する競争的な設定の2つが共通する。 これらの2つの設定において、アルゴリズムが勾配降下によって再訓練されると、モデルパラメーターの観点から明示的な速度を得るために、有限次元と無限次元の両方において、再訓練手順の漸近収束が証明される。 そのため、多種多様なシステムで知られていることを拡張した結合PDEの収束に関する新たな結果を得る。 実験により,本手法はより単純なモデルでは捉えられない偏極や異なる影響など,十分に文書化された形態の分布変化を捉えることができることを示した。

We propose a novel framework for analyzing the dynamics of distribution shift in real-world systems that captures the feedback loop between learning algorithms and the distributions on which they are deployed. Prior work largely models feedback-induced distribution shift as adversarial or via an overly simplistic distribution-shift structure. In contrast, we propose a coupled partial differential equation model that captures fine-grained changes in the distribution over time by accounting for complex dynamics that arise due to strategic responses to algorithmic decision-making, non-local endogenous population interactions, and other exogenous sources of distribution shift. We consider two common settings in machine learning: cooperative settings with information asymmetries, and competitive settings where a learner faces strategic users. For both of these settings, when the algorithm retrains via gradient descent, we prove asymptotic convergence of the retraining procedure to a steady-state, both in finite and in infinite dimensions, obtaining explicit rates in terms of the model parameters. To do so we derive new results on the convergence of coupled PDEs that extends what is known on multi-species systems. Empirically, we show that our approach captures well-documented forms of distribution shifts like polarization and disparate impacts that simpler models cannot capture.
翻訳日:2023-10-31 21:04:31 公開日:2023-10-29
# 光コヒーレンストモグラフィにおけるコロイドの効率的かつ完全自動解析のためのオープンソース深層学習アルゴリズム

An open-source deep learning algorithm for efficient and fully-automatic analysis of the choroid in optical coherence tomography ( http://arxiv.org/abs/2307.00904v3 )

ライセンス: Link先を確認
Jamie Burke, Justin Engelmann, Charlene Hamid, Megan Reid-Schachter, Tom Pearson, Dan Pugh, Neeraj Dhaun, Stuart King, Tom MacGillivray, Miguel O. Bernabeu, Amos Storkey, Ian J.C. MacCormick(参考訳) 目的:光コヒーレンストモグラフィー(OCT)データにおける脈絡膜領域分割のためのオープンソースの完全自動ディープラーニングアルゴリズムであるDeepGPETを開発すること。 方法: 全身疾患に関連する3つの臨床研究から, 715 oct b-scans (82名, 115眼) のデータセットを用いた。 臨床的に検証された半自動コロイドセグメンテーション法であるガウスプロセスエッジトレーシング(GPET)を用いて,地中真実セグメンテーションを作成した。 ImageNetで事前トレーニングされたMobileNetV3バックボーンでUNetを微調整した。 臨床眼科医からの質的評価とともに,標準セグメンテーション合意尺度,および脈絡膜厚と面積の導出指標を用いてDeepGPETの評価を行った。 結果: deepgpetは3つの臨床研究(auc=0.9994, dice=0.9664; pearson correlation of 0.8908 (choroidal thickness), 0.9082 (choroidal area)))のデータをgpetとよく一致させ、標準ラップトップcpu上の画像あたりの平均処理時間を34.49s (\pm$15.09) からdeepgpetを使用した1.25s (\pm$0.10) に短縮した。 GPETとDeepGPETによるセグメンテーションのサブセットを、スムーズさと精度に基づいて定性的に判断した臨床眼科医にも同様に行われた。 結論:deepgpetは、コーロイダルセグメンテーションのための完全に自動的なオープンソースアルゴリズムであり、大規模なデータセットでも効率的にコーロイダル計測を抽出できる。 手動による介入は必要ないため、deepgpetは半自動的な方法よりも主観的ではなく、訓練されたオペレーターを必要とせずに臨床に展開できる。

Purpose: To develop an open-source, fully-automatic deep learning algorithm, DeepGPET, for choroid region segmentation in optical coherence tomography (OCT) data. Methods: We used a dataset of 715 OCT B-scans (82 subjects, 115 eyes) from 3 clinical studies related to systemic disease. Ground truth segmentations were generated using a clinically validated, semi-automatic choroid segmentation method, Gaussian Process Edge Tracing (GPET). We finetuned a UNet with MobileNetV3 backbone pre-trained on ImageNet. Standard segmentation agreement metrics, as well as derived measures of choroidal thickness and area, were used to evaluate DeepGPET, alongside qualitative evaluation from a clinical ophthalmologist. Results: DeepGPET achieves excellent agreement with GPET on data from 3 clinical studies (AUC=0.9994, Dice=0.9664; Pearson correlation of 0.8908 for choroidal thickness and 0.9082 for choroidal area), while reducing the mean processing time per image on a standard laptop CPU from 34.49s ($\pm$15.09) using GPET to 1.25s ($\pm$0.10) using DeepGPET. Both methods performed similarly according to a clinical ophthalmologist, who qualitatively judged a subset of segmentations by GPET and DeepGPET, based on smoothness and accuracy of segmentations. Conclusions: DeepGPET, a fully-automatic, open-source algorithm for choroidal segmentation, will enable researchers to efficiently extract choroidal measurements, even for large datasets. As no manual interventions are required, DeepGPET is less subjective than semi-automatic methods and could be deployed in clinical practice without necessitating a trained operator.
翻訳日:2023-10-31 21:03:37 公開日:2023-10-29
# 反マネーロンダリングモデルのためのリアルな合成金融取引

Realistic Synthetic Financial Transactions for Anti-Money Laundering Models ( http://arxiv.org/abs/2306.16424v2 )

ライセンス: Link先を確認
Erik Altman, Jovan Blanu\v{s}a, Luc von Niederh\"ausern, B\'eni Egressy, Andreea Anghel, Kubilay Atasu(参考訳) 金融のデジタル化や暗号通貨の普及に伴い、サイバー犯罪者が考案した詐欺スキームの高度化が進んでいる。 マネーロンダリング(資金洗浄)は銀行と国の境界を越えて複雑な取引パターンを生み出す可能性がある。 国連の推計では、世界のGDPの2-5\%、すなわち0.8ドル=2.0兆ドルが毎年洗浄されている。 残念なことに、洗浄を検出するために機械学習モデルをトレーニングする実際のデータは一般的には利用できない。 現実的で標準化された公開可能なベンチマークは、モデルの比較と領域の進歩のために必要である。 そこで本研究では,合成金融トランザクションデータセット生成と合成生成されたAML(Anti-Money Laundering)データセットのセットについて述べる。 このエージェントベースのジェネレータをキャリブレーションして、実際のトランザクションを可能な限り密に一致させ、データセットを公開しました。 生成元を詳細に記述し、生成したデータセットが、AML能力の観点から異なるグラフニューラルネットワークを比較するのにどう役立つかを実証する。 重要な方法では、これらの比較で合成データを使用することは、実際のデータを使用するよりもさらによい。

With the widespread digitization of finance and the increasing popularity of cryptocurrencies, the sophistication of fraud schemes devised by cybercriminals is growing. Money laundering -- the movement of illicit funds to conceal their origins -- can cross bank and national boundaries, producing complex transaction patterns. The UN estimates 2-5\% of global GDP or \$0.8 - \$2.0 trillion dollars are laundered globally each year. Unfortunately, real data to train machine learning models to detect laundering is generally not available, and previous synthetic data generators have had significant shortcomings. A realistic, standardized, publicly-available benchmark is needed for comparing models and for the advancement of the area. To this end, this paper contributes a synthetic financial transaction dataset generator and a set of synthetically generated AML (Anti-Money Laundering) datasets. We have calibrated this agent-based generator to match real transactions as closely as possible and made the datasets public. We describe the generator in detail and demonstrate how the datasets generated can help compare different Graph Neural Networks in terms of their AML abilities. In a key way, using synthetic data in these comparisons can be even better than using real data: the ground truth labels are complete, whilst many laundering transactions in real data are never detected.
翻訳日:2023-10-31 21:01:01 公開日:2023-10-29
# 人工知能と生物学的誤用:言語モデルと生物学的デザインツールの差別化リスク

Artificial intelligence and biological misuse: Differentiating risks of language models and biological design tools ( http://arxiv.org/abs/2306.13952v6 )

ライセンス: Link先を確認
Jonas B. Sandbrink(参考訳) 人工知能(AI)の進歩が生命科学の進歩を促進するにつれ、生物エージェントの兵器化や誤用も可能となるかもしれない。 本稿では,大規模言語モデル (LLM) と生物設計ツール (BDT) の2種類のAIツールを区別する。 GPT-4などのLCMは、二重用途の情報を提供し、歴史的生物兵器による障壁を取り除く可能性がある。 LLMはマルチモーダルなラボアシスタントや自律科学ツールに変換されるため、実験室での作業において、非専門家をサポートする能力が向上する。 したがって、LDMは特に生物学的誤用に対する障壁を低くすることができる。 対照的に、BDTは高度なアクターの能力を拡大する。 具体的には、BDTはパンデミックの病原体をこれまで見たことよりもはるかに悪化させ、予測可能で標的となる生物兵器の形式を可能にする可能性がある。 LLMとBDTの収束は、生物学的剤による害の天井を上昇させ、それらが広くアクセスできるようにする。 さまざまな介入がリスク管理に役立ちます。 独立したプレリリース評価は、モデルの能力とセーフガードの有効性を理解するのに役立つだろう。 このようなツールへのアクセスを差別化するための選択肢は、オープンリリースシステムのメリットを慎重に考慮すべきである。 最後に、リスク軽減に必須となるのは、遺伝子合成産物の普遍的スクリーニングと強化である。

As advancements in artificial intelligence (AI) propel progress in the life sciences, they may also enable the weaponisation and misuse of biological agents. This article differentiates two classes of AI tools that could pose such biosecurity risks: large language models (LLMs) and biological design tools (BDTs). LLMs, such as GPT-4 and its successors, might provide dual-use information and thus remove some barriers encountered by historical biological weapons efforts. As LLMs are turned into multi-modal lab assistants and autonomous science tools, this will increase their ability to support non-experts in performing laboratory work. Thus, LLMs may in particular lower barriers to biological misuse. In contrast, BDTs will expand the capabilities of sophisticated actors. Concretely, BDTs may enable the creation of pandemic pathogens substantially worse than anything seen to date and could enable forms of more predictable and targeted biological weapons. In combination, the convergence of LLMs and BDTs could raise the ceiling of harm from biological agents and could make them broadly accessible. A range of interventions would help to manage risks. Independent pre-release evaluations could help understand the capabilities of models and the effectiveness of safeguards. Options for differentiated access to such tools should be carefully weighed with the benefits of openly releasing systems. Lastly, essential for mitigating risks will be universal and enhanced screening of gene synthesis products.
翻訳日:2023-10-31 20:59:29 公開日:2023-10-29
# OpenMask3D: Open-Vocabulary 3D Instance Segmentation

OpenMask3D: Open-Vocabulary 3D Instance Segmentation ( http://arxiv.org/abs/2306.13631v2 )

ライセンス: Link先を確認
Ay\c{c}a Takmaz, Elisabetta Fedele, Robert W. Sumner, Marc Pollefeys, Federico Tombari, Francis Engelmann(参考訳) オープン語彙3Dインスタンスセグメンテーションの課題を紹介する。 現在の3dインスタンスセグメンテーションのアプローチでは、トレーニングデータセットにアノテートされたクラスを事前に定義したクローズドセットからのみオブジェクトのカテゴリを認識できる。 これは、様々なオブジェクトに関連する新しいオープンボキャブラリクエリによって導かれるタスクを実行する必要がある実世界のアプリケーションにとって重要な制限となる。 近年,各場面の問合せ可能な特徴を学習することで,オープンな3Dシーン理解手法が出現している。 このような表現はセマンティクスのセグメンテーションを行うために直接使われるが、既存のメソッドでは複数のオブジェクトインスタンスを分離することはできない。 本研究では,この制限に対処し,オープンな3DインスタンスセグメンテーションのためのゼロショットアプローチであるOpenMask3Dを提案する。 予測されたクラス非依存の3Dインスタンスマスクによってガイドされた我々のモデルは、CLIPベースの画像埋め込みのマルチビュー融合を通じて、マスクごとの機能を集約する。 ScanNet200とReplicaの実験およびアブレーション研究により、OpenMask3Dは他の開語彙法、特に長尾分布よりも優れていることが示された。 定性的実験は、幾何学、余裕、材料を記述する自由形式のクエリに基づいてオブジェクトプロパティを分割するOpenMask3Dの機能をさらに示す。

We introduce the task of open-vocabulary 3D instance segmentation. Current approaches for 3D instance segmentation can typically only recognize object categories from a pre-defined closed set of classes that are annotated in the training datasets. This results in important limitations for real-world applications where one might need to perform tasks guided by novel, open-vocabulary queries related to a wide variety of objects. Recently, open-vocabulary 3D scene understanding methods have emerged to address this problem by learning queryable features for each point in the scene. While such a representation can be directly employed to perform semantic segmentation, existing methods cannot separate multiple object instances. In this work, we address this limitation, and propose OpenMask3D, which is a zero-shot approach for open-vocabulary 3D instance segmentation. Guided by predicted class-agnostic 3D instance masks, our model aggregates per-mask features via multi-view fusion of CLIP-based image embeddings. Experiments and ablation studies on ScanNet200 and Replica show that OpenMask3D outperforms other open-vocabulary methods, especially on the long-tail distribution. Qualitative experiments further showcase OpenMask3D's ability to segment object properties based on free-form queries describing geometry, affordances, and materials.
翻訳日:2023-10-31 20:59:07 公開日:2023-10-29
# 拡散モデルによるディープフェイク検知器の攻撃に対する脆弱性について

On the Vulnerability of DeepFake Detectors to Attacks Generated by Denoising Diffusion Models ( http://arxiv.org/abs/2307.05397v2 )

ライセンス: Link先を確認
Marija Ivanovska, Vitomir \v{S}truc(参考訳) 悪意のあるディープフェイクの検出は、最新のモデルによって生成された画像操作を確実に検出するために、検出器の継続的な監視を必要とする、常に進化している問題である。 本稿では,最新の生成法であるDDM(Denoising Diffusion Models)によって生成されたブラックボックス攻撃に対する単一イメージのディープフェイク検出器の脆弱性について検討する。 私たちの実験はFaceForensics++で行われており、顔認証や顔の再現のための様々な技術で生成される操作された画像からなる、広く使われているディープフェイクベンチマークである。 攻撃は、顔の復元のためのDDMアプローチによって、既存のディープフェイクのガイド付き再構築を通じて行われる。 以上の結果から,ディープフェイクの再構成過程において,単一の消音拡散ステップのみを用いることで,知覚可能な画像修正を伴わずに検出可能性を大幅に低減できることが示唆された。 攻撃例を用いた訓練用検出器は有効性を示したが, 完全拡散型ディープフェイクで訓練した識別器は, 攻撃時に限定的な一般化性を示した。

The detection of malicious deepfakes is a constantly evolving problem that requires continuous monitoring of detectors to ensure they can detect image manipulations generated by the latest emerging models. In this paper, we investigate the vulnerability of single-image deepfake detectors to black-box attacks created by the newest generation of generative methods, namely Denoising Diffusion Models (DDMs). Our experiments are run on FaceForensics++, a widely used deepfake benchmark consisting of manipulated images generated with various techniques for face identity swapping and face reenactment. Attacks are crafted through guided reconstruction of existing deepfakes with a proposed DDM approach for face restoration. Our findings indicate that employing just a single denoising diffusion step in the reconstruction process of a deepfake can significantly reduce the likelihood of detection, all without introducing any perceptible image modifications. While training detectors using attack examples demonstrated some effectiveness, it was observed that discriminators trained on fully diffusion-based deepfakes exhibited limited generalizability when presented with our attacks.
翻訳日:2023-10-31 20:50:46 公開日:2023-10-29
# 曲面時空における質量スピンハーフ粒子の幾何学的ポストニュートン的記述

Geometric post-Newtonian description of massive spin-half particles in curved spacetime ( http://arxiv.org/abs/2307.04743v3 )

ライセンス: Link先を確認
Ashkan Alibabaei, Philip K. Schwartz, Domenico Giulini(参考訳) 曲線四次元時空における外部電磁場に結合したディラック方程式を、古典時計を表す時間的ワールドライン$\gamma$とみなす。 一般化されたフェルミ正規座標を$\gamma$の管状近傍で使用し、ディラック方程式を最大に拡張し、時空曲率で定義される半径と測地距離の比、$\gamma$の線形加速度、および使用した空間参照フレームの$\gamma$に沿った角速度によって与えられる次元のないパラメータの2次を含む。 時計 $\gamma$ で測定された時間に関して、我々はディラック・ハミルトニアンをその順序に計算する。 この「弱重力」展開に加えて、ニュートンの後の展開を、$\gamma$に関する「スロー速度」展開に対応する1/c$の2階まで実行します。 これらの組み合わせにより、外部電磁場におけるスピン半粒子のパウリ・ハミルトニアンに対するニュートン後の弱い重力式を与える。 このことは、最近の文献の結果を拡張し、部分的に修正し、議論し、いくつかの詳細で比較する。

We consider the Dirac equation coupled to an external electromagnetic field in curved four-dimensional spacetime with a given timelike worldline $\gamma$ representing a classical clock. We use generalised Fermi normal coordinates in a tubular neighbourhood of $\gamma$ and expand the Dirac equation up to, and including, the second order in the dimensionless parameter given by the ratio of the geodesic distance to the radii defined by spacetime curvature, linear acceleration of $\gamma$, and angular velocity of rotation of the employed spatial reference frame along $\gamma$. With respect to the time measured by the clock $\gamma$, we compute the Dirac Hamiltonian to that order. On top of this `weak-gravity' expansion we then perform a post-Newtonian expansion up to, and including, the second order of $1/c$, corresponding to a `slow-velocity' expansion with respect to $\gamma$. As a result of these combined expansions we give the weak-gravity post-Newtonian expression for the Pauli Hamiltonian of a spin-half particle in an external electromagnetic field. This extends and partially corrects recent results from the literature, which we discuss and compare in some detail.
翻訳日:2023-10-31 20:50:03 公開日:2023-10-29
# BeaverTails: ヒューマンパラメータデータセットによるLCMの安全性向上を目指して

BeaverTails: Towards Improved Safety Alignment of LLM via a Human-Preference Dataset ( http://arxiv.org/abs/2307.04657v2 )

ライセンス: Link先を確認
Jiaming Ji, Mickel Liu, Juntao Dai, Xuehai Pan, Chi Zhang, Ce Bian, Chi Zhang, Ruiyang Sun, Yizhou Wang, Yaodong Yang(参考訳) 本稿では,大規模言語モデル(llms)における安全性アライメント研究の促進を目的とした, \textsc{beavertails}データセットを提案する。 このデータセットは、質問応答ペアの有益さと無害さのアノテーションを一意に分離するので、これらの重要な属性に対する明確な視点を提供する。 30,207対のq&a(qa)と30,144対の専門家比較データに対する安全性メタラベルを収集した。 333,963対のq&a(q&a)と361,903対の専門家比較データに対する安全性メタラベルを収集した。 さらに,人間のフィードバックによるコンテンツモデレーションと強化学習(RLHF)におけるBeaverTailsの応用について紹介し,LLMにおける実用的安全対策の可能性を強調した。 このデータセットはコミュニティに重要なリソースを提供し、LLMの安全な開発とデプロイに寄与すると考えています。 私たちのプロジェクトページは以下のURLで利用可能です。 警告: 攻撃的あるいは有害である可能性のあるサンプルデータを含む。

In this paper, we introduce the \textsc{BeaverTails} dataset, aimed at fostering research on safety alignment in large language models (LLMs). This dataset uniquely separates annotations of helpfulness and harmlessness for question-answering pairs, thus offering distinct perspectives on these crucial attributes. In total, we have gathered safety meta-labels for 30,207 question-answer (QA) pairs and 30,144 pairs of expert comparison data for both the helpfulness and harmlessness metrics. In total, we have gathered safety meta-labels for 333,963 question-answer (QA) pairs and 361,903 pairs of expert comparison data for both the helpfulness and harmlessness metrics. We further showcase applications of BeaverTails in content moderation and reinforcement learning with human feedback (RLHF), emphasizing its potential for practical safety measures in LLMs. We believe this dataset provides vital resources for the community, contributing towards the safe development and deployment of LLMs. Our project page is available at the following URL: https://sites.google.com/view/pku-beavertails. Warning: this paper contains example data that may be offensive or harmful.
翻訳日:2023-10-31 20:49:41 公開日:2023-10-29
# 回帰実現のための最適学習者--pac学習とオンライン学習

Optimal Learners for Realizable Regression: PAC Learning and Online Learning ( http://arxiv.org/abs/2307.03848v2 )

ライセンス: Link先を確認
Idan Attias, Steve Hanneke, Alkis Kalavasis, Amin Karbasi, Grigoris Velegkas(参考訳) 本研究では,PAC学習環境とオンライン学習環境の両方において,実現可能な回帰の統計的複雑さを特徴付けることを目的とする。 従来の研究は、PAC学習性のための脂肪破砕次元の有限性の十分性と、スケールしたナタラジャン次元の有限性の必要性を確立していたが、Simon (SICOMP '97) の業績から、より完全な特徴付けに向けての進展はほとんどなかった。 この目的を達成するために,まずminimaxインスタンス最適学習器を導入し,実数値予測器のクラスを定性的かつ定量的に特徴付ける新しい次元を提案する。 次に,erm学習性を特徴付けるグラフ次元に関連する組合せ次元を,実現可能な設定で同定する。 最後に,ds次元に関連する組合せ次元に基づく学習可能性に必要な条件を定め,この文脈で十分であるかもしれないと推測する。 さらに、オンライン学習の文脈では、最小値インスタンスの最適累積損失を一定要素まで特徴付け、最適オンライン学習者を再現可能な回帰のために設計し、STOC '22でダスカラキスとゴロヴィチが提起したオープンな質問を解消する次元を提供する。

In this work, we aim to characterize the statistical complexity of realizable regression both in the PAC learning setting and the online learning setting. Previous work had established the sufficiency of finiteness of the fat shattering dimension for PAC learnability and the necessity of finiteness of the scaled Natarajan dimension, but little progress had been made towards a more complete characterization since the work of Simon (SICOMP '97). To this end, we first introduce a minimax instance optimal learner for realizable regression and propose a novel dimension that both qualitatively and quantitatively characterizes which classes of real-valued predictors are learnable. We then identify a combinatorial dimension related to the Graph dimension that characterizes ERM learnability in the realizable setting. Finally, we establish a necessary condition for learnability based on a combinatorial dimension related to the DS dimension, and conjecture that it may also be sufficient in this context. Additionally, in the context of online learning we provide a dimension that characterizes the minimax instance optimal cumulative loss up to a constant factor and design an optimal online learner for realizable regression, thus resolving an open question raised by Daskalakis and Golowich in STOC '22.
翻訳日:2023-10-31 20:48:27 公開日:2023-10-29
# 量子キックロータにおけるリアプノフ指数の近似

Approximating Quantum Lyapunov Exponents in Quantum Kicked Rotor ( http://arxiv.org/abs/2307.01461v2 )

ライセンス: Link先を確認
Varsha Gupta(参考訳) 本研究では,量子キックロータ(qkr)の動力学における初期近接状態の進化に着目し,量子カオスの研究を行う。 本稿では,この量子系におけるカオスの度合いを量子リプノフ指数(Quantum Lyapunov Exponent, QLE)を用いて定量化する手法を提案する。 まず運動量空間をモデル化し、次にqleを進化状態間の忠実性を分析して計算し、量子カオス挙動に関する洞察を提供する。 さらに, 局所化, 均一化, 拡散, 収縮, 運動量空間の振動など, 様々な初期状態についても調査を展開する。 この結果は、量子カオスの複雑な性質を浮き彫りにして、様々な動的挙動を明らかにした。 最後に,多面量子システムのダイナミクスの可視化と理解に潜在的に有意な意味を持つ,複雑状態を上述の状態の重ね合わせとして表現する革新的な最適化フレームワークを提案する。

In this work, we study quantum chaos by focusing on the evolution of initially close states in the dynamics of the Quantum Kicked Rotor (QKR). We propose a novel measure, the Quantum Lyapunov Exponent (QLE), to quantify the degree of chaos in this quantum system, analogous to its classical counterpart. We begin by modeling the momentum space and then the QLE is computed through analyzing the fidelity between evolving states, offering insights into the quantum chaotic behavior. Furthermore, we extend our investigations to various initial states: localized, uniform, spreading, contracting and oscillating in momentum space. Our results unveil a diverse range of dynamical behaviors, highlighting the complex nature of quantum chaos. Finally, we propose an innovative optimization framework to represent a complex state as a superposition of the aforementioned states, which has potential implications for visualizing and understanding the dynamics of multifaceted quantum systems.
翻訳日:2023-10-31 20:47:24 公開日:2023-10-29
# 雑音乱数行列モデルに対するクリロフ複雑性とスペクトル形状因子

Krylov Complexity and Spectral Form Factor for Noisy Random Matrix Models ( http://arxiv.org/abs/2307.15495v3 )

ライセンス: Link先を確認
Arpan Bhattacharyya, S. Shajidul Haque, Ghadir Jafari, Jeff Murugan, Dimakatso Rapotu(参考訳) 擬似ポテンシャルを持つ非ガウス RMT とガウス雑音を持つ RMT の2種類のランダム行列モデルのスペクトル特性について検討した。 我々は、量子クリロフの複雑性と、これらの両方のモデルのスペクトル形式因子を計算および解析する。 両モデルともデコヒーレンス効果により短時間でスペクトル形成因子の抑制効果を示すが,長期間の挙動が異なることが判明した。 特に、非ガウス RMT と RMT のノイズを伴うクリロフ複雑性はガウス RMT のノイズから逸脱することを示した。 オープン量子システムにおける量子カオスと量子情報に対する結果の意味と限界について議論する。 本研究は,スペクトル形状因子と非ガウス性および雑音に対する複雑性の異なる感性を示し,異なる時間領域における観察された違いに寄与する。

We study the spectral properties of two classes of random matrix models: non-Gaussian RMT with quartic and sextic potentials, and RMT with Gaussian noise. We compute and analyze the quantum Krylov complexity and the spectral form factor for both of these models. We find that both models show suppression of the spectral form factor at short times due to decoherence effects, but they differ in their long-time behavior. In particular, we show that the Krylov complexity for the non-Gaussian RMT and RMT with noise deviates from that of a Gaussian RMT. We discuss the implications and limitations of our results for quantum chaos and quantum information in open quantum systems. Our study reveals the distinct sensitivities of the spectral form factor and complexity to non-Gaussianity and noise, which contribute to the observed differences in the different time domains.
翻訳日:2023-10-31 20:39:34 公開日:2023-10-29
# 単純グラフの最大傾きの最大数を計算する手段としての斜めグラフ

Cliqueful graphs as a means of calculating the maximal number of maximum cliques of simple graphs ( http://arxiv.org/abs/2307.14120v2 )

ライセンス: Link先を確認
D\'aniel Pfeifer(参考訳) n$頂点上の単純なグラフは、多くの最大傾きを含むことができる。 しかし、その数はどれくらいあるのか? さらに、より具体的には、もし$n \ge 15$であれば、飽和した複合気候グラフの上に取り込まれることが示される。 これを用いて、$3^{\lfloor n/3 \rfloor}c$ maxcliques を含むグラフは、$n$ vertices 上で最も多くの最大値を持ち、$c\in\{1,\frac{4}{3},2\}$ は $n \text{ mod } 3$ に依存する。

A simple graph on $n$ vertices may contain a lot of maximum cliques. But how many can it potentially contain? We will show that the maximum number of maximum cliques is taken over so-called cliqueful graphs, more specifically, later we will show that it is taken over saturated composite cliqueful graphs, if $n \ge 15$. Using this we will show that the graph that contains $3^{\lfloor n/3 \rfloor}c$ maxcliques has the most number of maxcliques on $n$ vertices, where $c\in\{1,\frac{4}{3},2\}$, depending on $n \text{ mod } 3$.
翻訳日:2023-10-31 20:39:22 公開日:2023-10-29
# 表面電子の非断熱的ホロノミック進化による普遍量子ゲート

Universal quantum gates by nonadiabatic holonomic evolution for the surface electron ( http://arxiv.org/abs/2307.09900v4 )

ライセンス: Link先を確認
Jun Wang, Wan-Ting He, Hai-Bo Wang, Qing Ai(参考訳) 幾何学位相に基づく非線形ホロノミック量子計算は、内蔵ノイズとデコヒーレンスに対して堅牢である。 本研究では, 量子計算のための有望な2次元プラットフォームである表面電子系において, 非断熱ホロノミック量子ゲートを実現するためのスキームを理論的に提案する。 ホロノミックゲートは、リドベルク状態とスピン状態が不均一磁場を介して結合する3層構造によって実現される。 循環進化の後、計算基盤は異なる幾何学的位相を拾い上げ、幾何学的ゲートを実行する。 スピンアップした電子のみが幾何ゲートを体験し、スピンダウンした電子は状態選択駆動場から分離される。 ライドバーグ状態とスピン状態にエンコードされた任意の制御uゲートを実現できる。 出力状態の忠実度は、実験的に達成可能なパラメータで 0.99 を超える。

The nonadiabatic holonomic quantum computation based on the geometric phase is robust against the built-in noise and decoherence. In this work, we theoretically propose a scheme to realize nonadiabatic holonomic quantum gates in a surface electron system, which is a promising two-dimensional platform for quantum computation. The holonomic gate is realized by a three-level structure that combines the Rydberg states and spin states via an inhomogeneous magnetic field. After a cyclic evolution, the computation bases pick up different geometric phases and thus perform a geometric gate. Only the electron with spin up experiences the geometric gate, while the electron with spin down is decoupled from the state-selective driving fields. The arbitrary controlled-U gate encoded on the Rydberg states and spin states can then be realized. The fidelity of the output state exceeds 0.99 with experimentally achievable parameters.
翻訳日:2023-10-31 20:37:42 公開日:2023-10-29
# 指導ビデオにおけるキーステップ認識のためのビデオマイニングタスクグラフ

Video-Mined Task Graphs for Keystep Recognition in Instructional Videos ( http://arxiv.org/abs/2307.08763v2 )

ライセンス: Link先を確認
Kumar Ashutosh, Santhosh Kumar Ramakrishnan, Triantafyllos Afouras, Kristen Grauman(参考訳) プロシージャのアクティビティ理解は、レシピのステップやdiyのフィクスイットタスクなど、最終的なゴール状態に到達するために、複数のキーステップを長いビデオで連続して実行する、より広いタスクの観点からヒューマンアクションを知覚する必要がある。 以前の作業では、このより広い構造を分離してキーステップ認識を主に扱うか、あるいは事前に定義されたシーケンシャルスクリプトと整合するためにキーステップを厳格に閉じ込める。 how-toビデオからタスクグラフを自動的に見つけて、人々がkeystepを実行する確率的に表現し、このグラフを利用して新しいビデオでkeystep認識を規則化する。 実世界の教育ビデオの複数のデータセット上で、より信頼性の高いゼロショットのキーステップのローカライゼーションとビデオ表現学習の改善が、芸術の状態を超越した影響を示す。

Procedural activity understanding requires perceiving human actions in terms of a broader task, where multiple keysteps are performed in sequence across a long video to reach a final goal state -- such as the steps of a recipe or a DIY fix-it task. Prior work largely treats keystep recognition in isolation of this broader structure, or else rigidly confines keysteps to align with a predefined sequential script. We propose discovering a task graph automatically from how-to videos to represent probabilistically how people tend to execute keysteps, and then leverage this graph to regularize keystep recognition in novel videos. On multiple datasets of real-world instructional videos, we show the impact: more reliable zero-shot keystep localization and improved video representation learning, exceeding the state of the art.
翻訳日:2023-10-31 20:37:30 公開日:2023-10-29
# SBMLtoODEjax:JAXにおける生体ネットワークモデルの効率的なシミュレーションと最適化

SBMLtoODEjax: Efficient Simulation and Optimization of Biological Network Models in JAX ( http://arxiv.org/abs/2307.08452v2 )

ライセンス: Link先を確認
Mayalen Etcheverry, Michael Levin, Cl\'ement Moulin-Frier, Pierre-Yves Oudeyer(参考訳) バイオエンジニアリングとバイオメディシンの進歩は、タンパク質の経路から複雑な細胞過程まで、生体システムの動的挙動を深く理解することを要求する。 遺伝子制御ネットワークやタンパク質経路のような生物学的ネットワークは、胚発生や生理過程の鍵となる。 彼らの多様な行動を理解することは、がんを含む病気に取り組むだけでなく、新しい生物学的構成物を開発するのに不可欠である。 Systems Biology Markup Language (SBML)に代表される広範な数学的モデルが利用可能であるにもかかわらず、研究者は行動の全スペクトルを探索し、それらの振る舞いを効率的に形作るための介入を最適化する上で重要な課題に直面している。 生体ネットワークモデルのシミュレーション用に設計された既存のツールは、ネットワークダイナミクスの介入や自動発見を容易にするために調整されていない。 本稿では、機械学習(ml)の最近の進歩を活用して、jaxによるsbmlモデルとmlサポートパイプラインをシームレスに統合する軽量ライブラリsbmltoodejaxを紹介する。 SBMLtoODEjaxはSBMLベースのモデルの再利用とカスタマイズを容易にし、JAXの機能を利用して効率的な並列シミュレーションと最適化を行い、生物学的ネットワーク解析の研究を加速する。

Advances in bioengineering and biomedicine demand a deep understanding of the dynamic behavior of biological systems, ranging from protein pathways to complex cellular processes. Biological networks like gene regulatory networks and protein pathways are key drivers of embryogenesis and physiological processes. Comprehending their diverse behaviors is essential for tackling diseases, including cancer, as well as for engineering novel biological constructs. Despite the availability of extensive mathematical models represented in Systems Biology Markup Language (SBML), researchers face significant challenges in exploring the full spectrum of behaviors and optimizing interventions to efficiently shape those behaviors. Existing tools designed for simulation of biological network models are not tailored to facilitate interventions on network dynamics nor to facilitate automated discovery. Leveraging recent developments in machine learning (ML), this paper introduces SBMLtoODEjax, a lightweight library designed to seamlessly integrate SBML models with ML-supported pipelines, powered by JAX. SBMLtoODEjax facilitates the reuse and customization of SBML-based models, harnessing JAX's capabilities for efficient parallel simulations and optimization, with the aim to accelerate research in biological network analysis.
翻訳日:2023-10-31 20:36:38 公開日:2023-10-29
# 複雑性問題: 生成モデリングのための潜在空間の再考

Complexity Matters: Rethinking the Latent Space for Generative Modeling ( http://arxiv.org/abs/2307.08283v2 )

ライセンス: Link先を確認
Tianyang Hu, Fei Chen, Haonan Wang, Jiawei Li, Wenjia Wang, Jiacheng Sun, Zhenguo Li(参考訳) 生成的モデリングにおいて、多くの成功したアプローチは、エンコーダによって引き起こされる潜在空間の安定拡散モデルのような低次元の潜在空間を活用し、ペア化されたデコーダを介して画像を生成する。 潜在空間の選択は経験的中心的であるが、最適な選択とそれを特定する過程は不明確である。 本研究では,モデルの複雑さの観点から潜在空間を再考することで,この未熟な話題に光を当てる。 我々の調査は、古典的生成逆ネットワーク(GAN)から始まる。 GANトレーニングの目的に触発された本研究では,発電機の複雑さと最小化が一致する潜在データ分布とデータ分布との「距離」を新たに提案する。 この距離の最小化は、発電機の容量に最も効果的に乗じる最適なデータ依存潜在性として特徴づけられる。 次に,そのような潜在分布をエンコーダネットワークでパラメータ化することを検討し,デコーダが訓練中,第1段階でのみ補助デコーダで更新され,第2ステージで凍結されるdecoupled autoencoder(dae)と呼ばれる2段階のトレーニング戦略を提案する。 DAEは潜伏分布を改善し、その結果、生成性能を向上させることができる。 理論解析はvqganや拡散変圧器などの種々のモデルに対する包括的な実験により裏付けられ, モデル複雑性を低減した試料品質の大幅な改善が得られた。

In generative modeling, numerous successful approaches leverage a low-dimensional latent space, e.g., Stable Diffusion models the latent space induced by an encoder and generates images through a paired decoder. Although the selection of the latent space is empirically pivotal, determining the optimal choice and the process of identifying it remain unclear. In this study, we aim to shed light on this under-explored topic by rethinking the latent space from the perspective of model complexity. Our investigation starts with the classic generative adversarial networks (GANs). Inspired by the GAN training objective, we propose a novel "distance" between the latent and data distributions, whose minimization coincides with that of the generator complexity. The minimizer of this distance is characterized as the optimal data-dependent latent that most effectively capitalizes on the generator's capacity. Then, we consider parameterizing such a latent distribution by an encoder network and propose a two-stage training strategy called Decoupled Autoencoder (DAE), where the encoder is only updated in the first stage with an auxiliary decoder and then frozen in the second stage while the actual decoder is being trained. DAE can improve the latent distribution and as a result, improve the generative performance. Our theoretical analyses are corroborated by comprehensive experiments on various models such as VQGAN and Diffusion Transformer, where our modifications yield significant improvements in sample quality with decreased model complexity.
翻訳日:2023-10-31 20:36:14 公開日:2023-10-29
# マルチスペクトラル・ハイパースペクトラル画像融合のための暗黙的ニューラル特徴融合関数

Implicit Neural Feature Fusion Function for Multispectral and Hyperspectral Image Fusion ( http://arxiv.org/abs/2307.07288v2 )

ライセンス: Link先を確認
ShangQi Deng, RuoCheng Wu, Liang-Jian Deng, Ran Ran, Gemine Vivone(参考訳) MHIFは高分解能マルチスペクトル画像(HR-MSI)と高分解能ハイパースペクトル画像(LR-HSI)を融合して高分解能ハイパースペクトル画像(HR-HSI)を得るための実用的課題である。 強力なインダクティブバイアス能力の恩恵を受け、cnnベースの手法はmhifタスクで大きな成功を収めた。 しかし、特定の解釈可能性がなく、性能を高めるために畳み込み構造を積み重ねる必要がある。 近年,Inlicit Neural Representation (INR) は,局所的にサンプルを補間し,画素や座標などのマルチモーダルコンテンツを利用する能力により,2次元タスクにおいて優れた性能と解釈性を実現している。 inrベースのアプローチは期待できるが、高周波情報(例えば位置符号化)を余分に構築する必要がある。 本稿では,従来のMHIFタスクの成果に触発されて,HR-MSIが高周波詳細補助入力として機能することを認識し,インプリシットニューラルフィーチャーフュージョン関数(INF)と呼ばれる新しいINRベースのハイパースペクトル融合関数を提案する。 精巧な構造として、MHIFタスクを解決し、INRベースのアプローチにおける欠陥に対処する。 具体的には,hr-msi と lr-hsi の2倍の高周波情報を得る2重高周波融合 (dhff) 構造の設計を行った。 さらに、提案したINFは、コサイン類似性を用いて特徴ベクトルを介して局所的な重みを生成する、コサイン類似性(INR-CS)を持つパラメータフリーなINRを組み込んだ。 INFに基づいて、我々は2つの公開データセットである \emph{i.e.,} CAVEとHarvardのMHIFタスクの最先端性能を実現するインプリシトニューラルネットワーク(INFN)を構築した。 コードは間もなくGitHubで公開される予定だ。

Multispectral and Hyperspectral Image Fusion (MHIF) is a practical task that aims to fuse a high-resolution multispectral image (HR-MSI) and a low-resolution hyperspectral image (LR-HSI) of the same scene to obtain a high-resolution hyperspectral image (HR-HSI). Benefiting from powerful inductive bias capability, CNN-based methods have achieved great success in the MHIF task. However, they lack certain interpretability and require convolution structures be stacked to enhance performance. Recently, Implicit Neural Representation (INR) has achieved good performance and interpretability in 2D tasks due to its ability to locally interpolate samples and utilize multimodal content such as pixels and coordinates. Although INR-based approaches show promise, they require extra construction of high-frequency information (\emph{e.g.,} positional encoding). In this paper, inspired by previous work of MHIF task, we realize that HR-MSI could serve as a high-frequency detail auxiliary input, leading us to propose a novel INR-based hyperspectral fusion function named Implicit Neural Feature Fusion Function (INF). As an elaborate structure, it solves the MHIF task and addresses deficiencies in the INR-based approaches. Specifically, our INF designs a Dual High-Frequency Fusion (DHFF) structure that obtains high-frequency information twice from HR-MSI and LR-HSI, then subtly fuses them with coordinate information. Moreover, the proposed INF incorporates a parameter-free method named INR with cosine similarity (INR-CS) that uses cosine similarity to generate local weights through feature vectors. Based on INF, we construct an Implicit Neural Fusion Network (INFN) that achieves state-of-the-art performance for MHIF tasks of two public datasets, \emph{i.e.,} CAVE and Harvard. The code will soon be made available on GitHub.
翻訳日:2023-10-31 20:35:03 公開日:2023-10-29
# ビジョンランゲージ事前学習モデルのパラメータと計算効率向上学習

Parameter and Computation Efficient Transfer Learning for Vision-Language Pre-trained Models ( http://arxiv.org/abs/2309.01479v3 )

ライセンス: Link先を確認
Qiong Wu, Wei Yu, Yiyi Zhou, Shubin Huang, Xiaoshuai Sun, Rongrong Ji(参考訳) パラメータや計算の増大に伴い、視覚言語事前訓練(VLP)モデルは下流のタスク適応において不当な支出を示す。 近年の取り組みは,少数のパラメータを更新するだけで,VLPモデルのパラメータ効率のよい転送学習(PETL)に焦点を当てている。 しかしながら、過剰な計算オーバーヘッドはVLPの適用を悩ませている。 本稿では,VLPモデルに対するパラメータと計算効率のよい伝達学習(PCETL)を提案する。 特に、PCETLは、VLPモデルのトレーニング可能なパラメータの数を制限するだけでなく、推論時の計算冗長性を低減し、より効率的な転送を可能にする。 そこで本研究では,新しい動的アーキテクチャスキップ (DAS) アプローチをPCETLに提案する。 VLPモデルの本質的なアーキテクチャを直接最適化する代わりに、DASはまず、強化学習(RL)ベースのプロセスを通じて、下流タスクに対するモジュールの重要性を観察し、得られた報酬に従って、軽量ネットワーク、すなわちアダプタで冗長なモジュールをスキップする。 この場合、VLPモデルは、下流タスクでの推論を高速化しながら、トレーニング可能なパラメータのスケールを適切に維持することができる。 DASを検証するために、VLTとMETERという2つの代表的なVLPモデルに適用し、多数のVLタスクについて広範な実験を行う。 実験結果は、例えば、VQA2.0上でのMETERの-11.97% FLOPsのような計算複雑性の削減におけるDASの大きな利点を示すだけでなく、パラメータスケールと性能の観点から既存のPETL法との競合性も確認している。 ソースコードは付録に書かれています。

With ever increasing parameters and computation, vision-language pre-trained (VLP) models exhibit prohibitive expenditure in downstream task adaption. Recent endeavors mainly focus on parameter efficient transfer learning (PETL) for VLP models by only updating a small number of parameters. However, excessive computational overhead still plagues the application of VLPs. In this paper, we aim at parameter and computation efficient transfer learning (PCETL) for VLP models. In particular, PCETL not only needs to limit the number of trainable parameters in VLP models, but also to reduce the computational redundancy during inference, thus enabling a more efficient transfer. To approach this target, we propose a novel dynamic architecture skipping (DAS) approach towards effective PCETL. Instead of directly optimizing the intrinsic architectures of VLP models, DAS first observes the significances of their modules to downstream tasks via a reinforcement learning (RL) based process, and then skips the redundant ones with lightweight networks, i.e., adapters, according to the obtained rewards. In this case, the VLP model can well maintain the scale of trainable parameters while speeding up its inference on downstream tasks. To validate DAS, we apply it to two representative VLP models, namely ViLT and METER, and conduct extensive experiments on a bunch of VL tasks. The experimental results not only show the great advantages of DAS in reducing computational complexity, e.g. -11.97% FLOPs of METER on VQA2.0, but also confirm its competitiveness against existing PETL methods in terms of parameter scale and performance. Our source code is given in our appendix.
翻訳日:2023-10-31 20:28:19 公開日:2023-10-29
# 多段階回帰株価予測における確率的タックリングのための拡散変動オートエンコーダ

Diffusion Variational Autoencoder for Tackling Stochasticity in Multi-Step Regression Stock Price Prediction ( http://arxiv.org/abs/2309.00073v2 )

ライセンス: Link先を確認
Kelvin J.L. Koa, Yunshan Ma, Ritchie Ng and Tat-Seng Chua(参考訳) 長期的視野での多段階株価予測はボラティリティ(変動性)の予測に不可欠であり、金融機関は価格とヘッジファンドデリバティブを許容し、銀行はトレーディングブックのリスクを定量化することができる。 加えて、ほとんどの金融規制当局も、実質的な市場価格に影響を及ぼさないために、機関投資家がリスクの高い資産を退去する日数日間の流動性地平線を必要としている。 しかし、株価データの非常に確率的な性質を考えると、多段階の株価予測の課題は難しい。 この問題に対処するための現在の解決策は、主に単一段階の分類に基づく予測のために設計されており、表現力の低いものに限られている。 この問題は、確率的ノイズも含むターゲット価格シーケンスの導入によって徐々に難しくなり、テスト時の一般化性も低下する。 これらの問題に対処するために,vae (deep hierarchy variational-autoencoder) と拡散確率法を組み合わせて,確率的生成過程を通じてseq2seqストック予測を行う。 階層的vaeにより,ストック予測のための複雑かつ低レベルな潜在変数を学習できる一方で,拡散確率モデルでは,ランダムノイズを漸進的にストックデータに加えることで,予測者に株価確率性に対処するように訓練する。 我々の拡散-VAE(D-Va)モデルは,その予測精度と分散性の観点から,最先端の解より優れていることを示す。 さらに重要なのは、複数ステップのアウトプットによって、予測期間を超えて株式ポートフォリオを形成することも可能です。 シャープ比測定を用いてポートフォリオ投資タスクにおけるモデルアウトプットの有効性を実証し,予測の不確実性の種類に対処することの重要性を強調した。

Multi-step stock price prediction over a long-term horizon is crucial for forecasting its volatility, allowing financial institutions to price and hedge derivatives, and banks to quantify the risk in their trading books. Additionally, most financial regulators also require a liquidity horizon of several days for institutional investors to exit their risky assets, in order to not materially affect market prices. However, the task of multi-step stock price prediction is challenging, given the highly stochastic nature of stock data. Current solutions to tackle this problem are mostly designed for single-step, classification-based predictions, and are limited to low representation expressiveness. The problem also gets progressively harder with the introduction of the target price sequence, which also contains stochastic noise and reduces generalizability at test-time. To tackle these issues, we combine a deep hierarchical variational-autoencoder (VAE) and diffusion probabilistic techniques to do seq2seq stock prediction through a stochastic generative process. The hierarchical VAE allows us to learn the complex and low-level latent variables for stock prediction, while the diffusion probabilistic model trains the predictor to handle stock price stochasticity by progressively adding random noise to the stock data. Our Diffusion-VAE (D-Va) model is shown to outperform state-of-the-art solutions in terms of its prediction accuracy and variance. More importantly, the multi-step outputs can also allow us to form a stock portfolio over the prediction length. We demonstrate the effectiveness of our model outputs in the portfolio investment task through the Sharpe ratio metric and highlight the importance of dealing with different types of prediction uncertainties.
翻訳日:2023-10-31 20:27:07 公開日:2023-10-29
# 半監督医用画像分割のための擬似ラベルガイドデータ拡張によるデュアルデコーダの整合性

Dual-Decoder Consistency via Pseudo-Labels Guided Data Augmentation for Semi-Supervised Medical Image Segmentation ( http://arxiv.org/abs/2308.16573v2 )

ライセンス: Link先を確認
Yuanbin Chen, Tao Wang, Hui Tang, Longxuan Zhao, Ruige Zong, Shun Chen, Tao Tan, Xinlin Zhang, Tong Tong(参考訳) 教師付き学習は目覚ましい成功を収めるが、大規模なラベル付きデータセットの取得は、高価なコストと経験豊富な放射線学者による長い注釈のために、バイオメディカルイメージングにおいて実用的ではないことが多い。 半教師付き学習はラベル付きデータセットから有用な情報を活用することで、この制限に対処する効果的な方法であることが示されている。 本稿では,医用画像分割のための疑似ラベル誘導データ拡張(dcpa)を用いた,デュアルデコーダ一貫性と呼ばれる新しい半教師付き学習手法を提案する。 半教師付き学習を改善するために一貫性の規則化を考案する。 具体的には、トレーニングプロセス中に一貫した表現を促進するために、同じエンコーダを維持しながら、生徒と教師のネットワークに異なるデコーダを使用する。 さらに,ラベルなしデータから学習するために,教師ネットワークが生成する擬似ラベルを作成し,擬似ラベルによるトレーニングデータを増強する。 この2つの手法は,提案手法の性能向上に寄与する。 3つの代表的な医用画像セグメンテーションデータセットに対する提案手法の性能評価を行った。 10%と20%のラベル付きデータを用いて,最先端医用画像分割法との広範な比較を行った。 実験結果から,本手法は3つの半教師付きセグメンテーションに対して,最先端の半教師付き医用画像セグメンテーション法より一貫して優れていることが示された。 さらに,提案手法の性能を極端に検証するため,5%のラベル付きデータを用いて実験を行った。 さらに,提案手法の優れた性能を検証した。 ソースコードはhttps://github.com/binycn/dcpa.gitで公開されている。

Though supervised learning gains impressive success, the acquisition of indispensable large-scale labeled datasets are often impractical in biomedical imaging partially due to expensive costs and lengthy annotations done by experienced radiologists. Semi-supervised learning has been shown to be an effective way to address this limitation by leveraging useful information from unlabeled datasets. In this paper, we present a new semi-supervised learning method referred to as Dual-Decoder Consistency via Pseudo-Labels Guided Data Augmentation (DCPA) for medical image segmentation. We devise a consistency regularization to improve the semi-supervised learning. Specifically, to promote consistent representations during the training process, we use different decoders for student and teachers networks while maintain the same encoder. Moreover, to learn from unlabeled data, we create pseudo-labels generated by the teacher networks and augment the training data with the pseudo-labels. The two techniques contribute to the improved performance of the proposed method. We evaluate the performance of the proposed method on three representative medical image segmentation datasets. Extensive comparisons to the state-of-the-art medical image segmentation methods were carried out under typical scenarios with 10% and 20% labeled data. Experimental outcomes demonstrate that our method consistently outperforms state-of-the-art semi-supervised medical image segmentation methods over the three semi-supervised settings. Furthermore, to explore the performance of proposed method under extreme condition, we conduct experiments with only 5% labeled data. The results further verify the superior performance of the proposed method. Source code is publicly online at https://github.com/BinYCn/DCPA.git.
翻訳日:2023-10-31 20:26:37 公開日:2023-10-29
# ローカル・ミニマを飛び抜ける:視覚変換器の失われた景観の量子化

Jumping through Local Minima: Quantization in the Loss Landscape of Vision Transformers ( http://arxiv.org/abs/2308.10814v2 )

ライセンス: Link先を確認
Natalia Frumkin, Dibakar Gope, and Diana Marculescu(参考訳) 量子化スケールとビット幅は、ニューラルネットワークの量子化方法を考える上で最も重要なパラメータである。 先行研究は、勾配法 (gradient descent \&hessian analysis) を通じて、グローバルに量子化スケールを最適化することに焦点を当てている。 しかし、量子化スケールに摂動を適用すると、非常にジャグリングされ、非常に滑らかなテスト損失の風景が観察される。 実際、量子化スケールにおける小さな摂動は精度に大きく影響し、4ビット量子化視覚トランスフォーマー(vits)において0.5-0.8\%の精度向上をもたらす。 この体制では、勾配法は局所最小値に確実に到達できないため、崩壊する。 Evol-Qと呼ばれる我々の研究では、進化探索を用いて非滑らかな風景を効果的に横断する。 さらに,小さなキャリブレーションデータセット(1000ドルの画像)の過剰フィッティングに対処するだけでなく,このような非スムースな表面のトラバースを容易にする情報損失の利用を提案する。 Evol-Q は完全量子化された ViT-Base のトップ-1 の精度を 10.30 %$,$0.78 %$,$0.15 %$ で3$-bit,$4$-bit,$8$-bit で改善している。 様々なCNNおよびViTアーキテクチャに関する大規模な実験は、極端量子化シナリオにおけるその堅牢性をさらに証明している。 私たちのコードはhttps://github.com/enyac-group/evol-qで利用可能です。

Quantization scale and bit-width are the most important parameters when considering how to quantize a neural network. Prior work focuses on optimizing quantization scales in a global manner through gradient methods (gradient descent \& Hessian analysis). Yet, when applying perturbations to quantization scales, we observe a very jagged, highly non-smooth test loss landscape. In fact, small perturbations in quantization scale can greatly affect accuracy, yielding a $0.5-0.8\%$ accuracy boost in 4-bit quantized vision transformers (ViTs). In this regime, gradient methods break down, since they cannot reliably reach local minima. In our work, dubbed Evol-Q, we use evolutionary search to effectively traverse the non-smooth landscape. Additionally, we propose using an infoNCE loss, which not only helps combat overfitting on the small calibration dataset ($1,000$ images) but also makes traversing such a highly non-smooth surface easier. Evol-Q improves the top-1 accuracy of a fully quantized ViT-Base by $10.30\%$, $0.78\%$, and $0.15\%$ for $3$-bit, $4$-bit, and $8$-bit weight quantization levels. Extensive experiments on a variety of CNN and ViT architectures further demonstrate its robustness in extreme quantization scenarios. Our code is available at https://github.com/enyac-group/evol-q
翻訳日:2023-10-31 20:24:28 公開日:2023-10-29
# 質問分類へのアンサンブルアプローチ:エレクトラ変換器、GloVe、LSTMの統合

An Ensemble Approach to Question Classification: Integrating Electra Transformer, GloVe, and LSTM ( http://arxiv.org/abs/2308.06828v3 )

ライセンス: Link先を確認
Sanad Aburass, Osama Dorgham and Maha Abu Rumman(参考訳) 自然言語処理(NLP)は人間の言語を理解し、生成するための重要な技術として登場し、機械翻訳や感情分析などのタスクにおいて重要な役割を担っている。 nlp内のサブフィールドとして、質問分類は要求される情報の種類を決定することに焦点を当て、質問応答システムのような下流アプリケーションのための基本的なステップである。 本研究では,Electra,GloVe,LSTMモデルの強みを組み合わせた質問分類のための革新的なアンサンブル手法を提案する。 このモデルは、よく認識されたTRECデータセットで厳密にテストされ、これらの異なる技術の統合がより優れた結果をもたらすことを示す。 Electraは複雑な言語理解のためのトランスフォーマーベースの機能を提供し、GloVeは単語レベルのセマンティクスをキャプチャするためのグローバルなベクトル表現を提供し、LSTMは長期依存をモデル化するためのシーケンス学習能力に貢献している。 これらの要素を戦略的に融合させることで、我々のアンサンブルモデルは質問分類の複雑なタスクに対して堅牢で効率的な解を提供する。 BERT、RoBERTa、DistilBERTといった有名なモデルとの厳密な比較を通じて、アンサンブルアプローチは、テストデータセットで80%の精度スコアを取得することによって、その有効性を検証する。

Natural Language Processing (NLP) has emerged as a crucial technology for understanding and generating human language, playing an essential role in tasks such as machine translation, sentiment analysis, and more pertinently, question classification. As a subfield within NLP, question classification focuses on determining the type of information being sought, a fundamental step for downstream applications like question answering systems. This study presents an innovative ensemble approach for question classification, combining the strengths of Electra, GloVe, and LSTM models. Rigorously tested on the well-regarded TREC dataset, the model demonstrates how the integration of these disparate technologies can lead to superior results. Electra brings in its transformer-based capabilities for complex language understanding, GloVe offers global vector representations for capturing word-level semantics, and LSTM contributes its sequence learning abilities to model long-term dependencies. By fusing these elements strategically, our ensemble model delivers a robust and efficient solution for the complex task of question classification. Through rigorous comparisons with well-known models like BERT, RoBERTa, and DistilBERT, the ensemble approach verifies its effectiveness by attaining an 80% accuracy score on the test dataset.
翻訳日:2023-10-31 20:24:00 公開日:2023-10-29
# マルチマグニチュード損失項付きマルチスケール問題のための実践的PINNフレームワーク

A practical PINN framework for multi-scale problems with multi-magnitude loss terms ( http://arxiv.org/abs/2308.06672v2 )

ライセンス: Link先を確認
Yong Wang and Yanzhong Yao and Jiawei Guo and Zhiming Gao(参考訳) マルチスケール問題に対して、従来の物理情報ニューラルネットワーク(PINN)は、利用可能な予測を得るためにいくつかの課題に直面している。 本稿では,pinnsを基礎として,損失関数を再構成し,それを特殊なニューラルネットワークアーキテクチャと関連付けることで,マルチスケール問題に対する実用的なディープラーニングフレームワークを提案する。 改良されたPINNフレームワークから派生した新しいPINN法は,従来のPINN法とは大きく異なる。 まず、(グループ化)正規化戦略を通じて標準損失関数を変更することで、新しい損失関数を使用する。 正規化戦略は、損失関数を構成する全ての損失項がほぼ同じ大きさで、最適化プロセス中に全ての損失項が同期的に最適化されるように、損失項ごとに異なる電力演算を実行する。 第2に、変調損失関数の使用に加えて、多周波または高周波の問題に対して、ニューラルネットワークアーキテクチャを一般的な完全接続ニューラルネットワークから、フーリエ特徴アーキテクチャのような特別なネットワークアーキテクチャや、私たちが開発した統合アーキテクチャにアップグレードする。 上記の2つの手法を組み合わせることで、マルチスケール問題の計算精度が大幅に向上する。 いくつかの難解な数値例が提案手法の有効性を示している。 提案手法は,従来のpinn法よりも計算効率と計算精度において著しく優れるだけでなく,最近の文献における最先端手法と比較した。 改良されたPINNフレームワークは、PINNのマルチスケール問題へのより良い適用を容易にする。

For multi-scale problems, the conventional physics-informed neural networks (PINNs) face some challenges in obtaining available predictions. In this paper, based on PINNs, we propose a practical deep learning framework for multi-scale problems by reconstructing the loss function and associating it with special neural network architectures. New PINN methods derived from the improved PINN framework differ from the conventional PINN method mainly in two aspects. First, the new methods use a novel loss function by modifying the standard loss function through a (grouping) regularization strategy. The regularization strategy implements a different power operation on each loss term so that all loss terms composing the loss function are of approximately the same order of magnitude, which makes all loss terms be optimized synchronously during the optimization process. Second, for the multi-frequency or high-frequency problems, in addition to using the modified loss function, new methods upgrade the neural network architecture from the common fully-connected neural network to special network architectures such as the Fourier feature architecture, and the integrated architecture developed by us. The combination of the above two techniques leads to a significant improvement in the computational accuracy of multi-scale problems. Several challenging numerical examples demonstrate the effectiveness of the proposed methods. The proposed methods not only significantly outperform the conventional PINN method in terms of computational efficiency and computational accuracy, but also compare favorably with the state-of-the-art methods in the recent literature. The improved PINN framework facilitates better application of PINNs to multi-scale problems.
翻訳日:2023-10-31 20:23:37 公開日:2023-10-29
# Posiform Planting: ベンチマークのためのQUBOインスタンスの生成

Posiform Planting: Generating QUBO Instances for Benchmarking ( http://arxiv.org/abs/2308.05859v2 )

ライセンス: Link先を確認
Georg Hahn, Elijah Pelofske, Hristo N. Djidjev(参考訳) 量子アニーリングと古典的アルゴリズムの両方をベンチマークして、量子非制約バイナリ最適化(QUBO)問題を最小化することに興味がある。 このような問題は一般にNPハードであり、ランダムに生成されたインスタンスの正確なミニマは見つけるのが難しく、典型的には未知であることを意味する。 bruteによる小さなインスタンスの強制は可能だが、量子アルゴリズムと古典アルゴリズムの両方が容易すぎるため、そのようなインスタンスは一般的には面白くない。 本研究では,任意の大きさのランダムquboインスタンスを既知の最適解で生成し,異なる相互接続構造(chimera,pegasus,zephyrハードウェアグラフ)とシミュレーションアニーリングアルゴリズムを用いて4つのd波量子アニーラのサンプリング品質をベンチマークする手法であるposiform plantingを提案する。 ポシフォームの植え付けは多くの既存の方法と2つの重要な方法で異なる。 植付された最適解の特異性を保証し、したがって基底状態の縮退を回避し、接続性があまり疎かでないことを前提として、所定のハードウェア接続構造に適合したQUBOの生成を可能にする。 posiform planted qubos は 2-sat boolean satisfiability combinatorial optimization problem の一種である。 実験では,最大5,627ドルキュービットの組合せ最適化問題の最適植込み解をサンプリングするD-Wave量子アニールの能力を実証した。

We are interested in benchmarking both quantum annealing and classical algorithms for minimizing Quadratic Unconstrained Binary Optimization (QUBO) problems. Such problems are NP-hard in general, implying that the exact minima of randomly generated instances are hard to find and thus typically unknown. While brute forcing smaller instances is possible, such instances are typically not interesting due to being too easy for both quantum and classical algorithms. In this contribution, we propose a novel method, called posiform planting, for generating random QUBO instances of arbitrary size with known optimal solutions, and use those instances to benchmark the sampling quality of four D-Wave quantum annealers utilizing different interconnection structures (Chimera, Pegasus, and Zephyr hardware graphs) as well as the simulated annealing algorithm. Posiform planting differs from many existing methods in two key ways. It ensures the uniqueness of the planted optimal solution, thus avoiding groundstate degeneracy, and it enables the generation of QUBOs that are tailored to a given hardware connectivity structure, provided that the connectivity is not too sparse. Posiform planted QUBOs are a type of 2-SAT boolean satisfiability combinatorial optimization problems. Our experiments demonstrate the capability of the D-Wave quantum annealers to sample the optimal planted solution of combinatorial optimization problems with up to $5627$ qubits.
翻訳日:2023-10-31 20:23:14 公開日:2023-10-29
# 深層学習に基づく画像透かしの簡潔かつ詳細な調査

A Brief Yet In-Depth Survey of Deep Learning-Based Image Watermarking ( http://arxiv.org/abs/2308.04603v3 )

ライセンス: Link先を確認
Xin Zhong, Arjon Das, Fahad Alrasheedi, Abdullah Tanvir(参考訳) 本稿では,隠れた画像内に透かしを埋め込んで抽出する手法である深層学習に基づく画像透かしに関する総合的な調査を行い,堅牢性と適応性のシームレスなブレンドを提供することを目的とする。 私たちは、この学際ドメインの複雑な景観をナビゲートし、歴史的な基礎、現在のイノベーション、将来の発展を結びつけます。 既存の文献と異なり,本研究は深層学習による画像透かしにのみ焦点をあて,3つの基本的な貢献によって得られた詳細な分析を行う。 まず,フィールドをembedder-extractor,deep networks as a feature transformation,hybrid methodsに分割した,洗練された分類を導入する。 この分類学は、研究全体にわたる深層学習の様々な役割にインスパイアされ、読者の技術的な洞察と方向性のガイダンスを提供するように設計されている。 第2に,各カテゴリにおける多様な研究方向性と固有の課題をカプセル化して,総合的な視点を提供する。 最後に、私たちは、新たなフロンティアを概観するために確立された境界を越えて、将来の研究道に関する詳細な洞察を提供します。

This paper presents a comprehensive survey on deep learning-based image watermarking, a technique that entails the invisible embedding and extraction of watermarks within a cover image, aiming to offer a seamless blend of robustness and adaptability. We navigate the complex landscape of this interdisciplinary domain, linking historical foundations, current innovations, and prospective developments. Unlike existing literature, our study concentrates exclusively on image watermarking with deep learning, delivering an in-depth, yet brief analysis enriched by three fundamental contributions. First, we introduce a refined categorization, segmenting the field into Embedder-Extractor, Deep Networks as a Feature Transformation, and Hybrid Methods. This taxonomy, inspired by the varied roles of deep learning across studies, is designed to infuse clarity, offering readers technical insights and directional guidance. Second, our exploration dives into representative methodologies, encapsulating the diverse research directions and inherent challenges within each category to provide a consolidated perspective. Lastly, we venture beyond established boundaries to outline emerging frontiers, offering a detailed insight into prospective research avenues.
翻訳日:2023-10-31 20:22:47 公開日:2023-10-29
# cambridge law corpus: a corpus for legal ai research (英語)

The Cambridge Law Corpus: A Corpus for Legal AI Research ( http://arxiv.org/abs/2309.12269v3 )

ライセンス: Link先を確認
Andreas \"Ostling and Holli Sargeant and Huiyuan Xie and Ludwig Bull and Alexander Terenin and Leif Jonsson and M{\aa}ns Magnusson and Felix Steffek(参考訳) 法的なAI研究のためのコーパスであるCambridge Law Corpus (CLC)を紹介する。 英国から250,000件以上の訴訟が起こっている。 ほとんどのケースは21世紀のものであるが、コーパスには16世紀のものが含まれる。 本稿では,原文とメタデータを含むコーパスの最初のリリースについて述べる。 コーパスとともに,法律専門家による638件の事例に対して,事例結果に関する注釈を提供する。 注記データを用いて,GPT-3,GPT-4,RoBERTaモデルを用いて事例抽出を行い,評価を行った。 我々は、この資料の潜在的に敏感な性質に対処するための、広範な法的および倫理的な議論を含む。 その結果、コーパスは特定の制限下で研究目的のためにのみ解放される。

We introduce the Cambridge Law Corpus (CLC), a corpus for legal AI research. It consists of over 250 000 court cases from the UK. Most cases are from the 21st century, but the corpus includes cases as old as the 16th century. This paper presents the first release of the corpus, containing the raw text and meta-data. Together with the corpus, we provide annotations on case outcomes for 638 cases, done by legal experts. Using our annotated data, we have trained and evaluated case outcome extraction with GPT-3, GPT-4 and RoBERTa models to provide benchmarks. We include an extensive legal and ethical discussion to address the potentially sensitive nature of this material. As a consequence, the corpus will only be released for research purposes under certain restrictions.
翻訳日:2023-10-31 20:16:36 公開日:2023-10-29
# リーマン多様体上のMat\'ern Gaussian過程の後方収縮速度

Posterior Contraction Rates for Mat\'ern Gaussian Processes on Riemannian Manifolds ( http://arxiv.org/abs/2309.10918v3 )

ライセンス: Link先を確認
Paul Rosa and Viacheslav Borovitskiy and Alexander Terenin and Judith Rousseau(参考訳) ガウス過程は不確実性定量化に依存する多くの機械学習アプリケーションで使われている。 近年、リーマン多様体上の入力のような幾何学的設定でこれらのモデルを扱うための計算ツールが開発されている。 これらの内在的なモデルは、単にすべての関連する量を$\mathbb{r}^d$に埋め込み、通常のユークリッドガウス過程の制限を用いるよりも、理論的により良いパフォーマンスをもたらすことができるか? これを調べるために、コンパクトリーマン多様体上で定義される内在的マト・エルン・ガウス過程の最適収縮率を証明できる。 また、多様体と周囲のソボレフ空間の間のトレースおよび拡張定理を用いて、外部過程の類似の速度を証明した: 幾分驚くべきことに、それらの滑らかさパラメータが適切に一致していることから、本質的過程のそれと一致することが判明した。 先行研究の反映として,本質的プロセスが実際によりよいパフォーマンスを達成できることを示す,いくつかの例を実証的に示す。 そこで本研究では,幾何学的ガウス過程の異なるレベルのデータ効率を,特に小さなデータセットのサイズと非漸近的振る舞いを含む設定で区別するために,よりきめ細かい解析が必要であることを示す。

Gaussian processes are used in many machine learning applications that rely on uncertainty quantification. Recently, computational tools for working with these models in geometric settings, such as when inputs lie on a Riemannian manifold, have been developed. This raises the question: can these intrinsic models be shown theoretically to lead to better performance, compared to simply embedding all relevant quantities into $\mathbb{R}^d$ and using the restriction of an ordinary Euclidean Gaussian process? To study this, we prove optimal contraction rates for intrinsic Mat\'ern Gaussian processes defined on compact Riemannian manifolds. We also prove analogous rates for extrinsic processes using trace and extension theorems between manifold and ambient Sobolev spaces: somewhat surprisingly, the rates obtained turn out to coincide with those of the intrinsic processes, provided that their smoothness parameters are matched appropriately. We illustrate these rates empirically on a number of examples, which, mirroring prior work, show that intrinsic processes can achieve better performance in practice. Therefore, our work shows that finer-grained analyses are needed to distinguish between different levels of data-efficiency of geometric Gaussian processes, particularly in settings which involve small data set sizes and non-asymptotic behavior.
翻訳日:2023-10-31 20:15:31 公開日:2023-10-29
# BEA:Budding Ensemble Architectureを用いたアンカーベースのオブジェクト検出DNNの再検討

BEA: Revisiting anchor-based object detection DNN using Budding Ensemble Architecture ( http://arxiv.org/abs/2309.08036v3 )

ライセンス: Link先を確認
Syed Sha Qutub and Neslihan Kose and Rafael Rosales and Michael Paulitsch and Korbinian Hagn and Florian Geissler and Yang Peng and Gereon Hinz and Alois Knoll(参考訳) 本稿では,アンカーベースオブジェクト検出モデルのための新しいアンサンブルアーキテクチャであるBudding Ensemble Architecture (BEA)を紹介する。 物体検出モデルは視覚に基づくタスク、特に自律システムにおいて重要である。 正確なバウンディングボックス検出を提供すると同時に、予測された信頼度スコアを調整し、高品質の不確実性推定につながるはずだ。 しかし、現在のモデルは、高いスコアを受けた偽陽性や低いスコアで捨てられた真陽性のために誤った判断を下す可能性がある。 BEAはこれらの問題に対処することを目指している。 提案する損失関数は信頼度スコア校正を改善し,不確実性誤差を低減し,真正と偽陽性の区別が向上し,オブジェクト検出モデルの精度が向上する。 Base-YOLOv3 と SSD はBEA 法と損失関数を用いて拡張された。 KITTIデータセットでトレーニングされたBase-YOLOv3上のBEAは、それぞれmAPとAP50の6%と3.7%増加している。 バランスの取れた不確実性推定しきい値を利用してサンプルをリアルタイムに破棄することは、ベースモデルよりも9.6%高いap50となる。 これは、信頼性スコアのキャリブレーションの質を測定するために使用されるAP50ベースの保持曲線の下で、面積が40%増加したためである。 さらに、KITTIでトレーニングされたBEA-YOLOV3は、YOLOv3とGaussian-YOLOv3のアンサンブルやバニラモデルと比較して、Citypersons、BDD100K、COCOデータセットに優れたアウトオブディストリビューション検出を提供する。

This paper introduces the Budding Ensemble Architecture (BEA), a novel reduced ensemble architecture for anchor-based object detection models. Object detection models are crucial in vision-based tasks, particularly in autonomous systems. They should provide precise bounding box detections while also calibrating their predicted confidence scores, leading to higher-quality uncertainty estimates. However, current models may make erroneous decisions due to false positives receiving high scores or true positives being discarded due to low scores. BEA aims to address these issues. The proposed loss functions in BEA improve the confidence score calibration and lower the uncertainty error, which results in a better distinction of true and false positives and, eventually, higher accuracy of the object detection models. Both Base-YOLOv3 and SSD models were enhanced using the BEA method and its proposed loss functions. The BEA on Base-YOLOv3 trained on the KITTI dataset results in a 6% and 3.7% increase in mAP and AP50, respectively. Utilizing a well-balanced uncertainty estimation threshold to discard samples in real-time even leads to a 9.6% higher AP50 than its base model. This is attributed to a 40% increase in the area under the AP50-based retention curve used to measure the quality of calibration of confidence scores. Furthermore, BEA-YOLOV3 trained on KITTI provides superior out-of-distribution detection on Citypersons, BDD100K, and COCO datasets compared to the ensembles and vanilla models of YOLOv3 and Gaussian-YOLOv3.
翻訳日:2023-10-31 20:14:24 公開日:2023-10-29
# ベイジアン動的dag学習--脳の動的効果的なコネクトームの発見への応用

Bayesian Dynamic DAG Learning: Application in Discovering Dynamic Effective Connectome of Brain ( http://arxiv.org/abs/2309.07080v2 )

ライセンス: Link先を確認
Abdolmahdi Bagheri, Mohammad Pasande, Kevin Bello, Babak Nadjar Araabi, Alireza Akhondi-Asl(参考訳) DEC(Dynamic Effective Connectome)を抽出することで、脳の複雑なメカニズムを理解することができる。 近年,楽譜に基づくDAG (Directed Acyclic Graph) 探索法は,因果構造を抽出し,有効接続性を推定する上で,大幅な改善がなされている。 しかし,これらの手法によるDECの学習には,高次元動的DAG発見法の基本原理と,fMRIデータの品質の低さの2つの課題がある。 本稿では,m-行列を用いたベイズ動的dag学習について,decの発見における課題を解決するために,acyclicity characterization \textbf{(bdyma)} 法を提案する。 提案した動的因果モデルにより、双方向のエッジも発見できる。 BDyMA法で制約のないフレームワークを活用すると、高次元ネットワークの検出がより正確になり、スペーサーの結果が得られ、特にDECの抽出に適している。 さらに、BDyMA法のスコア関数により、動的因果発見のプロセスに事前知識を組み込むことで、結果の精度をさらに高めることができる。 合成データとヒトコネクトームプロジェクト(hcp)データに関する実験に関する総合的なシミュレーションにより,本手法が2つの課題を両立できることが証明された。 さらに,DTIデータのDEC発見の先行知識としての信頼性について検討し,DTIデータをプロセスに組み込んだ場合のDEC発見の改善を示す。

Understanding the complex mechanisms of the brain can be unraveled by extracting the Dynamic Effective Connectome (DEC). Recently, score-based Directed Acyclic Graph (DAG) discovery methods have shown significant improvements in extracting the causal structure and inferring effective connectivity. However, learning DEC through these methods still faces two main challenges: one with the fundamental impotence of high-dimensional dynamic DAG discovery methods and the other with the low quality of fMRI data. In this paper, we introduce Bayesian Dynamic DAG learning with M-matrices Acyclicity characterization \textbf{(BDyMA)} method to address the challenges in discovering DEC. The presented dynamic causal model enables us to discover bidirected edges as well. Leveraging an unconstrained framework in the BDyMA method leads to more accurate results in detecting high-dimensional networks, achieving sparser outcomes, making it particularly suitable for extracting DEC. Additionally, the score function of the BDyMA method allows the incorporation of prior knowledge into the process of dynamic causal discovery which further enhances the accuracy of results. Comprehensive simulations on synthetic data and experiments on Human Connectome Project (HCP) data demonstrate that our method can handle both of the two main challenges, yielding more accurate and reliable DEC compared to state-of-the-art and baseline methods. Additionally, we investigate the trustworthiness of DTI data as prior knowledge for DEC discovery and show the improvements in DEC discovery when the DTI data is incorporated into the process.
翻訳日:2023-10-31 20:13:30 公開日:2023-10-29
# より深い理解に向けて: RetNetは進化を通して見る

Toward a Deeper Understanding: RetNet Viewed through Convolution ( http://arxiv.org/abs/2309.05375v2 )

ライセンス: Link先を確認
Chenghao Li, Chaoning Zhang(参考訳) Vision Transformer (ViT) の成功は、幅広い画像認識タスクで広く報告されている。 ViTはCNNよりも優れたグローバル依存関係を学習できるが、CNN固有のローカリティは高価なトレーニングリソースに取って代わることができる。 近年,言語モデリング分野におけるRetNetの卓越した性能が注目され,トランスフォーマーを明示的な局所モデリングで上回り,CV分野におけるトランスフォーマーへの研究者の焦点がシフトしている。 本稿では,CNNの観点からRetNetの有効性について検討し,視覚領域に適したRetNetの変種を示す。 RetNetと同様に、元の自己注意行列に重みマスクを適用することで、ViTの局所モデリングを改善する。 自己注意行列を局所的に適応させる簡単な方法は、要素的に学習可能な重みマスク(ELM)によって実現でき、この予備結果は有望な結果を示す。 しかし、要素単位で単純な学習可能な重みマスクは、非自明な追加パラメータのオーバーヘッドを誘導するだけでなく、最適化の複雑さを増大させる。 そこで本研究では, 1つのマスクが学習可能なパラメータしか持たず, 注意機構がマスクの使用を許容する任意のvit変種において便利に使用できる, ガウス混合マスク (gmm) を提案する。 複数の小データセットに対する実験結果から,提案したガウスマスクの有効性が,VTTを無償(ほぼゼロの追加パラメータや計算コスト)で強化することを示した。 私たちのコードはhttps://github.com/catworldlee/gaussian-mixture-mask-attentionで公開しています。

The success of Vision Transformer (ViT) has been widely reported on a wide range of image recognition tasks. ViT can learn global dependencies superior to CNN, yet CNN's inherent locality can substitute for expensive training resources. Recently, the outstanding performance of RetNet in the field of language modeling has garnered attention, surpassing that of the Transformer with explicit local modeling, shifting researchers' focus towards Transformers in the CV field. This paper investigates the effectiveness of RetNet from a CNN perspective and presents a variant of RetNet tailored to the visual domain. Similar to RetNet we improves ViT's local modeling by applying a weight mask on the original self-attention matrix. A straightforward way to locally adapt the self-attention matrix can be realized by an element-wise learnable weight mask (ELM), for which our preliminary results show promising results. However, the element-wise simple learnable weight mask not only induces a non-trivial additional parameter overhead but also increases the optimization complexity. To this end, this work proposes a novel Gaussian mixture mask (GMM) in which one mask only has two learnable parameters and it can be conveniently used in any ViT variants whose attention mechanism allows the use of masks. Experimental results on multiple small datasets demonstrate that the effectiveness of our proposed Gaussian mask for boosting ViTs for free (almost zero additional parameter or computation cost). Our code can be publicly available at https://github.com/CatworldLee/Gaussian-Mixture-Mask-Attention.
翻訳日:2023-10-31 20:12:44 公開日:2023-10-29
# 最終Iterate Convergenceを用いたゼロサム線形二次ゲームにおける学習

Learning in Zero-Sum Linear Quadratic Games with Last-Iterate Convergence ( http://arxiv.org/abs/2309.04272v2 )

ライセンス: Link先を確認
Jiduan Wu and Anas Barakat and Ilyas Fatkhullin and Niao He(参考訳) Zero-sum Linear Quadratic (LQ)ゲームは最適制御の基本であり、使用できる (i)〜リスク感受性またはロバスト制御のための動的ゲーム定式化と (ii)~連続状態制御空間における2つの競合エージェントによるマルチエージェント強化学習のベンチマーク設定。 良く研究された単エージェント線型二次規制問題とは対照的に、ゼロサムのLQゲームは、保磁力に欠ける目的関数を持つ挑戦的な非凸非凸 min-max 問題を解く。 Zhangらは最近、有限地平線ゼロサムLQゲームの~$\epsilon$-Nash平衡(NE)が、ポリ$(1/\epsilon)$サンプル複雑性を持つネストされたモデル自由自然ポリシー勾配(NPG)アルゴリズムによって学習可能であることを示した。 本研究では,サンプルの複雑さを数桁削減し,最後の反復値の収束を保証する,より単純なネスト型ゼロ次(zo)アルゴリズムを提案する。 主な結果は2つです。 (i)決定論的設定において、ゼロサムlqゲームのneを求めるネストアルゴリズムに対する最初の大域的ラストイテレート線形収束結果を確立する。 (ii) モデルフリー環境では, 単一点ZO推定器を用いて, a~$\widetilde{\mathcal{O}}(\epsilon^{-2})$サンプル複雑性を確立する。 最終項目収束結果に対し,本分析ではImplicit Regularization(IR)特性と主関数に対する新しい勾配支配条件を利用する。 サンプル複雑性における重要な改善は,よりサンプル効率のよいネストアルゴリズムの設計と,有限ホリゾン設定により付与された構造を利用したゾウ自然勾配推定誤差の微調整による。

Zero-sum Linear Quadratic (LQ) games are fundamental in optimal control and can be used (i)~as a dynamic game formulation for risk-sensitive or robust control and (ii)~as a benchmark setting for multi-agent reinforcement learning with two competing agents in continuous state-control spaces. In contrast to the well-studied single-agent linear quadratic regulator problem, zero-sum LQ games entail solving a challenging nonconvex-nonconcave min-max problem with an objective function that lacks coercivity. Recently, Zhang et al. showed that an~$\epsilon$-Nash equilibrium (NE) of finite horizon zero-sum LQ games can be learned via nested model-free Natural Policy Gradient (NPG) algorithms with poly$(1/\epsilon)$ sample complexity. In this work, we propose a simpler nested Zeroth-Order (ZO) algorithm improving sample complexity by several orders of magnitude and guaranteeing convergence of the last iterate. Our main results are two-fold: (i) in the deterministic setting, we establish the first global last-iterate linear convergence result for the nested algorithm that seeks NE of zero-sum LQ games; (ii) in the model-free setting, we establish a~$\widetilde{\mathcal{O}}(\epsilon^{-2})$ sample complexity using a single-point ZO estimator. For our last-iterate convergence results, our analysis leverages the Implicit Regularization (IR) property and a new gradient domination condition for the primal function. Our key improvements in the sample complexity rely on a more sample-efficient nested algorithm design and a finer control of the ZO natural gradient estimation error utilizing the structure endowed by the finite-horizon setting.
翻訳日:2023-10-31 20:11:46 公開日:2023-10-29
# MEGANet: 弱境界ポリプセグメンテーションのためのマルチスケールエッジガイドアテンションネットワーク

MEGANet: Multi-Scale Edge-Guided Attention Network for Weak Boundary Polyp Segmentation ( http://arxiv.org/abs/2309.03329v2 )

ライセンス: Link先を確認
Nhat-Tan Bui and Dinh-Hieu Hoang and Quang-Thuc Nguyen and Minh-Triet Tran and Ngan Le(参考訳) 大腸癌の早期診断には,効率的なポリープ分画が重要な役割を担っている。 しかし、ポリプのセグメンテーションには、背景の複雑な分布、ポリプのサイズや形状の変化、不連続の境界など、多くの課題がある。 前景(すなわちポリープ自体)と背景(輪郭組織)の境界を定義することは困難である。 これらの課題を軽減するために,大腸内視鏡画像内のポリプセグメンテーションに適したマルチスケールエッジガイド注意ネットワーク(MEGANet)を提案する。 このネットワークは、注目機構を備えた古典的エッジ検出技術の融合からインスピレーションを得ている。 これらの技術を組み合わせることで、MEGANetは、特にエッジとバウンダリの高周波情報を効果的に保存する。 MEGANetはエンドツーエンドのフレームワークとして設計されており、入力画像から機能をキャプチャして抽象化するエンコーダ、有能な機能に焦点を当てるデコーダ、ポリプバウンダリをアクセントするLaplacian Operatorを使用するEdge-Guided Attention Module(EGA)の3つの主要なモジュールを含んでいる。 5つのベンチマークデータセットに対する定性的かつ定量的な大規模な実験は、私たちのEGANetが6つの評価基準の下で既存のSOTAメソッドよりも優れていることを示した。 私たちのコードは \url{https://github.com/UARK-AICV/MEGANet} で利用可能です。

Efficient polyp segmentation in healthcare plays a critical role in enabling early diagnosis of colorectal cancer. However, the segmentation of polyps presents numerous challenges, including the intricate distribution of backgrounds, variations in polyp sizes and shapes, and indistinct boundaries. Defining the boundary between the foreground (i.e. polyp itself) and the background (surrounding tissue) is difficult. To mitigate these challenges, we propose Multi-Scale Edge-Guided Attention Network (MEGANet) tailored specifically for polyp segmentation within colonoscopy images. This network draws inspiration from the fusion of a classical edge detection technique with an attention mechanism. By combining these techniques, MEGANet effectively preserves high-frequency information, notably edges and boundaries, which tend to erode as neural networks deepen. MEGANet is designed as an end-to-end framework, encompassing three key modules: an encoder, which is responsible for capturing and abstracting the features from the input image, a decoder, which focuses on salient features, and the Edge-Guided Attention module (EGA) that employs the Laplacian Operator to accentuate polyp boundaries. Extensive experiments, both qualitative and quantitative, on five benchmark datasets, demonstrate that our EGANet outperforms other existing SOTA methods under six evaluation metrics. Our code is available at \url{https://github.com/UARK-AICV/MEGANet}.
翻訳日:2023-10-31 20:11:04 公開日:2023-10-29
# 最適ガウスクラスターの統計的に有意な分離群を見つけるスーパークラスタリング

Superclustering by finding statistically significant separable groups of optimal gaussian clusters ( http://arxiv.org/abs/2309.02623v2 )

ライセンス: Link先を確認
Oleg I.Berngardt(参考訳) 本稿では, bic基準の観点から, ガウスクラスターの数を, 統計分離性の観点から, 最適クラスタに分類し, データセットをクラスタリングするアルゴリズムを提案する。 The algorithm consists of three stages: representation of the dataset as a mixture of Gaussian distributions - clusters, which number is determined based on the minimum of the BIC criterion; using the Mahalanobis distance, to estimate the distances between the clusters and cluster sizes; combining the resulting clusters into superclusters using the DBSCAN method by finding its hyperparameter (maximum distance) providing maximum value of introduced matrix quality criterion at maximum number of superclusters. 行列の品質基準は、すべてのスーパークラスター間で統計的に有意に分離されたスーパークラスタの割合に対応する。 このアルゴリズムは1つのハイパーパラメーター(統計的重要性レベル)しか持たず、統計仮説テストアプローチに基づいて、スーパークラスタの最適数と形状を自動的に検出する。 このアルゴリズムは、ノイズやノイズのない状況におけるテストデータセットに対して良い結果を示す。 このアルゴリズムの重要な利点は、既にトレーニング済みのclustererをベースにした新しいデータに対して正しいスーパークラスタを予測し、ソフト(ファズィ)クラスタリングを実行する能力である。 アルゴリズムの欠点は、その低速さと最終的なクラスタリングの確率的性質である。 クラスタリングには十分大きなデータセットが必要であり、多くの統計的手法で典型的である。

The paper presents the algorithm for clustering a dataset by grouping the optimal, from the point of view of the BIC criterion, number of Gaussian clusters into the optimal, from the point of view of their statistical separability, superclusters. The algorithm consists of three stages: representation of the dataset as a mixture of Gaussian distributions - clusters, which number is determined based on the minimum of the BIC criterion; using the Mahalanobis distance, to estimate the distances between the clusters and cluster sizes; combining the resulting clusters into superclusters using the DBSCAN method by finding its hyperparameter (maximum distance) providing maximum value of introduced matrix quality criterion at maximum number of superclusters. The matrix quality criterion corresponds to the proportion of statistically significant separated superclusters among all found superclusters. The algorithm has only one hyperparameter - statistical significance level, and automatically detects optimal number and shape of superclusters based of statistical hypothesis testing approach. The algorithm demonstrates a good results on test datasets in noise and noiseless situations. An essential advantage of the algorithm is its ability to predict correct supercluster for new data based on already trained clusterer and perform soft (fuzzy) clustering. The disadvantages of the algorithm are: its low speed and stochastic nature of the final clustering. It requires a sufficiently large dataset for clustering, which is typical for many statistical methods.
翻訳日:2023-10-31 20:10:35 公開日:2023-10-29
# 大規模事前学習モデルの等変適応

Equivariant Adaptation of Large Pretrained Models ( http://arxiv.org/abs/2310.01647v2 )

ライセンス: Link先を確認
Arnab Kumar Mondal, Siba Smarak Panigrahi, S\'ekou-Oumar Kaba, Sai Rajeswar, Siamak Ravanbakhsh(参考訳) 等価ネットワークは、入力変換のセットに関して一貫した振る舞いを保証するよう特別に設計されており、高いサンプル効率とより正確でロバストな予測をもたらす。 しかしながら、一般的なディープニューラルネットワークアーキテクチャの各コンポーネントを再設計して、選択された等価性を達成することは難しい問題であり、トレーニングと推論の両方において計算コストの高いネットワークとなる可能性がある。 アーキテクチャ上の制約を取り除くために最近提案された等価性(equivariance)の代替案は、入力を標準形式に変換して、制約のない予測ネットワークに渡す単純な標準化ネットワークを使用することである。 本稿では,この手法を大規模事前学習ネットワークの等価化に効果的に利用できることを示す。 しかし, 生成した正準方向は, トレーニング分布の方向と誤一致し, 性能を阻害することが観察された。 標準化関数にデータセット依存の事前情報を使うことで、性能を維持しながら、事前学習された大規模モデルに等価性を持たせることができる。 これにより、回転のようなデータの決定論的変換にこれらのモデルの堅牢性を大幅に改善する。 この大きな事前訓練されたモデルの同変適応は、既知の対称性を持つ領域固有の応用に役立つと信じている。

Equivariant networks are specifically designed to ensure consistent behavior with respect to a set of input transformations, leading to higher sample efficiency and more accurate and robust predictions. However, redesigning each component of prevalent deep neural network architectures to achieve chosen equivariance is a difficult problem and can result in a computationally expensive network during both training and inference. A recently proposed alternative towards equivariance that removes the architectural constraints is to use a simple canonicalization network that transforms the input to a canonical form before feeding it to an unconstrained prediction network. We show here that this approach can effectively be used to make a large pretrained network equivariant. However, we observe that the produced canonical orientations can be misaligned with those of the training distribution, hindering performance. Using dataset-dependent priors to inform the canonicalization function, we are able to make large pretrained models equivariant while maintaining their performance. This significantly improves the robustness of these models to deterministic transformations of the data, such as rotations. We believe this equivariant adaptation of large pretrained models can help their domain-specific applications with known symmetry priors.
翻訳日:2023-10-31 20:02:11 公開日:2023-10-29
# ODE-based Recurrent Model-free Reinforcement Learning for POMDPs

ODE-based Recurrent Model-free Reinforcement Learning for POMDPs ( http://arxiv.org/abs/2309.14078v2 )

ライセンス: Link先を確認
Xuanle Zhao, Duzhen Zhang, Liyuan Han, Tielin Zhang, Bo Xu(参考訳) ニューラル常微分方程式(ODE)は、未知の物理的または生物学的環境において近似推論を行うのに役立つ物理機構をモデル化するための標準として広く認識されている。 部分的に観測可能な(PO)環境では、生の観測から見えない情報を推測する方法がエージェントを困惑させた。 コンテクストに基づく強化学習は, コンテクストがコンパクトなリカレントポリシを用いることで, 歴史的遷移から観測不可能な情報を抽出する柔軟な方法を提供する。 エージェントがよりダイナミックな情報を引き出すのを助けるために,新しいODEベースのリカレントモデルとモデルレス強化学習(RL)フレームワークを組み合わせて,部分的に観測可能なマルコフ決定プロセス(POMDP)を解く。 様々なPO連続制御タスクとメタRLタスクにまたがる手法の有効性を実験的に実証した。 さらに,本手法は不規則にサンプリングされた時系列をモデル化できるため,不規則な観測に対して頑健であることを示す。

Neural ordinary differential equations (ODEs) are widely recognized as the standard for modeling physical mechanisms, which help to perform approximate inference in unknown physical or biological environments. In partially observable (PO) environments, how to infer unseen information from raw observations puzzled the agents. By using a recurrent policy with a compact context, context-based reinforcement learning provides a flexible way to extract unobservable information from historical transitions. To help the agent extract more dynamics-related information, we present a novel ODE-based recurrent model combines with model-free reinforcement learning (RL) framework to solve partially observable Markov decision processes (POMDPs). We experimentally demonstrate the efficacy of our methods across various PO continuous control and meta-RL tasks. Furthermore, our experiments illustrate that our method is robust against irregular observations, owing to the ability of ODEs to model irregularly-sampled time series.
翻訳日:2023-10-31 19:59:40 公開日:2023-10-29
# 物理駆動mlモデルによる逆推定の補正

Physics-Driven ML-Based Modelling for Correcting Inverse Estimation ( http://arxiv.org/abs/2309.13985v2 )

ライセンス: Link先を確認
Ruiyuan Kang, Tingting Mu, Panos Liatsis, Dimitrios C. Kyritsis(参考訳) 科学と工学(SAE)領域に機械学習推定器を配置する際には、エアロエンジンの設計など、悲惨な結果をもたらす可能性のある推定失敗を避けることが重要である。 本研究は, 物理法則に基づくシミュレーションと性能指標を用いて, sae逆問題に適用する前に, 故障状態推定の検出と修正に焦点をあてる。 我々は,物理モデル誤差が実現可能なしきい値を超えた場合の機械学習推定をフラグアップすることを提案し,低エラーと高効率の両方を実現することを目的とした,最適化による修正のための新しいアプローチであるGEESEを提案する。 GEESEの鍵となる設計は,(1)シミュレーションコストを削減し,誤差フィードバックの勾配に基づくバックプロパゲーションを可能にするハイブリッド・サロゲート・エラーモデル,(2)評価と探索の振る舞いをシミュレートするための候補状態の確率分布を近似する2つの生成モデルである。 3つのモデルはいずれもニューラルネットワークとして構築されている。 GEESEは3つの実世界のSAE逆問題でテストされ、最先端の最適化/探索手法と比較される。 結果は、実現可能な状態補正を見つけるのに最低でも失敗することを示し、一般的には物理的評価をあまり必要としないことを示している。

When deploying machine learning estimators in science and engineering (SAE) domains, it is critical to avoid failed estimations that can have disastrous consequences, e.g., in aero engine design. This work focuses on detecting and correcting failed state estimations before adopting them in SAE inverse problems, by utilizing simulations and performance metrics guided by physical laws. We suggest to flag a machine learning estimation when its physical model error exceeds a feasible threshold, and propose a novel approach, GEESE, to correct it through optimization, aiming at delivering both low error and high efficiency. The key designs of GEESE include (1) a hybrid surrogate error model to provide fast error estimations to reduce simulation cost and to enable gradient based backpropagation of error feedback, and (2) two generative models to approximate the probability distributions of the candidate states for simulating the exploitation and exploration behaviours. All three models are constructed as neural networks. GEESE is tested on three real-world SAE inverse problems and compared to a number of state-of-the-art optimization/search approaches. Results show that it fails the least number of times in terms of finding a feasible state correction, and requires physical evaluations less frequently in general.
翻訳日:2023-10-31 19:58:59 公開日:2023-10-29
# 留意機構と開始ブロックを有するマルチスケールDenseNet回帰を用いたメソスケールでのフィッションガス放出のモデル化

Modeling Fission Gas Release at the Mesoscale using Multiscale DenseNet Regression with Attention Mechanism and Inception Blocks ( http://arxiv.org/abs/2310.08767v2 )

ライセンス: Link先を確認
Peter Toma and Md Ali Muntaha and Joel B. Harley and Michael R. Tonks(参考訳) 核燃料中の分裂ガス放出(FGR)のメソスケールシミュレーションは、ミクロ構造の進化がFGRにどのように影響するかを理解する強力なツールを提供するが、それらは計算的に集約的である。 本研究では,2次元核燃料微細構造画像から瞬時fgrフラックスを予測するために,ディープラーニングを用いたデータ駆動方式を提案する。 マルチスケール回帰を伴う4つの畳み込みニューラルネットワーク(CNN)アーキテクチャを学習し、ハイブリッド位相場/クラスタダイナミックスモデルを用いて生成されたシミュレーションFGRデータに基づいて評価する。 4つのネットワークはいずれも高い予測力を示し、R^{2}$値は98%以上である。 ベストパフォーマンスネットワークは、畳み込みブロックアテンションモジュール(cbam)とインセプションネット機構を組み合わせることで、優れた精度(絶対パーセンテージ誤差4.4%)、トレーニング安定性、非常に低い瞬間的fgrフラックス値のロバスト性を提供する。

Mesoscale simulations of fission gas release (FGR) in nuclear fuel provide a powerful tool for understanding how microstructure evolution impacts FGR, but they are computationally intensive. In this study, we present an alternate, data-driven approach, using deep learning to predict instantaneous FGR flux from 2D nuclear fuel microstructure images. Four convolutional neural network (CNN) architectures with multiscale regression are trained and evaluated on simulated FGR data generated using a hybrid phase field/cluster dynamics model. All four networks show high predictive power, with $R^{2}$ values above 98%. The best performing network combine a Convolutional Block Attention Module (CBAM) and InceptionNet mechanisms to provide superior accuracy (mean absolute percentage error of 4.4%), training stability, and robustness on very low instantaneous FGR flux values.
翻訳日:2023-10-31 19:50:22 公開日:2023-10-29
# Ziya-Visual:マルチタスクインストラクションチューニングによるバイリンガル大視野モデル

Ziya-Visual: Bilingual Large Vision-Language Model via Multi-Task Instruction Tuning ( http://arxiv.org/abs/2310.08166v2 )

ライセンス: Link先を確認
Junyu Lu, Dixiang Zhang, Xiaojun Wu, Xinyu Gao, Ruyi Gan, Jiaxing Zhang, Yan Song, Pingjian Zhang(参考訳) 近年,画像からテキストへのゼロショット生成やマルチモーダル入力の統合による理解において,大規模言語モデル(LLM)の機能向上が進んでいる。 しかし、このような成功は、大規模で高品質の非英語のマルチモーダルリソースが不足しているため、英語のシナリオに限られており、他の言語との競合を確立することは極めて困難である。 本稿では,マルチモーダル対話のための視覚意味論をLLMに組み込んだバイリンガルな大規模視覚言語モデル(LVLM)であるZiya-Visualシリーズを紹介する。 ziya-visual-baseとziya-visual-chatで構成され、blip-2からのクエリ変換を採用し、命令チューニング、マルチステージトレーニング、視覚言語アライメントのための低ランク適応モジュールといった最適化スキームの支援をさらに探っている。 さらに,マルチモーダルシナリオにおけるGPT-4の理解能力の向上,収集した英語画像テキストデータセットを中国語に翻訳し,インコンテクスト学習手法による命令応答を生成する。 実験の結果、既存のLVLMと比較して、Ziya-Visualはゼロショット画像テキスト検索、画像キャプション、視覚的質問応答など、幅広い英語のみのタスクで競争力を発揮することがわかった。 GPT-4でアクセスされた評価リーダーボードは,中国のマルチモーダルシナリオ対話において,良好な画像テキスト理解と生成能力を有することを示す。 コード、デモ、モデルは ~\url{https://huggingface.co/IDEA-CCNL/Ziya-BLIP2-14B-Visual-v1} で入手できる。

Recent advancements enlarge the capabilities of large language models (LLMs) in zero-shot image-to-text generation and understanding by integrating multi-modal inputs. However, such success is typically limited to English scenarios due to the lack of large-scale and high-quality non-English multi-modal resources, making it extremely difficult to establish competitive counterparts in other languages. In this paper, we introduce the Ziya-Visual series, a set of bilingual large-scale vision-language models (LVLMs) designed to incorporate visual semantics into LLM for multi-modal dialogue. Composed of Ziya-Visual-Base and Ziya-Visual-Chat, our models adopt the Querying Transformer from BLIP-2, further exploring the assistance of optimization schemes such as instruction tuning, multi-stage training and low-rank adaptation module for visual-language alignment. In addition, we stimulate the understanding ability of GPT-4 in multi-modal scenarios, translating our gathered English image-text datasets into Chinese and generating instruction-response through the in-context learning method. The experiment results demonstrate that compared to the existing LVLMs, Ziya-Visual achieves competitive performance across a wide range of English-only tasks including zero-shot image-text retrieval, image captioning, and visual question answering. The evaluation leaderboard accessed by GPT-4 also indicates that our models possess satisfactory image-text understanding and generation capabilities in Chinese multi-modal scenario dialogues. Code, demo and models are available at ~\url{https://huggingface.co/IDEA-CCNL/Ziya-BLIP2-14B-Visual-v1}.
翻訳日:2023-10-31 19:50:03 公開日:2023-10-29
# キーワード強化検索:音声インタフェースを統合した情報検索のための新しいフレームワーク

Keyword Augmented Retrieval: Novel framework for Information Retrieval integrated with speech interface ( http://arxiv.org/abs/2310.04205v2 )

ライセンス: Link先を確認
Anupam Purwar and Rahul Sundar(参考訳) 言語モデルを用いた構造化データと非構造化データの組み合わせによる幻覚なしに、迅速かつ低コストで回答を得ることは大きなハードルです。 これは知識検索自動化における言語モデルの利用を妨げる。 これは、テキストベースの知識検索システムの上に音声インターフェイスを統合しようとすると強調される。 さらに、商用検索やチャットボットアプリケーションでは、GPT 3.5などの商用大規模言語モデル(LLM)への完全依存は非常にコストがかかる。 本研究では,LLMに提供すべき文書からコンテキストの発見を補助するキーワードベースの検索フレームワークを最初に開発することにより,上記の問題に対処した。 キーワードは比較的小さな LLM で生成され、同じ小さな LLM で生成されたキーワードとクエリの上昇に対してキャッシュされる。 これはドキュメント内のコンテキストを見つけるための時間とコストを大幅に削減する。 コンテキストが設定されると、より大きなllmがq\&a用に調整されたプロンプトに基づいて回答を提供する。 本研究は,コンテキスト識別におけるキーワードの使用が,情報検索の全体的な推論時間とコストを減少させることを示す。 このキーワード拡張検索フレームワークによる推論時間とコストの削減により、ユーザの入力と応答の読み出しのための音声ベースのインタフェースが統合された。 これにより言語モデルとのシームレスなインタラクションが可能になった。

Retrieving answers in a quick and low cost manner without hallucinations from a combination of structured and unstructured data using Language models is a major hurdle. This is what prevents employment of Language models in knowledge retrieval automation. This becomes accentuated when one wants to integrate a speech interface on top of a text based knowledge retrieval system. Besides, for commercial search and chat-bot applications, complete reliance on commercial large language models (LLMs) like GPT 3.5 etc. can be very costly. In the present study, the authors have addressed the aforementioned problem by first developing a keyword based search framework which augments discovery of the context from the document to be provided to the LLM. The keywords in turn are generated by a relatively smaller LLM and cached for comparison with keywords generated by the same smaller LLM against the query raised. This significantly reduces time and cost to find the context within documents. Once the context is set, a larger LLM uses that to provide answers based on a prompt tailored for Q\&A. This research work demonstrates that use of keywords in context identification reduces the overall inference time and cost of information retrieval. Given this reduction in inference time and cost with the keyword augmented retrieval framework, a speech based interface for user input and response readout was integrated. This allowed a seamless interaction with the language model.
翻訳日:2023-10-31 19:47:17 公開日:2023-10-29
# ピークベース音声フィンガープリンティングのための音楽拡張と雑音除去

Music Augmentation and Denoising For Peak-Based Audio Fingerprinting ( http://arxiv.org/abs/2310.13388v2 )

ライセンス: Link先を確認
Kamil Akesbi, Dorian Desblancs, Benjamin Martin(参考訳) オーディオフィンガープリントは、短い録音の抜粋から曲を識別するための確立されたソリューションである。 一般的な方法はスパース表現(一般的にスペクトルピーク)の抽出に依存しており、大規模なコレクションに対して正確で高速でスケーラブルであることが証明されている。 しかし、実世界の音声識別の応用はしばしばノイズの多い環境で行われ、これらのシステムが故障する可能性がある。 本研究では,実際のシナリオを統計的に模倣することにより,音楽スニペットにノイズを加える新たなオーディオ拡張パイプラインを導入して,この問題に対処する。 次に,ピークベース指紋認証システムの精度を向上させるため,スペクトルからノイズ成分を除去するディープラーニングモデルを提案する。 提案モデルの付加により, 騒音環境下においても, 一般的な音声フィンガープリンティングシステムの識別性能が向上することを示す。

Audio fingerprinting is a well-established solution for song identification from short recording excerpts. Popular methods rely on the extraction of sparse representations, generally spectral peaks, and have proven to be accurate, fast, and scalable to large collections. However, real-world applications of audio identification often happen in noisy environments, which can cause these systems to fail. In this work, we tackle this problem by introducing and releasing a new audio augmentation pipeline that adds noise to music snippets in a realistic way, by stochastically mimicking real-world scenarios. We then propose and release a deep learning model that removes noisy components from spectrograms in order to improve peak-based fingerprinting systems' accuracy. We show that the addition of our model improves the identification performance of commonly used audio fingerprinting systems, even under noisy conditions.
翻訳日:2023-10-31 19:38:07 公開日:2023-10-29
# ゼロショットエンティティリンクのための読み取り・選択フレームワーク

A Read-and-Select Framework for Zero-shot Entity Linking ( http://arxiv.org/abs/2310.12450v2 )

ライセンス: Link先を確認
Zhenran Xu, Yulin Chen, Baotian Hu, Min Zhang(参考訳) zero-shot entity link (el) は、エンティティ参照を未認識のエンティティに整合させることを目標とし、一般化能力に挑戦する。 従来の手法では, 候補検索段階に着目し, 実体間の曖昧さを解消し, 最終リンク予測を行う必須候補ランキング段階を無視する。 本稿では,エンティティの曖昧さを主成分,すなわち参照・エンティティマッチングとクロスエンティティ比較をモデル化し,res(read-and-select)フレームワークを提案する。 まず、各候補に対して、readingモジュールは mention-awareエンティティ表現を出力するために mentionコンテキストを利用し、 mention-entityマッチングを可能にする。 次に、選択モジュールにおいて、候補の選択をシーケンスラベリング問題としてフレーム化し、全ての候補表現を融合してクロスエンティティ比較を行う。 本手法は,確立されたゼロショット型elデータセットzeshelにおいて,2.55%のマイクロ平均精度向上を実現し,従来の作業の多くで使用される多相事前学習を必要とせず,その効果を示す。

Zero-shot entity linking (EL) aims at aligning entity mentions to unseen entities to challenge the generalization ability. Previous methods largely focus on the candidate retrieval stage and ignore the essential candidate ranking stage, which disambiguates among entities and makes the final linking prediction. In this paper, we propose a read-and-select (ReS) framework by modeling the main components of entity disambiguation, i.e., mention-entity matching and cross-entity comparison. First, for each candidate, the reading module leverages mention context to output mention-aware entity representations, enabling mention-entity matching. Then, in the selecting module, we frame the choice of candidates as a sequence labeling problem, and all candidate representations are fused together to enable cross-entity comparison. Our method achieves the state-of-the-art performance on the established zero-shot EL dataset ZESHEL with a 2.55% micro-average accuracy gain, with no need for laborious multi-phase pre-training used in most of the previous work, showing the effectiveness of both mention-entity and cross-entity interaction.
翻訳日:2023-10-31 19:36:48 公開日:2023-10-29
# MIMOビーム選択問題に対する量子計算:モデルと実験的解

Quantum Computing for MIMO Beam Selection Problem: Model and Optical Experimental Solution ( http://arxiv.org/abs/2310.12389v2 )

ライセンス: Link先を確認
Yuhong Huang, Wenxin Li, Chengkang Pan, Shuai Hou, Xian Lu, Chunfeng Cui, Jingwei Wen, Jiaqi Xu, Chongyu Cao, Yin Ma, Hai Wei, Kai Wen(参考訳) mimo(massive multi-input multiple-output)は、データレートの向上、信号品質の向上、挑戦的な環境でのカバレッジ向上などにより、近年広く普及している。 本稿では,NPハードで計算処理に難渋するMIMOビーム選択(MBS)問題について検討する。 この問題に対処するために、大規模組合せ最適化のためのより高速で効率的な解を提供する量子コンピューティングを考える。 MBSは二次的非有界バイナリ最適化形式で定式化され、コヒーレントイジングマシン(CIM)物理マシンで解決される。 本ソリューションの性能を,シミュレート・アニーリングとタブサーチの2つの古典的なヒューリスティックと比較した。 その結果, ビームの最適部分集合の選択において, CIMをベースとした解は, それぞれ261.23と20.6の係数で平均的な性能向上を示した。 本研究は,実用的5g操作への大きな期待を示し,通信における計算困難問題を解決するための量子コンピューティングの応用を促進する。

Massive multiple-input multiple-output (MIMO) has gained widespread popularity in recent years due to its ability to increase data rates, improve signal quality, and provide better coverage in challenging environments. In this paper, we investigate the MIMO beam selection (MBS) problem, which is proven to be NP-hard and computationally intractable. To deal with this problem, quantum computing that can provide faster and more efficient solutions to large-scale combinatorial optimization is considered. MBS is formulated in a quadratic unbounded binary optimization form and solved with Coherent Ising Machine (CIM) physical machine. We compare the performance of our solution with two classic heuristics, simulated annealing and Tabu search. The results demonstrate an average performance improvement by a factor of 261.23 and 20.6, respectively, which shows that CIM-based solution performs significantly better in terms of selecting the optimal subset of beams. This work shows great promise for practical 5G operation and promotes the application of quantum computing in solving computationally hard problems in communication.
翻訳日:2023-10-31 19:36:26 公開日:2023-10-29
# 大規模テキスト・画像モデルにおける不適切なステレオタイプ検出のための言語エージェント

Language Agents for Detecting Implicit Stereotypes in Text-to-image Models at Scale ( http://arxiv.org/abs/2310.11778v2 )

ライセンス: Link先を確認
Qichao Wang, Tian Bian, Yian Yin, Tingyang Xu, Hong Cheng, Helen M. Meng, Zibin Zheng, Liang Chen, Bingzhe Wu(参考訳) 最近の拡散モデルの研究の急増は、様々な人工知能生成コンテンツ(aigc)製品におけるテキストから画像へのモデルの採用を加速させた。 これらの例外的なaigc製品は、消費者の認知と熱意の高まりを招いているが、これらのモデルが既存の社会ステレオタイプを意図せず強化するかどうか、いつ、そしてどのように疑問を抱いている。 近年の言語エージェントの進歩に触発され,テキストから画像へのステレオタイプ検出に適した新しいエージェントアーキテクチャを導入する。 この多用途エージェントアーキテクチャは、フリーフォーム検出タスクを収容することができ、対応する命令や画像の生成からステレオタイプの検出まで、プロセス全体を容易にするための様々なツールを自律的に呼び出すことができる。 我々は,複数のオープンテキストデータセットに基づくステレオタイプ対応ベンチマークを構築し,このアーキテクチャを商用製品や一般的なオープンソースのテキスト・ツー・イメージモデルに適用する。 これらのモデルは、個人的特徴、社会的文化的文脈、犯罪関連側面に関する特定のプロンプトに関して、深刻なステレオタイプを示すことが多い。 要約すると、これらの経験的発見は、ジェンダー、人種、宗教を含む社会次元にまたがるステレオタイプの存在を浮き彫りにして、提案手法の有効性を検証するだけでなく、AIGCの急成長する領域における潜在的な倫理的リスクに対処する上で重要な必要性を強調している。 aigcは急速に拡大を続け、新しいモデルとプラグインが日々驚くべき数で出現するにつれ、これらのモデル内の潜在的なバイアスをタイムリーに検出し緩和することが課題となっている。

The recent surge in the research of diffusion models has accelerated the adoption of text-to-image models in various Artificial Intelligence Generated Content (AIGC) commercial products. While these exceptional AIGC products are gaining increasing recognition and sparking enthusiasm among consumers, the questions regarding whether, when, and how these models might unintentionally reinforce existing societal stereotypes remain largely unaddressed. Motivated by recent advancements in language agents, here we introduce a novel agent architecture tailored for stereotype detection in text-to-image models. This versatile agent architecture is capable of accommodating free-form detection tasks and can autonomously invoke various tools to facilitate the entire process, from generating corresponding instructions and images, to detecting stereotypes. We build the stereotype-relevant benchmark based on multiple open-text datasets, and apply this architecture to commercial products and popular open source text-to-image models. We find that these models often display serious stereotypes when it comes to certain prompts about personal characteristics, social cultural context and crime-related aspects. In summary, these empirical findings underscore the pervasive existence of stereotypes across social dimensions, including gender, race, and religion, which not only validate the effectiveness of our proposed approach, but also emphasize the critical necessity of addressing potential ethical risks in the burgeoning realm of AIGC. As AIGC continues its rapid expansion trajectory, with new models and plugins emerging daily in staggering numbers, the challenge lies in the timely detection and mitigation of potential biases within these models.
翻訳日:2023-10-31 19:36:09 公開日:2023-10-29
# フラクトン場理論における局所クエンチ--非因果ダイナミクスとフラクタル励起パターン

Local quenches in fracton field theory: non-causal dynamics and fractal excitation patterns ( http://arxiv.org/abs/2310.11197v2 )

ライセンス: Link先を確認
Dmitry S. Ageev, Andrey A. Bagrov, Aleksandr I. Belokon, Askar Iliasov, Vasilii V. Pushkarev, Femke Verheijen(参考訳) フラクトン場理論における局所摂動による平衡外ダイナミクスについて検討する。 2点グリーン関数、$\langle \phi^2\rangle$ condensate、エネルギー密度、双極子運動量といったいくつかの観測可能な理論の時間ダイナミクスを計算する。 時間依存的考察は、自由フラクタル理論が因果関係を破り、たとえ系の速度制限を強制するために追加の相対論的項を含むとしても、瞬時に信号伝達を示すことを強調する。 有限体積の理論については、フラクトン波面が非自明なハウスドルフ次元のフラクタル形状を取得することを示し、この現象は単純な自己干渉効果によって説明できないと主張する。

We study the out-of-equilibrium dynamics induced by a local perturbation in fracton field theory. For the ${\mathbb Z}_4$ and ${\mathbb Z}_8$-symmetric free fractonic theories, we compute the time dynamics of several observables such as the two-point Green function, $\langle \phi^2\rangle$ condensate, energy density, and the dipole momentum. The time-dependent considerations highlight that the free fractonic theory breaks causality and exhibits instantaneous signal propagation, even if an additional relativistic term is included to enforce a speed limit in the system. For the theory in finite volume, we show that the fracton wave front acquires fractal shape with non-trivial Hausdorff dimension, and argue that this phenomenon cannot be explained by a simple self-interference effect.
翻訳日:2023-10-31 19:35:23 公開日:2023-10-29
# 連続ダイナミクスからグラフニューラルネットワークへ:ニューラルネットワークの拡散とその先

From Continuous Dynamics to Graph Neural Networks: Neural Diffusion and Beyond ( http://arxiv.org/abs/2310.10121v2 )

ライセンス: Link先を確認
Andi Han, Dai Shi, Lequan Lin, Junbin Gao(参考訳) グラフニューラルネットワーク(GNN)は、関係データのモデリングにおいて大きな可能性を示しており、様々な分野に広く応用されている。 GNNの背後にある重要なメカニズムは、情報を近隣の中央ノードに反復的に集約するいわゆるメッセージパッシングである。 そのようなスキームは、gnnの伝播が自然に熱密度の進化に対応する熱拡散として知られる物理過程と本質的に結びついていることが知られている。 熱力学へのメッセージパッシングのプロセスの解析は、GNNのパワーと落とし穴を根本的に理解し、より良いモデル設計を通知する。 近年、過密化や過密化といった既知のGNNの制限を軽減するため、連続力学の定式化から着想を得たGNNを提案する研究が数多く出ている。 本調査では,GNNの継続的な視点を活用した研究の体系的および包括的レビューを行う。 この目的のために,グラフニューラルダイナミクスの設計のための汎用フレームワークとともに,連続ダイナミクスをgnnに適用するための基本成分を紹介する。 次に、その駆動メカニズムと基礎となるダイナミクスに基づいて、既存の作業をレビューし分類する。 また、従来のGNNの制限が継続的フレームワークの下でどのように対処できるかを要約する。 我々は複数のオープンな研究方向を特定することで結論付ける。

Graph neural networks (GNNs) have demonstrated significant promise in modelling relational data and have been widely applied in various fields of interest. The key mechanism behind GNNs is the so-called message passing where information is being iteratively aggregated to central nodes from their neighbourhood. Such a scheme has been found to be intrinsically linked to a physical process known as heat diffusion, where the propagation of GNNs naturally corresponds to the evolution of heat density. Analogizing the process of message passing to the heat dynamics allows to fundamentally understand the power and pitfalls of GNNs and consequently informs better model design. Recently, there emerges a plethora of works that proposes GNNs inspired from the continuous dynamics formulation, in an attempt to mitigate the known limitations of GNNs, such as oversmoothing and oversquashing. In this survey, we provide the first systematic and comprehensive review of studies that leverage the continuous perspective of GNNs. To this end, we introduce foundational ingredients for adapting continuous dynamics to GNNs, along with a general framework for the design of graph neural dynamics. We then review and categorize existing works based on their driven mechanisms and underlying dynamics. We also summarize how the limitations of classic GNNs can be addressed under the continuous framework. We conclude by identifying multiple open research directions.
翻訳日:2023-10-31 19:33:52 公開日:2023-10-29
# グラフを用いた分散オンライン学習のための局所的個人的勾配追跡

Locally Differentially Private Gradient Tracking for Distributed Online Learning over Directed Graphs ( http://arxiv.org/abs/2310.16105v2 )

ライセンス: Link先を確認
Ziqin Chen and Yongqiang Wang(参考訳) 分散オンライン学習は、ストリーミングデータよりも大規模な機械学習問題を解決するのに極めて効果的であることが証明されている。 しかし、分散学習における学習者間の情報共有は、個々の学習者のセンシティブなデータの漏洩を懸念させる。 このリスクを軽減するため、分散オンライン学習において、プライバシー保護の「金の標準」として広く見なされている差分プライバシーが、多くの既存の結果に広く採用されている。 しかし、これらの結果はしばしば、学習精度とプライバシーの根本的なトレードオフに直面します。 本稿では,このトレードオフを回避するために,局所的微分勾配追跡に基づく分散オンライン学習アルゴリズムを提案する。 提案手法は厳密な局所微分プライバシを確保しつつ,完全最適解に平均二乗収束し,累積プライバシ予算は無限大になりがちであっても有限であることが保証される。 このアルゴリズムは、学習者間のコミュニケーショングラフが向けられた場合でも適用できる。 私たちの知る限りでは、有向グラフ上の分散オンライン学習において、学習精度と厳密な局所微分プライバシーを同時に確保する最初の結果です。 我々は,Mushroomsデータセットのロジスティック回帰と,MNISTデータセットとCIFAR-10データセットのCNN画像分類を含む,複数のベンチマーク機械学習アプリケーションを用いて,アルゴリズムの性能を評価する。 実験の結果,提案アルゴリズムが既存のアルゴリズムよりも精度が向上していることが確認された。

Distributed online learning has been proven extremely effective in solving large-scale machine learning problems over streaming data. However, information sharing between learners in distributed learning also raises concerns about the potential leakage of individual learners' sensitive data. To mitigate this risk, differential privacy, which is widely regarded as the "gold standard" for privacy protection, has been widely employed in many existing results on distributed online learning. However, these results often face a fundamental tradeoff between learning accuracy and privacy. In this paper, we propose a locally differentially private gradient tracking based distributed online learning algorithm that successfully circumvents this tradeoff. We prove that the proposed algorithm converges in mean square to the exact optimal solution while ensuring rigorous local differential privacy, with the cumulative privacy budget guaranteed to be finite even when the number of iterations tends to infinity. The algorithm is applicable even when the communication graph among learners is directed. To the best of our knowledge, this is the first result that simultaneously ensures learning accuracy and rigorous local differential privacy in distributed online learning over directed graphs. We evaluate our algorithm's performance by using multiple benchmark machine-learning applications, including logistic regression of the "Mushrooms" dataset and CNN-based image classification of the "MNIST" and "CIFAR-10" datasets, respectively. The experimental results confirm that the proposed algorithm outperforms existing counterparts in both training and testing accuracies.
翻訳日:2023-10-31 19:26:20 公開日:2023-10-29
# MindLLM: スクラッチ、評価、ドメイン・アプリケーションからトレーニング済みの軽量大言語モデル

MindLLM: Pre-training Lightweight Large Language Model from Scratch, Evaluations and Domain Applications ( http://arxiv.org/abs/2310.15777v2 )

ライセンス: Link先を確認
Yizhe Yang, Huashan Sun, Jiawei Li, Runheng Liu, Yinghao Li, Yuhang Liu, Heyan Huang, Yang Gao(参考訳) 大規模言語モデル(LLM)は、様々な自然言語タスクにおいて顕著な性能を示し、汎用人工知能への大きな一歩を踏み出した。 汎用人工知能は、ますます大規模なモデルを開発することで活用されているが、LLMのトレーニングとデプロイのコストとリソース不足を考慮して、特定のドメインにより良いサービスを提供する軽量なカスタムモデルを開発するための別の部門が存在する可能性がある。 本稿では,13億,30億のパラメータを持つモデルを提供することで,その負担を軽減するために,スクラッチから訓練したバイリンガル軽量大言語モデルであるMindLLMを提案する。 データ構築、モデルアーキテクチャ、評価、アプリケーションなど、プロセスのすべてのステップをカバーしている。 このような洞察は、同僚の学者や開発者にとって有益である。 MindLLMは、いくつかの公開ベンチマークにおいて、他のオープンソースの大規模モデルのパフォーマンスと一貫して一致または上回っている。 また,小型モデルに適した革新的な命令チューニングフレームワークを導入し,その能力を向上させる。 さらに、法律や金融といった特定の垂直領域におけるMindLLMの適用について検討し、軽量モデルの俊敏性と適応性を強調します。

Large Language Models (LLMs) have demonstrated remarkable performance across various natural language tasks, marking significant strides towards general artificial intelligence. While general artificial intelligence is leveraged by developing increasingly large-scale models, there could be another branch to develop lightweight custom models that better serve certain domains, taking into account the high cost of training and deploying LLMs and the scarcity of resources. In this paper, we present MindLLM, a novel series of bilingual lightweight large language models, trained from scratch, alleviating such burdens by offering models with 1.3 billion and 3 billion parameters. A thorough account of experiences accrued during large model development is given, covering every step of the process, including data construction, model architecture, evaluation, and applications. Such insights are hopefully valuable for fellow academics and developers. MindLLM consistently matches or surpasses the performance of other open-source larger models on some public benchmarks. We also introduce an innovative instruction tuning framework tailored for smaller models to enhance their capabilities efficiently. Moreover, we explore the application of MindLLM in specific vertical domains such as law and finance, underscoring the agility and adaptability of our lightweight models.
翻訳日:2023-10-31 19:25:54 公開日:2023-10-29
# SAM-Med3D

SAM-Med3D ( http://arxiv.org/abs/2310.15161v2 )

ライセンス: Link先を確認
Haoyu Wang, Sizheng Guo, Jin Ye, Zhongying Deng, Junlong Cheng, Tianbin Li, Jianpin Chen, Yanzhou Su, Ziyan Huang, Yiqing Shen, Bin Fu, Shaoting Zhang, Junjun He, Yu Qiao(参考訳) SAM(Segment Anything Model)は2次元の自然な画像分割において顕著な性能を示したが、3次元の医用画像への応用により、最適な性能と不安定な予測という重大な欠点が明らかとなり、過剰な数のプロンプトポイントが要求される。 これらの問題は、SAMの元々の2次元構造が3次元空間情報を無視しているため、医療データ上でSAMを微調整することは困難である。 本稿では、3次元医用画像に対してsamを修正するための最も包括的な研究であるsam-med3dを紹介する。 まず,包括的に処理された大規模大量医療データセット上でトレーニングされた徹底した3dアーキテクチャにsamを包括的に再構成し,次に,その性能の包括的評価を提供することにより,その包括性を特徴とする。 具体的には、SAM-Med3Dを131K以上の3Dマスクと247のカテゴリで訓練する。 我々のSAM-Med3Dは3次元空間情報の取得に優れており、医療領域における最高の微調整SAMよりもはるかに少ないプロンプトポイントで競合性能を示す。 次に、15のデータセットにまたがる能力を評価し、解剖学的構造、モダリティ、ターゲット、一般化能力など、さまざまな視点から分析する。 SAMと比較すると,3次元医用画像の高効率化と広いセグメンテーション能力を示す。 私たちのコードはhttps://github.com/uni-medical/SAM-Med3Dでリリースされています。

Although the Segment Anything Model (SAM) has demonstrated impressive performance in 2D natural image segmentation, its application to 3D volumetric medical images reveals significant shortcomings, namely suboptimal performance and unstable prediction, necessitating an excessive number of prompt points to attain the desired outcomes. These issues can hardly be addressed by fine-tuning SAM on medical data because the original 2D structure of SAM neglects 3D spatial information. In this paper, we introduce SAM-Med3D, the most comprehensive study to modify SAM for 3D medical images. Our approach is characterized by its comprehensiveness in two primary aspects: firstly, by comprehensively reformulating SAM to a thorough 3D architecture trained on a comprehensively processed large-scale volumetric medical dataset; and secondly, by providing a comprehensive evaluation of its performance. Specifically, we train SAM-Med3D with over 131K 3D masks and 247 categories. Our SAM-Med3D excels at capturing 3D spatial information, exhibiting competitive performance with significantly fewer prompt points than the top-performing fine-tuned SAM in the medical domain. We then evaluate its capabilities across 15 datasets and analyze it from multiple perspectives, including anatomical structures, modalities, targets, and generalization abilities. Our approach, compared with SAM, showcases pronouncedly enhanced efficiency and broad segmentation capabilities for 3D volumetric medical images. Our code is released at https://github.com/uni-medical/SAM-Med3D.
翻訳日:2023-10-31 19:25:10 公開日:2023-10-29
# パラメータ効率の良いプロンプトチューニングと適応最適化による大規模言語モデルの連合学習

Federated Learning of Large Language Models with Parameter-Efficient Prompt Tuning and Adaptive Optimization ( http://arxiv.org/abs/2310.15080v2 )

ライセンス: Link先を確認
Tianshi Che, Ji Liu, Yang Zhou, Jiaxiang Ren, Jiwen Zhou, Victor S. Sheng, Huaiyu Dai, Dejing Dou(参考訳) フェデレートラーニング(FL)は、分散データとの協調モデルトレーニングを可能にする、有望なパラダイムである。 しかし、LLM(Large Language Models)のトレーニングプロセスは一般的に重要なパラメータの更新を引き起こし、実際のシナリオでLLMに取り組むためのFL技術の適用性を制限する。 プロンプトチューニングは、更新するパラメータの数を大幅に削減するが、パフォーマンス劣化またはトレーニング効率の低下を引き起こす。 flでのプロンプトチューニングの直接的な利用は、しばしば非自明な通信コストを上昇させ、パフォーマンスを劇的に低下させる。 さらに、分散データは一般的に非独立で、同一の分散(非iid)であり、クライアントのドリフト問題を引き起こし、パフォーマンスが低下する。 本稿では,LLMの効率的かつ効率的なFLを実現するために,適応最適化(FedPepTAO)を用いたパラメータ効率の高いプロンプトチューニング手法を提案する。 まず、性能と効率を同時に向上する効率的な部分的プロンプトチューニング手法を提案する。 第2に、デバイス側とサーバ側のクライアントドリフト問題に対処するための新しい適応最適化手法を開発し、さらなる性能向上を図る。 10のデータセットに基づく広範な実験では、9つのベースラインアプローチと比較して、feedpeptaoのスーパーブパフォーマンス(精度では最大60.8\%)と効率(トレーニング時間では最大97.59\%)が示されている。 私たちのコードはhttps://github.com/llm-eff/fedpeptaoで利用可能です。

Federated learning (FL) is a promising paradigm to enable collaborative model training with decentralized data. However, the training process of Large Language Models (LLMs) generally incurs the update of significant parameters, which limits the applicability of FL techniques to tackle the LLMs in real scenarios. Prompt tuning can significantly reduce the number of parameters to update, but it either incurs performance degradation or low training efficiency. The straightforward utilization of prompt tuning in the FL often raises non-trivial communication costs and dramatically degrades performance. In addition, the decentralized data is generally non-Independent and Identically Distributed (non-IID), which brings client drift problems and thus poor performance. This paper proposes a Parameter-efficient prompt Tuning approach with Adaptive Optimization, i.e., FedPepTAO, to enable efficient and effective FL of LLMs. First, an efficient partial prompt tuning approach is proposed to improve performance and efficiency simultaneously. Second, a novel adaptive optimization method is developed to address the client drift problems on both the device and server sides to enhance performance further. Extensive experiments based on 10 datasets demonstrate the superb performance (up to 60.8\% in terms of accuracy) and efficiency (up to 97.59\% in terms of training time) of FedPepTAO compared with 9 baseline approaches. Our code is available at https://github.com/llm-eff/FedPepTAO.
翻訳日:2023-10-31 19:24:44 公開日:2023-10-29
# SAMCLR:ビューサンプリングにSAMを用いた複雑なシーンでのコントラスト事前トレーニング

SAMCLR: Contrastive pre-training on complex scenes using SAM for view sampling ( http://arxiv.org/abs/2310.14736v2 )

ライセンス: Link先を確認
Benjamin Missaoui, Chongbin Yuan(参考訳) コンピュータビジョンにおいて、自己監督的コントラスト学習は、同じ画像の異なるビュー間で同様の表現を強制する。 事前トレーニングはイメージNetのようなイメージ分類データセット上で実施されることが多い。 しかし、複雑なシーンと複数のアイテムを扱う場合、同じイメージの複数のビューが同じオブジェクトカテゴリを表すことは、非常にありそうにない。 そこで本研究では,イメージをセマンティック領域に分割し,同じ領域から2つのビューをサンプリングするSimCLRのアドオンであるSAMCLRを提案する。 Cityscapes と ADE20K で事前トレーニングを行った後、CIFAR-10, STL10, ImageNette の分類に基づいてSAMCLR が少なくとも同等に動作し、SimCLR だけでなく、DINO や MoCo も性能的に優れていることが実証された。

In Computer Vision, self-supervised contrastive learning enforces similar representations between different views of the same image. The pre-training is most often performed on image classification datasets, like ImageNet, where images mainly contain a single class of objects. However, when dealing with complex scenes with multiple items, it becomes very unlikely for several views of the same image to represent the same object category. In this setting, we propose SAMCLR, an add-on to SimCLR which uses SAM to segment the image into semantic regions, then sample the two views from the same region. Preliminary results show empirically that when pre-training on Cityscapes and ADE20K, then evaluating on classification on CIFAR-10, STL10 and ImageNette, SAMCLR performs at least on par with, and most often significantly outperforms not only SimCLR, but also DINO and MoCo.
翻訳日:2023-10-31 19:23:49 公開日:2023-10-29
# ディトラクタ対応イベントベーストラッキング

Distractor-aware Event-based Tracking ( http://arxiv.org/abs/2310.14194v2 )

ライセンス: Link先を確認
Yingkai Fu, Meng Li, Wenxi Liu, Yuanchen Wang, Jiqing Zhang, Baocai Yin, Xiaopeng Wei, Xin Yang(参考訳) イベントカメラ(ダイナミックビジョンセンサー)は、近年、基本的な視覚タスクからハイレベル視覚研究まで成功している。 光強度の変化を非同期に捉えることができるため、イベントカメラは、低照度、高ダイナミックレンジ、高速移動中のオブジェクトなど、困難なシナリオで動くオブジェクトをキャプチャする固有の利点がある。 したがって、イベントカメラはビジュアルオブジェクト追跡に自然である。 しかし、RGBトラッカーから派生した現在のイベントベースのトラッカーは、単に入力イメージをイベントフレームに変更するだけで、ターゲットの区別のために主にオブジェクトテクスチャに焦点を当てた従来の追跡パイプラインに従っている。 結果として、トラッカーは、移動カメラや散らかった前景などの困難なシナリオに頑丈ではないかもしれない。 本稿では,シャムネットワークアーキテクチャ(danet)にトランスフォーマーモジュールを導入するイベントベースのトラッカを提案する。 具体的には,動き認識ネットワークとターゲット認識ネットワークを主とし,イベントデータから動きの手がかりと物体の輪郭を同時に活用し,動きの物体を発見し,動的に注意をそらして対象物体を識別する。 私たちのDANetは、後処理なしでエンドツーエンドでトレーニングでき、単一のV100上で80FPS以上で実行できます。 提案モデルを検証するため、2つの大きなイベント追跡データセットに関する包括的な実験を行った。 我々のトラッカーは精度と効率の両面において最先端トラッカーに対して優れた性能を示す。

Event cameras, or dynamic vision sensors, have recently achieved success from fundamental vision tasks to high-level vision researches. Due to its ability to asynchronously capture light intensity changes, event camera has an inherent advantage to capture moving objects in challenging scenarios including objects under low light, high dynamic range, or fast moving objects. Thus event camera are natural for visual object tracking. However, the current event-based trackers derived from RGB trackers simply modify the input images to event frames and still follow conventional tracking pipeline that mainly focus on object texture for target distinction. As a result, the trackers may not be robust dealing with challenging scenarios such as moving cameras and cluttered foreground. In this paper, we propose a distractor-aware event-based tracker that introduces transformer modules into Siamese network architecture (named DANet). Specifically, our model is mainly composed of a motion-aware network and a target-aware network, which simultaneously exploits both motion cues and object contours from event data, so as to discover motion objects and identify the target object by removing dynamic distractors. Our DANet can be trained in an end-to-end manner without any post-processing and can run at over 80 FPS on a single V100. We conduct comprehensive experiments on two large event tracking datasets to validate the proposed model. We demonstrate that our tracker has superior performance against the state-of-the-art trackers in terms of both accuracy and efficiency.
翻訳日:2023-10-31 19:22:12 公開日:2023-10-29
# 一つは、効率的なDRLのための単一ネットワーク内の様々な視点

One is More: Diverse Perspectives within a Single Network for Efficient DRL ( http://arxiv.org/abs/2310.14009v2 )

ライセンス: Link先を確認
Yiqin Tan, Ling Pan, Longbo Huang(参考訳) 深層強化学習は、価値関数とポリシーの近似にディープニューラルネットワークを活用することで、様々な領域で顕著なパフォーマンスを実現している。 しかし、ニューラルネットワークを使って値関数やポリシー関数を近似し、サンプル効率の低下や過度な適合といった課題に直面している。 本稿では,単一ネットワーク内で複数のサブネットワークを利用する新しい学習パラダイムであるOMNetを紹介し,多様な出力を効率的に提供する。 我々はomnetで初期化、トレーニング、サンプリングを含む体系的なパイプラインを提供する。 OMNetは、最小限の追加オーバーヘッドで、様々な深層強化学習アルゴリズムに容易に適用できる。 MuJoCoベンチマークで実施した総合評価の結果から,OMNetが性能と計算コストの効果的なバランスをとる能力が示された。

Deep reinforcement learning has achieved remarkable performance in various domains by leveraging deep neural networks for approximating value functions and policies. However, using neural networks to approximate value functions or policy functions still faces challenges, including low sample efficiency and overfitting. In this paper, we introduce OMNet, a novel learning paradigm utilizing multiple subnetworks within a single network, offering diverse outputs efficiently. We provide a systematic pipeline, including initialization, training, and sampling with OMNet. OMNet can be easily applied to various deep reinforcement learning algorithms with minimal additional overhead. Through comprehensive evaluations conducted on MuJoCo benchmark, our findings highlight OMNet's ability to strike an effective balance between performance and computational cost.
翻訳日:2023-10-31 19:21:16 公開日:2023-10-29
# 不均一なモバイルエッジデバイス上でのフェデレーション学習のための生成AIの探索

Filling the Missing: Exploring Generative AI for Enhanced Federated Learning over Heterogeneous Mobile Edge Devices ( http://arxiv.org/abs/2310.13981v2 )

ライセンス: Link先を確認
Peichun Li, Hanwen Zhang, Yuan Wu, Liping Qian, Rong Yu, Dusit Niyato, Xuemin Shen(参考訳) モバイルエッジネットワーク上での分散人工知能(AI)モデルのトレーニングは、エッジデバイスのデータとリソースの不均一性によって大きな課題に直面している。 前者はグローバルモデルの収束率を低下させ、後者は機器の資源利用効率を低下させる。 本稿では,局所データの欠落部分(fimi)を埋めるというアイデアを活用し,これらの課題に対処するために,生成型aiによる連合学習を提案する。 具体的には、FIMIは、効率的なFLトレーニングを確保しつつ、データ不均一性を効果的に軽減する、リソース対応のデータ拡張方法であると考えることができる。 まず,学習データ量と学習性能の関係を定量化する。 次に,FIMI最適化問題を学習性能制約を考慮したデバイス側全体のエネルギー消費を最小化する目的で検討する。 分解に基づく解析とクロスエントロピー探索法を利用して、各デバイスに適切なAI合成データと資源利用ポリシーを割り当てたソリューションを導出する。 実験の結果、FIMIはデバイス側エネルギーの最大50%を節約でき、既存の方法と比較して、対象のグローバルなテスト精度を達成できることがわかった。 一方、FIMIは非独立分布(非IID)データの下で、収束した大域的精度を大幅に向上させることができる。

Distributed Artificial Intelligence (AI) model training over mobile edge networks encounters significant challenges due to the data and resource heterogeneity of edge devices. The former hampers the convergence rate of the global model, while the latter diminishes the devices' resource utilization efficiency. In this paper, we propose a generative AI-empowered federated learning to address these challenges by leveraging the idea of FIlling the MIssing (FIMI) portion of local data. Specifically, FIMI can be considered as a resource-aware data augmentation method that effectively mitigates the data heterogeneity while ensuring efficient FL training. We first quantify the relationship between the training data amount and the learning performance. We then study the FIMI optimization problem with the objective of minimizing the device-side overall energy consumption subject to required learning performance constraints. The decomposition-based analysis and the cross-entropy searching method are leveraged to derive the solution, where each device is assigned suitable AI-synthesized data and resource utilization policy. Experiment results demonstrate that FIMI can save up to 50% of the device-side energy to achieve the target global test accuracy in comparison with the existing methods. Meanwhile, FIMI can significantly enhance the converged global accuracy under the non-independently-and-identically distribution (non-IID) data.
翻訳日:2023-10-31 19:21:04 公開日:2023-10-29
# 信頼と検証:ディープラーニングを用いたロバストなイメージセグメンテーション

Trust, but Verify: Robust Image Segmentation using Deep Learning ( http://arxiv.org/abs/2310.16999v2 )

ライセンス: Link先を確認
Fahim Ahmed Zaman, Xiaodong Wu, Weiyu Xu, Milan Sonka and Raghuraman Mudumbai(参考訳) 本稿では,複数の階層のランダムおよび最悪の摂動,すなわち逆攻撃に対して頑健な医用画像セグメンテーションのための深層ニューラルネットワークの出力を検証する手法について述べる。 この手法は,筆者らが最近開発した"trust, but verify"と呼ばれる一般的なアプローチに基づいており,補助検証ネットワークは,セグメント化を入力として,入力画像内のマスク特徴の予測を行う。 適切に設計された補助ネットワークは、入力セグメンテーションが正確であれば高品質の予測を生成するが、セグメンテーションが正しくない場合は低品質の予測を生成する。 このようなネットワークの予測を元のイメージで確認することで,不良セグメントの検出が可能になる。 しかし,検証手法が真に堅牢であるためには,ブラックボックスニューラルネットワークに依存しない予測の品質をチェックする方法が必要である。 実際、ディープ・ニューラル・レグレッション・ネットワークを用いた従来のセグメンテーション評価手法は、偽陰性に対して脆弱であり、不正確なセグメンテーションを良いものとして不正確なラベル付けできることが示されている。 このような脆弱性を回避し,その堅牢性を示す検証ネットワークの設計について述べる。

We describe a method for verifying the output of a deep neural network for medical image segmentation that is robust to several classes of random as well as worst-case perturbations i.e. adversarial attacks. This method is based on a general approach recently developed by the authors called "Trust, but Verify" wherein an auxiliary verification network produces predictions about certain masked features in the input image using the segmentation as an input. A well-designed auxiliary network will produce high-quality predictions when the input segmentations are accurate, but will produce low-quality predictions when the segmentations are incorrect. Checking the predictions of such a network with the original image allows us to detect bad segmentations. However, to ensure the verification method is truly robust, we need a method for checking the quality of the predictions that does not itself rely on a black-box neural network. Indeed, we show that previous methods for segmentation evaluation that do use deep neural regression networks are vulnerable to false negatives i.e. can inaccurately label bad segmentations as good. We describe the design of a verification network that avoids such vulnerability and present results to demonstrate its robustness compared to previous methods.
翻訳日:2023-10-31 19:11:09 公開日:2023-10-29
# GPT-4V(ision)のOCR機能探索 : 定量化と深部評価

Exploring OCR Capabilities of GPT-4V(ision) : A Quantitative and In-depth Evaluation ( http://arxiv.org/abs/2310.16809v2 )

ライセンス: Link先を確認
Yongxin Shi, Dezhi Peng, Wenhui Liao, Zening Lin, Xinhong Chen, Chongyu Liu, Yuyi Zhang, Lianwen Jin(参考訳) 本稿では、最近リリースされた大規模マルチモーダルモデル(LMM)であるGPT-4V(ision)の光学文字認識(OCR)能力を総合的に評価する。 本研究では,テキスト認識,手書き文字認識,手書き数式認識,テーブル構造認識,視覚リッチ文書からの情報抽出など,ocrタスクにおけるモデルの性能評価を行った。 評価の結果,GPT-4Vはラテン内容の認識と理解に優れていたが,多言語シナリオや複雑なタスクに苦慮していることがわかった。 具体的には、非ラテン語言語や手書き数式認識、表構造認識、文書画像からのエンドツーエンド意味エンティティ認識とペア抽出といった複雑なタスクを扱う場合の制限を示した。 これらの観測に基づいて、特殊OCRモデルの必要性と研究の継続を確認した。 一般に、多様なOCRタスクを扱う汎用性にもかかわらず、GPT-4Vは既存の最先端のOCRモデルより優れているわけではない。 GPT-4Vのような事前学習された汎用LMMをOCR下流タスクに活用する方法は未解決の問題である。 この研究は、LMMを用いたOCRの今後の研究に重要な参考となる。 評価パイプラインと結果はhttps://github.com/SCUT-DLVCLab/GPT-4V_OCRで公開されている。

This paper presents a comprehensive evaluation of the Optical Character Recognition (OCR) capabilities of the recently released GPT-4V(ision), a Large Multimodal Model (LMM). We assess the model's performance across a range of OCR tasks, including scene text recognition, handwritten text recognition, handwritten mathematical expression recognition, table structure recognition, and information extraction from visually-rich document. The evaluation reveals that GPT-4V performs well in recognizing and understanding Latin contents, but struggles with multilingual scenarios and complex tasks. Specifically, it showed limitations when dealing with non-Latin languages and complex tasks such as handwriting mathematical expression recognition, table structure recognition, and end-to-end semantic entity recognition and pair extraction from document image. Based on these observations, we affirm the necessity and continued research value of specialized OCR models. In general, despite its versatility in handling diverse OCR tasks, GPT-4V does not outperform existing state-of-the-art OCR models. How to fully utilize pre-trained general-purpose LMMs such as GPT-4V for OCR downstream tasks remains an open problem. The study offers a critical reference for future research in OCR with LMMs. Evaluation pipeline and results are available at https://github.com/SCUT-DLVCLab/GPT-4V_OCR.
翻訳日:2023-10-31 19:09:52 公開日:2023-10-29
# 5G IoTを越えたピアツーピアディープラーニング

Peer-to-Peer Deep Learning for Beyond-5G IoT ( http://arxiv.org/abs/2310.18861v1 )

ライセンス: Link先を確認
Srinivasa Pranav and Jos\'e M. F. Moura(参考訳) P2PLは,フェデレーション学習パラダイムとは異なり,エッジサーバやクラウドからの調整を必要としない,実用的なマルチデバイスピアツーピア深層学習アルゴリズムである。 これにより、P2PLは、範囲、レイテンシ、帯域幅、フェデレートされたアプローチの単一障害点を生成するスマートシティのような、5Gを超えるコンピューティング環境に適しています。 P2PLはトレーニングを触媒する最大ノルム同期を導入し、プライバシを保護するためにデバイス上でのディープモデルトレーニングを維持し、ローカルデバイス間通信を活用して分散コンセンサスを実装する。 各デバイスは2つのフェーズを反復的に交代する。 1)オンデバイス学習と 2) モデルパラメータを周辺機器と組み合わせた分散協調。 すべての参加デバイスが、フェデレートされた集中的なトレーニングによって達成された同じテストパフォーマンスを達成することを実証的に示しています。 これらの実験結果を、ネットワークトポロジー、スパースおよび断続的な通信、非iidデータ分布を含む設定に拡張する。

We present P2PL, a practical multi-device peer-to-peer deep learning algorithm that, unlike the federated learning paradigm, does not require coordination from edge servers or the cloud. This makes P2PL well-suited for the sheer scale of beyond-5G computing environments like smart cities that otherwise create range, latency, bandwidth, and single point of failure issues for federated approaches. P2PL introduces max norm synchronization to catalyze training, retains on-device deep model training to preserve privacy, and leverages local inter-device communication to implement distributed consensus. Each device iteratively alternates between two phases: 1) on-device learning and 2) distributed cooperation where they combine model parameters with nearby devices. We empirically show that all participating devices achieve the same test performance attained by federated and centralized training -- even with 100 devices and relaxed singly stochastic consensus weights. We extend these experimental results to settings with diverse network topologies, sparse and intermittent communication, and non-IID data distributions.
翻訳日:2023-10-31 16:08:35 公開日:2023-10-29
# bayes beatsクロス検証:期待最大化による効率的かつ正確なリッジ回帰

Bayes beats Cross Validation: Efficient and Accurate Ridge Regression via Expectation Maximization ( http://arxiv.org/abs/2310.18860v1 )

ライセンス: Link先を確認
Shu Yu Tew, Mario Boley, Daniel F. Schmidt(参考訳) 本稿では,リッジ回帰の正則化ハイパーパラメータである$\lambda$のチューニング法を提案する。locvよりも計算が早いが,locvのリスクを最小化することで得られた値よりも,回帰パラメータが均等で,特にスパース共変量の設定において優れた品質を推定できる。 LOOCVのリスクは、有限$n$で複数の悪いローカルミニマに悩まされる可能性があるため、良いソリューションを提供できない候補$\lambda$のセットの仕様が必要である。 これとは対照的に,提案手法は比較的穏やかな条件下で,過度パラメータの特定が困難になることなく,十分大きな$n$に対して一意に最適解を求めることが保証されている。 これはベイジアンによるリッジ回帰の定式化に基づいており、これは十分大きい$n$に対して一様後方を持つことを証明し、最適$\lambda$と回帰係数の両方を反復期待最大化(EM)手順で共同で学習することができる。 重要なことは、適切な前処理ステップを利用することで、$n$行と$p$列を持つ入力データに対して、メインEMループの単一イテレーションを$O(\min(n, p))$演算で実装できることである。 対照的に、高速loocvを使った$\lambda$の1つの値の評価は、同じ前処理を使用する場合、$o(n \min(n, p))$演算がかかる。 この利点は、$l$が$\lambda$の候補値に対して$l$という漸近的な改善である(レジーム$qでは、p \in o(\sqrt{n})$ ここで$q$は回帰ターゲットの数である)。

We present a novel method for tuning the regularization hyper-parameter, $\lambda$, of a ridge regression that is faster to compute than leave-one-out cross-validation (LOOCV) while yielding estimates of the regression parameters of equal, or particularly in the setting of sparse covariates, superior quality to those obtained by minimising the LOOCV risk. The LOOCV risk can suffer from multiple and bad local minima for finite $n$ and thus requires the specification of a set of candidate $\lambda$, which can fail to provide good solutions. In contrast, we show that the proposed method is guaranteed to find a unique optimal solution for large enough $n$, under relatively mild conditions, without requiring the specification of any difficult to determine hyper-parameters. This is based on a Bayesian formulation of ridge regression that we prove to have a unimodal posterior for large enough $n$, allowing for both the optimal $\lambda$ and the regression coefficients to be jointly learned within an iterative expectation maximization (EM) procedure. Importantly, we show that by utilizing an appropriate preprocessing step, a single iteration of the main EM loop can be implemented in $O(\min(n, p))$ operations, for input data with $n$ rows and $p$ columns. In contrast, evaluating a single value of $\lambda$ using fast LOOCV costs $O(n \min(n, p))$ operations when using the same preprocessing. This advantage amounts to an asymptotic improvement of a factor of $l$ for $l$ candidate values for $\lambda$ (in the regime $q, p \in O(\sqrt{n})$ where $q$ is the number of regression targets).
翻訳日:2023-10-31 16:08:19 公開日:2023-10-29
# SiDA: スペシャリティにインスパイアされたデータ・アウェア・サービング

SiDA: Sparsity-Inspired Data-Aware Serving for Efficient and Scalable Large Mixture-of-Experts Models ( http://arxiv.org/abs/2310.18859v1 )

ライセンス: Link先を確認
Zhixu Du, Shiyu Li, Yuhao Wu, Xiangyu Jiang, Jingwei Sun, Qilin Zheng, Yongkai Wu, Ang Li, Hai "Helen" Li, Yiran Chen(参考訳) Mixture-of-Experts (MoE) は、その固有の利点、すなわち、顕著な計算オーバーヘッドを伴わずにモデル容量を増大させることにより、大規模モデルの時代に好まれるアーキテクチャとして登場した。 しかし、そのような利点の実現は、推論中にモデルパラメータの大部分が休眠状態のままであるため、GPUメモリの非効率利用につながることが多い。 さらに、大きなモデルのメモリ要求は、現代のGPUのメモリ能力より一貫して優れている。 そこで我々は,大規模なMoEモデルに適した効率的な推論手法であるSiDA(Sparsity-inspired Data-Aware)を導入する。 SiDAは、MoEモデルのエキスパートアクティベーションに固有の間隔を生かして、現在豊富でスケーラブルなシステムのメインメモリとGPUメモリの両方を巧みに利用している。 データ認識の観点を採用することで、SiDAは、無視可能なパフォーマンス低下を伴うモデル効率の向上を達成する。 特にsidaは、最大3.93倍のスループット向上、75%のレイテンシ削減、最大80%のgpuメモリ節約、最大1%のパフォーマンス低下という、moe推論の驚くべきスピードアップを達成している。 この作業は、メモリ制約のあるシステムでも、大規模moeモデルのスケーラブルで効率的なデプロイメントへの道を開きます。

Mixture-of-Experts (MoE) has emerged as a favorable architecture in the era of large models due to its inherent advantage, i.e., enlarging model capacity without incurring notable computational overhead. Yet, the realization of such benefits often results in ineffective GPU memory utilization, as large portions of the model parameters remain dormant during inference. Moreover, the memory demands of large models consistently outpace the memory capacity of contemporary GPUs. Addressing this, we introduce SiDA (Sparsity-inspired Data-Aware), an efficient inference approach tailored for large MoE models. SiDA judiciously exploits both the system's main memory, which is now abundant and readily scalable, and GPU memory by capitalizing on the inherent sparsity on expert activation in MoE models. By adopting a data-aware perspective, SiDA achieves enhanced model efficiency with a neglectable performance drop. Specifically, SiDA attains a remarkable speedup in MoE inference with up to 3.93X throughput increasing, up to 75% latency reduction, and up to 80% GPU memory saving with down to 1% performance drop. This work paves the way for scalable and efficient deployment of large MoE models, even in memory-constrained systems.
翻訳日:2023-10-31 16:07:42 公開日:2023-10-29
# 時空における局所マデルング力学に向けて

Toward Local Madelung Mechanics in Spacetime ( http://arxiv.org/abs/2310.18857v1 )

ライセンス: Link先を確認
Mordecai Waegell(参考訳) 相対論的量子論は、構成空間における普遍的な波動関数を完全に時空における局所流体方程式の集合に置き換える量子力学の局所的な解釈をもたらすことが最近示されている。 完全相対論的量子流体処理を求めるために、非相対論的マデルング方程式を用いたモデルを開発し、時空に局所的な条件を求める。 マドルング流体中の全ての粒子は等しくリアルであり、定位置、運動量、運動エネルギー、ポテンシャルエネルギーを持つ。 これらは流体の量子運動量と運動エネルギー密度を定義し、運動量の平均および対称部分と運動エネルギーを古典的な運動量と量子ポテンシャル部分に分離することによって得られる。 この2種類の運動量は、定常状態であっても期待される運動エネルギーを含む単一の古典的運動エネルギー密度を自然に生じさせ、還元された量子ポテンシャルを量子力学エネルギー密度の残りの部分として定義する。 我々は、量子ポテンシャルを流体粒子の内部エネルギー貯蔵の新たなモードとして扱い、マドルング流体の非古典的挙動のほとんどを説明する。 例えば、トンネル現象において量子ポテンシャルは障壁を無効にし、流体が流れるのを何も防げないことを示す。 このモデルにおけるエネルギーの流れと変換の仕方を示し、局所的なエネルギー保存を可能にするには、それとともに流れるのではなく、流体を流れる量子ポテンシャルエネルギー電流を定義する必要があることを示した。 非相対論的処理は一般に局所力学の目標を損なう速度場の特異点を含むが、適切な相対論的処理は流体粒子の速度を$c$に制限することを期待する。

It has recently been shown that relativistic quantum theory leads to a local interpretation of quantum mechanics wherein the universal wavefunction in configuration space is entirely replaced with an ensemble of local fluid equations in spacetime. For want of a fully relativistic quantum fluid treatment, we develop a model using the nonrelativistic Madelung equations, and obtain conditions for them to be local in spacetime. Every particle in the Madelung fluid is equally real, and has a definite position, momentum, kinetic energy, and potential energy. These are obtained by defining quantum momentum and kinetic energy densities for the fluid and separating the momentum into average and symmetric parts, and kinetic energy into classical kinetic and quantum potential parts. The two types of momentum naturally give rise to a single classical kinetic energy density, which contains the expected kinetic energy, even for stationary states, and we define the reduced quantum potential as the remaining part of the quantum kinetic energy density. We treat the quantum potential as a novel mode of internal energy storage within the fluid particles, which explains most of the nonclassical behavior of the Madelung fluid. For example, we show that in tunneling phenomena the quantum potential negates the barrier so that nothing prevents the fluid from flowing through. We show how energy flows and transforms in this model, and that enabling local conservation of energy requires defining a quantum potential energy current that flows through the fluid rather than only flowing with it. The nonrelativistic treatment generally contains singularities in the velocity field, which undermines the goal of local dynamics, but we expect a proper relativistic treatment will bound the fluid particle velocities at $c$.
翻訳日:2023-10-31 16:07:19 公開日:2023-10-29
# 分散状態における超伝導quditの確率的モデリング

Stochastic modeling of superconducting qudits in the dispersive regime ( http://arxiv.org/abs/2310.18856v1 )

ライセンス: Link先を確認
Kangdi Yu, Murat C. Sarihan, Jin Ho Kang, Madeline Taylor, Cody S. Fan, Ananyo Banerjee, Jonathan L. DuBois, Yaniv J. Rosen, Chee Wei Wong(参考訳) ジョセフソン接合に基づく超伝導量子コンピューティングの分野は、最近、論理量子ビットの数のスケーリングにおいて顕著な進歩を見せている。 特に、1ビットと2ビットのゲートの忠実度は、新しい誤差緩和法と補正法によって破局点に達している。 これらの進歩と並行して、ヒルベルト空間を単一の接合やデバイス内で拡張するために高次元量子ビット(qudits)を用いる。 トランスモンで高次遷移を駆動したり、革新的なマルチモード超伝導回路を設計する可能性を実証した。 これらの進歩は、大規模量子プロセッサにおける相互接続を簡素化しながら、計算基盤を大幅に拡張することができる。 本研究では, 従来の超伝導量子ビットの測定理論をquditに拡張し, 開量子系における分散二次測定のモデル化に着目する。 マルコフの仮定の下では、qudit lindblad方程式と確率マスター方程式を定式化し、解析し、さらにデコヒーレンス解析のアンサンブル平均法と量子ジャンプ法の両方を解析的および数値的に比較した。 本研究では,この確率モデルをトランスモン型キュートリットの一連の実験結果で検証し,高次元形式の有効性を検証する。

The field of superconducting quantum computing, based on Josephson junctions, has recently seen remarkable strides in scaling the number of logical qubits. In particular, the fidelities of one- and two-qubit gates have reached the breakeven point with the novel error mitigation and correction methods. Parallel to these advances is the effort to expand the Hilbert space within a single junction or device by employing high-dimensional qubits, otherwise known as qudits. Research has demonstrated the possibility of driving higher-order transitions in a transmon or designing innovative multimode superconducting circuits, termed multimons. These advances can significantly expand the computational basis while simplifying the interconnects in a large-scale quantum processor. In this work we extend the measurement theory of a conventional superconducting qubit to that of a qudit, focusing on modeling the dispersive quadrature measurement in an open quantum system. Under the Markov assumption, the qudit Lindblad and stochastic master equations are formulated and analyzed; in addition, both the ensemble-averaged and the quantum-jump approach of decoherence analysis are detailed with analytical and numerical comparisons. We verify our stochastic model with a series of experimental results on a transmon-type qutrit, verifying the validity of our high-dimensional formalism.
翻訳日:2023-10-31 16:06:51 公開日:2023-10-29
# d2no: 分散ディープニューラル演算子を用いた異種入力関数空間の効率的な処理

D2NO: Efficient Handling of Heterogeneous Input Function Spaces with Distributed Deep Neural Operators ( http://arxiv.org/abs/2310.18888v1 )

ライセンス: Link先を確認
Zecheng Zhang, Christian Moya, Lu Lu, Guang Lin, Hayden Schaeffer(参考訳) 神経演算子はパラメトリック偏微分方程式の解法、制御を伴う力学系、逆問題など様々な科学分野に応用されている。 しかし、異質な特性を持つ入力関数を扱う場合には、複数のセンサが最小限の正規性で関数を処理する必要がある。 この問題に対処するために、離散化不変のニューラル演算子を使用し、異なるセンサー位置を持つ多様な入力関数のサンプリングを可能にした。 しかし、既存のフレームワークは全ての機能に同じ数のセンサーを必要とする。 本研究では,離散化要件をさらに緩和し,異種データセットの課題を解決するための新しい分散手法を提案する。 入力関数空間を分割し、独立したニューラルネットワークを用いて個別の入力関数を処理する。 集中型ニューラルネットワークは、すべての出力関数間の共有情報を処理するために使用される。 この分散手法は、勾配降下バックプロパゲーションステップの数を削減し、精度を維持しながら効率を向上する。 ニューラルネットワークは連続非線形演算子の普遍近似であり,その性能を検証するための数値例を4つ提示する。

Neural operators have been applied in various scientific fields, such as solving parametric partial differential equations, dynamical systems with control, and inverse problems. However, challenges arise when dealing with input functions that exhibit heterogeneous properties, requiring multiple sensors to handle functions with minimal regularity. To address this issue, discretization-invariant neural operators have been used, allowing the sampling of diverse input functions with different sensor locations. However, existing frameworks still require an equal number of sensors for all functions. In our study, we propose a novel distributed approach to further relax the discretization requirements and solve the heterogeneous dataset challenges. Our method involves partitioning the input function space and processing individual input functions using independent and separate neural networks. A centralized neural network is used to handle shared information across all output functions. This distributed methodology reduces the number of gradient descent back-propagation steps, improving efficiency while maintaining accuracy. We demonstrate that the corresponding neural network is a universal approximator of continuous nonlinear operators and present four numerical examples to validate its performance.
翻訳日:2023-10-31 15:56:50 公開日:2023-10-29
# ダイナモ深さ:動的シーンの教師なし深さ推定

Dynamo-Depth: Fixing Unsupervised Depth Estimation for Dynamical Scenes ( http://arxiv.org/abs/2310.18887v1 )

ライセンス: Link先を確認
Yihong Sun, Bharath Hariharan(参考訳) 教師なしの単眼深度推定手法は奨励的な結果を示したが、通常はシーンが静的であると仮定する。 これらの技法は、物体の独立運動を仮定したり、物体の奥行きを変えたりすることで、見かけの物体の動きが等しく説明できるダイナミックなシーンで訓練されたときに苦しむ。 この曖昧さにより、深度推定器は移動物体の誤った深さを予測する。 この問題を解決するために,単眼深度,3次元独立流れ場,無ラベル単眼映像からの運動分割を共同で学習することにより,動的運動を曖昧化させる統一的手法であるdynamo-depthを紹介する。 具体的には, 基礎的な曖昧さにもかかわらず, 協調学習の深さと独立動作には, 運動分節の良質な初期推定が十分であることを示す。 提案手法は, Waymo Open と nuScenes Dataset の単眼深度推定における最先端性能を実現し, 移動物体の深度を著しく改善する。 コードと追加結果はhttps://dynamo-depth.github.ioで入手できる。

Unsupervised monocular depth estimation techniques have demonstrated encouraging results but typically assume that the scene is static. These techniques suffer when trained on dynamical scenes, where apparent object motion can equally be explained by hypothesizing the object's independent motion, or by altering its depth. This ambiguity causes depth estimators to predict erroneous depth for moving objects. To resolve this issue, we introduce Dynamo-Depth, an unifying approach that disambiguates dynamical motion by jointly learning monocular depth, 3D independent flow field, and motion segmentation from unlabeled monocular videos. Specifically, we offer our key insight that a good initial estimation of motion segmentation is sufficient for jointly learning depth and independent motion despite the fundamental underlying ambiguity. Our proposed method achieves state-of-the-art performance on monocular depth estimation on Waymo Open and nuScenes Dataset with significant improvement in the depth of moving objects. Code and additional results are available at https://dynamo-depth.github.io.
翻訳日:2023-10-31 15:56:33 公開日:2023-10-29
# 忘れずに連続的に学習する基礎的神経オペレータ

A foundational neural operator that continuously learns without forgetting ( http://arxiv.org/abs/2310.18885v1 )

ライセンス: Link先を確認
Tapas Tripura and Souvik Chakraborty(参考訳) 機械学習は大幅に成長し、コンピュータビジョン、自然言語処理、科学計算など、さまざまな領域にまたがる幅広い現実世界の課題に対処するために開発された高度な人工知能モデルの開発につながった。 それでも、新しいタスクごとにカスタムモデルを作成することはリソース集約的な作業であり、かなりの計算時間とメモリリソースを必要とする。 本研究では,科学計算の基礎モデルとしてNeural Combinatorial Wavelet Neural Operator (NCWNO) の概念を紹介する。 このモデルは、様々な物理学のスペクトルから学習し、パラメトリック偏微分方程式(pdes)に関連する解作用素に継続的に適応するように設計されている。 NCWNOは、ローカルウェーブレットの専門家を利用したゲート構造を利用して、ローカルウェーブレットの専門家の間でメモリベースのアンサンブルアプローチによって補完される複数の物理システム間で共有機能を取得する。 この組み合わせにより、新しい課題への迅速な適応が可能になる。 提案する基礎モデルには2つの利点がある。 i) 複数のパラメトリックPDEに対する解演算子を同時に学習し、 (II)最小微調整で新しいパラメトリックPDEに素早く一般化できる。 提案されたncwnoは、その特徴から区別される最初の基礎演算子学習アルゴリズムである (i)破滅的な忘れ方に対する堅牢性。 (ii)新しいパラメトリックpdesに対する正の伝達の維持、及び (iii)異なるタスク間での知識伝達の促進。 NCWNOが予測段階で最小限のハイパーパラメータチューニングでタスク固有のベースライン演算子学習フレームワークより優れていることを示す。 また、最小限の微調整で、NCWNOは新しいパラメトリックPDEの正確な組合せ学習を行うことを示す。

Machine learning has witnessed substantial growth, leading to the development of advanced artificial intelligence models crafted to address a wide range of real-world challenges spanning various domains, such as computer vision, natural language processing, and scientific computing. Nevertheless, the creation of custom models for each new task remains a resource-intensive undertaking, demanding considerable computational time and memory resources. In this study, we introduce the concept of the Neural Combinatorial Wavelet Neural Operator (NCWNO) as a foundational model for scientific computing. This model is specifically designed to excel in learning from a diverse spectrum of physics and continuously adapt to the solution operators associated with parametric partial differential equations (PDEs). The NCWNO leverages a gated structure that employs local wavelet experts to acquire shared features across multiple physical systems, complemented by a memory-based ensembling approach among these local wavelet experts. This combination enables rapid adaptation to new challenges. The proposed foundational model offers two key advantages: (i) it can simultaneously learn solution operators for multiple parametric PDEs, and (ii) it can swiftly generalize to new parametric PDEs with minimal fine-tuning. The proposed NCWNO is the first foundational operator learning algorithm distinguished by its (i) robustness against catastrophic forgetting, (ii) the maintenance of positive transfer for new parametric PDEs, and (iii) the facilitation of knowledge transfer across dissimilar tasks. Through an extensive set of benchmark examples, we demonstrate that the NCWNO can outperform task-specific baseline operator learning frameworks with minimal hyperparameter tuning at the prediction stage. We also show that with minimal fine-tuning, the NCWNO performs accurate combinatorial learning of new parametric PDEs.
翻訳日:2023-10-31 15:56:11 公開日:2023-10-29
# 拡張を伴わない単純・非対称なグラフコントラスト学習

Simple and Asymmetric Graph Contrastive Learning without Augmentations ( http://arxiv.org/abs/2310.18884v1 )

ライセンス: Link先を確認
Teng Xiao, Huaisheng Zhu, Zhengyu Chen, Suhang Wang(参考訳) グラフコントラスト学習(GCL)はグラフ構造化データの表現学習において優れた性能を示した。 その成功にもかかわらず、既存のほとんどのGCL法は前ファブリックグラフ増補法とホモフィリー仮定に依存している。 したがって、連結ノードが異なるクラスラベルと異種特徴を持つヘテロ親和グラフにうまく一般化することができない。 本稿では,ホモフィルグラフとヘテロフィルグラフの対比学習問題について考察する。 隣接するノードの非対称なビューを考慮すれば,有望な性能を実現することができる。 グラフに対する非対称コントラスト学習(graphacl)という単純なアルゴリズムは実装が容易であり、グラフ拡張やホモフィリな仮定に依存しない。 我々は,graphaclが1-hopの局所的近傍情報と2-hopの単相類似性を捉えることができるという理論的および実証的な証拠を提供する。 実験結果から, 単純グラフACLは, ホモ親和性グラフとヘテロ親和性グラフの対比学習法や自己教師学習法よりも優れていた。 GraphACLのコードはhttps://github.com/tengxiao1/GraphACLで公開されている。

Graph Contrastive Learning (GCL) has shown superior performance in representation learning in graph-structured data. Despite their success, most existing GCL methods rely on prefabricated graph augmentation and homophily assumptions. Thus, they fail to generalize well to heterophilic graphs where connected nodes may have different class labels and dissimilar features. In this paper, we study the problem of conducting contrastive learning on homophilic and heterophilic graphs. We find that we can achieve promising performance simply by considering an asymmetric view of the neighboring nodes. The resulting simple algorithm, Asymmetric Contrastive Learning for Graphs (GraphACL), is easy to implement and does not rely on graph augmentations and homophily assumptions. We provide theoretical and empirical evidence that GraphACL can capture one-hop local neighborhood information and two-hop monophily similarity, which are both important for modeling heterophilic graphs. Experimental results show that the simple GraphACL significantly outperforms state-of-the-art graph contrastive learning and self-supervised learning methods on homophilic and heterophilic graphs. The code of GraphACL is available at https://github.com/tengxiao1/GraphACL.
翻訳日:2023-10-31 15:55:47 公開日:2023-10-29
# ニューラルネットワークのための一般化構造行列の微分学習

Differentiable Learning of Generalized Structured Matrices for Efficient Deep Neural Networks ( http://arxiv.org/abs/2310.18882v1 )

ライセンス: Link先を確認
Changwoo Lee, Hun-Seok Kim(参考訳) 本稿では,非構造重み行列を望ましい特性を持つ構造行列に置き換える効率的な深層ニューラルネットワーク(dnn)について検討する。 この課題は、一般的なニューラルネットワークモデルにおける最適な重み行列構造がほとんどの場合不明瞭であり、同じネットワークであっても層ごとに異なるためである。 効率的なDNNを提案する以前の構造化行列は、体系的に学習するための一般化されたフレームワークなしで手作りされていた。 この問題に対処するために、勾配降下による重量行列の効率的な構造を学習するための一般化および微分可能なフレームワークを提案する。 まず,構造パラメータの調整により,多種多様な構造化行列を対象とする構造化行列の新たなクラスを文献で定義する。 次に、gaussian-dirichletカーネルに基づく周波数領域微分可能パラメータ化スキームを採用し、近位勾配降下により構造パラメータを学習する。 最後に,提案手法の効果的な初期化手法を提案する。 提案手法は, 構成行列を用いた効率的なDNNを学習し, 低ランク, ブロックスパース, ブロックローランク行列を用いた従来の手法よりも, より低複雑性および/または高い性能を実現する。

This paper investigates efficient deep neural networks (DNNs) to replace dense unstructured weight matrices with structured ones that possess desired properties. The challenge arises because the optimal weight matrix structure in popular neural network models is obscure in most cases and may vary from layer to layer even in the same network. Prior structured matrices proposed for efficient DNNs were mostly hand-crafted without a generalized framework to systematically learn them. To address this issue, we propose a generalized and differentiable framework to learn efficient structures of weight matrices by gradient descent. We first define a new class of structured matrices that covers a wide range of structured matrices in the literature by adjusting the structural parameters. Then, the frequency-domain differentiable parameterization scheme based on the Gaussian-Dirichlet kernel is adopted to learn the structural parameters by proximal gradient descent. Finally, we introduce an effective initialization method for the proposed scheme. Our method learns efficient DNNs with structured matrices, achieving lower complexity and/or higher performance than prior approaches that employ low-rank, block-sparse, or block-low-rank matrices.
翻訳日:2023-10-31 15:55:27 公開日:2023-10-29
# 量子コンピュータにおける状態準備誤差と測定誤差の効率的な分離定量化とその緩和

Efficient separate quantification of state preparation errors and measurement errors on quantum computers and their mitigation ( http://arxiv.org/abs/2310.18881v1 )

ライセンス: Link先を確認
Hongye Yu, Tzu-Chieh Wei(参考訳) 現在のノイズ量子コンピュータは、状態準備、測定/読み出し、ゲート操作、本質的なデコヒーレンスと緩和で発生する複数のタイプのエラーを持つ。 中間スケールの量子プロセッサのブームの影響もあって、最近は測定とゲートエラーが広く研究され、ソフトウェアパッケージ(例えばIBM Qiskit)でそれらを緩和するいくつかの方法が提案され、定式化されている。 それにもかかわらず、状態準備誤差と定量化手順は、通常状態準備と測定誤差は直接分離できないと考えられるため、まだ標準化されていない。 近年のLaflamme, Lin, Mor の論文 (Phys. Rev. A 106, 012439 (2022)] に触発されて, 状態準備と読み出しエラー率を別々に定量化するための単純かつ資源効率の良いアプローチを提案する。 これらの2つの誤りを別々に定量化することにより、特に線形(量子ビット数)の複雑さを伴う状態準備誤差を緩和する手法も提案する。 その結果, 従来の測定誤差低減方式に比べて, 結果の忠実度は桁違いに向上できることがわかった。 また、量子化・緩和方式はゲートノイズに対して耐性があり、現在のノイズ量子コンピュータにも即座に適用可能であることを示す。 これを示すために、IBMの超伝導量子コンピュータにおけるクラウド実験の結果を示す。 その結果, 状態生成誤差率は, 効率的に得られる立方メートル法の重要な指標であることがわかった。

Current noisy quantum computers have multiple types of errors, which can occur in the state preparation, measurement/readout, and gate operation, as well as intrinsic decoherence and relaxation. Partly motivated by the booming of intermediate-scale quantum processors, measurement and gate errors have been recently extensively studied, and several methods of mitigating them have been proposed and formulated in software packages (e.g., in IBM Qiskit). Despite this, the state preparation error and the procedure to quantify it have not yet been standardized, as state preparation and measurement errors are usually considered not directly separable. Inspired by a recent work of Laflamme, Lin, and Mor [Phys. Rev. A 106, 012439 (2022)], we propose a simple and resource-efficient approach to quantify separately the state preparation and readout error rates. With these two errors separately quantified, we also propose methods to mitigate them separately, especially mitigating state preparation errors with linear (with the number of qubits) complexity. As a result of the separate mitigation, we show that the fidelity of the outcome can be improved by an order of magnitude compared to the standard measurement error mitigation scheme. We also show that the quantification and mitigation scheme is resilient against gate noise and can be immediately applied to current noisy quantum computers. To demonstrate this, we present results from cloud experiments on IBM's superconducting quantum computers. The results indicate that the state preparation error rate is also an important metric for qubit metrology that can be efficiently obtained.
翻訳日:2023-10-31 15:55:07 公開日:2023-10-29
# 自然は真空を嫌う:孤立したマクロ量子系における熱分解の簡単な厳密な例

Nature abhors a vacuum: A simple rigorous example of thermalization in an isolated macroscopic quantum system ( http://arxiv.org/abs/2310.18880v1 )

ライセンス: Link先を確認
Naoto Shiraishi and Hal Tasaki(参考訳) 我々は、証明されていない仮定に頼らずに、低密度のフリーフェルミオン鎖が次の(制限された)意味での熱化を示すことを示している。 我々は、すべての粒子が鎖の半分にあるヒルベルト空間からランダムに引き出された純粋状態として初期状態を選択する。 これは、全ての粒子を含む半鎖が無限温度で平衡であり、残りの半鎖が真空であるような非平衡状態を表す。 我々は、ハミルトニアンによって決定されるユニタリ時間発展に従って系を進化させ、十分大きな時間にチェーン内の任意のマクロ領域における粒子数を測定する。 この設定では、測定された数は1に非常に近い確率で平衡値に近いことが証明される。 この結果は, 数学的に厳密な方法で, コンクリートモデルにおける熱化の存在を立証する。 熱化の証明の最も重要な理論的要素は、上述のような非平衡初期状態が十分に大きな有効次元を持つことを示すことである。 ここでは,エネルギー固有値の縮退性の欠如とエネルギー固有状態の粒子分布に関する性質という2つの仮定に基づいて,熱分解の一般的な証明を行う。 次に、数論的な結果を用いて退化の欠如が確立される具体的自由フェルミオンモデルにおいて、これらの仮定を正当化する。 これは、上記の2つの仮定が正当化される任意の格子気体モデルにも一般結果が適用されることを意味する。 この理論の適用可能性を確認するために、粒子分布に関する本質的な仮定が容易に検証できる他のモデルと、有効次元が十分に大きい非ランダム初期状態について論じる。

We show, without relying on any unproven assumptions, that a low-density free fermion chain exhibits thermalization in the following (restricted) sense. We choose the initial state as a pure state drawn randomly from the Hilbert space in which all particles are in half of the chain. This represents a nonequilibrium state such that the half chain containing all particles is in equilibrium at infinite temperature, and the other half chain is a vacuum. We let the system evolve according to the unitary time evolution determined by the Hamiltonian and, at a sufficiently large typical time, measure the particle number in an arbitrary macroscopic region in the chain. In this setup, it is proved that the measured number is close to the equilibrium value with probability very close to one. Our result establishes the presence of thermalization in a concrete model in a mathematically rigorous manner. The most important theoretical ingredient for the proof of thermalization is the demonstration that a nonequilibrium initial state generated as above typically has a sufficiently large effective dimension. Here, we first give general proof of thermalization based on two assumptions, namely, the absence of degeneracy in energy eigenvalues and a property about the particle distribution in energy eigenstates. We then justify these assumptions in a concrete free-fermion model, where the absence of degeneracy is established by using number-theoretic results. This means that our general result also applies to any lattice gas models in which the above two assumptions are justified. To confirm the potential wide applicability of our theory, we discuss some other models for which the essential assumption about the particle distribution is easily verified, and some non-random initial states whose effective dimensions are sufficiently large.
翻訳日:2023-10-31 15:54:40 公開日:2023-10-29
# せん断ひずみによる変調sigeヘテロ構造中の結合伝導バンド谷

Coupling conduction-band valleys in modulated SiGe heterostructures via shear strain ( http://arxiv.org/abs/2310.18879v1 )

ライセンス: Link先を確認
Benjamin D. Woods, Hudaiba Soomro, E. S. Joseph, Collin C. D. Frink, Robert Joynt, M. A. Eriksson, Mark Friesen(参考訳) エンジニアリング伝導バンド谷結合は、Siベースのスピン量子ビットにとって重要な課題である。 近年の研究では、谷のカップリングを強化する最も信頼性の高い方法は、量子井戸にGe濃度の振動を加えることである。 しかし、超短振動周期は成長が困難であるが、長振動周期は有用ではない。 そこで, 短波長振動の主な利点は, せん断ひずみによって引き起こされるブリルアンゾーン折り畳みを含む2次カップリング過程を通じて, 長波長構造において達成できることを示す。 さらに、同じ長波長周期でもスピン軌道結合が促進されることがわかった。 最終的に、このような歪みは共通の製造技術によって達成できることを示し、スケーラブルな量子コンピューティングにとって非常に有望なシステムとなった。

Engineering conduction-band valley couplings is a key challenge for Si-based spin qubits. Recent work has shown that the most reliable method for enhancing valley couplings entails adding Ge concentration oscillations to the quantum well. However, ultrashort oscillation periods are difficult to grow, while long oscillation periods do not provide useful improvements. Here, we show that the main benefits of short-wavelength oscillations can be achieved in long-wavelength structures through a second-order coupling process involving Brillouin-zone folding, induced by shear strain. Moreover, we find that the same long-wavelength period also boosts spin-orbit coupling. We finally show that such strain can be achieved through common fabrication techniques, making this an exceptionally promising system for scalable quantum computing.
翻訳日:2023-10-31 15:54:12 公開日:2023-10-29
# 音声の感情認識に影響を及ぼす人間に似たバイアスを含む事前学習された音声処理モデル

Pre-trained Speech Processing Models Contain Human-Like Biases that Propagate to Speech Emotion Recognition ( http://arxiv.org/abs/2310.18877v1 )

ライセンス: Link先を確認
Isaac Slaughter, Craig Greenberg, Reva Schwartz, Aylin Caliskan(参考訳) 過去の研究は、人の人口統計と発話スタイルが、音声処理モデルの性能にどのように影響するかを定めている。 しかし、このバイアスはどこから来るのか? 本稿では,多くの音声タスクで使用される一種類のモデルにおけるバイアス検出手法であるspeat( speech embedded association test)について述べる。 speatは自然言語処理における単語埋め込み関連テストに触発され、人種やヴァレンス(何かの快適さや不快さ)といった異なる概念のモデル表現における内在的なバイアスを定量化し、大規模な社会文化的データに基づいて訓練されたモデルが人間のようなバイアスを学習した程度を捉えている。 SpEATを用いて、wav2vec 2.0、HuBERT、WavLM、Whisperモデルファミリーから得られた16の英語音声モデル(多言語データで訓練された4つのモデルを含む)の6種類のバイアスをテストする。 14以上のモデルから障害のある人に対するポジティブなヴァレンス(満足感)と、アフリカ系アメリカ人に対するヨーロッパ系アメリカ人、男性に対する女性、非アメリカアクセント話者に対する米国アクセント付き話者、高齢者に対する若者との関連が明らかになっている。 これらのバイアスを含む事前学習された音声モデルを確立するだけでなく、実世界への影響も示す。 プレトレーニングモデルで得られたバイアスと、音声感情認識(SER)タスクに適応した下流モデルのバイアスを比較し、96の試験(69%)において、SpEATで示される正の原子価とより関連がある群は、下流モデルにより高い原子価で話すように予測される傾向にあることを示した。 私たちの研究は、テキストや画像ベースのモデルと同様に、事前学習された音声ベースのモデルが人間のようなバイアスを頻繁に学習する証拠を提供します。 私たちの研究は、事前訓練されたモデルに見られるバイアスがserの下流タスクに伝播することを示している。

Previous work has established that a person's demographics and speech style affect how well speech processing models perform for them. But where does this bias come from? In this work, we present the Speech Embedding Association Test (SpEAT), a method for detecting bias in one type of model used for many speech tasks: pre-trained models. The SpEAT is inspired by word embedding association tests in natural language processing, which quantify intrinsic bias in a model's representations of different concepts, such as race or valence (something's pleasantness or unpleasantness) and capture the extent to which a model trained on large-scale socio-cultural data has learned human-like biases. Using the SpEAT, we test for six types of bias in 16 English speech models (including 4 models also trained on multilingual data), which come from the wav2vec 2.0, HuBERT, WavLM, and Whisper model families. We find that 14 or more models reveal positive valence (pleasantness) associations with abled people over disabled people, with European-Americans over African-Americans, with females over males, with U.S. accented speakers over non-U.S. accented speakers, and with younger people over older people. Beyond establishing that pre-trained speech models contain these biases, we also show that they can have real world effects. We compare biases found in pre-trained models to biases in downstream models adapted to the task of Speech Emotion Recognition (SER) and find that in 66 of the 96 tests performed (69%), the group that is more associated with positive valence as indicated by the SpEAT also tends to be predicted as speaking with higher valence by the downstream model. Our work provides evidence that, like text and image-based models, pre-trained speech based-models frequently learn human-like biases. Our work also shows that bias found in pre-trained models can propagate to the downstream task of SER.
翻訳日:2023-10-31 15:53:59 公開日:2023-10-29
# HDMNet: 大規模屋外LiDARポイントクラウド登録のための二重注意付き階層型マッチングネットワーク

HDMNet: A Hierarchical Matching Network with Double Attention for Large-scale Outdoor LiDAR Point Cloud Registration ( http://arxiv.org/abs/2310.18874v1 )

ライセンス: Link先を確認
Weiyi Xue, Fan Lu, Guang Chen(参考訳) 屋外のLiDAR点雲は通常大規模で複雑に分散している。 地域間の類似性を強調し、グローバルな地域間マッチングを優先することが最重要であり、その後、コスト効率の良い微妙な登録により精度を高めることができる。 本稿では,大規模アウトドアライダーポイントクラウド登録のために,hdmnetという2重注意の階層型ニューラルネットワークを提案する。 具体的には,新しい特徴整合性強化ダブルソフトマッチングネットワークを導入し,パッチ・ツー・パッチ方式でレセプティブフィールドを高い効率で拡大しつつ,高い柔軟性で2段階マッチングを実現し,登録性能を大幅に向上させる。 さらに,より深い層からのスパースマッチング情報をさらに活用するために,より深い層のポーズ推定から得られた対応の信頼度スコアを組み込んだ,新たな学習可能な埋め込みマスクを開発した。 深層におけるスパルサーポイント雲の高信頼キーポイントは、より浅い層内の高信頼空間近傍領域に対応しており、より注目される一方、非キー領域の特徴はマスクされる。 提案するhdmnetの精度と効率を実証するために,2つの大規模屋外ライダーポイントクラウドデータセットを用いた大規模実験を行った。

Outdoor LiDAR point clouds are typically large-scale and complexly distributed. To achieve efficient and accurate registration, emphasizing the similarity among local regions and prioritizing global local-to-local matching is of utmost importance, subsequent to which accuracy can be enhanced through cost-effective fine registration. In this paper, a novel hierarchical neural network with double attention named HDMNet is proposed for large-scale outdoor LiDAR point cloud registration. Specifically, A novel feature consistency enhanced double-soft matching network is introduced to achieve two-stage matching with high flexibility while enlarging the receptive field with high efficiency in a patch-to patch manner, which significantly improves the registration performance. Moreover, in order to further utilize the sparse matching information from deeper layer, we develop a novel trainable embedding mask to incorporate the confidence scores of correspondences obtained from pose estimation of deeper layer, eliminating additional computations. The high-confidence keypoints in the sparser point cloud of the deeper layer correspond to a high-confidence spatial neighborhood region in shallower layer, which will receive more attention, while the features of non-key regions will be masked. Extensive experiments are conducted on two large-scale outdoor LiDAR point cloud datasets to demonstrate the high accuracy and efficiency of the proposed HDMNet.
翻訳日:2023-10-31 15:53:20 公開日:2023-10-29
# ランダム投影を用いた相関認識平均推定

Correlation Aware Sparsified Mean Estimation Using Random Projection ( http://arxiv.org/abs/2310.18868v1 )

ライセンス: Link先を確認
Shuli Jiang, Pranay Sharma, Gauri Joshi(参考訳) 本稿では,分散最適化とFederated Learning(FL)においてよく使われるサブルーチンである,通信効率のよい分散ベクトル平均推定の問題について検討する。 rand-$k$ sparsification は、各クライアントがサーバに$k < d$ の座標を送信する通信コストを削減するために一般的に使用されるテクニックである。 しかし、rand-$k$は、実際のシナリオにおいてクライアント間で存在するであろういかなる相関にも無関係である。 最近提案された rand-$k$-spatial estimator はサーバのクライアント間の相関情報を利用して rand-$k$ のパフォーマンスを改善する。 しかし、rand-$k$-spatialのパフォーマンスは最適ではない。 我々はRand-Proj-Spatial estimatorを提案し、Rand-$k$の符号化をランダムな$k$次元部分空間に投影することで一般化する。 サブサンプリングランダム化アダマール変換(SRHT)を投影行列とし,Rand-Proj-SpatialがRand-$k$-Spatialより効率よくRand-$k$-Spatialより優れていることを示す。 さらに,サーバに相関情報が得られない場合に,様々な相関度を組み込む手法を提案し,Rand-Proj-Spatialの実用的な変種を提案する。 実世界の分散最適化タスクの実験では、rand-proj-spatial と rand-$k$-spatial および他のより洗練されたスパーシフィケーション技術と比較して優れた性能を示す。

We study the problem of communication-efficient distributed vector mean estimation, a commonly used subroutine in distributed optimization and Federated Learning (FL). Rand-$k$ sparsification is a commonly used technique to reduce communication cost, where each client sends $k < d$ of its coordinates to the server. However, Rand-$k$ is agnostic to any correlations, that might exist between clients in practical scenarios. The recently proposed Rand-$k$-Spatial estimator leverages the cross-client correlation information at the server to improve Rand-$k$'s performance. Yet, the performance of Rand-$k$-Spatial is suboptimal. We propose the Rand-Proj-Spatial estimator with a more flexible encoding-decoding procedure, which generalizes the encoding of Rand-$k$ by projecting the client vectors to a random $k$-dimensional subspace. We utilize Subsampled Randomized Hadamard Transform (SRHT) as the projection matrix and show that Rand-Proj-Spatial with SRHT outperforms Rand-$k$-Spatial, using the correlation information more efficiently. Furthermore, we propose an approach to incorporate varying degrees of correlation and suggest a practical variant of Rand-Proj-Spatial when the correlation information is not available to the server. Experiments on real-world distributed optimization tasks showcase the superior performance of Rand-Proj-Spatial compared to Rand-$k$-Spatial and other more sophisticated sparsification techniques.
翻訳日:2023-10-31 15:52:57 公開日:2023-10-29
# プロンプトエンジニアリングとトランスフォーマーによる質問生成と評価

Prompt-Engineering and Transformer-based Question Generation and Evaluation ( http://arxiv.org/abs/2310.18867v1 )

ライセンス: Link先を確認
Rubaba Amyeen(参考訳) 質問生成は教育的文脈に多くの応用がある。 質問生成は、学生がコンテンツをレビューしたり、自身をテストする際に役に立つ。 さらに、質問生成モデルは、評価やその他の実践資料の作成の負担を軽減し、教師を支援することができる。 本稿では,トランスフォーマーモデルとプロンプトエンジニアリングを用いて,テキストデータから質問を生成する最善の方法を見つけることを目的とする。 本研究では,SQuAD質問応答データセット上で事前学習した distilBERT モデルを微調整し,質問を生成する。 変圧器モデルのトレーニングに加えて,LLaMAモデルを用いて質問を効果的に生成するために,即時工学を適用した。 生成した質問は、SQuADデータセットのベースライン質問と比較し、4つの異なるプロンプトの有効性を評価した。 4つのプロンプトは平均60%以上の類似性を示した。 質問のうち、30%は70%以上の類似度スコアを達成した。

Question generation has numerous applications in the educational context. Question generation can prove helpful for students when reviewing content and testing themselves. Furthermore, a question generation model can aid teachers by lessening the burden of creating assessments and other practice material. This paper aims to find the best method to generate questions from textual data through a transformer model and prompt engineering. In this research, we finetuned a pretrained distilBERT model on the SQuAD question answering dataset to generate questions. In addition to training a transformer model, prompt engineering was applied to generate questions effectively using the LLaMA model. The generated questions were compared against the baseline questions in the SQuAD dataset to evaluate the effectiveness of four different prompts. All four prompts demonstrated over 60% similarity on average. Of the prompt-generated questions, 30% achieved a high similarity score greater than 70%.
翻訳日:2023-10-31 15:52:13 公開日:2023-10-29
# MUST:低音源音声認識のための多言語学習アプローチ

MUST: A Multilingual Student-Teacher Learning approach for low-resource speech recognition ( http://arxiv.org/abs/2310.18865v1 )

ライセンス: Link先を確認
Muhammad Umar Farooq, Rehan Ahmad, Thomas Hain(参考訳) 学生教師学習または知識蒸留(kd)は、音声認識(asr)システムの訓練のためのデータ不足問題に対処するためにこれまで用いられてきた。 しかしながら、KDトレーニングの制限は、学生モデルクラスが教師モデルクラスの適切なまたは不適切なサブセットでなければならないことである。 文字集合が同じでない場合、蒸留は音響的に類似した言語でさえも防ぐ。 本研究は,後部マッピングアプローチを活用したMUST(MUST)学習を提案することによって,上記の制限に対処する。 事前学習されたマッピングモデルを用いて、教師言語から生徒言語ASRへの後部マッピングを行う。 これらのマッピング後部は、KD学習のためのソフトラベルとして使用される。 様々な教師アンサンブルスキームを用いて低リソース言語のためのASRモデルを訓練する。 MUST学習で訓練されたモデルは、ベースライン単言語ASRと比較して、相対的文字誤り率(CER)を最大9.5%削減する。

Student-teacher learning or knowledge distillation (KD) has been previously used to address data scarcity issue for training of speech recognition (ASR) systems. However, a limitation of KD training is that the student model classes must be a proper or improper subset of the teacher model classes. It prevents distillation from even acoustically similar languages if the character sets are not same. In this work, the aforementioned limitation is addressed by proposing a MUltilingual Student-Teacher (MUST) learning which exploits a posteriors mapping approach. A pre-trained mapping model is used to map posteriors from a teacher language to the student language ASR. These mapped posteriors are used as soft labels for KD learning. Various teacher ensemble schemes are experimented to train an ASR model for low-resource languages. A model trained with MUST learning reduces relative character error rate (CER) up to 9.5% in comparison with a baseline monolingual ASR.
翻訳日:2023-10-31 15:51:53 公開日:2023-10-29
# 米国のテレビニュースにおける共有現実の減少状況

The diminishing state of shared reality on US television news ( http://arxiv.org/abs/2310.18863v1 )

ライセンス: Link先を確認
Homa Hosseinmardi, Samuel Wolken, David M. Rothschild, Duncan J. Watts(参考訳) 大規模で多様な人々が平和に共存する可能性は、参加者が同様の話題について同様の事実に晒される「共有現実:'」の存在に依存すると考えられている。 テレビ放送のニュースは、1990年代のケーブルニュースの台頭以来、批評家や学者は、パルチザンの線に沿った観客の断片化と分離が、この共有現実の喪失を懸念している。 そこで本研究では,3大ケーブルネットワークと放送ネットワーク上でのテレビニュースコンテンツの制作(2012年以降)と消費(2016年以降)を,それぞれ追尾するデータセットのユニークな組み合わせを用いて検討する。 制作に関して、放送は類似の話題を類似の言語でカバーし続けているが、ケーブルニュースネットワークは、放送ニュースと相互に分離し、コンテンツと言語の両方で多様化している。 消費に関しては、放送ニュースが実際に人気を落としているが、それでもケーブルよりもアメリカ人の約50%がニュースの主流となっている。 我々は、米国のテレビニュースで共有された現実は確かに減少しているが、以前考えられていたよりも頑丈であり、やや異なる理由で減少していると結論づけている。

The potential for a large, diverse population to coexist peacefully is thought to depend on the existence of a ``shared reality:'' a public sphere in which participants are exposed to similar facts about similar topics. A generation ago, broadcast television news was widely considered to serve this function; however, since the rise of cable news in the 1990s, critics and scholars have worried that the corresponding fragmentation and segregation of audiences along partisan lines has caused this shared reality to be lost. Here we examine this concern using a unique combination of data sets tracking the production (since 2012) and consumption (since 2016) of television news content on the three largest cable and broadcast networks respectively. With regard to production, we find strong evidence for the ``loss of shared reality hypothesis:'' while broadcast continues to cover similar topics with similar language, cable news networks have become increasingly distinct, both from broadcast news and each other, diverging both in terms of content and language. With regard to consumption, we find more mixed evidence: while broadcast news has indeed declined in popularity, it remains the dominant source of news for roughly 50\% more Americans than does cable; moreover, its decline, while somewhat attributable to cable, appears driven more by a shift away from news consumption altogether than a growth in cable consumption. We conclude that shared reality on US television news is indeed diminishing, but is more robust than previously thought and is declining for somewhat different reasons.
翻訳日:2023-10-31 15:51:28 公開日:2023-10-29
# 多言語モデルにおける言語同一性検証

Counterfactually Probing Language Identity in Multilingual Models ( http://arxiv.org/abs/2310.18862v1 )

ライセンス: Link先を確認
Anirudh Srinivasan, Venkata S Govindarajan, Kyle Mahowald(参考訳) 言語モデルの因果解析技術は、言語情報がLLMでどのように組織化されているかを示す。 我々は,多言語モデル(mbertおよびxlm-r)の内部構造を探索するために,反事実探索法であるalterrepを用いた。 二項言語識別タスクで線形分類器を訓練し、言語 x と言語 y の間でトークンを分類する。偽のプローブ手順を適用することで、分類器重みを使って、埋め込みをヌル空間に投影し、その結果の埋め込みを言語 x または言語 y の方向にプッシュする。その後、マスク付き言語モデリングタスクで評価する。 言語 X のテンプレートを考えると、言語 Y が言語 Y の単語の確率を第三者の制御言語より上から上へと体系的に増加させることが分かる。 言語x(テンプレートと同じ方向)へのプッシュは、最小限の効果しか与えませんが、これらのモデルを多少劣化させています。 全体として、これらの結果は、言語固有のコンポーネントと言語一般コンポーネントの両方を含む、大規模多言語言語モデルのリッチな構造に関するさらなる証拠とみなす。 また, 反事実探索が多言語モデルに適用可能であることを示す。

Techniques in causal analysis of language models illuminate how linguistic information is organized in LLMs. We use one such technique, AlterRep, a method of counterfactual probing, to explore the internal structure of multilingual models (mBERT and XLM-R). We train a linear classifier on a binary language identity task, to classify tokens between Language X and Language Y. Applying a counterfactual probing procedure, we use the classifier weights to project the embeddings into the null space and push the resulting embeddings either in the direction of Language X or Language Y. Then we evaluate on a masked language modeling task. We find that, given a template in Language X, pushing towards Language Y systematically increases the probability of Language Y words, above and beyond a third-party control language. But it does not specifically push the model towards translation-equivalent words in Language Y. Pushing towards Language X (the same direction as the template) has a minimal effect, but somewhat degrades these models. Overall, we take these results as further evidence of the rich structure of massive multilingual language models, which include both a language-specific and language-general component. And we show that counterfactual probing can be fruitfully applied to multilingual models.
翻訳日:2023-10-31 15:50:29 公開日:2023-10-29
# 時空間マルチモーダルアテンションネットワークを用いたリチウムイオン電池の寿命予測

Remaining Useful Life Prediction of Lithium-ion Batteries using Spatio-temporal Multimodal Attention Networks ( http://arxiv.org/abs/2310.18924v1 )

ライセンス: Link先を確認
Sungho Suh, Dhruv Aditya Mittal, Hymalai Bello, Bo Zhou, Mayank Shekhar Jha, Paul Lukowicz(参考訳) リチウムイオン電池は電気自動車や再生可能エネルギー貯蔵など様々な用途で広く使われている。 電池の持続寿命(rul)の予測は、信頼性と効率の確保とメンテナンスコストの低減に不可欠である。 しかし, 現実シナリオにおける電池のライフサイクル決定は困難であり, 既存手法ではサイクル数を反復的に予測する限界がある。 加えて、既存の研究はしばしばデータセットを単純化し、温度、内部抵抗、材料タイプといったバッテリーの重要な特徴を無視している。 そこで本稿では, 時空間的マルチモーダルアテンションネットワーク(st-man)を用いたリチウムイオン電池の2段階の寿命予測手法を提案する。 提案モデルは、利用可能なデータに基づいて、電池が有用寿命の終了に要するサイクル数を反復的に予測するように設計されている。 提案したST-MANは、既存の作業でしばしば無視される機能を含む、バッテリデータの複雑な時空間依存性をキャプチャする。 実験結果から,提案したST-MANモデルは既存のCNN法やLSTM法よりも優れており,Liイオン電池の寿命を予測できることがわかった。 提案手法は, 自動車や再生可能エネルギーを含む各種産業に適用可能な, 電池運転の信頼性と効率を向上させる可能性を有する。

Lithium-ion batteries are widely used in various applications, including electric vehicles and renewable energy storage. The prediction of the remaining useful life (RUL) of batteries is crucial for ensuring reliable and efficient operation, as well as reducing maintenance costs. However, determining the life cycle of batteries in real-world scenarios is challenging, and existing methods have limitations in predicting the number of cycles iteratively. In addition, existing works often oversimplify the datasets, neglecting important features of the batteries such as temperature, internal resistance, and material type. To address these limitations, this paper proposes a two-stage remaining useful life prediction scheme for Lithium-ion batteries using a spatio-temporal multimodal attention network (ST-MAN). The proposed model is designed to iteratively predict the number of cycles required for the battery to reach the end of its useful life, based on available data. The proposed ST-MAN is to capture the complex spatio-temporal dependencies in the battery data, including the features that are often neglected in existing works. Experimental results demonstrate that the proposed ST-MAN model outperforms existing CNN and LSTM-based methods, achieving state-of-the-art performance in predicting the remaining useful life of Li-ion batteries. The proposed method has the potential to improve the reliability and efficiency of battery operations and is applicable in various industries, including automotive and renewable energy.
翻訳日:2023-10-31 15:43:14 公開日:2023-10-29
# バイオメディカルディスタント・スーパービジョン関係抽出のための文袋グラフの定式化

Sentence Bag Graph Formulation for Biomedical Distant Supervision Relation Extraction ( http://arxiv.org/abs/2310.18912v1 )

ライセンス: Link先を確認
Hao Zhang, Yang Liu, Xiaoyan Liu, Tianming Liang, Gaurav Sharma, Liang Xue, and Maozu Guo(参考訳) 本稿では,遠隔教師付き関係抽出における重要な課題を緩和する新しいグラフベースフレームワークを提案し,生体医学的データの挑戦的かつ重要な領域におけるその効果を実証する。 具体的には、メッセージパッシングに基づく文袋上のエンティティペアに関する情報の集約を可能にする、エンティティペアを参照する文袋のグラフビューを提案する。 提案手法は,遠隔教師付き関係抽出におけるノイズラベリングの一般的な問題を緩和し,バッグ内に文間の依存性を効果的に組み込む。 2つの大規模生物医学関係データセットと広く利用されているnytデータセットに関する広範囲な実験により,提案手法が,生物医学的遠隔監督関係抽出の最先端手法を著しく上回り,一般テキストマイニング領域における関係抽出に優れた性能を提供することが示された。

We introduce a novel graph-based framework for alleviating key challenges in distantly-supervised relation extraction and demonstrate its effectiveness in the challenging and important domain of biomedical data. Specifically, we propose a graph view of sentence bags referring to an entity pair, which enables message-passing based aggregation of information related to the entity pair over the sentence bag. The proposed framework alleviates the common problem of noisy labeling in distantly supervised relation extraction and also effectively incorporates inter-dependencies between sentences within a bag. Extensive experiments on two large-scale biomedical relation datasets and the widely utilized NYT dataset demonstrate that our proposed framework significantly outperforms the state-of-the-art methods for biomedical distant supervision relation extraction while also providing excellent performance for relation extraction in the general text mining domain.
翻訳日:2023-10-31 15:42:50 公開日:2023-10-29
# インドtwitterにおけるジャーナリストと政治家の交流におけるジェンダーバイアスの解明

Uncovering Gender Bias within Journalist-Politician Interaction in Indian Twitter ( http://arxiv.org/abs/2310.18911v1 )

ライセンス: Link先を確認
Brisha Jain, Mainack Mondal(参考訳) 政治談話におけるジェンダーバイアスは、今日のソーシャルメディアで大きな問題となっている。 以前の研究では、政治家のジェンダーが、一般大衆が目指す内容に実際に影響を与えていることが判明した。 しかし、これらの作品は特に、個人の文化を表すグローバルな北部に焦点を当てている。 さらに、世界的なジャーナリストと政治家の相互作用にも男女差があるかどうかについても言及しなかった。 これらの過小評価されたジャーナリストと政治家の相互作用は(よりグローバルな南のような集団主義的な文化において)重要であり、大衆の感情に大きく影響を与え、ジェンダーに偏った社会的規範の設定を助ける。 この研究では、インドのTwitterの大規模データを用いて、この研究ギャップに対処する。 われわれはTwitter上で100人のインド系ジャーナリストと100人のインド系政治家の性別バランスを調整した。 そして、これらの政治家に言及したジャーナリストが投稿したツイート21,188件を集めた。 ジャーナリストが男性政治家に言及する頻度と、女性政治家に言及する頻度は統計的に大きく異なる(p<0.05$)。 事実、女性ジャーナリストが女性政治家に言及する平均的なツイートは、女性ジャーナリストが男性政治家に言及する平均的なツイートより10倍少ない。 しかし、つぶやきの内容を分析すると、我々の感情スコア分析とトピックモデリング分析は、ジャーナリストのつぶやきにおける政治家に対する有意な性差を示さなかった。 最後に、重要な性別バイアスの原因が見つかった: 人気のある男性インドの政治家の数は、人気のある女性インドの政治家の数のほぼ2倍であり、それが観察されたバイアスになった可能性がある。 我々はこの仕事の意義を議論することで締めくくる。

Gender bias in political discourse is a significant problem on today's social media. Previous studies found that the gender of politicians indeed influences the content directed towards them by the general public. However, these works are particularly focused on the global north, which represents individualistic culture. Furthermore, they did not address whether there is gender bias even within the interaction between popular journalists and politicians in the global south. These understudied journalist-politician interactions are important (more so in collectivistic cultures like the global south) as they can significantly affect public sentiment and help set gender-biased social norms. In this work, using large-scale data from Indian Twitter we address this research gap. We curated a gender-balanced set of 100 most-followed Indian journalists on Twitter and 100 most-followed politicians. Then we collected 21,188 unique tweets posted by these journalists that mentioned these politicians. Our analysis revealed that there is a significant gender bias -- the frequency with which journalists mention male politicians vs. how frequently they mention female politicians is statistically significantly different ($p<<0.05$). In fact, median tweets from female journalists mentioning female politicians received ten times fewer likes than median tweets from female journalists mentioning male politicians. However, when we analyzed tweet content, our emotion score analysis and topic modeling analysis did not reveal any significant gender-based difference within the journalists' tweets towards politicians. Finally, we found a potential reason for the significant gender bias: the number of popular male Indian politicians is almost twice as large as the number of popular female Indian politicians, which might have resulted in the observed bias. We conclude by discussing the implications of this work.
翻訳日:2023-10-31 15:41:58 公開日:2023-10-29
# InstanT:インスタンス依存の閾値を用いた半教師あり学習

InstanT: Semi-supervised Learning with Instance-dependent Thresholds ( http://arxiv.org/abs/2310.18910v1 )

ライセンス: Link先を確認
Muyang Li, Runze Wu, Haoyu Liu, Jun Yu, Xun Yang, Bo Han, Tongliang Liu(参考訳) 半教師付き学習(SSL)は、機械学習における数十年の根本的な課題である。 SSLアルゴリズムの主要なファミリーである擬似ラベル付けは、疑似ラベルを信頼できる未ラベルのインスタンスに割り当て、トレーニングセットに組み込むことである。 したがって、SSLの成功には確実なインスタンスの選択基準が不可欠である。 近年,動的あるいは適応的なしきい値を使用するSSLメソッドの開発への関心が高まっている。 しかし、これらのメソッドは通常、すべてのサンプルに同じしきい値を適用するか、特定のクラスに属するインスタンスに対してクラス依存しきい値を使用する。 本稿では,既存手法と比較して高い自由度を有するインスタンス依存しきい値について検討する。 具体的には、そのインスタンスレベルの曖昧さと擬似ラベルのインスタンス依存エラー率を利用して、すべての未ラベルのインスタンスに対して新しいインスタンス依存しきい値関数を考案する。 さらに、インスタンス依存しきい値関数は、割り当てられた擬似ラベルの正しさに対する境界付き確率的保証を提供する。

Semi-supervised learning (SSL) has been a fundamental challenge in machine learning for decades. The primary family of SSL algorithms, known as pseudo-labeling, involves assigning pseudo-labels to confident unlabeled instances and incorporating them into the training set. Therefore, the selection criteria of confident instances are crucial to the success of SSL. Recently, there has been growing interest in the development of SSL methods that use dynamic or adaptive thresholds. Yet, these methods typically apply the same threshold to all samples, or use class-dependent thresholds for instances belonging to a certain class, while neglecting instance-level information. In this paper, we propose the study of instance-dependent thresholds, which has the highest degree of freedom compared with existing methods. Specifically, we devise a novel instance-dependent threshold function for all unlabeled instances by utilizing their instance-level ambiguity and the instance-dependent error rates of pseudo-labels, so instances that are more likely to have incorrect pseudo-labels will have higher thresholds. Furthermore, we demonstrate that our instance-dependent threshold function provides a bounded probabilistic guarantee for the correctness of the pseudo-labels it assigns.
翻訳日:2023-10-31 15:41:35 公開日:2023-10-29
# Wasserstein Gradient Descent による速度歪み関数の推定

Estimating the Rate-Distortion Function by Wasserstein Gradient Descent ( http://arxiv.org/abs/2310.18908v1 )

ライセンス: Link先を確認
Yibo Yang, Stephan Eckstein, Marcel Nutz, Stephan Mandt(参考訳) 損失圧縮の理論において、R-D(R-D)関数$R(D)$は、任意の一定の忠実度(歪み)でデータソースがどれだけ(ビットレートで)圧縮できるかを記述する。 与えられたデータソースに対して$R(D)$を持つことは、すべての圧縮アルゴリズムの基本的な性能限界を確立する。 最適輸送の観点から$R(D)$を推定する新しい手法を提案する。 従来のBlahut-Arimotoアルゴリズムとは異なり、ワッサーシュタイン勾配降下アルゴリズムは移動粒子による最適複製分布の支持を学習する。 局所収束を証明し,r-d推定器のサンプル複雑性をエントロピー最適輸送への接続に基づいて解析する。 実験により、低レートソース上での最先端ニューラルネットワーク手法と比較して、チューニングや計算の労力を大幅に削減しながら、同等あるいはより厳密な境界が得られる。 また,R-D問題に対する既知の解を持つテストケースとして使用できる新たなソースのクラスを導入する。

In the theory of lossy compression, the rate-distortion (R-D) function $R(D)$ describes how much a data source can be compressed (in bit-rate) at any given level of fidelity (distortion). Obtaining $R(D)$ for a given data source establishes the fundamental performance limit for all compression algorithms. We propose a new method to estimate $R(D)$ from the perspective of optimal transport. Unlike the classic Blahut--Arimoto algorithm which fixes the support of the reproduction distribution in advance, our Wasserstein gradient descent algorithm learns the support of the optimal reproduction distribution by moving particles. We prove its local convergence and analyze the sample complexity of our R-D estimator based on a connection to entropic optimal transport. Experimentally, we obtain comparable or tighter bounds than state-of-the-art neural network methods on low-rate sources while requiring considerably less tuning and computation effort. We also highlight a connection to maximum-likelihood deconvolution and introduce a new class of sources that can be used as test cases with known solutions to the R-D problem.
翻訳日:2023-10-31 15:41:19 公開日:2023-10-29
# トポロジカル、非トポロジカル? ディープラーニングに基づく予測

Topological, or Non-topological? A Deep Learning Based Prediction ( http://arxiv.org/abs/2310.18907v1 )

ライセンス: Link先を確認
Ashiqur Rasul, Md Shafayat Hossain, Ankan Ghosh Dastider, Himaddri Roy, M. Zahid Hasan, Quazi D. M. Khosru(参考訳) 望ましい性質を持つ新しい材料の予測と発見は、量子科学と技術研究の最前線にある。 この分野での大きなボトルネックは、abinitio計算から新しい材料を見つけることに関連する計算資源と時間複雑性である。 本研究では, トポロジと非トポロジの分類において91.4%の精度とF1スコアが88.5%の持続的ホモロジーとグラフニューラルネットワークを組み込んだ, 有効かつ堅牢な深層学習モデルを提案する。 グラフニューラルネットワークの組み入れは、原子間の基底関係を自身の結晶構造に基づいてモデルにエンコードし、比較的浅いネットワークを持つ分子のような非ユークリッドデータの表現と処理に有効な方法であることが証明された。 提案するニューラルネットワークの永続的ホモロジーパイプラインは、原子固有のトポロジ情報をディープラーニングモデルに統合し、堅牢性を高め、パフォーマンスを向上することができる。 提案手法は, トポロジカルクラスを予測し, この分野における新素材の高スループット探索を可能にするための有効なツールであると考えられる。

Prediction and discovery of new materials with desired properties are at the forefront of quantum science and technology research. A major bottleneck in this field is the computational resources and time complexity related to finding new materials from ab initio calculations. In this work, an effective and robust deep learning-based model is proposed by incorporating persistent homology and graph neural network which offers an accuracy of 91.4% and an F1 score of 88.5% in classifying topological vs. non-topological materials, outperforming the other state-of-the-art classifier models. The incorporation of the graph neural network encodes the underlying relation between the atoms into the model based on their own crystalline structures and thus proved to be an effective method to represent and process non-euclidean data like molecules with a relatively shallow network. The persistent homology pipeline in the suggested neural network is capable of integrating the atom-specific topological information into the deep learning model, increasing robustness, and gain in performance. It is believed that the presented work will be an efficacious tool for predicting the topological class and therefore enable the high-throughput search for novel materials in this field.
翻訳日:2023-10-31 15:41:01 公開日:2023-10-29
# stacking the odds:ai生成テキスト検出のためのトランスフォーマーベースのアンサンブル

Stacking the Odds: Transformer-Based Ensemble for AI-Generated Text Detection ( http://arxiv.org/abs/2310.18906v1 )

ライセンス: Link先を確認
Duke Nguyen, Khaing Myat Noe Naing, Aditya Joshi(参考訳) 本稿では,ALTA 2023共有タスクへのチーム名「SynthDetectives」の提出について報告する。 我々は、AI生成テキスト検出のタスクにトランスフォーマーの積み重ねアンサンブルを使用する。 私たちのアプローチは、アンサンブルでアクセシブルで軽量なモデルを使用するモデルを選択するという点で、新しいものです。 その結果,個々のモデルを用いた場合と比較して精度が向上した。 提案手法は,共有タスクオーガナイザが提供したオフィシャルテストデータに対して,0.9555の精度を実現する。

This paper reports our submission under the team name `SynthDetectives' to the ALTA 2023 Shared Task. We use a stacking ensemble of Transformers for the task of AI-generated text detection. Our approach is novel in terms of its choice of models in that we use accessible and lightweight models in the ensemble. We show that ensembling the models results in an improved accuracy in comparison with using them individually. Our approach achieves an accuracy score of 0.9555 on the official test data provided by the shared task organisers.
翻訳日:2023-10-31 15:40:41 公開日:2023-10-29
# 特徴量自動発見による識別可能なコントラスト学習

Identifiable Contrastive Learning with Automatic Feature Importance Discovery ( http://arxiv.org/abs/2310.18904v1 )

ライセンス: Link先を確認
Qi Zhang, Yifei Wang, Yisen Wang(参考訳) 既存のコントラスト学習法は、データ表現を学ぶためにペアワイズサンプルのコントラスト$z_x^\top z_{x'}$に依存するが、学習された特徴はしばしば人間の視点からの明確な解釈性を欠いている。 理論的には、特徴の識別性が欠如しており、異なる初期化が全く異なる特徴をもたらす可能性がある。 本稿では,三要素コントラスト学習(triCL)と呼ばれる3要素コントラストを$z_x^\top S z_{x'}$で表し,各特徴の重要性を自動的に把握する学習可能な対角行列である$S=\text{diag}(s_1,\dots,s_k)$について検討する。 この単純な拡張により、triclはランダム性を排除する識別可能な特徴を得るだけでなく、重要度行列$s$に従って順序づけられるより解釈可能な特徴を得ることができる。 本稿では, 画像検索において, 画像検索において, クラスワイドな特徴を捉えることで, 高い重要性を持つ特徴が良好な解釈性を有することを示す。 提案する TriCL の目的は汎用的であり,SimCLR や CLIP などの異なるコントラスト学習手法に適用可能である。 最小限のオーバーヘッドで識別性と解釈性を向上させることで、既存の2要素のコントラスト学習の代替となると信じている。 コードはhttps://github.com/PKU-ML/Tri-factor-Contrastive-Learningで入手できる。

Existing contrastive learning methods rely on pairwise sample contrast $z_x^\top z_{x'}$ to learn data representations, but the learned features often lack clear interpretability from a human perspective. Theoretically, it lacks feature identifiability and different initialization may lead to totally different features. In this paper, we study a new method named tri-factor contrastive learning (triCL) that involves a 3-factor contrast in the form of $z_x^\top S z_{x'}$, where $S=\text{diag}(s_1,\dots,s_k)$ is a learnable diagonal matrix that automatically captures the importance of each feature. We show that by this simple extension, triCL can not only obtain identifiable features that eliminate randomness but also obtain more interpretable features that are ordered according to the importance matrix $S$. We show that features with high importance have nice interpretability by capturing common classwise features, and obtain superior performance when evaluated for image retrieval using a few features. The proposed triCL objective is general and can be applied to different contrastive learning methods like SimCLR and CLIP. We believe that it is a better alternative to existing 2-factor contrastive learning by improving its identifiability and interpretability with minimal overhead. Code is available at https://github.com/PKU-ML/Tri-factor-Contrastive-Learning.
翻訳日:2023-10-31 15:40:32 公開日:2023-10-29
# 線形および非線形分数反応拡散方程式の量子アルゴリズム

Quantum algorithms for linear and non-linear fractional reaction-diffusion equations ( http://arxiv.org/abs/2310.18900v1 )

ライセンス: Link先を確認
Dong An, Konstantina Trivisa(参考訳) 高次元の分数反応拡散方程式は、生物学、化学、物理学の分野で多くの応用があり、豊富な現象を示す。 古典的アルゴリズムは、空間次元において指数関数的複雑性を持つが、量子コンピュータは、適切な入力アクセスが利用可能であれば、多項式複雑性だけで解を符号化する量子状態を生成することができる。 本研究では,周期境界条件を持つ線形および非線形分数反応拡散方程式の効率的な量子アルゴリズムについて検討する。 線形方程式の場合,2階トロッター式,時間マーチング法,およびトラッピングダイソン級数法など,様々な手法の複雑さを解析・比較する。 また,ハミルトニアンシミュレーション手法の線形結合と相互作用画像形式性を組み合わせた新しいアルゴリズムを提案し,空間次元の最適スケーリングを実現する。 非線形方程式に対しては,carleman線形化法を採用し,分数反応拡散方程式の空間的離散化から生じる密度行列に適したブロックエンコーディング法を提案する。

High-dimensional fractional reaction-diffusion equations have numerous applications in the fields of biology, chemistry, and physics, and exhibit a range of rich phenomena. While classical algorithms have an exponential complexity in the spatial dimension, a quantum computer can produce a quantum state that encodes the solution with only polynomial complexity, provided that suitable input access is available. In this work, we investigate efficient quantum algorithms for linear and nonlinear fractional reaction-diffusion equations with periodic boundary conditions. For linear equations, we analyze and compare the complexity of various methods, including the second-order Trotter formula, time-marching method, and truncated Dyson series method. We also present a novel algorithm that combines the linear combination of Hamiltonian simulation technique with the interaction picture formalism, resulting in optimal scaling in the spatial dimension. For nonlinear equations, we employ the Carleman linearization method and propose a block-encoding version that is appropriate for the dense matrices that arise from the spatial discretization of fractional reaction-diffusion equations.
翻訳日:2023-10-31 15:40:08 公開日:2023-10-29
# 高分解能衛星画像からの大規模建物ディテール抽出のためのマルチタスクディープラーニング

Multi-task deep learning for large-scale building detail extraction from high-resolution satellite imagery ( http://arxiv.org/abs/2310.18899v1 )

ライセンス: Link先を確認
Zhen Qian, Min Chen, Zhuo Sun, Fan Zhang, Qingsong Xu, Jinzhao Guo, Zhiwei Xie, Zhixin Zhang(参考訳) 都市のダイナミクスを理解し、持続可能な開発を促進するには、建物に関する包括的な洞察が必要です。 地理空間人工知能は、地球観測データからそのような詳細の抽出を進歩させたが、既存の手法は、実用的な用途のために統一されたビル関連データセットをコンパイルする場合、計算上の非効率と不整合に苦しむことが多い。 このギャップを埋めるために,高解像度衛星画像から空間的および属性的な建物の詳細を同時抽出するための適応型ニューラルネットワークであるMulti-task Building Refiner (MT-BR)を導入する。 特に、MT-BRは、追加の建築詳細を組み込むことで、適用性を高めることができる。 大規模アプリケーションでは,限られた画像サンプルを戦略的に選択する空間サンプリング方式を考案する。 このプロセスはサンプルの空間分布とそれらを含む都市環境特性の両方を最適化し、データ作成費を削減しながら抽出効率を向上する。 MT-BRの予測性能と一般化能力は,高度拡張技術の統合によりさらに向上する。 提案手法の有効性を定量的に評価した。 特に,本手法を用いて学習したネットワークは,ネットワークアーキテクチャの変更を伴わずに,代替サンプリング手法と比較して予測精度が向上した。 さらに、mt-brは他の最先端メソッドよりも一貫して優れており、様々なメトリクスにまたがって構築の詳細を抽出する。 実世界の実用性は上海全域のアプリケーションでも実証されており、建物の空間的および帰属的詳細の両方を包含する統一データセットを生成する。

Understanding urban dynamics and promoting sustainable development requires comprehensive insights about buildings. While geospatial artificial intelligence has advanced the extraction of such details from Earth observational data, existing methods often suffer from computational inefficiencies and inconsistencies when compiling unified building-related datasets for practical applications. To bridge this gap, we introduce the Multi-task Building Refiner (MT-BR), an adaptable neural network tailored for simultaneous extraction of spatial and attributional building details from high-resolution satellite imagery, exemplified by building rooftops, urban functional types, and roof architectural types. Notably, MT-BR can be fine-tuned to incorporate additional building details, extending its applicability. For large-scale applications, we devise a novel spatial sampling scheme that strategically selects limited but representative image samples. This process optimizes both the spatial distribution of samples and the urban environmental characteristics they contain, thus enhancing extraction effectiveness while curtailing data preparation expenditures. We further enhance MT-BR's predictive performance and generalization capabilities through the integration of advanced augmentation techniques. Our quantitative results highlight the efficacy of the proposed methods. Specifically, networks trained with datasets curated via our sampling method demonstrate improved predictive accuracy relative to those using alternative sampling approaches, with no alterations to network architecture. Moreover, MT-BR consistently outperforms other state-of-the-art methods in extracting building details across various metrics. The real-world practicality is also demonstrated in an application across Shanghai, generating a unified dataset that encompasses both the spatial and attributional details of buildings.
翻訳日:2023-10-31 15:39:50 公開日:2023-10-29
# 圧縮性ナビエに対するニューラル正規微分方程式を用いた不連続ガレルキン法におけるサブグリッドスケールの学習--ストークス方程式

Learning Subgrid-Scale Models in Discontinuous Galerkin Methods with Neural Ordinary Differential Equations for Compressible Navier--Stokes Equations ( http://arxiv.org/abs/2310.18897v1 )

ライセンス: Link先を確認
Shinhoo Kang, Emil M. Constantinescu(参考訳) ここ数年でコンピューティングのパワーが高まり、シミュレーションはより複雑で正確になった。 しかし、高忠実度シミュレーションは科学的な発見や問題解決に非常に価値があるが、計算上の大きな要求が伴う。 その結果、サブグリッドスケールモデルを用いて低忠実度モデルを実行して計算コストを削減することは一般的であるが、適切なサブグリッドスケールモデルを選択して調整することは困難である。 ニューラル常微分方程式を用いた偏微分方程式を不連続ガレルキン(dg)空間離散化の文脈でシミュレートする際のサブグリッドスケールモデル効果の新たな学習法を提案する。 提案手法は,低次DGソルバの欠落スケールを連続的に学習し,低次DG近似の精度を向上させるとともに,フィルタされた高次DGシミュレーションをある程度の精度で高速化する。 本研究では,多次元テイラー・グリーン渦例を用いて,層流,遷移,乱流を対象とするレイノルズ数と時間が異なる場合の性能を示す。 提案手法は,低次 (1次) 近似からサブグリッドスケールを再構成するだけでなく,フィルタ付き高次 dg (6次) シミュレーションを2桁高速化する。

The growing computing power over the years has enabled simulations to become more complex and accurate. However, high-fidelity simulations, while immensely valuable for scientific discovery and problem solving, come with significant computational demands. As a result, it is common to run a low-fidelity model with a subgrid-scale model to reduce the computational cost, but selecting the appropriate subgrid-scale models and tuning them are challenging. We propose a novel method for learning the subgrid-scale model effects when simulating partial differential equations using neural ordinary differential equations in the context of discontinuous Galerkin (DG) spatial discretization. Our approach learns the missing scales of the low-order DG solver at a continuous level and hence improves the accuracy of the low-order DG approximations as well as accelerates the filtered high-order DG simulations with a certain degree of precision. We demonstrate the performance of our approach through multidimensional Taylor--Green vortex examples at different Reynolds numbers and times, which cover laminar, transitional, and turbulent regimes. The proposed method not only reconstructs the subgrid-scale from the low-order (1st-order) approximation but also speeds up the filtered high-order DG (6th-order) simulation by two orders of magnitude.
翻訳日:2023-10-31 15:39:27 公開日:2023-10-29
# 活性化空間による畳み込みニューラルネットワークにおける形状バイアスの発生

Emergence of Shape Bias in Convolutional Neural Networks through Activation Sparsity ( http://arxiv.org/abs/2310.18894v1 )

ライセンス: Link先を確認
Tianqin Li, Ziqi Wen, Yangfan Li, Tai Sing Lee(参考訳) 現在の物体認識のためのディープラーニングモデルは、テクスチャに大きく偏っていることが知られている。 対照的に、人間の視覚システムは形や構造に偏っていることが知られている。 この違いを導いた人間の視覚システムの設計原則は何でしょうか? ディープラーニングモデルにもっと形状バイアスを導入するにはどうすればよいのか? 本稿では,脳内のユビキタスな原理であるスパース符号化が,ネットワークに形状バイアスをもたらす可能性があることを報告する。 非微分top-k演算を用いてスパース符号化制約を強制すると、畳み込みニューラルネットワークにおけるニューロンの構造的エンコーディングが出現し、結果としてオブジェクトを部分と部分にスムーズに分解し、形状バイアスでネットワークを内挿することを発見した。 我々は、形状バイアスの出現とその様々なデータセットを持つ異なるネットワーク構造に対する機能的利点を実証した。 物体認識畳み込みニューラルネットワークでは、形状バイアスがスタイルに対する堅牢性を高め、パターン変化の妨げとなる。 画像合成生成逆ネットワークでは、出現した形状バイアスは、合成画像においてよりコヒーレントで分解可能な構造をもたらす。 アブレーション研究は、スパースコードは構造をエンコードする傾向にあり、より分散されたコードはテクスチャを好む傾向にあることを示唆している。 我々のコードはgithubリポジトリにホストされている。 \url{https://github.com/Crazy-Jack/nips2023_shape_vs_texture}

Current deep-learning models for object recognition are known to be heavily biased toward texture. In contrast, human visual systems are known to be biased toward shape and structure. What could be the design principles in human visual systems that led to this difference? How could we introduce more shape bias into the deep learning models? In this paper, we report that sparse coding, a ubiquitous principle in the brain, can in itself introduce shape bias into the network. We found that enforcing the sparse coding constraint using a non-differential Top-K operation can lead to the emergence of structural encoding in neurons in convolutional neural networks, resulting in a smooth decomposition of objects into parts and subparts and endowing the networks with shape bias. We demonstrated this emergence of shape bias and its functional benefits for different network structures with various datasets. For object recognition convolutional neural networks, the shape bias leads to greater robustness against style and pattern change distraction. For the image synthesis generative adversary networks, the emerged shape bias leads to more coherent and decomposable structures in the synthesized images. Ablation studies suggest that sparse codes tend to encode structures, whereas the more distributed codes tend to favor texture. Our code is host at the github repository: \url{https://github.com/Crazy-Jack/nips2023_shape_vs_texture}
翻訳日:2023-10-31 15:39:03 公開日:2023-10-29
# Ever Evolving Evaluator (EV3):知識蒸留のためのフレキシブルで信頼性の高いメタ最適化を目指して

Ever Evolving Evaluator (EV3): Towards Flexible and Reliable Meta-Optimization for Knowledge Distillation ( http://arxiv.org/abs/2310.18893v1 )

ライセンス: Link先を確認
Li Ding, Masrour Zoghi, Guy Tennenholtz, Maryam Karimzadehgan(参考訳) 我々は,スケーラブルな機械学習モデルを,直感的な探索-評価-適応プロトコルによって効率的に学習するように設計された,新しいメタ最適化フレームワークであるEV3を紹介した。 EV3の各イテレーションにおいて、様々なモデルパラメータの更新を調査し、関連する評価手法を用いてそれらを評価し、最適な更新と過去の進捗履歴に基づいてモデルを適応する。 ev3は、関心のあるタスクに関連する重要な目的に微分可能性のような厳密な制約を課すことなく、実質的な柔軟性を提供します。 さらに、このプロトコルはバイアスのある勾配で更新を歓迎し、損失と最適化の多様性を利用することができる。 さらに、複数の目的を持つシナリオでは、タスクを動的に優先順位付けするために使用することができる。 進化的アルゴリズム,メタラーニング,ニューラルアーキテクチャ検索からインスピレーションを得たEV3の知識蒸留への応用について検討する。 実験結果は,ev3がモデル空間を安全に探索する能力を示し,その柔軟性と適応性から,複数の領域にまたがる潜在的な適用可能性を示唆する。

We introduce EV3, a novel meta-optimization framework designed to efficiently train scalable machine learning models through an intuitive explore-assess-adapt protocol. In each iteration of EV3, we explore various model parameter updates, assess them using pertinent evaluation methods, and adapt the model based on the optimal updates and previous progress history. EV3 offers substantial flexibility without imposing stringent constraints like differentiability on the key objectives relevant to the tasks of interest. Moreover, this protocol welcomes updates with biased gradients and allows for the use of a diversity of losses and optimizers. Additionally, in scenarios with multiple objectives, it can be used to dynamically prioritize tasks. With inspiration drawn from evolutionary algorithms, meta-learning, and neural architecture search, we investigate an application of EV3 to knowledge distillation. Our experimental results illustrate EV3's capability to safely explore model spaces, while hinting at its potential applicability across numerous domains due to its inherent flexibility and adaptability.
翻訳日:2023-10-31 15:38:43 公開日:2023-10-29
# 社会的相互作用を考慮した自動車の動的モデルと意思決定

Social Interaction-Aware Dynamical Models and Decision Making for Autonomous Vehicles ( http://arxiv.org/abs/2310.18891v1 )

ライセンス: Link先を確認
Luca Crosato, Kai Tian, Hubert P. H Shum, Edmond S. L. Ho, Yafei Wang, Chongfeng We(参考訳) インタラクション対応自動運転(Interaction-Aware Autonomous Driving, IAAD)は、人間の道路利用者と安全かつ効率的に対話できる自動運転車(AV)の開発に焦点を当てた、急速に成長する研究分野である。 これは、自動運転車が人間の道路利用者の行動を理解し予測できることを要求するため、困難な作業である。 本稿では,IAAD研究の現状を概観する。 専門用語の検証を通じて、ドライバーや歩行者の行動をモデル化するための課題や既存のモデルに注意が向けられる。 次に、インタラクションモデリング、認知手法、機械学習アプローチ、ゲーム理論手法を含む様々な手法について包括的なレビューを行う。 この結論は、IAADに関連する潜在的な利点とリスクに関する議論と、今後の探査を必要とする重要な研究の照明を通じて達成される。

Interaction-aware Autonomous Driving (IAAD) is a rapidly growing field of research that focuses on the development of autonomous vehicles (AVs) that are capable of interacting safely and efficiently with human road users. This is a challenging task, as it requires the autonomous vehicle to be able to understand and predict the behaviour of human road users. In this literature review, the current state of IAAD research is surveyed in this work. Commencing with an examination of terminology, attention is drawn to challenges and existing models employed for modelling the behaviour of drivers and pedestrians. Next, a comprehensive review is conducted on various techniques proposed for interaction modelling, encompassing cognitive methods, machine learning approaches, and game-theoretic methods. The conclusion is reached through a discussion of potential advantages and risks associated with IAAD, along with the illumination of pivotal research inquiries necessitating future exploration.
翻訳日:2023-10-31 15:38:26 公開日:2023-10-29
# 汎用多段階クラスタリングに向けて:多視点自己蒸留

Towards Generalized Multi-stage Clustering: Multi-view Self-distillation ( http://arxiv.org/abs/2310.18890v1 )

ライセンス: Link先を確認
Jiatai Wang, Zhiwei Xu, Xin Wang(参考訳) 既存のマルチステージクラスタリング手法は、複数のビューからサルエントな特徴を独立に学習し、クラスタリングタスクを実行する。 特に、マルチビュークラスタリング(mvc)は、マルチビューまたはマルチモーダルシナリオで多くの注目を集めています。 MVCは、複数のビューから共通のセマンティクスと擬似ラベルを自己管理的に探索することを目的としています。 しかし、ノイズの多いデータと不適切な特徴学習によって制限され、そのようなクラスタリングパラダイムは、モデルが不正確な予測を生成するために間違った導出を行う過信な擬似ラベルを生成する。 したがって,多段クラスタリングにおける擬似ラベルの誤抽出を補正し,バイアスの蓄積を回避する方法が望ましい。 自信過剰な擬似ラベルの効果を緩和し,モデルの一般化能力を向上させるため,多視点自己蒸留(distilmvc)を導入してラベル分布の暗黒知識を蒸留する,新しい多段階深層mvcフレームワークを提案する。 具体的には、異なる階層における特徴部分空間において、対比学習を通じて複数の視点の共通意味論を探索し、ビュー間の相互情報を最大化することで擬似ラベルを得る。 さらに、教師ネットワークは、疑似ラベルを暗黒の知識に蒸留し、学生ネットワークを監督し、堅牢性を高めるための予測能力を向上させる。 実世界のマルチビューデータセットに関する広範囲な実験により,本手法は最先端手法よりも優れたクラスタリング性能を示す。

Existing multi-stage clustering methods independently learn the salient features from multiple views and then perform the clustering task. Particularly, multi-view clustering (MVC) has attracted a lot of attention in multi-view or multi-modal scenarios. MVC aims at exploring common semantics and pseudo-labels from multiple views and clustering in a self-supervised manner. However, limited by noisy data and inadequate feature learning, such a clustering paradigm generates overconfident pseudo-labels that mis-guide the model to produce inaccurate predictions. Therefore, it is desirable to have a method that can correct this pseudo-label mistraction in multi-stage clustering to avoid the bias accumulation. To alleviate the effect of overconfident pseudo-labels and improve the generalization ability of the model, this paper proposes a novel multi-stage deep MVC framework where multi-view self-distillation (DistilMVC) is introduced to distill dark knowledge of label distribution. Specifically, in the feature subspace at different hierarchies, we explore the common semantics of multiple views through contrastive learning and obtain pseudo-labels by maximizing the mutual information between views. Additionally, a teacher network is responsible for distilling pseudo-labels into dark knowledge, supervising the student network and improving its predictive capabilities to enhance the robustness. Extensive experiments on real-world multi-view datasets show that our method has better clustering performance than state-of-the-art methods.
翻訳日:2023-10-31 15:38:10 公開日:2023-10-29
# Even if...」の効用 正の結果を最適化するための半事実的説明

The Utility of "Even if..." Semifactual Explanation to Optimise Positive Outcomes ( http://arxiv.org/abs/2310.18937v1 )

ライセンス: Link先を確認
Eoin M. Kenny and Weipeng Huang(参考訳) ユーザーが自動化されたシステムから肯定的な結果または否定的な結果を受け取る場合、説明可能なAI(XAI)は、正の成果を正の結果に変換する方法にほとんど重点を置いている(例: \textit{"2k以上の収入を得た場合、ローン申請を受理する)。 ここでは、代わりに \textit{ positive} の結果にフォーカスし、XAI を使用してそれらを最適化する新しいステップを取ります(例えば、もしあなたのダウンペイメントを半分にしたいなら、引き続きあなたのローン申請を受け入れます)。 たとえ「もしも」推論を採用し、決定境界を越えていないような説明は半実数として知られている。 この文脈で半事実をインスタンス化するために、私たちは \textit{gain} の概念(つまり、ユーザーが説明からどれだけ利益を得るか)を導入し、最初の半事実の因果形式化を考える。 ベンチマークデータセットのテストでは、我々のアルゴリズムは以前の作業よりも利益を最大化するのに優れており、プロセスにおいて因果関係が重要であることが示されています。 しかし、最も重要なことは、ユーザ調査が、ローンの受け入れのポジティブな結果を得たときに、偽物よりも有用な半事実的な説明を見つけることによって、私たちの主仮説を支持していることです。

When users receive either a positive or negative outcome from an automated system, Explainable AI (XAI) has almost exclusively focused on how to mutate negative outcomes into positive ones by crossing a decision boundary using counterfactuals (e.g., \textit{"If you earn 2k more, we will accept your loan application"}). Here, we instead focus on \textit{positive} outcomes, and take the novel step of using XAI to optimise them (e.g., \textit{"Even if you wish to half your down-payment, we will still accept your loan application"}). Explanations such as these that employ "even if..." reasoning, and do not cross a decision boundary, are known as semifactuals. To instantiate semifactuals in this context, we introduce the concept of \textit{Gain} (i.e., how much a user stands to benefit from the explanation), and consider the first causal formalisation of semifactuals. Tests on benchmark datasets show our algorithms are better at maximising gain compared to prior work, and that causality is important in the process. Most importantly however, a user study supports our main hypothesis by showing people find semifactual explanations more useful than counterfactuals when they receive the positive outcome of a loan acceptance.
翻訳日:2023-10-31 15:30:27 公開日:2023-10-29
# 敵の例は本当の特徴ではない

Adversarial Examples Are Not Real Features ( http://arxiv.org/abs/2310.18936v1 )

ライセンス: Link先を確認
Ang Li, Yifei Wang, Yiwen Guo, Yisen Wang(参考訳) 敵対的な例の存在は長年の謎であり、多くの関心を惹きつけてきた。 citet{ilyas2019adversarial} のよく知られた理論は、敵対的な例から非破壊的特徴を抽出できることを示し、これらの特徴だけで分類に有用であることを示し、データの観点から敵対的脆弱性を説明する。 しかし、非破壊的な特徴は主に人間にとってのノイズの特徴であるため、この説明はかなり直感的ではない。 本稿では,複数の学習パラダイムを取り入れた理論を,より広い文脈から再検討する。 特に,教師付き学習における有用性とは裏腹に,コントラスト学習やマスク画像モデリング,拡散モデルなど,他の自己教師付き学習パラダイムに移行する際には,非破壊的特徴が有用性に欠けることがわかった。 非ロバスト機能は、これらのパラダイム間の優れた転送可能性を楽しむロバストあるいは自然な機能ほど役に立たない。 一方、ロバスト性については、ロバストな特徴を持つ自然に訓練されたエンコーダがAutoAttackではほとんど損なわれていないことも示している。 我々のパラダイム横断試験は、非破壊機能は実際には有用ではなく、パラダイム的なショートカットに似ており、堅牢な機能だけで信頼性の高いモデルロバスト性を達成するには不十分であることを示している。 コードは \url{https://github.com/PKU-ML/AdvNotRealFeatures} で入手できる。

The existence of adversarial examples has been a mystery for years and attracted much interest. A well-known theory by \citet{ilyas2019adversarial} explains adversarial vulnerability from a data perspective by showing that one can extract non-robust features from adversarial examples and these features alone are useful for classification. However, the explanation remains quite counter-intuitive since non-robust features are mostly noise features to humans. In this paper, we re-examine the theory from a larger context by incorporating multiple learning paradigms. Notably, we find that contrary to their good usefulness under supervised learning, non-robust features attain poor usefulness when transferred to other self-supervised learning paradigms, such as contrastive learning, masked image modeling, and diffusion models. It reveals that non-robust features are not really as useful as robust or natural features that enjoy good transferability between these paradigms. Meanwhile, for robustness, we also show that naturally trained encoders from robust features are largely non-robust under AutoAttack. Our cross-paradigm examination suggests that the non-robust features are not really useful but more like paradigm-wise shortcuts, and robust features alone might be insufficient to attain reliable model robustness. Code is available at \url{https://github.com/PKU-ML/AdvNotRealFeatures}.
翻訳日:2023-10-31 15:29:58 公開日:2023-10-29
# ほぼ直交データを用いた2層ReLUおよび漏洩ReLUネットワークにおける勾配の急激なバイアス

Implicit Bias of Gradient Descent for Two-layer ReLU and Leaky ReLU Networks on Nearly-orthogonal Data ( http://arxiv.org/abs/2310.18935v1 )

ライセンス: Link先を確認
Yiwen Kou and Zixiang Chen and Quanquan Gu(参考訳) 好ましい性質を持つ解に対する暗黙の偏見は、勾配に基づく最適化によって訓練されたニューラルネットワークがうまく一般化できる重要な理由であると考えられている。 勾配流の暗黙バイアスは、均質ニューラルネットワーク(ReLUやリークReLUネットワークを含む)に対して広く研究されているが、勾配降下の暗黙バイアスは現在、滑らかなニューラルネットワークに対してのみ理解されている。 したがって、勾配降下によって訓練された非滑らかなニューラルネットワークの暗黙バイアスは未解決の問題である。 本稿では,2層完全連結(リーキー)ReLUニューラルネットワークのトレーニングにおいて,勾配降下の暗黙バイアスを学習することにより,この問題に対処することを目的とする。 学習データはほぼ正方形であり,リークしたreluアクティベーション関数の場合,勾配降下は1ドルに収束する安定したランクのネットワークを見出すが,relu活性化関数では、勾配降下は定数によって上限が上限される安定したランクのニューラルネットワークを見つける。 さらに、勾配降下により、すべてのトレーニングデータポイントが漸近的に同じ正規化マージンを持つようなニューラルネットワークが見つかることを示す。 理論的な結果の合成と実データバックアップの実験。

The implicit bias towards solutions with favorable properties is believed to be a key reason why neural networks trained by gradient-based optimization can generalize well. While the implicit bias of gradient flow has been widely studied for homogeneous neural networks (including ReLU and leaky ReLU networks), the implicit bias of gradient descent is currently only understood for smooth neural networks. Therefore, implicit bias in non-smooth neural networks trained by gradient descent remains an open question. In this paper, we aim to answer this question by studying the implicit bias of gradient descent for training two-layer fully connected (leaky) ReLU neural networks. We showed that when the training data are nearly-orthogonal, for leaky ReLU activation function, gradient descent will find a network with a stable rank that converges to $1$, whereas for ReLU activation function, gradient descent will find a neural network with a stable rank that is upper bounded by a constant. Additionally, we show that gradient descent will find a neural network such that all the training data points have the same normalized margin asymptotically. Experiments on both synthetic and real data backup our theoretical findings.
翻訳日:2023-10-31 15:29:32 公開日:2023-10-29
# ラベル中毒は必要なだけ

Label Poisoning is All You Need ( http://arxiv.org/abs/2310.18933v1 )

ライセンス: Link先を確認
Rishi D. Jha, Jonathan Hayase, Sewoong Oh(参考訳) バックドアアタックでは、特定の攻撃者が定義したトリガーで画像上の予測を制御するために、敵がモデルのトレーニングデータセットに破損したデータを注入する。 典型的な破損したトレーニング例では、トリガーとラベルを適用することで、イメージの両方を変更する必要がある。 そのため、クリーンなイメージで訓練されたモデルは、バックドア攻撃から安全とみなされた。 しかしながら、一般的な機械学習のシナリオでは、トレーニングラベルは潜在的に悪意のあるサードパーティによって提供される。 これにはクラウドソースアノテーションと知識蒸留が含まれる。 ラベルを破損させるだけでバックドア攻撃を成功させることができるか? FLIPと呼ばれるラベルのみのバックドア攻撃を設計するための新しいアプローチを導入し、その強みを3つのデータセット(CIFAR-10、CIFAR-100、Tiny-ImageNet)と4つのアーキテクチャ(ResNet-32、ResNet-18、VGG-19、Vision Transformer)で示す。 CIFAR-10ラベルのわずか2%が破損し、FLIPの攻撃成功率は99.4%であり、クリーンテストの精度は1.8%しか低下していない。 我々のアプローチは、もともとデータセット蒸留のために導入された軌道マッチングの最近の進歩に基づいている。

In a backdoor attack, an adversary injects corrupted data into a model's training dataset in order to gain control over its predictions on images with a specific attacker-defined trigger. A typical corrupted training example requires altering both the image, by applying the trigger, and the label. Models trained on clean images, therefore, were considered safe from backdoor attacks. However, in some common machine learning scenarios, the training labels are provided by potentially malicious third-parties. This includes crowd-sourced annotation and knowledge distillation. We, hence, investigate a fundamental question: can we launch a successful backdoor attack by only corrupting labels? We introduce a novel approach to design label-only backdoor attacks, which we call FLIP, and demonstrate its strengths on three datasets (CIFAR-10, CIFAR-100, and Tiny-ImageNet) and four architectures (ResNet-32, ResNet-18, VGG-19, and Vision Transformer). With only 2% of CIFAR-10 labels corrupted, FLIP achieves a near-perfect attack success rate of 99.4% while suffering only a 1.8% drop in the clean test accuracy. Our approach builds upon the recent advances in trajectory matching, originally introduced for dataset distillation.
翻訳日:2023-10-31 15:29:10 公開日:2023-10-29
# 時間的優先による自己の注意: 時間の矢印からもっと学ぶことができるか?

Self Attention with Temporal Prior: Can We Learn More from Arrow of Time? ( http://arxiv.org/abs/2310.18932v1 )

ライセンス: Link先を確認
Kyung Geun Kim, Byeong Tak Lee(参考訳) 自然界における様々な現象の多くは、特に時間の流れの方向から生じる短期的・長期的両方の依存関係を本質的にエンコードする。 この点に関して、これらの事象の相互関係がより近い時間スタンプに対して高いことを示す実験的証拠を発見した。 しかし、注意に基づくモデルが短期的な依存関係でこれらの規則性を学ぶためには、しばしば実現不可能な大量のデータが必要である。 これは、それらが時間的依存のピースを学習するのに長けているが、注意に基づくモデルは時系列のバイアスをエンコードする構造を欠いているためである。 本研究では,学習可能な適応カーネルをアテンション行列に直接適用することにより,アテンション層がこれらのデータセットの短期的時間バイアスをより良くエンコードできる簡易かつ効率的な手法を提案する。 実験では,Electronic Health Records(EHR)データセットを用いた様々な予測タスクを選択した。 実験の結果,ほとんどのタスクとデータセットにおいて,最善のモデルと比較して,例外的な分類結果が得られた。

Many of diverse phenomena in nature often inherently encode both short and long term temporal dependencies, short term dependencies especially resulting from the direction of flow of time. In this respect, we discovered experimental evidences suggesting that {\it interrelations} of these events are higher for closer time stamps. However, to be able for attention based models to learn these regularities in short term dependencies, it requires large amounts of data which are often infeasible. This is due to the reason that, while they are good at learning piece wised temporal dependencies, attention based models lack structures that encode biases in time series. As a resolution, we propose a simple and efficient method that enables attention layers to better encode short term temporal bias of these data sets by applying learnable, adaptive kernels directly to the attention matrices. For the experiments, we chose various prediction tasks using Electronic Health Records (EHR) data sets since they are great examples that have underlying long and short term temporal dependencies. The results of our experiments show exceptional classification results compared to best performing models on most of the task and data sets.
翻訳日:2023-10-31 15:28:47 公開日:2023-10-29
# 教師付きコントラスト学習による感情に対する軽量言語モデルの再適合

Retrofitting Light-weight Language Models for Emotions using Supervised Contrastive Learning ( http://arxiv.org/abs/2310.18930v1 )

ライセンス: Link先を確認
Sapan Shah, Sreedhar Reddy, Pushpak Bhattacharyya(参考訳) 本稿では, BERT や RoBERTa などの事前学習言語モデル (PLM) に感情的側面を誘導する新しい手法を提案する。 類似した感情を示す文片を表現空間の近傍に符号化し,感情内容の異なる文片を押し離すように,コントラスト学習を用いて事前学習したネットワーク重みを更新する。 その間、PLMにすでに存在する言語知識が故意に摂動されないことも保証している。 提案手法に適合する言語モデルであるBERTEMOとRoBERTaEmoは,異なるクラスタリングおよび検索指標を用いて,感情を考慮したテキスト表現を生成する。 感情分析と皮肉検出の下流タスクでは、トレーニング済みのタスク(F1スコアの約1%の改善)や既存のアプローチよりもパフォーマンスがよい。 さらに、少数の学習環境では、トレーニング済みモデルよりも改良されたモデルのパフォーマンスが大幅に向上する。

We present a novel retrofitting method to induce emotion aspects into pre-trained language models (PLMs) such as BERT and RoBERTa. Our method updates pre-trained network weights using contrastive learning so that the text fragments exhibiting similar emotions are encoded nearby in the representation space, and the fragments with different emotion content are pushed apart. While doing so, it also ensures that the linguistic knowledge already present in PLMs is not inadvertently perturbed. The language models retrofitted by our method, i.e., BERTEmo and RoBERTaEmo, produce emotion-aware text representations, as evaluated through different clustering and retrieval metrics. For the downstream tasks on sentiment analysis and sarcasm detection, they perform better than their pre-trained counterparts (about 1% improvement in F1-score) and other existing approaches. Additionally, a more significant boost in performance is observed for the retrofitted models over pre-trained ones in few-shot learning setting.
翻訳日:2023-10-31 15:28:27 公開日:2023-10-29
# 畳み込みニューラルネットワークを用いた顔マスク検出のための伝達学習手法

A transfer learning approach with convolutional neural network for Face Mask Detection ( http://arxiv.org/abs/2310.18928v1 )

ライセンス: Link先を確認
Abolfazl Younesi, Reza Afrouzian, Yousef Seyfari(参考訳) 新型コロナウイルス(コビッド19)の流行と世界中に急速に広がったため、世界は深刻な危機に直面している。 新型コロナウイルスの感染拡大を防ぐため、世界保健機関(who)はマスクの使用と社会的距離の維持を最善の予防手段として導入した。 そのため,混み合った場所での顔マスクの自動検出システムの開発が不可欠である。 そこで本稿では,トランスファー学習とインセプションv3アーキテクチャに基づくマスク認識システムを提案する。 提案手法では,Simulated Mask Face Dataset (SMFD) とMaskedFace-Net (MFN) の2つのデータセットを同時に使用し,ハイパーパラメータを最適に設定し,完全に接続されたレイヤを正確に設計することで,提案手法の精度向上を図る。 提案手法の主な利点は,マスク面とアンマスク面に加えて,マスクの誤用も検出できる点である。 そこで,提案手法では入力面画像を3つのカテゴリに分類する。 実験の結果, 提案手法の精度と効率が向上し, トレーニングデータとテストデータで99.47%, 99.33%の精度が得られた。

Due to the epidemic of the coronavirus (Covid-19) and its rapid spread around the world, the world has faced an enormous crisis. To prevent the spread of the coronavirus, the World Health Organization (WHO) has introduced the use of masks and keeping social distance as the best preventive method. So, developing an automatic monitoring system for detecting facemasks in some crowded places is essential. To do this, we propose a mask recognition system based on transfer learning and Inception v3 architecture. In the proposed method, two datasets are used simultaneously for training including the Simulated Mask Face Dataset (SMFD) and MaskedFace-Net (MFN) This paper tries to increase the accuracy of the proposed system by optimally setting hyper-parameters and accurately designing the fully connected layers. The main advantage of the proposed method is that in addition to masked and unmasked faces, it can also detect cases of incorrect use of mask. Therefore, the proposed method classifies the input face images into three categories. Experimental results show the high accuracy and efficiency of the proposed method; so, this method has achieved an accuracy of 99.47% and 99.33% in training and test data respectively
翻訳日:2023-10-31 15:28:09 公開日:2023-10-29
# CHAIN: 自己監督型ビデオハッシュを改善するグローバルローカル時空間情報探索

CHAIN: Exploring Global-Local Spatio-Temporal Information for Improved Self-Supervised Video Hashing ( http://arxiv.org/abs/2310.18926v1 )

ライセンス: Link先を確認
Rukai Wei, Yu Liu, Jingkuan Song, Heng Cui, Yanzhao Xie, and Ke Zhou(参考訳) ビデオをバイナリコードに圧縮することで、検索速度を改善し、ストレージオーバーヘッドを低減することができる。 しかし,フレーム間の局所冗長性や複雑なグローバル依存性,特にラベルの欠如により,映像検索のための正確なハッシュコードを学習することは困難である。 既存の自己監督型ビデオハッシュ法は、表現力のある時間エンコーダを設計するのに有効であるが、困難で信頼性の低い学習タスクのために、ビデオの時間的ダイナミクスと空間的外観を十分に活用していない。 これらの課題に対処するために,ビデオの時空間情報をハッシュ化するために,コントラスト学習タスクを利用することから始める。 学習フレームワークは,空間的および時間的変化に着目し,正のペアを生成するように設計された拡張戦略の助けを借りて,動作やスケール,視点に不変なハッシュコードを生成することができる。 さらに,フレーム順序検証とシーン変化正規化という2つの協調学習タスクを組み込んで,映像フレーム内の局所的時空間的詳細を捉えることにより,時間構造知覚と時空間的関係のモデル化を促進する。 提案するグローバルローカル時空間情報(chain)を用いたコントラストハッシュは,4つのビデオベンチマークデータセットにおける最先端の自己教師付きビデオハッシュ手法を上回っている。 私たちのコードはリリースされます。

Compressing videos into binary codes can improve retrieval speed and reduce storage overhead. However, learning accurate hash codes for video retrieval can be challenging due to high local redundancy and complex global dependencies between video frames, especially in the absence of labels. Existing self-supervised video hashing methods have been effective in designing expressive temporal encoders, but have not fully utilized the temporal dynamics and spatial appearance of videos due to less challenging and unreliable learning tasks. To address these challenges, we begin by utilizing the contrastive learning task to capture global spatio-temporal information of videos for hashing. With the aid of our designed augmentation strategies, which focus on spatial and temporal variations to create positive pairs, the learning framework can generate hash codes that are invariant to motion, scale, and viewpoint. Furthermore, we incorporate two collaborative learning tasks, i.e., frame order verification and scene change regularization, to capture local spatio-temporal details within video frames, thereby enhancing the perception of temporal structure and the modeling of spatio-temporal relationships. Our proposed Contrastive Hashing with Global-Local Spatio-temporal Information (CHAIN) outperforms state-of-the-art self-supervised video hashing methods on four video benchmark datasets. Our codes will be released.
翻訳日:2023-10-31 15:27:46 公開日:2023-10-29
# qwid:量子化雑草同定深層ニューラルネットワーク

QWID: Quantized Weed Identification Deep neural network ( http://arxiv.org/abs/2310.18921v1 )

ライセンス: Link先を確認
Parikshit Singh Rathore(参考訳) 本稿では,農業における雑草分類の効率的な解法を提案する。 我々は,農業領域の制約を尊重しながら,推論におけるモデル性能の最適化に注目する。 本研究では,標準32ビット浮動小数点(fp32)モデルから切り離された8ビット整数(int8)量子化を用いて,9種の雑草群のデータセットを分類する量子化ディープニューラルネットワークモデルを提案する。 農業におけるハードウェア資源の制限を認識し,モデルサイズ,推定時間,正確性と実用要件のバランスをとる。 resnet-50とinceptionv3アーキテクチャのアプローチを評価し、そのパフォーマンスをint8量子化バージョンと比較した。 DeepWeedsデータセットを使用して、転送学習と微調整を適用する。 結果は、デスクトップ、モバイル、raspberry piのような実世界の生産シナリオで精度を維持しながら、モデルサイズや推論時間の削減が停滞していることを示している。 私たちの仕事は、農業における効率的なAIのための有望な方向性に光を当て、幅広い応用の可能性を秘めている。 コード:https://github.com/parikshit14/QNN-for-weed

In this paper, we present an efficient solution for weed classification in agriculture. We focus on optimizing model performance at inference while respecting the constraints of the agricultural domain. We propose a Quantized Deep Neural Network model that classifies a dataset of 9 weed classes using 8-bit integer (int8) quantization, a departure from standard 32-bit floating point (fp32) models. Recognizing the hardware resource limitations in agriculture, our model balances model size, inference time, and accuracy, aligning with practical requirements. We evaluate the approach on ResNet-50 and InceptionV3 architectures, comparing their performance against their int8 quantized versions. Transfer learning and fine-tuning are applied using the DeepWeeds dataset. The results show staggering model size and inference time reductions while maintaining accuracy in real-world production scenarios like Desktop, Mobile and Raspberry Pi. Our work sheds light on a promising direction for efficient AI in agriculture, holding potential for broader applications. Code: https://github.com/parikshit14/QNN-for-weed
翻訳日:2023-10-31 15:27:23 公開日:2023-10-29
# 信頼ネットワークによるマルチパーソンポーズ追跡の改善

Improving Multi-Person Pose Tracking with A Confidence Network ( http://arxiv.org/abs/2310.18920v1 )

ライセンス: Link先を確認
Zehua Fu, Wenhang Zuo, Zhenghui Hu, Qingjie Liu, Yunhong Wang(参考訳) 人間のポーズ推定と追跡は、ビデオにおける人間の行動を理解するための基本的なタスクである。 既存のトップダウンフレームワークベースのメソッドは通常、人間検出、ポーズ推定、追跡という3段階のタスクを実行する。 有望な結果が得られたが、これらの方法は高性能検出器に大きく依存しており、閉塞されたり誤検出された人を追跡できない可能性がある。 そこで本稿では,このような課題を克服するために,新しいキーポイント信頼度ネットワークと追跡パイプラインを開発し,トップダウンアプローチにおける人間検出とポーズ推定を改善する。 特に、キーポイント信頼ネットワークは、各キーポイントが閉鎖されているかどうかを判断するように設計され、ポーズ推定モジュールに組み込まれる。 追従パイプラインにおいて,Bbox-revisionモジュールは,紛失検出を低減し,ID-retrieveモジュールは損失軌跡を補正し,検出ステージの性能を向上させる。 実験結果から,PoseTrack 2017と2018の両データセットの最先端性能を達成し,人間の検出とポーズ推定におけるアプローチが普遍的であることが示された。

Human pose estimation and tracking are fundamental tasks for understanding human behaviors in videos. Existing top-down framework-based methods usually perform three-stage tasks: human detection, pose estimation and tracking. Although promising results have been achieved, these methods rely heavily on high-performance detectors and may fail to track persons who are occluded or miss-detected. To overcome these problems, in this paper, we develop a novel keypoint confidence network and a tracking pipeline to improve human detection and pose estimation in top-down approaches. Specifically, the keypoint confidence network is designed to determine whether each keypoint is occluded, and it is incorporated into the pose estimation module. In the tracking pipeline, we propose the Bbox-revision module to reduce missing detection and the ID-retrieve module to correct lost trajectories, improving the performance of the detection stage. Experimental results show that our approach is universal in human detection and pose estimation, achieving state-of-the-art performance on both PoseTrack 2017 and 2018 datasets.
翻訳日:2023-10-31 15:27:04 公開日:2023-10-29
# リニア関数近似による強化学習のための遅延フィードバックによる後方サンプリング

Posterior Sampling with Delayed Feedback for Reinforcement Learning with Linear Function Approximation ( http://arxiv.org/abs/2310.18919v1 )

ライセンス: Link先を確認
Nikki Lijing Kuang, Ming Yin, Mengdi Wang, Yu-Xiang Wang, Yi-An Ma(参考訳) 強化学習(RL)の最近の研究は、関数近似を利用して、より優れたパフォーマンスのためにサンプル複雑性ハードルを緩和することで、大きな進歩を遂げている。 成功にもかかわらず、既存の効率的アルゴリズムは通常、行動を取る際の即時フィードバックのアクセシビリティに依存している。 観測における遅延の影響を考慮できないことは、後悔の爆発によって現実世界のシステムの性能を著しく低下させる可能性がある。 本研究では, 線形関数近似を用いたRLにおける遅延フィードバックの課題に対して, 後方サンプリングを用いることで, 幅広い状況において, 一般的な UCB アルゴリズムを実証的に上回っていることを示す。 Delayed-PSVIは楽観的な値に基づくアルゴリズムで、後続サンプリングによる雑音摂動による値関数空間を効果的に探索する。 RLの遅延フィードバックによる後方サンプリングアルゴリズムの最初の解析を行い,我々のアルゴリズムが未知の確率遅延の存在下での最悪の後悔を$\widetilde{O}(\sqrt{d^3H^3T} + d^2H^2E[\tau])で達成したことを示す。 ここで$E[\tau]$が期待の遅延です。 計算効率をさらに向上し,高次元RL問題に適用可能性を高めるために,遅延LPSVIのランゲヴィン力学を用いた勾配に基づく近似サンプリングスキームを導入し,計算コストを$\widetilde{O}(dHK)$で同じオーダー最適後悔保証を維持する。 アルゴリズムの統計的および計算的有効性を示すために経験的評価を行う。

Recent studies in reinforcement learning (RL) have made significant progress by leveraging function approximation to alleviate the sample complexity hurdle for better performance. Despite the success, existing provably efficient algorithms typically rely on the accessibility of immediate feedback upon taking actions. The failure to account for the impact of delay in observations can significantly degrade the performance of real-world systems due to the regret blow-up. In this work, we tackle the challenge of delayed feedback in RL with linear function approximation by employing posterior sampling, which has been shown to empirically outperform the popular UCB algorithms in a wide range of regimes. We first introduce Delayed-PSVI, an optimistic value-based algorithm that effectively explores the value function space via noise perturbation with posterior sampling. We provide the first analysis for posterior sampling algorithms with delayed feedback in RL and show our algorithm achieves $\widetilde{O}(\sqrt{d^3H^3 T} + d^2H^2 E[\tau])$ worst-case regret in the presence of unknown stochastic delays. Here $E[\tau]$ is the expected delay. To further improve its computational efficiency and to expand its applicability in high-dimensional RL problems, we incorporate a gradient-based approximate sampling scheme via Langevin dynamics for Delayed-LPSVI, which maintains the same order-optimal regret guarantee with $\widetilde{O}(dHK)$ computational cost. Empirical evaluations are performed to demonstrate the statistical and computational efficacy of our algorithms.
翻訳日:2023-10-31 15:26:45 公開日:2023-10-29
# 大規模双曲グラフニューラルネットワーク:メタラーニングアプローチ

Hyperbolic Graph Neural Networks at Scale: A Meta Learning Approach ( http://arxiv.org/abs/2310.18918v1 )

ライセンス: Link先を確認
Nurendra Choudhary and Nikhil Rao and Chandan K. Reddy(参考訳) 双曲型ニューラルネットワーク(HNN)の研究の進歩は、新しいタスクへの一般化と大規模データセットでのスケーラブルな学習を促進するために不可欠である誘導的バイアス機構の欠如によって妨げられている。 本稿では,ノードの局所部分グラフから一般化した帰納的バイアスを学習し,ノード,エッジ,ラベルを分割した新しい部分グラフ上での学習を短時間で行うことで,これらの問題を緩和することを目的とする。 本稿では,ノード分類とリンク予測のタスクに対して,ハイパーボリックなメタグラデーションとラベルのハイパーボリックなプロトネットという形でサポート対象のローカルなサブグラフの集合から転送可能な情報を学習し,非結合なサブグラフを扱う新しいタスクのクエリセットを高速に学習できるようにする,新しい手法であるHyperbolic GRAph Meta Learner (H-GRAM)を提案する。 さらに、我々のメタラーニングフレームワークの拡張は、既存のアプローチが直面しているHNNのスケーラビリティ上の課題を軽減することも示している。 比較分析により,H-GRAMは,他の最先端ベースラインと比較して,複数の挑戦的な数ショット設定で情報を効果的に学習し,転送することを示した。 さらに、標準のhnnとは異なり、我々のアプローチは大規模なグラフデータセットをスケールし、euclideanよりもパフォーマンスを向上させることができることを実証します。

The progress in hyperbolic neural networks (HNNs) research is hindered by their absence of inductive bias mechanisms, which are essential for generalizing to new tasks and facilitating scalable learning over large datasets. In this paper, we aim to alleviate these issues by learning generalizable inductive biases from the nodes' local subgraph and transfer them for faster learning over new subgraphs with a disjoint set of nodes, edges, and labels in a few-shot setting. We introduce a novel method, Hyperbolic GRAph Meta Learner (H-GRAM), that, for the tasks of node classification and link prediction, learns transferable information from a set of support local subgraphs in the form of hyperbolic meta gradients and label hyperbolic protonets to enable faster learning over a query set of new tasks dealing with disjoint subgraphs. Furthermore, we show that an extension of our meta-learning framework also mitigates the scalability challenges seen in HNNs faced by existing approaches. Our comparative analysis shows that H-GRAM effectively learns and transfers information in multiple challenging few-shot settings compared to other state-of-the-art baselines. Additionally, we demonstrate that, unlike standard HNNs, our approach is able to scale over large graph datasets and improve performance over its Euclidean counterparts.
翻訳日:2023-10-31 15:26:14 公開日:2023-10-29
# TiV-NeRF:動的ニューラルネットワークを用いた時間変化表現による追跡とマッピング

TiV-NeRF: Tracking and Mapping via Time-Varying Representation with Dynamic Neural Radiance Fields ( http://arxiv.org/abs/2310.18917v1 )

ライセンス: Link先を確認
Chengyao Duan and Zhiliu Yang(参考訳) 従来のNeural Radiance Fields(NeRF)をSLAMフレームワークに統合するための試みは、静的シーンの仮定に依存するか、動的オブジェクトを外れ値として扱うかに依存する。 しかし、現実世界のシナリオのほとんどは動的です。 本稿では,動的シーンの追跡と再構成を行うための時間変化表現を提案する。 システムは追跡プロセスとマッピングプロセスという2つのプロセスを同時に維持する。 トラッキングプロセスでは、入力画像全体を一様にサンプリングし、RGB画像のトレーニングを自己管理する。 マッピングプロセスでは,動的オブジェクトと静的背景を区別するためにノウマスクを活用し,異なるサンプリング戦略を2種類の領域に適用した。 両過程のパラメータ最適化は2段階で構成され、第1段階は時間と3次元の位置を関連付けて変形場を正準場に変換する。 そして、第2の時間は標準場の3D位置と結びつき、色と符号付き距離関数(SDF)を得る。 また,重複率に基づく新しいキーフレーム選択戦略を提案する。 提案手法は,2つの公開合成データセットに対して評価し,現状の動的マッピング法よりも有効であることを示す。

Previous attempts to integrate Neural Radiance Fields (NeRF) into Simultaneous Localization and Mapping (SLAM) framework either rely on the assumption of static scenes or treat dynamic objects as outliers. However, most of real-world scenarios is dynamic. In this paper, we propose a time-varying representation to track and reconstruct the dynamic scenes. Our system simultaneously maintains two processes, tracking process and mapping process. For tracking process, the entire input images are uniformly sampled and training of the RGB images are self-supervised. For mapping process, we leverage know masks to differentiate dynamic objects and static backgrounds, and we apply distinct sampling strategies for two types of areas. The parameters optimization for both processes are made up by two stages, the first stage associates time with 3D positions to convert the deformation field to the canonical field. And the second associates time with 3D positions in canonical field to obtain colors and Signed Distance Function (SDF). Besides, We propose a novel keyframe selection strategy based on the overlapping rate. We evaluate our approach on two publicly available synthetic datasets and validate that our method is more effective compared to current state-of-the-art dynamic mapping methods.
翻訳日:2023-10-31 15:25:51 公開日:2023-10-29
# モデル適応によるデバイアスアルゴリズム

Debiasing Algorithm through Model Adaptation ( http://arxiv.org/abs/2310.18913v1 )

ライセンス: Link先を確認
Tomasz Limisiewicz and David Mare\v{c}ek and Tom\'a\v{s} Musil(参考訳) 大規模言語モデルは、さまざまな言語タスクのゴーツーソリューションになりつつある。 しかし、能力の増大に伴い、モデルはトレーニングデータに存在するバイアスやステレオタイプから生じる急激な相関に依存する傾向にある。 本研究では,言語モデルにおけるジェンダーバイアスの検出と緩和手法を提案する。 問題のあるモデルコンポーネントを識別するために因果分析を行い、中間フィードフォワード層が最もバイアスを伝達しやすいことを発見します。 解析結果に基づいて,これらの層を線形射影で乗じることで,モデルに適応する。 提案手法であるDAMAは,下流タスクにおけるモデルの性能を維持しながら,様々な指標によって測定されるバイアスを著しく低減する。 当社は,llamaの最先端性能を再トレーニングしながら,バイアスを少なくする手法とモデルのコードをリリースしています。

Large language models are becoming the go-to solution for various language tasks. However, with growing capacity, models are prone to rely on spurious correlations stemming from biases and stereotypes present in the training data. This work proposes a novel method for detecting and mitigating gender bias in language models. We perform causal analysis to identify problematic model components and discover that mid-upper feed-forward layers are most prone to convey biases. Based on the analysis results, we adapt the model by multiplying these layers by a linear projection. Our titular method, DAMA, significantly decreases bias as measured by diverse metrics while maintaining the model's performance on downstream tasks. We release code for our method and models, which retrain LLaMA's state-of-the-art performance while being significantly less biased.
翻訳日:2023-10-31 15:25:30 公開日:2023-10-29
# クラス埋め込み空間における画像分類のための視覚変換器の解析

Analyzing Vision Transformers for Image Classification in Class Embedding Space ( http://arxiv.org/abs/2310.18969v1 )

ライセンス: Link先を確認
Martina G. Vilas, Timothy Schauml\"offel and Gemma Roig(参考訳) コンピュータビジョンにおけるトランスフォーマーモデルの普及にもかかわらず、これらのネットワークの機械的理解は依然として必要である。 この研究は、画像分類タスクを解決するために訓練されたビジョン変換器をリバースエンジニアリングする手法を導入する。 従来のNLP研究から着想を得て,階層の任意のレベルにおける内部表現を学習クラス埋め込み空間に投影して,これらのネットワークが予測のためにカテゴリ表現を構築する方法を明らかにする。 我々は,画像トークンが注意機構や文脈情報に依存するクラス固有の表現をどのように発達させるかを示すために,我々のフレームワークを用いて,自己注意層とMLP層が,この分類構成にどのように貢献するかを考察する。 さらに,本手法は,興味のクラスを検出する上で重要な画像の一部を決定するのに有効であることを示すとともに,従来の線形探索手法に比べて大きな優位性を示す。 その結果,提案手法を機械的な解釈と説明可能性研究の強力なツールとして位置づけた。

Despite the growing use of transformer models in computer vision, a mechanistic understanding of these networks is still needed. This work introduces a method to reverse-engineer Vision Transformers trained to solve image classification tasks. Inspired by previous research in NLP, we demonstrate how the inner representations at any level of the hierarchy can be projected onto the learned class embedding space to uncover how these networks build categorical representations for their predictions. We use our framework to show how image tokens develop class-specific representations that depend on attention mechanisms and contextual information, and give insights on how self-attention and MLP layers differentially contribute to this categorical composition. We additionally demonstrate that this method (1) can be used to determine the parts of an image that would be important for detecting the class of interest, and (2) exhibits significant advantages over traditional linear probing approaches. Taken together, our results position our proposed framework as a powerful tool for mechanistic interpretability and explainability research.
翻訳日:2023-10-31 15:18:10 公開日:2023-10-29
# 衝突回避のための宇宙船自律的意思決定計画--強化学習アプローチ

Spacecraft Autonomous Decision-Planning for Collision Avoidance: a Reinforcement Learning Approach ( http://arxiv.org/abs/2310.18966v1 )

ライセンス: Link先を確認
Nicolas Bourriez, Adrien Loizeau and Adam F. Abdin(参考訳) 地球周辺の宇宙環境は、アクティブな宇宙船と宇宙デブリの両方で人口が増えつつある。 衝突の可能性を避けるため、宇宙状況認識(SSA)活動と衝突回避(CA)技術が大幅に改善され、精度と信頼性が向上した宇宙船の追跡と操縦が可能になった。 しかし、これらの手順は依然として、必要な決定を行うための高いレベルの人間の介入を伴っている。 ますます複雑な宇宙環境において、この意思決定戦略は持続可能ではない。 したがって、多くの宇宙船の航行に必要な信頼性のレベルを確保するために、鍵となる宇宙交通管理(stm)プロセスに高いレベルの自動化を導入することが重要である。 これらのプロセスは衝突リスクの検出から、取るべき適切な行動の特定、回避操作の実行まで様々である。 本研究では,RL(Reinforcement Learning)技術に基づく自律的なCA意思決定機能の実装を提案する。 部分観測可能なマルコフ決定過程(pomdp)の枠組みに基づく新しい方法論を開発し、認識論的および随伴的不確実性を考慮して、宇宙船上で人工知能(ai)システムを訓練する。 提案フレームワークは、軌道上の破片の状態を不完全な監視情報として考慮し、AIシステムが正確な衝突回避策(CAM)を実行するための確率的方針を効果的に学習できるようにする。 目的は、CAMを自律的に実施するための意思決定プロセスを、人間の介入なしに宇宙船に委譲することである。 このアプローチは、意思決定プロセスと高度に分散したオペレーションにおいて、より迅速な応答を可能にする。

The space environment around the Earth is becoming increasingly populated by both active spacecraft and space debris. To avoid potential collision events, significant improvements in Space Situational Awareness (SSA) activities and Collision Avoidance (CA) technologies are allowing the tracking and maneuvering of spacecraft with increasing accuracy and reliability. However, these procedures still largely involve a high level of human intervention to make the necessary decisions. For an increasingly complex space environment, this decision-making strategy is not likely to be sustainable. Therefore, it is important to successfully introduce higher levels of automation for key Space Traffic Management (STM) processes to ensure the level of reliability needed for navigating a large number of spacecraft. These processes range from collision risk detection to the identification of the appropriate action to take and the execution of avoidance maneuvers. This work proposes an implementation of autonomous CA decision-making capabilities on spacecraft based on Reinforcement Learning (RL) techniques. A novel methodology based on a Partially Observable Markov Decision Process (POMDP) framework is developed to train the Artificial Intelligence (AI) system on board the spacecraft, considering epistemic and aleatory uncertainties. The proposed framework considers imperfect monitoring information about the status of the debris in orbit and allows the AI system to effectively learn stochastic policies to perform accurate Collision Avoidance Maneuvers (CAMs). The objective is to successfully delegate the decision-making process for autonomously implementing a CAM to the spacecraft without human intervention. This approach would allow for a faster response in the decision-making process and for highly decentralized operations.
翻訳日:2023-10-31 15:17:52 公開日:2023-10-29
# LLMとファインタニング:ヘイトスピーチ検出のためのクロスドメイン性能のベンチマーク

LLMs and Finetuning: Benchmarking cross-domain performance for hate speech detection ( http://arxiv.org/abs/2310.18964v1 )

ライセンス: Link先を確認
Ahmad Nasir, Aadish Sharma, Kokil Jaidka(参考訳) 本稿では,ヘイトスピーチ検出のための事前学習型および微調整型大規模言語モデル(LLM)を比較した。 我々の研究は、LLMのクロスドメイン妥当性と過剰適合リスクの課題を浮き彫りにしている。 評価を通して,ラベルの不均一性を高めることによってヘイトスピーチのニュアンスを把握できる微調整モデルの必要性を強調する。 最後に,ヘイトスピーチ検出の将来へのビジョンとして,ドメイン間の一般化可能性と適切なベンチマーク手法を強調した。

This paper compares different pre-trained and fine-tuned large language models (LLMs) for hate speech detection. Our research underscores challenges in LLMs' cross-domain validity and overfitting risks. Through evaluations, we highlight the need for fine-tuned models that grasp the nuances of hate speech through greater label heterogeneity. We conclude with a vision for the future of hate speech detection, emphasizing cross-domain generalizability and appropriate benchmarking practices.
翻訳日:2023-10-31 15:17:25 公開日:2023-10-29
# AnomalyCLIP:ゼロショット異常検出のための物体認識型プロンプト学習

AnomalyCLIP: Object-agnostic Prompt Learning for Zero-shot Anomaly Detection ( http://arxiv.org/abs/2310.18961v1 )

ライセンス: Link先を確認
Qihang Zhou, Guansong Pang, Yu Tian, Shibo He, Jiming Chen(参考訳) ゼロショット異常検出(ZSAD)は、ターゲットデータセットのトレーニングサンプルなしで異常を検出するために補助データを使用してトレーニングされた検出モデルを必要とする。 データプライバシなどさまざまな懸念があるため、データのトレーニングがアクセスできない場合、重要なタスクですが、前景オブジェクトや異常領域、さまざまな製品や組織における欠陥や腫瘍などのバックグラウンド特徴の出現が著しく変化するような、さまざまなドメインの異常に一般化する必要があるため、非常に難しいのです。 近年,クリップなどの大規模事前学習型視覚言語モデル(vlms)が,異常検出を含む様々な視覚課題において強いゼロショット認識能力を示している。 しかし、VLMは画像の異常や異常ではなく、前景オブジェクトのクラスセマンティクスをモデル化することに重点を置いているため、ZSAD性能は弱い。 本稿では、AnomalyCLIPと呼ばれる新しいアプローチを導入し、CLIPを異なる領域にわたる正確なZSADに適用する。 AnomalyCLIPの重要な洞察は、オブジェクトに依存しないテキストのプロンプトを学習し、前景のオブジェクトに関係なく画像の一般的な正規性と異常を捉えることである。 これにより、モデルがオブジェクトのセマンティクスよりも異常な画像領域に焦点を合わせ、様々な種類のオブジェクトに対する一般化された正規性と異常認識を可能にします。 17の現実世界の異常検出データセットに関する大規模実験では、様々な欠陥検査や医療画像領域からの多種多様なクラスセマンティクスのデータセットにおいて、異常を検出および分割する優れたゼロショット性能が得られた。 コードはhttps://github.com/zqhang/AnomalyCLIPで公開される。

Zero-shot anomaly detection (ZSAD) requires detection models trained using auxiliary data to detect anomalies without any training sample in a target dataset. It is a crucial task when training data is not accessible due to various concerns, \eg, data privacy, yet it is challenging since the models need to generalize to anomalies across different domains where the appearance of foreground objects, abnormal regions, and background features, such as defects/tumors on different products/organs, can vary significantly. Recently large pre-trained vision-language models (VLMs), such as CLIP, have demonstrated strong zero-shot recognition ability in various vision tasks, including anomaly detection. However, their ZSAD performance is weak since the VLMs focus more on modeling the class semantics of the foreground objects rather than the abnormality/normality in the images. In this paper we introduce a novel approach, namely AnomalyCLIP, to adapt CLIP for accurate ZSAD across different domains. The key insight of AnomalyCLIP is to learn object-agnostic text prompts that capture generic normality and abnormality in an image regardless of its foreground objects. This allows our model to focus on the abnormal image regions rather than the object semantics, enabling generalized normality and abnormality recognition on diverse types of objects. Large-scale experiments on 17 real-world anomaly detection datasets show that AnomalyCLIP achieves superior zero-shot performance of detecting and segmenting anomalies in datasets of highly diverse class semantics from various defect inspection and medical imaging domains. Code will be made available at https://github.com/zqhang/AnomalyCLIP.
翻訳日:2023-10-31 15:17:16 公開日:2023-10-29
# ウェーブレット型ラムゼイ磁気計によるダイヤモンド中の単一NV中心の増強

Wavelet-based Ramsey magnetometry enhancement of a single NV center in diamond ( http://arxiv.org/abs/2310.18959v1 )

ライセンス: Link先を確認
Ekrem Taha G\"uldeste and Ceyhun Bulutay(参考訳) ダイヤモンド中の窒素空孔(NV)中心は固体ナノセンシングパラダイムを構成する。 特に高精度磁気計測では、時間分解スピン状態依存光ルミネッセンス(pl)データからセンシング信号を抽出する、いわゆるラムゼイ干渉法(ramsey interferometry)が一般的である。 感度は最終的に光子ショットノイズ(PSN)によって制限され、平均周波数フィルタリングや周波数フィルタリングでは十分に除去できない。 本稿では,PSN抑制に適したウェーブレットデノケーション方式により強化された単一NV中心のラムゼー直流磁力計を提案する。 単に収集したpl時系列に適用された後処理として動作する。 提案手法は, 標準量子限界に対する信号対雑音比の改善を, 有限時間予算測定の場合, 最大等級に拡張したテンプレートマージンしきい値を用いた。

Nitrogen-vacancy (NV) centers in diamond constitute a solid-state nanosensing paradigm. Specifically for high-precision magnetometry, the so-called Ramsey interferometry is the prevalent choice where the sensing signal is extracted from time-resolved spin-state-dependent photoluminescence (PL) data. Its sensitivity is ultimately limited by the photon shot noise (PSN), which cannot be sufficiently removed by averaging or frequency filtering. Here, we propose Ramsey DC magnetometry of a single NV center enhanced by a wavelet-denoising scheme specifically tailored to suppress PSN. It simply operates as a post-processing applied on a collected PL time series. Our implementation is based on template margin thresholding which we computationally benchmark, and demonstrate its signal-to-noise-ratio improvement over the standard quantum limit by up to an order of magnitude for the case of limited-time-budget measurements.
翻訳日:2023-10-31 15:16:44 公開日:2023-10-29
# スマートリプライシステムのためのブートストラップによるエンドツーエンド自動回帰検索

End-to-End Autoregressive Retrieval via Bootstrapping for Smart Reply Systems ( http://arxiv.org/abs/2310.18956v1 )

ライセンス: Link先を確認
Benjamin Towle, Ke Zhou(参考訳) 返信提案システムは、多くのインスタントメッセージングやメールシステムの主成分である。 しかし、個々の返信ではなく、一連の返信を生成するという要求は、個々のメッセージ・レスポンスの類似性のみを考慮し、既定の検索アーキテクチャにはあまり適さない。 その結果、これらのシステムは出力を多様化するために追加の後処理モジュールに依存することが多い。 しかし、これらのアプローチは最終的に最初のレトリバーのパフォーマンスによってボトルネックとなり、実際には下流の多様化モジュールに十分に多様なオプションを提供するのに苦労しており、提案はユーザにはあまり関係しない。 本稿では,このパイプラインを,ブートストラップによって得られる(メッセージ,返信セット)ペアのデータセットから,スマート応答タスクをエンドツーエンドに学習する自動回帰テキスト-テキスト検索モデルにより,根本的に単純化する手法を検討する。 実験の結果、この手法は3つのデータセットにまたがる最先端のベースラインを一貫して上回っており、5.1%-17.9%の妥当性向上と0.5%-63.1%の多様性向上に対応している。 コードを公開しています。

Reply suggestion systems represent a staple component of many instant messaging and email systems. However, the requirement to produce sets of replies, rather than individual replies, makes the task poorly suited for out-of-the-box retrieval architectures, which only consider individual message-reply similarity. As a result, these system often rely on additional post-processing modules to diversify the outputs. However, these approaches are ultimately bottlenecked by the performance of the initial retriever, which in practice struggles to present a sufficiently diverse range of options to the downstream diversification module, leading to the suggestions being less relevant to the user. In this paper, we consider a novel approach that radically simplifies this pipeline through an autoregressive text-to-text retrieval model, that learns the smart reply task end-to-end from a dataset of (message, reply set) pairs obtained via bootstrapping. Empirical results show this method consistently outperforms a range of state-of-the-art baselines across three datasets, corresponding to a 5.1%-17.9% improvement in relevance, and a 0.5%-63.1% improvement in diversity compared to the best baseline approach. We make our code publicly available.
翻訳日:2023-10-31 15:16:28 公開日:2023-10-29
# 暗闇の中で演奏する: 敵対的制約による非回帰学習

Playing in the Dark: No-regret Learning with Adversarial Constraints ( http://arxiv.org/abs/2310.18955v1 )

ライセンス: Link先を確認
Abhishek Sinha and Rahul Vaze(参考訳) オンライン凸最適化(oco)フレームワークの長期的制約を考慮した一般化について検討する。 具体的には、オンラインポリシーがラウンドでのアクションを決定すると、凸コスト関数に加えて、敵は一連の$k$凸制約も明らかにする。 コストと制約関数は時間とともに任意に変化する可能性があり、将来の機能に関する情報は得られないと仮定されている。 本稿では,sublinear cumulative constraints violation とsublinear regret を同時に達成するメタポリシーを提案する。 これは、サロゲートコスト関数の再帰的に構築されたシーケンスの標準oco問題に対する制約付き問題のブラックボックス還元によって達成される。 本稿では,標準データ依存の後悔境界を享受する任意の適応型ocoポリシーを用いてサロゲート問題を解くことで,最適性能境界を実現できることを示す。 新たな分解結果を通じて,後悔とある連続的不等式との関係を明らかにする新しいリアプノフに基づく証明手法を提案する。 本稿は、オンラインマルチタスク学習およびネットワーク制御問題への応用を強調して結論付ける。

We study a generalization of the classic Online Convex Optimization (OCO) framework by considering additional long-term adversarial constraints. Specifically, after an online policy decides its action on a round, in addition to a convex cost function, the adversary also reveals a set of $k$ convex constraints. The cost and the constraint functions could change arbitrarily with time, and no information about the future functions is assumed to be available. In this paper, we propose a meta-policy that simultaneously achieves a sublinear cumulative constraint violation and a sublinear regret. This is achieved via a black box reduction of the constrained problem to the standard OCO problem for a recursively constructed sequence of surrogate cost functions. We show that optimal performance bounds can be achieved by solving the surrogate problem using any adaptive OCO policy enjoying a standard data-dependent regret bound. A new Lyapunov-based proof technique is presented that reveals a connection between regret and certain sequential inequalities through a novel decomposition result. We conclude the paper by highlighting applications to online multi-task learning and network control problems.
翻訳日:2023-10-31 15:16:07 公開日:2023-10-29
# 効率的な映像セマンティクスセグメンテーションのためのマスク伝搬

Mask Propagation for Efficient Video Semantic Segmentation ( http://arxiv.org/abs/2310.18954v1 )

ライセンス: Link先を確認
Yuetian Weng, Mingfei Han, Haoyu He, Mingjie Li, Lina Yao, Xiaojun Chang, Bohan Zhuang(参考訳) ビデオ意味セマンティクスセグメンテーション(vss)は、ビデオシーケンスの各ピクセルに意味ラベルを割り当てることを含む。 この分野での先行研究は、ビデオフレーム間の時間的関係を利用するために画像意味セグメンテーションモデルを拡張することによって有望な結果を示しているが、これらのアプローチは、しばしば重要な計算コストをもたらす。 本稿では,MPVSSと呼ばれるVSSのための効率的なマスク伝搬フレームワークを提案する。 提案手法では,まずスパースキーフレーム上に強いクエリベースの画像セグメンタを用い,正確なバイナリマスクとクラス予測を生成する。 次に、学習したクエリを利用したフロー推定モジュールを設計し、それぞれがキーフレームからマスク予測に関連するセグメント認識フローマップを生成する。 最後に、マスクフローペアは非キーフレームのマスク予測として機能するように警告される。 キーフレームからの予測を再利用することにより、リソース集約セグメントで個別に大量のビデオフレームを処理する必要性を回避し、時間的冗長を緩和し、計算コストを大幅に削減する。 VSPWとCityscapesの大規模な実験により、我々のマスク伝搬フレームワークがSOTAの精度と効率のトレードオフを達成することを示した。 例えば、Swin-Lのバックボーンを用いた最良のモデルは、MIT-B5を用いてSOTA MRCFAを4.0%mIoUで上回り、VSPWデータセット上でFLOPは26%しか必要としない。 さらに,本フレームワークは,フレーム単位のMask2Formerベースラインに比べて最大4倍のFLOPを削減し,Cityscapes検証セット上では最大2%のmIoUしか劣化しない。 コードはhttps://github.com/ziplab/mpvssで入手できる。

Video Semantic Segmentation (VSS) involves assigning a semantic label to each pixel in a video sequence. Prior work in this field has demonstrated promising results by extending image semantic segmentation models to exploit temporal relationships across video frames; however, these approaches often incur significant computational costs. In this paper, we propose an efficient mask propagation framework for VSS, called MPVSS. Our approach first employs a strong query-based image segmentor on sparse key frames to generate accurate binary masks and class predictions. We then design a flow estimation module utilizing the learned queries to generate a set of segment-aware flow maps, each associated with a mask prediction from the key frame. Finally, the mask-flow pairs are warped to serve as the mask predictions for the non-key frames. By reusing predictions from key frames, we circumvent the need to process a large volume of video frames individually with resource-intensive segmentors, alleviating temporal redundancy and significantly reducing computational costs. Extensive experiments on VSPW and Cityscapes demonstrate that our mask propagation framework achieves SOTA accuracy and efficiency trade-offs. For instance, our best model with Swin-L backbone outperforms the SOTA MRCFA using MiT-B5 by 4.0% mIoU, requiring only 26% FLOPs on the VSPW dataset. Moreover, our framework reduces up to 4x FLOPs compared to the per-frame Mask2Former baseline with only up to 2% mIoU degradation on the Cityscapes validation set. Code is available at https://github.com/ziplab/MPVSS.
翻訳日:2023-10-31 15:15:49 公開日:2023-10-29
# TIC-TAC: 共分散を学習し、評価するフレームワーク

TIC-TAC: A Framework To Learn And Evaluate Your Covariance ( http://arxiv.org/abs/2310.18953v1 )

ライセンス: Link先を確認
Megh Shukla, Mathieu Salzmann, Alexandre Alahi(参考訳) 本研究では,多変量対象分布 $\mathcal{n}(y, \sigma_y | x )$ を観測値 $x$ で学習することを目的とした,教師なしヘテロシデスティック共分散推定の問題を考察する。 この問題は、異なるサンプル(ヘテロセダスティック)に対して$\Sigma_{y}$が変化するため特に困難であり、共分散のアノテーションは利用できない(教師なし)。 一般に、最先端の手法は、負のログ類似性を用いて訓練された2つのニューラルネットワークを通してターゲット分布の平均$f_{\theta}(x)$と共分散$\textrm{cov}(f_{\theta}(x))$を予測する。 これは2つの疑問を提起する:(1)予測共分散は予測平均のランダム性を真に捉えているか? 2) 接地アノテーションが存在しない場合, 共分散推定の性能を定量化するにはどうすればよいか? tic: taylor induced covariance を導出することで (1) に対処し、多変量 $f_{\theta}(x)$ のランダム性を取り込む。 さらに, 正規分布の条件付けを利用して共分散を評価する指標 tac: task agnostic correlations を導入することで (2) に取り組む。 合成(単変量,多変量,多変量)および実世界のデータセット(UCI回帰,LSP,MPII人文推定)にまたがる複数の実験によるTICの有効性を検証する。 実験の結果,共分散をTACで定量化することにより,共分散を正確に学習する上で,TICは最先端技術よりも優れていることがわかった。

We study the problem of unsupervised heteroscedastic covariance estimation, where the goal is to learn the multivariate target distribution $\mathcal{N}(y, \Sigma_y | x )$ given an observation $x$. This problem is particularly challenging as $\Sigma_{y}$ varies for different samples (heteroscedastic) and no annotation for the covariance is available (unsupervised). Typically, state-of-the-art methods predict the mean $f_{\theta}(x)$ and covariance $\textrm{Cov}(f_{\theta}(x))$ of the target distribution through two neural networks trained using the negative log-likelihood. This raises two questions: (1) Does the predicted covariance truly capture the randomness of the predicted mean? (2) In the absence of ground-truth annotation, how can we quantify the performance of covariance estimation? We address (1) by deriving TIC: Taylor Induced Covariance, which captures the randomness of the multivariate $f_{\theta}(x)$ by incorporating its gradient and curvature around $x$ through the second order Taylor polynomial. Furthermore, we tackle (2) by introducing TAC: Task Agnostic Correlations, a metric which leverages conditioning of the normal distribution to evaluate the covariance. We verify the effectiveness of TIC through multiple experiments spanning synthetic (univariate, multivariate) and real-world datasets (UCI Regression, LSP, and MPII Human Pose Estimation). Our experiments show that TIC outperforms state-of-the-art in accurately learning the covariance, as quantified through TAC.
翻訳日:2023-10-31 15:15:17 公開日:2023-10-29
# 片手スケッチによるスタイルGANのカスタマイズ

Customize StyleGAN with One Hand Sketch ( http://arxiv.org/abs/2310.18949v1 )

ライセンス: Link先を確認
Shaocong Zhang(参考訳) 人間のスケッチから画像を生成するには、通常、スクラッチからトレーニングされた専用ネットワークが必要です。 対照的に、事前訓練されたビジョンランゲージモデル(例えばCLIP)の出現は、テキスト入力や参照画像による既存のStyleGANモデルの出力画像の制御に基づいて、生成アプリケーションを推進してきた。 また,本研究では,単一ユーザスケッチでスタイルGAN画像を制御するフレームワークを提案する。 特に,事前学習したStyleGANモデルの潜在空間における条件分布をエネルギーベース学習により学習し,CLIPを利用した2つの新しいエネルギー関数を提案する。 トレーニングを済ませば、入力スケッチにセマンティックに整合したマルチモーダル画像を生成することができる。 合成データセットの定量的評価により, 従来手法とは大きく改善されていることが示された。 本手法の優位性は,多様なスタイルやポーズの幅広い人間のスケッチを実験する場合にさらに強調される。 驚くべきことに、我々のモデルは、より厳格な設定で動作しているにもかかわらず、スケッチ入力の範囲と画像品質の両方について、以前のベースラインよりも優れています。

Generating images from human sketches typically requires dedicated networks trained from scratch. In contrast, the emergence of the pre-trained Vision-Language models (e.g., CLIP) has propelled generative applications based on controlling the output imagery of existing StyleGAN models with text inputs or reference images. Parallelly, our work proposes a framework to control StyleGAN imagery with a single user sketch. In particular, we learn a conditional distribution in the latent space of a pre-trained StyleGAN model via energy-based learning and propose two novel energy functions leveraging CLIP for cross-domain semantic supervision. Once trained, our model can generate multi-modal images semantically aligned with the input sketch. Quantitative evaluations on synthesized datasets have shown that our approach improves significantly from previous methods in the one-shot regime. The superiority of our method is further underscored when experimenting with a wide range of human sketches of diverse styles and poses. Surprisingly, our models outperform the previous baseline regarding both the range of sketch inputs and image qualities despite operating with a stricter setting: with no extra training data and single sketch input.
翻訳日:2023-10-31 15:14:39 公開日:2023-10-29
# 多経路長期船舶軌道予測によるより安全な海上環境の構築

Building a Safer Maritime Environment Through Multi-Path Long-Term Vessel Trajectory Forecasting ( http://arxiv.org/abs/2310.18948v1 )

ライセンス: Link先を確認
Gabriel Spadon, Jay Kumar, Matthew Smith, Sarah Vela, Romina Gehrmann, Derek Eden, Joshua van Berkel, Amilcar Soares, Ronan Fablet, Ronald Pelot, Stan Matwin(参考訳) 海洋輸送は、世界的な経済成長と環境持続可能性にとって最重要課題である。 この点において、自動識別システム(AIS)データは、船舶の移動にリアルタイムのストリーミングデータを提供することで、交通監視の強化、船舶と船舶の衝突を避けることによる船舶の安全支援、船舶と鯨の衝突を積極的に防止することで、重要な役割を果たす。 本稿では,AISデータを用いた多経路長期船体軌道予測という,トラジェクトリ予測の本質的な課題に取り組む。 双方向長短短期記憶ネットワーク(bi-lstm)を用いたエンコーダ・デコーダモデルを用いて,1〜3時間のaisデータを用いて,次の12時間の血管軌跡を予測する。 我々は,aisデータから設計した確率的特徴をモデルに与え,そのモデルが空間的特徴学習に畳み込み層を利用するように,および時間的特徴学習中にシーケンスの最近の時間ステップの重要性を高める位置認識注意機構を用いて,潜在的経路と目的地を考慮した船舶軌道を予測する。 これらの機能のF1スコアはおよそ85%と75%であり、ニューラルネットワークを補完する効率を示している。 我々は北大西洋右クジラ(NARW)生息地の一つであるセントローレンス湾で実験を行い、異なる技術と特徴を持つR2スコアを98%以上達成した。 高いR2スコアは適切に定義された運送レーンに起因するが,本モデルでは経路選択時の複雑な意思決定に優れることを示す。 さらに,本モデルでは,平均予測誤差が11km,平均予測誤差が6km,精度が向上した。 本研究は,海洋生物保全のための地理データ工学および軌道予測モデルの可能性を検証する。

Maritime transport is paramount to global economic growth and environmental sustainability. In this regard, the Automatic Identification System (AIS) data plays a significant role by offering real-time streaming data on vessel movement, which allows for enhanced traffic surveillance, assisting in vessel safety by avoiding vessel-to-vessel collisions and proactively preventing vessel-to-whale ones. This paper tackles an intrinsic problem to trajectory forecasting: the effective multi-path long-term vessel trajectory forecasting on engineered sequences of AIS data. We utilize an encoder-decoder model with Bidirectional Long Short-Term Memory Networks (Bi-LSTM) to predict the next 12 hours of vessel trajectories using 1 to 3 hours of AIS data. We feed the model with probabilistic features engineered from the AIS data that refer to the potential route and destination of each trajectory so that the model, leveraging convolutional layers for spatial feature learning and a position-aware attention mechanism that increases the importance of recent timesteps of a sequence during temporal feature learning, forecasts the vessel trajectory taking the potential route and destination into account. The F1 Score of these features is approximately 85% and 75%, indicating their efficiency in supplementing the neural network. We trialed our model in the Gulf of St. Lawrence, one of the North Atlantic Right Whales (NARW) habitats, achieving an R2 score exceeding 98% with varying techniques and features. Despite the high R2 score being attributed to well-defined shipping lanes, our model demonstrates superior complex decision-making during path selection. In addition, our model shows enhanced accuracy, with average and median forecasting errors of 11km and 6km, respectively. Our study confirms the potential of geographical data engineering and trajectory forecasting models for preserving marine life species.
翻訳日:2023-10-31 15:14:20 公開日:2023-10-29
# 多対多のスプレイティングと空間選択化によるビデオフレーム補間

Video Frame Interpolation with Many-to-many Splatting and Spatial Selective Refinement ( http://arxiv.org/abs/2310.18946v1 )

ライセンス: Link先を確認
Ping Hu, Simon Niklaus, Lu Zhang, Stan Sclaroff, Kate Saenko(参考訳) 本稿では,まず,フレームを効率的に補間するための完全微分可能な多対多(m2m)スプレーティングフレームワークを提案する。 フレーム対が与えられると,複数の双方向流れを推定し,重なり合う画素を融合する前に,画素を所望の時間ステップに直進させる。 これにより、各ソースピクセルは複数のターゲットピクセルを描画し、各ターゲットピクセルはより広い視野から合成でき、望ましくないアーティファクトに対して堅牢性を備えた多対多のスプラッティングスキームが確立される。 入力フレームペアごとに、M2Mは任意の数のフレーム間を補間する際の計算オーバーヘッドを極小にし、高速なマルチフレーム補間を実現する。 しかし、強度領域の画素を直接歪め、融合させることは、運動推定の品質に敏感であり、効率の悪い表現能力に悩まされる可能性がある。 補間精度を向上させるために、我々は、補間品質の計算効率を取引できるフレキシブルな空間選択精製(SSR)コンポーネントを導入することで、M2M++フレームワークをさらに拡張する。 補間フレーム全体を書き換える代わりに、SSRは推定誤差マップのガイダンスに基づいて選択された困難な領域のみを処理し、冗長な計算を避ける。 複数のベンチマークデータセットにおける評価結果から,本手法は競合映像補間品質を維持しつつ効率を向上でき,必要に応じて計算量を調整できることがわかった。

In this work, we first propose a fully differentiable Many-to-Many (M2M) splatting framework to interpolate frames efficiently. Given a frame pair, we estimate multiple bidirectional flows to directly forward warp the pixels to the desired time step before fusing overlapping pixels. In doing so, each source pixel renders multiple target pixels and each target pixel can be synthesized from a larger area of visual context, establishing a many-to-many splatting scheme with robustness to undesirable artifacts. For each input frame pair, M2M has a minuscule computational overhead when interpolating an arbitrary number of in-between frames, hence achieving fast multi-frame interpolation. However, directly warping and fusing pixels in the intensity domain is sensitive to the quality of motion estimation and may suffer from less effective representation capacity. To improve interpolation accuracy, we further extend an M2M++ framework by introducing a flexible Spatial Selective Refinement (SSR) component, which allows for trading computational efficiency for interpolation quality and vice versa. Instead of refining the entire interpolated frame, SSR only processes difficult regions selected under the guidance of an estimated error map, thereby avoiding redundant computation. Evaluation on multiple benchmark datasets shows that our method is able to improve the efficiency while maintaining competitive video interpolation quality, and it can be adjusted to use more or less compute as needed.
翻訳日:2023-10-31 15:13:50 公開日:2023-10-29
# S2F-NER:複雑なエンティティ認識のためのシーケンス・ツー・フォレスト生成の探索

S2F-NER: Exploring Sequence-to-Forest Generation for Complex Entity Recognition ( http://arxiv.org/abs/2310.18944v1 )

ライセンス: Link先を確認
Yongxiu Xu and Heyan Huang and Yue Hu(参考訳) 名前付きエンティティ認識(NER)は、ネスト、重複、不連続といった複雑なエンティティのため、依然として困難である。 seq2seq(sequence-to-sequence)生成やスパンベースの分類といった既存のアプローチは、さまざまなnerサブタスクで印象的なパフォーマンスを示しているが、露出バイアス問題や非効率的な計算のため、入力テキストが長いデータセットにスケールすることは困難である。 本稿では,複数のエンティティを逐次的ではなく並列にデコードするフォレストデコーダを用いて,文中のエンティティを直接抽出できる新しいシーケンス・ツー・フォレスト生成パラダイムであるS2F-NERを提案する。 具体的には,木々の各経路を自己回帰的に生成し,各木々の最大深さは3である(これは複雑なNERにおいて最も短く,Seq2Seqの復号長よりもはるかに小さい)。 この新しいパラダイムに基づき、このモデルは露出バイアス問題をエレガントに軽減し、seq2seqの単純さを保ちます。 実験結果から,本モデルは3つの不連続なNERデータセットと2つのネストしたNERデータセット,特に不連続なエンティティ認識のベースラインを大幅に上回ることがわかった。

Named Entity Recognition (NER) remains challenging due to the complex entities, like nested, overlapping, and discontinuous entities. Existing approaches, such as sequence-to-sequence (Seq2Seq) generation and span-based classification, have shown impressive performance on various NER subtasks, but they are difficult to scale to datasets with longer input text because of either exposure bias issue or inefficient computation. In this paper, we propose a novel Sequence-to-Forest generation paradigm, S2F-NER, which can directly extract entities in sentence via a Forest decoder that decode multiple entities in parallel rather than sequentially. Specifically, our model generate each path of each tree in forest autoregressively, where the maximum depth of each tree is three (which is the shortest feasible length for complex NER and is far smaller than the decoding length of Seq2Seq). Based on this novel paradigm, our model can elegantly mitigates the exposure bias problem and keep the simplicity of Seq2Seq. Experimental results show that our model significantly outperforms the baselines on three discontinuous NER datasets and on two nested NER datasets, especially for discontinuous entity recognition.
翻訳日:2023-10-31 15:13:14 公開日:2023-10-29
# ウェアウルフゲームにおける戦略的遊びのための強化学習型言語エージェント

Language Agents with Reinforcement Learning for Strategic Play in the Werewolf Game ( http://arxiv.org/abs/2310.18940v1 )

ライセンス: Link先を確認
Zelai Xu, Chao Yu, Fei Fang, Yu Wang, Yi Wu(参考訳) 大規模言語モデル(LLM)で構築されたエージェントは、最近大きな進歩を遂げた。 しかし、ほとんどの取り組みはシングルエージェントまたは協調環境にフォーカスしており、より一般的なマルチエージェント環境は過小評価されている。 本研究では,戦略的思考能力を有するllmベースのエージェントを,人気のある言語ゲームであるwarwolf向けに,強化学習(rl)を活用した新しいフレームワークを提案する。 ウェアウルフ(Werewolf)は、協調と競争の両方にかかわる隠れた役割を持つ社会的推論ゲームである。 我々のエージェントはこのゲームに、まずLSMを用いて、潜在的な騙しを推論し、戦略的に多様なアクションのセットを生成する。 そして、候補者から行動を選択するrlポリシーを、エージェントの意思決定能力を高めるために人口ベースのトレーニングによって学習する。 LLMとRLポリシーを組み合わせることで、我々のエージェントは様々な創発的戦略を生み出し、他のLSMベースのエージェントに対して最も高い勝利率を達成し、Werewolfゲームにおける敵の人間プレイヤーに対して頑健である。

Agents built with large language models (LLMs) have recently achieved great advancements. However, most of the efforts focus on single-agent or cooperative settings, leaving more general multi-agent environments underexplored. We propose a new framework powered by reinforcement learning (RL) to develop strategic language agents, i.e., LLM-based agents with strategic thinking ability, for a popular language game, Werewolf. Werewolf is a social deduction game with hidden roles that involves both cooperation and competition and emphasizes deceptive communication and diverse gameplay. Our agent tackles this game by first using LLMs to reason about potential deceptions and generate a set of strategically diverse actions. Then an RL policy, which selects an action from the candidates, is learned by population-based training to enhance the agents' decision-making ability. By combining LLMs with the RL policy, our agent produces a variety of emergent strategies, achieves the highest win rate against other LLM-based agents, and stays robust against adversarial human players in the Werewolf game.
翻訳日:2023-10-31 15:12:48 公開日:2023-10-29
# Chess960の結果を予測する機械学習アルゴリズムとオープンテーマの開発

Machine Learning Algorithms to Predict Chess960 Result and Develop Opening Themes ( http://arxiv.org/abs/2310.18938v1 )

ライセンス: Link先を確認
Shreyan Deo and Nishchal Dwivedi(参考訳) この研究は、ピースの開始位置がランダム化された伝統的なチェスの変種であるフィッシャーランダムチェス(fischer random chess)としても知られるチェス960の分析に焦点を当てている。 本研究の目的は、機械学習技術を用いてゲーム結果の予測と、各スタート位置のオープニングテーマの開発である。 分析の最初の部分は、機械学習モデルを用いて、各位置の特定の動きに基づいてゲーム結果を予測する。 この手法では生データを.netから分離する。 使用可能なフォーマットにファイルを作成し、開始位置ごとに約500のゲームからなるデータセットを作成する。 KNN Clustering、Random Forest、Gradient Boosted Treesの3つの機械学習アルゴリズムがゲームの結果を予測するために使用されている。 オープニングテーマを確立するために、ボードはセンター、ホワイトキングサイド、ホワイトクイーンサイド、ブラックキングサイド、ブラッククイーンサイドの5つのリージョンに分けられる。 トップエンジンが960ポジション全てでプレイしたゲームデータは、オープニングのピースの動きを追跡するために使用される。 特定の動作で各領域の駒数の変化を分析することにより、レポートはゲームが展開している領域を予測する。 これらのモデルはチェス960のゲーム結果の予測とオープニングテーマの理解に関する貴重な洞察を提供する。

This work focuses on the analysis of Chess 960, also known as Fischer Random Chess, a variant of traditional chess where the starting positions of the pieces are randomized. The study aims to predict the game outcome using machine learning techniques and develop an opening theme for each starting position. The first part of the analysis utilizes machine learning models to predict the game result based on certain moves in each position. The methodology involves segregating raw data from .pgn files into usable formats and creating datasets comprising approximately 500 games for each starting position. Three machine learning algorithms -- KNN Clustering, Random Forest, and Gradient Boosted Trees -- have been used to predict the game outcome. To establish an opening theme, the board is divided into five regions: center, white kingside, white queenside, black kingside, and black queenside. The data from games played by top engines in all 960 positions is used to track the movement of pieces in the opening. By analysing the change in the number of pieces in each region at specific moves, the report predicts the region towards which the game is developing. These models provide valuable insights into predicting game outcomes and understanding the opening theme in Chess 960.
翻訳日:2023-10-31 15:12:29 公開日:2023-10-29
# 2次劣化と再構成による高分解能試験時間適応

Efficient Test-Time Adaptation for Super-Resolution with Second-Order Degradation and Reconstruction ( http://arxiv.org/abs/2310.19011v1 )

ライセンス: Link先を確認
Zeshuai Deng, Zhuokun Chen, Shuaicheng Niu, Thomas H. Li, Bohan Zhuang, Mingkui Tan(参考訳) 画像超解像(SR)は,低分解能(LR)から高分解能(HR)へのマッピングを,対のHR-LRトレーニング画像を用いて学習することを目的としている。 従来のsr法は、例えばbicubicdown-sampingのような所定の分解モデルを用いてhr画像からlr画像を合成してペアトレーニングデータを収集する。 しかし,現実的な劣化型テスト画像は実世界のシナリオが動的に変化するため,訓練時間劣化型とミスマッチする可能性がある。 既存の手法では、劣化モデルを推定し、画像固有のモデルを訓練しようとするが、急速に変化するドメインシフトを扱うのにはかなり時間がかかり、実行不可能である。 さらに、これらの手法は、実世界のテストタイムシナリオにおけるノイズやJPEGなどの他の劣化タイプを見越して、一つの劣化タイプ(例えば、ぼかし劣化)を推定することに集中している。 これらの問題に対処するために,SRTTAと呼ばれるSRの効率的なテスト時間適応フレームワークを提案する。 具体的には,事前学習した劣化分類器によって予測されるテスト画像の劣化型に基づいて,ペアデータを構成する2次劣化スキームを設計する。 そして、初期テスト画像から2階劣化画像への特徴レベル再構成学習を実装してSRモデルを適応させ、SRモデルが可塑性HR画像を生成するのに役立つ。 8つの異なる劣化と複数の実世界のデータセットを持つ新たに合成されたDIV2Kデータセットに対して大規模な実験を行い、我々のSRTTAフレームワークは、既存の手法よりも高速で大幅に改善されていることを示した。 ソースコードはhttps://github.com/DengZeshuai/SRTTAで入手できる。

Image super-resolution (SR) aims to learn a mapping from low-resolution (LR) to high-resolution (HR) using paired HR-LR training images. Conventional SR methods typically gather the paired training data by synthesizing LR images from HR images using a predetermined degradation model, e.g., Bicubic down-sampling. However, the realistic degradation type of test images may mismatch with the training-time degradation type due to the dynamic changes of the real-world scenarios, resulting in inferior-quality SR images. To address this, existing methods attempt to estimate the degradation model and train an image-specific model, which, however, is quite time-consuming and impracticable to handle rapidly changing domain shifts. Moreover, these methods largely concentrate on the estimation of one degradation type (e.g., blur degradation), overlooking other degradation types like noise and JPEG in real-world test-time scenarios, thus limiting their practicality. To tackle these problems, we present an efficient test-time adaptation framework for SR, named SRTTA, which is able to quickly adapt SR models to test domains with different/unknown degradation types. Specifically, we design a second-order degradation scheme to construct paired data based on the degradation type of the test image, which is predicted by a pre-trained degradation classifier. Then, we adapt the SR model by implementing feature-level reconstruction learning from the initial test image to its second-order degraded counterparts, which helps the SR model generate plausible HR images. Extensive experiments are conducted on newly synthesized corrupted DIV2K datasets with 8 different degradations and several real-world datasets, demonstrating that our SRTTA framework achieves an impressive improvement over existing methods with satisfying speed. The source code is available at https://github.com/DengZeshuai/SRTTA.
翻訳日:2023-10-31 15:05:42 公開日:2023-10-29
# 逆関数最適化による行動アライメント

Behavior Alignment via Reward Function Optimization ( http://arxiv.org/abs/2310.19007v1 )

ライセンス: Link先を確認
Dhawal Gupta, Yash Chandak, Scott M. Jordan, Philip S. Thomas, Bruno Castro da Silva(参考訳) 特定の行動に対する強化学習(RL)エージェントを効率的に導くための報酬関数の設計は複雑な作業である。 スパースのない報酬構造を識別し、望ましくない振る舞いを不注意に誘発することを避ける必要があるため、これは困難である。 より密集した頻繁なフィードバックを提供するために報酬構造を内在的に修正することは意図しない結果をもたらし、設計者の意図した目標に合わない振る舞いを促進する。 潜在的な報酬形成は、しばしば治療として提案されるが、我々は、そのデプロイがパフォーマンスを著しく損なうような設定を体系的に調査する。 これらの問題に対処するために,両レベルの目的を用いて,emph{behavior alignment reward function} を学習する新しいフレームワークを導入する。 これらの機能は、デザイナーのヒューリスティックとドメイン知識と環境のプライマリ報酬を反映した補助報酬を統合する。 提案手法は,これらのフィードバックをブレンドする最も効果的な方法を自動的に決定し,ヒューリスティック報酬の誤特定に対する堅牢性を高める。 注目すべきは、エージェントのポリシー最適化プロセスに適応して、基礎となるRLアルゴリズムに固有の制限とバイアスから生じる亜最適性を緩和することもできることである。 本手法は, 小規模実験から高次元制御課題まで, 様々な課題に対して有効性を評価する。 様々な品質のヒューリスティック補助報酬について検討し、その一部は有益であり、他は学習プロセスに有害である。 我々のフレームワークは,設計者が特定したヒューリスティックスを統合するための堅牢で原則的な方法を提供する。 既存のアプローチの重要な欠点に対処するだけでなく、不一致や不特定な補助報酬関数が与えられた場合でも、一貫して高いパフォーマンスのソリューションに繋がる。

Designing reward functions for efficiently guiding reinforcement learning (RL) agents toward specific behaviors is a complex task. This is challenging since it requires the identification of reward structures that are not sparse and that avoid inadvertently inducing undesirable behaviors. Naively modifying the reward structure to offer denser and more frequent feedback can lead to unintended outcomes and promote behaviors that are not aligned with the designer's intended goal. Although potential-based reward shaping is often suggested as a remedy, we systematically investigate settings where deploying it often significantly impairs performance. To address these issues, we introduce a new framework that uses a bi-level objective to learn \emph{behavior alignment reward functions}. These functions integrate auxiliary rewards reflecting a designer's heuristics and domain knowledge with the environment's primary rewards. Our approach automatically determines the most effective way to blend these types of feedback, thereby enhancing robustness against heuristic reward misspecification. Remarkably, it can also adapt an agent's policy optimization process to mitigate suboptimalities resulting from limitations and biases inherent in the underlying RL algorithms. We evaluate our method's efficacy on a diverse set of tasks, from small-scale experiments to high-dimensional control challenges. We investigate heuristic auxiliary rewards of varying quality -- some of which are beneficial and others detrimental to the learning process. Our results show that our framework offers a robust and principled way to integrate designer-specified heuristics. It not only addresses key shortcomings of existing approaches but also consistently leads to high-performing solutions, even when given misaligned or poorly-specified auxiliary reward functions.
翻訳日:2023-10-31 15:05:10 公開日:2023-10-29
# 弱開語彙セマンティックセマンティックセグメンテーションのための原型知識の発見

Uncovering Prototypical Knowledge for Weakly Open-Vocabulary Semantic Segmentation ( http://arxiv.org/abs/2310.19001v1 )

ライセンス: Link先を確認
Fei Zhang, Tianfei Zhou, Boyang Li, Hao He, Chaofan Ma, Tianjiao Zhang, Jiangchao Yao, Ya Zhang, Yanfeng Wang(参考訳) 本稿では,任意のクラスのオブジェクトを単なる画像テキストペアでセグメンテーションすることを学ぶ,弱いオープンボキャブラリー意味セグメンテーション(wovss)の問題について述べる。 既存の作業は、画像トークンをクラスタ化してグループテキストアライメントを実行するために複数のグループトークン/セントロイドを使用する明示的なグループ認識を導入することで、バニラ視覚変換器を強化する。 しかしながら、これらの手法は、訓練段階と推論段階において、すべて対1対1の方法で整列されたグループトークンの使用に関する粒度の矛盾に悩まされている。 この不一致は、各グループのトークンに対する精巧な監督が欠如していることから生じる。 この粒度のギャップを埋めるために,本論文では,グループトークンを原型知識から明示的に監視する。 そこで本研究では,非学習可能なプロトタイプをソース特徴から推定し,グループトークンのコントラストマッチングを可能にする,非学習可能なプロトタイプ正規化(NPR)を提案する。 この正規化により、グループトークンは冗長性の少ないオブジェクトをセグメンテーションし、より包括的なセマンティクス領域をキャプチャし、コンパクト性とリッチ性が向上する。 nprに基づき,画像とテキストの双方の原型的源を異なるレベルで活用し,多様な原型的パターンでセグメント化能力を高め,マルチモーダル正規化を組み込んだ原型的ガイダンスセグメンテーションネットワーク(pgseg)を提案する。 実験結果から,提案手法はいくつかのベンチマークデータセット上で最先端の性能を実現する。 ソースコードはhttps://github.com/ferenas/pgsegで入手できる。

This paper studies the problem of weakly open-vocabulary semantic segmentation (WOVSS), which learns to segment objects of arbitrary classes using mere image-text pairs. Existing works turn to enhance the vanilla vision transformer by introducing explicit grouping recognition, i.e., employing several group tokens/centroids to cluster the image tokens and perform the group-text alignment. Nevertheless, these methods suffer from a granularity inconsistency regarding the usage of group tokens, which are aligned in the all-to-one v.s. one-to-one manners during the training and inference phases, respectively. We argue that this discrepancy arises from the lack of elaborate supervision for each group token. To bridge this granularity gap, this paper explores explicit supervision for the group tokens from the prototypical knowledge. To this end, this paper proposes the non-learnable prototypical regularization (NPR) where non-learnable prototypes are estimated from source features to serve as supervision and enable contrastive matching of the group tokens. This regularization encourages the group tokens to segment objects with less redundancy and capture more comprehensive semantic regions, leading to increased compactness and richness. Based on NPR, we propose the prototypical guidance segmentation network (PGSeg) that incorporates multi-modal regularization by leveraging prototypical sources from both images and texts at different levels, progressively enhancing the segmentation capability with diverse prototypical patterns. Experimental results show that our proposed method achieves state-of-the-art performance on several benchmark datasets. The source code is available at https://github.com/Ferenas/PGSeg.
翻訳日:2023-10-31 15:04:40 公開日:2023-10-29
# DynPoint:ビュー合成のための動的ニューラルポイント

DynPoint: Dynamic Neural Point For View Synthesis ( http://arxiv.org/abs/2310.18999v1 )

ライセンス: Link先を確認
Kaichen Zhou, Jia-Xing Zhong, Sangyun Shin, Kai Lu, Yiyuan Yang, Andrew Markham, Niki Trigoni(参考訳) 神経放射場の導入により、単眼ビデオにおけるビュー合成の有効性が大幅に向上した。 しかし、既存のアルゴリズムは制御されていないシナリオや長いシナリオを扱う際に困難に直面し、新しいシナリオごとに広範なトレーニング時間を必要とする。 このような制約に対処するために,制約のないモノクロビデオのための新しいビューの迅速な合成を容易にするアルゴリズムDynPointを提案する。 シナリオ情報の全体を潜在表現にエンコードする代わりに、DynPointは近隣フレーム間の明示的な3D対応を予測して情報集約を実現する。 具体的には、フレーム間の一貫した深さとシーンフロー情報の推定により、この対応予測を実現する。 その後、階層的なニューラルポイントクラウドを構築して、取得した対応を利用して、複数の参照フレームからターゲットフレームへの情報を集約する。 結果として得られるフレームワークは、ターゲットフレームの望ましいビューに対して、迅速かつ正確なビュー合成を可能にする。 実験の結果,提案手法で得られた訓練時間の相当な加速(典型的には桁違い)を実証し,先行手法と比較した結果を得た。 また,ビデオコンテンツの正準表現を学習することなく,長命映像の処理に強いロバスト性を示す。

The introduction of neural radiance fields has greatly improved the effectiveness of view synthesis for monocular videos. However, existing algorithms face difficulties when dealing with uncontrolled or lengthy scenarios, and require extensive training time specific to each new scenario. To tackle these limitations, we propose DynPoint, an algorithm designed to facilitate the rapid synthesis of novel views for unconstrained monocular videos. Rather than encoding the entirety of the scenario information into a latent representation, DynPoint concentrates on predicting the explicit 3D correspondence between neighboring frames to realize information aggregation. Specifically, this correspondence prediction is achieved through the estimation of consistent depth and scene flow information across frames. Subsequently, the acquired correspondence is utilized to aggregate information from multiple reference frames to a target frame, by constructing hierarchical neural point clouds. The resulting framework enables swift and accurate view synthesis for desired views of target frames. The experimental results obtained demonstrate the considerable acceleration of training time achieved - typically an order of magnitude - by our proposed method while yielding comparable outcomes compared to prior approaches. Furthermore, our method exhibits strong robustness in handling long-duration videos without learning a canonical representation of video content.
翻訳日:2023-10-31 15:04:01 公開日:2023-10-29
# ショートカット・ツー・アイソサーマル・スキームによるクビットリセット

Qubit Reset with a Shortcut-to-Isothermal Scheme ( http://arxiv.org/abs/2310.18997v1 )

ライセンス: Link先を確認
Hong-Bo Huang, Geng Li and Hui Dong(参考訳) ランドウアーの原理は、温度$t$の浴槽で古典ビットをリセットするのに最小のエネルギーコストが無限の時間に$k_{b}t\ln2$であることを示している。 しかしながら、有限時間でビットをリセットするタスクは、特に演算時間と制御性の両方が制限される量子ビット(量子ビット)に対して、新しい課題を提起している。 我々は、限定的な可制御性を持つ有限時間$\tau$で量子ビットをリセットするショートカットから等温スキームを設計する。 エネルギーコストは、非ホロノミック制約を伴わない最適制御スキームで最小化される。 この最適制御方式は、限られた時間に最小のエネルギーコストで量子ビットリセットを実現する基準を提供することができる。

Landauer's principle shows that the minimum energy cost to reset a classical bit in a bath with temperature $T$ is $k_{B}T\ln2$ in the infinite time. However, the task to reset the bit in finite time has posted a new challenge, especially for quantum bit (qubit) where both the operation time and controllability are limited. We design a shortcut-to-isothermal scheme to reset a qubit in finite time $\tau$ with limited controllability. The energy cost is minimized with the optimal control scheme with and without nonholonomic constraint. This optimal control scheme can provide a reference to realize qubit reset with minimum energy cost for the limited time.
翻訳日:2023-10-31 15:03:43 公開日:2023-10-29
# グラフ畳み込みオートエンコーダを用いた教師なし抽出要約のための2部グラフ事前学習

Bipartite Graph Pre-training for Unsupervised Extractive Summarization with Graph Convolutional Auto-Encoders ( http://arxiv.org/abs/2310.18992v1 )

ライセンス: Link先を確認
Qianren Mao and Shaobo Zhao and Jiarui Li and Xiaolei Gu and Shizhu He and Bo Li and Jianxin Li(参考訳) 事前訓練された文表現は、教師なし文書抽出要約における重要な文を特定するために重要である。 しかし、従来の2段階の事前学習と文ランク付けのパラダイムは、最適化の目的が異なるためにギャップを生じさせる。 この問題に対処するために,一意の文表現を最適化するために特別に設計されたプロセスから事前学習した埋め込みを利用することは,重要な文のランク付けに役立つと論じる。 そこで本研究では,文内特徴と文間結合特徴を明示的にモデル化し,文内埋め込みを得るための自動エンコーダを事前学習する新しいグラフを提案する。 これらの事前訓練された文表現は、教師なし要約のためのグラフベースのランキングアルゴリズムで利用される。 提案手法は,要約文表現を提供することで,教師なし要約フレームワークの性能を最大化する。 下流タスクでは、重いBERTまたはRoBERTaベースの文表現を上回る。

Pre-trained sentence representations are crucial for identifying significant sentences in unsupervised document extractive summarization. However, the traditional two-step paradigm of pre-training and sentence-ranking, creates a gap due to differing optimization objectives. To address this issue, we argue that utilizing pre-trained embeddings derived from a process specifically designed to optimize cohensive and distinctive sentence representations helps rank significant sentences. To do so, we propose a novel graph pre-training auto-encoder to obtain sentence embeddings by explicitly modelling intra-sentential distinctive features and inter-sentential cohesive features through sentence-word bipartite graphs. These pre-trained sentence representations are then utilized in a graph-based ranking algorithm for unsupervised summarization. Our method produces predominant performance for unsupervised summarization frameworks by providing summary-worthy sentence representations. It surpasses heavy BERT- or RoBERTa-based sentence representations in downstream tasks.
翻訳日:2023-10-31 15:03:28 公開日:2023-10-29
# スクランブルチャネルのためのpetz(lite)リカバリマップ

The Petz (lite) recovery map for scrambling channel ( http://arxiv.org/abs/2310.18991v1 )

ライセンス: Link先を確認
Yasuaki Nakayama, Akihiro Miyata, and Tomonori Ugajin(参考訳) 本研究では, ブラックホール蒸発のためのHayden-PreskillセットアップやSYKモデルなど, カオス系におけるペッツ回収マップの特性について検討する。 これらの系はスクランブルと呼ばれる現象を示すので、リカバリチャネル $\mathcal{R}$ の式は、物理的なヒルベルト空間に埋め込まれたコード部分空間の状態の時間的進化を定義する元のチャネル $\mathcal{N}^{\dagger}$ の随伴子 $\mathcal{N}^{\dagger}$ によって単純化されることを期待する。 この現象を2つの例に示す。 ひとつはhaarランダムユニタリによって記述されたhayden-preskillセットアップである。 相対エントロピー $s(\mathcal{r}\left[\mathcal{n}[\rho]\right] ||\rho)$ を計算し、デカップリングがアーカイブされたときに消失することを示す。 さらに,吉田とキタエフが提案したプロトコルと簡易復元マップが等価であることを示す。 2つ目の例はSYKモデルであり、2次元のコード部分空間はフェルミオン作用素の挿入によって定義され、システムはSYKハミルトニアンによって進化する。 出力密度行列 $\langle t|\mathcal{r}[\mathcal{n}[\rho]]|t' \rangle$ to r\'enyi-two modular flowed correlator のいくつかの行列要素を関連付けることで回復現象を確認し、スクランブルタイムの2倍の誤差で入力密度行列の要素と一致することを示す。

We study properties of the Petz recovery map in chaotic systems, such as the Hayden-Preskill setup for evaporating black holes and the SYK model. Since these systems exhibit the phenomenon called scrambling, we expect that the expression of the recovery channel $\mathcal{R}$ gets simplified, given by just the adjoint $\mathcal{N}^{\dagger}$ of the original channel $\mathcal{N}$ which defines the time evolution of the states in the code subspace embedded into the physical Hilbert space. We check this phenomenon in two examples. The first one is the Hayden-Preskill setup described by Haar random unitaries. We compute the relative entropy $S(\mathcal{R}\left[\mathcal{N}[\rho]\right] ||\rho)$ and show that it vanishes when the decoupling is archived. We further show that the simplified recovery map is equivalent to the protocol proposed by Yoshida and Kitaev. The second example is the SYK model where the two dimensional code subspace is defined by an insertion of a fermionic operator, and the system is evolved by the SYK Hamiltonian. We check the recovery phenomenon by relating some matrix elements of an output density matrix $\langle T|\mathcal{R}[\mathcal{N}[\rho]]|T' \rangle$ to R\'enyi-two modular flowed correlators, and show that they coincide with the elements for the input density matrix with small error after twice the scrambling time.
翻訳日:2023-10-31 15:03:11 公開日:2023-10-29
# ダブルディフレッシュのUターン:統計的学習におけるパラメータ数の再考

A U-turn on Double Descent: Rethinking Parameter Counting in Statistical Learning ( http://arxiv.org/abs/2310.18988v1 )

ライセンス: Link先を確認
Alicia Curth, Alan Jeffares, Mihaela van der Schaar(参考訳) 従来の統計的知恵は、モデル複雑性と予測誤差の間によく理解された関係を確立し、典型的にはU字型の曲線として表され、下級と過度に適合する体制の遷移を反映していた。 しかし、過パラメータ化されたニューラルネットワークの成功に動機づけられた最近の研究は、この理論が一般的に不完全であると示唆しており、パラメータカウントpがサンプルサイズn(二重降下と呼ばれる現象)を超えるにつれて、テストエラーの第2降下を示す追加のレジームが導入されている。 深層学習には自然に注意が向けられているが、二重降下は、線形回帰、木、隆起など、神経以外のモデルでより一般的に現れることが示されている。 本研究では,これらの古典的統計的機械学習手法に関するエビデンスを詳細に検討し,二重降下の観測事例が従来のu字型複雑性一般化曲線の限界を真に拡張しているという主張に異議を唱える。 二重降下プロットのx軸上でプロットされているものに対して注意深い考察がなされると、パラメータ数の増加に伴って暗黙的に複数の複雑性軸が存在することが判明する。 第2の降下は、下層の軸間の遷移が起こる時と場所が正確に(かつ唯一の)現れることを証明し、したがってその位置は本質的に補間しきい値 p=n に結びついていないことを示した。 そして、古典的な非パラメトリック統計の観点を採用することで、さらなる洞察を得る。 研究手法をスムースなものとして解釈し, 未知の例で使用するパラメータの有効数を一般化した尺度を提案し, それらの明らかな二重降下曲線が実際にはより伝統的な凸形に折り返し, 二重降下と統計的直観の間の緊張の解消を提供する。

Conventional statistical wisdom established a well-understood relationship between model complexity and prediction error, typically presented as a U-shaped curve reflecting a transition between under- and overfitting regimes. However, motivated by the success of overparametrized neural networks, recent influential work has suggested this theory to be generally incomplete, introducing an additional regime that exhibits a second descent in test error as the parameter count p grows past sample size n - a phenomenon dubbed double descent. While most attention has naturally been given to the deep-learning setting, double descent was shown to emerge more generally across non-neural models: known cases include linear regression, trees, and boosting. In this work, we take a closer look at evidence surrounding these more classical statistical machine learning methods and challenge the claim that observed cases of double descent truly extend the limits of a traditional U-shaped complexity-generalization curve therein. We show that once careful consideration is given to what is being plotted on the x-axes of their double descent plots, it becomes apparent that there are implicitly multiple complexity axes along which the parameter count grows. We demonstrate that the second descent appears exactly (and only) when and where the transition between these underlying axes occurs, and that its location is thus not inherently tied to the interpolation threshold p=n. We then gain further insight by adopting a classical nonparametric statistics perspective. We interpret the investigated methods as smoothers and propose a generalized measure for the effective number of parameters they use on unseen examples, using which we find that their apparent double descent curves indeed fold back into more traditional convex shapes - providing a resolution to tensions between double descent and statistical intuition.
翻訳日:2023-10-31 15:02:35 公開日:2023-10-29
# NP-SBFL: スペクトルに基づく故障局在と故障神経経路診断のギャップを埋める

NP-SBFL: Bridging the Gap Between Spectrum-Based Fault Localization and Faulty Neural Pathways Diagnosis ( http://arxiv.org/abs/2310.18987v1 )

ライセンス: Link先を確認
Soroush Hashemifar, Saeed Parsa and Akram Kalaee(参考訳) ディープラーニングは様々な現実世界のアプリケーションに革命をもたらしたが、Deep Neural Networks(DNN)の品質は依然として懸念されている。 dnnは複雑で、数百万のパラメータを持ち、タスクの遂行への貢献を決定するのが難しい。 さらに、DNNの振る舞いは、トレーニング中に使用されるデータに非常に影響を受けており、すべてのシナリオで潜在的なDNNの振る舞いを実行するのに十分なデータを収集することは困難である。 本稿では,SBFL(Spectrum-based Fault Localization)を応用した新しいNP-SBFL法を提案する。 本手法は,LRP法を用いて臨界ニューロンを同定し,どの臨界ニューロンが異常であるかを判定する。 そこで我々は, 勾配上昇の延長である多段階勾配上昇(MGA)を提案し, 先行ニューロンの活性化を維持しつつ, ニューロンの配列を1つずつ有効に活性化する。 MNISTとCIFAR-10,DeepFaultとNP-SBFL-GAの2つのベースライン,Tarantula,Ochiai,Barinelの3つの疑わしいニューロン測定において,本手法の有効性を検討した。 実験の結果,NP-SBFL-MGAは疑わしい経路の同定や逆入力の合成において,ベースラインよりも統計的に有効であることが示唆された。 特に、NP-SBFL-MGAのタランチュラの断層検出率は96.75%で、OchiaiのDeepFault(89.90%)、OchiaiのNP-SBFL-GA(60.61%)を上回った。 また,本手法は自然度入力のベースラインに匹敵する結果となり,臨界経路のカバレッジとDNN断層定位におけるテスト失敗数との間に正の相関が認められた。

Deep learning has revolutionized various real-world applications, but the quality of Deep Neural Networks (DNNs) remains a concern. DNNs are complex and have millions of parameters, making it difficult to determine their contributions to fulfilling a task. Moreover, the behavior of a DNN is highly influenced by the data used during training, making it challenging to collect enough data to exercise all potential DNN behavior under all possible scenarios. This paper proposes a novel NP-SBFL method that adapts spectrum-based fault localization (SBFL) to locate faulty neural pathways. Our method identifies critical neurons using the layer-wise relevance propagation (LRP) technique and determines which critical neurons are faulty. We propose a multi-stage gradient ascent (MGA), an extension of gradient ascent, to effectively activate a sequence of neurons one at a time while maintaining the activation of previous neurons. We evaluated the effectiveness of our method on two commonly used datasets, MNIST and CIFAR-10, two baselines DeepFault and NP-SBFL-GA, and three suspicious neuron measures, Tarantula, Ochiai, and Barinel. The empirical results showed that NP-SBFL-MGA is statistically more effective than the baselines at identifying suspicious paths and synthesizing adversarial inputs. Particularly, Tarantula on NP-SBFL-MGA had the highest fault detection rate at 96.75%, surpassing DeepFault on Ochiai (89.90%) and NP-SBFL-GA on Ochiai (60.61%). Our approach also yielded comparable results to the baselines in synthesizing naturalness inputs, and we found a positive correlation between the coverage of critical paths and the number of failed tests in DNN fault localization.
翻訳日:2023-10-31 15:02:02 公開日:2023-10-29
# コントラスト拡散を用いたグループコレオグラフィー

Controllable Group Choreography using Contrastive Diffusion ( http://arxiv.org/abs/2310.18986v1 )

ライセンス: Link先を確認
Nhat Le, Tuong Do, Khoa Do, Hien Nguyen, Erman Tjiputra, Quang D. Tran, Anh Nguyen(参考訳) 音楽駆動のグループ振付は大きな課題であるが、幅広い産業応用において大きな可能性を秘めている。 音楽に合わせて、同期された視覚的に魅力的なグループダンスの動きを生成する能力は、エンターテイメント、広告、バーチャルパフォーマンスなど、多くの分野の機会を開く。 しかし、最近の作品の多くは、高忠実度な長期動作を発生できないか、制御可能な経験が得られていない。 本研究では,グループ振付の一貫性と多様性を効果的に管理することにより,高品質でカスタマイズ可能なグループダンス生成の需要に対応することを目的とする。 特に, 拡散に基づく生成的手法を用いて, 入力音楽との一貫性を確保しつつ, フレキシブルなダンサー数と長期グループダンスの合成を可能にする。 最終的に,グループコントラスト拡散(GCD)戦略を導入し,ダンサーとそのグループ間の接続性を高め,分類器誘導サンプリング技術を用いて合成グループアニメーションの一貫性や多様性を制御できるようにする。 集中的な実験と評価を通じて,視覚的かつ一貫性のあるグループダンス動作の生成において,提案手法の有効性を実証する。 実験結果は,生成群コレオグラフィの全体的な品質を維持しつつ,所望の一貫性と多様性を実現することができることを示す。

Music-driven group choreography poses a considerable challenge but holds significant potential for a wide range of industrial applications. The ability to generate synchronized and visually appealing group dance motions that are aligned with music opens up opportunities in many fields such as entertainment, advertising, and virtual performances. However, most of the recent works are not able to generate high-fidelity long-term motions, or fail to enable controllable experience. In this work, we aim to address the demand for high-quality and customizable group dance generation by effectively governing the consistency and diversity of group choreographies. In particular, we utilize a diffusion-based generative approach to enable the synthesis of flexible number of dancers and long-term group dances, while ensuring coherence to the input music. Ultimately, we introduce a Group Contrastive Diffusion (GCD) strategy to enhance the connection between dancers and their group, presenting the ability to control the consistency or diversity level of the synthesized group animation via the classifier-guidance sampling technique. Through intensive experiments and evaluation, we demonstrate the effectiveness of our approach in producing visually captivating and consistent group dance motions. The experimental results show the capability of our method to achieve the desired levels of consistency and diversity, while maintaining the overall quality of the generated group choreography.
翻訳日:2023-10-31 15:01:27 公開日:2023-10-29
# DCQA:複雑な推論と常識理解に向けた文書レベルチャート質問

DCQA: Document-Level Chart Question Answering towards Complex Reasoning and Common-Sense Understanding ( http://arxiv.org/abs/2310.18983v1 )

ライセンス: Link先を確認
Anran Wu, Luwei Xiao, Xingjiao Wu, Shuwen Yang, Junjie Xu, Zisong Zhuang, Nian Xie, Cheng Jin, Liang He(参考訳) 図表やプロットのような視覚的に構成された言語は、現実世界の文書に全文的に存在する。 これらのグラフィカルな描写は可読であり、複雑な推論や常識的な応答を必要とする様々な疑問に対処するために、視覚的に豊富な文書でしばしば分析される。 グラフ上の質問に答えるためのデータセットが増えているにもかかわらず、ほとんどの場合、ドキュメントレベルの質問応答のより広範なコンテキストを考慮せずに、このタスクに分離して対処する。 さらに、これらのデータセットは、質問に十分な常識的推論情報を欠いている。 本研究では,文書レベルの質問応答(DCQA)という新しいタスクを導入する。 本課題は,まず文書レイアウト分析 (DLA) を用いて文書内のチャートやプロットを抽出し,次にチャート質問応答 (CQA) を実行することである。 新たに開発されたベンチマークデータセットは、チャートを幅広いスタイルで統合する50,010の合成文書(PlotQAとChartQAの3に対して6スタイル)と、高い推論能力と常識理解を要求する699,051の質問を含む。 また,テーブルデータ,豊かなカラーセット,基本的な質問テンプレートを用いて,大量の質問応答ペアを自動的に生成する強力な質問応答生成エンジンの開発も行った。 DCQAに基づいて、文書レベルのチャート指向理解のためのOCRフリートランスフォーマーを考案し、複雑な推論や常識的な質問にOCRフリーで答える。 我々のDCQAデータセットは、特に視覚的に豊かな文書のチャートに複雑な推論を必要とするシナリオについて、文書の可視化を理解する研究を促進することが期待されている。 我々は,一連のベースラインを実装し,評価し,提案手法は同等の結果を得る。

Visually-situated languages such as charts and plots are omnipresent in real-world documents. These graphical depictions are human-readable and are often analyzed in visually-rich documents to address a variety of questions that necessitate complex reasoning and common-sense responses. Despite the growing number of datasets that aim to answer questions over charts, most only address this task in isolation, without considering the broader context of document-level question answering. Moreover, such datasets lack adequate common-sense reasoning information in their questions. In this work, we introduce a novel task named document-level chart question answering (DCQA). The goal of this task is to conduct document-level question answering, extracting charts or plots in the document via document layout analysis (DLA) first and subsequently performing chart question answering (CQA). The newly developed benchmark dataset comprises 50,010 synthetic documents integrating charts in a wide range of styles (6 styles in contrast to 3 for PlotQA and ChartQA) and includes 699,051 questions that demand a high degree of reasoning ability and common-sense understanding. Besides, we present the development of a potent question-answer generation engine that employs table data, a rich color set, and basic question templates to produce a vast array of reasoning question-answer pairs automatically. Based on DCQA, we devise an OCR-free transformer for document-level chart-oriented understanding, capable of DLA and answering complex reasoning and common-sense questions over charts in an OCR-free manner. Our DCQA dataset is expected to foster research on understanding visualizations in documents, especially for scenarios that require complex reasoning for charts in the visually-rich document. We implement and evaluate a set of baselines, and our proposed method achieves comparable results.
翻訳日:2023-10-31 15:01:06 公開日:2023-10-29
# 一般化ディッケ模型における量子相転移

Quantum Phase Transitions in a Generalized Dicke Model ( http://arxiv.org/abs/2310.18978v1 )

ライセンス: Link先を確認
Wen Liu, Liwei Duan(参考訳) 単一モードボソニック場と相互作用する2つのスピンアンサンブルを導入することで一般化ディッケモデルを検討する。 強スピン-ボソン結合によって引き起こされる通常-超放射相転移とは別に、2つのスピンアンサンブル間の相互作用は強磁性、反強磁性、常磁性相を導入して位相図を増幅する。 平均場アプローチでは、常磁性-常磁性相、強磁性-超放射相、反強磁性-常磁性相の3相からなる相図が示される。 強磁性スピン-スピン相互作用は、ボソニック場のマクロ励起が起こる超ラジアント相を観察するために必要なスピン-ボーソンカップリング強度を著しく低減することができる。 逆に反強磁性スピン-スピン相互作用は超ラジアント相を強く抑制することができる。 平均場寄与を超える高次量子効果を調べるために、一般化ディッケモデルを熱力学的極限における3つの結合調和振動子に変換するホルスタイン-プリマコフ変換を用いる。 臨界点付近では、地面と第一励起状態の間のエネルギーギャップの閉ざし、絡み合いエントロピーの発散と、ある二次における量子揺らぎを観測する。 これらの観測は量子相転移をさらに確認し、臨界挙動に関するさらなる洞察を与える。

We investigate a generalized Dicke model by introducing two interacting spin ensembles coupled with a single-mode bosonic field. Apart from the normal to superradiant phase transition induced by the strong spin-boson coupling, interactions between the two spin ensembles enrich the phase diagram by introducing ferromagnetic, antiferromagnetic and paramagnetic phases. The mean-field approach reveals a phase diagram comprising three phases: paramagnetic-normal phase, ferromagnetic-superradiant phase, and antiferromagnetic-normal phase. Ferromagnetic spin-spin interaction can significantly reduce the required spin-boson coupling strength to observe the superradiant phase, where the macroscopic excitation of the bosonic field occurs. Conversely, antiferromagnetic spin-spin interaction can strongly suppress the superradiant phase. To examine higher-order quantum effects beyond the mean-field contribution, we utilize the Holstein-Primakoff transformation, which converts the generalized Dicke model into three coupled harmonic oscillators in the thermodynamic limit. Near the critical point, we observe the close of the energy gap between the ground and the first excited states, the divergence of entanglement entropy and quantum fluctuation in certain quadrature. These observations further confirm the quantum phase transition and offer additional insights into critical behaviors.
翻訳日:2023-10-31 15:00:35 公開日:2023-10-29
# blacksmith:single-step法とmulti-step法を組み合わせた視覚トランスフォーマーの高速対向訓練

Blacksmith: Fast Adversarial Training of Vision Transformers via a Mixture of Single-step and Multi-step Methods ( http://arxiv.org/abs/2310.18975v1 )

ライセンス: Link先を確認
Mahdi Salmani, Alireza Dehghanpour Farashah, Mohammad Azizmalayeri, Mahdi Amiri, Navid Eslami, Mohammad Taghi Manzuri, Mohammad Hossein Rohban(参考訳) コンピュータビジョンなどの様々な領域におけるディープラーニングアルゴリズムによる顕著な成功にもかかわらず、敵の摂動に弱いままである。 敵訓練(AT)はこの問題に対処する最も効果的な解決策の1つであるが、単一段階のATは破滅的オーバーフィッティング(CO)につながる可能性がある。 このシナリオは、敵対的に訓練されたネットワークが突如、プロジェクテッド・グラディエント・Descent (PGD)のようなマルチステップ攻撃に対して堅牢性を失うときに発生する。 畳み込みニューラルネットワーク(CNN)では,この問題に対処するいくつかの手法が提案されているが,視覚変換器(ViT)に適用しても,うまく動作しないことがわかった。 本稿では,特にvitsにおいて,co問題を克服するための新しいトレーニング戦略であるblacksmithを提案する。 本手法は,ニューラルネットワークの学習中にミニバッチ内でランダムにpgd-2またはfast gradient sign method(fgsm)のいずれかを利用する。 これにより、トレーニング攻撃の多様性が高まり、co問題を軽減する可能性がある。 この組み合わせによるトレーニング時間の増加を管理するため,FGSMをエンドツーエンドで適用しながら,第1層のみに基づいてPGD-2攻撃を行う。 実験により,本手法はCOを効果的に防止し,PGD-2レベルの性能を達成し,CNNの高速トレーニングにおける最先端手法であるN-FGSMなどの既存手法よりも優れることを示した。

Despite the remarkable success achieved by deep learning algorithms in various domains, such as computer vision, they remain vulnerable to adversarial perturbations. Adversarial Training (AT) stands out as one of the most effective solutions to address this issue; however, single-step AT can lead to Catastrophic Overfitting (CO). This scenario occurs when the adversarially trained network suddenly loses robustness against multi-step attacks like Projected Gradient Descent (PGD). Although several approaches have been proposed to address this problem in Convolutional Neural Networks (CNNs), we found out that they do not perform well when applied to Vision Transformers (ViTs). In this paper, we propose Blacksmith, a novel training strategy to overcome the CO problem, specifically in ViTs. Our approach utilizes either of PGD-2 or Fast Gradient Sign Method (FGSM) randomly in a mini-batch during the adversarial training of the neural network. This will increase the diversity of our training attacks, which could potentially mitigate the CO issue. To manage the increased training time resulting from this combination, we craft the PGD-2 attack based on only the first half of the layers, while FGSM is applied end-to-end. Through our experiments, we demonstrate that our novel method effectively prevents CO, achieves PGD-2 level performance, and outperforms other existing techniques including N-FGSM, which is the state-of-the-art method in fast training for CNNs.
翻訳日:2023-10-31 15:00:13 公開日:2023-10-29
# EtiCor:EtiquettesのLCM分析コーパス

EtiCor: Corpus for Analyzing LLMs for Etiquettes ( http://arxiv.org/abs/2310.18974v1 )

ライセンス: Link先を確認
Ashutosh Dwivedi, Pradhyumna Lavania, Ashutosh Modi(参考訳) エチケットは、人々の日々の交流の重要な要素である。 さらに、エチケットは地域特有であり、ある地域のエチケットは他の地域と矛盾する可能性がある。 本稿では,世界5地域からの社会規範に関するテキストを収録したエチケットコーパスであるeticorを提案する。 コーパスは、地域固有のエチケットの知識と理解のためにLSMを評価するためのテストベッドを提供する。 また,Etiquette Sensitivityの課題を提案する。 現状のLLM (Delphi, Falcon40B, GPT-3.5) を実験した。 最初の結果は、llmは、ほとんどが非西洋世界の地域からの礼儀作法を理解していないことを示している。

Etiquettes are an essential ingredient of day-to-day interactions among people. Moreover, etiquettes are region-specific, and etiquettes in one region might contradict those in other regions. In this paper, we propose EtiCor, an Etiquettes Corpus, having texts about social norms from five different regions across the globe. The corpus provides a test bed for evaluating LLMs for knowledge and understanding of region-specific etiquettes. Additionally, we propose the task of Etiquette Sensitivity. We experiment with state-of-the-art LLMs (Delphi, Falcon40B, and GPT-3.5). Initial results indicate that LLMs, mostly fail to understand etiquettes from regions from non-Western world.
翻訳日:2023-10-31 14:59:44 公開日:2023-10-29
# TRIAGE:レグレッション改善のためのトレーニングデータの特徴付けと監査

TRIAGE: Characterizing and auditing training data for improved regression ( http://arxiv.org/abs/2310.18970v1 )

ライセンス: Link先を確認
Nabeel Seedat, Jonathan Crabb\'e, Zhaozhi Qian, Mihaela van der Schaar(参考訳) データ品質は堅牢な機械学習アルゴリズムにとって不可欠であり、最近のデータ中心のaiへの関心は、データキャラクタリゼーションのトレーニングの重要性を強調している。 しかし、現在のデータキャラクタリゼーション手法は、主に分類設定に焦点を当てており、回帰設定は概ね未検討である。 そこで我々は,レグレッシブタスクに対応し,幅広いレグレッシャクラスに対応する新しいデータキャラクタリゼーションフレームワークであるtriageを紹介する。 TRIAGEは、共形予測分布を利用して、モデルに依存しないスコアリング方法、TRIAGEスコアを提供する。 本研究は,各サンプルのトレーニング動態を分析し,そのモデルにより過小評価されたサンプルを特徴付けるためのスコアを運用する。 TRIAGEの特徴は一貫性があり、複数の回帰設定においてデータの彫刻/フィルタリングによるパフォーマンス向上に有効であることを示す。 さらに、サンプルレベルを超えて、triageがデータセットの選択と機能獲得に新たなアプローチを可能にすることを示す。 TRIAGEは、実世界のレグレッションアプリケーションでデータキャラクタリゼーションによって解放される価値を強調している

Data quality is crucial for robust machine learning algorithms, with the recent interest in data-centric AI emphasizing the importance of training data characterization. However, current data characterization methods are largely focused on classification settings, with regression settings largely understudied. To address this, we introduce TRIAGE, a novel data characterization framework tailored to regression tasks and compatible with a broad class of regressors. TRIAGE utilizes conformal predictive distributions to provide a model-agnostic scoring method, the TRIAGE score. We operationalize the score to analyze individual samples' training dynamics and characterize samples as under-, over-, or well-estimated by the model. We show that TRIAGE's characterization is consistent and highlight its utility to improve performance via data sculpting/filtering, in multiple regression settings. Additionally, beyond sample level, we show TRIAGE enables new approaches to dataset selection and feature acquisition. Overall, TRIAGE highlights the value unlocked by data characterization in real-world regression applications
翻訳日:2023-10-31 14:59:32 公開日:2023-10-29
# 2時間時空におけるキャロル粒子の探索

Looking for Carroll particles in two time spacetime ( http://arxiv.org/abs/2310.19050v1 )

ライセンス: Link先を確認
Alexander Kamenshchik and Federica Muscolino(参考訳) 我々は、i. barsと彼の共著者による一連の論文で開発された2つの時間物理学の枠組みにおいて、エネルギーの無駄のない値(すなわち、常に静止しているキャロル粒子)を持つキャロル粒子を記述しようと試みる。 1つの追加時間次元と1つの追加空間次元を持つ時空において、一般化座標とその共役モーメントの間に存在する対称性を局所化することができる。 そのような局所化はゲージ場の導入を意味し、これはある一級制約の出現を意味する。 異なるゲージ固定条件を選択して制約を解くと、異なる時間パラメータ、ハミルトニアン、そして一般に標準時時時における物理系が得られる。 このようにして、非相対論的粒子、相対論的粒子、水素原子、調和振動子などの系は、2つの時間物理学の枠組みにおいて双対系として記述された。 ここでは、2つの時間空間における位相空間変数のパラメトリゼーションを提供し、1つの時間空間におけるキャロル粒子の記述を与えるゲージ固定条件の集合を見つける。 さらに、1999年に水素原子のバーによって得られたパラメトリゼーションと予期せぬ対応を用いて、そのような粒子の量子論を構築する。

We make an attempt to describe Carroll particles with a non-vanishing value of energy (i.e. the Carroll particles which always stay in rest) in the framework of two time physics, developed in the series of papers by I. Bars and his co-authors. In the spacetime with one additional time dimension and one additional space dimension one can localize the symmetry which exists between generalized coordinate and their conjugate momenta. Such a localization implies the introduction of the gauge fields, which in turn implies the appearance of some first-class constraints. Choosing different gauge-fixing conditions and solving the constraints one obtain different time parameters, Hamiltonians, and generally, physical systems in the standard one time spacetime. In this way such systems as non-relativistic particle, relativistic particles, hydrogen atoms and harmonic oscillators were described as dual systems in the framework of the two time physics. Here, we find a set of gauge fixing conditions which provides as with such a parametrization of the phase space variables in the two time world which gives the description of Carroll particle in the one time world. Besides, we construct the quantum theory of such a particle using an unexpected correspondence between our parametrization and that obtained by Bars for the hydrogen atom in 1999.
翻訳日:2023-10-31 14:52:35 公開日:2023-10-29
# 進化的最適化としての大規模言語モデル

Large Language Models as Evolutionary Optimizers ( http://arxiv.org/abs/2310.19046v1 )

ライセンス: Link先を確認
Shengcai Liu, Caishun Chen, Xinghua Qu, Ke Tang, Yew-Soon Ong(参考訳) 進化的アルゴリズム(EA)は複雑な組合せ最適化問題に対処することに成功した。 しかし、EAはドメインの専門知識の助けを借りて、よく設計されたオペレーターに満足なパフォーマンスを要求します。 本研究では,大規模言語モデル(LLM)を進化的組合せ最適化器として初めて研究する。 主な利点は、最小限のドメイン知識と人間の努力が必要であり、モデルに追加のトレーニングは必要ありません。 このアプローチはLLM駆動EA(LMEA)と呼ばれる。 具体的には、進化探索の各世代において、LMEAはLLMに現在の個体群から親溶液を選択し、交叉と突然変異を行い、子孫溶液を生成するように指示する。 そして、LMEAはこれらの新しいソリューションを評価し、それらを次世代の人口に含める。 LMEAはLLMの温度を制御する自己適応機構を備えている。 これにより、探索とエクスプロイトのバランスを保ち、探索が局所的な最適化で行き詰まるのを防ぐことができる。 組合せ最適化研究に広く用いられている古典的旅行セールスマン問題(TSP)に対するLMEAの力について検討する。 特に、LMEAは、最大20ノードのTSPインスタンス上で高品質なソリューションを見つける際に、従来のヒューリスティックと競合して動作することを示す。 さらに,LLMによるクロスオーバー・ミューテーションの有効性と,進化探索における自己適応機構についても検討した。 結論として, 組合せ問題を解くための進化的最適化手法として, LLMの大きな可能性を明らかにした。 我々の研究は、複雑な最適化課題に対するLLM駆動型EAの今後の探索を刺激することを期待します。

Evolutionary algorithms (EAs) have achieved remarkable success in tackling complex combinatorial optimization problems. However, EAs often demand carefully-designed operators with the aid of domain expertise to achieve satisfactory performance. In this work, we present the first study on large language models (LLMs) as evolutionary combinatorial optimizers. The main advantage is that it requires minimal domain knowledge and human efforts, as well as no additional training of the model. This approach is referred to as LLM-driven EA (LMEA). Specifically, in each generation of the evolutionary search, LMEA instructs the LLM to select parent solutions from current population, and perform crossover and mutation to generate offspring solutions. Then, LMEA evaluates these new solutions and include them into the population for the next generation. LMEA is equipped with a self-adaptation mechanism that controls the temperature of the LLM. This enables it to balance between exploration and exploitation and prevents the search from getting stuck in local optima. We investigate the power of LMEA on the classical traveling salesman problems (TSPs) widely used in combinatorial optimization research. Notably, the results show that LMEA performs competitively to traditional heuristics in finding high-quality solutions on TSP instances with up to 20 nodes. Additionally, we also study the effectiveness of LLM-driven crossover/mutation and the self-adaptation mechanism in evolutionary search. In summary, our results reveal the great potentials of LLMs as evolutionary optimizers for solving combinatorial problems. We hope our research shall inspire future explorations on LLM-driven EAs for complex optimization challenges.
翻訳日:2023-10-31 14:52:15 公開日:2023-10-29
# 異なるプライベートな置換テスト:カーネルメソッドへの応用

Differentially Private Permutation Tests: Applications to Kernel Methods ( http://arxiv.org/abs/2310.19043v1 )

ライセンス: Link先を確認
Ilmun Kim and Antonin Schrab(参考訳) 近年、機密データのプライバシーに関する懸念が高まっている。 これらの懸念に応えて、差分プライバシーはプライバシー保護の厳格な枠組みとして浮上し、学術界と産業界の両方で広く認識されるようになった。 個人データ分析においてかなりの進歩があったが、既存の手法はしばしば非現実性や統計的効率の著しい損失に悩まされる。 本稿では,これらの懸念を仮説テストの文脈で緩和し,微分プライベートな置換テストを導入することを目的とする。 提案フレームワークは、従来の非プライベートな置換試験をプライベートな設定に拡張し、有限サンプルの妥当性と差分プライバシーの両方を厳密な方法で維持する。 提案するテストのパワーは,テスト統計の選択に依存し,一貫性と非漸近的一様パワーの一般的な条件を確立する。 本フレームワークの有用性と実用性を示すため,カーネルベースのテスト統計を再現することに注力し,dpMMDとdpHSICという2サンプル独立テストのための差分プライベートカーネルテストを導入する。 提案されたカーネルテストは、実装が簡単で、さまざまな種類のデータに適用でき、異なるプライバシレシで最小限の電力を得ることができる。 私たちの経験的評価は、様々な合成および実世界のシナリオ下での競争力をさらに強調し、実用的価値を強調します。 フレームワークの実装を容易にするために、コードは公開されています。

Recent years have witnessed growing concerns about the privacy of sensitive data. In response to these concerns, differential privacy has emerged as a rigorous framework for privacy protection, gaining widespread recognition in both academic and industrial circles. While substantial progress has been made in private data analysis, existing methods often suffer from impracticality or a significant loss of statistical efficiency. This paper aims to alleviate these concerns in the context of hypothesis testing by introducing differentially private permutation tests. The proposed framework extends classical non-private permutation tests to private settings, maintaining both finite-sample validity and differential privacy in a rigorous manner. The power of the proposed test depends on the choice of a test statistic, and we establish general conditions for consistency and non-asymptotic uniform power. To demonstrate the utility and practicality of our framework, we focus on reproducing kernel-based test statistics and introduce differentially private kernel tests for two-sample and independence testing: dpMMD and dpHSIC. The proposed kernel tests are straightforward to implement, applicable to various types of data, and attain minimax optimal power across different privacy regimes. Our empirical evaluations further highlight their competitive power under various synthetic and real-world scenarios, emphasizing their practical value. The code is publicly available to facilitate the implementation of our framework.
翻訳日:2023-10-31 14:51:54 公開日:2023-10-29
# 自己教師付き表現学習の線形分離能力について

On Linear Separation Capacity of Self-Supervised Representation Learning ( http://arxiv.org/abs/2310.19041v1 )

ライセンス: Link先を確認
Shulei Wang(参考訳) 近年の自己教師あり学習の進歩は、ラベルなしデータからの学習データ表現におけるデータ拡張の有効性を強調している。 これらの拡張表現の上に線形モデルをトレーニングすると、アデプト分類子が得られる。 顕著な経験的性能にもかかわらず、非線形データ構造を線形に分離可能な表現に拡張するデータ拡張を可能にするメカニズムは、いまだに解明されていない。 本稿では,マルチ多様体モデルからデータを引き出す際に,学習した表現が多様体を線形に分離できる条件について検討することで,このギャップを埋めることを模索する。 本研究は,データ拡張が観測データ以上の情報を提供し,線形分離能力の情報理論的最適率を向上させることを明らかにする。 特に,自己教師付き学習は教師なし学習よりも距離が小さい多様体を線形に分離できることを示す。 この理論解析により,下流の線形分類器の性能はラベル付きデータセットのサイズよりもむしろデータ表現の線形分離性に重きを置き,ラベル付きデータセットの広がりの中でラベル付きデータで効率的な分類器を構築することの可否を再確認する。

Recent advances in self-supervised learning have highlighted the efficacy of data augmentation in learning data representation from unlabeled data. Training a linear model atop these enhanced representations can yield an adept classifier. Despite the remarkable empirical performance, the underlying mechanisms that enable data augmentation to unravel nonlinear data structures into linearly separable representations remain elusive. This paper seeks to bridge this gap by investigating under what conditions learned representations can linearly separate manifolds when data is drawn from a multi-manifold model. Our investigation reveals that data augmentation offers additional information beyond observed data and can thus improve the information-theoretic optimal rate of linear separation capacity. In particular, we show that self-supervised learning can linearly separate manifolds with a smaller distance than unsupervised learning, underscoring the additional benefits of data augmentation. Our theoretical analysis further underscores that the performance of downstream linear classifiers primarily hinges on the linear separability of data representations rather than the size of the labeled data set, reaffirming the viability of constructing efficient classifiers with limited labeled data amid an expansive unlabeled data set.
翻訳日:2023-10-31 14:51:31 公開日:2023-10-29
# 対話型エージェントシステムにおける位相遷移の同定のための機械学習

Machine Learning for the identification of phase-transitions in interacting agent-based systems ( http://arxiv.org/abs/2310.19039v1 )

ライセンス: Link先を確認
Nikolaos Evangelou, Dimitrios G. Giovanis, George A. Kevrekidis, Grigorios A. Pavliotis, Ioannis G. Kevrekidis(参考訳) 縮小次数モデルに対する閉形式、解析的表現の導出、そしてそれにつながるクロージャの選択は、長い間、エージェントベースモデル(ABM)の位相および雑音誘起遷移を研究するための選択戦略であった。 本稿では,従来の閉形式モデルよりも少数の変数を用いて,ABMの位相遷移を平均フィールドにピンポイントするデータ駆動フレームワークを提案する。 この目的のために、多様体学習アルゴリズムであるDiffusion Mapsを用いて、データ駆動潜在変数の相似集合を同定し、それらがABMの期待する理論的順序パラメータと1対1で対応していることを示す。 次に、深層学習フレームワークを用いて、データ駆動座標の共形再パラメータ化を行い、例えば、これらの座標における1つのパラメータ依存ODEの同定を容易にする。 数値積分スキーム(前方オイラー)にインスパイアされた残差ニューラルネットワークを用いて、このODEを同定する。 次に、識別されたODE(奇対称変換によって可能)を使用して、相転移を示す分岐図を構築する。

Deriving closed-form, analytical expressions for reduced-order models, and judiciously choosing the closures leading to them, has long been the strategy of choice for studying phase- and noise-induced transitions for agent-based models (ABMs). In this paper, we propose a data-driven framework that pinpoints phase transitions for an ABM in its mean-field limit, using a smaller number of variables than traditional closed-form models. To this end, we use the manifold learning algorithm Diffusion Maps to identify a parsimonious set of data-driven latent variables, and show that they are in one-to-one correspondence with the expected theoretical order parameter of the ABM. We then utilize a deep learning framework to obtain a conformal reparametrization of the data-driven coordinates that facilitates, in our example, the identification of a single parameter-dependent ODE in these coordinates. We identify this ODE through a residual neural network inspired by a numerical integration scheme (forward Euler). We then use the identified ODE -- enabled through an odd symmetry transformation -- to construct the bifurcation diagram exhibiting the phase transition.
翻訳日:2023-10-31 14:51:11 公開日:2023-10-29
# グラディエントプリミティブを用いた決定に基づくブラックボックス攻撃の増強

Boosting Decision-Based Black-Box Adversarial Attack with Gradient Priors ( http://arxiv.org/abs/2310.19038v1 )

ライセンス: Link先を確認
Han Liu, Xingshuo Huang, Xiaotong Zhang, Qimai Li, Fenglong Ma, Wei Wang, Hongyang Chen, Hong Yu, Xianchao Zhang(参考訳) 決定に基づく手法は、良好な性能を得ることができ、最終的なモデル予測にのみアクセスする必要があるため、ブラックボックスの敵攻撃に有効であることが示されている。 勾配推定は、クエリ効率に直接影響を与えるため、ブラックボックスの敵攻撃において重要なステップである。 近年の研究では、スコアベースの手法によりより良い結果を得るために、グラデーションの事前利用が試みられている。 しかし,これらの勾配前兆は,エッジ勾配の不一致問題や反復勾配方向問題に依然として苦しむため,単に決定に基づく方法に拡張することは困難である。 本稿では,データ依存の勾配前と時間依存の勾配前とをシームレスに統合し,グラディエント・プライオリティ(DBA-GP)を用いた新たな決定ベースのブラックボックス攻撃フレームワークを提案する。 第一に、各ランダムな摂動を扱うために結合二元フィルタを利用することで、DBA-GPはエッジ位置における生成された摂動がほとんど滑らかにならないこと、すなわちエッジ勾配のずれを緩和し、元の画像の特性を極力維持することができる。 第2に,連続する反復勾配方向を自動的に調整する新たな勾配更新戦略を利用することで,dba-gpは収束速度を高速化し,クエリ効率を向上させることができる。 実験により,提案手法が他の強いベースラインを著しく上回ることを示した。

Decision-based methods have shown to be effective in black-box adversarial attacks, as they can obtain satisfactory performance and only require to access the final model prediction. Gradient estimation is a critical step in black-box adversarial attacks, as it will directly affect the query efficiency. Recent works have attempted to utilize gradient priors to facilitate score-based methods to obtain better results. However, these gradient priors still suffer from the edge gradient discrepancy issue and the successive iteration gradient direction issue, thus are difficult to simply extend to decision-based methods. In this paper, we propose a novel Decision-based Black-box Attack framework with Gradient Priors (DBA-GP), which seamlessly integrates the data-dependent gradient prior and time-dependent prior into the gradient estimation procedure. First, by leveraging the joint bilateral filter to deal with each random perturbation, DBA-GP can guarantee that the generated perturbations in edge locations are hardly smoothed, i.e., alleviating the edge gradient discrepancy, thus remaining the characteristics of the original image as much as possible. Second, by utilizing a new gradient updating strategy to automatically adjust the successive iteration gradient direction, DBA-GP can accelerate the convergence speed, thus improving the query efficiency. Extensive experiments have demonstrated that the proposed method outperforms other strong baselines significantly.
翻訳日:2023-10-31 14:50:52 公開日:2023-10-29
# 環境拡張による不変グラフ学習は不変性を学ぶか?

Does Invariant Graph Learning via Environment Augmentation Learn Invariance? ( http://arxiv.org/abs/2310.19035v1 )

ライセンス: Link先を確認
Yongqiang Chen, Yatao Bian, Kaiwen Zhou, Binghui Xie, Bo Han, James Cheng(参考訳) 不変グラフ表現学習は、グラフの分布外一般化のために異なる環境からデータ間の不変性を学習することを目的としている。 グラフ環境分割は通常、取得に費用がかかるため、環境情報の強化がデファクトのアプローチとなっている。 しかし,拡張環境情報の有用性は検証されていない。 本研究では,追加の仮定なしで環境拡張を通じて不変グラフ表現を学習することは基本的に不可能であることを示す。 そこで本研究では,不変グラフ学習のための変分十分性と変分一貫性を含む最小仮定の組を開発する。 次に、新しいフレームワークであるGraph invAriant Learning Assistant (GALA)を提案する。 GALAには、グラフ環境の変化や分散シフトに敏感である必要があるアシスタントモデルが含まれている。 したがって、アシスタントモデルによるプロキシ予測の正確性は、スプリアスサブグラフのバリエーションを区別することができる。 提案手法では,最大不変部分グラフをプロキシ予測に抽出することにより,OODの一般化を成功させる基礎となる不変部分グラフを,確立された最小仮定の下で確実に同定する。 さまざまなグラフ分布シフトを持つTarmOODを含むデータセットの大規模な実験により、GALAの有効性が確認された。

Invariant graph representation learning aims to learn the invariance among data from different environments for out-of-distribution generalization on graphs. As the graph environment partitions are usually expensive to obtain, augmenting the environment information has become the de facto approach. However, the usefulness of the augmented environment information has never been verified. In this work, we find that it is fundamentally impossible to learn invariant graph representations via environment augmentation without additional assumptions. Therefore, we develop a set of minimal assumptions, including variation sufficiency and variation consistency, for feasible invariant graph learning. We then propose a new framework Graph invAriant Learning Assistant (GALA). GALA incorporates an assistant model that needs to be sensitive to graph environment changes or distribution shifts. The correctness of the proxy predictions by the assistant model hence can differentiate the variations in spurious subgraphs. We show that extracting the maximally invariant subgraph to the proxy predictions provably identifies the underlying invariant subgraph for successful OOD generalization under the established minimal assumptions. Extensive experiments on datasets including DrugOOD with various graph distribution shifts confirm the effectiveness of GALA.
翻訳日:2023-10-31 14:50:28 公開日:2023-10-29
# ArBanking77: Intent Detection Neural Modelと現代アラビア語と方言アラビア語の新しいデータセット

ArBanking77: Intent Detection Neural Model and a New Dataset in Modern and Dialectical Arabic ( http://arxiv.org/abs/2310.19034v1 )

ライセンス: Link先を確認
Mustafa Jarrar, Ahmet Birim, Mohammed Khalilia, Mustafa Erden, Sana Ghanem(参考訳) 本稿では,銀行ドメインにおける意図検出のための大規模アラビア語データセットArBanking77を提案する。 このデータセットは、ArBanking77データセットへの13,083のクエリで構成され、モダン標準アラビア語(MSA)とパレスチナ方言の両方で31,404のクエリを持ち、各クエリは77のクラスの1つに分類されている。 さらに, AraBERTに基づくニューラルネットワークをArBanking77で微調整し, MSAおよびパレスチナ方言でそれぞれ0.9209と0.8995のF1スコアを達成した。 そこで我々は,データのサブセット上でモデルをトレーニングし,ノイズの多いクエリを付加し,実際のnlpシステム,特にライブチャットクエリに見られる語句,誤り,ミススペルをシミュレートする低リソース設定をシミュレートする実験を行った。 データとモデルはhttps://sina.birzeit.edu/arbanking77.comで公開されている。

This paper presents the ArBanking77, a large Arabic dataset for intent detection in the banking domain. Our dataset was arabized and localized from the original English Banking77 dataset, which consists of 13,083 queries to ArBanking77 dataset with 31,404 queries in both Modern Standard Arabic (MSA) and Palestinian dialect, with each query classified into one of the 77 classes (intents). Furthermore, we present a neural model, based on AraBERT, fine-tuned on ArBanking77, which achieved an F1-score of 0.9209 and 0.8995 on MSA and Palestinian dialect, respectively. We performed extensive experimentation in which we simulated low-resource settings, where the model is trained on a subset of the data and augmented with noisy queries to simulate colloquial terms, mistakes and misspellings found in real NLP systems, especially live chat queries. The data and the models are publicly available at https://sina.birzeit.edu/arbanking77.
翻訳日:2023-10-31 14:50:09 公開日:2023-10-29
# SALMA: アラビアセンスアノテーションコーパスとWSDベンチマーク

SALMA: Arabic Sense-Annotated Corpus and WSD Benchmarks ( http://arxiv.org/abs/2310.19029v1 )

ライセンス: Link先を確認
Mustafa Jarrar, Sanad Malaysha, Tymaa Hammouda, Mohammed Khalilia(参考訳) SALMAは、最初のアラビア語の感覚アノテーション付きコーパスで、34Kのトークンで構成されており、全て感覚アノテーション付きである。 コーパスは2つの異なる感覚の在庫(ModernとGhani)を使って同時に注釈付けされる。 SALMAの新規性はトークンと感覚の関連性にある。 トークンを1つの意味だけにリンクするのではなく、SALMAはトークンを複数の感覚にリンクし、各感覚にスコアを提供する。 単語に対して複数の感覚を評価するためのスマートなWebベースのアノテーションツールが開発された。 アノテーションの他に、6種類の名前付きエンティティを使ってコーパスに注釈を付けました。 注記の質は,様々な指標(kappa,線形重み付きkappa,二次重み付きkappa,平均平均誤差,根平均二乗誤差)を用いて評価した。 SALMAコーパスを用いたWord Sense Disambiguationベースラインを確立するために,ターゲットセンス検証を用いたエンドツーエンドのWord Sense Disambiguationシステムを開発した。 本システムを用いて3つの目標感覚検証モデルの評価を行った。 我々の最良のモデルは84.2%の精度で現代語を使用し、78.7%はガニ語を使用した。 完全なコーパスとアノテーションツールはオープンソースであり、https://sina.birzeit.edu/salma/で公開されている。

SALMA, the first Arabic sense-annotated corpus, consists of ~34K tokens, which are all sense-annotated. The corpus is annotated using two different sense inventories simultaneously (Modern and Ghani). SALMA novelty lies in how tokens and senses are associated. Instead of linking a token to only one intended sense, SALMA links a token to multiple senses and provides a score to each sense. A smart web-based annotation tool was developed to support scoring multiple senses against a given word. In addition to sense annotations, we also annotated the corpus using six types of named entities. The quality of our annotations was assessed using various metrics (Kappa, Linear Weighted Kappa, Quadratic Weighted Kappa, Mean Average Error, and Root Mean Square Error), which show very high inter-annotator agreement. To establish a Word Sense Disambiguation baseline using our SALMA corpus, we developed an end-to-end Word Sense Disambiguation system using Target Sense Verification. We used this system to evaluate three Target Sense Verification models available in the literature. Our best model achieved an accuracy with 84.2% using Modern and 78.7% using Ghani. The full corpus and the annotation tool are open-source and publicly available at https://sina.birzeit.edu/salma/.
翻訳日:2023-10-31 14:49:48 公開日:2023-10-29
# 縮退1次元ギャップ系における最大混合基底状態の領域法則

Area law for the maximally mixed ground state in degenerate 1D gapped systems ( http://arxiv.org/abs/2310.19028v1 )

ライセンス: Link先を確認
Itai Arad, Raz Firanko, Rahul Jain(参考訳) 1次元ギャップを持つ局所ハミルトン空間の(縮退した)基底空間において、最大混合状態$\Omega$に対して対数的補正を施した領域法則を示す。 形式的には、$\varepsilon>0$と$L\cup L^c$の1D格子に対して、$$\mathrm{I}^{\varepsilon}_{\max}(L:L^c)_{\Omega} \leq O(\log(|L|)+\log(1/\varepsilon))に対して$$|L|$が$L$のクォーディット数を表し、$\mathrm{I}^{\epsilon}_{\max}(L:L^c)_{\Omega}$が$\varepsilon$'smoothed maximum mutual information'を表す。 corollary として、$\mathrm{I}(L:R)_\Omega \leq O(\log |L|)$ という形の相互情報に対して面積法則を得る。 さらに、$\Omega$は、最大で$\mathrm{poly}(|L|/\varepsilon)$のSchmidtランクを持つトレースノルムで$\varepsilon$まで近似できることを示す。

We show an area law with logarithmic correction for the maximally mixed state $\Omega$ in the (degenerate) ground space of a 1D gapped local Hamiltonian $H$, which is independent of the underlying ground space degeneracy. Formally, for $\varepsilon>0$ and a bi-partition $L\cup L^c$ of the 1D lattice, we show that $$\mathrm{I}^{\varepsilon}_{\max}(L:L^c)_{\Omega} \leq O(\log(|L|)+\log(1/\varepsilon)),$$ where $|L|$ represents the number of qudits in $L$ and $\mathrm{I}^{\epsilon}_{\max}(L:L^c)_{\Omega}$ represents the $\varepsilon$- 'smoothed maximum mutual information' with respect to the $L:L^c$ partition in $\Omega$. As a corollary, we get an area law for the mutual information of the form $\mathrm{I}(L:R)_\Omega \leq O(\log |L|)$. In addition, we show that $\Omega$ can be approximated up to an $\varepsilon$ in trace norm with a state of Schmidt rank of at most $\mathrm{poly}(|L|/\varepsilon)$.
翻訳日:2023-10-31 14:49:26 公開日:2023-10-29
# oracle によるコンテクスト・バンディットのリラクゼーション改善

An Improved Relaxation for Oracle-Efficient Adversarial Contextual Bandits ( http://arxiv.org/abs/2310.19025v1 )

ライセンス: Link先を確認
Kiarash Banihashem, MohammadTaghi Hajiaghayi, Suho Shin, Max Springer(参考訳) 我々は,既知の分布から文脈が順次引き起こされ,コストシーケンスがオンラインの敵によって選択される,敵対的文脈的バンディット問題に対するoracleの効率的な緩和を提案する。 我々のアルゴリズムは、$O(T^{\frac{2}{3}}(K\log(|\Pi|))^{\frac{1}{3}})$の後悔のバウンダリを持ち、少なくとも$O(K)$コールをオフラインの最適化オラクルに呼び出し、$K$はアクションの数を表し、$T$はラウンドの数を表し、$\Pi$はポリシーの集合を示す。 これは、NeurIPS 2016 で Syrgkanis et al. によって得られたような$O((TK)^{\frac{2}{3}}(\log(|\Pi|))^{\frac{1}{3}})$ の事前の最高境界を改善する最初の結果であり、NeurIPS 2007 で得られるラングフォードと張の元の境界と一致する最初の結果である。

We present an oracle-efficient relaxation for the adversarial contextual bandits problem, where the contexts are sequentially drawn i.i.d from a known distribution and the cost sequence is chosen by an online adversary. Our algorithm has a regret bound of $O(T^{\frac{2}{3}}(K\log(|\Pi|))^{\frac{1}{3}})$ and makes at most $O(K)$ calls per round to an offline optimization oracle, where $K$ denotes the number of actions, $T$ denotes the number of rounds and $\Pi$ denotes the set of policies. This is the first result to improve the prior best bound of $O((TK)^{\frac{2}{3}}(\log(|\Pi|))^{\frac{1}{3}})$ as obtained by Syrgkanis et al. at NeurIPS 2016, and the first to match the original bound of Langford and Zhang at NeurIPS 2007 which was obtained for the stochastic case.
翻訳日:2023-10-31 14:48:43 公開日:2023-10-29
# FPGAN-Control: 合成データによるトレーニングのための制御可能な指紋生成装置

FPGAN-Control: A Controllable Fingerprint Generator for Training with Synthetic Data ( http://arxiv.org/abs/2310.19024v1 )

ライセンス: Link先を確認
Alon Shoshan, Nadav Bhonker, Emanuel Ben Baruch, Ori Nizan, Igor Kviatkovsky, Joshua Engelsma, Manoj Aggarwal, Gerard Medioni(参考訳) 合成データを用いた指紋認識モデルのトレーニングは、センシティブな個人データへの依存を軽減するため、バイオメトリックスコミュニティの注目を集めている。 指紋生成の既存のアプローチは、同一指の多様な印象を生成する能力に制限があり、これは認識モデルのトレーニングに有効なデータを提供するための重要な特性である。 このギャップに対処するために、生成された指紋の指紋の外観(指紋の種類、取得装置、圧力レベルなど)を制御できる識別保存画像生成フレームワークであるFPGAN-Controlを提案する。 指紋の同一性と外観特性を異にする新たな外観損失について紹介する。 実験では,NIST SD302データセットを用いてFPGAN-Controlモデルのトレーニングを行った。 FPGAN-Controlのメリットを,アイデンティティの保存レベル,外観制御の程度,合成ドメイン間ギャップの低さの観点から定量的かつ定性的に示す。 最後に、fpgan制御によって生成された合成データセットのみを使用した認識モデルのトレーニングは、実際のデータでトレーニングされたモデルと同等か、あるいは超えている認識確率に繋がる。 私たちの知る限りでは、これがこれを初めて実証する作業です。

Training fingerprint recognition models using synthetic data has recently gained increased attention in the biometric community as it alleviates the dependency on sensitive personal data. Existing approaches for fingerprint generation are limited in their ability to generate diverse impressions of the same finger, a key property for providing effective data for training recognition models. To address this gap, we present FPGAN-Control, an identity preserving image generation framework which enables control over the fingerprint's image appearance (e.g., fingerprint type, acquisition device, pressure level) of generated fingerprints. We introduce a novel appearance loss that encourages disentanglement between the fingerprint's identity and appearance properties. In our experiments, we used the publicly available NIST SD302 (N2N) dataset for training the FPGAN-Control model. We demonstrate the merits of FPGAN-Control, both quantitatively and qualitatively, in terms of identity preservation level, degree of appearance control, and low synthetic-to-real domain gap. Finally, training recognition models using only synthetic datasets generated by FPGAN-Control lead to recognition accuracies that are on par or even surpass models trained using real data. To the best of our knowledge, this is the first work to demonstrate this.
翻訳日:2023-10-31 14:48:13 公開日:2023-10-29
# 離散時間静的出力フィードバックのためのポリシー勾配法の最適化

Optimization Landscape of Policy Gradient Methods for Discrete-time Static Output Feedback ( http://arxiv.org/abs/2310.19022v1 )

ライセンス: Link先を確認
Jingliang Duan, Jie Li, Xuyang Chen, Kai Zhao, Shengbo Eben Li, Lin Zhao(参考訳) 近年,線形時間不変系(LTI)における最適制御を実現するために,政策勾配法の最適化環境を掘り下げる重要な進歩がなされている。 状態フィードバック制御と比較すると、システムの基盤となる状態が多くの実用的な環境で完全には観測できないため、出力フィードバック制御の方が一般的である。 本稿では,2次コストを考慮した離散時間ltiシステムの静的出力フィードバック(sof)制御に適用する場合に,ポリシー勾配法に固有の最適化ランドスケープを分析する。 まず, 強制力, L-smoothness および M-Lipschitz 連続 Hessian を含む SOF コストの重要な特性の確立から始める。 凸性の欠如にもかかわらず,バニラ・ポリシー勾配法,自然政策勾配法,ガウス・ニュートン法などの3つの政策勾配法において,定常点への収束(およびほぼ次元自由度)に関する新たな知見を導出する。 さらに,バニラポリシ勾配法は,そのようなミニマ近傍で初期化される場合,局所ミニマに対して線形収束を示すことを示す。 この論文は、理論的な知見を検証する数値例を提示して結論づける。 これらの結果は,SOF問題を最適化するための勾配降下法の性能を特徴づけるだけでなく,強化学習領域における一般政策勾配法の有効性に関する洞察を与える。

In recent times, significant advancements have been made in delving into the optimization landscape of policy gradient methods for achieving optimal control in linear time-invariant (LTI) systems. Compared with state-feedback control, output-feedback control is more prevalent since the underlying state of the system may not be fully observed in many practical settings. This paper analyzes the optimization landscape inherent to policy gradient methods when applied to static output feedback (SOF) control in discrete-time LTI systems subject to quadratic cost. We begin by establishing crucial properties of the SOF cost, encompassing coercivity, L-smoothness, and M-Lipschitz continuous Hessian. Despite the absence of convexity, we leverage these properties to derive novel findings regarding convergence (and nearly dimension-free rate) to stationary points for three policy gradient methods, including the vanilla policy gradient method, the natural policy gradient method, and the Gauss-Newton method. Moreover, we provide proof that the vanilla policy gradient method exhibits linear convergence towards local minima when initialized near such minima. The paper concludes by presenting numerical examples that validate our theoretical findings. These results not only characterize the performance of gradient descent for optimizing the SOF problem but also provide insights into the effectiveness of general policy gradient methods within the realm of reinforcement learning.
翻訳日:2023-10-31 14:47:53 公開日:2023-10-29
# TeacherLM: 魚を贈るよりも魚を教えること、言語モデリングも同じように

TeacherLM: Teaching to Fish Rather Than Giving the Fish, Language Modeling Likewise ( http://arxiv.org/abs/2310.19019v1 )

ライセンス: Link先を確認
Nan He, Hanyu Lai, Chenyang Zhao, Zirui Cheng, Junting Pan, Ruoyu Qin, Ruofan Lu, Rui Lu, Yunchen Zhang, Gangming Zhao, Zhaohui Hou, Zhiyuan Huang, Shaoqing Lu, Ding Liang, Mingjie Zhan(参考訳) 大規模言語モデル(LLM)は、様々なNLPタスクにおいて印象的な推論とデータ拡張能力を示す。 しかし、小さなモデルはどうだろう? そこで本研究では,ほとんどのnlpサンプルに対して,関連する基本,思考の連鎖,よくある誤りを注釈できる教師lm-7.1bを提案する。アノテーションは単なる回答以上のものとなり,他のモデルが単に「何」ではなく「理由」を学ぶことができる。 TeacherLM-7.1BモデルはMMLUで0ショットスコア52.3を獲得し、100B以上のパラメータを持つほとんどのモデルを上回った。 さらに注目すべきは、データ拡張機能だ。 TeacherLM-7.1Bに基づいて58個のNLPデータセットを拡張し,OPTおよびBLOOMシリーズと異なるパラメータの学生モデルをマルチタスク環境で教えた。 実験の結果, 教師が提供したデータ拡張は有意なメリットをもたらした。 TeacherLMシリーズのモデルと拡張データセットをオープンソースとしてリリースします。

Large Language Models (LLMs) exhibit impressive reasoning and data augmentation capabilities in various NLP tasks. However, what about small models? In this work, we propose TeacherLM-7.1B, capable of annotating relevant fundamentals, chain of thought, and common mistakes for most NLP samples, which makes annotation more than just an answer, thus allowing other models to learn "why" instead of just "what". The TeacherLM-7.1B model achieved a zero-shot score of 52.3 on MMLU, surpassing most models with over 100B parameters. Even more remarkable is its data augmentation ability. Based on TeacherLM-7.1B, we augmented 58 NLP datasets and taught various student models with different parameters from OPT and BLOOM series in a multi-task setting. The experimental results indicate that the data augmentation provided by TeacherLM has brought significant benefits. We will release the TeacherLM series of models and augmented datasets as open-source.
翻訳日:2023-10-31 14:47:28 公開日:2023-10-29
# Refugee Identityのセキュア化 - ブロックチェーンベースのスマートコントラクトに関する文献レビュー

Securing Refugee Identity: A Literature Review on Blockchain-based Smart Contract ( http://arxiv.org/abs/2310.19018v1 )

ライセンス: Link先を確認
Md Taimur Ahad and Yousuf Rayhan Emon(参考訳) 難民のアイデンティティ・ドキュメンテーションは複雑なプロセスであり、ホスト国にとって不可欠である。 セキュアなid管理システムは、ホスト国とドナー組織に対するセキュリティと効率的なサービス提供の両方を保証する。 メリットを認識したいくつかの研究は、難民のブロックチェーンベースのセキュリティ識別を強化した。 研究はブロックチェーンベースのスマートコントラクトに関連する、導入、概念、実践的なソリューションを提示した。 ブロックチェーンベースのスマートコントラクトは、難民のアイデンティティ検証を合理化するだけでなく、不正なエントリに対する保護も行う、という研究には共通の合意がある。 技術でもあるため、社会的文脈における技術の現状を知ることが不可欠である。 このような状況下では、今後の研究に洞察を与えるため、既存の研究研究の見直しが不可欠となる。 本研究では,テーマアプローチによる最近の研究を概観する。 以上の結果から, 研究者は, 先進技術において重要なモデルであるため, 概念モデルを提供する傾向が強いことが示唆された。 しかし,本研究の主な貢献は,スマートコントラクトに基づく難民アイデンティティ管理における現在の取り組みである。 この研究は難民ホスト国と利害関係者にとって重要である。 この研究から得られた知識は、既存の理論と実装フレームワークを使ってこの技術をどのように開発できるかについての洞察を提供するものと期待される。

Identity documentation for refugees is a complex process and crucial for host nations. A secured identity management system ensures both security and the efficient provision of services for the host nation and the donor organizations. Realizing the benefits, a handful of studies enriched the blockchain-based security identification for refugees. The research studies presented the introductory, conceptual, and practical solution related to the blockchain-based smart contract. There is a common agreement in the studies that blockchain-based smart contract not only streamlines refugee identity verification but also safeguards against unauthorized entries. Since it is a technology as well, it has been essential to know the present status of the technology in the social context. In such a situation it becomes essential to review the existing research studies to provide insight for future studies. In this study, we reviewed current studies using a thematic approach. Our findings suggest researchers are more inclined to provide conceptual models as the models are important in advancing technology; however, the models need to be implemented for practical advances. However, the main contribution of this study is that this study gathers current efforts in smart contract-based refugee identity management. This study is important for the refugee host nations as well as for stakeholders. Knowledge gained from the study is expected to provide insight into how the technology can be developed using existing theory and implementation frameworks.
翻訳日:2023-10-31 14:47:14 公開日:2023-10-29
# リカレントスパイクネットワークにおけるメモリ拡張

Expanding memory in recurrent spiking networks ( http://arxiv.org/abs/2310.19067v1 )

ライセンス: Link先を確認
Ismael Balafrej, Fabien Alibart, Jean Rouat(参考訳) リカレントスパイキングニューラルネットワーク(RSNN)は、スパイクのバイナリの性質によって強化される、消失する勾配問題のために訓練が難しいことで知られている。 本稿では,最先端のrsnnが長期記憶課題を解決する能力について検討し,その性能とハードウェアアナログニューロモルフィックプロセッサの実装に強い制約があることを示す。 これらの制限を回避する新しいスパイクニューラルネットワークを提案する。 生物学的にインスパイアされたニューラルネットワークは, シナプス遅延, 分岐因子規則化, スパイキング機能に新規なサロゲート誘導体を用いる。 提案したネットワークは、メモリタスクのリカレントコネクションの使用に成功している。

Recurrent spiking neural networks (RSNNs) are notoriously difficult to train because of the vanishing gradient problem that is enhanced by the binary nature of the spikes. In this paper, we review the ability of the current state-of-the-art RSNNs to solve long-term memory tasks, and show that they have strong constraints both in performance, and for their implementation on hardware analog neuromorphic processors. We present a novel spiking neural network that circumvents these limitations. Our biologically inspired neural network uses synaptic delays, branching factor regularization and a novel surrogate derivative for the spiking function. The proposed network proves to be more successful in using the recurrent connections on memory tasks.
翻訳日:2023-10-31 14:39:19 公開日:2023-10-29
# 小型データ分類問題に対するゲージ最適近似学習

Gauge-optimal approximate learning for small data classification problems ( http://arxiv.org/abs/2310.19066v1 )

ライセンス: Link先を確認
Edoardo Vecchi, Davide Bassetti, Fabio Graziato, Lukas Pospisil, Illia Horenko(参考訳) 少数のデータ学習問題は、応答変数の観測量の制限と大きな特徴空間次元との間の大きな相違によって特徴づけられる。 この設定では、共通学習ツールは、関連する情報を持たないものから分類タスクにとって重要な特徴を特定するのに苦労し、異なるクラスを区別できる適切な学習規則を導出できない。 この問題に対する潜在的な解決策として、低次元ゲージにおける特徴空間の縮小と回転というアイデアを活用し、小さなデータ学習問題に対する次元減少、特徴分節化、分類問題に対する解析的に抽出可能なジョイントソリューションであるGauge-Optimal Approximate Learning (GOAL)アルゴリズムを提案する。 GOALアルゴリズムの最適解はユークリッド空間の片方向線形関数で構成されており、各最適化部分ステップと全体の線形反復コストスケーリングに対する閉形式解である特徴空間の離散分割を前提とした単調収束アルゴリズムにより近似可能であることを証明した。 GOALアルゴリズムは、合成データと気候科学とバイオインフォマティクス(El Nino Southern Oscillationの予測と、限られた実験データからエピジェネティックに誘発される遺伝子活性ネットワークの推測)からの実際の応用に挑戦する他の最先端機械学習(ML)ツールと比較されている。 実験結果から,提案アルゴリズムは,これらの問題に対して,学習性能と計算コストの両面で,最も優れた競合相手であることがわかった。

Small data learning problems are characterized by a significant discrepancy between the limited amount of response variable observations and the large feature space dimension. In this setting, the common learning tools struggle to identify the features important for the classification task from those that bear no relevant information, and cannot derive an appropriate learning rule which allows to discriminate between different classes. As a potential solution to this problem, here we exploit the idea of reducing and rotating the feature space in a lower-dimensional gauge and propose the Gauge-Optimal Approximate Learning (GOAL) algorithm, which provides an analytically tractable joint solution to the dimension reduction, feature segmentation and classification problems for small data learning problems. We prove that the optimal solution of the GOAL algorithm consists in piecewise-linear functions in the Euclidean space, and that it can be approximated through a monotonically convergent algorithm which presents -- under the assumption of a discrete segmentation of the feature space -- a closed-form solution for each optimization substep and an overall linear iteration cost scaling. The GOAL algorithm has been compared to other state-of-the-art machine learning (ML) tools on both synthetic data and challenging real-world applications from climate science and bioinformatics (i.e., prediction of the El Nino Southern Oscillation and inference of epigenetically-induced gene-activity networks from limited experimental data). The experimental results show that the proposed algorithm outperforms the reported best competitors for these problems both in learning performance and computational cost.
翻訳日:2023-10-31 14:39:07 公開日:2023-10-29
# LLP手法の評価:課題とアプローチ

Evaluating LLP Methods: Challenges and Approaches ( http://arxiv.org/abs/2310.19065v1 )

ライセンス: Link先を確認
Gabriel Franco, Giovanni Comarela, Mark Crovella(参考訳) LLP(Learning from Label Proportions)は、多数の現実世界のアプリケーションにおいて確立された機械学習問題である。 この設定では、データアイテムはバッグにグループ化され、目的は個々のアイテムラベルを学習し、各バッグ内のデータの特徴とラベルの割合だけを知ることである。 LLPは確立された問題であるが、いくつかの特異な側面があり、学習方法のベンチマークに挑戦する。 基本的な合併症は、異なるllp変異体、すなわちアイテム、ラベル、バッグの間に存在する依存構造の存在によって生じる。 したがって、第1のアルゴリズム的課題は、依存構造とバッグ特性の多様性を捉えた変種固有のデータセットの生成である。 第2の方法論的課題は、モデル選択、すなわちハイパーパラメータチューニングである。 最後のベンチマークチャレンジは、様々なllp変種にわたるllpソリューションメソッドを適切に評価することである。 これまでの作業ではこれらの問題についてはほとんど考慮されておらず、これらの課題に対する一般的な解決策は提案されていない。 これらの課題に対処するため、異なる変種要件を満たすLPPデータセットを生成する方法を開発した。 これらの手法を用いて,LLP問題特性のスペクトルを含むデータセットの収集を行い,今後の評価研究に利用することができる。 さらに,モデル選択や評価手順を含むLLPアルゴリズムのベンチマークのためのガイドラインを開発する。 最後に,よく知られたllpアルゴリズムの広範なベンチマークを行い,新しい手法とガイドラインを示す。 最適アルゴリズムの選択はLLP変種とモデル選択法に大きく依存していることを示し、提案手法の必要性を実証する。

Learning from Label Proportions (LLP) is an established machine learning problem with numerous real-world applications. In this setting, data items are grouped into bags, and the goal is to learn individual item labels, knowing only the features of the data and the proportions of labels in each bag. Although LLP is a well-established problem, it has several unusual aspects that create challenges for benchmarking learning methods. Fundamental complications arise because of the existence of different LLP variants, i.e., dependence structures that can exist between items, labels, and bags. Accordingly, the first algorithmic challenge is the generation of variant-specific datasets capturing the diversity of dependence structures and bag characteristics. The second methodological challenge is model selection, i.e., hyperparameter tuning; due to the nature of LLP, model selection cannot easily use the standard machine learning paradigm. The final benchmarking challenge consists of properly evaluating LLP solution methods across various LLP variants. We note that there is very little consideration of these issues in prior work, and there are no general solutions for these challenges proposed to date. To address these challenges, we develop methods capable of generating LLP datasets meeting the requirements of different variants. We use these methods to generate a collection of datasets encompassing the spectrum of LLP problem characteristics, which can be used in future evaluation studies. Additionally, we develop guidelines for benchmarking LLP algorithms, including the model selection and evaluation steps. Finally, we illustrate the new methods and guidelines by performing an extensive benchmark of a set of well-known LLP algorithms. We show that choosing the best algorithm depends critically on the LLP variant and model selection method, demonstrating the need for our proposed approach.
翻訳日:2023-10-31 14:38:38 公開日:2023-10-29
# Appleのテイスティングの学習性を再考する

Revisiting the Learnability of Apple Tasting ( http://arxiv.org/abs/2310.19064v1 )

ライセンス: Link先を確認
Vinod Raman, Unique Subedi, Ananth Raman, Ambuj Tewari(参考訳) textit{apple tasting} フィードバックに基づくオンラインバイナリ分類では、学習者は「1」を予測する場合にのみ真のラベルを観察する。 はじめはcite{helmbold2000apple} によって研究され、この古典的な部分フィードバック設定を再考し、組合せ論的観点からオンライン学習可能性を研究する。 リトルストーンの次元は、アグノースティックセッティングにおけるリンゴのテイスティングの厳密な量的特徴を証明し続けており、 \cite{helmbold2000apple} によるオープンな質問を閉じている。 さらに,実現可能な設定における最小誤差を厳密に定量化する,エフェクト幅と呼ばれる新しい組合せパラメータを与える。 コーナリーとして、エフェクト幅を用いて、実現可能な設定において期待されるミス数のミニマックスの \textit{trichotomy} を確立する。 特に、実現可能な設定では、appleのテイスティングフィードバックの下での学習者にとって予想される間違いの数は、$\theta(1)、 \theta(\sqrt{t})$、$\theta(t)$である。

In online binary classification under \textit{apple tasting} feedback, the learner only observes the true label if it predicts "1". First studied by \cite{helmbold2000apple}, we revisit this classical partial-feedback setting and study online learnability from a combinatorial perspective. We show that the Littlestone dimension continues to prove a tight quantitative characterization of apple tasting in the agnostic setting, closing an open question posed by \cite{helmbold2000apple}. In addition, we give a new combinatorial parameter, called the Effective width, that tightly quantifies the minimax expected mistakes in the realizable setting. As a corollary, we use the Effective width to establish a \textit{trichotomy} of the minimax expected number of mistakes in the realizable setting. In particular, we show that in the realizable setting, the expected number of mistakes for any learner under apple tasting feedback can only be $\Theta(1), \Theta(\sqrt{T})$, or $\Theta(T)$.
翻訳日:2023-10-31 14:38:12 公開日:2023-10-29
# 結合音の分類と局所化ニューラルネットワークにおける特徴集約

Feature Aggregation in Joint Sound Classification and Localization Neural Networks ( http://arxiv.org/abs/2310.19063v1 )

ライセンス: Link先を確認
Brendan Healy, Patrick McNamee, and Zahra Nili Ahmadabadi(参考訳) 本研究では,音声信号分類と局所化ネットワークにおける深層学習手法の適用について述べる。 現在の最先端の音源定位深層学習ネットワークは、そのアーキテクチャにおける特徴集約を欠いている。 特徴集約は、異なる特徴尺度からの情報の統合を可能にし、特徴の堅牢性と不変性を改善することにより、モデル性能を向上させる。 これはSSLネットワークにおいて特に重要であり、直接と間接の音響信号を区別する必要がある。 このギャップに対処するため,コンピュータビジョンニューラルネットワークから信号検出ニューラルネットワークへの特徴集約手法を適用した。 さらに,様々なスケールから特徴をエンコードするための特徴集約のためのスケール符号化ネットワーク(sen)を提案し,より計算効率の高い集約のためにネットワークを圧縮する。 SSLネットワークにおける特徴集約の有効性を評価するため,パスアグリゲーションネットワーク(PANet),重み付き双方向特徴ピラミッドネットワーク(BiFPN),SENの2つのサブアーキテクチャを信号分類のための2つの指標と方向回帰のための2つの指標を用いて評価した。 PANetとBiFPNはコンピュータビジョンモデルで確立されたアグリゲータであり、提案したSENはよりコンパクトなアグリゲータである。 その結果,特徴集約を組み込んだモデルは,音響信号分類と局所化の両方において,制御モデルであるseldnet (sound event localization and detection network) を上回っていることが示唆された。 特徴集約技術は、特に方向回帰において、音検出ニューラルネットワークの性能を高める。

This study addresses the application of deep learning techniques in joint sound signal classification and localization networks. Current state-of-the-art sound source localization deep learning networks lack feature aggregation within their architecture. Feature aggregation enhances model performance by enabling the consolidation of information from different feature scales, thereby improving feature robustness and invariance. This is particularly important in SSL networks, which must differentiate direct and indirect acoustic signals. To address this gap, we adapt feature aggregation techniques from computer vision neural networks to signal detection neural networks. Additionally, we propose the Scale Encoding Network (SEN) for feature aggregation to encode features from various scales, compressing the network for more computationally efficient aggregation. To evaluate the efficacy of feature aggregation in SSL networks, we integrated the following computer vision feature aggregation sub-architectures into a SSL control architecture: Path Aggregation Network (PANet), Weighted Bi-directional Feature Pyramid Network (BiFPN), and SEN. These sub-architectures were evaluated using two metrics for signal classification and two metrics for direction-of-arrival regression. PANet and BiFPN are established aggregators in computer vision models, while the proposed SEN is a more compact aggregator. The results suggest that models incorporating feature aggregations outperformed the control model, the Sound Event Localization and Detection network (SELDnet), in both sound signal classification and localization. The feature aggregation techniques enhance the performance of sound detection neural networks, particularly in direction-of-arrival regression.
翻訳日:2023-10-31 14:37:50 公開日:2023-10-29
# マルチモーダル卓球ロボットシステム

A multi-modal table tennis robot system ( http://arxiv.org/abs/2310.19062v1 )

ライセンス: Link先を確認
Andreas Ziegler, Thomas Gossard, Karl Vetter, Jonas Tebbe, Andreas Zell(参考訳) 近年では、ロボットによる卓球が認知とロボット制御のための研究課題となっている。 本稿では,高精度な視覚検出と高速なロボット反応を備えたテーブルテニスロボットシステムを提案する。 これまでの研究に基づいて、我々のシステムはKUKAロボットアームと6 DOF、フレームベースのカメラ4台とイベントベースのカメラ2台を備えている。 このマルチモーダル認識システムを校正するための新しい校正手法を開発した。 卓球ではスピン推定が重要である。 そこで我々は,新しい,より正確なスピン推定手法を導入した。 最後に,イベントベースカメラの出力とスパイクニューラルネットワーク(snn)を組み合わせることで,球の検出精度が向上することを示す。

In recent years, robotic table tennis has become a popular research challenge for perception and robot control. Here, we present an improved table tennis robot system with high accuracy vision detection and fast robot reaction. Based on previous work, our system contains a KUKA robot arm with 6 DOF, with four frame-based cameras and two additional event-based cameras. We developed a novel calibration approach to calibrate this multimodal perception system. For table tennis, spin estimation is crucial. Therefore, we introduced a novel, and more accurate spin estimation approach. Finally, we show how combining the output of an event-based camera and a Spiking Neural Network (SNN) can be used for accurate ball detection.
翻訳日:2023-10-31 14:37:26 公開日:2023-10-29
# 医療用マルチモーダルチャットGPT : GPT-4Vの実験的検討

Multimodal ChatGPT for Medical Applications: an Experimental Study of GPT-4V ( http://arxiv.org/abs/2310.19061v1 )

ライセンス: Link先を確認
Zhiling Yan, Kai Zhang, Rong Zhou, Lifang He, Xiang Li, Lichao Sun(参考訳) 本稿では,最先端のマルチモーダル大言語モデルであるgpt-4 with vision (gpt-4v), on visual question answering (vqa) の能力について批判的に評価する。 本実験は,11種類の画像(顕微鏡,皮膚鏡,X線,CTなど)と15種類の興味の対象(脳,肝臓,肺など)を用いて,GPT-4Vの解答能力と画像との整合性について徹底的に評価した。 当社のデータセットは、16の異なる質問タイプを含む、幅広い医療問合せを包含しています。 評価を通じて,GPT-4Vのテキストプロンプトを考案し,視覚情報とテキスト情報の相乗化を図った。 GPT-4Vの現在のバージョンは、診断医学的問題に応答する際の信頼性と準最適精度のため、現実の診断には推奨されない。 さらに, 医療用VQAにおけるGPT-4Vの挙動の7つの特異な側面を抽出し, 複雑な領域内での制約を強調した。 評価ケースの完全な詳細は、https://github.com/ZhilingYan/GPT4V-Medical-Report.comで確認できる。

In this paper, we critically evaluate the capabilities of the state-of-the-art multimodal large language model, i.e., GPT-4 with Vision (GPT-4V), on Visual Question Answering (VQA) task. Our experiments thoroughly assess GPT-4V's proficiency in answering questions paired with images using both pathology and radiology datasets from 11 modalities (e.g. Microscopy, Dermoscopy, X-ray, CT, etc.) and fifteen objects of interests (brain, liver, lung, etc.). Our datasets encompass a comprehensive range of medical inquiries, including sixteen distinct question types. Throughout our evaluations, we devised textual prompts for GPT-4V, directing it to synergize visual and textual information. The experiments with accuracy score conclude that the current version of GPT-4V is not recommended for real-world diagnostics due to its unreliable and suboptimal accuracy in responding to diagnostic medical questions. In addition, we delineate seven unique facets of GPT-4V's behavior in medical VQA, highlighting its constraints within this complex arena. The complete details of our evaluation cases are accessible at https://github.com/ZhilingYan/GPT4V-Medical-Report.
翻訳日:2023-10-31 14:37:16 公開日:2023-10-29
# TESTA: 長期ビデオ言語理解のための時間空間トークン集約

TESTA: Temporal-Spatial Token Aggregation for Long-form Video-Language Understanding ( http://arxiv.org/abs/2310.19060v1 )

ライセンス: Link先を確認
Shuhuai Ren, Sishuo Chen, Shicheng Li, Xu Sun, Lu Hou(参考訳) 大規模ビデオ言語事前学習は、ビデオ言語理解タスクの前進に大きく貢献している。 しかし、ビデオエンコーディングの重い計算負荷は、特にロングフォームビデオの効率のボトルネックとなっている。 これらのビデオは、固有の3d特性と時空間冗長性のために巨大な視覚トークンを含んでいるため、複雑な時間的および空間的関係を捉えることが困難である。 この問題に対処するために,TESTA (TEmporal-Spatial Token Aggregation) と呼ばれる効率的な手法を提案する。 TESTAは、似たようなフレームを適応的に集約することで、ビデオセマンティクスを凝縮する。 TESTAは、視覚トークンの数を75%削減し、ビデオエンコーディングを高速化する。 TESTAに基づいて,各ビデオエンコーダブロックに分割した時空間トークン集約モジュールを備えた事前学習ビデオ言語モデルを導入する。 段落間検索と長文ビデオQAタスクのための5つのデータセットを用いて,本モデルの評価を行った。 実験の結果、TESTAは計算効率を1.7倍改善し、QuerYDでは+13.7 R@1、Condensed Movieでは+6.5 R@1といったより長い入力フレーム処理のスケーラビリティにより、大幅な性能向上を実現している。

Large-scale video-language pre-training has made remarkable strides in advancing video-language understanding tasks. However, the heavy computational burden of video encoding remains a formidable efficiency bottleneck, particularly for long-form videos. These videos contain massive visual tokens due to their inherent 3D properties and spatiotemporal redundancy, making it challenging to capture complex temporal and spatial relationships. To tackle this issue, we propose an efficient method called TEmporal-Spatial Token Aggregation (TESTA). TESTA condenses video semantics by adaptively aggregating similar frames, as well as similar patches within each frame. TESTA can reduce the number of visual tokens by 75% and thus accelerate video encoding. Building upon TESTA, we introduce a pre-trained video-language model equipped with a divided space-time token aggregation module in each video encoder block. We evaluate our model on five datasets for paragraph-to-video retrieval and long-form VideoQA tasks. Experimental results show that TESTA improves computing efficiency by 1.7 times, and achieves significant performance gains from its scalability in processing longer input frames, e.g., +13.7 R@1 on QuerYD and +6.5 R@1 on Condensed Movie.
翻訳日:2023-10-31 14:36:55 公開日:2023-10-29
# コミュニケーション圧縮を用いた分散sgdによるヘテロジニアスフェデレーション学習におけるサドルポイントのエスケープ

Escaping Saddle Points in Heterogeneous Federated Learning via Distributed SGD with Communication Compression ( http://arxiv.org/abs/2310.19059v1 )

ライセンス: Link先を確認
Sijin Chen, Zhize Li, Yuejie Chi(参考訳) 本研究では,不均一なフェデレーション学習(FL)の2次定常点を求める問題を考える。 flの以前の研究は、不安定な鞍点のシナリオを除外しない一階収束保証に重点を置いている。 一方で、特にローカルデータが異なるクライアント間で非常に異質な場合において、学習精度を補償することなく通信効率を達成することは、flの重要なボトルネックである。 そこで本研究では,新しい誤りフィードバック方式を用いて圧縮情報のみを通信する新しいアルゴリズムpower-efを提案する。 我々の知る限り、Power-EFはデータ均一性の仮定なしに不均一FLにおけるサドル点を確実に回避する最初の分散圧縮SGDアルゴリズムである。 特に、Power-EFは、第1次収束で要求されるほぼ同じ順序でのみ追加の勾配クエリと通信ラウンドを使用して、第1次(おそらくはサドル)ポイントを訪問した後、第2次定常点に改善され、収束率は、労働者数の観点から線形スピードアップを示す。 我々の理論は、以前の結果を改善し、またローカルデータのより寛容な設定に拡張する。 この理論を補うために数値実験が行われる。

We consider the problem of finding second-order stationary points of heterogeneous federated learning (FL). Previous works in FL mostly focus on first-order convergence guarantees, which do not rule out the scenario of unstable saddle points. Meanwhile, it is a key bottleneck of FL to achieve communication efficiency without compensating the learning accuracy, especially when local data are highly heterogeneous across different clients. Given this, we propose a novel algorithm Power-EF that only communicates compressed information via a novel error-feedback scheme. To our knowledge, Power-EF is the first distributed and compressed SGD algorithm that provably escapes saddle points in heterogeneous FL without any data homogeneity assumptions. In particular, Power-EF improves to second-order stationary points after visiting first-order (possibly saddle) points, using additional gradient queries and communication rounds only of almost the same order required by first-order convergence, and the convergence rate exhibits a linear speedup in terms of the number of workers. Our theory improves/recovers previous results, while extending to much more tolerant settings on the local data. Numerical experiments are provided to complement the theory.
翻訳日:2023-10-31 14:36:32 公開日:2023-10-29
# ソーシャルメディアコンテンツから健康状態検出のための言語モデル構築のためのユニークな訓練方法

A Unique Training Strategy to Enhance Language Models Capabilities for Health Mention Detection from Social Media Content ( http://arxiv.org/abs/2310.19057v1 )

ライセンス: Link先を確認
Pervaiz Iqbal Khan, Muhammad Nabeel Asim, Andreas Dengel, Sheraz Ahmed(参考訳) ソーシャルメディアコンテンツの増加は、有用な情報を抽出できる高度なAIベースのコンピュータプログラムを必要とする。 特に、ソーシャルメディアからの健康関連コンテンツの抽出は、疾患の拡散、死亡率の予測、様々な種類の病気に対する様々な種類の薬物の影響の発見を含む、多様な種類のアプリケーションの開発に有用である。 言語モデルは、テキストの構文と意味を抽出する能力を持っている。 しかし、ソーシャルメディアのテキストから同様のパターンを抽出するのは難しい。 この不足の主な理由は、ソーシャルメディアユーザーが一般的に使っている非標準化の文体にある。 ソーシャルメディアテキストから有用なパターンを抽出する上で,最適な言語モデルの必要性に続き,本論文の主な目的は,一般化されたパターンを学習するための言語モデルを訓練することである。 鍵となる目標は、無作為加重摂動と対比学習戦略を組み込むことである。 ユニークなトレーニング戦略に加えて、ソーシャルメディアテキストのポストを非健康および健康関連のクラスに識別するための5つの異なる言語モデルの利点を享受するメタ予測器が提案されている。 3つの公開ベンチマークデータセットにわたる総合的な実験により、提案されたトレーニング戦略が、従来のトレーニングのパフォーマンスと比較して、F1スコアの観点から、言語モデルのパフォーマンスを3.87%向上させることが明らかになった。 さらに、提案されたメタ予測器は、既存の3つのベンチマークデータセットの分類予測器よりも優れている。

An ever-increasing amount of social media content requires advanced AI-based computer programs capable of extracting useful information. Specifically, the extraction of health-related content from social media is useful for the development of diverse types of applications including disease spread, mortality rate prediction, and finding the impact of diverse types of drugs on diverse types of diseases. Language models are competent in extracting the syntactic and semantics of text. However, they face a hard time extracting similar patterns from social media texts. The primary reason for this shortfall lies in the non-standardized writing style commonly employed by social media users. Following the need for an optimal language model competent in extracting useful patterns from social media text, the key goal of this paper is to train language models in such a way that they learn to derive generalized patterns. The key goal is achieved through the incorporation of random weighted perturbation and contrastive learning strategies. On top of a unique training strategy, a meta predictor is proposed that reaps the benefits of 5 different language models for discriminating posts of social media text into non-health and health-related classes. Comprehensive experimentation across 3 public benchmark datasets reveals that the proposed training strategy improves the performance of the language models up to 3.87%, in terms of F1-score, as compared to their performance with traditional training. Furthermore, the proposed meta predictor outperforms existing health mention classification predictors across all 3 benchmark datasets.
翻訳日:2023-10-31 14:36:04 公開日:2023-10-29
# MILL: ゼロショットクエリ拡張のための大規模言語モデルによる相互検証

MILL: Mutual Verification with Large Language Models for Zero-Shot Query Expansion ( http://arxiv.org/abs/2310.19056v1 )

ライセンス: Link先を確認
Pengyue Jia, Yiding Liu, Xiangyu Zhao, Xiaopeng Li, Changying Hao, Shuaiqiang Wang, Dawei Yin(参考訳) クエリ拡張は、多くの検索システムにおいて、追加のクエリ用語でユーザの情報ニーズをより良く表現するための一般的なテクニックである。 このタスクの既存の研究は通常、検索または生成されたコンテキスト文書でクエリを拡張することを提案する。 しかし、どちらの方法にも明確な制限がある。 検索に基づく手法では、元のクエリで検索した文書は、検索意図を明らかにするのに十分ではないかもしれない。 ジェネレーションベースでは、コーパス固有のラベル付きデータがないため、既存のモデルは特定のコーパス上でトレーニングやアライメントがほとんどできない。 本稿では,前述した制限を緩和するクエリ拡張のための,新しい大規模言語モデル(llm)ベースの相互検証フレームワークを提案する。 具体的には、LLMに符号化されたコンテキスト知識を効果的に活用し、複数の視点からサブクエリと対応するドキュメントを生成するクエリクエリ文書生成パイプラインを設計する。 次に,生成文書と検索文書の両方に対して相互検証手法を適用した。 1)検索された文書は、生成された文書の外部の文脈知識でフィルタリングされ、 2) 得られた文書のコーパス固有の知識で生成された文書をフィルタリングする。 提案手法により,検索された文書と生成した文書が相互に補完され,より優れたクエリ拡張が達成される。 本稿では,TREC-DL-2020,TREC-COVID,MSMARCOの3つの情報検索データセットについて広範な実験を行った。 その結果,本手法は他のベースラインよりも優れていた。

Query expansion is a commonly-used technique in many search systems to better represent users' information needs with additional query terms. Existing studies for this task usually propose to expand a query with retrieved or generated contextual documents. However, both types of methods have clear limitations. For retrieval-based methods, the documents retrieved with the original query might not be accurate enough to reveal the search intent, especially when the query is brief or ambiguous. For generation-based methods, existing models can hardly be trained or aligned on a particular corpus, due to the lack of corpus-specific labeled data. In this paper, we propose a novel Large Language Model (LLM) based mutual verification framework for query expansion, which alleviates the aforementioned limitations. Specifically, we first design a query-query-document generation pipeline, which can effectively leverage the contextual knowledge encoded in LLMs to generate sub-queries and corresponding documents from multiple perspectives. Next, we employ a mutual verification method for both generated and retrieved contextual documents, where 1) retrieved documents are filtered with the external contextual knowledge in generated documents, and 2) generated documents are filtered with the corpus-specific knowledge in retrieved documents. Overall, the proposed method allows retrieved and generated documents to complement each other to finalize a better query expansion. We conduct extensive experiments on three information retrieval datasets, i.e., TREC-DL-2020, TREC-COVID, and MSMARCO. The results demonstrate that our method outperforms other baselines significantly.
翻訳日:2023-10-31 14:35:43 公開日:2023-10-29
# ファウショット学習アプローチに着目した最近の名前付きエンティティ認識と関係分類手法の検討

A Survey on Recent Named Entity Recognition and Relation Classification Methods with Focus on Few-Shot Learning Approaches ( http://arxiv.org/abs/2310.19055v1 )

ライセンス: Link先を確認
Sakher Alqaaidi, Elika Bozorgi(参考訳) 名前付きエンティティ認識と関係分類は、構造化されていないテキストから情報を抽出するための重要な段階である。 いくつかの自然言語処理アプリケーションは、情報検索、知識グラフの構築と完成、質問応答、バイオメディカルデータマイニングなどのドメイン固有のアプリケーションといった2つのタスクを利用する。 本稿では,この2つの課題における最近のアプローチを,数発の学習アプローチに焦点をあてて調査する。 私たちの研究は、2つのパラダイムにおける主要なアプローチを比較します。 さらに,2つのタスクにおける最新のメトリクススコアを,少数の学習範囲における結果を考慮した構造化分析によって報告する。

Named entity recognition and relation classification are key stages for extracting information from unstructured text. Several natural language processing applications utilize the two tasks, such as information retrieval, knowledge graph construction and completion, question answering and other domain-specific applications, such as biomedical data mining. We present a survey of recent approaches in the two tasks with focus on few-shot learning approaches. Our work compares the main approaches followed in the two paradigms. Additionally, we report the latest metric scores in the two tasks with a structured analysis that considers the results in the few-shot learning scope.
翻訳日:2023-10-31 14:35:19 公開日:2023-10-29
# 効率的な因果表現学習を可能にするオブジェクト指向アーキテクチャ

Object-centric architectures enable efficient causal representation learning ( http://arxiv.org/abs/2310.19054v1 )

ライセンス: Link先を確認
Amin Mansouri, Jason Hartford, Yan Zhang, Yoshua Bengio(参考訳) 因果表現学習(causal representation learning)は、(妥当な等価クラスまで)特定可能な保証によって潜在変数を分離できるさまざまな設定を示してきた。 これらのアプローチの共通点は、(1)潜伏変数が$d$次元ベクトルとして表現され、(2)観測がこれらの潜伏変数の射影関数の出力である、という仮定である。 これらの仮定は良性に見えるが、観測対象が複数の物体である場合、生成関数はもはや注入されなくなり、実際には乱れは失敗することを示す。 対象中心学習と因果表現学習の最近の発展を組み合わせることで、この失敗に対処することができる。 スロットアテンションアーキテクチャarxiv:2006.15055を変更することで、スパース摂動から弱い監督を生かして各オブジェクトの特性を乱すオブジェクト指向アーキテクチャを開発する。 このアプローチはユークリッド空間にエンコードする同等のアプローチよりも摂動をはるかに少なくするという意味では、よりデータ効率が高い。

Causal representation learning has showed a variety of settings in which we can disentangle latent variables with identifiability guarantees (up to some reasonable equivalence class). Common to all of these approaches is the assumption that (1) the latent variables are represented as $d$-dimensional vectors, and (2) that the observations are the output of some injective generative function of these latent variables. While these assumptions appear benign, we show that when the observations are of multiple objects, the generative function is no longer injective and disentanglement fails in practice. We can address this failure by combining recent developments in object-centric learning and causal representation learning. By modifying the Slot Attention architecture arXiv:2006.15055, we develop an object-centric architecture that leverages weak supervision from sparse perturbations to disentangle each object's properties. This approach is more data-efficient in the sense that it requires significantly fewer perturbations than a comparable approach that encodes to a Euclidean space and we show that this approach successfully disentangles the properties of a set of objects in a series of simple image-based disentanglement experiments.
翻訳日:2023-10-31 14:35:09 公開日:2023-10-29
# ナノフォトニック構造とパラメトリック設計シミュレーションのためのデータセットとベンチマーク

Datasets and Benchmarks for Nanophotonic Structure and Parametric Design Simulations ( http://arxiv.org/abs/2310.19053v1 )

ライセンス: Link先を確認
Jungtaek Kim, Mingxuan Li, Oliver Hinder, Paul W. Leu(参考訳) ナノフォトニクスは太陽電池、反射防止コーティング、電磁波干渉遮蔽、光学フィルター、発光ダイオードなど多用途に応用できる。 これらのナノフォトニック構造の設計と理解には、電気力学シミュレーションが不可欠である。 これらのシミュレーションにより、時間とともに電磁場をモデル化し、光学特性を計算することができる。 本研究では,パラメトリック構造設計問題におけるナノフォトニック構造評価のためのフレームワークとベンチマークを紹介する。 ベンチマークは最適化アルゴリズムの性能を評価し、ターゲットの光学特性に基づいて最適な構造を特定するのに有用である。 さらに,電気力学シミュレーションにおけるグリッドサイズの変化の影響について検討し,構造設計の強化において評価の忠実性がいかに戦略的に活用できるかを明らかにした。

Nanophotonic structures have versatile applications including solar cells, anti-reflective coatings, electromagnetic interference shielding, optical filters, and light emitting diodes. To design and understand these nanophotonic structures, electrodynamic simulations are essential. These simulations enable us to model electromagnetic fields over time and calculate optical properties. In this work, we introduce frameworks and benchmarks to evaluate nanophotonic structures in the context of parametric structure design problems. The benchmarks are instrumental in assessing the performance of optimization algorithms and identifying an optimal structure based on target optical properties. Moreover, we explore the impact of varying grid sizes in electrodynamic simulations, shedding light on how evaluation fidelity can be strategically leveraged in enhancing structure designs.
翻訳日:2023-10-31 14:34:46 公開日:2023-10-29
# 音楽の情緒的景観を探る:spotifyの音楽データにおけるヴァレンス傾向とジャンル変動の分析

Exploring the Emotional Landscape of Music: An Analysis of Valence Trends and Genre Variations in Spotify Music Data ( http://arxiv.org/abs/2310.19052v1 )

ライセンス: Link先を確認
Shruti Dutta, Shashwat Mookherjee(参考訳) 本稿では,Spotifyの音楽データを用いた音楽感情と傾向の複雑な分析を行い,スポティピAPIから抽出した音声特徴と楽譜を包含する。 回帰モデル、時間分析、気分遷移、ジャンル調査を応用し、音楽と感情の関係のパターンを明らかにする。 回帰モデル、サポートベクター、ランダムフォレスト、リッジは、値スコアを予測するために使用される。 時間的分析は、時間とともに原子価分布の変化を明らかにし、ムード遷移探索はプレイリスト内の感情的ダイナミクスを照らす。 この研究は、音楽の感情的布地に関する微妙な洞察に寄与し、音楽と感情の間の相互作用の理解を長年にわたって強化している。

This paper conducts an intricate analysis of musical emotions and trends using Spotify music data, encompassing audio features and valence scores extracted through the Spotipi API. Employing regression modeling, temporal analysis, mood transitions, and genre investigation, the study uncovers patterns within music-emotion relationships. Regression models linear, support vector, random forest, and ridge, are employed to predict valence scores. Temporal analysis reveals shifts in valence distribution over time, while mood transition exploration illuminates emotional dynamics within playlists. The research contributes to nuanced insights into music's emotional fabric, enhancing comprehension of the interplay between music and emotions through years.
翻訳日:2023-10-31 14:34:34 公開日:2023-10-29
# マルチモーダル画像のための動的タスクと重量優先カリキュラム学習

Dynamic Task and Weight Prioritization Curriculum Learning for Multimodal Imagery ( http://arxiv.org/abs/2310.19109v1 )

ライセンス: Link先を確認
Huseyin Fuat Alsan, Taner Arsan(参考訳) 本稿では,カリキュラム学習法を訓練したマルチモーダル深層学習モデルを用いたディザスタ後の分析について検討する。 災害後の分析研究は、被害の程度と資源配分に関するタイムリーかつ正確な洞察を提供することによって、災害の影響を軽減する上で重要な役割を担っている。 本稿では,マルチモーダル深層学習モデルの性能向上のためのカリキュラム学習戦略を提案する。 カリキュラム学習は、ますます複雑なデータでディープラーニングモデルをトレーニングすることで、人間教育における進歩的な学習シーケンスをエミュレートする。 我々の主な目的は、FloodNet\footnote{https://github.com/BinaLab/FloodNet-Challenge-EARTHVISION2021}データセットを用いた災害解析のためのセマンティックセグメンテーションと合わせて、画像とテキストデータの共同処理が可能な視覚的質問応答(VQA)に焦点を当てたカリキュラム学習深層学習モデルを開発することである。 これを実現するために、U-Netモデルはセマンティックセグメンテーションと画像エンコーディングに使用される。 視覚的質問応答には独自のテキスト分類器が使用される。 既存のカリキュラム学習方法は、手動で定義された難易度関数に依存する。 DATWEP(Dynamic Task and Weight Prioritization)と呼ばれる新しいカリキュラム学習手法を導入し、勾配に基づく手法を用いてカリキュラム学習中にタスクの難易度を自動的に決定し、明示的な難易度計算の必要性を解消する。 DATWEPをマルチモーダルモデルに統合すると、VQAの性能が改善される。 ソースコードはhttps://github.com/fualsan/DATWEPで入手できる。

This paper explores post-disaster analytics using multimodal deep learning models trained with curriculum learning method. Studying post-disaster analytics is important as it plays a crucial role in mitigating the impact of disasters by providing timely and accurate insights into the extent of damage and the allocation of resources. We propose a curriculum learning strategy to enhance the performance of multimodal deep learning models. Curriculum learning emulates the progressive learning sequence in human education by training deep learning models on increasingly complex data. Our primary objective is to develop a curriculum-trained multimodal deep learning model, with a particular focus on visual question answering (VQA) capable of jointly processing image and text data, in conjunction with semantic segmentation for disaster analytics using the FloodNet\footnote{https://github.com/BinaLab/FloodNet-Challenge-EARTHVISION2021} dataset. To achieve this, U-Net model is used for semantic segmentation and image encoding. A custom built text classifier is used for visual question answering. Existing curriculum learning methods rely on manually defined difficulty functions. We introduce a novel curriculum learning approach termed Dynamic Task and Weight Prioritization (DATWEP), which leverages a gradient-based method to automatically decide task difficulty during curriculum learning training, thereby eliminating the need for explicit difficulty computation. The integration of DATWEP into our multimodal model shows improvement on VQA performance. Source code is available at https://github.com/fualsan/DATWEP.
翻訳日:2023-10-31 14:28:38 公開日:2023-10-29
# PACuna: 粒子加速器のための言語モデルの自動調整

PACuna: Automated Fine-Tuning of Language Models for Particle Accelerators ( http://arxiv.org/abs/2310.19106v1 )

ライセンス: Link先を確認
Antonin Sulc, Raimund Kammering, Annika Eichler, Tim Wilksen(参考訳) 粒子加速器の展望のナビゲートは、近年の貢献の急増とともにますます困難になっている。 これらの複雑なデバイスは、個々の施設内でさえ、理解に挑戦する。 カンファレンスやプレプリント,書籍など,公開されているアクセラレーションリソースを通じて洗練された,微調整された言語モデルであるpacunaを紹介する。 専門家の関与を最小限に抑え、データを公開できるように、データ収集と質問生成を自動化する。 PACunaは、専門家によって検証された複雑なアクセラレーター問題に対処する能力を示す。 提案手法は, 専門文献を微調整し, 自動生成コーパスを抽出することにより, 市販のアシスタントが個々の施設のインテリジェントアシスタントとして機能し得ない, 複雑な質問に答えるために, 事前学習されたモデルをさらに作成できることを示す。

Navigating the landscape of particle accelerators has become increasingly challenging with recent surges in contributions. These intricate devices challenge comprehension, even within individual facilities. To address this, we introduce PACuna, a fine-tuned language model refined through publicly available accelerator resources like conferences, pre-prints, and books. We automated data collection and question generation to minimize expert involvement and make the data publicly available. PACuna demonstrates proficiency in addressing intricate accelerator questions, validated by experts. Our approach shows adapting language models to scientific domains by fine-tuning technical texts and auto-generated corpora capturing the latest developments can further produce pre-trained models to answer some intricate questions that commercially available assistants cannot and can serve as intelligent assistants for individual facilities.
翻訳日:2023-10-31 14:28:07 公開日:2023-10-29
# 低エンドハードウェア上の変分固有解法を用いて単純な分子の基底状態エネルギーを求める

Using Variational Eigensolvers on Low-End Hardware to Find the Ground State Energy of Simple Molecules ( http://arxiv.org/abs/2310.19104v1 )

ライセンス: Link先を確認
T. Powers, R.M. Rajapakse(参考訳) 物理系の鍵となる性質は、系を表す行列の固有値によって記述できる。 これらの行列の固有値を決定する計算アルゴリズムは存在するが、一般に行列の大きさが大きくなると性能が低下する。 この過程を量子計算に拡張して、古典的アルゴリズムよりも優れた性能で固有値を求めることができる。 そのような固有値解法の一つの応用は、変分原理を用いてハミルトニアンの行列表現を与える分子のエネルギー準位を決定することである。 変動量子固有解法を用いて、異なる分子の基底状態エネルギーを決定する。 ローエンドハードウェア上でのQiskitシミュレータの最適化戦略の選択に焦点をあてる。 いくつかの異なるオプティマイザの利点は、解析的古典解やコード効率と比較して精度の点で評価された。

Key properties of physical systems can be described by the eigenvalues of matrices that represent the system. Computational algorithms that determine the eigenvalues of these matrices exist, but they generally suffer from a loss of performance as the matrix grows in size. This process can be expanded to quantum computation to find the eigenvalues with better performance than the classical algorithms. One application of such an eigenvalue solver is to determine energy levels of a molecule given a matrix representation of its Hamiltonian using the variational principle. Using a variational quantum eigensolver, we determine the ground state energies of different molecules. We focus on the choice of optimization strategy for a Qiskit simulator on low-end hardware. The benefits of several different optimizers were weighed in terms of accuracy in comparison to an analytic classical solution as well as code efficiency.
翻訳日:2023-10-31 14:27:51 公開日:2023-10-29
# 最適輸送によるニューラルネットワークの線形モード接続性証明

Proving Linear Mode Connectivity of Neural Networks via Optimal Transport ( http://arxiv.org/abs/2310.19103v1 )

ライセンス: Link先を確認
Damien Ferbach, Baptiste Goujaud, Gauthier Gidel, Aymeric Dieuleveut(参考訳) 高次元非凸最適化問題のエネルギー展望は、現代のディープニューラルネットワークアーキテクチャの有効性を理解する上で重要である。 最近の研究では、確率的トレーニングの2回の実行後に見つかる2つの異なる解が、しばしば非常に単純な連続経路(例えば、線形)で連結されることが実験的に示されている。 本稿では,この経験的観察を理論的に説明する枠組みを提供する。 経験的尺度のワッサーシュタイン距離の収束率に基づいて,確率勾配勾配で訓練された2層ニューラルネットワークが線形に接続されていることを示す。 さらに,2つのディープニューラルネットワークの各層に,独立したニューロン重みを線形に連結した上層と下層の境界を表現した。 最後に,ワッサースタイン収束率を決定する神経細胞の重み分布の寸法が線形モード接続とどのように相関しているかを示すことにより,本手法の有効性を実証した。

The energy landscape of high-dimensional non-convex optimization problems is crucial to understanding the effectiveness of modern deep neural network architectures. Recent works have experimentally shown that two different solutions found after two runs of a stochastic training are often connected by very simple continuous paths (e.g., linear) modulo a permutation of the weights. In this paper, we provide a framework theoretically explaining this empirical observation. Based on convergence rates in Wasserstein distance of empirical measures, we show that, with high probability, two wide enough two-layer neural networks trained with stochastic gradient descent are linearly connected. Additionally, we express upper and lower bounds on the width of each layer of two deep neural networks with independent neuron weights to be linearly connected. Finally, we empirically demonstrate the validity of our approach by showing how the dimension of the support of the weight distribution of neurons, which dictates Wasserstein convergence rates is correlated with linear mode connectivity.
翻訳日:2023-10-31 14:27:38 公開日:2023-10-29
# Atom: LLMの効率と精度向上のための低ビット量子化

Atom: Low-bit Quantization for Efficient and Accurate LLM Serving ( http://arxiv.org/abs/2310.19102v1 )

ライセンス: Link先を確認
Yilong Zhao, Chien-Yu Lin, Kan Zhu, Zihao Ye, Lequn Chen, Size Zheng, Luis Ceze, Arvind Krishnamurthy, Tianqi Chen and Baris Kasikci(参考訳) コンテンツ生成、インテリジェントチャットボット、感情分析といったアプリケーションにおけるLLM(Large Language Models)の需要の増加は、LLMサービスプロバイダにとって大きな課題となっている。 GPUリソースを効率的に使用しスループットを向上するために、複数のリクエストのバッチ化が一般的なパラダイムとして現れ、バッチ化をさらにスピードアップするため、LLM量子化技術はメモリ消費を削減し、計算能力を向上させる。 しかし、一般的な量子化スキーム(例えば8ビット重み活性化量子化)では、4ビット整数演算子のような現代のgpuの能力を十分に活用できないため、サブ最適性能が得られる。 llmsの処理スループットを最大化するために,低ビット量子化法であるatomを導入する。 Atomは低ビット演算子を使用することでスループットを大幅に向上し、低ビット量子化によるメモリ消費を大幅に削減する。 新規な混合精度および細粒度量子化法を適用して高精度化を図る。 我々は,4ビット重み活性化量子化設定におけるatomの評価を行う。 Atomは、FP16と比較して最大7.73\times$、INT8量子化と比較して2.53\times$で、同じレイテンシターゲットを維持しながら、エンドツーエンドのスループットを改善する。

The growing demand for Large Language Models (LLMs) in applications such as content generation, intelligent chatbots, and sentiment analysis poses considerable challenges for LLM service providers. To efficiently use GPU resources and boost throughput, batching multiple requests has emerged as a popular paradigm; to further speed up batching, LLM quantization techniques reduce memory consumption and increase computing capacity. However, prevalent quantization schemes (e.g., 8-bit weight-activation quantization) cannot fully leverage the capabilities of modern GPUs, such as 4-bit integer operators, resulting in sub-optimal performance. To maximize LLMs' serving throughput, we introduce Atom, a low-bit quantization method that achieves high throughput improvements with negligible accuracy loss. Atom significantly boosts serving throughput by using low-bit operators and considerably reduces memory consumption via low-bit quantization. It attains high accuracy by applying a novel mixed-precision and fine-grained quantization process. We evaluate Atom on 4-bit weight-activation quantization setups in the serving context. Atom improves end-to-end throughput by up to $7.73\times$ compared to the FP16 and by $2.53\times$ compared to INT8 quantization, while maintaining the same latency target.
翻訳日:2023-10-31 14:27:22 公開日:2023-10-29
# Web3がAI Marketplaceを発表 - 機会の探索,課題の分析,ソリューションの提案

Web3 Meets AI Marketplace: Exploring Opportunities, Analyzing Challenges, and Suggesting Solutions ( http://arxiv.org/abs/2310.19099v1 )

ライセンス: Link先を確認
Peihao Li(参考訳) Web3とAIは、ここ数年でもっとも議論の的になっている分野のひとつであり、各分野が世界を変える可能性を取り巻いている。 しかし、誇大宣伝が決着するにつれ、AIもWeb3も独立してすべての課題に対処できないことは明らかです。 その結果、aiとweb3の交点が注目を集め、それぞれの制限に対処できる可能性のある新しい分野として出現した。 本稿では、Web3とAIマーケットプレースの統合に焦点を当て、AIサービスとプロダクトを分散型(DeAI)で提供します。 このトピックの機会と課題を要約して包括的なレビューを提供する。 さらに、これらの課題に対処するための分析とソリューションも提供します。 私たちは、ユーザーがAIサービスを得るためにどんな暗号通貨でも支払いができるフレームワークを開発しました。 さらに、プロトコルに一時的にアセットをロックするだけで、プラットフォーム上でAIサービスを無償で楽しむこともできます。 このユニークなアプローチは、業界では初めてです。 これまでは、Web3コミュニティで無償のAIサービスを提供することはできなかった。 私たちのソリューションは、Web3領域におけるAIマーケットプレースの成長と広く採用されるエキサイティングな機会を開くものです。

Web3 and AI have been among the most discussed fields over the recent years, with substantial hype surrounding each field's potential to transform the world as we know it. However, as the hype settles, it's evident that neither AI nor Web3 can address all challenges independently. Consequently, the intersection of AI and Web3 is gaining increased attention, emerging as a new field with the potential to address the limitations of each. In this article, we will focus on the integration of web3 and the AI marketplace, where AI services and products can be provided in a decentralized manner (DeAI). A comprehensive review is provided by summarizing the opportunities and challenges on this topic. Additionally, we offer analyses and solutions to address these challenges. We've developed a framework that lets users pay with any kind of cryptocurrency to get AI services. Additionally, they can also enjoy AI services for free on our platform by simply locking up their assets temporarily in the protocol. This unique approach is a first in the industry. Before this, offering free AI services in the web3 community wasn't possible. Our solution opens up exciting opportunities for the AI marketplace in the web3 space to grow and be widely adopted.
翻訳日:2023-10-31 14:27:01 公開日:2023-10-29
# エフェクトタイピングと線形依存性による回路幅推定(Long Version)

Circuit Width Estimation via Effect Typing and Linear Dependency (Long Version) ( http://arxiv.org/abs/2310.19096v1 )

ライセンス: Link先を確認
Andrea Colledan and Ugo Dal Lago(参考訳) 回路記述言語(英: circuit description languages)は、プログラムが古典的であり、量子回路の形で量子計算の記述を生成する量子プログラミング言語のクラスである。 これらのプログラムはハイレベルな古典言語の表現力をすべて活用できるため、回路記述言語は複雑で実用的な量子アルゴリズムを記述するのにうまく使われてきたが、その回路は現在の量子アーキテクチャよりも多くの量子ビットやゲートアプリケーションを必要とする可能性がある。 本稿では,プログラムが生成する回路幅のパラメトリックな上限を導出できる線形依存型・効果システムを備えた回路記述言語Proto-Quipper-Rを提案する。 我々は、標準型安全性結果と結果のリソース分析が大きな操作意味論に関して正しいことを証明した。 また,本手法は現実的な量子アルゴリズムを検証するのに十分であることを示す。

Circuit description languages are a class of quantum programming languages in which programs are classical and produce a description of a quantum computation, in the form of a quantum circuit. Since these programs can leverage all the expressive power of high-level classical languages, circuit description languages have been successfully used to describe complex and practical quantum algorithms, whose circuits, however, may involve many more qubits and gate applications than current quantum architectures can actually muster. In this paper, we present Proto-Quipper-R, a circuit description language endowed with a linear dependent type-and-effect system capable of deriving parametric upper bounds on the width of the circuits produced by a program. We prove both the standard type safety results and that the resulting resource analysis is correct with respect to a big-step operational semantics. We also show that our approach is expressive enough to verify realistic quantum algorithms.
翻訳日:2023-10-31 14:26:42 公開日:2023-10-29
# ギャップの橋渡し:公共部門におけるml支援意思決定ツールキットの拡大に向けて

Bridging the Gap: Towards an Expanded Toolkit for ML-Supported Decision-Making in the Public Sector ( http://arxiv.org/abs/2310.19091v1 )

ライセンス: Link先を確認
Unai Fischer Abaigar, Christoph Kern, Noam Barda and Frauke Kreuter(参考訳) 機械学習(ML)システムは、刑事司法、社会福祉、金融詐欺検出、公衆衛生などの分野にまたがる、公共セクターにおいて重要な存在になりつつある。 これらのシステムは、効率の向上や信頼性の向上など、制度的な意思決定プロセスに大きなメリットをもたらす一方で、複雑な政策目標と、MLモデルで必要とされる正確な形式化要件を整合させるという課題に直面している。 本稿では,MLと公共セクターの意思決定のギャップを埋めるために,政策目標とMLモデルの相違が一般的である重要な技術的課題の包括的概要を提示する。 我々は、モデルをその運用環境に接続するMLパイプラインの要点に集中し、代表的トレーニングデータの重要性を掘り下げ、効果的な意思決定を容易にするモデル設定の重要性を強調します。 さらに,これらの課題を,因果ml,ドメイン適応,不確実性定量化,多目的最適化など,新たな方法論的進歩と結びつけ,mlと公共部門目標の調和に向けた道筋を示す。

Machine Learning (ML) systems are becoming instrumental in the public sector, with applications spanning areas like criminal justice, social welfare, financial fraud detection, and public health. While these systems offer great potential benefits to institutional decision-making processes, such as improved efficiency and reliability, they still face the challenge of aligning intricate and nuanced policy objectives with the precise formalization requirements necessitated by ML models. In this paper, we aim to bridge the gap between ML and public sector decision-making by presenting a comprehensive overview of key technical challenges where disjunctions between policy goals and ML models commonly arise. We concentrate on pivotal points of the ML pipeline that connect the model to its operational environment, delving into the significance of representative training data and highlighting the importance of a model setup that facilitates effective decision-making. Additionally, we link these challenges with emerging methodological advancements, encompassing causal ML, domain adaptation, uncertainty quantification, and multi-objective optimization, illustrating the path forward for harmonizing ML and public sector objectives.
翻訳日:2023-10-31 14:26:27 公開日:2023-10-29
# プッシュダウンレイヤ: トランスフォーマー言語モデルにおける再帰構造をエンコードする

Pushdown Layers: Encoding Recursive Structure in Transformer Language Models ( http://arxiv.org/abs/2310.19089v1 )

ライセンス: Link先を確認
Shikhar Murty, Pratyusha Sharma, Jacob Andreas, Christopher D. Manning(参考訳) 再帰は人間の言語の特徴であり、明示的な再帰的状態追跡機構が欠如しているため、自己注意には根本的に困難である。 その結果、トランスフォーマー言語モデルはロングテール再帰構造をうまく捉えず、サンプル非効率な構文一般化を示す。 これは、観測されたプレフィックスのインクリメンタルなパースで、各トークンの推定深さを追跡するスタックテープを介して再帰状態をモデル化する、新しいセルフアテンション層である。 プッシュダウンレイヤを備えたトランスフォーマーLMは、新しいトークンを予測する際に、自動回帰的に同期的にこのスタックテープを更新する構文言語モデルである。 銀構成構文解析でアノテートされた文字列のコーパスでトレーニングすると、プッシュダウン層を備えたトランスフォーマーは、類似のパープレキシティを維持しつつ、サンプル効率の高い構文一般化を劇的に改善し、3〜5倍向上する。 Pushdown Layersは、標準のセルフアテンションの代替となる。 我々は、自動的に解析されたWikiText-103上で、Pushdown LayersでGPT2-mediumを微調整することにより、GLUEテキスト分類タスクの改善を図示した。

Recursion is a prominent feature of human language, and fundamentally challenging for self-attention due to the lack of an explicit recursive-state tracking mechanism. Consequently, Transformer language models poorly capture long-tail recursive structure and exhibit sample-inefficient syntactic generalization. This work introduces Pushdown Layers, a new self-attention layer that models recursive state via a stack tape that tracks estimated depths of every token in an incremental parse of the observed prefix. Transformer LMs with Pushdown Layers are syntactic language models that autoregressively and synchronously update this stack tape as they predict new tokens, in turn using the stack tape to softly modulate attention over tokens -- for instance, learning to "skip" over closed constituents. When trained on a corpus of strings annotated with silver constituency parses, Transformers equipped with Pushdown Layers achieve dramatically better and 3-5x more sample-efficient syntactic generalization, while maintaining similar perplexities. Pushdown Layers are a drop-in replacement for standard self-attention. We illustrate this by finetuning GPT2-medium with Pushdown Layers on an automatically parsed WikiText-103, leading to improvements on several GLUE text classification tasks.
翻訳日:2023-10-31 14:26:07 公開日:2023-10-29
# 言語知覚におけるスケーリングとインストラクションチューニングの役割:モデルと人間の注意

Roles of Scaling and Instruction Tuning in Language Perception: Model vs. Human Attention ( http://arxiv.org/abs/2310.19084v1 )

ライセンス: Link先を確認
Changjiang Gao, Shujian Huang, Jixing Li and Jiajun Chen(参考訳) 最近の大規模言語モデル(LLM)は、自然言語を理解する強力な能力を示している。 それらの多くは同じ基本構造、すなわちトランスフォーマーブロックを共有しているため、トレーニングプロセスの成功への貢献者は、スケーリングとインストラクションチューニングである。 しかし、これらの要因がモデルの言語知覚に与える影響は明らかでない。 本研究は,様々な大きさ (7B, 13B, 30B, 65B) の既存のLLM (LLaMA, Alpaca, Vicuna) の自己注意と, 人間の注意の側面である眼袋とを比較し, 言語知覚に対するスケーリングとチューニングの効果を評価する。 その結果,スケーリングは人間の類似性を向上し,簡単なパターン依存を減らし,効果的な注意力を高める一方で,命令チューニングは行わないことがわかった。 しかし、命令チューニングは命令に対するモデルの感度を大幅に向上させる。 また、現在のllmは、ネイティブスピーカーよりも常に非ネイティブに近いことが分かり、すべてのモデルの最適言語知覚が示唆された。 分析に使用するコードとデータはgithubから入手できます。

Recent large language models (LLMs) have revealed strong abilities to understand natural language. Since most of them share the same basic structure, i.e. the transformer block, possible contributors to their success in the training process are scaling and instruction tuning. However, how these factors affect the models' language perception is unclear. This work compares the self-attention of several existing LLMs (LLaMA, Alpaca and Vicuna) in different sizes (7B, 13B, 30B, 65B), together with eye saccade, an aspect of human reading attention, to assess the effect of scaling and instruction tuning on language perception. Results show that scaling enhances the human resemblance and improves the effective attention by reducing the trivial pattern reliance, while instruction tuning does not. However, instruction tuning significantly enhances the models' sensitivity to instructions. We also find that current LLMs are consistently closer to non-native than native speakers in attention, suggesting a sub-optimal language perception of all models. Our code and data used in the analysis is available on GitHub.
翻訳日:2023-10-31 14:25:44 公開日:2023-10-29
# 高速かつ高精度な教師なし物体発見のためのリワードファインタニング

Reward Finetuning for Faster and More Accurate Unsupervised Object Discovery ( http://arxiv.org/abs/2310.19080v1 )

ライセンス: Link先を確認
Katie Z Luo, Zhenzhen Liu, Xiangyu Chen, Yurong You, Sagie Benaim, Cheng Perng Phoo, Mark Campbell, Wen Sun, Bharath Hariharan, Kilian Q. Weinberger(参考訳) 最近の機械学習の進歩により、人間フィードバック(rlhf)からの強化学習は、機械学習モデルを改善し、人間の好みに合わせることができる。 大型言語モデル(llm)では非常に成功したが、これらの進歩は自動運転車の研究に匹敵する影響を与えていない。 本稿では,LLをベースとした類似手法を非教師対象発見,すなわちLiDAR点からの物体検出学習に適用することを提案する。 ラベルの代わりに、単純なヒューリスティックを使って人間のフィードバックを模倣します。 より明確に言うと、複数のヒューリスティックを単純な報酬関数に結合し、スコアとバウンディングボックスの精度、\ie、オブジェクトを含むボックスを無条件よりも高いスコアで関連付ける。 我々は検出器自身の予測から始まり、勾配の更新を通じて宇宙を探索し、高い報酬で箱を補強する。 経験的に、我々のアプローチはより正確であるだけでなく、オブジェクト発見の以前の作業よりもトレーニングに要する桁数も速いことが示されています。

Recent advances in machine learning have shown that Reinforcement Learning from Human Feedback (RLHF) can improve machine learning models and align them with human preferences. Although very successful for Large Language Models (LLMs), these advancements have not had a comparable impact in research for autonomous vehicles -- where alignment with human expectations can be imperative. In this paper, we propose to adapt similar RL-based methods to unsupervised object discovery, i.e. learning to detect objects from LiDAR points without any training labels. Instead of labels, we use simple heuristics to mimic human feedback. More explicitly, we combine multiple heuristics into a simple reward function that positively correlates its score with bounding box accuracy, \ie, boxes containing objects are scored higher than those without. We start from the detector's own predictions to explore the space and reinforce boxes with high rewards through gradient updates. Empirically, we demonstrate that our approach is not only more accurate, but also orders of magnitudes faster to train compared to prior works on object discovery.
翻訳日:2023-10-31 14:25:24 公開日:2023-10-29
# 生成フローモデルのためのBespoke Solvers

Bespoke Solvers for Generative Flow Models ( http://arxiv.org/abs/2310.19075v1 )

ライセンス: Link先を確認
Neta Shaul, Juan Perez, Ricky T. Q. Chen, Ali Thabet, Albert Pumarola, Yaron Lipman(参考訳) 拡散またはフローベースモデルは、サンプルが高次元の正規あるいは確率微分方程式(ODE/SDE)の解として定義され、多くの関数評価(NFE)を必要とするため、サンプリングが難しい強力な生成パラダイムである。 コストのかかるサンプリングプロセスを緩和する既存の方法は、モデルの蒸留と専用のODEソルバの設計である。 しかし、蒸留は訓練にコストがかかり、品質が低下することもあるが、専用のソルバーは高品質なサンプルを生成するのに比較的大きなnfeを必要とする。 本稿では,与えられた事前学習フローモデルのODEに適合したカスタムODEソルバを構築するための新しいフレームワークであるBespoke solversを紹介する。 学習可能なパラメータ80のオーダー一貫性とパラメータ効率のよいソルバを最適化し,事前学習したモデルのトレーニングに必要なgpu時間の約1%をトレーニングし,専用ソルバと比較して近似と生成品質を大幅に向上させる。 例えば、CIFAR10モデルのBespokeソルバは、Fr'echet Inception Distance (FID)のサンプルを10 NFEの2.73で生成し、20 NFEのモデルではGT FID (2.59)の1%を得る。 より困難なImageNet-64$\times$64では、Bespokeは10 NFEの2.2 FIDをサンプリングし、20 NFEのGT FID(1.71)の2%以内である。

Diffusion or flow-based models are powerful generative paradigms that are notoriously hard to sample as samples are defined as solutions to high-dimensional Ordinary or Stochastic Differential Equations (ODEs/SDEs) which require a large Number of Function Evaluations (NFE) to approximate well. Existing methods to alleviate the costly sampling process include model distillation and designing dedicated ODE solvers. However, distillation is costly to train and sometimes can deteriorate quality, while dedicated solvers still require relatively large NFE to produce high quality samples. In this paper we introduce "Bespoke solvers", a novel framework for constructing custom ODE solvers tailored to the ODE of a given pre-trained flow model. Our approach optimizes an order consistent and parameter-efficient solver (e.g., with 80 learnable parameters), is trained for roughly 1% of the GPU time required for training the pre-trained model, and significantly improves approximation and generation quality compared to dedicated solvers. For example, a Bespoke solver for a CIFAR10 model produces samples with Fr\'echet Inception Distance (FID) of 2.73 with 10 NFE, and gets to 1% of the Ground Truth (GT) FID (2.59) for this model with only 20 NFE. On the more challenging ImageNet-64$\times$64, Bespoke samples at 2.2 FID with 10 NFE, and gets within 2% of GT FID (1.71) with 20 NFE.
翻訳日:2023-10-31 14:25:05 公開日:2023-10-29
# Myriad:産業異常検出のためのビジョンエキスパートの適用による大規模マルチモーダルモデル

Myriad: Large Multimodal Model by Applying Vision Experts for Industrial Anomaly Detection ( http://arxiv.org/abs/2310.19070v1 )

ライセンス: Link先を確認
Yuanze Li, Haolin Wang, Shihao Yuan, Ming Liu, Yiwen Guo, Chen Xu, Guangming Shi, Wangmeng Zuo(参考訳) 既存の産業異常検出(IAD)手法は異常検出と局所化の両方の異常スコアを予測する。 しかし、彼らは多ターンダイアログの実行に苦労し、例えば、色、形状、産業異常のカテゴリなど、異常領域の詳細な記述を行う。 近年,画像キャプションや視覚理解,視覚推論など,複数の視覚課題において,大きなマルチモーダルモデル(すなわち視覚言語モデル(lmms))が有意な知覚能力を示し,より理解可能な異常検出のための競争的選択肢となっている。 しかし、既存の一般LMMでは異常検出に関する知識が欠如しているが、異常検出のために特定のLMMを訓練するには大量の注釈付きデータと膨大な計算資源が必要である。 本稿では,産業的異常検出のための視覚専門家(dubbed myriad)を応用した,新しい大規模マルチモーダルモデルを提案する。 具体的には,MiniGPT-4をベースLMMとして採用し,Large Language Models (LLMs) に理解可能なトークンとして,視覚専門家の事前知識を埋め込むために,Expert Perceptionモジュールを設計する。 視覚専門家の誤りや混乱を補うために,一般画像と産業画像の視覚的表現ギャップを埋めるために,ドメインアダプタを導入する。 さらに,視覚エキスパートに先立って,q-formerがiadドメイン視覚言語トークンを生成できる視覚エキスパートインストラクターを提案する。 MVTec-AD と VisA ベンチマークの大規模な実験により,提案手法は1クラスおよび少数ショット設定下での最先端の手法に対して良好に機能するだけでなく,IAD ドメインの詳細な記述とともに,一定の異常予測を提供することを示した。

Existing industrial anomaly detection (IAD) methods predict anomaly scores for both anomaly detection and localization. However, they struggle to perform a multi-turn dialog and detailed descriptions for anomaly regions, e.g., color, shape, and categories of industrial anomalies. Recently, large multimodal (i.e., vision and language) models (LMMs) have shown eminent perception abilities on multiple vision tasks such as image captioning, visual understanding, visual reasoning, etc., making it a competitive potential choice for more comprehensible anomaly detection. However, the knowledge about anomaly detection is absent in existing general LMMs, while training a specific LMM for anomaly detection requires a tremendous amount of annotated data and massive computation resources. In this paper, we propose a novel large multi-modal model by applying vision experts for industrial anomaly detection (dubbed Myriad), which leads to definite anomaly detection and high-quality anomaly description. Specifically, we adopt MiniGPT-4 as the base LMM and design an Expert Perception module to embed the prior knowledge from vision experts as tokens which are intelligible to Large Language Models (LLMs). To compensate for the errors and confusions of vision experts, we introduce a domain adapter to bridge the visual representation gaps between generic and industrial images. Furthermore, we propose a Vision Expert Instructor, which enables the Q-Former to generate IAD domain vision-language tokens according to vision expert prior. Extensive experiments on MVTec-AD and VisA benchmarks demonstrate that our proposed method not only performs favorably against state-of-the-art methods under the 1-class and few-shot settings, but also provide definite anomaly prediction along with detailed descriptions in IAD domain.
翻訳日:2023-10-31 14:24:35 公開日:2023-10-29
# 個人化フェデレーション学習のための効率的なクラスタ選択:マルチアーマッドバンドアプローチ

Efficient Cluster Selection for Personalized Federated Learning: A Multi-Armed Bandit Approach ( http://arxiv.org/abs/2310.19069v1 )

ライセンス: Link先を確認
Zhou Ni, Morteza Hashemi(参考訳) フェデレーション学習(FL)は、データプライバシを優先する、マシンラーニングモデルのための分散トレーニングアプローチを提供する。 しかしながら、データ分布、サイズ、デバイス能力のバリエーションから生じるflネットワークの固有の不均一性は、ユーザフェデレーションにおいて問題となる。 これを認識したPersonalized Federated Learning (PFL)は、個々のデータプロファイルに対する学習プロセスのカスタマイズを強調している。 本稿では,マルチアームド・バンディット(mab)アプローチに触発されたducb(dynamic upper confidence bound)アルゴリズムを導入することで,pfl,特に動的ネットワークにおけるクラスタリングユーザの複雑性に対処する。 ducbアルゴリズムは、新たなユーザが探索と搾取のバランスをとることで、データ配布に最適なクラスタを効果的に見つけることを保証する。 本アルゴリズムの性能は様々なケースで評価され,動的フェデレート学習シナリオの処理に有効であることを示す。

Federated learning (FL) offers a decentralized training approach for machine learning models, prioritizing data privacy. However, the inherent heterogeneity in FL networks, arising from variations in data distribution, size, and device capabilities, poses challenges in user federation. Recognizing this, Personalized Federated Learning (PFL) emphasizes tailoring learning processes to individual data profiles. In this paper, we address the complexity of clustering users in PFL, especially in dynamic networks, by introducing a dynamic Upper Confidence Bound (dUCB) algorithm inspired by the multi-armed bandit (MAB) approach. The dUCB algorithm ensures that new users can effectively find the best cluster for their data distribution by balancing exploration and exploitation. The performance of our algorithm is evaluated in various cases, showing its effectiveness in handling dynamic federated learning scenarios.
翻訳日:2023-10-31 14:23:57 公開日:2023-10-29
# スパース辞書学習のためのスケッチアルゴリズム:PTASとターンスタイルストリーミング

Sketching Algorithms for Sparse Dictionary Learning: PTAS and Turnstile Streaming ( http://arxiv.org/abs/2310.19068v1 )

ライセンス: Link先を確認
Gregory Dexter, Petros Drineas, David P. Woodruff, Taisuke Yasuda(参考訳) スケッチアルゴリズムは、低空間ストリーミングアルゴリズムの設計と高速多項式時間近似スキーム(ptas)の両方において強力なアプローチであることが最近証明されている。 本研究では,スパース辞書学習とEuclidean $k$-meansクラスタリング問題に対するスケッチベースアプローチの適用性を高める新しい手法を開発した。 特に、$n$の入力ポイントごとに辞書/クラスタリングの代入を出力する必要があるという難易度設定の研究を開始し、それ以前の作業では驚くほど注目されなかった。 高速アルゴリズムの分野では、$k$-meansクラスタリング問題に対してPTASを設計する新しいアプローチが得られ、これはスパース辞書学習問題に対する最初のPTASに一般化される。 ストリーミングアルゴリズムの分野では、辞書学習と$k$-meansクラスタリングのための新しい上限と下位境界を得る。 特に、設計行列 $\mathbf A\in\mathbb R^{n\times d}$ がターンタイルストリームで与えられると、$\tilde O(nr/\epsilon^2 + dk/\epsilon)$ space upper bound for $r$-sparse dictionary learning of size $k$, an $\tilde O(n/\epsilon^2 + dk/\epsilon)$ space upper bound for $k$-means clustering と $\tilde O(n)$ space upper bound for $k$-means clustering on a random order row insert stream with a natural "bounded sensitivity" assumption。 下限側では、k$-meansクラスタリングのための一般的な$\tilde\omega(n/\epsilon + dk/\epsilon)$下限と、1つの固定された候補センターのコストを推定できるアルゴリズムに対して$\tilde\omega(n/\epsilon^2)$下限を得る。

Sketching algorithms have recently proven to be a powerful approach both for designing low-space streaming algorithms as well as fast polynomial time approximation schemes (PTAS). In this work, we develop new techniques to extend the applicability of sketching-based approaches to the sparse dictionary learning and the Euclidean $k$-means clustering problems. In particular, we initiate the study of the challenging setting where the dictionary/clustering assignment for each of the $n$ input points must be output, which has surprisingly received little attention in prior work. On the fast algorithms front, we obtain a new approach for designing PTAS's for the $k$-means clustering problem, which generalizes to the first PTAS for the sparse dictionary learning problem. On the streaming algorithms front, we obtain new upper bounds and lower bounds for dictionary learning and $k$-means clustering. In particular, given a design matrix $\mathbf A\in\mathbb R^{n\times d}$ in a turnstile stream, we show an $\tilde O(nr/\epsilon^2 + dk/\epsilon)$ space upper bound for $r$-sparse dictionary learning of size $k$, an $\tilde O(n/\epsilon^2 + dk/\epsilon)$ space upper bound for $k$-means clustering, as well as an $\tilde O(n)$ space upper bound for $k$-means clustering on random order row insertion streams with a natural "bounded sensitivity" assumption. On the lower bounds side, we obtain a general $\tilde\Omega(n/\epsilon + dk/\epsilon)$ lower bound for $k$-means clustering, as well as an $\tilde\Omega(n/\epsilon^2)$ lower bound for algorithms which can estimate the cost of a single fixed set of candidate centers.
翻訳日:2023-10-31 14:23:39 公開日:2023-10-29
# 相互作用する独立カスケードプロセスにおける後方および前方推論:スケーラブルで収束的なメッセージパッシングアプローチ

Backward and Forward Inference in Interacting Independent-Cascade Processes: A Scalable and Convergent Message-Passing Approach ( http://arxiv.org/abs/2310.19138v1 )

ライセンス: Link先を確認
Nouman Khan, Kangle Mu, Mehrdad Moharrami, Vijay Subramanian(参考訳) ネットワーク上に同時に拡散する2つの拡散過程の過去と未来を推定する問題について検討する。 具体的には、既知のネットワーク$G=(V, \overrightarrow{E})$と(おそらくノイズの多い)スナップショット$\mathcal{O}_n$が(おそらく未知の)時間$W$で取得された場合、ネットワークの初期状態の後方分布とノードの感染時間を決定する。 これらのディストリビューションは、疫病や噂のソースノードを見つけるのに役立つ -- $\textit{backward inference}$ -- と、固定されたソースノードの拡散を推定する -- $\textit{forward inference}$。 2つのプロセス間の相互作用をモデル化するために,ノードがいずれのプロセスにも感染した場合,そのノードへの感受性が変化する独立カスケードモデルの拡張について検討する。 まず、ネットワークの初期状態と観測ショット $\mathcal{O}_n$ の正確な結合確率を導出する。 次に、因子グラフ、因子グラフ変換、一般化分布則の機構を用いて、大きなネットワークにスケーラブルで任意のトポロジーのグラフ上に収束可能な、信念伝達(bp)ベースのアルゴリズムを導出する(近似精度が犠牲になる可能性がある)。

We study the problems of estimating the past and future evolutions of two diffusion processes that spread concurrently on a network. Specifically, given a known network $G=(V, \overrightarrow{E})$ and a (possibly noisy) snapshot $\mathcal{O}_n$ of its state taken at (a possibly unknown) time $W$, we wish to determine the posterior distributions of the initial state of the network and the infection times of its nodes. These distributions are useful in finding source nodes of epidemics and rumors -- $\textit{backward inference}$ -- , and estimating the spread of a fixed set of source nodes -- $\textit{forward inference}$. To model the interaction between the two processes, we study an extension of the independent-cascade (IC) model where, when a node gets infected with either process, its susceptibility to the other one changes. First, we derive the exact joint probability of the initial state of the network and the observation-snapshot $\mathcal{O}_n$. Then, using the machinery of factor-graphs, factor-graph transformations, and the generalized distributive-law, we derive a Belief-Propagation (BP) based algorithm that is scalable to large networks and can converge on graphs of arbitrary topology (at a likely expense in approximation accuracy).
翻訳日:2023-10-31 14:13:05 公開日:2023-10-29
# オートマトン蒸留 : 深部強化学習のためのニューロシンボリックトランスファー学習

Automaton Distillation: Neuro-Symbolic Transfer Learning for Deep Reinforcement Learning ( http://arxiv.org/abs/2310.19137v1 )

ライセンス: Link先を確認
Suraj Singireddy, Andre Beckus, George Atia, Sumit Jha, Alvaro Velasquez(参考訳) 強化学習(Reinforcement Learning, RL)は、シーケンシャルな意思決定プロセスにおいて最適なポリシーを見つける強力なツールである。 しかし、深層RL法には2つの弱点がある: 実用的RL問題に必要なエージェント経験の収集は違法に高価であり、学習方針はトレーニング分布外のタスクに対する一般化が不十分である。 そこで本研究では,教師のq値推定をオートマトンとして低次元表現に蒸留する,神経シンボリックトランスファー学習の一形態であるオートマトン蒸留について紹介する。 次に,教師のQ-Network (DQN) からシンボル情報を抽出し,事前知識に基づいて構築された抽象マルコフ決定過程に起因する静的移動と動的移動という2つのQ-値推定法を提案する。 どちらの方法から得られたq値推定は、修正されたdqn損失関数を介してターゲット環境で学習をブートストラップするために使用される。 我々は,既存のオートマトン系トランスファー法の故障モードをいくつかリストし,静的および動的オートマトン蒸留が様々な決定タスクに最適なポリシーを見つけるのに要する時間を短縮できることを実証する。

Reinforcement learning (RL) is a powerful tool for finding optimal policies in sequential decision processes. However, deep RL methods suffer from two weaknesses: collecting the amount of agent experience required for practical RL problems is prohibitively expensive, and the learned policies exhibit poor generalization on tasks outside of the training distribution. To mitigate these issues, we introduce automaton distillation, a form of neuro-symbolic transfer learning in which Q-value estimates from a teacher are distilled into a low-dimensional representation in the form of an automaton. We then propose two methods for generating Q-value estimates: static transfer, which reasons over an abstract Markov Decision Process constructed based on prior knowledge, and dynamic transfer, where symbolic information is extracted from a teacher Deep Q-Network (DQN). The resulting Q-value estimates from either method are used to bootstrap learning in the target environment via a modified DQN loss function. We list several failure modes of existing automaton-based transfer methods and demonstrate that both static and dynamic automaton distillation decrease the time required to find optimal policies for various decision tasks.
翻訳日:2023-10-31 14:12:35 公開日:2023-10-29
# 超高速CN + $c$-C$_6$H$_{12}$反応ダイナミクスに及ぼす振動空洞結合強度の影響の探索

Exploring the impact of vibrational cavity coupling strength on ultrafast CN + $c$-C$_6$H$_{12}$ reaction dynamics ( http://arxiv.org/abs/2310.19133v1 )

ライセンス: Link先を確認
Liying Chen, Ashley P. Fidler, Alexander M. McKillop, Marissa L. Weichman(参考訳) 分子偏光子、光遷移の強い空洞結合に起因するハイブリッド光物質状態は、化学反応を導く新しい経路を提供するかもしれない。 しかし, 清浄なベンチマークシステムにおけるキャビティ修飾反応性の実証は, ポーラリトン化学の機構と範囲を明らかにするために必要である。 ここでは、過渡吸収を用いて、シクロヘキサン(c$-C$_6$H$_{12}$)およびクロロホルム(CHCl$_3$)溶媒と相互作用するCNラジカル(c$-C$_6$H$_{12}$)の超高速ダイナミクスを観察する。 c$-C$_6$H$_{12}$:CHCl$_3$比を変調することにより、55$-85 cm$^{-1}$の集合共役結合強度の下で溶媒錯体と水素(H)吸蔵過程がどのように進行するかを探索する。 反応速度は, 結合強度に関係なく, 余剰, 共鳴, 共振共振共振器結合条件で変化しない。 これらの結果から, cnとchcl$_3$とのh-アブストラクション反応において, 振動キャビティカップリング強度の不足は, 従来観測されていた不飽和キャビティ効果の決定因子にはなり得ないことが示唆された。

Molecular polaritons, hybrid light-matter states resulting from strong cavity coupling of optical transitions, may provide a new route to guide chemical reactions. However, demonstrations of cavity-modified reactivity in clean benchmark systems are still needed to clarify the mechanisms and scope of polariton chemistry. Here, we use transient absorption to observe the ultrafast dynamics of CN radicals interacting with a cyclohexane ($c$-C$_6$H$_{12}$) and chloroform (CHCl$_3$) solvent mixture under vibrational strong coupling of the brightest C$-$H stretching mode of $c$-C$_6$H$_{12}$. By modulating the $c$-C$_6$H$_{12}$:CHCl$_3$ ratio, we explore how solvent complexation and hydrogen (H)-abstraction processes proceed under collective cavity coupling strengths ranging from 55$-$85 cm$^{-1}$. Reaction rates remain unchanged for all extracavity, on resonance, and off-resonance cavity coupling conditions, regardless of coupling strength. These results suggest that insufficient vibrational cavity coupling strength may not be the determining factor for the negligible cavity effects observed previously in H-abstraction reactions of CN with CHCl$_3$.
翻訳日:2023-10-31 14:12:13 公開日:2023-10-29
# 口紅を着る女性:物体と関連するジェンダーの間のバイアスを測定する

Women Wearing Lipstick: Measuring the Bias Between an Object and Its Related Gender ( http://arxiv.org/abs/2310.19130v1 )

ライセンス: Link先を確認
Ahmed Sabir, Llu\'is Padr\'o(参考訳) 本稿では,画像キャプションシステムにおける性別バイアスに対する対象の影響について検討する。 以上の結果から,性別に限定した対象のみが強い性別バイアス(女性-リップスティックなど)を持つことが示された。 さらに, 画像キャプションシステムにおいて, バイアスの度合いを計測し, プラグインとして使用できる視覚的意味に基づく性別スコアを提案する。 そこで本実験では,字幕とその関連性間のバイアス関係を計測できるため,既存のObject Gender Co-Occアプローチの付加指標として有効であることを示す。 コードとデータは \url{https://github.com/ahmedssabir/GenderScore} で公開されている。

In this paper, we investigate the impact of objects on gender bias in image captioning systems. Our results show that only gender-specific objects have a strong gender bias (e.g., women-lipstick). In addition, we propose a visual semantic-based gender score that measures the degree of bias and can be used as a plug-in for any image captioning system. Our experiments demonstrate the utility of the gender score, since we observe that our score can measure the bias relation between a caption and its related gender; therefore, our score can be used as an additional metric to the existing Object Gender Co-Occ approach. Code and data are publicly available at \url{https://github.com/ahmedssabir/GenderScore}.
翻訳日:2023-10-31 14:11:44 公開日:2023-10-29
# 非コンポジション表現と構成表現の統一表現

Unified Representation for Non-compositional and Compositional Expressions ( http://arxiv.org/abs/2310.19127v1 )

ライセンス: Link先を確認
Ziheng Zeng and Suma Bhat(参考訳) 非合成言語の正確な処理は、そのような表現に対して良い表現を生成することに依存する。 本研究では,bartに基づく言語モデルpierを提案し,英語の慣用的表現(pie)に対して意味的に意味的かつ文脈的に適切な表現を作成できる言語モデルを提案する。 PIEは、その非構成性および文脈的曖昧さによって特徴付けられる。 パイ処理およびnluタスクの埋め込み品質および極端評価を本質的に評価した結果,pierが生成する表現は,bartよりも33%高い均質性スコアを示し,一方3.12%と3.29%はパイセンス分類とスパン検出の精度とシーケンス精度を,最先端のie表現モデルであるgieaと比較して向上した。 これらのゲインは、BARTと比較して、NLUタスク(+/-1%の精度)におけるPIERのパフォーマンスを犠牲にすることなく達成される。

Accurate processing of non-compositional language relies on generating good representations for such expressions. In this work, we study the representation of language non-compositionality by proposing a language model, PIER, that builds on BART and can create semantically meaningful and contextually appropriate representations for English potentially idiomatic expressions (PIEs). PIEs are characterized by their non-compositionality and contextual ambiguity in their literal and idiomatic interpretations. Via intrinsic evaluation on embedding quality and extrinsic evaluation on PIE processing and NLU tasks, we show that representations generated by PIER result in 33% higher homogeneity score for embedding clustering than BART, whereas 3.12% and 3.29% gains in accuracy and sequence accuracy for PIE sense classification and span detection compared to the state-of-the-art IE representation model, GIEA. These gains are achieved without sacrificing PIER's performance on NLU tasks (+/- 1% accuracy) compared to BART.
翻訳日:2023-10-31 14:11:33 公開日:2023-10-29
# 一般近似近傍探索実装の最悪の性能:保証と制限

Worst-case Performance of Popular Approximate Nearest Neighbor Search Implementations: Guarantees and Limitations ( http://arxiv.org/abs/2310.19126v1 )

ライセンス: Link先を確認
Piotr Indyk, Haike Xu(参考訳) グラフベースの近接探索アプローチは、大規模データセットを実際に扱うための人気があり強力なツールであるが、理論上の保証は限られている。 本稿では,HNSW,NSG,DiskANNなどのグラフベース近傍探索アルゴリズムの最悪の性能について検討する。 DiskANNの場合、「スロープリプロセッシング」バージョンは、有界な「内在的」次元のデータセット上で、近似比が一定であり、多対数的なクエリ時間を持つ近傍の探索クエリを確実にサポートする。 高速プリプロセッシングを備えたDiskANNやHNSW,NSGなどの他のデータ構造変種について,"理にかなった"精度を達成するのに必要な経験的クエリ時間が,インスタンスサイズで線形であることを示す。 例えば、 diskann の場合、クエリプロシージャは、クエリの最も近い5ドルの近傍のいずれかに遭遇する前に、サイズが$n$ のインスタンスに対して少なくとも$0.1 n$ のステップを取ることができる。

Graph-based approaches to nearest neighbor search are popular and powerful tools for handling large datasets in practice, but they have limited theoretical guarantees. We study the worst-case performance of recent graph-based approximate nearest neighbor search algorithms, such as HNSW, NSG and DiskANN. For DiskANN, we show that its "slow preprocessing" version provably supports approximate nearest neighbor search query with constant approximation ratio and poly-logarithmic query time, on data sets with bounded "intrinsic" dimension. For the other data structure variants studied, including DiskANN with "fast preprocessing", HNSW and NSG, we present a family of instances on which the empirical query time required to achieve a "reasonable" accuracy is linear in instance size. For example, for DiskANN, we show that the query procedure can take at least $0.1 n$ steps on instances of size $n$ before it encounters any of the $5$ nearest neighbors of the query.
翻訳日:2023-10-31 14:11:13 公開日:2023-10-29
# 多目的モデルに基づく推論のためのヒューリスティックな部分順序付け

Partial Orderings as Heuristic for Multi-Objective Model-Based Reasoning ( http://arxiv.org/abs/2310.19125v1 )

ライセンス: Link先を確認
Andre Lustosa, Tim Menzies(参考訳) モデルに基づく推論はソフトウェア工学においてますます一般的になりつつある。 モデルの構築と分析のプロセスは、ステークホルダーがソフトウェア決定の分岐を理解するのに役立つ。 しかし、これらのモデルが候補となるソリューションが多すぎると、複雑なモデルは利害関係者を混乱させ、圧倒する可能性がある。 ここでは、部分順序付けに基づく手法により、$O(log(N))$クエリ(以下)を必要とするバイナリチョップを通じて、人間が許容できるソリューションを見つけることができると論じる。 本稿では,iSNEAK部分順序付けツールを用いて,このアプローチの価値を確認する。 実験前は、私たちは (a)自動化された方法では、人間には受け入れられないモデルを作るかもしれません。 (b)本手法は,実際に重要な最適化を見落としている可能性がある。 そこで本研究では,ブラジルの20人のプログラマを対象に,Human-in-the-loop二重盲検評価によるiSNEAKの解の受容性を確認した。 また、iSNEAKが大きな最適化を怠っているかどうか(最大1000の属性を持つ16のSEモデルのコーパスにおいて、2つの競合技術(対話型検索ベースSEコミュニティで好まれる遺伝的アルゴリズムとSE構成コミュニティで開発されたシーケンシャルモデルオプティマイザ)を比較した。 iSNEAKのソリューションは人間に受け入れられることがわかりました(そしてそれらのソリューションは、どのステークホルダにもずっと少ない質問で生成するのにはるかに時間がかかりました)。 重要なことに、我々の手法は競合する目標を持つ多目的モデルでもうまく機能します(この研究では、4~5つの目標を持つモデルを調べます)。 これらの結果は、多目的モデルに基づく問題に対して、部分順序付けに関するさらなる取り組みを動機付ける。

Model-based reasoning is becoming increasingly common in software engineering. The process of building and analyzing models helps stakeholders to understand the ramifications of their software decisions. But complex models can confuse and overwhelm stakeholders when these models have too many candidate solutions. We argue here that a technique based on partial orderings lets humans find acceptable solutions via a binary chop needing $O(log(N))$ queries (or less). This paper checks the value of this approach via the iSNEAK partial ordering tool. Pre-experimentally, we were concerned that (a)~our automated methods might produce models that were unacceptable to humans; and that (b)~our human-in-the-loop methods might actual overlooking significant optimizations. Hence, we checked the acceptability of the solutions found by iSNEAK via a human-in-the-loop double-blind evaluation study of 20 Brazilian programmers. We also checked if iSNEAK misses significant optimizations (in a corpus of 16 SE models of size ranging up to 1000 attributes by comparing it against two rival technologies (the genetic algorithms preferred by the interactive search-based SE community; and the sequential model optimizers developed by the SE configuration community~\citep{flash_vivek}). iSNEAK 's solutions were found to be human acceptable (and those solutions took far less time to generate, with far fewer questions to any stakeholder). Significantly, our methods work well even for multi-objective models with competing goals (in this work we explore models with four to five goals). These results motivate more work on partial ordering for many-goal model-based problems.
翻訳日:2023-10-31 14:10:52 公開日:2023-10-29
# ディープラーニングアプリケーションのためのソフトウェアエンジニアリング:GitHubリポジトリにおけるSWEngとMLopsツールの使用

Software engineering for deep learning applications: usage of SWEng and MLops tools in GitHub repositories ( http://arxiv.org/abs/2310.19124v1 )

ライセンス: Link先を確認
Evangelia Panourgia (Athens University of Economics and Business), Theodoros Plessas (Athens University of Economics and Business), Diomidis Spinellis (Athens University of Economics and Business, Delft University of Technology)(参考訳) ディープラーニング(DL)メソッドやテクニックの普及は,ソフトウェア工学(SE)プラクティスをディープラーニングソフトウェアに適用するSE4DLというトピックに関心を喚起している。 dlソフトウェアのデータ駆動および非決定論的パラダイムによってもたらされた斬新なエンジニアリング上の課題にもかかわらず、aiをターゲットとしたseツールの開発にはほとんど投資されていない。 一方、DLのより一般的なエンジニアリング問題に取り組むツールは、'MLOps tools'という包括的用語で積極的に使われ、参照されている。 さらに、利用可能な文献は、dlソフトウェア開発における従来のseツールの有用性をサポートする。 オープンソースソフトウェアにおけるツール使用に関する以前のMSR研究に基づいて、Pythonを主要なプログラミング言語として使用する一般的なDLプロジェクトで採用されている従来のMLOpsツールとMLOpsツールを特定した。 GitHubリポジトリの約70%は、少なくとも1つの従来のSEツールを含んでいた。 ソフトウェア構成管理ツールは最も採用されているが、メンテナンスツールには反対である。 少なくとも1つのリポジトリで使用されている80のサンプルのうち、9つのツールしか使用されていない。 その多くはプロプライエタリではなくオープンソースだった。 これらのツールの1つであるTensorBoardは、我々の研究で約半数のリポジトリで採用されていることが判明した。 その結果,従来のSEツールの使用はDLソフトウェアとの関連性を示している。 オープンソースプロジェクトによるmlopsツールの採用に関するさらなる研究が推奨されており、特定のツールタイプ、必要なツールの開発、および既に利用可能なツールの使用を促進する方法に焦点を当てている。

The rising popularity of deep learning (DL) methods and techniques has invigorated interest in the topic of SE4DL, the application of software engineering (SE) practices on deep learning software. Despite the novel engineering challenges brought on by the data-driven and non-deterministic paradigm of DL software, little work has been invested into developing AI-targeted SE tools. On the other hand, tools tackling more general engineering issues in DL are actively used and referred to under the umbrella term of ``MLOps tools''. Furthermore, the available literature supports the utility of conventional SE tooling in DL software development. Building upon previous MSR research on tool usage in open-source software works, we identify conventional and MLOps tools adopted in popular applied DL projects that use Python as the main programming language. About 70% of the GitHub repositories mined contained at least one conventional SE tool. Software configuration management tools are the most adopted, while the opposite applies to maintenance tools. Substantially fewer MLOps tools were in use, with only 9 tools out of a sample of 80 used in at least one repository. The majority of them were open-source rather than proprietary. One of these tools, TensorBoard, was found to be adopted in about half of the repositories in our study. Consequently, the use of conventional SE tooling demonstrates its relevance to DL software. Further research is recommended on the adoption of MLOps tooling by open-source projects, focusing on the relevance of particular tool types, the development of required tools, as well as ways to promote the use of already available tools.
翻訳日:2023-10-31 14:10:25 公開日:2023-10-29
# 3つのドッグマ、パズルとその解決策

Three Dogmas, a Puzzle and its Solution ( http://arxiv.org/abs/2310.19123v1 )

ライセンス: Link先を確認
Elnaserledinellah Mahmood Abdelwahab(参考訳) 現代の論理学は、フレーゲ、ラッセル、タルスキによって特に定式化され、言語学者によって争われる自然言語、特にインド・ヨーロッパ諸語に関する基本的な前提が関係していた。 これらの仮定に基づき、形式言語は自然言語の「定義」であると主張する論理学者を克服するために設計された。 本稿では,これらの仮定がアラビア語の基本原理と矛盾することを示す。 より具体的には、論理学者の考えでは、自然言語の単語では「ToBe」-構成は同一性を表すものであり、不確定な記述は意味のある文を形成するために存在量化子に置き換えなければならない。 ここで提示された偽造は2つの目的がある。 まず、数学論理学のセマンティック公理をアラビア構文の意味のモデルとして採用するアプローチの拒絶の事実的根拠として用いられる。 次に、重要な計算問題にアプローチする方法を示す: Satisfiability (SAT)。 この手法は、アラビア語の構文解析が構文内における「意味粒子」の存在を利用して、単語、句、文を効率よく認識する、という認識に基づいている。 同様の意味粒子は3CNF式に存在し、3SAT-ソルバーの機械で適切に扱うと、非指数サイズの自由二項決定図(FBDD)の効率的な生産を保証するのに十分な構造条件を公式に課すことができる。 また,FBDDのサイズに関する指数関数的下界が我々の結果と矛盾せず,乗算回路で得られた実効的証拠を明らかにし,我々の主張を支持した。

Modern Logics, as formulated notably by Frege, Russell and Tarski involved basic assumptions about Natural Languages in general and Indo-European Languages in particular, which are contested by Linguists. Based upon those assumptions, formal Languages were designed to overcome what Logicians claimed to be 'defects' of Natural Language. In this paper we show that those assumptions contradict basic principles of Arabic. More specifically: The Logicians ideas, that within Natural Language words refer to objects, 'ToBe'-constructions represent identity statements, Indefinite Descriptions must be replaced by existential quantifiers to form meaningful Sentences and Symbols can have no interpretation-independent meanings, are all falsified using undisputed principles of Arabic. The here presented falsification serves two purposes. First, it is used as a factual basis for the rejection of approaches adopting Semantic axioms of Mathematical Logics as Models for meaning of Arabic Syntax. Second, it shows a way to approach the important computational problem: Satisfiability (SAT). The described way is based upon the realization that parsing Arabic utilizes the existence of 'meaning-particles' within Syntax to efficiently recognize words, phrases and Sentences. Similar meaning-particles are shown to exist in 3CNF formulas, which, when properly handled within the machinery of 3SAT-Solvers, enable structural conditions to be imposed on formulas, sufficient alone to guarantee the efficient production of non-exponentially sized Free Binary Decision Diagrams (FBDDs). We show, why known exponential Lower Bounds on sizes of FBDDs do not contradict our results and reveal practical evidence, obtained for multiplication circuits, supporting our claims.
翻訳日:2023-10-31 14:10:02 公開日:2023-10-29
# ベイジアン不確かさ推定による分布外物体検出

Out-of-distribution Object Detection through Bayesian Uncertainty Estimation ( http://arxiv.org/abs/2310.19119v1 )

ライセンス: Link先を確認
Tianhao Zhang, Shenglin Wang, Nidhal Bouaynaya, Radu Calinescu and Lyudmila Mihaylova(参考訳) オブジェクト検出器の優れた性能は、テストサンプルがトレーニングデータと同じ分布にあるという条件下で確立されることが多い。 しかし、多くの実用的なアプリケーションでは、out-of-distribution (ood)インスタンスは避けられず、結果の不確実性につながる。 本稿では,OOD検出のための新しい,直感的でスケーラブルな確率的オブジェクト検出手法を提案する。 重み分布を推定するために膨大な計算コストを必要とする他の不確実性モデリング手法と異なり,本手法では,事前学習されたネットワークに基づくガウス分布からの重みパラメータサンプリングにより,内分布(ID)データとOODデータを区別することができる。 BDD100kおよびVOCデータセットをIDデータセットとしてトレーニングし、COCO2017データセットをOCOデータセットとして評価すると、FPR95スコアを最大8.19%削減し、AUROCスコアを最大13.94%向上させることで、ベイズオブジェクト検出器がOOD識別性能を満足できることを示した。

The superior performance of object detectors is often established under the condition that the test samples are in the same distribution as the training data. However, in many practical applications, out-of-distribution (OOD) instances are inevitable and usually lead to uncertainty in the results. In this paper, we propose a novel, intuitive, and scalable probabilistic object detection method for OOD detection. Unlike other uncertainty-modeling methods that either require huge computational costs to infer the weight distributions or rely on model training through synthetic outlier data, our method is able to distinguish between in-distribution (ID) data and OOD data via weight parameter sampling from proposed Gaussian distributions based on pre-trained networks. We demonstrate that our Bayesian object detector can achieve satisfactory OOD identification performance by reducing the FPR95 score by up to 8.19% and increasing the AUROC score by up to 13.94% when trained on BDD100k and VOC datasets as the ID datasets and evaluated on COCO2017 dataset as the OOD dataset.
翻訳日:2023-10-31 14:09:29 公開日:2023-10-29
# 量子生成逆ネットワークのための最適学習パラメータの探索

Finding Optimal Training Parameters for Quantum Generative Adversarial Networks ( http://arxiv.org/abs/2310.19117v1 )

ライセンス: Link先を確認
C. Strynar, R.M. Rajapakse(参考訳) 現代の機械学習システムの最も印象的な成果は、GAN(Generative Adversarial Network)構造によるものである。 DALLE-2とGPT-3はMLの最も印象的かつ認識しやすい成果の2つであり、どちらも敵の手法を用いて訓練された。 QGANは、古典的なデータを量子状態にロードする非常に効率的な方法を提供します。 本稿では,QGANフレームワークにおける最適トレーニングパラメータのいくつかを決定するために,これらの手法の性能について検討する。

Some of the most impressive achievements of contemporary Machine Learning systems comes from the GAN (Generative Adversarial Network) structure. DALLE-2 and GPT- 3, two of the most impressive and recognizable feats of ML in recent years, were both trained using adversarial techniques. The world of Quantum Computing is already well aware of the value of such techniques on near-term Quantum Hardware: QGANs provide a highly efficient method for loading classical data into a quantum state. We investigate the performance of these techniques in an attempt to determine some of the optimal training parameters in a Qiskit-style Parameterized Circuit QGAN framework.
翻訳日:2023-10-31 14:09:06 公開日:2023-10-29
# 結合導波路における光子境界状態

Photon Bound States in Coupled Waveguides ( http://arxiv.org/abs/2310.19115v1 )

ライセンス: Link先を確認
Bj\"orn Schrinski, Johan A. Brimer, Anders S. S{\o}rensen(参考訳) 光子束縛状態は、1つの放出子から2つの光子の散乱に対する特定の解として同定されているが、これらの結果からこれらの状態の完全な性質はいまだに解明されていない。 我々は、これらの境界状態が真に束縛されているという、新規で明確で曖昧な署名を研究する。 この目的のために、2レベルエミッタにキラルに結合したクローズバイ導波路の新しい構成を考える。 この系では、光子束縛状態は剛性分子のように振る舞うが、光子が個別にトンネルせず、集合的に振る舞うので、各導波路に1つの光子が存在することは滅多にない。 さらに,本システムにおける境界状態の新しいクラスを同定する。

Photon bound states have been identified as particular solutions to the scattering of two photons from a single emitter, but from these results the full nature of these states remains elusive. We study a novel, clear and unambiguous signature that these bound states are truly bound. To this end we consider a new configuration of close-by waveguides, each chirally coupled to two-level emitters. We show that in this system the photon bound states behave like rigid molecules, where photons do not tunnel individually but rather collectively, such that there is rarely a single photon in each waveguide. We further identify new classes of bound states in this system.
翻訳日:2023-10-31 14:08:55 公開日:2023-10-29
# 道路車間視からの動的V2X自律認識

Dynamic V2X Autonomous Perception from Road-to-Vehicle Vision ( http://arxiv.org/abs/2310.19113v1 )

ライセンス: Link先を確認
Jiayao Tan, Fan Lyu, Linyan Li, Fuyuan Hu, Tingliang Feng, Fenglei Xu, Rui Yao(参考訳) vehicle-to-everything (v2x) 知覚は、車両の知覚精度を高め、自律システムのセキュリティと信頼性を高める革新的な技術である。 しかし,既存のV2X認識手法は,センサ機能や通信負荷に制約される車両による視覚の静的シーンに焦点を当てている。 動的シーンにV2X知覚モデルを適用するために,道路車間視からV2X知覚を構築することを提案する。 AR2VPでは、路面ユニットを活用し、安定した広帯域センシング機能を提供し、通信ハブとして機能する。 AR2VPは、シーン内とシーン間の両方の変化に取り組むように設計されている。 For the former, we construct a dynamic perception representing module, which efficiently integrates vehicle perceptions, enabling vehicles to capture a more comprehensive range of dynamic factors within the scene.Moreover, we introduce a road-to-vehicle perception compensating module, aimed at preserving the maximized roadside unit perception information in the presence of intra-scene changes.For inter-scene changes, we implement an experience replay mechanism leveraging the roadside unit's storage capacity to retain a subset of historical scene data, maintaining model robustness in response to inter-scene shifts. 本研究では,3次元物体検出とセグメンテーションの知覚実験を行い,AR2VPは動的環境における特性帯域トレードオフと適応性の両方に優れることを示した。

Vehicle-to-everything (V2X) perception is an innovative technology that enhances vehicle perception accuracy, thereby elevating the security and reliability of autonomous systems. However, existing V2X perception methods focus on static scenes from mainly vehicle-based vision, which is constrained by sensor capabilities and communication loads. To adapt V2X perception models to dynamic scenes, we propose to build V2X perception from road-to-vehicle vision and present Adaptive Road-to-Vehicle Perception (AR2VP) method. In AR2VP,we leverage roadside units to offer stable, wide-range sensing capabilities and serve as communication hubs. AR2VP is devised to tackle both intra-scene and inter-scene changes. For the former, we construct a dynamic perception representing module, which efficiently integrates vehicle perceptions, enabling vehicles to capture a more comprehensive range of dynamic factors within the scene.Moreover, we introduce a road-to-vehicle perception compensating module, aimed at preserving the maximized roadside unit perception information in the presence of intra-scene changes.For inter-scene changes, we implement an experience replay mechanism leveraging the roadside unit's storage capacity to retain a subset of historical scene data, maintaining model robustness in response to inter-scene shifts. We conduct perception experiment on 3D object detection and segmentation, and the results show that AR2VP excels in both performance-bandwidth trade-offs and adaptability within dynamic environments.
翻訳日:2023-10-31 14:08:42 公開日:2023-10-29
# コンテキスト認識による効率的なIoT推論

Efficient IoT Inference via Context-Awareness ( http://arxiv.org/abs/2310.19112v1 )

ライセンス: Link先を確認
Mohammad Mehdi Rastikerdar, Jin Huang, Shiwei Fang, Hui Guan, Deepak Ganesan(参考訳) 低消費電力プラットフォーム上での深層学習に基づく分類モデルを最適化するための既存の戦略は、モデルがあらゆる利害関係のクラスで訓練されていることを前提としているが、本稿は、コンテキスト認識の採用、すなわち、現在のコンテキストにおける潜在的クラスに焦点をあてることで、資源制約のある環境での性能を大幅に向上させることができることを示唆している。 そこで我々は,CACTUSという,スケーラブルで効率的なコンテキスト認識型分類のための新しいパラダイムを提案し,マイクロ分類器が現在のコンテキストに関連する少数のクラスを認識し,コンテキストが変化すると,すぐに他の適切なマイクロ分類器に切り替える。 CACTUSは、コンテキスト認識分類器のトレーニングコストの最適化、オンザフライのコンテキスト認識分類器間の切り替え、限られたリソースを与えられた最高のコンテキスト認識分類器の選択など、いくつかのイノベーションを持っている。 我々は、CACTUSが、さまざまなデータセットやIoTプラットフォームにわたる正確性、レイテンシ、計算予算において、大きなメリットを達成していることを示す。

While existing strategies for optimizing deep learning-based classification models on low-power platforms assume the models are trained on all classes of interest, this paper posits that adopting context-awareness i.e. focusing solely on the likely classes in the current context, can substantially enhance performance in resource-constrained environments. We propose a new paradigm, CACTUS, for scalable and efficient context-aware classification where a micro-classifier recognizes a small set of classes relevant to the current context and, when context change happens, rapidly switches to another suitable micro-classifier. CACTUS has several innovations including optimizing the training cost of context-aware classifiers, enabling on-the-fly context-aware switching between classifiers, and selecting the best context-aware classifiers given limited resources. We show that CACTUS achieves significant benefits in accuracy, latency, and compute budget across a range of datasets and IoT platforms.
翻訳日:2023-10-31 14:08:20 公開日:2023-10-29
# キャビティQEDにおけるGoos-H\"{a}nchenシフトの力学的制御

Magnomechanically controlled Goos-H\"{a}nchen shift in cavity QED ( http://arxiv.org/abs/2310.19111v1 )

ライセンス: Link先を確認
Muhammad Waseem, Muhammad Irfan, Shahid Qamar(参考訳) キャビティマグノメカニクス系におけるマグノン、フォノン、光子間の相互作用を含む現象は、マイクロ波周波数範囲における潜在的な応用のため、近年大きな注目を集めている。 そのような重要な効果の1つは、プローブ場の光子-マグノン-フォノン間の相互作用に対する応答である。 本稿では, 共振器磁気力学系における反射プローブ場のGoos-H\"{a}nchen shift (GHS) について検討する。 マイクロ波空洞内に位置するYIG球を考える。 マイクロ波制御場はyig球面のマグノンモードを直接駆動し、キャビティは弱いプローブフィールドを介して駆動される。 その結果,GHSは制御場を介してマグノン-フォノン結合によりコヒーレントに制御可能であることがわかった。 例えば、ghs はマグノン-フォノンカップリングをチューニングすることで正から負に調整できる。 同様に、有効キャビティのデチューニングもghsの重要な制御パラメータである。 さらに, マグノン-フォノンカップリングが弱い場合, およびマグノン-フォノンカップリングがマイクロ波光子の損失とほぼ等しい場合には, GHSの増大が生じることが観察された。 本研究はマイクロ波スイッチングとセンシングの応用において潜在的に重要である可能性がある。

Phenomena involving interactions among magnons, phonons, and photons in cavity magnomechanical systems have attracted considerable attention recently, owing to their potential applications in the microwave frequency range. One such important effect is the response of a probe field to such tripartite interaction between photon-magnon-phonon. In this paper, we study Goos-H\"{a}nchen shift (GHS) of a reflected probe field in a cavity magnomechanical system. We consider a YIG sphere positioned within a microwave cavity. A microwave control field directly drives the magnon mode in YIG sphere, whereas the cavity is driven via a weak probe field. Our results show that the GHS can be coherently controlled through magnon-phonon coupling via the control field. For instance, GHS can be tuned from positive to negative by tuning the magnon-phonon coupling. Similarly, the effective cavity detuning is another important controlling parameter for GHS. Furthermore, we observe that the enhancement of GHS occurs when magnon-phonon coupling is weak at resonance, and when the magnon-photon coupling is approximately equal to the loss of microwave photons. Our findings may have potential significance in applications related to microwave switching and sensing.
翻訳日:2023-10-31 14:08:01 公開日:2023-10-29
# 脳卒中後の回復予測:説明可能なAIを用いたディープラーニング、マルチモーダルデータ、特徴選択

Predicting recovery following stroke: deep learning, multimodal data and feature selection using explainable AI ( http://arxiv.org/abs/2310.19174v1 )

ライセンス: Link先を確認
Adam White, Margarita Saranti, Artur d'Avila Garcez, Thomas M. H. Hope, Cathy J. Price, Howard Bowman(参考訳) 機械学習は、ストローク後の症状の自動予測とリハビリテーションに対する反応に大きな可能性を秘めている。 この取り組みの主な課題は、神経画像データの非常に高次元性、学習に利用可能なデータセットの比較的小さなサイズ、神経画像と表層データ(例えば、人口統計情報と臨床特性)を効果的に組み合わせることである。 本稿では,2つの戦略に基づく解をいくつか評価する。 まず、MRIスキャンを要約する2D画像を使用する。 2つ目は、分類精度を向上させる重要な機能を選択することである。 さらに,mriから抽出された興味領域と表データの象徴表現を組み合わせた画像に対して畳み込みニューラルネットワーク(cnn)を訓練する新しい手法を提案する。 我々は,MRIと表層データの異なる表現に基づいて訓練されたCNNアーキテクチャ(2Dと3Dの両方)のシリーズを評価し,ポーズ後の音声画像記述能力の複合測度が失語ないし非失語範囲にあるかを予測する。 PLORAS研究に参加した英語を話す脳卒中758名からMRIと表層データを得た。 基準線ロジスティック回帰の分類精度は, 病変径単独で0.678であり, 初期症状の重症度と回復時間を連続して加算すると0.757, 0.813となった。 それぞれのMRIスキャンから8領域の関心領域を抽出し,病変の大きさ,2次元残留ニューラルネットワークの初期重症度,回復時間と組み合わせた場合に,最も高い分類精度0.854が観察された。 結論として,病院スキャナからの画像を用いて,より高精度な精度を実現するために,現在のモデルをどのように改善できるかを提案する。

Machine learning offers great potential for automated prediction of post-stroke symptoms and their response to rehabilitation. Major challenges for this endeavour include the very high dimensionality of neuroimaging data, the relatively small size of the datasets available for learning, and how to effectively combine neuroimaging and tabular data (e.g. demographic information and clinical characteristics). This paper evaluates several solutions based on two strategies. The first is to use 2D images that summarise MRI scans. The second is to select key features that improve classification accuracy. Additionally, we introduce the novel approach of training a convolutional neural network (CNN) on images that combine regions-of-interest extracted from MRIs, with symbolic representations of tabular data. We evaluate a series of CNN architectures (both 2D and a 3D) that are trained on different representations of MRI and tabular data, to predict whether a composite measure of post-stroke spoken picture description ability is in the aphasic or non-aphasic range. MRI and tabular data were acquired from 758 English speaking stroke survivors who participated in the PLORAS study. The classification accuracy for a baseline logistic regression was 0.678 for lesion size alone, rising to 0.757 and 0.813 when initial symptom severity and recovery time were successively added. The highest classification accuracy 0.854 was observed when 8 regions-of-interest was extracted from each MRI scan and combined with lesion size, initial severity and recovery time in a 2D Residual Neural Network.Our findings demonstrate how imaging and tabular data can be combined for high post-stroke classification accuracy, even when the dataset is small in machine learning terms. We conclude by proposing how the current models could be improved to achieve even higher levels of accuracy using images from hospital scanners.
翻訳日:2023-10-31 14:00:56 公開日:2023-10-29
# birdsat:鳥種分類とマッピングのためのクロスビューコントラストマスク自動エンコーダ

BirdSAT: Cross-View Contrastive Masked Autoencoders for Bird Species Classification and Mapping ( http://arxiv.org/abs/2310.19168v1 )

ライセンス: Link先を確認
Srikumar Sastry, Subash Khanal, Aayush Dhakal, Di Huang, Nathan Jacobs(参考訳) 我々は,世界中の鳥類の詳細な分類と生態地図作成に有用なメタデータを意識した自己教師型学習(SSL)フレームワークを提案する。 コントラスト学習〜(CL) と Masked Image Modeling~(MIM) の2つのSSL戦略を統合するとともに,埋め込み空間に鳥の地上画像のメタデータを付加する。 我々は、地上画像、メタデータ(位置、時間)、対応する衛星画像を含む、新しいクロスビューグローバルバード種データセット上で、ユニモーダルとクロスモーダルvitを別々に訓練する。 我々は,鳥の細粒度・地理的条件付き特徴を学習するモデルとして,細粒度視覚分類~(fgvc)と交叉モーダル検索の2つの課題を評価した。 inat-2021鳥類のfgvcとcub-200-2011とnabirdsデータセットの転送学習設定で学習した事前学習モデルによってsoma性能が向上した。 さらに,このモデルの印象的なクロスモーダル検索性能により,任意の地理的領域にまたがる種分布マップの作成が可能となった。 データセットとソースコードはhttps://github.com/mvrl/BirdSAT}で公開される。

We propose a metadata-aware self-supervised learning~(SSL)~framework useful for fine-grained classification and ecological mapping of bird species around the world. Our framework unifies two SSL strategies: Contrastive Learning~(CL) and Masked Image Modeling~(MIM), while also enriching the embedding space with metadata available with ground-level imagery of birds. We separately train uni-modal and cross-modal ViT on a novel cross-view global bird species dataset containing ground-level imagery, metadata (location, time), and corresponding satellite imagery. We demonstrate that our models learn fine-grained and geographically conditioned features of birds, by evaluating on two downstream tasks: fine-grained visual classification~(FGVC) and cross-modal retrieval. Pre-trained models learned using our framework achieve SotA performance on FGVC of iNAT-2021 birds and in transfer learning settings for CUB-200-2011 and NABirds datasets. Moreover, the impressive cross-modal retrieval performance of our model enables the creation of species distribution maps across any geographic region. The dataset and source code will be released at https://github.com/mvrl/BirdSAT}.
翻訳日:2023-10-31 14:00:25 公開日:2023-10-29
# 流れの正規化による希少事象確率学習

Rare Event Probability Learning by Normalizing Flows ( http://arxiv.org/abs/2310.19167v1 )

ライセンス: Link先を確認
Zhenggqi Gao, Dinghuai Zhang, Luca Daniel, Duane S. Boning(参考訳) 稀な事象は発生確率が低いことで定義される。 このような小さな確率の正確な推定は、様々な領域において最も重要である。 従来のモンテカルロ法は非効率であり、信頼できる推定を達成するために非常に多くのサンプルを必要とする。 フローの正規化の正確なサンプリング能力に触発されて,この課題を再検討し,nofisと呼ばれるフロー支援重要サンプリングの正規化を提案する。 NOFISはまず、KL分散損失を最小限に抑えて、事前に定義されたネストされたサブセットイベントに関連する一連の提案分布を学習する。 次に,前提案と並行して重要サンプリングを利用することで,希少事象確率を推定する。 NOFIS法の有効性は, 総合的な質的可視化によって検証され, 学習された提案分布の最適性を確認するとともに, 10ドルの異なるテストケースを含む一連の定量的実験を行い, ベースラインアプローチよりもNOFISの方が優れていることを示した。

A rare event is defined by a low probability of occurrence. Accurate estimation of such small probabilities is of utmost importance across diverse domains. Conventional Monte Carlo methods are inefficient, demanding an exorbitant number of samples to achieve reliable estimates. Inspired by the exact sampling capabilities of normalizing flows, we revisit this challenge and propose normalizing flow assisted importance sampling, termed NOFIS. NOFIS first learns a sequence of proposal distributions associated with predefined nested subset events by minimizing KL divergence losses. Next, it estimates the rare event probability by utilizing importance sampling in conjunction with the last proposal. The efficacy of our NOFIS method is substantiated through comprehensive qualitative visualizations, affirming the optimality of the learned proposal distribution, as well as a series of quantitative experiments encompassing $10$ distinct test cases, which highlight NOFIS's superiority over baseline approaches.
翻訳日:2023-10-31 14:00:02 公開日:2023-10-29
# 洪水緩和のための予測型深層学習モデルにおける説明可能性のパワー

The Power of Explainability in Forecast-Informed Deep Learning Models for Flood Mitigation ( http://arxiv.org/abs/2310.19166v1 )

ライセンス: Link先を確認
Jimeng Shi, Vitalii Stebliankin, Giri Narasimhan(参考訳) 洪水は生命と財産に恐ろしい害をもたらす可能性がある。 しかし、ダム、門、ポンプなどの水圧構造物を効果的に利用することで緩和、あるいは回避することができる。 極度の気象現象に先立ってこれらの構造物を経由したプレリリース水により、洪水を防ぐための水位は十分に低下する。 本研究では,予報型深層学習アーキテクチャであるFIDLARを提案し,プレリリースによる洪水軽減と不必要な水の無駄を解消し,水理構造を有する流域における洪水管理を最適に行う。 豪雨や洪水が頻発する沿岸地域を管理する南フロリダ水管理地区のデータを用いて,fidlarを用いて実験を行った。 その結果、fidlarは、数桁のスピードアップと確実にリリース前のスケジュールで、現在の最先端よりも優れたパフォーマンスを示している。 劇的なスピードアップにより、FIDLARはリアルタイムの洪水管理に使用できる。 本論文の主な貢献は,モデル説明ツールの有効利用であり,その意思決定に対する各種環境要因の寄与を理解することを可能にする。

Floods can cause horrific harm to life and property. However, they can be mitigated or even avoided by the effective use of hydraulic structures such as dams, gates, and pumps. By pre-releasing water via these structures in advance of extreme weather events, water levels are sufficiently lowered to prevent floods. In this work, we propose FIDLAR, a Forecast Informed Deep Learning Architecture, achieving flood management in watersheds with hydraulic structures in an optimal manner by balancing out flood mitigation and unnecessary wastage of water via pre-releases. We perform experiments with FIDLAR using data from the South Florida Water Management District, which manages a coastal area that is highly prone to frequent storms and floods. Results show that FIDLAR performs better than the current state-of-the-art with several orders of magnitude speedup and with provably better pre-release schedules. The dramatic speedups make it possible for FIDLAR to be used for real-time flood management. The main contribution of this paper is the effective use of tools for model explainability, allowing us to understand the contribution of the various environmental factors towards its decisions.
翻訳日:2023-10-31 13:59:46 公開日:2023-10-29
# RAIFLE:アクティブデータ操作による対話型フェデレーション学習における再構成攻撃

RAIFLE: Reconstruction Attacks on Interaction-based Federated Learning with Active Data Manipulation ( http://arxiv.org/abs/2310.19163v1 )

ライセンス: Link先を確認
Dzung Pham, Shreyas Kulkarni, Amir Houmansadr(参考訳) フェデレーション学習(federated learning, fl)は、ユーザインタラクションに依存するドメイン、特にレコメンデーションシステム(rs)とオンライン学習のランク付け(oltr)における、プライバシ保護アプローチとして最近登場した。 従来のFLのプライバシに関する重大な研究は行われているが、これらのインタラクションベースのFL(IFL)システムのプライバシ特性の研究にはほとんど関心が払われていない。 本稿では,iflがユーザプライバシに関して,特に中央サーバがユーザと対話する項目に関する知識と制御を持っている場合に,ユニークな課題を提起できることを示す。 具体的には,ifl用にカスタマイズされた最適化ベースのリコンストラクション攻撃フレームワークであるraifleを提示することにより,ユーザインタラクションの再構築の脅威を実証する。 raifleは、ifl特有の新しい攻撃技術であるactive data manipulation(adm)を使用しており、サーバはアイテムのトレーニング機能を積極的に操作し、ローカルfl更新で敵対的な振る舞いを誘発する。 RAIFLEは、IFLコンテキストにおける既存のFLプライバシ攻撃よりも影響が大きいことを示し、セキュアなアグリゲーションやプライベート情報検索といったプライバシ防御を損なうことができるかを説明する。 本研究は, 連合RS/OLTRおよびIFLの文脈において, 攻撃を緩和するための対策ガイドラインを提案し, 議論する。

Federated learning (FL) has recently emerged as a privacy-preserving approach for machine learning in domains that rely on user interactions, particularly recommender systems (RS) and online learning to rank (OLTR). While there has been substantial research on the privacy of traditional FL, little attention has been paid to studying the privacy properties of these interaction-based FL (IFL) systems. In this work, we show that IFL can introduce unique challenges concerning user privacy, particularly when the central server has knowledge and control over the items that users interact with. Specifically, we demonstrate the threat of reconstructing user interactions by presenting RAIFLE, a general optimization-based reconstruction attack framework customized for IFL. RAIFLE employs Active Data Manipulation (ADM), a novel attack technique unique to IFL, where the server actively manipulates the training features of the items to induce adversarial behaviors in the local FL updates. We show that RAIFLE is more impactful than existing FL privacy attacks in the IFL context, and describe how it can undermine privacy defenses like secure aggregation and private information retrieval. Based on our findings, we propose and discuss countermeasure guidelines to mitigate our attack in the context of federated RS/OLTR specifically and IFL more broadly.
翻訳日:2023-10-31 13:59:27 公開日:2023-10-29
# 非マルコフ量子状態拡散を有する有機微小キャビティ偏光子の線形光学特性

Linear optical properties of organic microcavity polaritons with non-Markovian Quantum State Diffusion ( http://arxiv.org/abs/2310.19162v1 )

ライセンス: Link先を確認
Timo Lepp\"al\"a, Ahmed Gaber Abdelmagid, Hassan A. Qureshi, Konstantinos S. Daskalakis, Kimmo Luoma(参考訳) キャビティモードとポーラリトン状態への励起子のハイブリッド化と振動モードとのカップリングは、マイクロキャビティにおける有機半導体の線形光学特性を決定する。 本稿では,Holstein-Tavis-Cummingsモデルを用いてそのような系の屈折率を計算し,転送行列法を用いて線形光学特性を決定する。 まず,2,7-bis [9,9-di(4-methylphenyl)-fluoren-2-yl]-9,9-di(4-methylphenyl) fluorene (TDAF) 分子薄膜の吸光実験を行った。 次に,金属クラッド微小キャビティ系におけるそのような薄膜の反射率をモデルに分散マイクロキャビティモードを含めることで計算する。 非マルコフ量子状態拡散を用いて単一の状態ベクトルのみを進化させるモデル系の感受性を計算する。 計算された下部ポラリトンと上部ポラリトンの位置と高さは、小さな角度の誤差バー内の実験と一致する($\leq 30^\circ$)。 より広い角度では、ポラリトン共鳴の位置は推定誤差の範囲内である。

Hybridisation of the cavity modes and the excitons to polariton states together with the coupling to the vibrational modes determine the linear optical properties of organic semiconductors in microcavities. In this article we compute the refractive index for such system using the Holstein-Tavis-Cummings model and determine then the linear optical properties using the transfer matrix method. We first extract the parameters for the exciton in our model from fitting to experimentally measured absorption of a 2,7-bis [9,9-di(4-methylphenyl)-fluoren-2-yl]-9,9-di(4-methylphenyl) fluorene (TDAF) molecular thin film. Then we compute the reflectivity of such a thin film in a metal clad microcavity system by including the dispersive microcavity mode to the model. We compute susceptibility of the model systems evolving just a single state vector by using the non-Markovian Quantum State Diffusion. The computed location and height of the lower and upper polaritons agree with the experiment within the estimated errorbars for small angles ($\leq 30^\circ$). For larger angles the location of the polariton resonances are within the estimated error.
翻訳日:2023-10-31 13:59:01 公開日:2023-10-29
# 家庭エネルギー管理システムのためのトランスフォーマーベース需要予測における伝達学習

Transfer Learning in Transformer-Based Demand Forecasting For Home Energy Management System ( http://arxiv.org/abs/2310.19159v1 )

ライセンス: Link先を確認
Gargya Gokhale, Jonas Van Gompel, Bert Claessens, Chris Develder(参考訳) 住宅所有者は、電力料金を最小化し、再生可能エネルギーの使用を最大化するために、太陽光発電システムや蓄電池を選択する。 これにより、これらの目標を最大限に達成する高度な制御アルゴリズムの開発が促進された。 しかし、このようなコントローラを開発する際に直面する共通の課題は、特に短い時間解像度(15分)とデータ効率のよい方法で家庭の電力消費の正確な予測が不可能であることである。 本稿では,複数世帯のデータを活用して単一世帯の負荷予測を改善することで,トランスファー学習がいかに役立つかを分析する。 具体的には、複数の異なる家庭のデータを用いて高度な予測モデル(時間的融合トランスフォーマー)を訓練し、限られたデータ(つまりわずか数日)でこのグローバルモデルを新しい家庭に微調整する。 得られたモデルは、モデル予測制御のような先進的なコントローラでこれらの予測を使用することを目的として、15分間の時間分解能で家庭の電力消費を予測するために使用される。 我々は、この移行学習設定の利点を、両面において、個別の新規世帯のデータのみを使用することよりも示す。 (i)予測精度($15\%MAE削減)及び (二)実世界の家庭データを用いた制御性能(二倍のエネルギーコスト削減)。

Increasingly, homeowners opt for photovoltaic (PV) systems and/or battery storage to minimize their energy bills and maximize renewable energy usage. This has spurred the development of advanced control algorithms that maximally achieve those goals. However, a common challenge faced while developing such controllers is the unavailability of accurate forecasts of household power consumption, especially for shorter time resolutions (15 minutes) and in a data-efficient manner. In this paper, we analyze how transfer learning can help by exploiting data from multiple households to improve a single house's load forecasting. Specifically, we train an advanced forecasting model (a temporal fusion transformer) using data from multiple different households, and then finetune this global model on a new household with limited data (i.e. only a few days). The obtained models are used for forecasting power consumption of the household for the next 24 hours~(day-ahead) at a time resolution of 15 minutes, with the intention of using these forecasts in advanced controllers such as Model Predictive Control. We show the benefit of this transfer learning setup versus solely using the individual new household's data, both in terms of (i) forecasting accuracy ($\sim$15\% MAE reduction) and (ii) control performance ($\sim$2\% energy cost reduction), using real-world household data.
翻訳日:2023-10-31 13:58:45 公開日:2023-10-29
# 逆行路注入による中毒検索コーパス

Poisoning Retrieval Corpora by Injecting Adversarial Passages ( http://arxiv.org/abs/2310.19156v1 )

ライセンス: Link先を確認
Zexuan Zhong, Ziqing Huang, Alexander Wettig, Danqi Chen(参考訳) デンスレトリバーは様々な情報検索タスクで最先端のパフォーマンスを達成したが、実際のアプリケーションに安全にデプロイできる範囲はどの程度あるのか? 本研究では,悪意のあるユーザが個別のトークンを摂り込み,与えられたトレーニングクエリのセットと類似性を最大化することにより,少数の逆パスを発生させる,高密度検索システムに対する新たな攻撃を提案する。 これらの逆通路を大規模な検索コーパスに挿入すると,攻撃者が見なかったクエリに対して,これらのシステムを騙して検索する上で,この攻撃が極めて効果的であることが分かる。 さらに驚くべきことに、これらの逆行はドメイン外のクエリやコーパスに直接一般化して、高い攻撃率で実行することが可能です。例えば、Nature Questionsに最適化された50の生成されたパスは、財務文書やオンラインフォーラムで提起された質問の94%を誤解させる可能性があるのです。 また、教師なしと教師なしの両方の最先端の高密度検索をベンチマークし比較する。 異なるシステムは様々なレベルの脆弱性を示すが、最大500のパスを注入することで、数百万のパスの検索コーパスと比較して、攻撃に成功できることを示す。

Dense retrievers have achieved state-of-the-art performance in various information retrieval tasks, but to what extent can they be safely deployed in real-world applications? In this work, we propose a novel attack for dense retrieval systems in which a malicious user generates a small number of adversarial passages by perturbing discrete tokens to maximize similarity with a provided set of training queries. When these adversarial passages are inserted into a large retrieval corpus, we show that this attack is highly effective in fooling these systems to retrieve them for queries that were not seen by the attacker. More surprisingly, these adversarial passages can directly generalize to out-of-domain queries and corpora with a high success attack rate -- for instance, we find that 50 generated passages optimized on Natural Questions can mislead >94% of questions posed in financial documents or online forums. We also benchmark and compare a range of state-of-the-art dense retrievers, both unsupervised and supervised. Although different systems exhibit varying levels of vulnerability, we show they can all be successfully attacked by injecting up to 500 passages, a small fraction compared to a retrieval corpus of millions of passages.
翻訳日:2023-10-31 13:58:24 公開日:2023-10-29
# 家庭集合体のための強化学習に基づくエネルギーコーディネートの実世界実装

Real-World Implementation of Reinforcement Learning Based Energy Coordination for a Cluster of Households ( http://arxiv.org/abs/2310.19155v1 )

ライセンス: Link先を確認
Gargya Gokhale, Niels Tiben, Marie-Sophie Verwee, Manu Lahariya, Bert Claessens, Chris Develder(参考訳) 世界の電力消費に対する40 %の実質的な貢献を考えると、建設環境は現代の電力網を支援するための柔軟性の源として注目されている。 その意味では、従来の研究は主に個々の建物のエネルギー管理に重点を置いていた。 一方,本稿では,集合住宅の集合的管理に焦点をあて,グリッド支援サービスを提供し,最終的にはアシラリーサービスを含めるべきである。 特に, 住宅8棟の電力消費調整における強化学習(RL)の有効性を実証し, 目標電力信号を共同で追跡する実生活パイロット研究について述べる。 我々のRLアプローチは、個々の家庭の観測データにのみ依存しており、明示的なビルディングモデルやシミュレータを必要としないため、実装が容易で、スケールも容易です。 実環境において提案したRLに基づく協調戦略の実現可能性を示す。 4週間のケーススタディでは、フレックス資産を活性化する世帯を選択するためのRLベースのランキングシステムと、選択した資産を制御するリアルタイムPI制御ベースのパワーディスパッチ機構を用いた階層的な制御システムを示す。 以上の結果から,データ駆動方式で学習したRLに基づくランキングの有効性が示された。

Given its substantial contribution of 40\% to global power consumption, the built environment has received increasing attention to serve as a source of flexibility to assist the modern power grid. In that respect, previous research mainly focused on energy management of individual buildings. In contrast, in this paper, we focus on aggregated control of a set of residential buildings, to provide grid supporting services, that eventually should include ancillary services. In particular, we present a real-life pilot study that studies the effectiveness of reinforcement-learning (RL) in coordinating the power consumption of 8 residential buildings to jointly track a target power signal. Our RL approach relies solely on observed data from individual households and does not require any explicit building models or simulators, making it practical to implement and easy to scale. We show the feasibility of our proposed RL-based coordination strategy in a real-world setting. In a 4-week case study, we demonstrate a hierarchical control system, relying on an RL-based ranking system to select which households to activate flex assets from, and a real-time PI control-based power dispatch mechanism to control the selected assets. Our results demonstrate satisfactory power tracking, and the effectiveness of the RL-based ranks which are learnt in a purely data-driven manner.
翻訳日:2023-10-31 13:58:01 公開日:2023-10-29
# BERTが失ったパテントは、逆行の減速にロバストにはならない

BERT Lost Patience Won't Be Robust to Adversarial Slowdown ( http://arxiv.org/abs/2310.19152v1 )

ライセンス: Link先を確認
Zachary Coalson, Gabriel Ritter, Rakesh Bobba, Sanghyun Hong(参考訳) 本稿では,マルチエクイット言語モデルの対向的減速に対する頑健さを体系的に評価する。 その頑健さを監査するため,早退点をバイパスする自然な逆テキストを生成するスローダウン攻撃を設計する。 結果, WAFFLE 攻撃を車体として, GLUE ベンチマークを用いた3つのマルチエクイット機構の総合的な評価を行う。 この攻撃により, ホワイトボックス設定とブラックボックス設定の3つの手法により, 計算コストを大幅に削減できることを示す。 メカニズムが複雑になればなるほど、敵の減速がより脆弱になる。 また、摂動テキスト入力の言語学的解析を行い、攻撃が生み出す共通の摂動パターンを特定し、標準的な敵対的テキスト攻撃と比較する。 さらに,攻撃速度を低下させるには逆行訓練が有効でないことを示すが,ChatGPTのような会話モデルによる入力衛生は摂動を効果的に除去することができる。 この結果は、効率的で堅牢なマルチエクイットモデルを開発するために将来の作業が必要であることを示唆している。 私たちのコードは、https://github.com/ztcoalson/WAFFLEで利用可能です。

In this paper, we systematically evaluate the robustness of multi-exit language models against adversarial slowdown. To audit their robustness, we design a slowdown attack that generates natural adversarial text bypassing early-exit points. We use the resulting WAFFLE attack as a vehicle to conduct a comprehensive evaluation of three multi-exit mechanisms with the GLUE benchmark against adversarial slowdown. We then show our attack significantly reduces the computational savings provided by the three methods in both white-box and black-box settings. The more complex a mechanism is, the more vulnerable it is to adversarial slowdown. We also perform a linguistic analysis of the perturbed text inputs, identifying common perturbation patterns that our attack generates, and comparing them with standard adversarial text attacks. Moreover, we show that adversarial training is ineffective in defeating our slowdown attack, but input sanitization with a conversational model, e.g., ChatGPT, can remove perturbations effectively. This result suggests that future work is needed for developing efficient yet robust multi-exit models. Our code is available at: https://github.com/ztcoalson/WAFFLE
翻訳日:2023-10-31 13:57:40 公開日:2023-10-29
# 物体中心画像編集指導を忠実に追従する学習

Learning to Follow Object-Centric Image Editing Instructions Faithfully ( http://arxiv.org/abs/2310.19145v1 )

ライセンス: Link先を確認
Tuhin Chakrabarty, Kanishk Singh, Arkadiy Saakyan, Smaranda Muresan(参考訳) 自然言語命令はテキストから画像への拡散モデルの出力を編集するための強力なインタフェースである。 しかし、いくつかの課題に対処する必要がある。 1)過小指定(指示の暗黙的意味をモデル化する必要性) 2)接地(編集を行うべき箇所をローカライズする必要がある) 3)忠実性(編集指示に影響されない画像の要素を保存する必要性)。 現在、自然言語命令による画像編集に焦点を当てたアプローチは、自動生成されたペアデータに依存している。 セグメンテーション,チェーン・オブ・マインド・プロンプト,視覚的質問応答の最近の進歩に基づき,ペアデータの品質が大幅に向上した。 さらに、命令によって変更する必要がある画像の一部を強調することにより、監視信号を強化する。 改良されたデータに基づいて微調整されたモデルは、上述した問題を緩和し、最先端のベースラインよりもきめ細かいオブジェクト中心の編集を行うことができる。 さらに,本モデルでは,視覚的メタファーなどのトレーニング中に見えない領域に一般化することができる。

Natural language instructions are a powerful interface for editing the outputs of text-to-image diffusion models. However, several challenges need to be addressed: 1) underspecification (the need to model the implicit meaning of instructions) 2) grounding (the need to localize where the edit has to be performed), 3) faithfulness (the need to preserve the elements of the image not affected by the edit instruction). Current approaches focusing on image editing with natural language instructions rely on automatically generated paired data, which, as shown in our investigation, is noisy and sometimes nonsensical, exacerbating the above issues. Building on recent advances in segmentation, Chain-of-Thought prompting, and visual question answering, we significantly improve the quality of the paired data. In addition, we enhance the supervision signal by highlighting parts of the image that need to be changed by the instruction. The model fine-tuned on the improved data is capable of performing fine-grained object-centric edits better than state-of-the-art baselines, mitigating the problems outlined above, as shown by automatic and human evaluations. Moreover, our model is capable of generalizing to domains unseen during training, such as visual metaphors.
翻訳日:2023-10-31 13:57:21 公開日:2023-10-29
# adiabatic connection からの交換のみのウイルス関係

Exchange-only virial relation from the adiabatic connection ( http://arxiv.org/abs/2310.19144v1 )

ライセンス: Link先を確認
Andre Laestadius, Mih\'aly A. Csirik, Markus Penz, Nicolas Tancogne-Dejean, Michael Ruggenthaler, Angel Rubio, Trygve Helgaker(参考訳) レヴィとパーデューによる交換のみの処女関係は再考される。 断熱接続を呼び起こすと、交換エネルギーは普遍密度汎函数 w.r.t の右微分として導入され、結合強度は$\lambda$ at $\lambda=0$ となる。 これは交換エネルギーの全交換相関エネルギーの高密度極限としての交換エネルギーのレヴィ・パーデュー定義と一致する。 結合強度の異なる固定密度に対して$v$-representabilityを頼りにすることで、明示的な局所交換ポテンシャルを持たない交換のみの仮想関係を証明できる。 代わりに、この関係は、交換相関ポテンシャル $v_\mathrm{xc}^\lambda$ を含む極限 (\lambda \to 0+$) の項であり、これは $v$-representability の仮定によって存在する。 一方、局所交換ポテンシャル $v_\mathrm{x}$ はそのような極限として存在することは保証されない。

The exchange-only virial relation due to Levy and Perdew is revisited. Invoking the adiabatic connection, we introduce the exchange energy in terms of the right-derivative of the universal density functional w.r.t. the coupling strength $\lambda$ at $\lambda=0$. This agrees with the Levy-Perdew definition of the exchange energy as a high-density limit of the full exchange-correlation energy. By relying on $v$-representability for a fixed density at varying coupling strength, we prove an exchange-only virial relation without an explicit local-exchange potential. Instead, the relation is in terms of a limit ($\lambda \to 0+$) involving the exchange-correlation potential $v_\mathrm{xc}^\lambda$, which exists by assumption of $v$-representability. On the other hand, a local-exchange potential $v_\mathrm{x}$ is not warranted to exist as such a limit.
翻訳日:2023-10-31 13:57:00 公開日:2023-10-29
# 量子音響ドリューピークシフト

Quantum-Acoustic Drude Peak Shift ( http://arxiv.org/abs/2310.19143v1 )

ライセンス: Link先を確認
J. Keski-Rahkonen, X.-Y. Ouyang, S. Yuan, A.M. Graf, A. Aydin and E.J. Heller(参考訳) 最近開発された量子光学のいとこである量子音響は、実空間における電子-フォノン相互作用の非摂動的かつコヒーレントな処理を確立した。 ここでは、量子音響図を用いて、Fr\"ohlichモデル内の平らな視界に隠れた変位したDrudeピークの蓄積を明らかにし、光伝導度は遠赤外域において有限周波の最大値を示し、d.c.伝導度を抑える。 特に, 高温電子吸収ピークの異常な観察から, 動的格子障害が非ドリュー挙動を司る奇妙な, 金属中の不明瞭な観察に光を当てた。

Quantum acoustics -- that is a recently developed close cousin of quantum optics -- has established a nonperturbative and coherent treatment of the electron-phonon interaction in real space. Here, by means of the the quantum-acoustical picture, we unveil the buildup of a displaced Drude peak hiding at plain sight within the venerable Fr\"ohlich model: the optical conductivity exhibits a finite frequency maximum in the far infra-red range and the d.c. conductivity is suppressed. In particular, our results shed light upon the obscure observations of the high-temperature electronic absorption peaks in strange and metals where the dynamical lattice disorder steers the system towards non- Drude behavior.
翻訳日:2023-10-31 13:56:42 公開日:2023-10-29
# MAG-GNN:強化学習強化グラフニューラルネットワーク

MAG-GNN: Reinforcement Learning Boosted Graph Neural Network ( http://arxiv.org/abs/2310.19142v1 )

ライセンス: Link先を確認
Lecheng Kong, Jiarui Feng, Hao Liu, Dacheng Tao, Yixin Chen, Muhan Zhang(参考訳) グラフニューラルネットワーク(GNN)は最近、グラフ学習タスクにおいて強力なツールとなったが、GNNの構造的エンコーディング能力の改善に多大な努力が払われている。 特定の研究の行は、GNNの表現性を向上させるためにサブグラフ情報を使用するサブグラフGNNを提案し、大きな成功を収めた。 しかし、そのような効果性は全ての可能な部分グラフを列挙することでgnnの効率を犠牲にする。 本稿では,完全部分グラフ列挙の必要性を分析し,その部分グラフの小さな部分集合を考慮することで,モデルが同等の表現性が得られることを示す。 次に、組合せ最適化問題として最適部分集合の同定を定式化し、その問題を解決するために強化学習(RL)強化GNNである磁気グラフニューラルネットワーク(MAG-GNN)を提案する。 MAG-GNNは、候補部分グラフセットから始まり、RLエージェントを使用して、予測のための最も表現力のある集合を見つけるために、繰り返し更新する。 これにより、グラフ列挙の指数関数的複雑性を、優れた表現性を保ちながら、サブグラフ探索アルゴリズムの一定の複雑さに還元する。 我々は多くのデータセットに対して広範な実験を行い、MAG-GNNは最先端の手法と競合する性能を示し、また多くのサブグラフGNNよりも優れた性能を示す。 また, MAG-GNNは, サブグラフGNNの走行時間を効果的に短縮することを示した。

While Graph Neural Networks (GNNs) recently became powerful tools in graph learning tasks, considerable efforts have been spent on improving GNNs' structural encoding ability. A particular line of work proposed subgraph GNNs that use subgraph information to improve GNNs' expressivity and achieved great success. However, such effectivity sacrifices the efficiency of GNNs by enumerating all possible subgraphs. In this paper, we analyze the necessity of complete subgraph enumeration and show that a model can achieve a comparable level of expressivity by considering a small subset of the subgraphs. We then formulate the identification of the optimal subset as a combinatorial optimization problem and propose Magnetic Graph Neural Network (MAG-GNN), a reinforcement learning (RL) boosted GNN, to solve the problem. Starting with a candidate subgraph set, MAG-GNN employs an RL agent to iteratively update the subgraphs to locate the most expressive set for prediction. This reduces the exponential complexity of subgraph enumeration to the constant complexity of a subgraph search algorithm while keeping good expressivity. We conduct extensive experiments on many datasets, showing that MAG-GNN achieves competitive performance to state-of-the-art methods and even outperforms many subgraph GNNs. We also demonstrate that MAG-GNN effectively reduces the running time of subgraph GNNs.
翻訳日:2023-10-31 13:56:30 公開日:2023-10-29
# 未来に戻れ! 欠陥4Jにおけるデータの清浄性とその故障局在への影響

Back to the Future! Studying Data Cleanness in Defects4J and its Impact on Fault Localization ( http://arxiv.org/abs/2310.19139v1 )

ライセンス: Link先を確認
An Ran Chen, Md Nakhla Rafi, Tse-Hsun (Peter) Chen, Shaohua Wang(参考訳) ソフトウェアテスト研究において、欠陥4jは主要なベンチマークデータセットとして注目され、有名なオープンソースシステムから実際のバグを研究するための制御された環境を提供する。 しかし、以前の調査では、Defects4Jには、バグ後レポートの追加テスト、開発者の知識の埋め込み、障害のローカライゼーションの有効性に影響する可能性がある。 本稿では,sbfl技術における開発者知識の意義を強調し,欠陥4jのフォールトトリガーテストについて検討する。 バグレポートの作成に関するこれらのテストの変更のタイムラインを調査した。 そこで本研究では,SBFL技術の有効性について検討した。 私たちはそれを見つけました 1) フォールトトリガーテストの55%が新たに追加され,バグの複製や回帰テストが行われた。 2) 障害トリガテストの22%は,バグレポート作成後に修正され,バグに関する開発者の知識が含まれている。 3) 開発者はしばしば、新しいアサーションを含むようにテストを変更したり、ソースコードの変更を反映するようにテストコードを変更する。 4) sbfl技術の性能は、開発者知識のないバグで評価した場合、著しく低下する(平均1ランクで-415%まで)。 我々は、開発者洞察のないバグのデータセットを提供し、欠陥4jにおける将来のsbfl評価を支援し、将来のバグベンチマークについて考慮する。

For software testing research, Defects4J stands out as the primary benchmark dataset, offering a controlled environment to study real bugs from prominent open-source systems. However, prior research indicates that Defects4J might include tests added post-bug report, embedding developer knowledge and affecting fault localization efficacy. In this paper, we examine Defects4J's fault-triggering tests, emphasizing the implications of developer knowledge of SBFL techniques. We study the timelines of changes made to these tests concerning bug report creation. Then, we study the effectiveness of SBFL techniques without developer knowledge in the tests. We found that 1) 55% of the fault-triggering tests were newly added to replicate the bug or to test for regression; 2) 22% of the fault-triggering tests were modified after the bug reports were created, containing developer knowledge of the bug; 3) developers often modify the tests to include new assertions or change the test code to reflect the changes in the source code; and 4) the performance of SBFL techniques degrades significantly (up to --415% for Mean First Rank) when evaluated on the bugs without developer knowledge. We provide a dataset of bugs without developer insights, aiding future SBFL evaluations in Defects4J and informing considerations for future bug benchmarks.
翻訳日:2023-10-31 13:56:08 公開日:2023-10-29
# 粒子群最適化アルゴリズムに基づく適応空間フィルタによる運動画像分類の改善

Improved Motor Imagery Classification Using Adaptive Spatial Filters Based on Particle Swarm Optimization Algorithm ( http://arxiv.org/abs/2310.19202v1 )

ライセンス: Link先を確認
Xiong Xiong, Ying Wang, Tianyuan Song, Jinguo Huang, Guixia Kang(参考訳) 典型的な自己ペーシング型脳-コンピューターインタフェース(bci)システムとして、運動画像(mi)bciは、ロボット制御、脳卒中リハビリテーション、脳卒中や脊髄損傷患者の補助などの分野で広く用いられている。 多くの研究は、共通空間パターン(CSP)法によって得られた伝統的な空間フィルタに焦点を当てている。 しかし、CSP法は特定の入力信号に対して固定空間フィルタしか取得できない。 また、csp法は2種類の脳波信号の分散差のみに焦点を当てており、脳波信号の復号能力は限られている。 本稿では,mi-eegへの分類を改善する空間的特徴の抽出に有効な空間的フィルタを得るため,粒子群最適化アルゴリズム(pso)に基づく適応的空間的フィルタ解法を提案する。 MIEEG信号分類のためのフィルタバンクと空間フィルタ(FBCSP-ASP)に基づくトレーニングおよびテストフレームワークを設計する。 比較実験は、FBCSP-ASPの優れた平均認識精度を示すBCIコンペティションIVの2つの公開データセット(2a, 2b)で実施された。 提案手法はmi-bciの性能向上を実現した。 提案手法の分類精度は,データセット2aと2bでそれぞれ74.61%,81.19%に達した。 ベースラインアルゴリズム(FBCSP)と比較して、提案アルゴリズムは2つのデータセットでそれぞれ11.44%と7.11%を改善する。 さらに,相互情報,t-sneおよびshapley値に基づく解析により,mi-eeg信号の復号性に優れたasp特徴が証明され,asp特徴の導入による分類性能の向上が説明できる。

As a typical self-paced brain-computer interface (BCI) system, the motor imagery (MI) BCI has been widely applied in fields such as robot control, stroke rehabilitation, and assistance for patients with stroke or spinal cord injury. Many studies have focused on the traditional spatial filters obtained through the common spatial pattern (CSP) method. However, the CSP method can only obtain fixed spatial filters for specific input signals. Besides, CSP method only focuses on the variance difference of two types of electroencephalogram (EEG) signals, so the decoding ability of EEG signals is limited. To obtain more effective spatial filters for better extraction of spatial features that can improve classification to MI-EEG, this paper proposes an adaptive spatial filter solving method based on particle swarm optimization algorithm (PSO). A training and testing framework based on filter bank and spatial filters (FBCSP-ASP) is designed for MI EEG signal classification. Comparative experiments are conducted on two public datasets (2a and 2b) from BCI competition IV, which show the outstanding average recognition accuracy of FBCSP-ASP. The proposed method has achieved significant performance improvement on MI-BCI. The classification accuracy of the proposed method has reached 74.61% and 81.19% on datasets 2a and 2b, respectively. Compared with the baseline algorithm (FBCSP), the proposed algorithm improves 11.44% and 7.11% on two datasets respectively. Furthermore, the analysis based on mutual information, t-SNE and Shapley values further proves that ASP features have excellent decoding ability for MI-EEG signals, and explains the improvement of classification performance by the introduction of ASP features.
翻訳日:2023-10-31 13:46:39 公開日:2023-10-29
# DAOにおけるオープン問題

Open Problems in DAOs ( http://arxiv.org/abs/2310.19201v1 )

ライセンス: Link先を確認
Joshua Z. Tan, Tara Merk, Sarah Hubbard, Eliza R. Oak, Joni Pirovich, Ellie Rennie, Rolf Hoefer, Michael Zargham, Jason Potts, Chris Berg, Reuben Youngblom, Primavera De Filippi, Seth Frey, Jeff Strnad, Morshed Mannan, Kelsie Nabben, Silke Noa Elrifai, Jake Hartnell, Benjamin Mako Hill, Alexia Maddox, Woojin Lim, Tobin South, Ari Juels, Dan Boneh(参考訳) 分散自律型組織(DAO)は、スマートコントラクトによって管理される、急速に成長する新しい組織である。 ここでは、DAOやその他のデジタル構成組織の新興科学に研究者が貢献する方法について述べる。 プライバシのプリミティブからメカニズム設計、モデル法に至るまで、DAOエコシステムでは、既存のギャップが新しいデータセットによって取り組まれるか、あるいは政治科学、コンピュータ科学、経済学、法学、組織科学といった既存の研究分野のツールやアイデアを適用することによって、大きな影響のある問題を特定する。 私たちの推薦は、エキサイティングな研究課題だけでなく、将来性のあるビジネス機会も包含しています。 我々は、より広い研究コミュニティに、次世代組織を発明するためのグローバルな取り組みに参加するよう呼びかけます。

Decentralized autonomous organizations (DAOs) are a new, rapidly-growing class of organizations governed by smart contracts. Here we describe how researchers can contribute to the emerging science of DAOs and other digitally-constituted organizations. From granular privacy primitives to mechanism designs to model laws, we identify high-impact problems in the DAO ecosystem where existing gaps might be tackled through a new data set or by applying tools and ideas from existing research fields such as political science, computer science, economics, law, and organizational science. Our recommendations encompass exciting research questions as well as promising business opportunities. We call on the wider research community to join the global effort to invent the next generation of organizations.
翻訳日:2023-10-31 13:46:12 公開日:2023-10-29
# Riemann Tangent Space MappingとCross Frequency Couplingを用いた脳コンピュータインタフェースにおける運動画像デコーディングの強化

Enhancing Motor Imagery Decoding in Brain Computer Interfaces using Riemann Tangent Space Mapping and Cross Frequency Coupling ( http://arxiv.org/abs/2310.19198v1 )

ライセンス: Link先を確認
Xiong Xiong, Li Su, Jinguo Huang, Guixia Kang(参考訳) 目的:運動画像(MI)は脳神経インタフェース(BCI)の領域において重要な実験パラダイムであり、脳波(EEG)信号から運動意図を復号することを目的としている。 方法:リーマン幾何学と交叉周波数結合(cfc)から着想を得た本論文では,dichotomous filter bank with convolutional neural network (dfbrts)を用いた新しいリーマン接空間マッピング法を提案する。 DFBRTSはまず、完全な二分木として構築されたDichotomous Filter Bankを通してEEG信号を慎重にフィルタリングすることで、プロセスを開始する。 その後、リーマン接空間マッピングを使用して、各サブバンド内の有望な脳波信号の特徴を抽出する。 最後に、クロスエントロピーとセンターロスの共同管理の下で機能抽出と分類のために軽量畳み込みニューラルネットワークが使用される。 この有効性を検証するため、DFBRTSを用いてBCIコンペティションIV2a(BCIC-IV-2a)データセットとOpenBMIデータセットの2つの確立されたベンチマークデータセットに対して広範な実験を行った。 DFBRTSの性能は、他のリーマン幾何学に基づくMI復号法とともに、最先端のMI復号法と比較された。 結果: dfbrtsは両データセットの他のmi復号アルゴリズムを著しく上回っており,従来のベンチマークと比較して,4クラスで78.16%,2クラスのホールドアウト分類で71.58%という顕著な分類精度を達成している。

Objective: Motor Imagery (MI) serves as a crucial experimental paradigm within the realm of Brain Computer Interfaces (BCIs), aiming to decoding motor intentions from electroencephalogram (EEG) signals. Method: Drawing inspiration from Riemannian geometry and Cross-Frequency Coupling (CFC), this paper introduces a novel approach termed Riemann Tangent Space Mapping using Dichotomous Filter Bank with Convolutional Neural Network (DFBRTS) to enhance the representation quality and decoding capability pertaining to MI features. DFBRTS first initiates the process by meticulously filtering EEG signals through a Dichotomous Filter Bank, structured in the fashion of a complete binary tree. Subsequently, it employs Riemann Tangent Space Mapping to extract salient EEG signal features within each sub-band. Finally, a lightweight convolutional neural network is employed for further feature extraction and classification, operating under the joint supervision of cross-entropy and center loss. To validate the efficacy, extensive experiments were conducted using DFBRTS on two well-established benchmark datasets: the BCI competition IV 2a (BCIC-IV-2a) dataset and the OpenBMI dataset. The performance of DFBRTS was benchmarked against several state-of-the-art MI decoding methods, alongside other Riemannian geometry-based MI decoding approaches. Results: DFBRTS significantly outperforms other MI decoding algorithms on both datasets, achieving a remarkable classification accuracy of 78.16% for four-class and 71.58% for two-class hold-out classification, as compared to the existing benchmarks.
翻訳日:2023-10-31 13:45:57 公開日:2023-10-29
# グリッド細胞のリカレントニューラルネットワークにおけるコンフォメーション正規化

Conformal Normalization in Recurrent Neural Network of Grid Cells ( http://arxiv.org/abs/2310.19192v1 )

ライセンス: Link先を確認
Dehong Xu, Ruiqi Gao, Wen-Hao Zhang, Xue-Xin Wei, Ying Nian Wu(参考訳) 哺乳類の脳内皮質の格子状細胞は、動物(例えばネズミ)が2次元の開放された環境で移動すると、その反応マップに六角形の発火パターンを示す。 格子細胞の集団の反応は、高次元の神経活動空間において一括してベクトルを形成し、このベクトルは2次元物理空間におけるエージェントの自己配置を表す。 エージェントが移動すると、ベクターは、エージェントの速度を入力として取るリカレントニューラルネットワークによって変換される。 本稿では,入力速度の方向に関わらず,高次元の神経空間における位置ベクトルの局所的変位が2次元の物理的空間におけるエージェントの局所的変位に比例するように,リカレントニューラルネットワークの入力速度の簡易かつ一般の共形正規化を提案する。 最小単純線形および非線形リカレントネットワークに関する数値実験により,共形正規化がヘキサゴン格子パターンの出現に繋がることを示した。 さらに,コンフォメーション正規化をナビゲーションタスクにおけるヘキサゴングリッドパターンの出現と結びつける新たな理論的理解を導出する。

Grid cells in the entorhinal cortex of the mammalian brain exhibit striking hexagon firing patterns in their response maps as the animal (e.g., a rat) navigates in a 2D open environment. The responses of the population of grid cells collectively form a vector in a high-dimensional neural activity space, and this vector represents the self-position of the agent in the 2D physical space. As the agent moves, the vector is transformed by a recurrent neural network that takes the velocity of the agent as input. In this paper, we propose a simple and general conformal normalization of the input velocity for the recurrent neural network, so that the local displacement of the position vector in the high-dimensional neural space is proportional to the local displacement of the agent in the 2D physical space, regardless of the direction of the input velocity. Our numerical experiments on the minimally simple linear and non-linear recurrent networks show that conformal normalization leads to the emergence of the hexagon grid patterns. Furthermore, we derive a new theoretical understanding that connects conformal normalization to the emergence of hexagon grid patterns in navigation tasks.
翻訳日:2023-10-31 13:45:24 公開日:2023-10-29
# 3dminer: 大規模無注釈画像データセットから形状を検出する

3DMiner: Discovering Shapes from Large-Scale Unannotated Image Datasets ( http://arxiv.org/abs/2310.19188v1 )

ライセンス: Link先を確認
Ta-Ying Cheng, Matheus Gadelha, Soren Pirk, Thibault Groueix, Radomir Mech, Andrew Markham, Niki Trigoni(参考訳) 3dminer - 大規模な注釈なしの画像データセットから3d形状をマイニングするパイプラインです。 他の教師なしの3次元再構成手法とは異なり、大容量のデータセットには、類似した形状の物体の画像が存在するが、背景、テクスチャ、視点は様々である。 提案手法は,幾何学的に類似した形状のクラスタ画像に自己教師付き画像表現を学習し,それらの間の共通画像対応を見出す手法である。 次に、これらの対応を利用して、バンドル調整の初期化として粗いカメラ推定値を得る。 最後に,各画像クラスタにプログレッシブバンドル調整再構成を適用し,その基礎となる形状を表す神経占有場を学習する。 この手順は、前段で導入された複数のタイプの誤り(例えば、間違ったカメラポーズ、異なる形状を含む画像など)に頑健であることを示し、画像の形状やポーズアノテーションをそのまま得ることができることを示した。 Pix3Dチェアからの画像を使用する場合,従来の非教師なし3D再構成技術よりも定量的かつ定性的に,はるかに優れた結果が得られる。 さらに,LAION-5Bデータセットから得られる画像の形状を再構成することにより,3DMinerを組込みデータに適用する方法を示す。 プロジェクトページ: https://ttchengab.github.io/3dminerofficial

We present 3DMiner -- a pipeline for mining 3D shapes from challenging large-scale unannotated image datasets. Unlike other unsupervised 3D reconstruction methods, we assume that, within a large-enough dataset, there must exist images of objects with similar shapes but varying backgrounds, textures, and viewpoints. Our approach leverages the recent advances in learning self-supervised image representations to cluster images with geometrically similar shapes and find common image correspondences between them. We then exploit these correspondences to obtain rough camera estimates as initialization for bundle-adjustment. Finally, for every image cluster, we apply a progressive bundle-adjusting reconstruction method to learn a neural occupancy field representing the underlying shape. We show that this procedure is robust to several types of errors introduced in previous steps (e.g., wrong camera poses, images containing dissimilar shapes, etc.), allowing us to obtain shape and pose annotations for images in-the-wild. When using images from Pix3D chairs, our method is capable of producing significantly better results than state-of-the-art unsupervised 3D reconstruction techniques, both quantitatively and qualitatively. Furthermore, we show how 3DMiner can be applied to in-the-wild data by reconstructing shapes present in images from the LAION-5B dataset. Project Page: https://ttchengab.github.io/3dminerOfficial
翻訳日:2023-10-31 13:45:02 公開日:2023-10-29
# ロバストファインチューニングのための高速プロジェクション

Fast Trainable Projection for Robust Fine-Tuning ( http://arxiv.org/abs/2310.19182v1 )

ライセンス: Link先を確認
Junjiao Tian, Yen-Cheng Liu, James Seale Smith, Zsolt Kira(参考訳) robust fine-tuningは、ダウンストリームタスクに転送する際、事前トレーニングされたモデルのout-of-distribution(ood)ロバスト性を維持しながら、競合的なin-distribution(id)性能を達成することを目指している。 近年,プロジェクションによる微調整モデルの初期化から逸脱を制限し,ロバストな微調整に投影勾配降下が有効である。 しかし、アルゴリズム的には、この方法がより広く採用されるのを妨げる2つの制限、スケーラビリティと効率性である。 本稿では,各層毎のプロジェクション制約を計算効率良く学習するための,新しいプロジェクションに基づく微調整アルゴリズムであるfast trainable projection (ftp)を提案する。 ftpはadamwなどの既存のオプティマイザと組み合わせて、プラグアンドプレイ方式で使用することができる。 最後に、FTPは、ネストした微分を通して学習可能な方法でオプティマイザのハイパーパラメータをチューニングするハイパー最適化の特別な例であることを示す。 実証的には、ドメインシフトや自然破壊を含むOODデータセットに対して、5つのトレーニング済みモデルを持つ4つの異なるビジョンタスクに対して、優れた堅牢性を示す。 さらに,FTPは適応性の向上により,低ラベルや連続的な学習設定といった他の学習シナリオにも適用可能であることも実証した。 コードはhttps://github.com/GT-RIPL/FTP.gitで入手できる。

Robust fine-tuning aims to achieve competitive in-distribution (ID) performance while maintaining the out-of-distribution (OOD) robustness of a pre-trained model when transferring it to a downstream task. Recently, projected gradient descent has been successfully used in robust fine-tuning by constraining the deviation from the initialization of the fine-tuned model explicitly through projection. However, algorithmically, two limitations prevent this method from being adopted more widely, scalability and efficiency. In this paper, we propose a new projection-based fine-tuning algorithm, Fast Trainable Projection (FTP) for computationally efficient learning of per-layer projection constraints, resulting in an average $35\%$ speedup on our benchmarks compared to prior works. FTP can be combined with existing optimizers such as AdamW, and be used in a plug-and-play fashion. Finally, we show that FTP is a special instance of hyper-optimizers that tune the hyper-parameters of optimizers in a learnable manner through nested differentiation. Empirically, we show superior robustness on OOD datasets, including domain shifts and natural corruptions, across four different vision tasks with five different pre-trained models. Additionally, we demonstrate that FTP is broadly applicable and beneficial to other learning scenarios such as low-label and continual learning settings thanks to its easy adaptability. The code will be available at https://github.com/GT-RIPL/FTP.git.
翻訳日:2023-10-31 13:44:38 公開日:2023-10-29
# ChatbotsからPhishBotsへ? --ChatGPT、Google Bard、Claudeを使ったフィッシング詐欺防止

From Chatbots to PhishBots? -- Preventing Phishing scams created using ChatGPT, Google Bard and Claude ( http://arxiv.org/abs/2310.19181v1 )

ライセンス: Link先を確認
Sayak Saha Roy, Poojitha Thota, Krishna Vamsi Naragam, Shirin Nilizadeh(参考訳) 大規模言語モデル(llm)の高度な機能により、会話エージェントやコンテンツの作成からデータ分析、研究、イノベーションに至るまで、さまざまなアプリケーションで評価できるようになりました。 しかし、その有効性とアクセシビリティは、フィッシング攻撃を含む悪意のあるコンテンツの生成に対する悪用の影響を受けやすい。 本研究は,ChatGPT (GPT 3.5 Turbo), GPT 4, Claude, Bardの4種類の商用LLMを用いて,一連の悪意あるプロンプトを用いて機能的なフィッシング攻撃を発生させる可能性を検討する。 これらのllmは、有名なブランドを説得力強く模倣するフィッシングメールとwebサイトの両方を生成できるだけでなく、アンチフィッシングシステムによる検出メカニズムを回避すべく、後者のための回避策を展開できることがわかりました。 特に、これらの攻撃は、これらのllmの修正されていないバージョン、または「バニラ」バージョンを使用して、ジェイルブレイクのような先行的な悪用を必要とせずに生成できる。 この対策として,悪意のあるプロンプトの早期検出に使用可能なBERTベースの自動検出ツールを構築し,フィッシングサイトプロンプトの精度が97倍,フィッシングメールプロンプトの精度が94倍となるフィッシングコンテンツの生成を防止する。

The advanced capabilities of Large Language Models (LLMs) have made them invaluable across various applications, from conversational agents and content creation to data analysis, research, and innovation. However, their effectiveness and accessibility also render them susceptible to abuse for generating malicious content, including phishing attacks. This study explores the potential of using four popular commercially available LLMs - ChatGPT (GPT 3.5 Turbo), GPT 4, Claude and Bard to generate functional phishing attacks using a series of malicious prompts. We discover that these LLMs can generate both phishing emails and websites that can convincingly imitate well-known brands, and also deploy a range of evasive tactics for the latter to elude detection mechanisms employed by anti-phishing systems. Notably, these attacks can be generated using unmodified, or "vanilla," versions of these LLMs, without requiring any prior adversarial exploits such as jailbreaking. As a countermeasure, we build a BERT based automated detection tool that can be used for the early detection of malicious prompts to prevent LLMs from generating phishing content attaining an accuracy of 97\% for phishing website prompts, and 94\% for phishing email prompts.
翻訳日:2023-10-31 13:44:15 公開日:2023-10-29
# JEN-1 Composer:高忠実なマルチトラック音楽生成のための統一フレームワーク

JEN-1 Composer: A Unified Framework for High-Fidelity Multi-Track Music Generation ( http://arxiv.org/abs/2310.19180v1 )

ライセンス: Link先を確認
Yao Yao, Peike Li, Boyu Chen, Alex Wang(参考訳) 生成人工知能の急速な進歩により、テキストから音楽への合成作業がスクラッチから音楽を生成する上で有望な方向として登場した。 しかし、マルチトラック生成に対するきめ細かい制御は未解決の課題である。 既存のモデルは、強力な生生成能力を示すが、人間の作曲家の典型的なワークフローとは異なる、別々のトラックを構成し、それらを制御可能な方法で組み合わせる柔軟性に欠ける。 本研究では,単一モデルによるマルチトラック音楽の限界,条件,ジョイント分布を効率的にモデル化するための統合フレームワークであるjen-1 composerを提案する。 JEN-1 Composerフレームワークは、任意の拡散ベースの音楽生成システムである『textit{e.} Jen-1』をシームレスに組み込む能力を示し、多目的なマルチトラック音楽生成能力を高める。 単トラック生成から多トラック組合せの柔軟な生成への移行において,モデルを漸進的に指導することを目的としたカリキュラム学習戦略を導入する。 推論中、ユーザーは好みを満たす楽曲を反復的に作成、選択でき、その後、提案されたHuman-AI共作ワークフローに従って楽曲全体を段階的に作成することができる。 定量的・質的な評価は、制御可能かつ高忠実なマルチトラック音楽合成における最先端の性能を示す。 提案したJEN-1 Composerは、対話型AIによる音楽制作と作曲に向けた大きな進歩を示している。 デモはhttps://jenmusic.ai/audio-demosで見ることができる。

With rapid advances in generative artificial intelligence, the text-to-music synthesis task has emerged as a promising direction for music generation from scratch. However, finer-grained control over multi-track generation remains an open challenge. Existing models exhibit strong raw generation capability but lack the flexibility to compose separate tracks and combine them in a controllable manner, differing from typical workflows of human composers. To address this issue, we propose JEN-1 Composer, a unified framework to efficiently model marginal, conditional, and joint distributions over multi-track music via a single model. JEN-1 Composer framework exhibits the capacity to seamlessly incorporate any diffusion-based music generation system, \textit{e.g.} Jen-1, enhancing its capacity for versatile multi-track music generation. We introduce a curriculum training strategy aimed at incrementally instructing the model in the transition from single-track generation to the flexible generation of multi-track combinations. During the inference, users have the ability to iteratively produce and choose music tracks that meet their preferences, subsequently creating an entire musical composition incrementally following the proposed Human-AI co-composition workflow. Quantitative and qualitative assessments demonstrate state-of-the-art performance in controllable and high-fidelity multi-track music synthesis. The proposed JEN-1 Composer represents a significant advance toward interactive AI-facilitated music creation and composition. Demos will be available at https://jenmusic.ai/audio-demos.
翻訳日:2023-10-31 13:43:50 公開日:2023-10-29
# テスト時間適応による言語モデルの堅牢化

Robustifying Language Models with Test-Time Adaptation ( http://arxiv.org/abs/2310.19177v1 )

ライセンス: Link先を確認
Noah Thomas McDermott, Junfeng Yang, Chengzhi Mao(参考訳) 大規模言語モデルは、多くの言語タスクに対して最先端のパフォーマンスを達成した。 しかし、それらは言語モデルを騙すために最適化された文であり、人間にとって同様の意味を持つ、敵対的な言語例に失敗する。 事前の作業は、トレーニング時に言語モデルを堅牢にすることに焦点を当てているが、大規模基礎モデルでは、堅牢性のための再トレーニングはしばしば非現実的なものである。 代わりに、テスト時に言語モデルを堅牢にすることを提案する。 マスキングされた単語からの予測で入力文を動的に適応させることにより,多くの言語敵の攻撃をリバースできることを示す。 我々の手法は訓練を必要としないため、テスト時に新しいタスクをこなし、新しい敵の腐敗に適応することができる。 2つの一般的な文分類データセットの可視化と実験結果から,本手法は65%以上の言語障害を修復できることを証明した。

Large-scale language models achieved state-of-the-art performance over a number of language tasks. However, they fail on adversarial language examples, which are sentences optimized to fool the language models but with similar semantic meanings for humans. While prior work focuses on making the language model robust at training time, retraining for robustness is often unrealistic for large-scale foundation models. Instead, we propose to make the language models robust at test time. By dynamically adapting the input sentence with predictions from masked words, we show that we can reverse many language adversarial attacks. Since our approach does not require any training, it works for novel tasks at test time and can adapt to novel adversarial corruptions. Visualizations and empirical results on two popular sentence classification datasets demonstrate that our method can repair adversarial language attacks over 65% o
翻訳日:2023-10-31 13:43:27 公開日:2023-10-29
# A/Bテストにおけるデータトレーニングループによる干渉の軽減:重み付きトレーニングアプローチ

Tackling Interference Induced by Data Training Loops in A/B Tests: A Weighted Training Approach ( http://arxiv.org/abs/2310.17496v2 )

ライセンス: Link先を確認
Nian Si(参考訳) 現代のレコメンデーションシステムでは、標準的なパイプラインは、履歴データの機械学習モデルをトレーニングし、ユーザの振る舞いを予測し、リコメンデーションを継続的に改善する。 しかし、これらのデータトレーニングループは、制御と処理アルゴリズムによって生成されたデータが異なる分布で結合されるa/bテストに干渉をもたらす可能性がある。 これらの課題に対処するために,重み付きトレーニングという新しいアプローチを導入する。 このアプローチでは、処理データまたは制御データのいずれかに現れる各データポイントの確率を予測するモデルをトレーニングし、モデルトレーニング中に重み付き損失を適用する。 本手法は, トレーニング分布の変化を生じさせることなく, 全推定器間の最小分散を達成できることを実証する。 シミュレーション研究を通じて,提案手法のバイアスとばらつきを他の手法と比較した。

In modern recommendation systems, the standard pipeline involves training machine learning models on historical data to predict user behaviors and improve recommendations continuously. However, these data training loops can introduce interference in A/B tests, where data generated by control and treatment algorithms, potentially with different distributions, are combined. To address these challenges, we introduce a novel approach called weighted training. This approach entails training a model to predict the probability of each data point appearing in either the treatment or control data and subsequently applying weighted losses during model training. We demonstrate that this approach achieves the least variance among all estimators without causing shifts in the training distributions. Through simulation studies, we demonstrate the lower bias and variance of our approach compared to other methods.
翻訳日:2023-10-31 11:46:17 公開日:2023-10-29