このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230503となっている論文です。

PDF登録状況(公開日: 20230503)

TitleAuthorsAbstract論文公表日・翻訳日
# 生成AIによる共同研究の判断--実験的証拠

Judgments of research co-created by generative AI: experimental evidence ( http://arxiv.org/abs/2305.11873v1 )

ライセンス: Link先を確認
Pawe{\l} Niszczota, Paul Conway(参考訳) ChatGPTの導入は、研究者による使用を含む生成AI(大規模言語モデル; LLM)の使用に関する公的な議論を加速させた。 本研究では,研究プロセスの一部をLSMに委譲することで,研究者や科学的成果に不信感を抱かせるか検証する。 参加者(N=402)は、研究プロセスの要素をPhD学生またはLLMに委譲し、(1)道徳的受容性、(2)将来のプロジェクトを監視する科学者への信頼、(3)アウトプットの正確性と品質を評価した研究者である。 人々は、LLMへの委任は人間への委譲よりも受け入れられないと判断した(d = -0.78)。 LLMへの委譲はまた、将来の研究プロジェクトを監督する信頼(d = -0.80)を減らし、その結果はより正確で品質が低い(d = -0.85)と考えた。 我々は、この切り下げが、生成的AI利用の過小評価にどのように移行するかについて議論する。

The introduction of ChatGPT has fuelled a public debate on the use of generative AI (large language models; LLMs), including its use by researchers. In the current work, we test whether delegating parts of the research process to LLMs leads people to distrust and devalue researchers and scientific output. Participants (N=402) considered a researcher who delegates elements of the research process to a PhD student or LLM, and rated (1) moral acceptability, (2) trust in the scientist to oversee future projects, and (3) the accuracy and quality of the output. People judged delegating to an LLM as less acceptable than delegating to a human (d = -0.78). Delegation to an LLM also decreased trust to oversee future research projects (d = -0.80), and people thought the results would be less accurate and of lower quality (d = -0.85). We discuss how this devaluation might transfer into the underreporting of generative AI use.
翻訳日:2023-05-28 05:37:58 公開日:2023-05-03
# Beyond Prompts: Mixed-Initiative Co-Creativity Systemsの設計空間を探る

Beyond Prompts: Exploring the Design Space of Mixed-Initiative Co-Creativity Systems ( http://arxiv.org/abs/2305.07465v1 )

ライセンス: Link先を確認
Zhiyu Lin, Upol Ehsan, Rohan Agarwal, Samihan Dani, Vidushi Vashishth, Mark Riedl(参考訳) 生成人工知能システムは、人間の創造性を促進することを目的として、画像、コード、ストーリー、ゲーム生成のために開発された。 ユーザーは、通常プロンプトの形式で仕様を提供し、AIシステムはコンテンツを生成する。 しかし、人間とaiの協調には他にも、人間とaiのシステムの両方がコンテンツ作成に寄与できる共同創造性(cc)や、人間とaiのシステムの両方がコンテンツ変更を開始できる混合イニシアティブ(mi)など、人間とaiの協調の他の構成がある。 本稿では,人間とAIシステムが相互に創造的な意図を伝えるための異なる手段からなる仮説的ヒューマンAI構成設計空間を定義する。 我々は185人の参加者を対象に、異なる構成のMI-CCシステムとどのように対話したいかを理解する。 We find out that MI-CC systems with more extensive coverage of the design space are rated higher or on par on a variety of creative and goal-completion metrics, demonstrating that wider coverage of the design space can improve user experience and achievement when using the system; Preference varies greatly between expertise groups, suggesting the development of adaptive, personalized MI-CC systems; Participants identified new design space dimensions including scrutability -the ability to poke and prod at models -- and explainability.

Generative Artificial Intelligence systems have been developed for image, code, story, and game generation with the goal of facilitating human creativity. Recent work on neural generative systems has emphasized one particular means of interacting with AI systems: the user provides a specification, usually in the form of prompts, and the AI system generates the content. However, there are other configurations of human and AI coordination, such as co-creativity (CC) in which both human and AI systems can contribute to content creation, and mixed-initiative (MI) in which both human and AI systems can initiate content changes. In this paper, we define a hypothetical human-AI configuration design space consisting of different means for humans and AI systems to communicate creative intent to each other. We conduct a human participant study with 185 participants to understand how users want to interact with differently configured MI-CC systems. We find out that MI-CC systems with more extensive coverage of the design space are rated higher or on par on a variety of creative and goal-completion metrics, demonstrating that wider coverage of the design space can improve user experience and achievement when using the system; Preference varies greatly between expertise groups, suggesting the development of adaptive, personalized MI-CC systems; Participants identified new design space dimensions including scrutability -- the ability to poke and prod at models -- and explainability.
翻訳日:2023-05-21 11:13:09 公開日:2023-05-03
# the beauty or the beast: 合成医療画像のどの側面が注目に値するか?

The Beauty or the Beast: Which Aspect of Synthetic Medical Images Deserves Our Focus? ( http://arxiv.org/abs/2305.09789v1 )

ライセンス: Link先を確認
Xiaodan Xing, Yang Nan, Federico Felder, Simon Walsh and Guang Yang(参考訳) 医療用AIアルゴリズムのトレーニングには、大量の正確なラベル付きデータセットが必要である。 深層生成モデルから生成された合成画像は、データの不足問題を緩和するのに役立つが、それらの効果は実世界の画像への忠実さに依存する。 通常、研究者は画質測定に基づいて合成モデルを選択し、リアルに見える合成画像を優先する。 しかし,本研究では,高忠実度で視覚的に魅力的な合成画像が必ずしも優れているとは限らない。 実際,下流タスクにおいて,低忠実度合成画像が高忠実度画像よりも優れている場合を示す。 本研究は,現実世界のアプリケーションに合成データを組み込む前に,総合分析の重要性を浮き彫りにする。 我々は,医療用AIアルゴリズムのトレーニングにおいて,低忠実度合成画像の価値について,研究コミュニティの間で認識を深めることを期待している。

Training medical AI algorithms requires large volumes of accurately labeled datasets, which are difficult to obtain in the real world. Synthetic images generated from deep generative models can help alleviate the data scarcity problem, but their effectiveness relies on their fidelity to real-world images. Typically, researchers select synthesis models based on image quality measurements, prioritizing synthetic images that appear realistic. However, our empirical analysis shows that high-fidelity and visually appealing synthetic images are not necessarily superior. In fact, we present a case where low-fidelity synthetic images outperformed their high-fidelity counterparts in downstream tasks. Our findings highlight the importance of comprehensive analysis before incorporating synthetic data into real-world applications. We hope our results will raise awareness among the research community of the value of low-fidelity synthetic images in medical AI algorithm training.
翻訳日:2023-05-21 10:43:25 公開日:2023-05-03
# エッジインテリジェンスのコードサインと自動誘導車両制御

Codesign of Edge Intelligence and Automated Guided Vehicle Control ( http://arxiv.org/abs/2305.09788v1 )

ライセンス: Link先を確認
Malith Gallage, Rafaela Scaciota, Sumudu Samarakoon and Mehdi Bennis(参考訳) 本研究は,産業環境における自律走行を実現するために,自動誘導車両(AGV)制御,エッジインテリジェンス,ヒューマンインプットの調和設計を提案する。 AGVはソースと宛先をナビゲートし、オブジェクトをピック/プレースする機能を持っている。 人間の入力は、ネットワークエッジの人工知能(AI)モジュールから派生した宛先と正確なドロップポイントを暗黙的に提供し、無線ネットワークを介してAGVと共有する。 実演では,提案するハードウェア,ソフトウェア,ai設計の統合設計により,trl(technology readiness level)が4~5の範囲で達成されることを示す。

This work presents a harmonic design of autonomous guided vehicle (AGV) control, edge intelligence, and human input to enable autonomous transportation in industrial environments. The AGV has the capability to navigate between a source and destinations and pick/place objects. The human input implicitly provides preferences of the destination and exact drop point, which are derived from an artificial intelligence (AI) module at the network edge and shared with the AGV over a wireless network. The demonstration indicates that the proposed integrated design of hardware, software, and AI design achieve a technology readiness level (TRL) of range 4-5
翻訳日:2023-05-21 10:43:11 公開日:2023-05-03
# beyond homophily:グラフ非依存クラスタリングのための再構成構造

Beyond Homophily: Reconstructing Structure for Graph-agnostic Clustering ( http://arxiv.org/abs/2305.02931v1 )

ライセンス: Link先を確認
Erlin Pan, Zhao Kang(参考訳) グラフニューラルネットワーク(GNN)に基づく手法は,ノードクラスタリングタスクにおいて優れたパフォーマンスを実現している。 しかし、それらはグラフとヘテロフィルグラフ上のクラスタリングのホモフィル的仮定に基づいて設計されている。 ラベルの欠如により、グラフが適切なGNNモデルを見つける前に、最初にホモフィルまたはヘテロフィルであると識別することは不可能である。 したがって、様々なレベルのホモフィリーを持つ現実世界のグラフ上のクラスタリングは、グラフ研究コミュニティに新たな課題をもたらす。 このギャップを埋めるために,グラフ再構成,混合フィルタ,二重グラフクラスタリングネットワークという3つの重要な要素を含むグラフクラスタリング手法を提案する。 グラフに依存しないためには、各データから高いホモフィリーかつヘテロフィリーな2つのグラフを経験的に構築する。 新しいグラフに基づく混合フィルタは、低周波情報と高周波情報の両方を抽出する。 ノード属性とトポロジ構造の間の負の結合を低減するために,2つのグラフクラスタリングネットワーク内の2つの部分空間に別々にマップする。 11のベンチマークグラフに関する広範な実験は、有望なパフォーマンスを示している。 特に,本手法は異種グラフ上で他者を支配する。

Graph neural networks (GNNs) based methods have achieved impressive performance on node clustering task. However, they are designed on the homophilic assumption of graph and clustering on heterophilic graph is overlooked. Due to the lack of labels, it is impossible to first identify a graph as homophilic or heterophilic before a suitable GNN model can be found. Hence, clustering on real-world graph with various levels of homophily poses a new challenge to the graph research community. To fill this gap, we propose a novel graph clustering method, which contains three key components: graph reconstruction, a mixed filter, and dual graph clustering network. To be graph-agnostic, we empirically construct two graphs which are high homophily and heterophily from each data. The mixed filter based on the new graphs extracts both low-frequency and high-frequency information. To reduce the adverse coupling between node attribute and topological structure, we separately map them into two subspaces in dual graph clustering network. Extensive experiments on 11 benchmark graphs demonstrate our promising performance. In particular, our method dominates others on heterophilic graphs.
翻訳日:2023-05-14 21:20:51 公開日:2023-05-03
# Sim2Rec:シーケンスレコメンダシステムにおける実世界の長期ユーザエンゲージメントを最適化するためのシミュレータに基づく意思決定手法

Sim2Rec: A Simulator-based Decision-making Approach to Optimize Real-World Long-term User Engagement in Sequential Recommender Systems ( http://arxiv.org/abs/2305.04832v1 )

ライセンス: Link先を確認
Xiong-Hui Chen, Bowei He, Yang Yu, Qingyang Li, Zhiwei Qin, Wenjie Shang, Jieping Ye, Chen Ma(参考訳) 逐次リコメンデータシステム(SRS)における長期ユーザエンゲージメント(LTE)最適化は、長期報酬を最大化するためのポリシーを見出した強化学習(RL)に適している。 一方、rlには欠点があり、特に、実世界のアプリケーションではリスクが高い、探索のために大量のオンラインサンプルを必要とする。 リスクを避けるための魅力的な方法の1つは、シミュレータを構築し、シミュレータで最適な推奨ポリシーを学ぶことである。 lte最適化では、特定のレコメンデーションに対して、複数のユーザの日々のフィードバックをシミュレートする。 しかし,ユーザの反応パターンが複雑で,ユーザ毎の履歴ログが限られており,シミュレータベースの推奨ポリシを誤解させる可能性があるため,現実的なフィードバックを正確に予測できるユーザシミュレータの構築は現実的ではない。 本稿では,lte最適化における現実のギャップ問題に対処するための,シミュレータベースのレコメンダポリシトレーニング手法であるsim2recを提案する。 具体的には、sim2recはユーザ行動パターンの様々な可能性を生成するシミュレータセットを導入し、次に環境パラメータ抽出器を訓練して、シミュレータ内のユーザの行動パターンを認識する。 最後に、推定された環境パラメータに基づいて、ユーザのすべての変種について最適な決定を行うように、コンテキスト認識ポリシーを訓練する。 ポリシーは、すべてのユーザの行動パターンを認識し、推論された環境パラメータに基づいて正しい決定を行うために、直接、目に見えない環境(現実世界など)に転送可能である。 実験は、合成環境と現実世界の大規模な配車プラットフォームDidiChuxingで行われた。 その結果、Sim2Recは大幅な性能向上を実現し、目に見えない環境で堅牢なレコメンデーションを生成することがわかった。

Long-term user engagement (LTE) optimization in sequential recommender systems (SRS) is shown to be suited by reinforcement learning (RL) which finds a policy to maximize long-term rewards. Meanwhile, RL has its shortcomings, particularly requiring a large number of online samples for exploration, which is risky in real-world applications. One of the appealing ways to avoid the risk is to build a simulator and learn the optimal recommendation policy in the simulator. In LTE optimization, the simulator is to simulate multiple users' daily feedback for given recommendations. However, building a user simulator with no reality-gap, i.e., can predict user's feedback exactly, is unrealistic because the users' reaction patterns are complex and historical logs for each user are limited, which might mislead the simulator-based recommendation policy. In this paper, we present a practical simulator-based recommender policy training approach, Simulation-to-Recommendation (Sim2Rec) to handle the reality-gap problem for LTE optimization. Specifically, Sim2Rec introduces a simulator set to generate various possibilities of user behavior patterns, then trains an environment-parameter extractor to recognize users' behavior patterns in the simulators. Finally, a context-aware policy is trained to make the optimal decisions on all of the variants of the users based on the inferred environment-parameters. The policy is transferable to unseen environments (e.g., the real world) directly as it has learned to recognize all various user behavior patterns and to make the correct decisions based on the inferred environment-parameters. Experiments are conducted in synthetic environments and a real-world large-scale ride-hailing platform, DidiChuxing. The results show that Sim2Rec achieves significant performance improvement, and produces robust recommendations in unseen environments.
翻訳日:2023-05-14 21:08:56 公開日:2023-05-03
# 透明な学術採用のための学術品質定量化のための最適化とai--その1-モデル開発

Optimization- and AI-based approaches to academic quality quantification for transparent academic recruitment: part 1-model development ( http://arxiv.org/abs/2305.05460v1 )

ライセンス: Link先を確認
Ercan atam(参考訳) 大学や研究機関における公平な学術採用の場合、グローバルに受け入れられた学術的品質特性に基づく適切な尺度の決定は、非常に繊細で挑戦的だが、対処すべき非常に重要な問題である。 本稿では,第1論文,第2論文,第2論文,第2論文のケーススタディにおいて,学術的品質定量化のモデル化部分について考察する。 学術的品質定量化モデリングのために,意思決定支援ツールの構築に使用できる2つの計算フレームワークを開発した。 (i)最適化ベースのフレームワーク及び (ii)シャムネットワーク(人工ニューラルネットワークの一種)ベースのフレームワーク。 両モデルのアウトプットはAQI(Academic Quality Index)と呼ばれる単一の指標であり、学術的品質の指標である。 モデルパラメータをチューニングするための基準データとして,Times Higher Education World University Rankings と QS World University Rankings に基づく一級・平均級世界大学からの学者のデータが推定される。

For fair academic recruitment at universities and research institutions, determination of the right measure based on globally accepted academic quality features is a highly delicate, challenging, but quite important problem to be addressed. In a series of two papers, we consider the modeling part for academic quality quantification in the first paper, in this paper, and the case studies part in the second paper. For academic quality quantification modeling, we develop two computational frameworks which can be used to construct a decision-support tool: (i) an optimization-based framework and (ii) a Siamese network (a type of artificial neural network)-based framework. The output of both models is a single index called Academic Quality Index (AQI) which is a measure of the overall academic quality. The data of academics from first-class and average-class world universities, based on Times Higher Education World University Rankings and QS World University Rankings, are assumed as the reference data for tuning model parameters.
翻訳日:2023-05-14 20:56:23 公開日:2023-05-03
# クロス周波数保護エンブレム:(完全に)自律的戦乱の文脈における医療ユニットと兵士の保護オプション

A Cross-Frequency Protective Emblem: Protective Options for Medical Units and Wounded Soldiers in the Context of (fully) Autonomous Warfare ( http://arxiv.org/abs/2305.05459v1 )

ライセンス: Link先を確認
Daniel C. Hinck, Jonas J. Sch\"ottler, Maria Krantz, Katharina-Sophie Isleif, Oliver Niggemann(参考訳) 非戦闘員の(完全に)自律戦争時の保護は、国際的な保護紋章のタイムラインの疑問を提起する。 近年の事件は、保護紋章を伝達と表現の他の次元に移す必要があることを示している。 (フル) 自律的な兵器システムは、しばしば目標地点まで遠くから発射され、オペレーターが衝撃の時点で保護的な紋章に気づく可能性はない。 この場合、兵器システムはそのような保護紋章を検知し、必要であれば、自律的に分解するか、人間のループで中止を要求する必要がある。 本稿では,周波数横断保護エンブレムを設計する方法を提案する。 一方、RADARビーコンの形での技術的展開は、機械学習の手法による解釈と同様に検討されている。 技術的展開に関しては、異なるセンサーに対処し、可能な限り回復力のある信号を送信する可能性も考えられる。 異なる信号を考えるとき、ソフトウェアが様々な境界条件の影響下で保護エンブレムを認識し、それに応じてそれらに対応する方法を考える。 特に、アクティブに放射される信号の認識と受動的保護信号(例えば、ドローンベースの電気光学・熱カメラによる負傷者や降伏者の認識)の区別がなされている。 最後に、受信した信号の暗号化と認証を含む配信方法を検討し、誤用の可能性の倫理的側面を検討した。

The protection of non-combatants in times of (fully) autonomous warfare raises the question of the timeliness of the international protective emblem. Incidents in the recent past indicate that it is becoming necessary to transfer the protective emblem to other dimensions of transmission and representation. (Fully) Autonomous weapon systems are often launched from a great distance to the aiming point and there may be no possibility for the operators to notice protective emblems at the point of impact. In this case, the weapon system would have to detect such protective emblems and, if necessary, disintegrate autonomously or request an abort via human-in-the-loop. In our paper, we suggest ways in which a cross-frequency protective emblem can be designed. On the one hand, the technical deployment, e.g. in the form of RADAR beacons, is considered, as well as the interpretation by methods of machine learning. With regard to the technical deployment, possibilities are considered to address different sensors and to send signals out as resiliently as possible. When considering different signals, approaches are considered as to how software can recognise the protective emblems under the influence of various boundary conditions and react to them accordingly. In particular, a distinction is made here between the recognition of actively emitted signals and passive protective signals, e.g. the recognition of wounded or surrendering persons via drone-based electro-optical and thermal cameras. Finally, methods of distribution are considered, including encryption and authentication of the received signal, and ethical aspects of possible misuse are examined.
翻訳日:2023-05-14 20:56:04 公開日:2023-05-03
# DELTA:レコメンデーションシステムのための直接埋め込み強化とレバレッジ縮合意識

DELTA: Direct Embedding Enhancement and Leverage Truncated Conscious Attention for Recommendation System ( http://arxiv.org/abs/2305.04891v1 )

ライセンス: Link先を確認
Chen Zhu, Liang Du, Xin Wang, Wenwu Zhu(参考訳) CTR(Click-Through Rate)予測は、製品とコンテンツの推奨において最も重要なタスクであり、効果的な機能インタラクションの学習は、製品のユーザの好みを活用する上で重要な課題である。 最近の研究では、ソフトアテンションやゲートメカニズムに基づくより洗練された機能インタラクションの研究に焦点が当てられているが、冗長な機能の組み合わせや相反する機能の組み合わせも紹介されている。 意識的処理におけるグローバルワークスペース理論によれば、人間のクリックは「意識的」広告をクリックする:製品の特徴の特定のサブセットのみが考慮され、残りは意識的処理には関与しない。 Therefore, we propose a CTR model that \textbf{D}irectly \textbf{E}nhances the embeddings and \textbf{L}everages \textbf{T}runcated Conscious \textbf{A}ttention during feature interaction, termed DELTA, which contains two key components: (I) conscious truncation module (CTM), which utilizes curriculum learning to apply adaptive truncation on attention weights to select the most critical feature combinations; (II) direct embedding enhancement module (DEM), which directly and independently propagates gradient from the loss layer to the embedding layer to enhance the crucial embeddings via linear feature crossing without introducing any extra cost during inference. 5つの挑戦的CTRデータセットに対する大規模な実験は、DELTAが現在の最先端CTR手法で最先端のパフォーマンスを達成することを示した。

Click-Through Rate (CTR) prediction is the most critical task in product and content recommendation, and learning effective feature interaction is the key challenge to exploiting user preferences for products. Some recent research works focus on investigating more sophisticated feature interactions based on soft attention or gate mechanism, while some redundant or contradictory feature combinations are still introduced. According to Global Workspace Theory in conscious processing, human clicks on advertisements ``consciously'': only a specific subset of product features are considered, and the rest are not involved in conscious processing. Therefore, we propose a CTR model that \textbf{D}irectly \textbf{E}nhances the embeddings and \textbf{L}everages \textbf{T}runcated Conscious \textbf{A}ttention during feature interaction, termed DELTA, which contains two key components: (I) conscious truncation module (CTM), which utilizes curriculum learning to apply adaptive truncation on attention weights to select the most critical feature combinations; (II) direct embedding enhancement module (DEM), which directly and independently propagates gradient from the loss layer to the embedding layer to enhance the crucial embeddings via linear feature crossing without introducing any extra cost during inference. Extensive experiments on five challenging CTR datasets demonstrate that DELTA achieves cutting-edge performance among current state-of-the-art CTR methods.
翻訳日:2023-05-14 20:55:39 公開日:2023-05-03
# プラグアンドプレイ多言語音声音声認識

Plug-and-Play Multilingual Few-shot Spoken Words Recognition ( http://arxiv.org/abs/2305.03058v1 )

ライセンス: Link先を確認
Aaqib Saeed and Vasileios Tsouvalas(参考訳) 技術の進歩とデジタルデバイスの普及に伴い、シームレスな人間と機械のコミュニケーションがますます重要になっている。 モバイル、ウェアラブル、その他のIoT(Internet of Things)デバイスの普及は、これらのスマートデバイスとのインタラクション方法を変え、正確な音声認識を効果的なインタラクションの重要なコンポーネントにしました。 しかし、新しいキーワードを処理できる頑健な音声単語検出システムの構築は、特にトレーニングデータに制限のある低リソース言語では難しい。 本稿では,多言語・プラグ・アンド・プレイのキーワードスポッティングシステムplixを提案する。このシステムでは,実世界の膨大なデータを活用して,テスト時に未認識の単語を認識できる。 20の言語で何百万もの1秒オーディオクリップを学習し、高い効率を保ちながら最先端のパフォーマンスを実現しています。 広範な評価から、plixは1つのサポート例しか与えられていない新しい話し言葉に一般化でき、すぐに見えない言語でうまく機能することを示している。 我々は、次世代デバイスのための将来の研究と音声対応ユーザーインタフェース開発の基礎となるモデルと推論コードをリリースする。

As technology advances and digital devices become prevalent, seamless human-machine communication is increasingly gaining significance. The growing adoption of mobile, wearable, and other Internet of Things (IoT) devices has changed how we interact with these smart devices, making accurate spoken words recognition a crucial component for effective interaction. However, building robust spoken words detection system that can handle novel keywords remains challenging, especially for low-resource languages with limited training data. Here, we propose PLiX, a multilingual and plug-and-play keyword spotting system that leverages few-shot learning to harness massive real-world data and enable the recognition of unseen spoken words at test-time. Our few-shot deep models are learned with millions of one-second audio clips across 20 languages, achieving state-of-the-art performance while being highly efficient. Extensive evaluations show that PLiX can generalize to novel spoken words given as few as just one support example and performs well on unseen languages out of the box. We release models and inference code to serve as a foundation for future research and voice-enabled user interface development for emerging devices.
翻訳日:2023-05-08 16:35:48 公開日:2023-05-03
# 論理公式の可逆意味保存埋め込みに向けて

Towards Invertible Semantic-Preserving Embeddings of Logical Formulae ( http://arxiv.org/abs/2305.03143v1 )

ライセンス: Link先を確認
Gaia Saveri and Luca Bortolussi(参考訳) 論理は自動推論を行う主要な形式言語であり、少なくとも小さな公式に対しては、人間解釈可能な言語である。 論理要件とルールの学習と最適化は、人工知能において常に重要な問題だった。 State of the Art Machine Learning (ML)アプローチは、主に連続空間における勾配降下最適化に基づいており、学習ロジックは式の離散構文空間でフレーム化されている。 論理特性を学習するために連続最適化を使うことは難しい問題であり、意味のある方法で連続空間に式を埋め込む必要がある。 現在の手法では、カーネルメソッド(線形時相論理)を介して効果的な意味保存埋め込みを構築することができるが、それらが定義する写像は可逆ではない。 本稿では,グラフ変分オートエンコーダフレームワークに基づく深層アーキテクチャを活用した組込みを逆転する方法を学ぶことで,この問題に対処した。 我々はこの設定のために特別に設計された新しいモデルを提案し,広範な実験評価を通じて設計選択を正当化する。 命題論理の文脈における報告された結果は有望であり、式の可逆埋め込みの学習に関するいくつかの課題が強調され、対処される。

Logic is the main formal language to perform automated reasoning, and it is further a human-interpretable language, at least for small formulae. Learning and optimising logic requirements and rules has always been an important problem in Artificial Intelligence. State of the art Machine Learning (ML) approaches are mostly based on gradient descent optimisation in continuous spaces, while learning logic is framed in the discrete syntactic space of formulae. Using continuous optimisation to learn logic properties is a challenging problem, requiring to embed formulae in a continuous space in a meaningful way, i.e. preserving the semantics. Current methods are able to construct effective semantic-preserving embeddings via kernel methods (for linear temporal logic), but the map they define is not invertible. In this work we address this problem, learning how to invert such an embedding leveraging deep architectures based on the Graph Variational Autoencoder framework. We propose a novel model specifically designed for this setting, justifying our design choices through an extensive experimental evaluation. Reported results in the context of propositional logic are promising, and several challenges regarding learning invertible embeddings of formulae are highlighted and addressed.
翻訳日:2023-05-08 16:17:43 公開日:2023-05-03
# 感性分析に基づく新たな逆画像検出

New Adversarial Image Detection Based on Sentiment Analysis ( http://arxiv.org/abs/2305.03173v1 )

ライセンス: Link先を確認
Yulong Wang, Tianxiang Li, Shenghong Li, Xin Yuan, Wei Ni(参考訳) Deep Neural Networks(DNN)は敵のサンプルに対して脆弱であり、DeepFoolのような敵の攻撃モデルは敵のサンプル検出技術の増加とアウトランの傾向にある。 本稿では,画像データセットに対する最新の敵対的攻撃を特定する際に,最先端の検出器に勝る新たな攻撃的サンプル検出器を提案する。 具体的には,攻撃対象のdnnの隠れ層特徴マップに対する敵意摂動の影響を段階的に表わすことにより,敵対的事例検出に感情分析を適用することを提案する。 そこで我々は,最小学習可能なパラメータでモジュール化された埋め込み層を設計し,隠れ層特徴マップを単語ベクトルに埋め込み,感情分析の準備が整った文を組み立てる。 大規模な実験により、新しい検出器はCIFAR-10、CIFAR-100、SVHNデータセット上のResNetおよびInception中性ネットワークに対する最新の攻撃を検出する際に、最先端の検知アルゴリズムを一貫して上回っていることが示されている。 検出器は約200万のパラメータしか持たず、4.6ミリ秒未満でTesla K80 GPUカードを使用して最新の攻撃モデルによって生成された敵のサンプルを検出する。

Deep Neural Networks (DNNs) are vulnerable to adversarial examples, while adversarial attack models, e.g., DeepFool, are on the rise and outrunning adversarial example detection techniques. This paper presents a new adversarial example detector that outperforms state-of-the-art detectors in identifying the latest adversarial attacks on image datasets. Specifically, we propose to use sentiment analysis for adversarial example detection, qualified by the progressively manifesting impact of an adversarial perturbation on the hidden-layer feature maps of a DNN under attack. Accordingly, we design a modularized embedding layer with the minimum learnable parameters to embed the hidden-layer feature maps into word vectors and assemble sentences ready for sentiment analysis. Extensive experiments demonstrate that the new detector consistently surpasses the state-of-the-art detection algorithms in detecting the latest attacks launched against ResNet and Inception neutral networks on the CIFAR-10, CIFAR-100 and SVHN datasets. The detector only has about 2 million parameters, and takes shorter than 4.6 milliseconds to detect an adversarial example generated by the latest attack models using a Tesla K80 GPU card.
翻訳日:2023-05-08 16:06:35 公開日:2023-05-03
# 抄録ケースロー:判例における引用価値検出法

CiteCaseLAW: Citation Worthiness Detection in Caselaw for Legal Assistive Writing ( http://arxiv.org/abs/2305.03508v1 )

ライセンス: Link先を確認
Mann Khatri, Pritish Wadhwa, Gitansh Satija, Reshma Sheik, Yaman Kumar, Rajiv Ratn Shah, Ponnurangam Kumaraguru(参考訳) 法的文書作成において重要な要素の1つは、訴訟法やその他の情報源を適切に引用し、クレームや議論を裏付けることである。 法的ドメインを理解し、適切な引用コンテキストや引用に値する文を特定することは、高価な手作業のアノテーションを必要とする課題である。 ジャーゴン、言語意味論、高ドメイン固有性により、法的言語は複雑になり、関連する法的タスクは自動化を困難にする。 本研究は, 引用性同定の問題に焦点をあてている。 現在の引用レコメンデーションシステムの最初のステップとして設計されており、適切な引用コンテキストを抽出する際の負担を軽減する。 これを実現するために,判例アクセスプロジェクト (cap) から法領域における引用性検出のための178m文のラベル付きデータセットを導入する。 本論文では,様々な深層学習モデルの性能について検討した。 ドメイン固有の事前学習モデルは、他のモデルよりも優れている傾向があり、88%のF1スコアが引用-可視性検出タスクである。

In legal document writing, one of the key elements is properly citing the case laws and other sources to substantiate claims and arguments. Understanding the legal domain and identifying appropriate citation context or cite-worthy sentences are challenging tasks that demand expensive manual annotation. The presence of jargon, language semantics, and high domain specificity makes legal language complex, making any associated legal task hard for automation. The current work focuses on the problem of citation-worthiness identification. It is designed as the initial step in today's citation recommendation systems to lighten the burden of extracting an adequate set of citation contexts. To accomplish this, we introduce a labeled dataset of 178M sentences for citation-worthiness detection in the legal domain from the Caselaw Access Project (CAP). The performance of various deep learning models was examined on this novel dataset. The domain-specific pre-trained model tends to outperform other models, with an 88% F1-score for the citation-worthiness detection task.
翻訳日:2023-05-08 14:03:49 公開日:2023-05-03
# Wordleゲームに基づく単語の難易度とその影響属性の探索

Explore the difficulty of words and its influential attributes based on the Wordle game ( http://arxiv.org/abs/2305.03502v1 )

ライセンス: Link先を確認
Beibei Liu, Yuanfang Zhang, Shiyu Zhang(参考訳) 単語の難易度を予測し,その影響因子を探索するために,ゲームワードの推測時間の分布と期待を指標として採用する。 難易度分布を予測するために,モンテカルロを用いてプレイヤーの推測過程をシミュレートし,単語の連想度を生成するマルコフを用いて各単語の生推定時間と実推定時間とのギャップを狭める。 その後,lasso回帰を利用して推定時間予測の偏りを予測し,二次計画法を用いて元の分布の補正を行い,難易度を予測し,まず階層的クラスタリングを用いて推定時間の期待値に基づいて難易度を分類する。 その後、因子分析に基づいて語彙属性の変数をダウンスケールする。 重要な要因は、隣接する単語の数、文字の類似性、サブストリングの類似性、単語の頻度である。 最後に,順序ロジスティック回帰によって語彙属性と難易度の関係を構築する。

We adopt the distribution and expectation of guessing times in game Wordle as metrics to predict the difficulty of words and explore their influence factors. In order to predictthe difficulty distribution, we use Monte Carlo to simulate the guessing process of players and then narrow the gap between raw and actual distribution of guessing times for each word with Markov which generates the associativity of words. Afterwards, we take advantage of lasso regression to predict the deviation of guessing times expectation and quadratic programming to obtain the correction of the original distribution.To predict the difficulty levels, we first use hierarchical clustering to classify the difficulty levels based on the expectation of guessing times. Afterwards we downscale the variables of lexical attributes based on factor analysis. Significant factors include the number of neighboring words, letter similarity, sub-string similarity, and word frequency. Finally, we build the relationship between lexical attributes and difficulty levels through ordered logistic regression.
翻訳日:2023-05-08 14:03:08 公開日:2023-05-03
# プライバシー強化のための暗号化テキストによる自然言語処理モデルのトレーニング

Training Natural Language Processing Models on Encrypted Text for Enhanced Privacy ( http://arxiv.org/abs/2305.03497v1 )

ライセンス: Link先を確認
Davut Emre Tasar, Ceren Ocal Tasar(参考訳) 機械学習モデルのトレーニングとデプロイにクラウドベースのサービスの利用が増加し、データプライバシが大きな関心事になっている。 これは自然言語処理(NLP)モデルにおいて特に重要であり、個人通信や機密文書などの機密情報を処理することが多い。 本研究では,非暗号化データ上で訓練されたモデルと同等の性能を維持しつつ,データプライバシの懸念を軽減するために,暗号化されたテキストデータ上でNLPモデルをトレーニングする方法を提案する。 提案手法はDoc2Vec+XGBoostとDoc2Vec+LSTMの2つの異なるアーキテクチャを用いて,20のNewsgroupsデータセット上でモデルを評価する。 その結果,暗号化モデルと非暗号化モデルの両方が同等の性能を達成し,モデルの精度を犠牲にすることなくデータのプライバシの保護に有効であることが示唆された。 実験を再現するために、以下のアドレスでColabノートを提供しました。

With the increasing use of cloud-based services for training and deploying machine learning models, data privacy has become a major concern. This is particularly important for natural language processing (NLP) models, which often process sensitive information such as personal communications and confidential documents. In this study, we propose a method for training NLP models on encrypted text data to mitigate data privacy concerns while maintaining similar performance to models trained on non-encrypted data. We demonstrate our method using two different architectures, namely Doc2Vec+XGBoost and Doc2Vec+LSTM, and evaluate the models on the 20 Newsgroups dataset. Our results indicate that both encrypted and non-encrypted models achieve comparable performance, suggesting that our encryption method is effective in preserving data privacy without sacrificing model accuracy. In order to replicate our experiments, we have provided a Colab notebook at the following address: https://t.ly/lR-TP
翻訳日:2023-05-08 14:02:38 公開日:2023-05-03
# ChatGraph: ChatGPT知識をグラフに変換することで解釈可能なテキスト分類

ChatGraph: Interpretable Text Classification by Converting ChatGPT Knowledge to Graphs ( http://arxiv.org/abs/2305.03513v1 )

ライセンス: Link先を確認
Yucheng Shi, Hehuan Ma, Wenliang Zhong, Gengchen Mai, Xiang Li, Tianming Liu, Junzhou Huang(参考訳) 最近ローンチした大型言語モデル(LLM)であるChatGPTは、様々な自然言語処理(NLP)タスクにおいて優れたパフォーマンスを示している。 しかし,(1)下流タスクの微調整の柔軟性の欠如,(2)意思決定過程における解釈可能性の欠如,という2つの大きな制約が考えられる。 これらの制約に対処するために,テキスト分類などの特定のタスクにchatgptのパワーを活用し,その解釈性を向上させる新しいフレームワークを提案する。 提案フレームワークは,ChatGPTを用いて生データから精巧で構造的な知識を抽出する知識グラフ抽出タスクを実行する。 豊かな知識はグラフに変換され、さらに解釈可能な線形分類器を訓練して予測を行う。 提案手法の有効性を評価するため,4つのデータセットを用いた実験を行った。 その結果,テキスト分類タスクにchatgptを直接利用するのに比べ,性能が著しく向上することがわかった。 また,従来のテキスト分類法と比較して,より透過的な意思決定プロセスを提供する。

ChatGPT, as a recently launched large language model (LLM), has shown superior performance in various natural language processing (NLP) tasks. However, two major limitations hinder its potential applications: (1) the inflexibility of finetuning on downstream tasks and (2) the lack of interpretability in the decision-making process. To tackle these limitations, we propose a novel framework that leverages the power of ChatGPT for specific tasks, such as text classification, while improving its interpretability. The proposed framework conducts a knowledge graph extraction task to extract refined and structural knowledge from the raw data using ChatGPT. The rich knowledge is then converted into a graph, which is further used to train an interpretable linear classifier to make predictions. To evaluate the effectiveness of our proposed method, we conduct experiments on four datasets. The result shows that our method can significantly improve the performance compared to directly utilizing ChatGPT for text classification tasks. And our method provides a more transparent decision-making process compared with previous text classification methods.
翻訳日:2023-05-08 13:50:44 公開日:2023-05-03
# タスク数が少ない小ショット学習のための区間境界補間法

Interval Bound Interpolation for Few-shot Learning with Few Tasks ( http://arxiv.org/abs/2204.03511v3 )

ライセンス: Link先を確認
Shounak Datta, Sankha Subhra Mullick, Anish Chakrabarty, Swagatam Das(参考訳) 少数ショット学習は、さまざまなタスクのトレーニングから得られた知識を、ラベル付きデータの限られた量で同じタスク分散から未発見のタスクに移すことを目的としている。 効果的な少数ショット一般化の基本的な要件は、タスク多様体のよい表現を学ぶことである。 限られた数のタスクしかトレーニングできない場合、これはより難しくなります。 このような少数タスクの少数ショット設定では、タスク多様体から局所的な近傍を明示的に保存し、これを利用してトレーニングのための人工的なタスクを生成することが有益である。 そこで本研究では,頑健な学習文献から少人数学習への区間境界の概念を導入する。 インターバルバウンダリは、トレーニングタスクの周辺を特徴付けるために使用される。 これらの近傍はタスクとそれぞれの境界の間の距離を最小化することで保存することができる。 次に、利用可能なタスクと各インターバル境界を補間することにより、トレーニングのための新しいタスクを人工的に形成する。 このフレームワークをモデルに依存しないメタラーニングとプロトタイプベースのメトリックラーニングの両方に適用する。 提案手法の有効性は,従来の手法と比較して,様々な分野のデータセットの性能が向上していることから明らかである。

Few-shot learning aims to transfer the knowledge acquired from training on a diverse set of tasks to unseen tasks from the same task distribution with a limited amount of labeled data. The underlying requirement for effective few-shot generalization is to learn a good representation of the task manifold. This becomes more difficult when only a limited number of tasks are available for training. In such a few-task few-shot setting, it is beneficial to explicitly preserve the local neighborhoods from the task manifold and exploit this to generate artificial tasks for training. To this end, we introduce the notion of interval bounds from the provably robust training literature to few-shot learning. The interval bounds are used to characterize neighborhoods around the training tasks. These neighborhoods can then be preserved by minimizing the distance between a task and its respective bounds. We then use a novel strategy to artificially form new tasks for training by interpolating between the available tasks and their respective interval bounds. We apply our framework to both model-agnostic meta-learning as well as prototype-based metric-learning paradigms. The efficacy of our proposed approach is evident from the improved performance on several datasets from diverse domains compared to current methods.
翻訳日:2023-05-05 19:59:40 公開日:2023-05-03
# フォトニック量子スイッチにおける不定因果順序の半デバイス非依存認証

Semi-device-independent certification of indefinite causal order in a photonic quantum switch ( http://arxiv.org/abs/2202.05346v2 )

ライセンス: Link先を確認
Huan Cao, Jessica Bavaresco, Ning-Ning Wang, Lee A. Rozema, Chao Zhang, Yun-Feng Huang, Bi-Heng Liu, Chuan-Feng Li, Guang-Can Guo, and Philip Walther(参考訳) 我々は,単一当事者の操作の特徴付けのみに依存する無期限因果順序の実験的証明を報告する。 半デバイス非依存のシナリオでは、量子スイッチで不明確な因果順序を証明できるパーティの局所的な操作の特性の最小限の仮定でそうする。 この結果を達成するために、半デバイス非依存因果不等式の概念を導入し、光量子スイッチで生成された相関関係が局所的な結果統計を収集でき、224の標準偏差の不等式に違反することを示す。 この結果は、不確定因果順序の実験的実証と、最も少ないデバイス特性仮定からなる。

We report an experimental certification of indefinite causal order that relies only on the characterization of the operations of a single party. We do so in the semi-device-independent scenario with the fewest possible assumptions of characterization of the parties' local operations in which indefinite causal order can be demonstrated with the quantum switch. To achieve this result, we introduce the concept of semi-device-independent causal inequalities and show that the correlations generated in a photonic quantum switch, in which all parties are able to collect local outcome statistics, achieve a violation of this inequality of 224 standard deviations. This result consists of the experimental demonstration of indefinite causal order with the fewest device-characterization assumptions to date.
翻訳日:2023-05-05 19:57:22 公開日:2023-05-03
# 信号デノナイズのためのクロスバリデーションフレームワークとそのトレンドフィルタリング, Dyadic CARTなどへの応用

A Cross Validation Framework for Signal Denoising with Applications to Trend Filtering, Dyadic CART and Beyond ( http://arxiv.org/abs/2201.02654v3 )

ライセンス: Link先を確認
Anamitra Chaudhuri and Sabyasachi Chatterjee(参考訳) 本稿では,信号復調のための一般的なクロス検証フレームワークを定式化する。 一般的なフレームワークは、トレンドフィルタリングやdyadic cartのような非パラメトリック回帰法に適用される。 得られたクロス検証されたバージョンは、最適に調整されたアナログで知られているように、ほぼ同じ収束率に達することが示される。 トレンドフィルタリングやDyadic CARTのクロスバリデーションバージョンに関する以前の理論的分析は存在しなかった。 フレームワークの汎用性を説明するために, 2つの基本推定器の相互検証版, 高次元線形回帰のためのラッソ, 行列推定のための特異値閾値付けを提案する。 我々の一般的なフレームワークはChatterjee と Jafarov (2015) のアイデアにインスパイアされており、チューニングパラメータを使用する幅広い推定手法に適用できる可能性がある。

This paper formulates a general cross validation framework for signal denoising. The general framework is then applied to nonparametric regression methods such as Trend Filtering and Dyadic CART. The resulting cross validated versions are then shown to attain nearly the same rates of convergence as are known for the optimally tuned analogues. There did not exist any previous theoretical analyses of cross validated versions of Trend Filtering or Dyadic CART. To illustrate the generality of the framework we also propose and study cross validated versions of two fundamental estimators; lasso for high dimensional linear regression and singular value thresholding for matrix estimation. Our general framework is inspired by the ideas in Chatterjee and Jafarov (2015) and is potentially applicable to a wide range of estimation methods which use tuning parameters.
翻訳日:2023-05-05 19:56:39 公開日:2023-05-03
# シュワルツシルト時空におけるディラック方程式の境界状態:好奇心の学生に対する直観の探索

Bound states of the Dirac equation in Schwarzschild spacetime: an exploration of intuition for the curious student ( http://arxiv.org/abs/2207.00905v2 )

ライセンス: Link先を確認
Paul M. Alsing(参考訳) 本研究では、量子力学の学部で教えられたクーロンポテンシャルにおける境界状態の初等導出の類似性を利用したシュワルツシルト重力場における量子境界状態の可能性を検討する。 そのためには、非相対論的量子力学を超越し、高学年の卒業生(特別な)相対論的量子力学コースで教えられている中央ポテンシャルに対して相対論的ディラック方程式を利用する必要がある。 最後に、特別相対論的ディラック方程式は曲線時空に対して一般相対論的版に拡張されなければならない。 これらの異なる要素の全ては、学生読者のために書かれた優れた、非常に読みやすい教科書に存在し、好奇心をそそる学生が学び、探究するのに十分な詳細がある。 シュワルツシルト計量の効果的な1/r$ラジアルポテンシャル(角運動量障壁を持つ)が、小学校のGRコースで教えられているように、ニュートン的(1/r^3$補正を伴う)であるなら、シュヴァルツシルト時空における量子境界状態は、単に$V(r)$から$V_C(r)=-e^2/r$から$V_{Schw}=-G M m/r$に変化させることで導出できるのだろうか?

In this work we explore the possibility of quantum bound states in a Schwarzschild gravitational field leveraging the analogy of the elementary derivation of bound states in the Coulomb potential as taught in an undergraduate course in Quantum Mechanics. For this we will also need to go beyond non-relativistic quantum mechanics and utilize the relativistic Dirac equation for a central potential as taught in an advanced undergraduate or first year graduate (special) relativistic quantum mechanics course. Finally, the special relativistic Dirac equation must be extended to the general relativistic version for curved spacetime. All these disparate component pieces exist in excellent, very readable textbooks written for the student reader, with sufficient detail for a curious student to learn and explore. We pull all these threads together in order to explore a very natural question that a student might ask: "If the effective $1/r$ radial potential of the Schwarzschild metric (with angular momentum barrier), as taught in elementary GR courses for undergraduates, appears Newtonian-like (with a $1/r^3$ correction), then is it possible to derive quantum bound states in the Schwarzschild spacetime by simply changing the radial potential $V(r)$ from $V_C(r)=-e^2/r$ to $V_{Schw}=-G M m/r$?"
翻訳日:2023-05-05 19:48:59 公開日:2023-05-03
# 量子アルゴリズムのための自動決定論的誤り抑制ワークフローの実験ベンチマーク

Experimental benchmarking of an automated deterministic error suppression workflow for quantum algorithms ( http://arxiv.org/abs/2209.06864v2 )

ライセンス: Link先を確認
Pranav S. Mundada, Aaron Barbosa, Smarak Maity, Yulun Wang, T. M. Stace, Thomas Merkh, Felicity Nielson, Andre R. R. Carvalho, Michael Hush, Michael J. Biercuk, and Yuval Baum(参考訳) 量子コンピュータの期待に対する興奮は、ハードウェアが極めて脆弱でエラーを起こしやすいという現実によって引き起こされ、新しいアプリケーションの開発においてボトルネックとなる。 本稿では,ゲートレベルから回路実行および測定まで,量子アルゴリズムの誤りを決定論的に抑制するために設計された完全自律ワークフローを記述し,実験的に検証する。 Fire Opalと呼ばれるソフトウェアパッケージとして提供されるこのワークフローの重要な要素を紹介し、エラー対応コンパイル、自動システムワイドゲート最適化、回路レベルのエラーキャンセルのための動的デカップリングの自動埋め込み、測定エラーのキャリブレーション効率向上などの基礎となる物理概念を調査します。 次に、IBMハードウェア上で実行されるパフォーマンスベンチマークの包括的なスイートを示し、オープンな文献で利用可能な、最高の専門家構成のテクニックよりも1000倍以上改善されていることを示す。 ベンチマークには、bernstein vazirani, quantum fourier transform, grover's search, qaoa, vqe, syndrome extraction on a five-qubit quantum error correction code, quantum volumeという16の量子ビットシステムによる実験が含まれている。 すべての場合において、決定論的エラー抑圧ワークフローは最高性能を提供し、追加のサンプリングやランダム化オーバーヘッドを必要とせずに、不整合エラー境界にアプローチすると同時に、追加の確率的エラー抑制技術との互換性を維持している。

Excitement about the promise of quantum computers is tempered by the reality that the hardware remains exceptionally fragile and error-prone, forming a bottleneck in the development of novel applications. In this manuscript, we describe and experimentally test a fully autonomous workflow designed to deterministically suppress errors in quantum algorithms from the gate level through to circuit execution and measurement. We introduce the key elements of this workflow, delivered as a software package called Fire Opal, and survey the underlying physical concepts: error-aware compilation, automated system-wide gate optimization, automated dynamical decoupling embedding for circuit-level error cancellation, and calibration-efficient measurement-error mitigation. We then present a comprehensive suite of performance benchmarks executed on IBM hardware, demonstrating up to > 1000X improvement over the best alternative expert-configured techniques available in the open literature. Benchmarking includes experiments using up to 16 qubit systems executing: Bernstein Vazirani, Quantum Fourier Transform, Grover's Search, QAOA, VQE, Syndrome extraction on a five-qubit Quantum Error Correction code, and Quantum Volume. Experiments reveal a strong contribution of Non-Markovian errors to baseline algorithmic performance; in all cases the deterministic error-suppression workflow delivers the highest performance and approaches incoherent error bounds without the need for any additional sampling or randomization overhead, while maintaining compatibility with all additional probabilistic error suppression techniques.
翻訳日:2023-05-05 19:38:46 公開日:2023-05-03
# 欠落シフト下でのドメイン適応

Domain Adaptation under Missingness Shift ( http://arxiv.org/abs/2211.02093v3 )

ライセンス: Link先を確認
Helen Zhou, Sivaraman Balakrishnan, Zachary C. Lipton(参考訳) データの欠落率はしばしば記録保存ポリシーに依存するため、基礎となる機能が比較的安定している場合でも、時間や場所によって変化する可能性がある。 本稿では,DAMS(Missingness Shift)におけるドメイン適応の問題を紹介する。 ここでは、(ラベル付き)ソースデータと(ラベルなし)ターゲットデータは、異なるデータメカニズムに対して交換可能である。 データインジケータが不足している場合、DAMSは共変量シフトを減少させる。 このような指標が存在しない場合に対処するため、下記の理論結果を完全にランダムに報告する。 (i)共変量シフトが違反している(適応が必要) 二 最適線形源予測器は、平均を常に予測するよりも、目標領域において任意に悪化させることができる。 (iii)欠落率自体がない場合であっても、最適な目標予測器を識別することができる。 (iv) 線形モデルの場合, 簡単な解析調整により最適対象パラメータの一貫した推定値が得られる。 合成および半合成データ実験において,仮定が持たれた場合の手法の期待を実証する。 最後に、将来の拡張の豊富なファミリーについて論じる。

Rates of missing data often depend on record-keeping policies and thus may change across times and locations, even when the underlying features are comparatively stable. In this paper, we introduce the problem of Domain Adaptation under Missingness Shift (DAMS). Here, (labeled) source data and (unlabeled) target data would be exchangeable but for different missing data mechanisms. We show that if missing data indicators are available, DAMS reduces to covariate shift. Addressing cases where such indicators are absent, we establish the following theoretical results for underreporting completely at random: (i) covariate shift is violated (adaptation is required); (ii) the optimal linear source predictor can perform arbitrarily worse on the target domain than always predicting the mean; (iii) the optimal target predictor can be identified, even when the missingness rates themselves are not; and (iv) for linear models, a simple analytic adjustment yields consistent estimates of the optimal target parameters. In experiments on synthetic and semi-synthetic data, we demonstrate the promise of our methods when assumptions hold. Finally, we discuss a rich family of future extensions.
翻訳日:2023-05-05 19:29:16 公開日:2023-05-03
# オンザフライ制御合成のための探索政策--強化学習アプローチ

Exploration Policies for On-the-Fly Controller Synthesis: A Reinforcement Learning Approach ( http://arxiv.org/abs/2210.05393v2 )

ライセンス: Link先を確認
Tom\'as Delgado, Marco S\'anchez Sorondo, V\'ictor Braberman, Sebasti\'an Uchitel(参考訳) コントローラ合成は本質的には、計画(実際には「戦略」)がシステム目標を無期限に保持することを意図した非決定論的環境のためのモデルベースの計画である。 監視制御環境は、状態機械の並列構成として指定され、安全(つまり安全なゾーン内にシステムを保持する)に加えて、有効な戦略は「非ブロッキング」(環境が常に特定のマークされた状態に到達できるようにする)であることが要求される。 近年,非最大許容性(non-maximal permissiveness)を犠牲にして,広帯域かつ指数関数的に大きな環境空間の探索を避けるために,オンザフライ指向制御合成手法が提案されている。 この植物の漸進的な探索は、現在ドメインに依存しない人間設計のヒューリスティックによって導かれる。 本研究では,強化学習(RL)に基づくヒューリスティックスを得るための新しい手法を提案する。 したがって、合成アルゴリズムは、未有界な作用空間を持つRLタスクとしてフレーム化され、DQNの修正版が使用される。 状態とアクションの両方を抽象化するシンプルで一般的な機能のセットにより、より大規模なインスタンスに一般化した問題の小さなバージョンでヒューリスティックを学ぶことができ、効果的にゼロショットポリシー転送を行うことができる。 我々のエージェントは、非常に部分的に観察可能なRLタスクでスクラッチから学び、トレーニング中に見つからない場合において、既存のヒューリスティックな全体よりも優れています。

Controller synthesis is in essence a case of model-based planning for non-deterministic environments in which plans (actually ''strategies'') are meant to preserve system goals indefinitely. In the case of supervisory control environments are specified as the parallel composition of state machines and valid strategies are required to be ''non-blocking'' (i.e., always enabling the environment to reach certain marked states) in addition to safe (i.e., keep the system within a safe zone). Recently, On-the-fly Directed Controller Synthesis techniques were proposed to avoid the exploration of the entire -and exponentially large-environment space, at the cost of non-maximal permissiveness, to either find a strategy or conclude that there is none. The incremental exploration of the plant is currently guided by a domain-independent human-designed heuristic. In this work, we propose a new method for obtaining heuristics based on Reinforcement Learning (RL). The synthesis algorithm is thus framed as an RL task with an unbounded action space and a modified version of DQN is used. With a simple and general set of features that abstracts both states and actions, we show that it is possible to learn heuristics on small versions of a problem that generalize to the larger instances, effectively doing zero-shot policy transfer. Our agents learn from scratch in a highly partially observable RL task and outperform the existing heuristic overall, in instances unseen during training.
翻訳日:2023-05-05 19:27:53 公開日:2023-05-03
# 超伝導量子ハードウェア上での量子エネルギーテレポーテーションの実現

Realization of Quantum Energy Teleportation on Superconducting Quantum Hardware ( http://arxiv.org/abs/2301.02666v4 )

ライセンス: Link先を確認
Kazuki Ikeda(参考訳) 物理量を遠隔地へテレポートすることは、量子情報科学と技術にとって依然として重要な課題である。 量子テレポーテーションは量子情報の転送を可能にしたが、量子物理量のテレポーテーションはまだ実現されていない。 本稿では,実量子ハードウェア上での量子エネルギーテレポーテーションを初めて実現・観測する。 我々は、IBMの超伝導量子コンピュータを用いてこれを実現する。 結果は理論の厳密な解と一致し、測定誤差の軽減によって改善される。 量子エネルギーテレポーテーションは局所的な操作と古典的な通信のみを必要とする。 したがって、現在の量子コンピューティングと通信技術で完全に実現可能な現実的なベンチマークを提供する。

Teleporting physical quantities to remote locations is a remaining key challenge for quantum information science and technology. Quantum teleportation has enabled the transfer of quantum information, but teleportation of quantum physical quantities has not yet been realized. Here we report the first realization and observation of quantum energy teleportation on real quantum hardware. We achieve this by using several IBM's superconducting quantum computers. The results are consistent with the exact solution of the theory and are improved by the mitigation of measurement error. Quantum energy teleportation requires only local operations and classical communication. Therefore our results provide a realistic benchmark that is fully achievable with current quantum computing and communication technologies.
翻訳日:2023-05-05 19:21:53 公開日:2023-05-03
# 古典デコーダを用いたシリアル結合型ニューラルネットワークの最適化

Optimizing Serially Concatenated Neural Codes with Classical Decoders ( http://arxiv.org/abs/2212.10355v3 )

ライセンス: Link先を確認
Jannis Clausius, Marvin Geiselhart and Stephan ten Brink(参考訳) 短長符号を改善するために、従来のデコーダは実数値のニューラルエンコーダ、すなわちディープラーニングベースのコードワードシーケンスジェネレータでも使用できることを示した。 ここで、古典的なデコーダは、これらのニューラルコードについて洞察を得て、弱点に光を当てる貴重なツールになり得る。 具体的には、turboautoencoderは、最近開発されたチャネル符号化方式で、エンコーダとデコーダの両方をニューラルネットワークに置き換える。 まず,畳み込みニューラルネットワーク(CNN)をベースとした限られた受容領域が,BCJRアルゴリズムの適用により,計算量で最適に復号化可能であることを示す。 これらの最大アフター(MAP)コンポーネントデコーダは、並列またはシリアルに連結されたCNNエンコーダのための古典的な(定型的な)ターボデコーダを形成するために使用され、学習されたコードの最大値(ML)デコーダを提供する。 私たちの知る限りでは、古典的な復号アルゴリズムが非自明な実数値ニューラルコードに適用されたのはこれが初めてです。 さらに、BCJRアルゴリズムは完全に微分可能であるため、ニューラルネットワークをエンドツーエンドでトレーニングしたり、微調整したりすることが可能である。

For improving short-length codes, we demonstrate that classic decoders can also be used with real-valued, neural encoders, i.e., deep-learning based codeword sequence generators. Here, the classical decoder can be a valuable tool to gain insights into these neural codes and shed light on weaknesses. Specifically, the turbo-autoencoder is a recently developed channel coding scheme where both encoder and decoder are replaced by neural networks. We first show that the limited receptive field of convolutional neural network (CNN)-based codes enables the application of the BCJR algorithm to optimally decode them with feasible computational complexity. These maximum a posteriori (MAP) component decoders then are used to form classical (iterative) turbo decoders for parallel or serially concatenated CNN encoders, offering a close-to-maximum likelihood (ML) decoding of the learned codes. To the best of our knowledge, this is the first time that a classical decoding algorithm is applied to a non-trivial, real-valued neural code. Furthermore, as the BCJR algorithm is fully differentiable, it is possible to train, or fine-tune, the neural encoder in an end-to-end fashion.
翻訳日:2023-05-05 19:21:44 公開日:2023-05-03
# I2D2:神経論理と自己刺激による誘導的知識蒸留

I2D2: Inductive Knowledge Distillation with NeuroLogic and Self-Imitation ( http://arxiv.org/abs/2212.09246v2 )

ライセンス: Link先を確認
Chandra Bhagavatula, Jena D. Hwang, Doug Downey, Ronan Le Bras, Ximing Lu, Lianhui Qin, Keisuke Sakaguchi, Swabha Swayamdipta, Peter West, Yejin Choi(参考訳) 事前訓練された言語モデルは、スケールによる急速な進歩にもかかわらず、依然として堅牢なコモンセンス能力に欠ける。 しかし、スケールが勝利のレシピのように見える。結局のところ、最大のモデルは最大のcommonsense能力を獲得したようだ。 それとも? 本稿では,不規則なコモンセンス能力を持つ小型言語モデル(gpt-2)が,新たなコモンセンス蒸留アルゴリズムを搭載した小型言語モデル(gpt-3)よりも桁違いに大きく優れたモデル(gpt-3)に勝てるか,という点について検討する。 ここで私たちが質問する重要な知的質問は、スケールの恩恵を受けない学習アルゴリズムを設計することは可能か、あるいは全く可能か、しかしながら、競争レベルのコモンセンス獲得に繋がるかどうかである。 本研究では,コモンセンス知識の生成モデルについて検討し,ジェネリクス生成の課題,鳥類が飛べるような日常概念に関するコモンセンス事実の言明に着目した。 本稿では,西欧のシンボリック・ナレッジ蒸留に追随する新しいコモンセンス蒸留フレームワークI2D2を導入するが,教師モデルとしての極規模のモデルへの依存を,(1)弱い,既成の言語モデルの生成品質を高めるためのニューロロジック・デコーディングの新たな適応,(2)モデルの強化されたコモンセンス獲得能力から反復的に学習するための自己刺激学習の2つの革新によって破壊する。 実験的な結果は、新しいアルゴリズムが有望な代替手段となるため、スケールが唯一の方法ではないことを示唆している。 さらに本研究では,現在利用可能な最大かつ高品質なジェネリックコーパスであるGen-A-Tomicについて検討した。

Pre-trained language models, despite their rapid advancements powered by scale, still fall short of robust commonsense capabilities. And yet, scale appears to be the winning recipe; after all, the largest models seem to have acquired the largest amount of commonsense capabilities. Or is it? In this paper, we investigate the possibility of a seemingly impossible match: can smaller language models with dismal commonsense capabilities (i.e., GPT-2), ever win over models that are orders of magnitude larger and better (i.e., GPT-3), if the smaller models are powered with novel commonsense distillation algorithms? The key intellectual question we ask here is whether it is possible, if at all, to design a learning algorithm that does not benefit from scale, yet leads to a competitive level of commonsense acquisition. In this work, we study the generative models of commonsense knowledge, focusing on the task of generating generics, statements of commonsense facts about everyday concepts, e.g., birds can fly. We introduce a novel commonsense distillation framework, I2D2, that loosely follows the Symbolic Knowledge Distillation of West et al. but breaks the dependence on the extreme-scale models as the teacher model by two innovations: (1) the novel adaptation of NeuroLogic Decoding to enhance the generation quality of the weak, off-the-shelf language models, and (2) self-imitation learning to iteratively learn from the model's own enhanced commonsense acquisition capabilities. Empirical results suggest that scale is not the only way, as novel algorithms can be a promising alternative. Moreover, our study leads to a new corpus of generics, Gen-A-Tomic, that is of the largest and highest quality available to date.
翻訳日:2023-05-05 19:21:11 公開日:2023-05-03
# 多分解能カーネル行列代数

Multiresolution kernel matrix algebra ( http://arxiv.org/abs/2211.11681v2 )

ライセンス: Link先を確認
H. Harbrecht, M. Multerer, O. Schenk, and Ch. Schwab(参考訳) 本稿では,効率的な分散データ解析を実現するために,サンプル圧縮カーネル行列のスパース代数を提案する。 本研究では, あるS形式において, 最適スパース行列を生成するサンプルレットを用いて, カーネル行列の圧縮を示す。 S型行列の追加と乗算とともに、有限微分性のカーネルに対して、基本的に行列サイズ$N$と線形にスケールするコストとメモリで実行できる。 我々は、(もし存在すれば)カーネル行列の逆元がs形式でも圧縮可能であることを証明し、活用する。 選択インバージョンでは、対応するsparsityパターンのエントリを直接計算することができる。 S型行列演算は、${\bm A}^\alpha$や$\exp({\bm A})$のようなより複雑な行列関数の効率的で近似的な計算を可能にする。 行列代数は擬微分計算によって数学的に正当化される。 応用として,空間統計学における効率的なガウス過程学習アルゴリズムを検討する。 数値的な結果を示し,その結果を定量化する。

We propose a sparse algebra for samplet compressed kernel matrices, to enable efficient scattered data analysis. We show the compression of kernel matrices by means of samplets produces optimally sparse matrices in a certain S-format. It can be performed in cost and memory that scale essentially linearly with the matrix size $N$, for kernels of finite differentiability, along with addition and multiplication of S-formatted matrices. We prove and exploit the fact that the inverse of a kernel matrix (if it exists) is compressible in the S-format as well. Selected inversion allows to directly compute the entries in the corresponding sparsity pattern. The S-formatted matrix operations enable the efficient, approximate computation of more complicated matrix functions such as ${\bm A}^\alpha$ or $\exp({\bm A})$. The matrix algebra is justified mathematically by pseudo differential calculus. As an application, efficient Gaussian process learning algorithms for spatial statistics is considered. Numerical results are presented to illustrate and quantify our findings.
翻訳日:2023-05-05 19:19:46 公開日:2023-05-03
# 連続した飛行時間ビデオ深度超解像

Consistent Direct Time-of-Flight Video Depth Super-Resolution ( http://arxiv.org/abs/2211.08658v2 )

ライセンス: Link先を確認
Zhanghao Sun, Wei Ye, Jinhui Xiong, Gyeongmin Choe, Jialiang Wang, Shuochen Su, Rakesh Ranjan(参考訳) 飛行時間(dToF)センサーは、次世代のオンデバイス3Dセンシングを約束している。 しかし、コンパクトモジュールの製造能力によって制限されるため、dToFデータは空間解像度が低く(例えば、iPhone dToFの$\sim 20\times30$など)、下流タスクに渡すには超解像度のステップが必要になる。 本稿では,低分解能dToFデータを対応する高分解能RGBガイダンスで融合することにより,この超分解能問題を解決する。 フレーム単位の融合を行う従来のRGB誘導深度向上手法とは異なり,低分解能dToFイメージングによる空間的曖昧性を緩和する最初の多フレーム融合方式を提案する。 さらに、dToFセンサは各局所パッチに対して独自の深度ヒストグラム情報を提供し、このdToF固有の特徴をネットワーク設計に組み込んで空間的曖昧さを緩和する。 複雑な動的屋内環境におけるモデルの評価と大規模dToFセンサデータセットの提供を目的として,動的オブジェクトを特徴とする最初の合成RGB-dToFビデオデータセットであるDyDToFと,物理画像処理による現実的なdToFシミュレータを紹介する。 dToF深度センシングがモバイルデバイスで主流になりつつあるため、この方法とデータセットは幅広いコミュニティにとって有益であると考えています。 私たちのコードとデータは、 https://github.com/facebookresearch/DVSR/

Direct time-of-flight (dToF) sensors are promising for next-generation on-device 3D sensing. However, limited by manufacturing capabilities in a compact module, the dToF data has a low spatial resolution (e.g., $\sim 20\times30$ for iPhone dToF), and it requires a super-resolution step before being passed to downstream tasks. In this paper, we solve this super-resolution problem by fusing the low-resolution dToF data with the corresponding high-resolution RGB guidance. Unlike the conventional RGB-guided depth enhancement approaches, which perform the fusion in a per-frame manner, we propose the first multi-frame fusion scheme to mitigate the spatial ambiguity resulting from the low-resolution dToF imaging. In addition, dToF sensors provide unique depth histogram information for each local patch, and we incorporate this dToF-specific feature in our network design to further alleviate spatial ambiguity. To evaluate our models on complex dynamic indoor environments and to provide a large-scale dToF sensor dataset, we introduce DyDToF, the first synthetic RGB-dToF video dataset that features dynamic objects and a realistic dToF simulator following the physical imaging process. We believe the methods and dataset are beneficial to a broad community as dToF depth sensing is becoming mainstream on mobile devices. Our code and data are publicly available: https://github.com/facebookresearch/DVSR/
翻訳日:2023-05-05 19:19:34 公開日:2023-05-03
# 部分多様体仮定下における拡散モデルにおける特異点の数学的解析

Mathematical analysis of singularities in the diffusion model under the submanifold assumption ( http://arxiv.org/abs/2301.07882v3 )

ライセンス: Link先を確認
Yubin Lu, Zhongjian Wang, Guillaume Bal(参考訳) 本稿では,機械学習における拡散モデルの数学的解析について述べる。 逆サンプリングプロセスのドリフト項は、データ分布と前方拡散を伴う条件付き期待値として表される。 トレーニングプロセスは,条件付き期待値に関連する平均2乗残差を最小化することにより,そのようなドリフト関数を求めることを目的としている。 前方拡散のグリーン関数を短時間で近似することにより、DDPMにおける解析平均ドリフト関数とSGMにおけるスコア関数が、低次元多様体など特異データ分布のサンプリングプロセスの最終段階において漸近的に爆発し、ネットワークによって近似することが困難であることを示す。 この難しさを克服するため、特異なデータ分布に対しても、新たな目標関数と関連する損失を導出する。 理論的な知見をいくつかの数値例で示す。

This paper provide several mathematical analyses of the diffusion model in machine learning. The drift term of the backwards sampling process is represented as a conditional expectation involving the data distribution and the forward diffusion. The training process aims to find such a drift function by minimizing the mean-squared residue related to the conditional expectation. Using small-time approximations of the Green's function of the forward diffusion, we show that the analytical mean drift function in DDPM and the score function in SGM asymptotically blow up in the final stages of the sampling process for singular data distributions such as those concentrated on lower-dimensional manifolds, and is therefore difficult to approximate by a network. To overcome this difficulty, we derive a new target function and associated loss, which remains bounded even for singular data distributions. We illustrate the theoretical findings with several numerical examples.
翻訳日:2023-05-05 19:09:23 公開日:2023-05-03
# 授業増分学習のためのオンラインハイパーパラメータ最適化

Online Hyperparameter Optimization for Class-Incremental Learning ( http://arxiv.org/abs/2301.05032v2 )

ライセンス: Link先を確認
Yaoyao Liu, Yingying Li, Bernt Schiele, Qianru Sun(参考訳) class-incremental learning (cil) は分類モデルを訓練することを目的としており、クラスの数は段階ごとに増加する。 CILの固有の課題は、安定性と塑性のトレードオフである。すなわち、CILモデルは古い知識を保ち、新しい知識を吸収するためにプラスチックを保たなければならない。 しかし、既存のCILモデルでは、異なるデータ受信設定で最適なトレードオフを達成できない。通常、トレーニング・アット・ハーフ(TFH)設定はより安定性を必要とするが、トレーニング・アット・スクラッチ(TFS)はより可塑性を必要とする。 そこで我々は,事前設定を知らずにトレードオフを適応的に最適化できるオンライン学習手法を設計する。 具体的には、まず、トレードオフ、例えば知識蒸留(KD)損失重み、学習率、分類器タイプに影響を与える重要なハイパーパラメータを紹介する。 次に,ハイパーパラメータ最適化プロセスをオンラインマルコフ決定プロセス(mdp)問題として定式化し,それを解決するアルゴリズムを提案する。 我々は,CILプロトコルにオンラインMDP手法を適用する際の問題を解決するために,局所推定報酬と古典的帯域幅アルゴリズムExp3を適用した。 提案手法は,TFH と TFS の両方の設定における最高性能の CIL 手法を一貫して改善し,例えば ImageNet-Full 上での TFH と TFS の平均精度を2.2 ポイント向上させる。

Class-incremental learning (CIL) aims to train a classification model while the number of classes increases phase-by-phase. An inherent challenge of CIL is the stability-plasticity tradeoff, i.e., CIL models should keep stable to retain old knowledge and keep plastic to absorb new knowledge. However, none of the existing CIL models can achieve the optimal tradeoff in different data-receiving settings--where typically the training-from-half (TFH) setting needs more stability, but the training-from-scratch (TFS) needs more plasticity. To this end, we design an online learning method that can adaptively optimize the tradeoff without knowing the setting as a priori. Specifically, we first introduce the key hyperparameters that influence the trade-off, e.g., knowledge distillation (KD) loss weights, learning rates, and classifier types. Then, we formulate the hyperparameter optimization process as an online Markov Decision Process (MDP) problem and propose a specific algorithm to solve it. We apply local estimated rewards and a classic bandit algorithm Exp3 to address the issues when applying online MDP methods to the CIL protocol. Our method consistently improves top-performing CIL methods in both TFH and TFS settings, e.g., boosting the average accuracy of TFH and TFS by 2.2 percentage points on ImageNet-Full, compared to the state-of-the-art.
翻訳日:2023-05-05 19:08:50 公開日:2023-05-03
# GKP誤差補正における雑音伝搬のロバスト抑制

Robust suppression of noise propagation in GKP error-correction ( http://arxiv.org/abs/2302.12088v2 )

ライセンス: Link先を確認
Christian Siegele and Philippe Campagne-Ibarcq(参考訳) 複雑な状態の準備と対照的な直線方向論理演算は、ゴッテマン、キータエフ、プレスキル(GKP)によって提案されたボソニック符号化の目印である。 最近報告されたイオンと超伝導回路におけるGKP量子ビットの生成と誤り訂正は、そのような符号化量子ビットに基づく量子コンピューティングアーキテクチャの将来を大いに約束する。 しかし、これらの実験は、符号化された量子ビットを伝搬し破壊する可能性のある2段階のアシラリーシステム(TLS)によるエラーシンドロームの測定に依存している。 2つの発振器とTLSからなる単純なモジュールを提案し、2つの実験的にアクセス可能な量子ゲートと基本フィードバック制御を用いて、そのような伝播誤差から保護された誤り訂正GKP量子ビットを実装する。 周期gkp状態の理想化において、プロトコルパラメータを最適化する効率的な数値手法を開発し、tlsのフリップから生じる符号化量子ビットの誤差と位相空間における振動子状態の拡散が、個々の演算に対するノイズ強度が減少するにつれて指数関数的に抑制されることを示す。 提案手法は,GKP量子ビットを用いたフォールトトレラント量子計算への主な障害を回避している。

Straightforward logical operations contrasting with complex state preparation are the hallmarks of the bosonic encoding proposed by Gottesman, Kitaev and Preskill (GKP). The recently reported generation and error-correction of GKP qubits in trapped ions and superconducting circuits thus holds great promise for the future of quantum computing architectures based on such encoded qubits. However, these experiments rely on the measurement of error-syndromes via an ancillary two-level system (TLS), whose noise may propagate and corrupt the encoded qubit. We propose a simple module composed of two oscillators and a TLS, operated with two experimentally accessible quantum gates and elementary feedback controls to implement an error-corrected GKP qubit protected from such propagating errors. In the idealized setting of periodic GKP states, we develop efficient numerical methods to optimize our protocol parameters and show that errors of the encoded qubit stemming from flips of the TLS and diffusion of the oscillators state in phase-space may be exponentially suppressed as the noise strength over individual operations is decreased. Our approach circumvents the main roadblock towards fault-tolerant quantum computation with GKP qubits.
翻訳日:2023-05-05 19:02:52 公開日:2023-05-03
# ドメイン特化事前学習による全スライド画像分類の信頼性向上

Domain-Specific Pre-training Improves Confidence in Whole Slide Image Classification ( http://arxiv.org/abs/2302.09833v2 )

ライセンス: Link先を確認
Soham Rohit Chitnis, Sidong Liu, Tirtharaj Dash, Tanmay Tulsidas Verlekar, Antonio Di Ieva, Shlomo Berkovsky, Lovekesh Vig, Ashwin Srinivasan(参考訳) 全スライド画像(WSI)または病理像はデジタル病理学で使用される。 WSIは、そのサイズとピクセルレベルのアノテーションの欠如により、臨床診断のためのディープラーニングモデルに大きな課題を提起する。 近年の計算病理学の発展に伴い,より新しいマルチインスタンス学習モデルが提案されている。 WSIの多重インスタンス学習は、パッチの作成を必要とし、これらのパッチのエンコーディングを使用して診断を行う。 これらのモデルはパッチエンコーディングに一般的な事前トレーニングモデル(imagenetで事前トレーニングされたresnet-50)を使用する。 最近提案されたkimianetは、tcga slidesで事前トレーニングされたdrknet121モデルであり、ドメイン固有の事前トレーニングモデルである。 本稿では,ドメイン固有の事前学習がWSI分類に及ぼす影響を示す。 ドメイン固有の事前学習の効果を検討するために,現在最先端のマルチインスタンス学習モデルを検討した。 1)注意に基づくモデルであるCLAM 2)自己着床モデルであるtransmilは,原発性脳腫瘍(グリオーマ)の検出におけるモデルの信頼性と予測性能を評価した。 ドメイン固有の事前訓練はモデルの信頼性を高め、またwsiベースのグリオーマサブタイプ分類の新たな最先端性能を達成し、グリオーマ診断の補助に高い臨床応用性を示す。 コードと実験結果はhttps://github.com/soham-chitnis10/WSIドメイン固有で公開します。

Whole Slide Images (WSIs) or histopathology images are used in digital pathology. WSIs pose great challenges to deep learning models for clinical diagnosis, owing to their size and lack of pixel-level annotations. With the recent advancements in computational pathology, newer multiple-instance learning-based models have been proposed. Multiple-instance learning for WSIs necessitates creating patches and uses the encoding of these patches for diagnosis. These models use generic pre-trained models (ResNet-50 pre-trained on ImageNet) for patch encoding. The recently proposed KimiaNet, a DenseNet121 model pre-trained on TCGA slides, is a domain-specific pre-trained model. This paper shows the effect of domain-specific pre-training on WSI classification. To investigate the effect of domain-specific pre-training, we considered the current state-of-the-art multiple-instance learning models, 1) CLAM, an attention-based model, and 2) TransMIL, a self-attention-based model, and evaluated the models' confidence and predictive performance in detecting primary brain tumors - gliomas. Domain-specific pre-training improves the confidence of the models and also achieves a new state-of-the-art performance of WSI-based glioma subtype classification, showing a high clinical applicability in assisting glioma diagnosis. We will publicly share our code and experimental results at https://github.com/soham-chitnis10/WSI-domain-specific.
翻訳日:2023-05-05 19:02:09 公開日:2023-05-03
# 物理に基づくパラメータ化ニューラル常微分方程式:ロケット燃焼器におけるレーザー点火の予測

Physics-based parameterized neural ordinary differential equations: prediction of laser ignition in a rocket combustor ( http://arxiv.org/abs/2302.08629v2 )

ライセンス: Link先を確認
Yizhou Qian, Jonathan Wang, Quentin Douasbin, Eric Darve(参考訳) 本研究では,パラメータ化ニューラル常微分方程式(PNODE)に基づくモデルロケット燃焼器におけるレーザ点火の低次モデリングのための物理に基づく新しいデータ駆動フレームワークを提案する。 深層ニューラルネットワークはレーザー点火の高次元パラメータの関数として組み込まれ、熱源関数、事前指数因子、活性化エネルギーを含む0次元流れモデルで様々な項を予測する。 我々のPNODEは,0次元フローモデルの計算式を用いて,限られた数のトレーニングサンプルを必要とし,物理的制約を満たすとともに,温度,圧力,質量分数などの様々な量の軌道を予測する。 試作ロケット燃焼器におけるレーザー誘起着火の高忠実度計算流体力学(CFD)シミュレーションの解スナップショットにおける物理ベースPNODEの有効性を検証する。 物理に基づくPNODEの性能とカーネルリッジ回帰と完全連結ニューラルネットワークの性能を比較した。 その結果, 物理ベースのpnodeは, 平均温度の絶対誤差が低い解を提供し, 高次元パラメータによるレーザー点火の予測を改善できることがわかった。

In this work, we present a novel physics-based data-driven framework for reduced-order modeling of laser ignition in a model rocket combustor based on parameterized neural ordinary differential equations (PNODE). Deep neural networks are embedded as functions of high-dimensional parameters of laser ignition to predict various terms in a 0D flow model including the heat source function, pre-exponential factors, and activation energy. Using the governing equations of a 0D flow model, our PNODE needs only a limited number of training samples and predicts trajectories of various quantities such as temperature, pressure, and mass fractions of species while satisfying physical constraints. We validate our physics-based PNODE on solution snapshots of high-fidelity Computational Fluid Dynamics (CFD) simulations of laser-induced ignition in a prototype rocket combustor. We compare the performance of our physics-based PNODE with that of kernel ridge regression and fully connected neural networks. Our results show that our physics-based PNODE provides solutions with lower mean absolute errors of average temperature over time, thus improving the prediction of successful laser ignition with high-dimensional parameters.
翻訳日:2023-05-05 19:01:48 公開日:2023-05-03
# 学習のための生成AI:合成学習ビデオの可能性を探る

Generative AI for learning: Investigating the potential of synthetic learning videos ( http://arxiv.org/abs/2304.03784v2 )

ライセンス: Link先を確認
Daniel Leiker, Ashley Ricker Gyllen, Ismail Eldesouky, Mutlu Cukurova(参考訳) 生成人工知能(AI)の最近の進歩は世界中の注目を集めている。 Dalle-2やChatGPTのようなツールは、これまでAIの能力を超えると思われるタスクが、さまざまな方法でクリエイティブメディアの生産性を高める可能性があることを示唆している。 本研究は,AI合成ビデオを用いたオンライン教育用コンテンツ作成の有用性について検討する。 現在、AI生成合成メディアの現実的な教育価値についての研究が限られている。 このギャップに対処するために,オンライン学習プラットフォームにおけるAI合成ビデオの利用が,学習者のコンテンツ獲得と学習経験に与える影響を検討した。 我々は,2つのマイクロラーニング条件のうちの1つに,大人の学習者(n=83)をランダムに割り当て,事前および後評価を収集し,参加者の学習経験について調査した。 コントロール条件には従来のインストラクタービデオが含まれ、実験条件にはリアルなAI生成キャラクタを備えた合成ビデオが含まれていた。 その結果,両条件の学習者は前学習から後学習へ有意に改善し(p<.001),両者の利得に有意な差は認められなかった(p=.80)。 また,学習者が従来のビデオや合成ビデオをどのように感じているかには差はなかった。 これらの結果は、AIが生成した合成学習ビデオが、オンラインの教育環境における従来の方法によるビデオの代替になり得る可能性を示唆している。

Recent advances in generative artificial intelligence (AI) have captured worldwide attention. Tools such as Dalle-2 and ChatGPT suggest that tasks previously thought to be beyond the capabilities of AI may now augment the productivity of creative media in various new ways, including through the generation of synthetic video. This research paper explores the utility of using AI-generated synthetic video to create viable educational content for online educational settings. To date, there is limited research investigating the real-world educational value of AI-generated synthetic media. To address this gap, we examined the impact of using AI-generated synthetic video in an online learning platform on both learners content acquisition and learning experience. We took a mixed-method approach, randomly assigning adult learners (n=83) into one of two micro-learning conditions, collecting pre- and post-learning assessments, and surveying participants on their learning experience. The control condition included a traditionally produced instructor video, while the experimental condition included a synthetic video with a realistic AI-generated character. The results show that learners in both conditions demonstrated significant improvement from pre- to post-learning (p<.001), with no significant differences in gains between the two conditions (p=.80). In addition, no differences were observed in how learners perceived the traditional and synthetic videos. These findings suggest that AI-generated synthetic learning videos have the potential to be a viable substitute for videos produced via traditional methods in online educational settings, making high quality educational content more accessible across the globe.
翻訳日:2023-05-05 18:53:39 公開日:2023-05-03
# 希土類イオンを用いたスケーラブルな量子インターネットへの道のり

A perspective on the pathway to a scalable quantum internet using rare-earth ions ( http://arxiv.org/abs/2304.07272v2 )

ライセンス: Link先を確認
Robert M. Pettit, Farhang Hadad Farshi, Sean E. Sullivan, \'Alvaro V\'eliz-Osorio, and Manish Kumar Singh(参考訳) グローバル量子インターネットの究極の実現には、量子情報を生成、保存、操作できるスケーラブルな技術の進歩が必要である。 これらのタスクを量子ネットワークで実行する重要なデバイスは量子リピータであり、遠方のネットワークノード間の絡み合いの長距離分布を可能にする。 本稿では,量子リピータの基本機能の概要と,希土類イオンドープ材料を用いたリピータの開発に向けた進展について述べるとともに,技術が成熟するにつれて直面する課題について述べる。 ネットワークアプリケーションに適したerbiumには特に注意を払っています。 最後に、近接量子ネットワークへの影響について、希土類イオンプラットフォームをさらに導くための短期ベンチマークについて論じる。

The ultimate realization of a global quantum internet will require advances in scalable technologies capable of generating, storing, and manipulating quantum information. The essential devices that will perform these tasks in a quantum network are quantum repeaters, which will enable the long-range distribution of entanglement between distant network nodes. In this perspective, we provide an overview of the primary functions of a quantum repeater and discuss progress that has been made toward the development of repeaters with rare-earth ion doped materials while noting challenges that are being faced as the technologies mature. We give particular attention to erbium, which is well suited for networking applications. Finally, we provide a discussion of near-term benchmarks that can further guide rare-earth ion platforms for impact in near-term quantum networks.
翻訳日:2023-05-05 18:43:12 公開日:2023-05-03
# 音声について:話者認識データセットのダイナミクスに関する縦断的研究

About Voice: A Longitudinal Study of Speaker Recognition Dataset Dynamics ( http://arxiv.org/abs/2304.03858v2 )

ライセンス: Link先を確認
Casandra Rusti, Anna Leschanowsky, Carolyn Quinlan, Michaela Pnacek, Lauriane Gorce, Wiebke Hutiri(参考訳) 顔認識と同様に、話者認識は、銀行、教育、採用、移民、法執行、医療、健康など幅広い産業において、音声ベースの生体認証に広く使われている。 しかし、データセットの評価と監査はコンピュータビジョンと顔認識におけるデータプラクティスを改善してきたが、話者認識におけるデータプラクティスは、ほとんど疑わしくなかった。 我々の研究は、データセットの利用が時間とともにどのように進化してきたか、そしてこれが話者認識システムにおけるバイアスと公平性にどんな影響を及ぼすかを探求することによって、このギャップに対処することを目的としている。 これまでの研究では、一般的な話者認識ベンチマークにおける歴史的、表現的、測定バイアスの存在が示されている。 本稿では,2012年から2021年までの訓練と評価に用いる話者認識データセットの縦断的研究を行う。 我々は,話者認識アプローチが深層ニューラルネットワークの普及に移行した重要な期間における,データセットのコミュニティ導入と利用状況の変化を調査するため,700件近い論文を調査した。 本研究は,この分野で最も一般的に使用されるデータセットを特定し,その使用パターンを調査し,バイアス,公平性,その他の倫理的懸念に影響を与える属性を評価する。 以上より,話者認識技術の倫理と公平性に関するさらなる研究分野が示唆された。

Like face recognition, speaker recognition is widely used for voice-based biometric identification in a broad range of industries, including banking, education, recruitment, immigration, law enforcement, healthcare, and well-being. However, while dataset evaluations and audits have improved data practices in computer vision and face recognition, the data practices in speaker recognition have gone largely unquestioned. Our research aims to address this gap by exploring how dataset usage has evolved over time and what implications this has on bias and fairness in speaker recognition systems. Previous studies have demonstrated the presence of historical, representation, and measurement biases in popular speaker recognition benchmarks. In this paper, we present a longitudinal study of speaker recognition datasets used for training and evaluation from 2012 to 2021. We survey close to 700 papers to investigate community adoption of datasets and changes in usage over a crucial time period where speaker recognition approaches transitioned to the widespread adoption of deep neural networks. Our study identifies the most commonly used datasets in the field, examines their usage patterns, and assesses their attributes that affect bias, fairness, and other ethical concerns. Our findings suggest areas for further research on the ethics and fairness of speaker recognition technology.
翻訳日:2023-05-05 18:41:03 公開日:2023-05-03
# 領域インクリメンタル3次元物体検出のための勾配に基づく最大干渉検索

Gradient-based Maximally Interfered Retrieval for Domain Incremental 3D Object Detection ( http://arxiv.org/abs/2304.14460v2 )

ライセンス: Link先を確認
Barza Nisar, Hruday Vishal Kanna Anand, Steven L. Waslander(参考訳) すべての気象条件における正確な3dオブジェクト検出は、現在までのほとんどの作業が晴れた気象データで行われているため、自動運転車の広範な展開を可能にするための重要な課題である。 悪天候条件を一般化するために、監督された手法は、晴れた気象データに基づいて事前訓練されたモデルを微調整する代わりに、すべての気象データをスクラッチから訓練した場合に最適である。 データセットが成長を続け、可能な気象条件の全範囲を網羅し続ければ、すべてのデータのスクラッチからのトレーニングは、最終的には計算不可能でコストがかかるようになる。 一方で、異なる気象ドメインからのデータに対するナイーブな微調整は、以前に学習したドメインを壊滅的に忘れてしまう可能性がある。 リプレイに基づく連続学習手法の成功に触発されて、リプレイのための勾配に基づくサンプリング戦略であるグラディエントベースの最大干渉検索(GMIR)を提案する。 微調整中、GMIRは、現在の更新の勾配ベクトルとの最大干渉を示す勾配ベクトルを示す前のドメインデータセットから定期的にサンプルを検索する。 SeeingThroughFog(STF)データセット上の3Dオブジェクト検出実験は、GMIRが忘れを克服するだけでなく、全データのスクラッチトレーニングと比較して、総トレーニング時間を46.25%削減する競合性能も提供することを示している。

Accurate 3D object detection in all weather conditions remains a key challenge to enable the widespread deployment of autonomous vehicles, as most work to date has been performed on clear weather data. In order to generalize to adverse weather conditions, supervised methods perform best if trained from scratch on all weather data instead of finetuning a model pretrained on clear weather data. Training from scratch on all data will eventually become computationally infeasible and expensive as datasets continue to grow and encompass the full extent of possible weather conditions. On the other hand, naive finetuning on data from a different weather domain can result in catastrophic forgetting of the previously learned domain. Inspired by the success of replay-based continual learning methods, we propose Gradient-based Maximally Interfered Retrieval (GMIR), a gradient based sampling strategy for replay. During finetuning, GMIR periodically retrieves samples from the previous domain dataset whose gradient vectors show maximal interference with the gradient vector of the current update. Our 3D object detection experiments on the SeeingThroughFog (STF) dataset show that GMIR not only overcomes forgetting but also offers competitive performance compared to scratch training on all data with a 46.25% reduction in total training time.
翻訳日:2023-05-05 18:33:33 公開日:2023-05-03
# datacomp: 次世代のマルチモーダルデータセットの探索

DataComp: In search of the next generation of multimodal datasets ( http://arxiv.org/abs/2304.14108v2 )

ライセンス: Link先を確認
Samir Yitzhak Gadre, Gabriel Ilharco, Alex Fang, Jonathan Hayase, Georgios Smyrnis, Thao Nguyen, Ryan Marten, Mitchell Wortsman, Dhruba Ghosh, Jieyu Zhang, Eyal Orgad, Rahim Entezari, Giannis Daras, Sarah Pratt, Vivek Ramanujan, Yonatan Bitton, Kalyani Marathe, Stephen Mussmann, Richard Vencu, Mehdi Cherti, Ranjay Krishna, Pang Wei Koh, Olga Saukh, Alexander Ratner, Shuran Song, Hannaneh Hajishirzi, Ali Farhadi, Romain Beaumont, Sewoong Oh, Alex Dimakis, Jenia Jitsev, Yair Carmon, Vaishaal Shankar, Ludwig Schmidt(参考訳) 大規模なマルチモーダルデータセットは、CLIP、Stable Diffusion、GPT-4といった最近のブレークスルーにおいて有効である。 同時にデータセットは、モデルアーキテクチャやトレーニングアルゴリズムと同じ研究の注目を集めることは滅多にない。 機械学習エコシステムにおけるこの欠点に対処するために、トレーニングコードを修正し、研究者が新しいトレーニングセットを提案することで革新するベンチマークであるDataCompを紹介します。 Common Crawlの12.8Bイメージテキストペアの候補プールを中心にしたデータセット実験用のテストベッドを提供する。 ベンチマーク参加者は、新しいフィルタリングテクニックを設計し、新しいデータソースをキュレートし、標準化されたCLIPトレーニングコードを実行し、38の下流テストセットでテストすることで、新しいデータセットを評価します。 私たちのベンチマークは、複数のスケールで構成されており、4つの候補プールサイズと関連する計算予算は、トレーニング中に見られる12.8Mから12.8Bまでである。 このマルチスケール設計は、スケーリングトレンドの研究を容易にし、様々なリソースを持つ研究者がベンチマークにアクセスできるようにする。 我々のベースライン実験は、DataCompワークフローがマルチモーダルデータセットを改善するための有望な方法であることを示している。 本稿では,12.8B候補プールに単純なフィルタリングアルゴリズムを適用したデータセットDataComp-1Bを紹介する。 1.4Bサブセットにより、ImageNet上でCLIP ViT-L/14をスクラッチから79.2%のゼロショット精度でトレーニングすることができる。 我々の新しいViT-L/14モデルは、LAION-2Bでトレーニングされたより大きなViT-g/14を0.7%向上させ、トレーニング計算を9倍削減する。 また、OpenAIのCLIP ViT-L/14を3.7%上回り、当社のモデルと同じ計算予算でトレーニングしています。 これらの成果は、トレーニングセットを慎重にキュレートすることで、モデルパフォーマンスを改善する可能性を強調します。 DataComp-1Bは最初のステップにすぎないと考えており、DataCompが次世代のマルチモーダルデータセットへの道を開くことを願っています。

Large multimodal datasets have been instrumental in recent breakthroughs such as CLIP, Stable Diffusion, and GPT-4. At the same time, datasets rarely receive the same research attention as model architectures or training algorithms. To address this shortcoming in the machine learning ecosystem, we introduce DataComp, a benchmark where the training code is fixed and researchers innovate by proposing new training sets. We provide a testbed for dataset experiments centered around a new candidate pool of 12.8B image-text pairs from Common Crawl. Participants in our benchmark design new filtering techniques or curate new data sources and then evaluate their new dataset by running our standardized CLIP training code and testing on 38 downstream test sets. Our benchmark consists of multiple scales, with four candidate pool sizes and associated compute budgets ranging from 12.8M to 12.8B samples seen during training. This multi-scale design facilitates the study of scaling trends and makes the benchmark accessible to researchers with varying resources. Our baseline experiments show that the DataComp workflow is a promising way of improving multimodal datasets. We introduce DataComp-1B, a dataset created by applying a simple filtering algorithm to the 12.8B candidate pool. The resulting 1.4B subset enables training a CLIP ViT-L/14 from scratch to 79.2% zero-shot accuracy on ImageNet. Our new ViT-L/14 model outperforms a larger ViT-g/14 trained on LAION-2B by 0.7 percentage points while requiring 9x less training compute. We also outperform OpenAI's CLIP ViT-L/14 by 3.7 percentage points, which is trained with the same compute budget as our model. These gains highlight the potential for improving model performance by carefully curating training sets. We view DataComp-1B as only the first step and hope that DataComp paves the way toward the next generation of multimodal datasets.
翻訳日:2023-05-05 18:33:09 公開日:2023-05-03
# ニューラルネットワークの有効理論の構造

Structures of Neural Network Effective Theories ( http://arxiv.org/abs/2305.02334v1 )

ライセンス: Link先を確認
Ian Banta, Tianji Cai, Nathaniel Craig, Zhengkang Zhang(参考訳) 我々は、有限幅補正の計算をニューロン統計に劇的に単純化する、深層ニューラルネットワークに対応する有効場理論(EFT)への図式的アプローチを開発する。 EFT計算の構造は、単一条件がニューロン前活性化の全ての連結コレレータの臨界性を支配することを透明にする。 このようなETFを理解することは、深層学習と場の理論シミュレーションの進展を促進する可能性がある。

We develop a diagrammatic approach to effective field theories (EFTs) corresponding to deep neural networks at initialization, which dramatically simplifies computations of finite-width corrections to neuron statistics. The structures of EFT calculations make it transparent that a single condition governs criticality of all connected correlators of neuron preactivations. Understanding of such EFTs may facilitate progress in both deep learning and field theory simulations.
翻訳日:2023-05-05 18:24:45 公開日:2023-05-03
# ロボットによるサンゴ礁の生物ホットスポットマッピング

Biological Hotspot Mapping in Coral Reefs with Robotic Visual Surveys ( http://arxiv.org/abs/2305.02330v1 )

ライセンス: Link先を確認
Daniel Yang, Levi Cai, Stewart Jamieson, Yogesh Girdhar(参考訳) サンゴ礁は変化の早い複雑な生態系であり、監視や研究に不可欠である。 生物学的ホットスポット検出は、サンゴ礁の管理者が監視および介入タスクのために限られた資源を優先するのに役立つ。 ここでは、自律型水中車両(AUV)とカメラ、および視覚検出器と光度計を組み合わせて、これらのホットスポットをマッピングし識別する。 このアプローチは、速いフィードバックサイクルで高い空間分解能情報を提供できる。 我々の知る限り、私たちはサンゴ礁の地形と協調して、AUVを用いて視覚的に観察され、微細な生体ホットスポットマップを収集する最初の試みの1つを提示する。 我々のホットスポットマップは、サンゴ礁の生物多様性と豊富性の確立されたプロキシ指標である粘性度と相関し、3D再構成の視覚検査と相関する。 また,大規模なデータセット上で事前学習されたこれらの視覚検出器を用いて,新たなサンゴ礁に適用する場合に,このアプローチをスケールアップする問題について検討する。

Coral reefs are fast-changing and complex ecosystems that are crucial to monitor and study. Biological hotspot detection can help coral reef managers prioritize limited resources for monitoring and intervention tasks. Here, we explore the use of autonomous underwater vehicles (AUVs) with cameras, coupled with visual detectors and photogrammetry, to map and identify these hotspots. This approach can provide high spatial resolution information in fast feedback cycles. To the best of our knowledge, we present one of the first attempts at using an AUV to gather visually-observed, fine-grain biological hotspot maps in concert with topography of a coral reefs. Our hotspot maps correlate with rugosity, an established proxy metric for coral reef biodiversity and abundance, as well as with our visual inspections of the 3D reconstruction. We also investigate issues of scaling this approach when applied to new reefs by using these visual detectors pre-trained on large public datasets.
翻訳日:2023-05-05 18:24:37 公開日:2023-05-03
# 耕作野生:機械のテクノ多様性と野生性

Cultivated Wildness: Technodiversity and Wildness in Machines ( http://arxiv.org/abs/2305.02328v1 )

ライセンス: Link先を確認
Zihao Zhang and Bradley Cantrell(参考訳) 本稿では,景観デザインと人工知能の交点における野生栽培の考え方について考察する。 論文は、現代の景観の実践は、潜在的に荒野に対する単一の理解を克服し、その代わりに、現代の環境人文科学、科学技術研究、生態科学、景観建築におけるアイデアと関心を通して、新しい形の野生の場所を開拓するランドスケープ戦略を探求すべきだと仮定している。 本稿では,環境工学,コンピュータ科学,ランドスケープアーキテクチャ研究の事例を描き,知的機械を用いた野生地構築の枠組みを考察する。 このフレームワークでは、マシンは、ローカライズされた人間の知性と機関を拡張するために使用される「デジタルインフラストラクチャ」の層として理解されていない。 むしろ機械は、共同生産のインテリジェンスに参加できるアクティブエージェントとして概念化されている。 近年、センサーネットワーク、人工知能、サイバー物理システムなどのサイバーネティック技術が発展し、フレームワークの確立にも寄与している。 この枠組みの核心は「技術多様性」であり、これは生物多様性と並行して、最適化と効率によって駆動される技術的発展に対する特異なビジョンは、環境と構築する他の可能な関係を排除するモノカルチャーなアプローチを強化するものである。 したがって、耕作性は機械における「野生性」を認識することでもある。

This paper investigates the idea of cultivated wildness at the intersection of landscape design and artificial intelligence. The paper posits that contemporary landscape practices should overcome the potentially single understanding on wilderness, and instead explore landscape strategies to cultivate new forms of wild places via ideas and concerns in contemporary Environmental Humanities, Science and Technology Studies, Ecological Sciences, and Landscape Architecture. Drawing cases in environmental engineering, computer science, and landscape architecture research, this paper explores a framework to construct wild places with intelligent machines. In this framework, machines are not understood as a layer of "digital infrastructure" that is used to extend localized human intelligence and agency. Rather machines are conceptualized as active agents who can participate in the intelligence of co-production. Recent developments in cybernetic technologies such as sensing networks, artificial intelligence, and cyberphysical systems can also contribute to establishing the framework. At the heart of this framework is "technodiversity," in parallel with biodiversity, since a singular vision on technological development driven by optimization and efficiency reinforces a monocultural approach that eliminates other possible relationships to construct with the environment. Thus, cultivated wildness is also about recognizing "wildness" in machines.
翻訳日:2023-05-05 18:24:19 公開日:2023-05-03
# ランドスケープデザインにおける人工知能(AI)と機械学習(ML)の未来--アメリカ合衆国東海岸バージニアを事例として

The Future of Artificial Intelligence (AI) and Machine Learning (ML) in Landscape Design: A Case Study in Coastal Virginia, USA ( http://arxiv.org/abs/2305.02327v1 )

ライセンス: Link先を確認
Zihao Zhang and Ben Bowes(参考訳) ランドスケープ分野において、AIとMLに直接関わる理論に基づく取り組みがある。 本稿では, 沿岸環境における変数予測に機械学習技術を用いた事例を提示し, 設計者が著者としてではなく, 振付師, 触媒エージェント, 導体として概念化されるサイバネティック環境の実証的エビデンスを提供する。 ポストヒューマニズムからアイデアを引き出すため、サイバーネティックな環境を真に理解するためには、ポストヒューマニズムの倫理を尊重し、人間の例外主義を克服する必要がある。

There have been theory-based endeavours that directly engage with AI and ML in the landscape discipline. By presenting a case that uses machine learning techniques to predict variables in a coastal environment, this paper provides empirical evidence of the forthcoming cybernetic environment, in which designers are conceptualized not as authors but as choreographers, catalyst agents, and conductors among many other intelligent agents. Drawing ideas from posthumanism, this paper argues that, to truly understand the cybernetic environment, we have to take on posthumanist ethics and overcome human exceptionalism.
翻訳日:2023-05-05 18:23:55 公開日:2023-05-03
# サイバネティック環境 : システム,設計,マシンインテリジェンスに関する歴史的考察

Cybernetic Environment: A Historical Reflection on System, Design, and Machine Intelligence ( http://arxiv.org/abs/2305.02326v1 )

ライセンス: Link先を確認
Zihao Zhang(参考訳) 歴史的レンズを取り入れたサイバーネティクスとシステム思考の発達を1950年代までさかのぼり、学際的な研究者のグループが、意味、情報、意識、生活の諸問題を理解するための機械とシステムに基づく新しい理論モデルを作成するために集結した。 ランドスケープアーキテクチャの分野における研究の系譜を提示することにより、ランドスケープアーキテクトは、環境におけるサイバネティックな原則に基づくシステムをエコロジカルなランドスケープデザインによって実現することによって、サイバネティックの開発において重要な役割を担ってきたと論じる。 ランドスケープ分野は、マシンインテリジェンスを理解するための変革的な洞察を提供するデザインフレームワークを開発した。 この論文は、デザインとマシンインテリジェンスを理解するための新しい環境関与パラダイムを提唱している。

Taking on a historical lens, this paper traces the development of cybernetics and systems thinking back to the 1950s, when a group of interdisciplinary scholars converged to create a new theoretical model based on machines and systems for understanding matters of meaning, information, consciousness, and life. By presenting a genealogy of research in the landscape architecture discipline, the paper argues that landscape architects have been an important part of the development of cybernetics by materializing systems based on cybernetic principles in the environment through ecologically based landscape design. The landscape discipline has developed a design framework that provides transformative insights into understanding machine intelligence. The paper calls for a new paradigm of environmental engagement to understand matters of design and machine intelligence.
翻訳日:2023-05-05 18:23:41 公開日:2023-05-03
# 画像認識による受精鶏卵初期における性検出

Sex Detection in the Early Stage of Fertilized Chicken Eggs via Image Recognition ( http://arxiv.org/abs/2305.02325v1 )

ライセンス: Link先を確認
Ufuk Asil and Efendi Nasibov(参考訳) 産業用養鶏場に新しく飼育された雄のひよこを培養することは、深刻な倫理的問題を引き起こす。 産卵とブロイラーのブリーダーにはオスが必要だが、必要以上に生産されるため問題となる。 インキュベーションの初めまたは初期の段階で卵の中のひよこの性別を決定できることは、倫理的な問題と多くの追加コストを取り除くことができる。 文献を見ると、使用する手法は非常に費用がかかり、適用性が低く、侵襲的で、正確性が不十分で、倫理的な問題を取り除くには遅すぎます。 胚の発達を考えると、最初に観察された性決定の候補は血管である。 血管からの検知は倫理的な問題を取り除き、これらの血管は最初の7日間まで卵に光が当たったときに見ることができる。 本研究は,標準カメラを用いて卵子に光を照射した1週間で得られた胚血管画像から,卵子への侵襲的処置を伴わずに,性判定を行った。

Culling newly hatched male chicks in industrial hatcheries poses a serious ethical problem. Both laying and broiler breeders need males, but it is a problem because they are produced more than needed. Being able to determine the sex of chicks in the egg at the beginning or early stage of incubation can eliminate ethical problems as well as many additional costs. When we look at the literature, the methods used are very costly, low in applicability, invasive, inadequate in accuracy, or too late to eliminate ethical problems. Considering the embryo's development, the earliest observed candidate feature for sex determination is blood vessels. Detection from blood vessels can eliminate ethical issues, and these vessels can be seen when light is shined into the egg until the first seven days. In this study, sex determination was made by morphological analysis from embryonic vascular images obtained in the first week when the light was shined into the egg using a standard camera without any invasive procedure to the egg.
翻訳日:2023-05-05 18:23:26 公開日:2023-05-03
# 自己教師付き骨格に基づく行動認識のためのクロスストリームコントラスト学習

Cross-Stream Contrastive Learning for Self-Supervised Skeleton-Based Action Recognition ( http://arxiv.org/abs/2305.02324v1 )

ライセンス: Link先を確認
Ding Li and Yongqiang Tang and Zhizhong Zhang and Wensheng Zhang(参考訳) 自己教師型骨格に基づく行動認識は、対照的な学習の発展とともに急速に成長する。 既存の手法では、単一のデータストリーム内の3Dスケルトンの拡張に不変性を課すことに依存しており、簡単な正のペアを単に利用し、複雑な動きパターンを探索する能力を制限するだけである。 本稿では,シングルストリームコントラストの欠如と,必要な特徴変換の欠如が容易な肯定性の原因であると主張し,スケルトンに基づく行動表現学習(CSCLR)のためのクロスストリームコントラスト学習フレームワークを提案する。 具体的には、CSCLRはストリーム内コントラストペアを利用するだけでなく、ストリーム間コントラストペアをハードサンプルとして導入し、表現学習を改善する。 さらに、ポジティブペアの可能性をさらに活用し、自己教師付き表現学習の堅牢性を高めるために、ポジティブペアのばらつきを高めるために、特徴レベルの操作を採用するPFT(Positive Feature Transformation)戦略を提案する。 提案手法の有効性を検証するため,NTU-RGB+D 60,NTU-RGB+D 120,PKU-MMDの3つのベンチマークデータセットについて広範な実験を行った。 実験結果から,提案したCSCLRは各種評価プロトコルの最先端手法を上回ることがわかった。

Self-supervised skeleton-based action recognition enjoys a rapid growth along with the development of contrastive learning. The existing methods rely on imposing invariance to augmentations of 3D skeleton within a single data stream, which merely leverages the easy positive pairs and limits the ability to explore the complicated movement patterns. In this paper, we advocate that the defect of single-stream contrast and the lack of necessary feature transformation are responsible for easy positives, and therefore propose a Cross-Stream Contrastive Learning framework for skeleton-based action Representation learning (CSCLR). Specifically, the proposed CSCLR not only utilizes intra-stream contrast pairs, but introduces inter-stream contrast pairs as hard samples to formulate a better representation learning. Besides, to further exploit the potential of positive pairs and increase the robustness of self-supervised representation learning, we propose a Positive Feature Transformation (PFT) strategy which adopts feature-level manipulation to increase the variance of positive pairs. To validate the effectiveness of our method, we conduct extensive experiments on three benchmark datasets NTU-RGB+D 60, NTU-RGB+D 120 and PKU-MMD. Experimental results show that our proposed CSCLR exceeds the state-of-the-art methods on a diverse range of evaluation protocols.
翻訳日:2023-05-05 18:23:07 公開日:2023-05-03
# ニューラルランキングモデルに対する不可避な文書操作に向けて

Towards Imperceptible Document Manipulations against Neural Ranking Models ( http://arxiv.org/abs/2305.01860v1 )

ライセンス: Link先を確認
Xuanang Chen, Ben He, Zheng Ye, Le Sun, Yingfei Sun(参考訳) ニューラルランキングモデル(NRM)の潜在的な脆弱性を特定するために、敵対的攻撃が勢いづいているが、現在の攻撃手法では文法的誤り、非感覚的表現、不整合テキストフラグメントがしばしば導入され、容易に検出できる。 さらに、現在の手法は攻撃効果を保証するため、よく模倣されたNRMの使用に大きく依存しているため、実際にの使用は困難である。 これらの問題に対処するため、我々は、アルゴリズムと人間の両方にとって目立たない敵文書を生成するために、Imperceptible DocumEnt Manipulation (IDEM) というフレームワークを提案する。 IDEMは、BARTのような確立された生成言語モデルに、容易に検出可能なエラーを発生させることなく接続文を生成するよう指示し、乱れたテキストの関連性と一貫性のバランスをとるために、別の位置対応のマージ戦略を採用する。 人気の高いMS MARCOベンチマークの実験結果から,IDEMは,自動評価や人的評価によって証明されたように,ターゲット文書の流布や正しさを保ちながら,強いベースラインを達成できることが示された。 さらに,代用NRMから対向テキスト生成を分離することにより,代用NRMの品質に影響を受けにくくなる。

Adversarial attacks have gained traction in order to identify potential vulnerabilities in neural ranking models (NRMs), but current attack methods often introduce grammatical errors, nonsensical expressions, or incoherent text fragments, which can be easily detected. Additionally, current methods rely heavily on the use of a well-imitated surrogate NRM to guarantee the attack effect, which makes them difficult to use in practice. To address these issues, we propose a framework called Imperceptible DocumEnt Manipulation (IDEM) to produce adversarial documents that are less noticeable to both algorithms and humans. IDEM instructs a well-established generative language model, such as BART, to generate connection sentences without introducing easy-to-detect errors, and employs a separate position-wise merging strategy to balance relevance and coherence of the perturbed text. Experimental results on the popular MS MARCO benchmark demonstrate that IDEM can outperform strong baselines while preserving fluency and correctness of the target documents as evidenced by automatic and human evaluations. Furthermore, the separation of adversarial text generation from the surrogate NRM makes IDEM more robust and less affected by the quality of the surrogate NRM.
翻訳日:2023-05-05 18:22:05 公開日:2023-05-03
# double/debiased machine learning による重み付き累積治療効果の効率的評価

Efficient estimation of weighted cumulative treatment effects by double/debiased machine learning ( http://arxiv.org/abs/2305.02373v1 )

ライセンス: Link先を確認
Shenbo Xu and Bang Zheng and Bowen Su and Stan Finkelstein and Roy Welsch and Kenney Ng and Ioanna Tzoulaki and Zach Shahn(参考訳) タイム・ツー・エフェクトの結果を用いた実証的研究では、ランダム化試験データが利用できない場合、調査者はしばしば観察データを利用して露光の影響を因果推論する。 モデル誤分類と重なりの欠如は観察研究において一般的な問題であり、平均的な治療効果の矛盾や非効率な推定要因につながることが多い。 重み付け効果を目標とする推定器は、重複度の低い課題に対処するために提案され、ニュアサンスモデルに対する柔軟な機械学習を可能にする手法は、モデルの誤特定に対処する。 しかし、ニュアンスモデルの機械学習を可能にするアプローチは、重複が不十分な場合の時間対結果に対する重み付け平均処理効果の設定にまで拡張されていない。 本研究では,制限時間の関数として重み付けされた累積因果効果に対して,一段階のクロスフィットダブル/デバイアス型機械学習推定器を提案する。 提案した推定器は整合性、漸近線形であり、正則性条件下で半パラメトリック効率境界に達することを証明した。 シミュレーションにより,非パラメトリック機械学習ニュアンスモデルを用いた推定器は,正確なパラメトリックニュアンスモデルを必要とする確立された手法と同様に動作し,オラクルパラメトリックニュアンスモデルの必要性を緩和することを示した。 本手法は,イギリスのプライマリケアデータベースから得られた実世界の観察データに適用し,抗糖尿病薬ががんの臨床成績に与える影響を比較する。

In empirical studies with time-to-event outcomes, investigators often leverage observational data to conduct causal inference on the effect of exposure when randomized controlled trial data is unavailable. Model misspecification and lack of overlap are common issues in observational studies, and they often lead to inconsistent and inefficient estimators of the average treatment effect. Estimators targeting overlap weighted effects have been proposed to address the challenge of poor overlap, and methods enabling flexible machine learning for nuisance models address model misspecification. However, the approaches that allow machine learning for nuisance models have not been extended to the setting of weighted average treatment effects for time-to-event outcomes when there is poor overlap. In this work, we propose a class of one-step cross-fitted double/debiased machine learning estimators for the weighted cumulative causal effect as a function of restriction time. We prove that the proposed estimators are consistent, asymptotically linear, and reach semiparametric efficiency bounds under regularity conditions. Our simulations show that the proposed estimators using nonparametric machine learning nuisance models perform as well as established methods that require correctly-specified parametric nuisance models, illustrating that our estimators mitigate the need for oracle parametric nuisance models. We apply the proposed methods to real-world observational data from a UK primary care database to compare the effects of anti-diabetic drugs on cancer clinical outcomes.
翻訳日:2023-05-05 18:14:58 公開日:2023-05-03
# ニューラルネットワークを用いた感度解析のためのメトリクスツール

Metric Tools for Sensitivity Analysis with Applications to Neural Networks ( http://arxiv.org/abs/2305.02368v1 )

ライセンス: Link先を確認
Jaime Pizarroso and David Alfaya and Jos\'e Portela and Antonio Mu\~noz(参考訳) 重要な社会的影響を持つ自律的意思決定のために機械学習モデルが検討されるにつれて、これらのモデルがどのように機能するかを理解する必要性が急速に高まる。 説明可能な人工知能(XAI)は、マシンラーニングモデルによる予測の解釈を提供することを目標とし、モデルがユーザにとって信頼性が高く、より透過的なものになる。 例えば、問題に対する関連する入力変数の選択は、モデルが学習し正確な予測を行う能力に直接影響するため、モデルのトレーニングにおいて、入力の重要性に関する情報を得ることが重要な役割を果たす。 入力変数の重要度を求める主要なXAI手法の1つは、偏微分に基づく感度解析である。 しかし、本手法の既存の文献は、部分微分から情報を取得するために用いられる集計指標を正当化するものではない。 本稿では,計量手法を用いてMLモデルの感性を研究するための理論的枠組みを提案する。 この計量解釈から、$\alpha$-curvesと呼ばれる新しい計量の完全な族が抽出される。 これらの$\alpha$-curvesは、文献における既存のXAIメソッドよりも、機械学習モデルにおける入力変数の重要性の詳細な情報を提供する。 本研究では,合成データと実データを用いた$\alpha$-curvesの有効性を実証し,他のxai法と比較し,基礎的真理や文献情報を用いて分析結果を検証する。

As Machine Learning models are considered for autonomous decisions with significant social impact, the need for understanding how these models work rises rapidly. Explainable Artificial Intelligence (XAI) aims to provide interpretations for predictions made by Machine Learning models, in order to make the model trustworthy and more transparent for the user. For example, selecting relevant input variables for the problem directly impacts the model's ability to learn and make accurate predictions, so obtaining information about input importance play a crucial role when training the model. One of the main XAI techniques to obtain input variable importance is the sensitivity analysis based on partial derivatives. However, existing literature of this method provide no justification of the aggregation metrics used to retrieved information from the partial derivatives. In this paper, a theoretical framework is proposed to study sensitivities of ML models using metric techniques. From this metric interpretation, a complete family of new quantitative metrics called $\alpha$-curves is extracted. These $\alpha$-curves provide information with greater depth on the importance of the input variables for a machine learning model than existing XAI methods in the literature. We demonstrate the effectiveness of the $\alpha$-curves using synthetic and real datasets, comparing the results against other XAI methods for variable importance and validating the analysis results with the ground truth or literature information.
翻訳日:2023-05-05 18:14:35 公開日:2023-05-03
# PeaCoK: 一貫性とエンゲージグナラティブのためのペルソナコモンセンス知識

PeaCoK: Persona Commonsense Knowledge for Consistent and Engaging Narratives ( http://arxiv.org/abs/2305.02364v1 )

ライセンス: Link先を確認
Silin Gao, Beatriz Borges, Soyoung Oh, Deniz Bayazit, Saya Kanno, Hiromi Wakaki, Yuki Mitsufuji, Antoine Bosselut(参考訳) コヒーレントで魅力的な物語を維持するためには、対話やストーリーテリングエージェントが話し手や聞き手のペルソナがどのように物語を担っているかを理解する必要がある。 具体的には、これらのエージェントはリスナーのペルソナを推論し、彼らの興味をひく声明を作成する必要がある。 彼らはまた、物語全体を通して一貫した話者のパーソナラを維持することを学び、彼らの相手が現実的な会話や物語に関与していると感じる必要がある。 しかし、ペルソナは多様で複雑であり、一般的な物語体系において頑丈な表現が難しい豊富な相互接続世界知識(例えば、歌手は歌が得意で、音楽院に通っていたかもしれない)を大量に持っている。 本研究では,約100万個の人格事実を含む大規模ペルソナ常識知識グラフPeaCoKを構築した。 我々の知識グラフは、人間の対話行動の過去の研究で特定された5次元のペルソナ知識をスキーマ化し、既存の常識知識グラフと大規模事前学習言語モデルからこのスキーマの事実を消し去る。 分析の結果、PeaCoKには、より一貫性があり魅力的な物語を生成する下流システムを支援するリッチで正確な世界ペルソナ推論が含まれていることが示唆された。

Sustaining coherent and engaging narratives requires dialogue or storytelling agents to understand how the personas of speakers or listeners ground the narrative. Specifically, these agents must infer personas of their listeners to produce statements that cater to their interests. They must also learn to maintain consistent speaker personas for themselves throughout the narrative, so that their counterparts feel involved in a realistic conversation or story. However, personas are diverse and complex: they entail large quantities of rich interconnected world knowledge that is challenging to robustly represent in general narrative systems (e.g., a singer is good at singing, and may have attended conservatoire). In this work, we construct a new large-scale persona commonsense knowledge graph, PeaCoK, containing ~100K human-validated persona facts. Our knowledge graph schematizes five dimensions of persona knowledge identified in previous studies of human interactive behaviours, and distils facts in this schema from both existing commonsense knowledge graphs and large-scale pretrained language models. Our analysis indicates that PeaCoK contains rich and precise world persona inferences that help downstream systems generate more consistent and engaging narratives.
翻訳日:2023-05-05 18:14:16 公開日:2023-05-03
# 言語モデルにおけるエンティティ追跡

Entity Tracking in Language Models ( http://arxiv.org/abs/2305.02363v1 )

ライセンス: Link先を確認
Najoung Kim, Sebastian Schuster(参考訳) テキストやダイアログが展開するにつれて、状態やエンティティの関係がどう変化するかを追跡することは、言論理解の鍵となる前提条件である。 この事実にもかかわらず、対話エンティティを追跡する大規模言語モデル(LLM)の能力に関する体系的な調査はほとんど行われていない。 本研究では、初期状態の英語記述と一連の状態変化操作を与えられたエンティティの最終的な状態を、言語モデルがどの程度推測できるかを調査するタスクを提案する。 我々はまず,Flan-T5,GPT-3,GPT-3.5がエンティティの状態を追跡できるかどうかを調査し,大量のコードで事前訓練されたGPT-3.5モデルのみがその能力を示すことを示した。 次に,いくつかの訓練/評価分割でt5を微調整することで,テキストを中心に事前学習した小型モデルがエンティティの追跡を学習できるかどうかを検討する。 より複雑な分割では性能が低下するが、トレーニングと評価の間にほとんど語彙的に重複しない分割であっても、微調整されたモデルはしばしば非自明なエンティティ追跡を行う。 これらの結果は、言語モデルがエンティティを追跡することができるが、大きなテキストコーパスだけで事前学習することは、この容量を表面化するものではないことを示唆している。

Keeping track of how states and relations of entities change as a text or dialog unfolds is a key prerequisite to discourse understanding. Despite this fact, there have been few systematic investigations into the ability of large language models (LLMs) to track discourse entities. In this work, we present a task to probe to what extent a language model can infer the final state of an entity given an English description of the initial state and a series of state-changing operations. We use this task to first investigate whether Flan-T5, GPT-3 and GPT-3.5 can track the state of entities, and find that only GPT-3.5 models, which have been pretrained on large amounts of code, exhibit this ability. We then investigate whether smaller models pretrained primarily on text can learn to track entities, through finetuning T5 on several training/evaluation splits. While performance degrades for more complex splits, we find that even for splits with almost no lexical overlap between training and evaluation, a finetuned model can often perform non-trivial entity tracking. Taken together, these results suggest that language models can learn to track entities but pretraining on large text corpora alone does not make this capacity surface.
翻訳日:2023-05-05 18:13:51 公開日:2023-05-03
# 量子コンピュータ上での$\mathbb{Z}_2$格子ゲージ理論のシミュレーション

Simulating $\mathbb{Z}_2$ lattice gauge theory on a quantum computer ( http://arxiv.org/abs/2305.02361v1 )

ライセンス: Link先を確認
Clement Charles, Erik J. Gustafson, Elizabeth Hardt, Florian Herren, Norman Hogan, Henry Lamm, Sara Starecheski, Ruth S. Van de Water, Michael L. Wagman(参考訳) 格子ゲージ理論の量子シミュレーションは現在、物理ハードウェアのノイズによって制限されている。 量子コンピュータの使用を拡張するために様々な誤り緩和戦略が存在する。 我々は量子シミュレーションを行い、1+1d$$\mathbb{Z}_2$ゲージ理論の2点相関関数を計算し、この理論の質量ギャップを決定する。 これらのシミュレーションは、読み出し誤差軽減、ランダム化されたコンパイル、再スケーリング、動的デカップリングなど、様々なエラー軽減手法の有効性と相互作用を研究する実験室として使用される。 これらの手法の興味深い相乗効果を見出した結果, それらの組み合わせにより, 所定の精度でシミュレーション時間を6倍以上に増やすことができた。

Quantum simulations of lattice gauge theories are currently limited by the noisiness of the physical hardware. Various error mitigation strategies exist to extend the use of quantum computers. We perform quantum simulations to compute two-point correlation functions of the $1+1d$ $\mathbb{Z}_2$ gauge theory with matter to determine the mass gap for this theory. These simulations are used as a laboratory for investigating the efficacy and interplay of different error mitigation methods: readout error mitigation, randomized compiling, rescaling, and dynamical decoupling. We find interesting synergies between these methods and that their combined application increase the simulation times at a given level of accuracy by a factor of six or more compared to unmitigated results.
翻訳日:2023-05-05 18:13:28 公開日:2023-05-03
# Fashionpedia-Ads:好きな人はファッションを味わう?

Fashionpedia-Ads: Do Your Favorite Advertisements Reveal Your Fashion Taste? ( http://arxiv.org/abs/2305.02360v1 )

ライセンス: Link先を確認
Mengyun Shi, Claire Cardie, Serge Belongie(参考訳) 消費者は、ファッション、美容、車、食べ物など、インターネット上のさまざまなドメインの広告にさらされている。 一方、ファッションはEコマースの2番目に高いカテゴリーである。 各種ファッション広告画像における消費者デジタル記録行動は、そのファッション嗜好を明らかにするか? 他のドメインの広告も、ファッションの好みを推測できるだろうか? 本稿では,広告とファッションテイストの相関について検討する。 この目的に向けて,新たなデータセットである fashionpedia-ads を導入し,被験者に対して,広告(ファシオン,美容,車,デザート)とファッション製品(ソーシャルネットワーク,eコマーススタイル)の両方に好みを提供するように要求する。 さらに,広告画像の情緒的,視覚的,テキスト的情報を,多視点(客観レベル,身体レベル,キャプション,ブランド)から総括的に収集し,注釈する。 我々はFashionpedia-Adsをオープンソース化し、将来の研究を可能にし、広告とファッションテイストの間の解釈可能性研究へのさらなるアプローチを奨励する。

Consumers are exposed to advertisements across many different domains on the internet, such as fashion, beauty, car, food, and others. On the other hand, fashion represents second highest e-commerce shopping category. Does consumer digital record behavior on various fashion ad images reveal their fashion taste? Does ads from other domains infer their fashion taste as well? In this paper, we study the correlation between advertisements and fashion taste. Towards this goal, we introduce a new dataset, Fashionpedia-Ads, which asks subjects to provide their preferences on both ad (fashion, beauty, car, and dessert) and fashion product (social network and e-commerce style) images. Furthermore, we exhaustively collect and annotate the emotional, visual and textual information on the ad images from multi-perspectives (abstractive level, physical level, captions, and brands). We open-source Fashionpedia-Ads to enable future studies and encourage more approaches to interpretability research between advertisements and fashion taste.
翻訳日:2023-05-05 18:13:16 公開日:2023-05-03
# 短距離非相関障害モデルにおけるモビリティエッジの存在:局所状態と拡張状態の共存

Absence of Mobility Edge in Short-range Uncorrelated Disordered Model: Coexistence of Localized and Extended States ( http://arxiv.org/abs/2305.02351v1 )

ライセンス: Link先を確認
Adway Kumar Das, Anandamohan Ghosh, Ivan M. Khaymovich(参考訳) 拡張状態と局所状態は一般の確率ポテンシャルにおいて同じエネルギーで共存するべきではないというよく知られたモットの主張と異なり、モビリティエッジ(me)を形成することなく局所状態と拡張状態の両方を運ぶ最も近距離の密結合障害モデルの例を提供する。 予期せぬことに、この例は独立に分散されたランダムな対角ポテンシャルと不均一な運動ホッピング項を持つよく研究された$\beta$-アンサンブルによって与えられる。 この問題を解析的に解決するために、上記のモデルを行列サイズおよび位置依存ホッピングで1D Andersonモデルに局所的にマッピングし、空間における上記の状態の分離によるポテンシャル項と運動項の摂動に頑健であることが示される局所的および拡張状態の共存を確認する。 さらに、写像は拡張状態がエルゴードでないことを示し、そのフラクタル次元を解析的に推定することができる。

Unlike the well-known Mott's argument that extended and localized states should not coexist at the same energy in a generic random potential, we provide an example of a nearest-neighbor tight-binding disordered model which carries both localized and extended states without forming the mobility edge (ME). Unexpectedly, this example appears to be given by a well-studied $\beta$-ensemble with independently distributed random diagonal potential and inhomogeneous kinetic hopping terms. In order to analytically tackle the problem, we locally map the above model to the 1D Anderson model with matrix-size- and position-dependent hopping and confirm the coexistence of localized and extended states, which is shown to be robust to the perturbations of both potential and kinetic terms due to the separation of the above states in space. In addition, the mapping shows that the extended states are non-ergodic and allows to analytically estimate their fractal dimensions.
翻訳日:2023-05-05 18:12:57 公開日:2023-05-03
# ローエンドハードウェア上での言語モデルの利用

Using Language Models on Low-end Hardware ( http://arxiv.org/abs/2305.02350v1 )

ライセンス: Link先を確認
Fabian Ziegner, Janos Borst, Andreas Niekler, Martin Potthast(参考訳) 本稿では,ローエンドハードウェア上でテキスト分類ネットワークをトレーニングするための固定言語モデルの有効性を評価する。 言語モデルとcnnアーキテクチャを組み合わせることで、トピック、感情、ジャンルの単一ラベルとマルチラベルの分類をカバーする8つのデータセットを含む包括的なベンチマークをまとめます。 言語モデルを微調整しない場合、より高速なトレーニングでは競争効率が得られ、微調整に比べてメモリの4分の1しか必要としないというシナリオが存在する、と結論付けている。

This paper evaluates the viability of using fixed language models for training text classification networks on low-end hardware. We combine language models with a CNN architecture and put together a comprehensive benchmark with 8 datasets covering single-label and multi-label classification of topic, sentiment, and genre. Our observations are distilled into a list of trade-offs, concluding that there are scenarios, where not fine-tuning a language model yields competitive effectiveness at faster training, requiring only a quarter of the memory compared to fine-tuning.
翻訳日:2023-05-05 18:12:37 公開日:2023-05-03
# ランダムコンパイルによるクロストーク誤差の緩和:超伝導量子コンピュータ上でのBCSモデルのシミュレーション

Mitigating crosstalk errors by randomized compiling: Simulation of the BCS model on a superconducting quantum computer ( http://arxiv.org/abs/2305.02345v1 )

ライセンス: Link先を確認
Hugo Perrin, Thibault Scoquart, Alexander Shnirman, J\"org Schmalian and Kyrylo Snizhko(参考訳) ibmq量子コンピュータ上での超伝導量子ビット間のクロストークを劇的に削減するランダム化コンパイル(rc)プロトコルを開発・適用する(\texttt{ibm\_lagos} と \texttt{ibmq\_ehningen})。 CNOTの2量子ゲートに由来するクロストークエラーは、多くの量子コンピューティングプラットフォームにおけるエラーの重要な原因である。 IBMQマシンの場合、その大きさは通常、メーカーが提供するベンチマークプロトコルによって過小評価される。 このrcプロトコルはクロストークによるコヒーレントノイズを非分極ノイズチャネルに変換し,ノイズ推定回路などの確立されたエラー緩和スキームを用いて処理する。 本手法は, クーパー対の長距離相互作用により特に困難となるバルディーン・クーパー・シュリエッファー(bcs)ハミルトニアンの非平衡ダイナミクスの量子シミュレーションに適用する。 135のcnotゲートでは、ロータライズやキュービットのデコヒーレンスとは対照的に、クロストークがエラーを支配するような方法で作業します。 隣接する量子ビットの回転は、新しい量子ビットや回路を追加することなくノイズ推定プロトコルを劇的に改善し、bcsモデルの定量的シミュレーションを可能にしている。

We develop and apply an extension of the randomized compiling (RC) protocol that includes neighbouring qubits and dramatically reduces crosstalk between superconducting qubits on IBMQ quantum computers (\texttt{ibm\_lagos} and \texttt{ibmq\_ehningen}). Crosstalk errors, stemming from CNOT two-qubit gates, are a crucial source of errors on numerous quantum computing platforms. For the IBMQ machines their magnitude is usually underestimated by the benchmark protocols provided by the manufacturer. Our RC protocol turns coherent noise due to crosstalk into a depolarising noise channel that can then be treated using established error mitigation schemes such as noise estimation circuits. We apply our approach to the quantum simulation of the non-equilibrium dynamics of the Bardeen-Cooper-Schrieffer (BCS) Hamiltonian for superconductivity, a model that is particularly challenging because of the long-range interaction of Cooper pairs. With 135 CNOT gates, we work in a regime where crosstalk, as opposed to either trotterization or qubit decoherence, dominates the error. Our twirling of neighbouring qubits is shown to dramatically improve the noise estimation protocol without the need to add new qubits or circuits and allows for a quantitative simulation of the BCS-model.
翻訳日:2023-05-05 18:12:28 公開日:2023-05-03
# 決定図を用いたハミルトンシミュレーションに向けて

Towards Hamiltonian Simulation with Decision Diagrams ( http://arxiv.org/abs/2305.02337v1 )

ライセンス: Link先を確認
Aaron Sander, Lukas Burgholzer, Robert Wille(参考訳) 本稿では、量子状態と演算の表現における冗長性を利用した正確な表現である決定図(DD)を用いたハミルトンシミュレーションの新しい手法を提案する。 ハミルトニアンのシミュレーションは広く研究されてきたが、より大きく複雑なシステムへの拡張はしばしば困難であり、近似や新しいシミュレーション方法が必要かもしれない。 DDはハミルトンシミュレーションにはまだ適用されていない代替手段を提供する。 本研究では,この課題に対するDDの挙動について検討する。 そこで,本論文では,ddsの構成など,ddsの基本を概観し,このデータ構造にハミルトンシミュレーションの関連する操作がどのように実装されているかを述べる。 いくつかの評価と比較に基づいて、この相補的アプローチの性能に関する洞察を議論する。 これらの研究は、DDが確かに有望な新しいデータ構造を提供する可能性があることを示しています。

This paper proposes a novel approach to Hamiltonian simulation using Decision Diagrams (DDs), which are an exact representation based on exploiting redundancies in representations of quantum states and operations. While the simulation of Hamiltonians has been studied extensively, scaling these simulations to larger or more complex systems is often challenging and may require approximations or new simulation methods altogether. DDs offer such an alternative that has not yet been applied to Hamiltonian simulation. In this work, we investigate the behavior of DDs for this task. To this end, we review the basics of DDs such as their construction and present how the relevant operations for Hamiltonian simulation are implemented in this data structure -- leading to the first DD-based Hamiltonian simulation approach. Based on several series of evaluations and comparisons, we then discuss insights about the performance of this complementary approach. Overall, these studies show that DDs indeed may offer a promising new data structure which, for certain examples, can provide orders of magnitudes of improvement compared to the state-of-the-art, yet also comes with its own, fundamentally different, limitations.
翻訳日:2023-05-05 18:12:02 公開日:2023-05-03
# アトリビューションによる挿入型テキストバックドア攻撃に対する防御

Defending against Insertion-based Textual Backdoor Attacks via Attribution ( http://arxiv.org/abs/2305.02394v1 )

ライセンス: Link先を確認
Jiazhao Li, Zhuofeng Wu, Wei Ping, Chaowei Xiao, V.G. Vinod Vydiswaran(参考訳) テキストバックドア攻撃は、新しい攻撃モデルとして、訓練中にモデルにバックドアを追加するのに有効であることが示されている。 このようなバックドア攻撃に対する防御は緊急かつ重要になっている。 本稿では,BadNLとInSentの2つの挿入型毒殺攻撃に対して,効率的な帰属型パイプラインであるAttDefを提案する。 具体的には,より大きな帰属スコアを持つトークンを,より大きな帰属単語が誤った予測結果に寄与するため,潜在的トリガーとみなす。 さらに、入力が有毒かどうかを識別するために、外部事前訓練言語モデルを利用する。 提案手法は,従来の手法を一貫して改善する2つの一般的な攻撃シナリオ(訓練データとテストデータ)において十分に一般化できることを示す。 例えば、AttDefは2つの攻撃を平均精度79.97%(56.59%アップ)と48.34%(3.99%アップ)で軽減し、4つのベンチマークデータセットの予測リカバリで新たな最先端のパフォーマンスを達成する。

Textual backdoor attack, as a novel attack model, has been shown to be effective in adding a backdoor to the model during training. Defending against such backdoor attacks has become urgent and important. In this paper, we propose AttDef, an efficient attribution-based pipeline to defend against two insertion-based poisoning attacks, BadNL and InSent. Specifically, we regard the tokens with larger attribution scores as potential triggers since larger attribution words contribute more to the false prediction results and therefore are more likely to be poison triggers. Additionally, we further utilize an external pre-trained language model to distinguish whether input is poisoned or not. We show that our proposed method can generalize sufficiently well in two common attack scenarios (poisoning training data and testing data), which consistently improves previous methods. For instance, AttDef can successfully mitigate both attacks with an average accuracy of 79.97% (56.59% up) and 48.34% (3.99% up) under pre-training and post-training attack defense respectively, achieving the new state-of-the-art performance on prediction recovery over four benchmark datasets.
翻訳日:2023-05-05 18:06:40 公開日:2023-05-03
# 量子エレクトロイナミカル密度汎関数理論を用いた実キャビティ内の分子

Molecules in Real Cavities with Quantum Electroynamical Density Functional Theory ( http://arxiv.org/abs/2305.02391v1 )

ライセンス: Link先を確認
Mark Kamper Svendsen, Kristian Sommer Thygesen, Angel Rubio and Johannes Flick(参考訳) 複雑な電磁環境における強結合型光物質系の実現には、光と物質を第一原理から扱える理論手法の開発が必要である。 量子電磁密度汎関数理論(QEDFT)は、電子系が量子化された光モードと結合する状況への密度汎関数理論の一般化である。 この方法は、電子系と量子化された光のモードの強力な記述を提供するが、実際には電磁媒体の吸収と分散を正しく扱うことはできない。 また, キャビティ場の強度パラメータは, 物質が埋め込まれた実際の電磁環境とはリンクしていないため, 効果的に自由パラメータとなる。 本稿では,実測光キャビティ設定のためのQEDFTを正確にパラメータ化するために,マクロQED(MQED)をどのように呼び出すかについて議論する。 このアプローチの例を示すために,吸収性球面キャビティの例を考察し,弱結合から強結合への遷移に対する環境と電子系の異なるパラメータの影響について考察する。 我々の研究の結果、一般に、損失のある環境の結合パラメータは古典的なダイドグリーンの関数で表現できるようになった。 ダイドグリーン関数は、電磁環境と境界条件によって完全に決定されるため、自由パラメータとして光-物質結合強度を除去する。 この作業の一環として、簡単な空洞設置のための空洞結合強度を計算できる使い易いツールも提供します。

Rapid experimental progress in realizing strongly coupled light-matter systems in complex electromagnetic environments necessitates the development of theoretical methods capable of treating light and matter from first principles. A popular such method is quantum electrodynamical density functional theory (QEDFT) which is a generalization of density functional theory to situations where the electronic system is coupled to quantized light modes. While this method provides a powerful description of the electronic system and the quantized modes of light, it has so far been unable to deal correctly with absorbing and dispersing electromagnetic media in practice. In addition, the cavity field strength parameters have not been linked to the real electromagnetic environment in which the matter is embedded meaning that these are effectively free parameters. In this paper, we discuss how macroscopic QED (MQED) can be invoked to correctly parameterize QEDFT for realistic optical cavity setups. To exemplify this approach, we consider the example of a absorbing spherical cavity and study the impact of different parameters of both the environment and the electronic system on the transition from weak-to-strong coupling. As a result of our work, the coupling parameters in general, lossy environments can be now expressed in terms of the classical Dyadic Green's Function. Because the Dyadic Green's Function is completely determined by the electromagnetic environment and the boundary conditions, it thus removes the light-matter coupling strengths as free parameters. As part of this work, we also provide an easy to use tool that can calculate the cavity coupling strengths for simple cavity setups.
翻訳日:2023-05-05 18:06:17 公開日:2023-05-03
# 変圧器によるCKYの近似

Approximating CKY with Transformers ( http://arxiv.org/abs/2305.02386v1 )

ライセンス: Link先を確認
Ghazal Khalighinejad, Ollie Liu, Sam Wiseman(参考訳) 本稿では, CKYアルゴリズムを近似するトランスフォーマーモデルの有効性について検討し, 解析を直接予測し, CKYアルゴリズムの文長に対する立方的依存を回避する。 標準選挙区解析ベンチマークでは, CKYを高速に使用した同等のパーサよりも, 競争力や性能が向上することがわかった。 また,PCFGのランダム解析における本手法の有効性についても検討した。 ここで、文法が曖昧になるにつれて性能が低下し、トランスフォーマーがcky計算を完全に捉えていないことを示唆する。 しかし、さらに帰納的バイアスを組み込むことは有用であり、また、チャートに対する分割関数の亜次関数であるCKYアルゴリズムと類似して、解析文の予測においてグラフ表現に関する勾配を利用する新しいアプローチを提案する。

We investigate the ability of transformer models to approximate the CKY algorithm, using them to directly predict a parse and thus avoid the CKY algorithm's cubic dependence on sentence length. We find that on standard constituency parsing benchmarks this approach achieves competitive or better performance than comparable parsers that make use of CKY, while being faster. We also evaluate the viability of this approach for parsing under random PCFGs. Here we find that performance declines as the grammar becomes more ambiguous, suggesting that the transformer is not fully capturing the CKY computation. However, we also find that incorporating additional inductive bias is helpful, and we propose a novel approach that makes use of gradients with respect to chart representations in predicting the parse, in analogy with the CKY algorithm being the subgradient of a partition function variant with respect to the chart.
翻訳日:2023-05-05 18:05:50 公開日:2023-05-03
# SimSC: 温度学習とのセマンティック対応のための簡易フレームワーク

SimSC: A Simple Framework for Semantic Correspondence with Temperature Learning ( http://arxiv.org/abs/2305.02385v1 )

ライセンス: Link先を確認
Xinghui Li, Kai Han, Xingchen Wan, Victor Adrian Prisacariu(参考訳) 機能バックボーンのみに基づくセマンティックマッチングの問題に対処する,極めてシンプルなフレームワークであるSimSCを提案する。 セマンティックマッチングタスクにおけるImageNetの事前学習バックボーンを微調整すると、特徴マップのL2正規化、特徴マッチングにおける標準手順が、過度にスムーズなマッチング分布を生成し、微調整プロセスを著しく阻害することを発見した。 適切な温度をソフトマックスに設定することにより、この過度な滑らかさを緩和することができ、特徴の質を大幅に改善することができる。 我々は学習モジュールを用いて、微調整機能バックボーンの最適温度を予測する。 このモジュールはバックボーンと共にトレーニングされ、温度はオンラインで更新される。 提案手法を3つの公開データセットで評価し,学習したマッチングヘッドを使わずに,同一バックボーン下の最先端メソッドと同等の精度が得られることを示す。 我々の手法は多用途であり、様々な種類のバックボーンで機能する。 より強力なバックボーンと組み合わせることで、我々のフレームワークの精度が容易に向上できることを示す。

We propose SimSC, a remarkably simple framework, to address the problem of semantic matching only based on the feature backbone. We discover that when fine-tuning ImageNet pre-trained backbone on the semantic matching task, L2 normalization of the feature map, a standard procedure in feature matching, produces an overly smooth matching distribution and significantly hinders the fine-tuning process. By setting an appropriate temperature to the softmax, this over-smoothness can be alleviated and the quality of features can be substantially improved. We employ a learning module to predict the optimal temperature for fine-tuning feature backbones. This module is trained together with the backbone and the temperature is updated online. We evaluate our method on three public datasets and demonstrate that we can achieve accuracy on par with state-of-the-art methods under the same backbone without using a learned matching head. Our method is versatile and works on various types of backbones. We show that the accuracy of our framework can be easily improved by coupling it with more powerful backbones.
翻訳日:2023-05-05 18:05:37 公開日:2023-05-03
# 知識グラフ推論のセキュリティリスクについて

On the Security Risks of Knowledge Graph Reasoning ( http://arxiv.org/abs/2305.02383v1 )

ライセンス: Link先を確認
Zhaohan Xi and Tianyu Du and Changjiang Li and Ren Pang and Shouling Ji and Xiapu Luo and Xusheng Xiao and Fenglong Ma and Ting Wang(参考訳) 知識グラフ推論(KGR) — 大きな知識グラフ上の複雑な論理的クエリに応答する — は、さまざまなアプリケーション(サイバー脅威ハンティングなど)を含む重要な人工知能タスクである。 しかし、人気が高まっているにもかかわらず、KGRの潜在的なセキュリティリスクは、セキュリティクリティカルなドメインにおけるそのような機能の利用の増加を考えると、ほとんど解明されていない。 この作業は、衝撃的なギャップを埋める第一歩となる。 我々は、敵の目標、知識、攻撃ベクトルに応じて、KGRに対するセキュリティ脅威を体系化する。 さらに,このような脅威をインスタンス化する,新たなタイプの攻撃であるroarも紹介する。 代表的なユースケース(例えば、医療意思決定支援、サイバー脅威ハンティング、コモンセンス推論)における経験的評価を通じて、ROARはKGRを誤解させ、ターゲットクエリに対する事前定義された回答を提案するのに非常に効果的であるが、ターゲットでないケースには無視できる影響を持つことを示した。 最後に, 有害な知識のフィルタリングや, 対向的な拡張クエリによるトレーニングなど, ROARに対する潜在的な対策を検討する。

Knowledge graph reasoning (KGR) -- answering complex logical queries over large knowledge graphs -- represents an important artificial intelligence task, entailing a range of applications (e.g., cyber threat hunting). However, despite its surging popularity, the potential security risks of KGR are largely unexplored, which is concerning, given the increasing use of such capability in security-critical domains. This work represents a solid initial step towards bridging the striking gap. We systematize the security threats to KGR according to the adversary's objectives, knowledge, and attack vectors. Further, we present ROAR, a new class of attacks that instantiate a variety of such threats. Through empirical evaluation in representative use cases (e.g., medical decision support, cyber threat hunting, and commonsense reasoning), we demonstrate that ROAR is highly effective to mislead KGR to suggest pre-defined answers for target queries, yet with negligible impact on non-target ones. Finally, we explore potential countermeasures against ROAR, including filtering of potentially poisoning knowledge and training with adversarially augmented queries, which leads to several promising research directions.
翻訳日:2023-05-05 18:05:20 公開日:2023-05-03
# 事前学習した音声表現を用いた新規・微粒な音響系列の検出

Learning to Detect Novel and Fine-Grained Acoustic Sequences Using Pretrained Audio Representations ( http://arxiv.org/abs/2305.02382v1 )

ライセンス: Link先を確認
Vasudha Kowtha, Miquel Espi Marques, Jonathan Huang, Yichi Zhang, Carlos Avendano(参考訳) 本研究は,少数のショット音声イベント検出のための事前訓練された音声表現について検討する。 非ターゲット音声へのアクセスを前提とせず、新規な音響シーケンスや意味論的に意味のある時間構造を持つ音声イベントの少ないショット検出の課題に対処する。 我々は,適切な表現を事前学習するための手順と,それを少数のショット学習シナリオに伝達する手法を開発した。 本実験は,AudioSetにおける事前学習表現の汎用性と,実世界の音響シーケンスから構築したタスクによるいくつかのショット手法の有用性を評価する。 トレーニング済みの埋め込みは、提案するタスクに適しており、少数のフレームワークの複数の側面を有効にしています。

This work investigates pretrained audio representations for few shot Sound Event Detection. We specifically address the task of few shot detection of novel acoustic sequences, or sound events with semantically meaningful temporal structure, without assuming access to non-target audio. We develop procedures for pretraining suitable representations, and methods which transfer them to our few shot learning scenario. Our experiments evaluate the general purpose utility of our pretrained representations on AudioSet, and the utility of proposed few shot methods via tasks constructed from real-world acoustic sequences. Our pretrained embeddings are suitable to the proposed task, and enable multiple aspects of our few shot framework.
翻訳日:2023-05-05 18:04:58 公開日:2023-05-03
# エンコーダ埋め込みと頂点ダイナミクスを用いた大規模ネットワークにおける通信パターンシフトの発見

Discovering Communication Pattern Shifts in Large-Scale Networks using Encoder Embedding and Vertex Dynamics ( http://arxiv.org/abs/2305.02381v1 )

ライセンス: Link先を確認
Cencheng Shen, Jonathan Larson, Ha Trinh, Xihan Qin, Youngser Park, Carey E. Priebe(参考訳) ソーシャルメディアや電子メール通信などの大規模時系列ネットワークデータの解析は,グラフ解析手法において重要な課題である。 特に、グラフ解析のスケーラビリティは、大規模な下流推論のさらなる進歩を妨げる重要な問題である。 本稿では,多量のグラフデータを線形複雑に効率的に埋め込むことのできる「時間エンコーダ埋め込み」と呼ばれる新しい手法を提案する。 この手法を2019年から2020年までの大企業の匿名化時系列通信ネットワークに適用し、1万の頂点と8000万のエッジからなる。 本手法は,標準計算機に10秒以内にデータを埋め込み,個々の頂点,頂点コミュニティ,および全体グラフ構造に対する通信パターンシフトの検出を可能にする。 理論および合成研究の支援を通じて、ランダムグラフモデルに基づくアプローチの理論的健全性とそのシミュレーション研究による数値的効果を示す。

The analysis of large-scale time-series network data, such as social media and email communications, remains a significant challenge for graph analysis methodology. In particular, the scalability of graph analysis is a critical issue hindering further progress in large-scale downstream inference. In this paper, we introduce a novel approach called "temporal encoder embedding" that can efficiently embed large amounts of graph data with linear complexity. We apply this method to an anonymized time-series communication network from a large organization spanning 2019-2020, consisting of over 100 thousand vertices and 80 million edges. Our method embeds the data within 10 seconds on a standard computer and enables the detection of communication pattern shifts for individual vertices, vertex communities, and the overall graph structure. Through supporting theory and synthesis studies, we demonstrate the theoretical soundness of our approach under random graph models and its numerical effectiveness through simulation studies.
翻訳日:2023-05-05 18:04:47 公開日:2023-05-03
# セキュリティとプライバシのための量子ハイブリッド古典アルゴリズムの難読化

Obfuscating Quantum Hybrid-Classical Algorithms for Security and Privacy ( http://arxiv.org/abs/2305.02379v1 )

ライセンス: Link先を確認
Suryansh Upadhyay, Swaroop Ghosh(参考訳) 量子コンピューティングエコシステムの人気とユーティリティが高まるにつれ、広く利用される前にセキュリティとプライバシの脆弱性を特定し、対処することが重要である。 主な関心事は、サードパーティのツールとハードウェアの関与である。 信頼できないハードウェアの使用は知的財産権(IP)盗難のリスクをもたらす可能性がある。 例えば、qaoaのようなハイブリッド量子古典アルゴリズムは、ノード数エッジやパラメータ化された量子回路の接続といったグラフ特性を符号化し、グラフの最大カット問題を解決する。 QAOAは、量子ハードウェア上で回路を実行し、出力を測定することで、パラメトリック量子回路(グラフ構造を符号化する)のパラメータを反復的に最適化する古典的なコンピュータを使用している。 グラフ特性は、信頼できない量子ハードウェアプロバイダによってqaoa回路を分析して容易に検索することができる。 このリスクを軽減するため、分割反復法とともにQAOAのエッジプルーニング難読化法を提案する。 基本的な考え方は (i)難解化問題グラフから除去されたエッジがほとんどない2種類のQAOA回路 (ii)最適化プロセス中に回路を交互に繰り返して、最適化品質を維持すること、及び 3) 回路を2つの異なる信頼できないハードウェアプロバイダに送信し、敵がIPを保護する部分グラフにアクセスできるようにする。 2つの異なるハードウェア上でのエッジプルーニングの難読化と分割繰り返しを組み合わせることでIPを確保でき、性能劣化を最大10%(平均で約5%)に制限し、低オーバーヘッドコスト(単層実装のQAOAでは0.5倍未満)を維持しながら、再構築の難しさを高めることが実証された。

As the quantum computing ecosystem grows in popularity and utility it is important to identify and address the security and privacy vulnerabilities before they can be widely exploited. One major concern is the involvement of third party tools and hardware. Usage of untrusted hardware could present the risk of intellectual property (IP) theft. For example the hybrid quantum classical algorithms like QAOA encodes the graph properties e.g. number of nodes edges and connectivity in the parameterized quantum circuit to solve a graph maxcut problem. QAOA employs a classical computer which optimizes the parameters of a parametric quantum circuit (which encodes graph structure) iteratively by executing the circuit on a quantum hardware and measuring the output. The graph properties can be readily retrieved by analyzing the QAOA circuit by the untrusted quantum hardware provider. To mitigate this risk, we propose an edge pruning obfuscation method for QAOA along with a split iteration methodology. The basic idea is to (i) create two flavors of QAOA circuit each with few distinct edges eliminated from the problem graph for obfuscation (ii) iterate the circuits alternately during optimization process to uphold the optimization quality and (iii) send the circuits to two different untrusted hardware provider so that the adversary has access to partial graph protecting the IP. We demonstrate that combining edge pruning obfuscation with split iteration on two different hardware secures the IP and increases the difficulty of reconstruction while limiting performance degradation to a maximum of 10 percent (approximately 5 percent on average) and maintaining low overhead costs (less than 0.5X for QAOA with single layer implementation).
翻訳日:2023-05-05 18:04:35 公開日:2023-05-03
# MaskSearch: イメージマスクを大規模にクエリする

MaskSearch: Querying Image Masks at Scale ( http://arxiv.org/abs/2305.02375v1 )

ライセンス: Link先を確認
Dong He, Jieyu Zhang, Maureen Daum, Alexander Ratner, Magdalena Balazinska(参考訳) 画像データベース上の機械学習タスクは、しばしば画像コンテンツに注釈をつけるマスク(例えば、サリエンシーマップ、セグメンテーションマップ)を生成し、様々なアプリケーションを可能にする(例えば、モデルがスプリアス相関を学習しているかどうか、または、画像が悪意を持ってモデルを見誤っているかどうかを判断する)。 マスク特性に基づいて例を検索するクエリは実践者にとって価値があるが、既存のシステムはそのようなクエリを効率的にサポートしていない。 本稿では,この問題を形式化し,画像マスクデータベース上でのクエリの高速化に着目したMaskSearchを提案する。 MaskSearchは、新しいインデックス技術と効率的なフィルタ検証クエリ実行フレームワークを活用している。 プロトタイプを用いた実世界のデータセット実験では,データサイズの約5%のインデックスを使用して,個々のクエリを最大2桁高速化し,データセット探索と分析プロセスをシミュレートしたさまざまなマルチクエリワークロードの既存メソッドを一貫して上回っている。

Machine learning tasks over image databases often generate masks that annotate image content (e.g., saliency maps, segmentation maps) and enable a variety of applications (e.g., determine if a model is learning spurious correlations or if an image was maliciously modified to mislead a model). While queries that retrieve examples based on mask properties are valuable to practitioners, existing systems do not support such queries efficiently. In this paper, we formalize the problem and propose a system, MaskSearch, that focuses on accelerating queries over databases of image masks. MaskSearch leverages a novel indexing technique and an efficient filter-verification query execution framework. Experiments on real-world datasets with our prototype show that MaskSearch, using indexes approximately 5% the size of the data, accelerates individual queries by up to two orders of magnitude and consistently outperforms existing methods on various multi-query workloads that simulate dataset exploration and analysis processes.
翻訳日:2023-05-05 18:03:56 公開日:2023-05-03
# BERTに基づく単語埋め込みと注意に基づくLSTMと改良された微分進化アルゴリズムを組み合わせた新しいプラジャリズム検出手法

A Novel Plagiarism Detection Approach Combining BERT-based Word Embedding, Attention-based LSTMs and an Improved Differential Evolution Algorithm ( http://arxiv.org/abs/2305.02374v1 )

ライセンス: Link先を確認
Seyed Vahid Moravvej, Seyed Jalaleddin Mousavirad, Diego Oliva, Fardin Mohammadi(参考訳) 盗作の検出は、2つの異なるソースから類似のアイテムを見つけることを伴う。 本稿では,注意機構に基づく長短期記憶(LSTM)と,変圧器(BERT)単語の埋め込みによる双方向エンコーダ表現に基づいて,事前学習のための最適化微分進化(DE)法と訓練のための焦点損失関数を併用した,新しいプラギアリズム検出法を提案する。 BERTは下流タスクに含まれることができ、タスク固有のBERTとして微調整され、タスク固有の構造として微調整され、訓練されたBERTモデルは様々な言語特性を検出することができる。 不均衡分類は、盗作検出における主要な問題の一つである。 マイノリティクラスインスタンスを慎重に学習してこの問題を解決する焦点損失に基づくトレーニング手法を提案する。 これは一般的に、学習プロセスにバックプロパゲーションのような勾配ベースの手法を用いるため、初期化に対する感受性などいくつかの欠点を抱えています。 BPプロセスを開始するために,クラスタリングに基づく突然変異演算子を用いた新しいDEアルゴリズムを提案する。 ここでは、現在のDE人口に対して勝利クラスタを同定し、潜在的回答を生成するために新しい更新方法を用いる。 我々は,提案手法を3つのベンチマークデータセット(msrp,snli,semeval2014)で評価し,従来の手法と人口ベースの手法を比べた結果,良好な性能を示す。

Detecting plagiarism involves finding similar items in two different sources. In this article, we propose a novel method for detecting plagiarism that is based on attention mechanism-based long short-term memory (LSTM) and bidirectional encoder representations from transformers (BERT) word embedding, enhanced with optimized differential evolution (DE) method for pre-training and a focal loss function for training. BERT could be included in a downstream task and fine-tuned as a task-specific BERT can be included in a downstream task and fine-tuned as a task-specific structure, while the trained BERT model is capable of detecting various linguistic characteristics. Unbalanced classification is one of the primary issues with plagiarism detection. We suggest a focal loss-based training technique that carefully learns minority class instances to solve this. Another issue that we tackle is the training phase itself, which typically employs gradient-based methods like back-propagation for the learning process and thus suffers from some drawbacks, including sensitivity to initialization. To initiate the BP process, we suggest a novel DE algorithm that makes use of a clustering-based mutation operator. Here, a winning cluster is identified for the current DE population, and a fresh updating method is used to produce potential answers. We evaluate our proposed approach on three benchmark datasets ( MSRP, SNLI, and SemEval2014) and demonstrate that it performs well when compared to both conventional and population-based methods.
翻訳日:2023-05-05 18:03:25 公開日:2023-05-03
# シーケンスからシーケンスモデルへのバックドア学習

Backdoor Learning on Sequence to Sequence Models ( http://arxiv.org/abs/2305.02424v1 )

ライセンス: Link先を確認
Lichang Chen, Minhao Cheng, Heng Huang(参考訳) バックドア学習は、信頼できる機械学習システムを構築するための新たな研究分野となっている。 画像やテキストの分類におけるバックドア攻撃の隠れた危険性を多くの研究が研究しているが、出力空間が無限かつ離散的である場合、バックドア攻撃に対するモデルの堅牢性に関する理解は限られている。 本稿では,sequence-to-sequence (seq2seq)モデルがバックドア攻撃に対して脆弱かどうかをテストするという,より困難な課題について検討する。 具体的には、データセットの0.2\%のサンプルを注入するだけで、Seq2seqモデルに指定されたキーワードと文全体を生成することができる。 さらに,複数のトリガーを生成するためにbpe(byte pair encoding)を利用することで,バックドア検出に新たな課題が生じた。 提案手法は,複数のデータセットとモデルにおいて攻撃成功率90%以上を達成することができることを示すため,機械翻訳とテキスト要約に関する広範な実験を行った。

Backdoor learning has become an emerging research area towards building a trustworthy machine learning system. While a lot of works have studied the hidden danger of backdoor attacks in image or text classification, there is a limited understanding of the model's robustness on backdoor attacks when the output space is infinite and discrete. In this paper, we study a much more challenging problem of testing whether sequence-to-sequence (seq2seq) models are vulnerable to backdoor attacks. Specifically, we find by only injecting 0.2\% samples of the dataset, we can cause the seq2seq model to generate the designated keyword and even the whole sentence. Furthermore, we utilize Byte Pair Encoding (BPE) to create multiple new triggers, which brings new challenges to backdoor detection since these backdoors are not static. Extensive experiments on machine translation and text summarization have been conducted to show our proposed methods could achieve over 90\% attack success rate on multiple datasets and models.
翻訳日:2023-05-05 17:56:18 公開日:2023-05-03
# PTP:摂動型正規化器によるプロンプトチューニングの安定性と性能向上

PTP: Boosting Stability and Performance of Prompt Tuning with Perturbation-Based Regularizer ( http://arxiv.org/abs/2305.02423v1 )

ライセンス: Link先を確認
Lichang Chen, Heng Huang, Minhao Cheng(参考訳) 最近の研究では、下流の自然言語理解タスクを微調整するよりも、プロンプトチューニングが大きな言語モデルのパワーをうまく活用できることが示されている。 しかし,既存のプロンプトチューニング手法では,無作為種子の違いによるスコアのばらつきが極めて大きいため,トレーニングの不安定性が問題となる。 この問題に対処するため,我々はまず,入力データのわずかな変化がロスランドスケープに大きな変動を引き起こす可能性がある場合に,バニラプロンプトチューニングの損失ランドスケープが優先的であることを調査・発見する。 これは、プロンプトチューニングの不安定性につながる重要な要素である。 この観測に基づいて、損失景観を平滑化できる摂動型正規化器を即時チューニングに導入する。 本稿では, 摂動型正規化アルゴリズムであるPrompt Tuning with Perturbation-based regularizer~(PTP)を提案する。 我々は2種類の摂動に基づく正規化器を設計した。 特に,提案する摂動はテキスト空間と埋め込み空間の両方において柔軟である。 広範な実験により,提案手法の有効性が示された。 我々の新しいアルゴリズムは,SuperGLUEベンチマークとFewGLUEベンチマークでそれぞれ 1.94 % と 2.34 % の改善を行った。

Recent studies show that prompt tuning can better leverage the power of large language models than fine-tuning on downstream natural language understanding tasks. However, the existing prompt tuning methods have training instability issues, as the variance of scores under different random seeds is quite large. To address this critical problem, we first investigate and find that the loss landscape of vanilla prompt tuning is precipitous when it is visualized, where a slight change of input data can cause a big fluctuation in the loss landscape. This is an essential factor that leads to the instability of prompt tuning. Based on this observation, we introduce perturbation-based regularizers, which can smooth the loss landscape, into prompt tuning. We propose a new algorithm, called Prompt Tuning with Perturbation-based regularizer~(PTP), which can not only alleviate training instability dramatically but also boost the performance of prompt tuning. We design two kinds of perturbation-based regularizers, including random-noise-based and adversarial-based. In particular, our proposed perturbations are flexible on both text space and embedding space. Extensive experiments show the effectiveness of our proposed methods in stabilizing the training. Our new algorithms improve the state-of-the-art prompt tuning methods by 1.94\% and 2.34\% on SuperGLUE and FewGLUE benchmarks, respectively.
翻訳日:2023-05-05 17:56:01 公開日:2023-05-03
# GAMIVAL:モバイルクラウドゲームコンテンツにおけるビデオ品質予測

GAMIVAL: Video Quality Prediction on Mobile Cloud Gaming Content ( http://arxiv.org/abs/2305.02422v1 )

ライセンス: Link先を確認
Yu-Chih Chen, Avinab Saha, Chase Davis, Bo Qiu, Xiaoming Wang, Rahul~Gowda, Ioannis~Katsavounidis, Alan C. Bovik(参考訳) モバイルのクラウドゲーム産業はこの10年間で急速に成長している。 ストリーミングゲームビデオがクラウドサーバから顧客のクライアントデバイスに送信される場合、参照ビデオなしで歪んだビデオ品質をモニタできるアルゴリズムが望ましいツールである。 しかし、コンピュータグラフィックスエンジンでレンダリングされたストリーミングゲームビデオの品質を正確に予測できるNo-Reference Video Quality Assessment (NR VQA)モデルを作成することは難しい問題である。 最近まで、モバイルゲームコンテンツの主観的品質データベースが不十分なため、この問題はさらに複雑だった。 我々はゲーム専用nr vqaモデルであるgameing video quality evaluator(gamival)を作成し、空間的および時間的ゲーム歪曲されたシーン統計モデル、ニューラルノイズモデル、深い意味的特徴の利点を活用した。 サポートベクタ回帰(SVR)を回帰器として使用するGAMIVALは,新たなLIVE-Meta Mobile Cloud Gaming(LIVE-Meta MCG)ビデオ品質データベースにおいて,優れたパフォーマンスを実現する。

The mobile cloud gaming industry has been rapidly growing over the last decade. When streaming gaming videos are transmitted to customers' client devices from cloud servers, algorithms that can monitor distorted video quality without having any reference video available are desirable tools. However, creating No-Reference Video Quality Assessment (NR VQA) models that can accurately predict the quality of streaming gaming videos rendered by computer graphics engines is a challenging problem, since gaming content generally differs statistically from naturalistic videos, often lacks detail, and contains many smooth regions. Until recently, the problem has been further complicated by the lack of adequate subjective quality databases of mobile gaming content. We have created a new gaming-specific NR VQA model called the Gaming Video Quality Evaluator (GAMIVAL), which combines and leverages the advantages of spatial and temporal gaming distorted scene statistics models, a neural noise model, and deep semantic features. Using a support vector regression (SVR) as a regressor, GAMIVAL achieves superior performance on the new LIVE-Meta Mobile Cloud Gaming (LIVE-Meta MCG) video quality database.
翻訳日:2023-05-05 17:55:39 公開日:2023-05-03
# 事例研究を超えて:社会技術監視研究を通してデータサイエンス批判と倫理を教える

Beyond case studies: Teaching data science critique and ethics through sociotechnical surveillance studies ( http://arxiv.org/abs/2305.02420v1 )

ライセンス: Link先を確認
Nicholas Rabb, Desen Ozkan(参考訳) 倫理は、構造的な抑圧を強化することを示すアルゴリズムやシステムの批判が高まる中で、データサイエンスの研究、実践、教育に緊急の関心事となっている。 データサイエンスの教育者は、これらの批判に答えるカリキュラムを作ろうという欲求が高まっているが、多くの倫理教育は個別化され続けており、特定のケースに焦点を絞っている。 我々は、最も人気のある批判的データサイエンスの著作を合成し、批判的データ研究の根底にある社会現象(抑圧、社会システム、権力、歴史、変化の理論)と対話するデータサイエンス倫理コースを、差し迫った社会技術的システム、監視システムの分析を通して設計した。 学生のリフレクションと最終プロジェクトの分析を通じて,学期が終わる頃には,すべての学生が,自己の監視システムを調査し,自らの利益,損害,主唱者,抵抗者,社会システムとの相互作用を,人種,階級,性別などの次元を考慮しながら特定できる,批判的な分析スキルを身につけたと結論づけた。 この種の教育 -- データサイエンス倫理を社会理論と共に直接教えること -- はこの分野にとって重要な次のステップである。

Ethics have become an urgent concern for data science research, practice, and instruction in the wake of growing critique of algorithms and systems showing that they reinforce structural oppression. There has been increasing desire on the part of data science educators to craft curricula that speak to these critiques, yet much ethics education remains individualized, focused on specific cases, or too abstract and unapplicable. We synthesized some of the most popular critical data science works and designed a data science ethics course that spoke to the social phenomena at the root of critical data studies -- theories of oppression, social systems, power, history, and change -- through analysis of a pressing sociotechnical system: surveillance systems. Through analysis of student reflections and final projects, we determined that at the conclusion of the semester, all students had developed critical analysis skills that allowed them to investigate surveillance systems of their own and identify their benefits, harms, main proponents, those who resist them, and their interplay with social systems, all while considering dimensions of race, class, gender, and more. We argue that this type of instruction -- directly teaching data science ethics alongside social theory -- is a crucial next step for the field.
翻訳日:2023-05-05 17:55:17 公開日:2023-05-03
# 計画, 排除, 追跡 -- 言語モデルは身体的エージェントにとって良い教師である

Plan, Eliminate, and Track -- Language Models are Good Teachers for Embodied Agents ( http://arxiv.org/abs/2305.02412v1 )

ライセンス: Link先を確認
Yue Wu, So Yeon Min, Yonatan Bisk, Ruslan Salakhutdinov, Amos Azaria, Yuanzhi Li, Tom Mitchell, Shrimai Prabhumoye(参考訳) 事前訓練された大言語モデル(LLM)は、世界に関する手続き的な知識をキャプチャする。 最近の研究は、アクションスコアリングやアクションモデリング(微調整)によって、難しい制御タスクを単純化する抽象的な計画を生成するLLMの能力を活用している。 しかし、トランスフォーマーアーキテクチャは、入力長の制限、微調整の非効率性、事前トレーニングからのバイアス、非テキスト環境との非互換性など、llmがエージェントとして直接機能することの難しいいくつかの制約を継承している。 低レベルの訓練可能なアクターとの互換性を維持するために、llmの知識を使って制御問題を単純化することを提案します。 我々は,PET(Plan, Eliminate, and Track)フレームワークを提案する。 Planモジュールはタスク記述をハイレベルなサブタスクのリストに変換する。 Eliminateモジュールは、現在のサブタスクの観測から無関係なオブジェクトとレセプタクルをマスクする。 最後に、トラックモジュールは、エージェントが各サブタスクを完了したかどうかを決定する。 AlfWorldの次のベンチマークでは、PETフレームワークが人間目標仕様への一般化のためにSOTAよりも15%改善されている。

Pre-trained large language models (LLMs) capture procedural knowledge about the world. Recent work has leveraged LLM's ability to generate abstract plans to simplify challenging control tasks, either by action scoring, or action modeling (fine-tuning). However, the transformer architecture inherits several constraints that make it difficult for the LLM to directly serve as the agent: e.g. limited input lengths, fine-tuning inefficiency, bias from pre-training, and incompatibility with non-text environments. To maintain compatibility with a low-level trainable actor, we propose to instead use the knowledge in LLMs to simplify the control problem, rather than solving it. We propose the Plan, Eliminate, and Track (PET) framework. The Plan module translates a task description into a list of high-level sub-tasks. The Eliminate module masks out irrelevant objects and receptacles from the observation for the current sub-task. Finally, the Track module determines whether the agent has accomplished each sub-task. On the AlfWorld instruction following benchmark, the PET framework leads to a significant 15% improvement over SOTA for generalization to human goal specifications.
翻訳日:2023-05-05 17:54:54 公開日:2023-05-03
# 任意の時空次元における格子ゲージ理論の正規化流れ

Normalizing flows for lattice gauge theory in arbitrary space-time dimension ( http://arxiv.org/abs/2305.02402v1 )

ライセンス: Link先を確認
Ryan Abbott, Michael S. Albergo, Aleksandar Botev, Denis Boyda, Kyle Cranmer, Daniel C. Hackett, Gurtej Kanwar, Alexander G.D.G. Matthews, S\'ebastien Racani\`ere, Ali Razavi, Danilo J. Rezende, Fernando Romero-L\'opez, Phiala E. Shanahan, Julian M. Urban(参考訳) 格子ゲージ理論における場配置のサンプリングへの正規化流れの応用は、これまでほとんど2つの時空次元で研究されてきた。 我々は高次元格子幾何学への一般化を容易にするゲージ同変流アーキテクチャの新しいアルゴリズム開発について報告する。 具体的には,スケーラブルで漸近的に厳密なフローベースサンプリングアルゴリズムの重要な成分である,従順かつ偏りのないヤコビ行列式を用いたマスク付き自己回帰変換について論じる。 具体的には、4つの時空次元におけるSU(3)格子ゲージ理論への原理的応用の成果を報告する。

Applications of normalizing flows to the sampling of field configurations in lattice gauge theory have so far been explored almost exclusively in two space-time dimensions. We report new algorithmic developments of gauge-equivariant flow architectures facilitating the generalization to higher-dimensional lattice geometries. Specifically, we discuss masked autoregressive transformations with tractable and unbiased Jacobian determinants, a key ingredient for scalable and asymptotically exact flow-based sampling algorithms. For concreteness, results from a proof-of-principle application to SU(3) lattice gauge theory in four space-time dimensions are reported.
翻訳日:2023-05-05 17:54:37 公開日:2023-05-03
# S-DOTA(Synthetic DOmain-Targeted Augmentation)はデジタル病理におけるモデル一般化を改善する

Synthetic DOmain-Targeted Augmentation (S-DOTA) Improves Model Generalization in Digital Pathology ( http://arxiv.org/abs/2305.02401v1 )

ライセンス: Link先を確認
Sai Chowdary Gullapally, Yibo Zhang, Nitin Kumar Mittal, Deeksha Kartik, Sandhya Srinivasan, Kevin Rose, Daniel Shenker, Dinkar Juyal, Harshith Padigela, Raymond Biju, Victor Minden, Chirag Maheshwari, Marc Thibault, Zvi Goldstein, Luke Novak, Nidhi Chandra, Justin Lee, Aaditya Prakash, Chintan Shah, John Abel, Darren Fahy, Amaro Taylor-Weiner, Anand Sampat(参考訳) 機械学習アルゴリズムは、デジタル病理学における患者の結果を改善する可能性がある。 しかし, これらのツールの一般化は, デジタル化スライドのドメインシフトにつながる組織調製, 染色手順, 走査装置の変動に敏感に制限されている。 この限界を克服し、モデル一般化を改善すべく、サイクガン対応スキャナ変換(st)とターゲットステンドベクトル拡張(sva)という2つの合成ドメイン標的拡張(s-dota)法の有効性を検討し、国際カラーコンソーシアム(icc)プロファイルベースカラーキャリブレーション(icc cal)法と従来の輝度、色、ノイズの増強を用いたベースライン法と比較した。 肝細胞癌 (hcc) , 非アルコール性脂肪肝炎 (nash), 前立腺癌 (前立腺腺癌) の4つのモデル, 2つのモデルタイプ (tissue segmentation and cell classification), 2つの損失機能, 6つのラボ, 6つのスキャナー, 3つの指標 (肝細胞癌 (hcc), 非アルコール性脂肪肝炎 (nash), 前立腺腺癌) の3つについて検討した。 本手法は,複数のドメインにまたがる分布内(ID)および分布外(OOD)テストセットのマクロ平均F1スコアに基づいて比較した結果,S-DOTA法(ST,SVA)はICC Calよりも大幅に改善され,OODデータのベースラインはIDデータに匹敵する性能を維持した。 したがって,S-DOTAは実世界のアプリケーションにおけるドメインシフトによる一般化に有効であることを示す。

Machine learning algorithms have the potential to improve patient outcomes in digital pathology. However, generalization of these tools is currently limited by sensitivity to variations in tissue preparation, staining procedures and scanning equipment that lead to domain shift in digitized slides. To overcome this limitation and improve model generalization, we studied the effectiveness of two Synthetic DOmain-Targeted Augmentation (S-DOTA) methods, namely CycleGAN-enabled Scanner Transform (ST) and targeted Stain Vector Augmentation (SVA), and compared them against the International Color Consortium (ICC) profile-based color calibration (ICC Cal) method and a baseline method using traditional brightness, color and noise augmentations. We evaluated the ability of these techniques to improve model generalization to various tasks and settings: four models, two model types (tissue segmentation and cell classification), two loss functions, six labs, six scanners, and three indications (hepatocellular carcinoma (HCC), nonalcoholic steatohepatitis (NASH), prostate adenocarcinoma). We compared these methods based on the macro-averaged F1 scores on in-distribution (ID) and out-of-distribution (OOD) test sets across multiple domains, and found that S-DOTA methods (i.e., ST and SVA) led to significant improvements over ICC Cal and baseline on OOD data while maintaining comparable performance on ID data. Thus, we demonstrate that S-DOTA may help address generalization due to domain shift in real world applications.
翻訳日:2023-05-05 17:54:29 公開日:2023-05-03
# ビュー間の関係オブジェクトマッチングの学習

Learning-based Relational Object Matching Across Views ( http://arxiv.org/abs/2305.02398v1 )

ライセンス: Link先を確認
Cathrin Elich, Iro Armeni, Martin R. Oswald, Marc Pollefeys, Joerg Stueckler(参考訳) インテリジェントロボットは、可能なタスクや環境とのインタラクションを理解するために、オブジェクトレベルのシーン理解を必要とする。 さらに、シーン再構成、画像検索、位置認識などの多くの知覚タスクは、オブジェクトのレベルに基づく推論の恩恵を受けることができる。 キーポイントベースのマッチングは、小中小の視点変化のある画像の対応を見つけるための強力な結果をもたらすが、大きな視点変化の場合、オブジェクトレベルで意味的にマッチングすることが有利になる。 本稿では,RGB画像間のオブジェクト検出をマッチングするための,局所キーポイントと新たなオブジェクトレベルの特徴を組み合わせた学習ベースアプローチを提案する。 我々は、連想グラフニューラルネットワークにおけるオブジェクト間の外観とフレーム間およびフレーム間空間関係に基づいて、オブジェクトレベルのマッチング機能を訓練する。 本手法は,実演合成画像に対する多種多様な視点で実証する。 このアプローチは、以前の最先端オブジェクトレベルのマッチングアプローチと比較し、大規模なビューポイント変更に対する純粋なキーポイントベースのアプローチよりもパフォーマンスが向上する。

Intelligent robots require object-level scene understanding to reason about possible tasks and interactions with the environment. Moreover, many perception tasks such as scene reconstruction, image retrieval, or place recognition can benefit from reasoning on the level of objects. While keypoint-based matching can yield strong results for finding correspondences for images with small to medium view point changes, for large view point changes, matching semantically on the object-level becomes advantageous. In this paper, we propose a learning-based approach which combines local keypoints with novel object-level features for matching object detections between RGB images. We train our object-level matching features based on appearance and inter-frame and cross-frame spatial relations between objects in an associative graph neural network. We demonstrate our approach in a large variety of views on realistically rendered synthetic images. Our approach compares favorably to previous state-of-the-art object-level matching approaches and achieves improved performance over a pure keypoint-based approach for large view-point changes.
翻訳日:2023-05-05 17:53:51 公開日:2023-05-03
# 説明可能なAIによって明らかにされたグローバルフォレストカーボンオフセットプロジェクトに対する将来の山火事リスクの拡大

Widespread Increases in Future Wildfire Risk to Global Forest Carbon Offset Projects Revealed by Explainable AI ( http://arxiv.org/abs/2305.02397v1 )

ライセンス: Link先を確認
Tristan Ballard, Matthew Cooper, Chris Lowrie, Gopal Erinjippurath(参考訳) 炭素オフセットプログラムは気候変動との戦いに不可欠である。 森林炭素オフセットプロジェクトの長期的な安定性と生存可能性に対する新たな脅威は、大量の炭素を放出し、関連するオフセットクレジットの有効性を制限する山火事である。 しかし,森林炭素プロジェクトに対する山火事リスクの分析は,長期火災リスク予測モデルが予測精度に制限されているため困難である。 そこで,本稿では,700万の衛星ワイルドファイア観測に基づく説明可能な人工知能(xai)モデルを提案する。 検証結果は、高解像度で、地球規模の山火事リスクの予測精度が向上し、米国大気研究センターの主火モデルよりも優れていることを示唆している。 190のグローバルな森林炭素プロジェクトに対して,2080年までに火災露光量は55%(37-76%)増加すると予想されている(SSP2-4.5)。 その結果,森林が暖かく乾燥するにつれて,過去10年間の森林火災による炭素プロジェクトの被害が増大する可能性が示唆された。 それに応えて、このモデルが森林の炭素プロジェクトに対する長期的な永続リスクを前もって定量化し緩和するために、ワイルドファイアマネージャ、政策立案者、およびカーボンマーケットアナリストをサポートすることを望んでいる。

Carbon offset programs are critical in the fight against climate change. One emerging threat to the long-term stability and viability of forest carbon offset projects is wildfires, which can release large amounts of carbon and limit the efficacy of associated offsetting credits. However, analysis of wildfire risk to forest carbon projects is challenging because existing models for forecasting long-term fire risk are limited in predictive accuracy. Therefore, we propose an explainable artificial intelligence (XAI) model trained on 7 million global satellite wildfire observations. Validation results suggest substantial potential for high resolution, enhanced accuracy projections of global wildfire risk, and the model outperforms the U.S. National Center for Atmospheric Research's leading fire model. Applied to a collection of 190 global forest carbon projects, we find that fire exposure is projected to increase 55% [37-76%] by 2080 under a mid-range scenario (SSP2-4.5). Our results indicate the large wildfire carbon project damages seen in the past decade are likely to become more frequent as forests become hotter and drier. In response, we hope the model can support wildfire managers, policymakers, and carbon market analysts to preemptively quantify and mitigate long-term permanence risks to forest carbon projects.
翻訳日:2023-05-05 17:53:36 公開日:2023-05-03
# 機能エンジニアリングはマルウェア検出の量子機械学習に役立つか?

Can Feature Engineering Help Quantum Machine Learning for Malware Detection? ( http://arxiv.org/abs/2305.02396v1 )

ライセンス: Link先を確認
Ran Liu, Maksim Eren, Charles Nicholas(参考訳) マルウェア攻撃の増加と高度化に伴い、機械学習(ML)に基づくマルウェア検出システムの重要性が高まっている。 同時に、マルウェア分類で使用される多くの一般的なMLモデルが教師付きソリューションである。 これらの教師付き分類器は、しばしば新しいマルウェアによく一般化しない。 そのため、新しいマルウェアの標本を検出するために、頻繁に再訓練する必要がある。 本研究は,データサイズとマルウェア分類器の訓練時間を削減するための特徴選択戦略と組み合わせた,理論量子mlのハイブリッドフレームワークでこの問題に対処した。 予備的な結果は、XGBoostが選択したVQCがシミュレータで78.91%の精度でテストできることを示している。 XGBoostで選択された機能を使用してトレーニングされたモデルの平均精度は、IBM 5量子ビットマシンで74%(+-11.35%)であった。

With the increasing number and sophistication of malware attacks, malware detection systems based on machine learning (ML) grow in importance. At the same time, many popular ML models used in malware classification are supervised solutions. These supervised classifiers often do not generalize well to novel malware. Therefore, they need to be re-trained frequently to detect new malware specimens, which can be time-consuming. Our work addresses this problem in a hybrid framework of theoretical Quantum ML, combined with feature selection strategies to reduce the data size and malware classifier training time. The preliminary results show that VQC with XGBoost selected features can get a 78.91% test accuracy on the simulator. The average accuracy for the model trained using the features selected with XGBoost was 74% (+- 11.35%) on the IBM 5 qubits machines.
翻訳日:2023-05-05 17:53:13 公開日:2023-05-03
# マルコフデータのストリーミングPCA

Streaming PCA for Markovian Data ( http://arxiv.org/abs/2305.02456v1 )

ライセンス: Link先を確認
Syamantak Kumar and Purnamrita Sarkar(参考訳) 1982年にErikki Ojaのセミナー論文に登場して以来、Ojaのアルゴリズムはストリーミング原理成分分析(PCA)の確立された方法となっている。 本研究では,データポイントを既約,非周期,可逆マルコフ連鎖からサンプリングするストリーミングpcaの問題について検討する。 我々の目標は定常分布の未知共分散行列の最上位固有ベクトルを推定することである。 この設定は、マルコフ連鎖モンテカルロ(mcmc)型アルゴリズムからのみデータをサンプリングできる状況において意味を持ち、この連鎖の定常分布のパラメータの推測を行うことが目的である。 文献におけるOjaのアルゴリズムのほとんどの収束保証は、データポイントがIIDのサンプルであると仮定する。 マルコフ依存のデータストリームの場合、典型的にはデータをダウンサンプリングして"ほぼ"独立したデータストリームを得る。 本稿では,データ全体に対するojaアルゴリズムの最初のシャープレートを得るとともに,ダウンサンプリング戦略でデータを捨てることから,n$ に対する対数依存を取り除いた。

Since its inception in Erikki Oja's seminal paper in 1982, Oja's algorithm has become an established method for streaming principle component analysis (PCA). We study the problem of streaming PCA, where the data-points are sampled from an irreducible, aperiodic, and reversible Markov chain. Our goal is to estimate the top eigenvector of the unknown covariance matrix of the stationary distribution. This setting has implications in situations where data can only be sampled from a Markov Chain Monte Carlo (MCMC) type algorithm, and the goal is to do inference for parameters of the stationary distribution of this chain. Most convergence guarantees for Oja's algorithm in the literature assume that the data-points are sampled IID. For data streams with Markovian dependence, one typically downsamples the data to get a "nearly" independent data stream. In this paper, we obtain the first sharp rate for Oja's algorithm on the entire data, where we remove the logarithmic dependence on $n$ resulting from throwing data away in downsampling strategies.
翻訳日:2023-05-05 17:48:05 公開日:2023-05-03
# ブラックボックスシステムのベイズ安全検証

Bayesian Safety Validation for Black-Box Systems ( http://arxiv.org/abs/2305.02449v1 )

ライセンス: Link先を確認
Robert J. Moss, Mykel J. Kochenderfer, Maxime Gariel, Arthur Dubois(参考訳) 安全クリティカルシステムの故障確率を正確に推定することは、認証にとって重要である。 高次元の入力空間、危険なテストシナリオ、計算コストの高いシミュレータなどにより、推定はしばしば困難であり、効率的な推定技術が研究に重要である。 本研究は,ブラックボックス安全性検証の問題をベイズ最適化問題として再検討し,確率的サロゲートモデルに反復的に適合して故障を効率的に予測するアルゴリズムベイズ安全性検証を導入する。 このアルゴリズムは、障害を探索し、最もよく似た障害を計算し、重要サンプリングを用いてオペレーティングシステム上の障害確率を推定するように設計されている。 本研究では,設計空間をカバーすることで不確実性を低減することに着目し,解析的に導出される障害境界を最適化し,予測した障害領域をサンプリングする3つの獲得関数を導入する。 故障の2進表示のみを出力するシステムについては,本手法がより多くの出力情報が得られる場合にも有効であることを示す。 その結果, ベイジアン安全性検証は, サンプルの桁数を桁違いに減らして, 故障確率をよりよく推定し, 各種安全性検証指標で良好な性能を発揮することがわかった。 このアルゴリズムは、地上の真実へのアクセスに関する3つのテスト問題と、自律飛行に共通する現実世界の安全クリティカルなサブシステム、すなわちニューラルネットワークに基づく滑走路検出システムについて実証する。 この作業はオープンソースで、現在、自律貨物機のための機械学習コンポーネントのFAA認定プロセスを補完するために使用されている。

Accurately estimating the probability of failure for safety-critical systems is important for certification. Estimation is often challenging due to high-dimensional input spaces, dangerous test scenarios, and computationally expensive simulators; thus, efficient estimation techniques are important to study. This work reframes the problem of black-box safety validation as a Bayesian optimization problem and introduces an algorithm, Bayesian safety validation, that iteratively fits a probabilistic surrogate model to efficiently predict failures. The algorithm is designed to search for failures, compute the most-likely failure, and estimate the failure probability over an operating domain using importance sampling. We introduce a set of three acquisition functions that focus on reducing uncertainty by covering the design space, optimizing the analytically derived failure boundaries, and sampling the predicted failure regions. Mainly concerned with systems that only output a binary indication of failure, we show that our method also works well in cases where more output information is available. Results show that Bayesian safety validation achieves a better estimate of the probability of failure using orders of magnitude fewer samples and performs well across various safety validation metrics. We demonstrate the algorithm on three test problems with access to ground truth and on a real-world safety-critical subsystem common in autonomous flight: a neural network-based runway detection system. This work is open sourced and currently being used to supplement the FAA certification process of the machine learning components for an autonomous cargo aircraft.
翻訳日:2023-05-05 17:47:47 公開日:2023-05-03
# ブールネットワークの最小トラップ空間の普遍的性質に取り組む

Tackling Universal Properties of Minimal Trap Spaces of Boolean Networks ( http://arxiv.org/abs/2305.02442v1 )

ライセンス: Link先を確認
Sara Riva, Jean-Marie Lagniez, Gustavo Maga\~na L\'opez, Lo\"ic Paulev\'e(参考訳) 最小トラップ空間(MTS)は、更新モードによらず、ブールダイナミクスが閉じ込められている部分空間をキャプチャする。 それらは最も寛容なモードの誘引者に対応する。 汎用性のため、MSSの計算は、本質的には列挙に焦点をあてることで、近年牽引力を高めている。 本稿では, MTS の普遍性に関する論理的推論を, MTS 上の任意の性質を強制する Boolean 変数の永久凍結を識別するための Boolean ネットワークの再プログラミングと, MTS 上の普遍性から Boolean ネットワークを合成する,という2つの問題の範囲内で解決する。 どちらの問題も、量化命題論理式を3段階の量化子(\exists\forall\exists$)で満たすことができる。 本稿では,2つの簡単な公式の解法を結合することにより,これらの問題を効率的に解くための逆例誘導改良抽象化(cegar)を提案する。 式ごとに解集合プログラミングを頼りにし、生物ネットワークの幅広いブールモデルにその扱い可能性を示すプロトタイプを提供する。

Minimal trap spaces (MTSs) capture subspaces in which the Boolean dynamics is trapped, whatever the update mode. They correspond to the attractors of the most permissive mode. Due to their versatility, the computation of MTSs has recently gained traction, essentially by focusing on their enumeration. In this paper, we address the logical reasoning on universal properties of MTSs in the scope of two problems: the reprogramming of Boolean networks for identifying the permanent freeze of Boolean variables that enforce a given property on all the MTSs, and the synthesis of Boolean networks from universal properties on their MTSs. Both problems reduce to solving the satisfiability of quantified propositional logic formula with 3 levels of quantifiers ($\exists\forall\exists$). In this paper, we introduce a Counter-Example Guided Refinement Abstraction (CEGAR) to efficiently solve these problems by coupling the resolution of two simpler formulas. We provide a prototype relying on Answer-Set Programming for each formula and show its tractability on a wide range of Boolean models of biological networks.
翻訳日:2023-05-05 17:47:20 公開日:2023-05-03
# フェデレーション・マルチアームバンドのためのリワード指導

Reward Teaching for Federated Multi-armed Bandits ( http://arxiv.org/abs/2305.02441v1 )

ライセンス: Link先を確認
Chengshuai Shi, Wei Xiong, Cong Shen, Jing Yang(参考訳) 既存のfederated multi-armed bandits (fmab) の設計のほとんどは、クライアントがサーバと協調するために指定された設計を実装するという仮定に基づいている。 しかし実際には、クライアントの既存のプロトコルを変更することはできないかもしれない。 この課題に対処するために、この研究は、常に個々の累積報酬を最大化する顧客に焦点を当て、サーバが暗黙の局所報酬調整を通じてクライアントをグローバルな最適性へと導く「リワード教育」という新しいアイデアを導入する。 このフレームワークでは、サーバはバンド学習と目標教育という2つの密結合されたタスクに直面します。 teaching-After-Learning (TAL) と呼ばれる段階的なアプローチは、まずクライアントの探索を個別に奨励し、妨げるように設計されている。 talの一般的な性能分析は、クライアントの戦略が一定の穏やかな要求を満たすときに確立される。 バンディットアルゴリズムのウォームスタート動作を解析する新たな技術的アプローチが開発され, UCBやepsilon-greedy戦略を実行するクライアントによるTALの特定保証が得られた。 これらの結果から、TALは対数的不備を達成し、対数的調整コストのみを発生させることが示されている。 さらに、TWLアルゴリズムは、TBの非適応位相分離を断ち切るために、連続したアームの除去という考え方で開発されている。 厳密な分析は、UTB1でクライアントと向き合う場合、TWLはその適応設計により、サブ最適性ギャップへの依存性の観点からTALより優れていることを示した。 実験により提案アルゴリズムの有効性と汎用性を示す。

Most of the existing federated multi-armed bandits (FMAB) designs are based on the presumption that clients will implement the specified design to collaborate with the server. In reality, however, it may not be possible to modify the client's existing protocols. To address this challenge, this work focuses on clients who always maximize their individual cumulative rewards, and introduces a novel idea of "reward teaching", where the server guides the clients towards global optimality through implicit local reward adjustments. Under this framework, the server faces two tightly coupled tasks of bandit learning and target teaching, whose combination is non-trivial and challenging. A phased approach, called Teaching-After-Learning (TAL), is first designed to encourage and discourage clients' explorations separately. General performance analyses of TAL are established when the clients' strategies satisfy certain mild requirements. With novel technical approaches developed to analyze the warm-start behaviors of bandit algorithms, particularized guarantees of TAL with clients running UCB or epsilon-greedy strategies are then obtained. These results demonstrate that TAL achieves logarithmic regrets while only incurring logarithmic adjustment costs, which is order-optimal w.r.t. a natural lower bound. As a further extension, the Teaching-While-Learning (TWL) algorithm is developed with the idea of successive arm elimination to break the non-adaptive phase separation in TAL. Rigorous analyses demonstrate that when facing clients with UCB1, TWL outperforms TAL in terms of the dependencies on sub-optimality gaps thanks to its adaptive design. Experimental results demonstrate the effectiveness and generality of the proposed algorithms.
翻訳日:2023-05-05 17:46:57 公開日:2023-05-03
# 自己回帰トランスフォーマーapiのための推定効率指標の安価評価

Cheaply Evaluating Inference Efficiency Metrics for Autoregressive Transformer APIs ( http://arxiv.org/abs/2305.02440v1 )

ライセンス: Link先を確認
Deepak Narayanan, Keshav Santhanam, Peter Henderson, Rishi Bommasani, Tony Lee, Percy Liang(参考訳) 大規模言語モデル(LLM)は、自然言語処理において多くの最先端システムに電力を供給する。 しかし、これらのモデルは、推測時でさえ非常に計算コストが高く、自然な疑問を提起している。 このトレードオフを理解すれば、どちらも推論効率の指標の恩恵を受けることができる。 (i)異なる提供者のモデルと容易に比較でき、 (ii)独立したパフォーマンス環境でクエリを実行する真のコストの代表。 モデルプロバイダは、モデルに直交する様々なソフトウェアやハードウェアの最適化を適用でき、共有インフラストラクチャで提供されるモデルは、パフォーマンスの競合に影響を受けやすい。 これらの問題を回避すべく,モデル間の推論効率を比較するための新しい指標を提案する。 このメートル法では、モデルが提供されたかのように均等な足元に置かれる (i)一様ハードウェア及びソフトウェアについて、及び (ii) パフォーマンスの競合がない。 我々は、このメトリックを \emph{idealized runtime} と呼び、自己回帰トランスフォーマーモデルに対して、このメトリックを効率的に推定する手法を提案する。 また,モデル提供に必要なアクセラレータの数を組み込んだコスト対応型を提案する。 これらのメトリクスを用いて、10の最先端のLCMを比較して、推論効率-能力トレードオフの最初の分析を行う。この分析から、特定のAPIの推論ランタイム性能が基礎となるモデルよりもAPI内の最適化の副産物であることが多いという事実を含む、いくつかの観察を行う。 本手法は,ソフトウェアスタックとハードウェアスタックの効率的な比較を容易にする。

Large language models (LLMs) power many state-of-the-art systems in natural language processing. However, these models are extremely computationally expensive, even at inference time, raising the natural question: when is the extra cost of deploying a larger model worth the anticipated boost in capabilities? Better understanding this tradeoff fundamentally could benefit from an inference efficiency metric that is both (i) easily comparable across models from different providers, and (ii) representative of the true cost of running queries in an isolated performance environment. Unfortunately, access to LLMs today is largely restricted to black-box text generation APIs and raw runtimes measured through this interface do not satisfy these desiderata: model providers can apply various software and hardware optimizations orthogonal to the model, and models served on shared infrastructure are susceptible to performance contention. To circumvent these problems, we propose a new metric for comparing inference efficiency across models. This metric puts models on equal footing as though they were served (i) on uniform hardware and software, and (ii) without performance contention. We call this metric the \emph{idealized runtime}, and we propose a methodology to efficiently estimate this metric for autoregressive Transformer models. We also propose cost-aware variants that incorporate the number of accelerators needed to serve the model. Using these metrics, we compare ten state-of-the-art LLMs to provide the first analysis of inference efficiency-capability tradeoffs; we make several observations from this analysis, including the fact that the superior inference runtime performance of certain APIs is often a byproduct of optimizations within the API rather than the underlying model. Our methodology also facilitates the efficient comparison of different software and hardware stacks.
翻訳日:2023-05-05 17:46:28 公開日:2023-05-03
# 効率的な量子可観測推定のための複合計測手法

A composite measurement scheme for efficient quantum observable estimation ( http://arxiv.org/abs/2305.02439v1 )

ライセンス: Link先を確認
Zi-Jian Zhang, Kouhei Nakaji, Matthew Choi, Al\'an Aspuru-Guzik(参考訳) 観測可能量の期待値の推定は、量子コンピューティングにおける重要なサブルーチンであり、また多くの短期量子アルゴリズムの性能のボトルネックでもある。 このタスクに必要な測定回数を減らすために多くの研究が提案され、それらが実行する測定を生成するための異なる測定スキームを提供する。 本稿では,ショットを訓練可能な比率で分散することにより,複数の計測スキームを構成する新しい手法である複合計測スキームを提案する。 提案手法の例として, パウリ測度のみを許容する事例について検討し, 局所バイアス付き古典影を構成する複合計測手法である複合LBCS(C-LBCS)を提案する。 分子系のC-LBCSを最大$\mathrm{CO}_2$ (30 qubits) まで数値的に示し、C-LBCSは単純さにもかかわらず従来の最先端手法よりも優れていることを示す。 また,C-LBCSは確率勾配降下により効率よく最適化でき,可観測値に多数の項を含む場合でも訓練可能であることを示す。 提案手法は,大規模量子システム上での効率的な観測可能推定に向けた信頼性の高い方法であると考えている。

Estimation of the expectation value of observables is a key subroutine in quantum computing and is also the bottleneck of the performance of many near-term quantum algorithms. Many works have been proposed to reduce the number of measurements needed for this task and they provide different measurement schemes for generating the measurements to perform. In this paper, we propose a new approach, composite measurement scheme, which composes multiple measurement schemes by distributing shots to them with a trainable ratio. As an example of our method, we study the case where only Pauli measurements are allowed and propose Composite-LBCS (C-LBCS), a composite measurement scheme made by composing locally-biased classical shadows. We numerically demonstrate C-LBCS on molecular systems up to $\mathrm{CO}_2$ (30 qubits) and show that C-LBCS outperforms the previous state-of-the-art methods despite its simplicity. We also show that C-LBCS can be efficiently optimized by stochastic gradient descent and is trainable even when the observable contains a large number of terms. We believe our method opens up a reliable way toward efficient observable estimation on large quantum systems.
翻訳日:2023-05-05 17:46:03 公開日:2023-05-03
# 自分自身を解放する: 自己記憶による検索強化テキスト生成

Lift Yourself Up: Retrieval-augmented Text Generation with Self Memory ( http://arxiv.org/abs/2305.02437v1 )

ライセンス: Link先を確認
Xin Cheng, Di Luo, Xiuying Chen, Lemao Liu, Dongyan Zhao, Rui Yan(参考訳) 人書き参照をメモリとして直接アクセスすることで、検索強化生成は幅広いテキスト生成タスクにおいて大きな進歩を遂げた。 より優れたメモリは、通常、より良い生成を促します~(これを原始的な問題と定義します)。 記憶は固定されたコーパスから取り出され、コーパスの品質によって制限される。 有限検索空間のため、有界メモリはメモリ提供生成モデルのポテンシャルを大幅に制限する。 本稿では,プライマル問題の双対性について検討する。より良い生成はより良いメモリを促進するため,検索型ジェネレータ自体を反復的に採用し,未バウンドメモリプールを生成し,メモリセレクタを用いて1つの生成メモリを次世代ラウンドに選択するselfmemというフレームワークを提案する。 原始問題と双対問題を組み合わせることで、検索型生成モデルは無限世代空間において自身の出力を持ち上げることができる。 本フレームワークを検証するため,ニューラルネットワーク翻訳,抽象要約,対話生成など,さまざまなテキスト生成シナリオを対象に,JRC-Acquis(4方向),XSum(50.3 ROUGE-1),BigPatent(62.9 ROUGE-1)の最先端結果を実現する。

With direct access to human-written reference as memory, retrieval-augmented generation has achieved much progress in a wide range of text generation tasks. Since better memory would typically prompt better generation~(we define this as primal problem), previous works mainly focus on how to retrieve better memory. However, one fundamental limitation exists for current literature: the memory is retrieved from a fixed corpus and is bounded by the quality of the corpus. Due to the finite retrieval space, bounded memory would greatly limit the potential of the memory-augmented generation model. In this paper, by exploring the duality of the primal problem: better generation also prompts better memory, we propose a framework called Selfmem, which iteratively adopts a retrieval-augmented generator itself to generate an unbounded memory pool and uses a memory selector to pick one generated memory for the next generation round. By combining the primal and dual problem, a retrieval-augmented generation model could lift itself up with its own output in the infinite generation space. To verify our framework, we conduct extensive experiments across various text generation scenarios including neural machine translation, abstractive summarization and dialogue generation over seven datasets and achieve state-of-the-art results in JRC-Acquis(four directions), XSum(50.3 ROUGE-1) and BigPatent(62.9 ROUGE-1).
翻訳日:2023-05-05 17:45:43 公開日:2023-05-03
# テンソル-ネットワーク状態における対称性富化位相間の量子相転移

Quantum phase transition between symmetry enriched topological phases in tensor-network states ( http://arxiv.org/abs/2305.02432v1 )

ライセンス: Link先を確認
Lukas Haller, Wen-Tao Xu, Yu-Jie Liu, Frank Pollmann(参考訳) 異なる位相秩序相間の量子相転移はリッチな構造を示し、顕微鏡格子モデルで研究するのが一般的である。 本研究では,異なる対称性富化位相(SET)位相間のチューニングが可能なテンソルネットワーク可解モデルを提案する。 具体的には、基底状態が結合次元$D=3$と2つの可変パラメータを持つ2次元テンソルネットワーク状態として表現できる2次元トーリック符号モデルを考える。 時間反転(TR)対称系は3つの異なる位相を示す。 (i)SETトーリック符号相で、任意のオンがTRの下で非自明に変換される 二 TRが分別しないトーリック符号相及び (iii)積状態と断続的に接続される位相的に自明な位相相。 トポロジ的絡み合いエントロピーと2つのSET位相を区別する膜秩序パラメータを用いて異なる位相を特徴付ける。 設定されたトーリック符号位相とトーリック符号位相の間の位相境界に沿って、モデルは拡張された$u(1)$対称性を持ち、基底状態は古典的$o(2)$モデルの分割関数と同値な二乗ノルムを持つ量子臨界ループガス波動関数である。 双対変換により、このテンソル-ネットワーク可解モデルは、2次元のSET双対相と$\mathbb{Z}_2\times\mathbb{Z}_2^T$対称性保護位相の間の遷移を記述するのにも使うことができる。

Quantum phase transitions between different topologically ordered phases exhibit rich structures and are generically challenging to study in microscopic lattice models. In this work, we propose a tensor-network solvable model that allows us to tune between different symmetry enriched topological (SET) phases. Concretely, we consider a decorated two-dimensional toric code model for which the ground state can be expressed as a two-dimensional tensor-network state with bond dimension $D=3$ and two tunable parameters. We find that the time-reversal (TR) symmetric system exhibits three distinct phases (i) an SET toric code phase in which anyons transform non-trivially under TR, (ii) a toric code phase in which TR does not fractionalize, and (iii) a topologically trivial phase that is adiabatically connected to a product state. We characterize the different phases using the topological entanglement entropy and a membrane order parameter that distinguishes the two SET phases. Along the phase boundary between the SET toric code phase and the toric code phase, the model has an enhanced $U(1)$ symmetry and the ground state is a quantum critical loop gas wavefunction whose squared norm is equivalent to the partition function of the classical $O(2)$ model. By duality transformations, this tensor-network solvable model can also be used to describe transitions between SET double-semion phases and between $\mathbb{Z}_2\times\mathbb{Z}_2^T$ symmetry protected topological phases in two dimensions.
翻訳日:2023-05-05 17:45:17 公開日:2023-05-03
# 可能性リアリズム:確率に基づく現実的で非決定論的物理学

Potentiality realism: A realistic and indeterministic physics based on propensities ( http://arxiv.org/abs/2305.02429v1 )

ライセンス: Link先を確認
Flavio Del Santo and Nicolas Gisin(参考訳) 我々はポテンシャルリアリズムという物理の解釈を提案する。 この考え方は古典的だけでなく量子物理学にも適用でき、ポテンシャル(すなわち、個々の事象が得られる固有の客観的確率)を現実の要素とみなし、物理的変数によって取られる実際の値を補完する。 これにより、任意の理論的な枠組みにおいて、自然に現実主義と基本的非決定主義を調和させることができる。 我々は、統計学と大数の法則を許容しながら、形式レベルでの確率から逸脱することを要求する確率の具体的な解釈について議論する。 この見解は古典物理学と量子物理学の整合に役立ち、伝統的に後者の独特な問題(測定問題など)と見なされる概念的問題のほとんどは、実際にはすべての非決定論的物理理論に共通していることを示す。

We propose an interpretation of physics named potentiality realism. This view, which can be applied to classical as well as to quantum physics, regards potentialities (i.e. intrinsic, objective propensities for individual events to obtain) as elements of reality, thereby complementing the actual values taken by physical variables. This allows one to naturally reconcile realism and fundamental indeterminism in any theoretical framework. We discuss our specific interpretation of propensities, that require them to depart from being probabilities at the formal level, though allowing for statistics and the law of large numbers. This view helps reconcile classical and quantum physics by showing that most of the conceptual problems that are customarily taken to be unique issues of the latter --such as the measurement problem--, are actually in common to all indeterministic physical theories.
翻訳日:2023-05-05 17:44:53 公開日:2023-05-03
# ペルシャ広告データ分析のためのbertとparsbertの評価

evaluating bert and parsbert for analyzing persian advertisement data ( http://arxiv.org/abs/2305.02426v1 )

ライセンス: Link先を確認
Ali Mehrban, Pegah Ahadian(参考訳) 本稿では,インターネットが現代取引に与える影響と,これらの取引から生成されたデータの重要性について論じる。 この論文は、イランで商品やサービスを売買するオンラインマーケットプレイスであるdivarの例を使用しており、divarのウェブサイトで発行される自動車販売広告の割合を予測するためのコンペティションを提示している。 このデータセットはペルシア語のテキストデータの豊富なソースを提供するため、著者らは、ペルシア語のテキストを処理するように設計されたPythonライブラリであるHazmライブラリと、2つの最先端言語モデルであるmBERTとParsBERTを使用して分析する。 論文の主な目的は、Divarデータセット上でmBERTとParsBERTのパフォーマンスを比較することである。 著者らは、データマイニング、ペルシア語、および2つの言語モデルに関する背景を提供し、データセットの構成と統計的特徴を調べ、両アプローチの微調整とトレーニング構成の詳細を提供する。 彼らは分析の結果を示し、ペルシア語のテキストデータに適用した場合の2つの言語モデルの強みと弱みを強調した。 この論文は、ペルシア語のような低リソース言語で作業することの課題と機会、そしてそのようなデータを分析するためにBERTのような先進言語モデルの可能性についての貴重な洞察を提供する。 また,データクリーニングや正規化といったステップを含む,データマイニングのプロセスについても解説する。 最後に,教師付き,教師なし,強化学習などの機械学習問題の種類と,混乱行列などのパターン評価手法について述べる。 本稿は、Divarデータセットの例を用いて、低リソース言語におけるテキストデータを解析するための言語モデルとデータマイニング技術の利用に関する情報的概要を提供する。

This paper discusses the impact of the Internet on modern trading and the importance of data generated from these transactions for organizations to improve their marketing efforts. The paper uses the example of Divar, an online marketplace for buying and selling products and services in Iran, and presents a competition to predict the percentage of a car sales ad that would be published on the Divar website. Since the dataset provides a rich source of Persian text data, the authors use the Hazm library, a Python library designed for processing Persian text, and two state-of-the-art language models, mBERT and ParsBERT, to analyze it. The paper's primary objective is to compare the performance of mBERT and ParsBERT on the Divar dataset. The authors provide some background on data mining, Persian language, and the two language models, examine the dataset's composition and statistical features, and provide details on their fine-tuning and training configurations for both approaches. They present the results of their analysis and highlight the strengths and weaknesses of the two language models when applied to Persian text data. The paper offers valuable insights into the challenges and opportunities of working with low-resource languages such as Persian and the potential of advanced language models like BERT for analyzing such data. The paper also explains the data mining process, including steps such as data cleaning and normalization techniques. Finally, the paper discusses the types of machine learning problems, such as supervised, unsupervised, and reinforcement learning, and the pattern evaluation techniques, such as confusion matrix. Overall, the paper provides an informative overview of the use of language models and data mining techniques for analyzing text data in low-resource languages, using the example of the Divar dataset.
翻訳日:2023-05-05 17:44:38 公開日:2023-05-03
# Shap-E: 条件付き3Dインシシタ関数の生成

Shap-E: Generating Conditional 3D Implicit Functions ( http://arxiv.org/abs/2305.02463v1 )

ライセンス: Link先を確認
Heewoo Jun, Alex Nichol(参考訳) 本稿では,3次元資産の条件付き生成モデルShap-Eを提案する。 単一の出力表現を生成する3D生成モデルに関する最近の研究とは異なり、Shap-Eはテクスチャメッシュとニューラル放射場の両方として描画できる暗黙関数のパラメータを直接生成する。 第一に、3Dアセットを暗黙関数のパラメータに決定的にマッピングするエンコーダを訓練し、第二に、エンコーダの出力に対して条件拡散モデルを訓練する。 ペア化された3Dデータとテキストデータの大規模なデータセットでトレーニングすると、得られたモデルは、数秒で複雑で多様な3Dアセットを生成することができる。 点雲上の明示的な生成モデルであるpoint-eと比較すると、shap-eはより高速に収束し、高次元の多表現出力空間をモデル化したにもかかわらず、同等かそれ以上のサンプル品質に達する。 私たちはモデルウェイト、推論コード、サンプルをhttps://github.com/openai/shap-eでリリースします。

We present Shap-E, a conditional generative model for 3D assets. Unlike recent work on 3D generative models which produce a single output representation, Shap-E directly generates the parameters of implicit functions that can be rendered as both textured meshes and neural radiance fields. We train Shap-E in two stages: first, we train an encoder that deterministically maps 3D assets into the parameters of an implicit function; second, we train a conditional diffusion model on outputs of the encoder. When trained on a large dataset of paired 3D and text data, our resulting models are capable of generating complex and diverse 3D assets in a matter of seconds. When compared to Point-E, an explicit generative model over point clouds, Shap-E converges faster and reaches comparable or better sample quality despite modeling a higher-dimensional, multi-representation output space. We release model weights, inference code, and samples at https://github.com/openai/shap-e.
翻訳日:2023-05-05 17:35:02 公開日:2023-05-03
# テンソル化フロー:変分推論のためのツール

Tensorizing flows: a tool for variational inference ( http://arxiv.org/abs/2305.02460v1 )

ライセンス: Link先を確認
Yuehaw Khoo, Michael Lindsey, Hongli Zhao(参考訳) 深層ニューラルネットワークの表現力によって実現された正規化フローは、生成モデリングや、トレーニングサンプルの有限データセットが与えられた分布から新しいサンプルを抽出する学習において、目覚ましい成功を収めた。 正規化フローは変分推論にもうまく適用されており、データではなく、分布のログやエネルギー関数の式に基づいてサンプルを学習しようとする。 変分推論では、正規化フロー内で使用される基準ガウス分布の一様性は多様分布の学習に困難をもたらす。 本稿では,ガウス参照をテンソルネットワーク,特に行列積状態あるいはテンソルトレインを介して構築した参照分布に置き換える正規化フローの拡張を提案する。 難しい変分推論タスクにおいて, 流れとテンソルネットワークを組み合わせることで, どちらのツールも使用せずに得られる結果を改善することができることを示す。

Fueled by the expressive power of deep neural networks, normalizing flows have achieved spectacular success in generative modeling, or learning to draw new samples from a distribution given a finite dataset of training samples. Normalizing flows have also been applied successfully to variational inference, wherein one attempts to learn a sampler based on an expression for the log-likelihood or energy function of the distribution, rather than on data. In variational inference, the unimodality of the reference Gaussian distribution used within the normalizing flow can cause difficulties in learning multimodal distributions. We introduce an extension of normalizing flows in which the Gaussian reference is replaced with a reference distribution that is constructed via a tensor network, specifically a matrix product state or tensor train. We show that by combining flows with tensor networks on difficult variational inference tasks, we can improve on the results obtained by using either tool without the other.
翻訳日:2023-05-05 17:34:44 公開日:2023-05-03
# 不協和音検出のためのトランスファーとアクティブラーニング--レアクラス課題への取り組み

Transfer and Active Learning for Dissonance Detection: Addressing the Rare-Class Challenge ( http://arxiv.org/abs/2305.02459v1 )

ライセンス: Link先を確認
Vasudha Varadarajan, Swanie Juhng, Syeda Mahwish, Xiaoran Liu, Jonah Luby, Christian Luhmann, H. Andrew Schwartz(参考訳) トランスフォーマーベースのシステムではトレーニング例が少ないほど精度が向上しているが、クラスラベルが非常に低い場合(例:サンプルの5%)、データ取得障害はレアクラスのタスクに持続する。 このような課題を緩和するために、アクティブラーニングが一般的に提案されているが、レアクラス例の選択基準である選択戦略の選択は体系的に評価されていない。 さらに、トランスフォーマーは反復的なトランスファー学習アプローチを可能にする。 本研究では,近縁課題に学習したモデルを活用した不協和音検出の希少クラス問題に対する伝達・能動的学習ソリューションの提案と検討を行い,提案手法を含む獲得戦略の評価を行った。 我々はこれらの実験を,ソーシャルメディアから認知不協和の言語サンプルを収集する,特定の稀なクラス問題に対して実施する。 prcはアノテーションを導き、最終的にモデルの精度を向上させるためのシンプルで効果的な戦略であると同時に、トランスファーラーニングは学習者のコールドスタート性能を改善することができるが、アクティブラーニングの反復には効果がない。

While transformer-based systems have enabled greater accuracies with fewer training examples, data acquisition obstacles still persist for rare-class tasks -- when the class label is very infrequent (e.g. < 5% of samples). Active learning has in general been proposed to alleviate such challenges, but choice of selection strategy, the criteria by which rare-class examples are chosen, has not been systematically evaluated. Further, transformers enable iterative transfer-learning approaches. We propose and investigate transfer- and active learning solutions to the rare class problem of dissonance detection through utilizing models trained on closely related tasks and the evaluation of acquisition strategies, including a proposed probability-of-rare-class (PRC) approach. We perform these experiments for a specific rare class problem: collecting language samples of cognitive dissonance from social media. We find that PRC is a simple and effective strategy to guide annotations and ultimately improve model accuracy while transfer-learning in a specific order can improve the cold-start performance of the learner but does not benefit iterations of active learning.
翻訳日:2023-05-05 17:34:30 公開日:2023-05-03
# テキストの相違の定量化

Quantifying the Dissimilarity of Texts ( http://arxiv.org/abs/2305.02457v1 )

ライセンス: Link先を確認
Benjamin Shade and Eduardo G. Altmann(参考訳) 2つのテキストの相違を定量化することは、セマンティック情報検索、トピック分類、文書クラスタリングなど、多くの自然言語処理タスクの重要な側面である。 In this paper, we compared the properties and performance of different dissimilarity measures $D$ using three different representations of texts -- vocabularies, word frequency distributions, and vector embeddings -- and three simple tasks -- clustering texts by author, subject, and time period. Using the Project Gutenberg database, we found that the generalised Jensen--Shannon divergence applied to word frequencies performed strongly across all tasks, that $D$'s based on vector embedding representations led to stronger performance for smaller texts, and that the optimal choice of approach was ultimately task-dependent. また,解析的にも数値的にも,2つのテキストの長さが$h$で異なる場合のD$の挙動について検討した。 我々は,語彙間のジャカード距離の(自然な)推定値が矛盾していることを示し,一般化したジェンセン-シャノン発散量の推定値のバイアスの$h$依存性を明示的に計算した。また,ジェンセン-シャノン発散と埋め込みに基づくアプローチが$h$の変化に対して頑健であることも数値的に見出した。

Quantifying the dissimilarity of two texts is an important aspect of a number of natural language processing tasks, including semantic information retrieval, topic classification, and document clustering. In this paper, we compared the properties and performance of different dissimilarity measures $D$ using three different representations of texts -- vocabularies, word frequency distributions, and vector embeddings -- and three simple tasks -- clustering texts by author, subject, and time period. Using the Project Gutenberg database, we found that the generalised Jensen--Shannon divergence applied to word frequencies performed strongly across all tasks, that $D$'s based on vector embedding representations led to stronger performance for smaller texts, and that the optimal choice of approach was ultimately task-dependent. We also investigated, both analytically and numerically, the behaviour of the different $D$'s when the two texts varied in length by a factor $h$. We demonstrated that the (natural) estimator of the Jaccard distance between vocabularies was inconsistent and computed explicitly the $h$-dependency of the bias of the estimator of the generalised Jensen--Shannon divergence applied to word frequencies. We also found numerically that the Jensen--Shannon divergence and embedding-based approaches were robust to changes in $h$, while the Jaccard distance was not.
翻訳日:2023-05-05 17:34:07 公開日:2023-05-03
# ビアーゼ存在下での勧告のための部分モジュラー関数の最大化

Maximizing Submodular Functions for Recommendation in the Presence of Biases ( http://arxiv.org/abs/2305.02806v1 )

ライセンス: Link先を確認
Anay Mehrotra and Nisheeth K. Vishnoi(参考訳) サブセット選択タスクはレコメンデーションシステムや検索エンジンで発生し、ユーザにとっての価値を最大化する項目のサブセットを選択する。 部分集合の値はしばしば減少する戻り値を示し、従って、部分モジュラ函数はそれらをモデル化するために用いられる。 部分モジュラ函数を定義する入力が既知の場合、既存のアルゴリズムを用いることができる。 しかし、多くの応用において、入力は出力サブセットの有用性を減らす社会的バイアスを持つことが観察されている。 したがって、効用を改善するための介入が望まれる。 先行研究は、線型関数の最大化(部分モジュラー関数の特別な場合)に焦点を当て、公正性制約に基づく介入が比例表現を保証するだけでなく、バイアスの存在下で準最適効用を達成することを示す。 上記の応用で生じる関数をキャプチャするサブモジュラー関数のファミリーの最大化について検討する。 最初の結果は、線形関数とは異なり、制約に基づく介入は、この部分モジュラ函数の族に対する最適ユーティリティの定数を保証できないということである。 第2の結果はサブモジュラー最大化のアルゴリズムである。 このアルゴリズムは、穏やかな仮定の下でこの族に最適に近い効用を持つ部分集合を、各群から比例的に表現する。 経験的評価では、合成データと実世界のデータの両方を用いて、このアルゴリズムはベースライン上のサブモジュール関数の族に対する出力サブセットの有用性を改善する。

Subset selection tasks, arise in recommendation systems and search engines and ask to select a subset of items that maximize the value for the user. The values of subsets often display diminishing returns, and hence, submodular functions have been used to model them. If the inputs defining the submodular function are known, then existing algorithms can be used. In many applications, however, inputs have been observed to have social biases that reduce the utility of the output subset. Hence, interventions to improve the utility are desired. Prior works focus on maximizing linear functions -- a special case of submodular functions -- and show that fairness constraint-based interventions can not only ensure proportional representation but also achieve near-optimal utility in the presence of biases. We study the maximization of a family of submodular functions that capture functions arising in the aforementioned applications. Our first result is that, unlike linear functions, constraint-based interventions cannot guarantee any constant fraction of the optimal utility for this family of submodular functions. Our second result is an algorithm for submodular maximization. The algorithm provably outputs subsets that have near-optimal utility for this family under mild assumptions and that proportionally represent items from each group. In empirical evaluation, with both synthetic and real-world data, we observe that this algorithm improves the utility of the output subset for this family of submodular functions over baselines.
翻訳日:2023-05-05 15:34:17 公開日:2023-05-03
# 適応演算子選択による局所最適相関

Local Optima Correlation Assisted Adaptive Operator Selection ( http://arxiv.org/abs/2305.02805v1 )

ライセンス: Link先を確認
Jiyuan Pei, Hao Tong, Jialin Liu, Yi Mei, Xin Yao(参考訳) メタヒューリスティックスによる組合せ最適化問題を解くために、与えられた解の近傍で新しい解をサンプリングするために異なる探索演算子を適用する。 演算子間の関係を理解することは重要であり、例えば、最適な解を見つけるためにどの演算子を使うべきかを適応的に決定する。 しかし、特に組合せ最適化問題の複素解空間において、この関係を理論的に解析することは困難である。 本稿では,演算子間の関係を局所最適の相関関係の観点から実証分析し,その関係を定量化する尺度を開発することを提案する。 広範囲のキャパシタ付き車両ルーティング問題に関する総合的な解析結果から,一般的な運用者間の相関には一貫性のあるパターンが得られた。 新たに提案する局所オプティマ相関メトリックに基づいて,探索過程において演算子を適応的に選択する新しい手法を提案する。 主な目的は,局所視能が到達した周辺地域を探索する際の計算資源の浪費を防止し,検索効率を向上させることにある。 ランダムに生成されたインスタンスと一般的に使用されるベンチマークデータセットの実験を行う。 その結果,提案手法は適応演算子選択法よりも優れていることがわかった。

For solving combinatorial optimisation problems with metaheuristics, different search operators are applied for sampling new solutions in the neighbourhood of a given solution. It is important to understand the relationship between operators for various purposes, e.g., adaptively deciding when to use which operator to find optimal solutions efficiently. However, it is difficult to theoretically analyse this relationship, especially in the complex solution space of combinatorial optimisation problems. In this paper, we propose to empirically analyse the relationship between operators in terms of the correlation between their local optima and develop a measure for quantifying their relationship. The comprehensive analyses on a wide range of capacitated vehicle routing problem benchmark instances show that there is a consistent pattern in the correlation between commonly used operators. Based on this newly proposed local optima correlation metric, we propose a novel approach for adaptively selecting among the operators during the search process. The core intention is to improve search efficiency by preventing wasting computational resources on exploring neighbourhoods where the local optima have already been reached. Experiments on randomly generated instances and commonly used benchmark datasets are conducted. Results show that the proposed approach outperforms commonly used adaptive operator selection methods.
翻訳日:2023-05-05 15:33:52 公開日:2023-05-03
# FastAMI - クラスタリング比較メトリクスにおけるチャンス調整へのモンテカルロアプローチ

FastAMI -- a Monte Carlo Approach to the Adjustment for Chance in Clustering Comparison Metrics ( http://arxiv.org/abs/2305.03022v1 )

ライセンス: Link先を確認
Kai Klede, Leo Schwinn, Dario Zanca, Bj\"orn Eskofier(参考訳) クラスタリングは機械学習の核心であり、その応用はデータの可用性の増加とともに広まっている。 しかしデータセットが成長するにつれて、クラスタリングと確率調整を比較する計算が難しくなり、偏りのない接地比較や解選択が防止される。 本稿では,調整された相互情報(ami)を効率的に近似し,標準化相互情報(smi)に拡張する,モンテカルロに基づくファスタミを提案する。 この手法は、合成データと実データの両方を用いて、ペアの置換に基づくAMIの正確な計算と最近開発された変種と比較する。 正確な計算とは対照的に、我々の手法は、大きなデータセットに対するこれらの調整された情報理論の比較を可能にするのに十分高速であり、ペアワイズアプローチよりもはるかに正確な結果を維持する。

Clustering is at the very core of machine learning, and its applications proliferate with the increasing availability of data. However, as datasets grow, comparing clusterings with an adjustment for chance becomes computationally difficult, preventing unbiased ground-truth comparisons and solution selection. We propose FastAMI, a Monte Carlo-based method to efficiently approximate the Adjusted Mutual Information (AMI) and extend it to the Standardized Mutual Information (SMI). The approach is compared with the exact calculation and a recently developed variant of the AMI based on pairwise permutations, using both synthetic and real data. In contrast to the exact calculation our method is fast enough to enable these adjusted information-theoretic comparisons for large datasets while maintaining considerably more accurate results than the pairwise approach.
翻訳日:2023-05-05 14:26:32 公開日:2023-05-03
# pysrとsymbolregression.jlを用いた解釈可能な機械学習

Interpretable Machine Learning for Science with PySR and SymbolicRegression.jl ( http://arxiv.org/abs/2305.01582v2 )

ライセンス: Link先を確認
Miles Cranmer (Princeton University and Flatiron Institute)(参考訳) PySRは、人間の解釈可能な記号モデルを見つけることを目的とした機械学習の一種で、実用的な記号回帰のためのオープンソースのライブラリである。 PySRは科学の象徴的回帰を民主化し普及させるために開発され、高性能な分散バックエンド、フレキシブルな検索アルゴリズム、深層学習パッケージとのインタフェース上に構築されている。 pysrの内部探索アルゴリズムは、新しく発見された経験的表現における未知スカラー定数の最適化のために設計された、一意な進化単純化最適化ループからなる多集団進化アルゴリズムである。 PySRのバックエンドは、非常に最適化されたJuliaライブラリであるSymbolicRegression.jlである。 実行時にユーザ定義のオペレータをsimdカーネルに融合し、自動微分を実行し、クラスタ全体の数千のコアに表現の集団を分散することができる。 また,このソフトウェアについて述べる際に,シンボリック回帰アルゴリズムの適用性を定量化する新しいベンチマーク「empiricalbench」を導入する。 このベンチマークは、オリジナルのデータセットと合成データセットから過去の経験方程式を復元する。

PySR is an open-source library for practical symbolic regression, a type of machine learning which aims to discover human-interpretable symbolic models. PySR was developed to democratize and popularize symbolic regression for the sciences, and is built on a high-performance distributed back-end, a flexible search algorithm, and interfaces with several deep learning packages. PySR's internal search algorithm is a multi-population evolutionary algorithm, which consists of a unique evolve-simplify-optimize loop, designed for optimization of unknown scalar constants in newly-discovered empirical expressions. PySR's backend is the extremely optimized Julia library SymbolicRegression.jl, which can be used directly from Julia. It is capable of fusing user-defined operators into SIMD kernels at runtime, performing automatic differentiation, and distributing populations of expressions to thousands of cores across a cluster. In describing this software, we also introduce a new benchmark, "EmpiricalBench," to quantify the applicability of symbolic regression algorithms in science. This benchmark measures recovery of historical empirical equations from original and synthetic datasets.
翻訳日:2023-05-05 11:58:18 公開日:2023-05-03
# 誤り訂正量子センシングのための連続論理演算子の構築に向けて

Toward Constructing a Continuous Logical Operator for Error-Corrected Quantum Sensing ( http://arxiv.org/abs/2305.00547v2 )

ライセンス: Link先を確認
Cameron Cianci(参考訳) 誤差補正は長い間、量子センサーの感度をハイゼンベルク限界に拡張することが提案されてきた。 しかし、論理キュービット上の操作はクリフォード+Tのような有限サイズのゲートからなる普遍ゲートセットを通してのみ実行される。 これらの論理ゲートセットは普遍的な量子計算を可能にするが、有限ゲートサイズは、ラムゼー測定プロトコルのような検知プロトコルでは、信号は連続的に振る舞う必要があるため、量子センシングの問題を生じさせる。 連続論理演算子を構築することの難しさは、連続信号が局所的誤りと逆の両方に耐障害性を持つことを防ぐイージン・クニルの定理から生じる。 ノイズの多い環境でハイゼンベルク限界に近づくためには誤り訂正が必要であるため、フォールトトレラントな連続作用素を構築する方法を検討することが重要である。 本稿では,連続的な論理z回転を設計するためのプロトコルを提案し,Steane Codeに適用する。 Knill-Laflamme条件を用いて設計作業者の耐故障性を検討した。 Knill-Laflamme条件は、中間量子ビット上のX誤差の可能性のため、対角ユニタリ作用素は耐障害性がないことを示している。 しかし、本論文を通して証明されたアプローチは、shor符号、 distance 3 surface code、[15,1,3]符号、あるいは[11,1,5]コードのようなより大きな距離を持つコードでの成功を見出すことができる。

Error correction has long been suggested to extend the sensitivity of quantum sensors into the Heisenberg Limit. However, operations on logical qubits are only performed through universal gate sets consisting of finite-sized gates such as Clifford+T. Although these logical gate sets allow for universal quantum computation, the finite gate sizes present a problem for quantum sensing, since in sensing protocols, such as the Ramsey measurement protocol, the signal must act continuously. The difficulty in constructing a continuous logical operator comes from the Eastin-Knill theorem, which prevents a continuous signal from being both fault tolerant to local errors and transverse. Since error correction is needed to approach the Heisenberg Limit in a noisy environment, it is important to explore how to construct fault-tolerant continuous operators. In this paper, a protocol to design continuous logical z-rotations is proposed and applied to the Steane Code. The fault tolerance of the designed operator is investigated using the Knill-Laflamme conditions. The Knill-Laflamme conditions indicate that the diagonal unitary operator constructed cannot be fault tolerant solely due to the possibilities of X errors on the middle qubit. The approach demonstrated throughout this paper may, however, find success in codes with more qubits such as the Shor code, distance 3 surface code, [15,1,3] code, or codes with a larger distance such as the [11,1,5] code.
翻訳日:2023-05-05 11:57:35 公開日:2023-05-03
# 深部生成前処理によるデータセット蒸留の一般化

Generalizing Dataset Distillation via Deep Generative Prior ( http://arxiv.org/abs/2305.01649v2 )

ライセンス: Link先を確認
George Cazenavette and Tongzhou Wang and Antonio Torralba and Alexei A. Efros and Jun-Yan Zhu(参考訳) Dataset Distillationは、データセット全体の知識をいくつかの合成画像に抽出することを目的としている。 このアイデアは、学習アルゴリズムにトレーニングデータとして与えられる少数の合成データポイントを合成することで、元のデータに基づいてトレーニングされたデータを近似するモデルを実現する。 この分野の最近の進歩にもかかわらず、既存のデータセット蒸留法は新しいアーキテクチャに一般化できず、高解像度データセットにスケールする。 以上の課題を克服するために,事前学習した深部生成モデルを用いて蒸留データを合成することを提案する。 そこで本研究では,生成モデルの潜在空間において,多数の画像を少数の中間特徴ベクトルに蒸留する新しい最適化アルゴリズムを提案する。 提案手法は既存の手法を改良し,アーキテクチャ間の一般化を大幅に改善する。

Dataset Distillation aims to distill an entire dataset's knowledge into a few synthetic images. The idea is to synthesize a small number of synthetic data points that, when given to a learning algorithm as training data, result in a model approximating one trained on the original data. Despite recent progress in the field, existing dataset distillation methods fail to generalize to new architectures and scale to high-resolution datasets. To overcome the above issues, we propose to use the learned prior from pre-trained deep generative models to synthesize the distilled data. To achieve this, we present a new optimization algorithm that distills a large number of images into a few intermediate feature vectors in the generative model's latent space. Our method augments existing techniques, significantly improving cross-architecture generalization in all settings.
翻訳日:2023-05-05 11:46:14 公開日:2023-05-03
# 画像超解像のための分布変換を用いた逐次階層学習

Sequential Hierarchical Learning with Distribution Transformation for Image Super-Resolution ( http://arxiv.org/abs/2007.09552v4 )

ライセンス: Link先を確認
Yuqing Liu and Xinfeng Zhang and Shanshe Wang and Siwei Ma and Wen Gao(参考訳) 最近の画像超解像(sr)では階層的特徴情報の探索のためにマルチスケール設計が検討されている。 既存のマルチスケールネットワークは、修復のために精巧なブロックやプログレッシブアーキテクチャを構築することを目指している。 一般に、より大規模な特徴は構造情報や高レベル情報に集中し、より小さな特徴には豊富な詳細情報やテクスチャ情報が含まれる。 この観点では、大規模特徴からの情報はより小さな特徴から派生することができる。 そこで本研究では,実効画像SRのための逐次階層学習型超解像ネットワーク(SHSR)を構築した。 特に,特徴のスケール間相関を考察し,階層的情報を段階的に探索する逐次マルチスケールブロック(SMB)を考案する。 smbは制限パラメータとの畳み込みの線形性に基づいて再帰的に設計されている。 逐次階層学習の他に,特徴マップ間の相関について検討し,分布変換ブロック(DTB)を考案する。 注意に基づく手法とは異なり、dtbは正規化の手法で変換を考慮し、スケーリングやバイアス係数と空間的およびチャネル的相関を共同で考慮する。 実験の結果,SHSRは,スケーリング係数が$\times4$の場合に,34\%のパラメータと50\%のMACをオフにした最先端手法に対して,優れた定量的性能と視覚的品質が得られることがわかった。 拡張モデルSHSR$^+$は、さらなるトレーニングをせずに性能を向上させるため、約92\%パラメータと42\%MACをスケール係数$\times4$でオフした大規模ネットワークよりも競争性能を達成する。

Multi-scale design has been considered in recent image super-resolution (SR) works to explore the hierarchical feature information. Existing multi-scale networks aim to build elaborate blocks or progressive architecture for restoration. In general, larger scale features concentrate more on structural and high-level information, while smaller scale features contain plentiful details and textured information. In this point of view, information from larger scale features can be derived from smaller ones. Based on the observation, in this paper, we build a sequential hierarchical learning super-resolution network (SHSR) for effective image SR. Specially, we consider the inter-scale correlations of features, and devise a sequential multi-scale block (SMB) to progressively explore the hierarchical information. SMB is designed in a recursive way based on the linearity of convolution with restricted parameters. Besides the sequential hierarchical learning, we also investigate the correlations among the feature maps and devise a distribution transformation block (DTB). Different from attention-based methods, DTB regards the transformation in a normalization manner, and jointly considers the spatial and channel-wise correlations with scaling and bias factors. Experiment results show SHSR achieves superior quantitative performance and visual quality to state-of-the-art methods with near 34\% parameters and 50\% MACs off when scaling factor is $\times4$. To boost the performance without further training, the extension model SHSR$^+$ with self-ensemble achieves competitive performance than larger networks with near 92\% parameters and 42\% MACs off with scaling factor $\times4$.
翻訳日:2023-05-04 19:45:04 公開日:2023-05-03
# 記憶に制限のある一般グラフにおける協調学習:複雑さ、学習可能性、信頼性

Collaborative Learning in General Graphs with Limited Memorization: Complexity, Learnability, and Reliability ( http://arxiv.org/abs/2201.12482v2 )

ライセンス: Link先を確認
Feng Li, Xuyang Yuan, Lina Wang, Huan Yang, Dongxiao Yu, Weifeng Lv, Xiuzhen Cheng(参考訳) エージェントが任意に接続され、それぞれに記憶能力と通信帯域が制限された一般グラフにおけるk-armed bandit問題を考える。 目標は、各エージェントが最終的に最高の腕を学習できるようにすることです。 これらの研究では、コミュニケーショングラフは完全あるいは十分に構造化されるべきであるが、そのような仮定は実際には必ずしも有効ではない。 さらに、記憶力や通信帯域が限られており、エージェントが記憶し通信する経験が極めて少ないため、エージェントのコラボレーションも制限されている。 さらに、エージェントは不正な経験を仲間に共有するために腐敗することもあるが、記憶とコミュニケーションのリソース制限は学習プロセスの信頼性を著しく制限する可能性がある。 上記の課題に対処するために,三段階協調学習アルゴリズムを提案する。 それぞれのステップで、エージェントは、一般的なコミュニケーショングラフ内の軽量なランダムウォークを通じて、最新の経験を共有し、仲間から受け取った推奨に従って、どのアームを引っ張るかを決定する。 エージェントは最終的に、腕を引くことで得られる報酬に基づいて、採用(腕への好み)を更新する。 理論的分析により,協調学習プロセスに十分な数のエージェントが参加すると,記憶力や軽量なコミュニケーションが制限された場合でも,すべてのエージェントが最終的に最高のアームを高い確率で学習することが示された。 また,理論解析では,アルゴリズムが許容できる腐敗したエージェントの数の上限を明らかにした。 提案する3段階協調学習アルゴリズムの有効性は,合成データと実データの両方について広範な実験により検証された。

We consider a K-armed bandit problem in general graphs where agents are arbitrarily connected and each of them has limited memorizing capabilities and communication bandwidth. The goal is to let each of the agents eventually learn the best arm. It is assumed in these studies that the communication graph should be complete or well-structured, whereas such an assumption is not always valid in practice. Furthermore, limited memorization and communication bandwidth also restrict the collaborations of the agents, since the agents memorize and communicate very few experiences. Additionally, an agent may be corrupted to share falsified experiences to its peers, while the resource limit in terms of memorization and communication may considerably restrict the reliability of the learning process. To address the above issues, we propose a three-staged collaborative learning algorithm. In each step, the agents share their latest experiences with each other through light-weight random walks in a general communication graph, and then make decisions on which arms to pull according to the recommendations received from their peers. The agents finally update their adoptions (i.e., preferences to the arms) based on the reward obtained by pulling the arms. Our theoretical analysis shows that, when there are a sufficient number of agents participating in the collaborative learning process, all the agents eventually learn the best arm with high probability, even with limited memorizing capabilities and light-weight communications. We also reveal in our theoretical analysis the upper bound on the number of corrupted agents our algorithm can tolerate. The efficacy of our proposed three-staged collaborative learning algorithm is finally verified by extensive experiments on both synthetic and real datasets.
翻訳日:2023-05-04 19:20:55 公開日:2023-05-03
# 光ツイーザアレイにおけるイッテルビウム原子スピン量子ビット

Ytterbium nuclear-spin qubits in an optical tweezer array ( http://arxiv.org/abs/2112.06732v3 )

ライセンス: Link先を確認
Alec Jenkins, Joanna W. Lis, Aruku Senoo, William F. McGrew, Adam M. Kaufman(参考訳) 我々は,光tweezerアレイ内の$^{171}$yb原子に基づく高速でスケーラブルで高忠実な量子ビットアーキテクチャの実現について報告する。 我々は、量子情報処理プラットフォームのビルディングブロックとしてこの原子のいくつかの魅力的な性質を実証する。 1/2の核スピンは長寿命でコヒーレントな2段階システムとして機能する一方、豊富なアルカリ土のような電子構造は低エントロピー合成、高速量子ビット制御、高精細な読み出しを可能にしている。 10$\times$10のtweezer配列を92.73(8)%効率で満たし、単一のtweezer配列を96.0(1.4)%効率で満たす、ほぼ決定論的ロードプロトコルを提案する。 将来、このローディングプロトコルは、量子シミュレーションと情報応用における重要なステップである、高い確率でターゲットアレイの効率よく均一なローディングを可能にする。 頑健な光学的アプローチを用いて、サブマイクロ秒量子ビット回転を行い、ランダム化ベンチマークによってその忠実度を特徴付け、クリフォードゲートごとに5.2(5)$\times 10^{-3}$エラーを与える。 量子メモリアプリケーションでは、量子ビットのコヒーレンスを$T_2^*$=3.7(4) sと$T_2$=7.9(4) sで測定する。 スピン脱分極時間を数秒の順序で測定し、これを数ガウスの磁場を応用して100秒スケールに拡大できることを示した。 最後に、我々は3Dラマンサイドバンド冷却を用いて原子を運動基底状態の近くに持ち込み、低運動エントロピーの恩恵を受ける2量子ゲートの将来の実装の中心となる。

We report on the realization of a fast, scalable, and high-fidelity qubit architecture, based on $^{171}$Yb atoms in an optical tweezer array. We demonstrate several attractive properties of this atom for its use as a building block of a quantum information processing platform. Its nuclear spin of 1/2 serves as a long-lived and coherent two-level system, while its rich, alkaline-earth-like electronic structure allows for low-entropy preparation, fast qubit control, and high-fidelity readout. We present a near-deterministic loading protocol, which allows us to fill a 10$\times$10 tweezer array with 92.73(8)% efficiency and a single tweezer with 96.0(1.4)% efficiency. In the future, this loading protocol will enable efficient and uniform loading of target arrays with high probability, an essential step in quantum simulation and information applications. Employing a robust optical approach, we perform submicrosecond qubit rotations and characterize their fidelity through randomized benchmarking, yielding 5.2(5)$\times 10^{-3}$ error per Clifford gate. For quantum memory applications, we measure the coherence of our qubits with $T_2^*$=3.7(4) s and $T_2$=7.9(4) s, many orders of magnitude longer than our qubit rotation pulses. We measure spin depolarization times on the order of tens of seconds and find that this can be increased to the 100 s scale through the application of a several-gauss magnetic field. Finally, we use 3D Raman-sideband cooling to bring the atoms near their motional ground state, which will be central to future implementations of two-qubit gates that benefit from low motional entropy.
翻訳日:2023-05-04 19:20:33 公開日:2023-05-03
# 意味知識拡張を用いたプロンプトに基づくゼロショット関係抽出

Prompt-based Zero-shot Relation Extraction with Semantic Knowledge Augmentation ( http://arxiv.org/abs/2112.04539v2 )

ライセンス: Link先を確認
Jiaying Gong and Hoda Eldardiry(参考訳) 関係トリプルト抽出(RTE)では、トレーニングインスタンスが存在しない未知(新しい)関係を認識することは難しい課題である。 質問応答モデルや関係記述に基づいて、見当たらない関係を認識する努力がなされている。 しかし、これらのアプローチは見えない関係と見えない関係の間の関係に関する意味的な情報を見逃している。 本稿では,ゼロショット設定下での未知の関係を認識するために,意味知識増強(ZS-SKA)を用いたプロンプトベースモデルを提案する。 本稿では,新しい単語レベルのアナロジーに基づく文翻訳規則を提示し,その新しい規則を用いて,未知の関係を持つインスタンスから,未知の関係を持つ拡張インスタンスを生成する。 我々は,外部知識グラフに基づく重み付き仮想ラベル構成を用いてプロンプトをデザインし,出現した関係から学習した意味的知識情報を統合する。 プロンプトテンプレートで実際のラベルセットを使用する代わりに、重み付き仮想ラベルワードを構築します。 我々は、拡張インスタンスやプロンプトと見たり見えない関係の表現を学習する。 次に、原型ネットワークを用いて生成した表現間の距離を計算し、未知の関係を予測する。 FewRel、Wiki-ZSL、NYTの3つの公開データセットで実施された大規模な実験は、ZS-SKAがゼロショットシナリオ下で最先端の手法より優れていることを示している。 また,ZS-SKAの有効性とロバスト性についても検討した。

In relation triplet extraction (RTE), recognizing unseen (new) relations for which there are no training instances is a challenging task. Efforts have been made to recognize unseen relations based on question-answering models or relation descriptions. However, these approaches miss the semantic information about connections between seen and unseen relations. In this paper, We propose a prompt-based model with semantic knowledge augmentation (ZS-SKA) to recognize unseen relations under the zero-shot setting. We present a new word-level analogy-based sentence translation rule and generate augmented instances with unseen relations from instances with seen relations using that new rule. We design prompts with weighted virtual label construction based on an external knowledge graph to integrate semantic knowledge information learned from seen relations. Instead of using the actual label sets in the prompt template, we construct weighted virtual label words. We learn the representations of both seen and unseen relations with augmented instances and prompts. We then calculate the distance between the generated representations using prototypical networks to predict unseen relations. Extensive experiments conducted on three public datasets FewRel, Wiki-ZSL, and NYT, show that ZS-SKA outperforms state-of-the-art methods under the zero-shot scenarios. Our experimental results also demonstrate the effectiveness and robustness of ZS-SKA.
翻訳日:2023-05-04 19:19:55 公開日:2023-05-03
# オフライン強化学習における行動影響正規性と外因的状態変数の活用

Exploiting Action Impact Regularity and Exogenous State Variables for Offline Reinforcement Learning ( http://arxiv.org/abs/2111.08066v5 )

ライセンス: Link先を確認
Vincent Liu, James R. Wright, Martha White(参考訳) オフラインの強化学習 -- 一連のデータからポリシーを学ぶ -- は、一般のMDPにとって難しいことが知られている。 これらの結果は、オフライン強化学習が実現可能な特定のMDPのクラスを検討する必要性を動機付けている。 本研究では,オフライン強化学習の保証を得るために,制限されたMDPのクラスを探索する。 私たちがAIR(Action Impact Regularity)と呼ぶ重要な特性は、アクションが主に状態の一部(内因性コンポーネント)に影響を与え、残りの部分(外因性コンポーネント)に限られた影響を与えることです。 AIRは強い仮定ですが、それでも金融市場を含む多くの現実世界のドメインに当てはまります。 本稿では,AIR特性を利用したアルゴリズムについて論じ,Fitted-Qイテレーションに基づくアルゴリズムの理論解析を行う。 最後に、本アルゴリズムは、正規性が保持されるシミュレーション環境および実環境において、さまざまなデータ収集ポリシーにまたがって、既存のオフライン強化学習アルゴリズムを上回ることを実証する。

Offline reinforcement learning -- learning a policy from a batch of data -- is known to be hard for general MDPs. These results motivate the need to look at specific classes of MDPs where offline reinforcement learning might be feasible. In this work, we explore a restricted class of MDPs to obtain guarantees for offline reinforcement learning. The key property, which we call Action Impact Regularity (AIR), is that actions primarily impact a part of the state (an endogenous component) and have limited impact on the remaining part of the state (an exogenous component). AIR is a strong assumption, but it nonetheless holds in a number of real-world domains including financial markets. We discuss algorithms that exploit the AIR property, and provide a theoretical analysis for an algorithm based on Fitted-Q Iteration. Finally, we demonstrate that the algorithm outperforms existing offline reinforcement learning algorithms across different data collection policies in simulated and real world environments where the regularity holds.
翻訳日:2023-05-04 19:19:33 公開日:2023-05-03
# 高次グラフィカルモデルにおけるグラフネットワーク推論の一般化

Generalization of graph network inferences in higher-order graphical models ( http://arxiv.org/abs/2107.05729v2 )

ライセンス: Link先を確認
Yicheng Fei, Xaq Pitkow(参考訳) 確率的グラフィカルモデルは複雑な統計構造を記述する強力なツールであり、科学や工学において、ロボットアームの制御から神経計算の理解に至るまで、多くの実世界の応用がある。 これらのグラフィカルモデルにおける大きな課題は、辺化のような推論が一般グラフに対して難解であることである。 これらの推論はしばしば、Belief Propagationのような分散メッセージパッシングアルゴリズムによって近似されるが、これは周期を持つグラフでは必ずしもうまく機能しないし、複雑な連続確率分布では容易に特定できない。 このような困難は、難解な高次相互作用を含む表現力のあるグラフィカルモデルで頻繁に発生する。 本稿では,多変数相互作用を含むグラフィカルモデル上での高速な近似推定を実現するために,Recurrent Factor Graph Neural Network (RF-GNN) を定義する。 グラフィカルモデルのいくつかのファミリに対する実験結果は,提案手法の異なるグラフへの分布外一般化能力を示し,提案手法がBreief Propagation(BP)より優れている領域を示す。 さらに,実世界の低密度パリティ・チェックデータセット上で,BP変種などのベースラインモデルとともにRF-GNNをベンチマークとして検証した。 RF-GNNはノイズレベルが高い場合の他の手法よりも優れていた。

Probabilistic graphical models provide a powerful tool to describe complex statistical structure, with many real-world applications in science and engineering from controlling robotic arms to understanding neuronal computations. A major challenge for these graphical models is that inferences such as marginalization are intractable for general graphs. These inferences are often approximated by a distributed message-passing algorithm such as Belief Propagation, which does not always perform well on graphs with cycles, nor can it always be easily specified for complex continuous probability distributions. Such difficulties arise frequently in expressive graphical models that include intractable higher-order interactions. In this paper we define the Recurrent Factor Graph Neural Network (RF-GNN) to achieve fast approximate inference on graphical models that involve many-variable interactions. Experimental results on several families of graphical models demonstrate the out-of-distribution generalization capability of our method to different sized graphs, and indicate the domain in which our method outperforms Belief Propagation (BP). Moreover, we test the RF-GNN on a real-world Low-Density Parity-Check dataset as a benchmark along with other baseline models including BP variants and other GNN methods. Overall we find that RF-GNNs outperform other methods under high noise levels.
翻訳日:2023-05-04 19:19:17 公開日:2023-05-03
# 高次元ロバスト統計のストリーミングアルゴリズム

Streaming Algorithms for High-Dimensional Robust Statistics ( http://arxiv.org/abs/2204.12399v2 )

ライセンス: Link先を確認
Ilias Diakonikolas, Daniel M. Kane, Ankit Pensia, Thanasis Pittas(参考訳) ストリーミングモデルにおける高次元ロバスト統計タスクについて検討する。 近年,高次元ロバスト推定タスクにおいて計算効率の高いアルゴリズムが提案されている。 残念なことに、以前のアルゴリズムはすべてデータセット全体を格納する必要がある。 本研究では,(対数係数まで)最適に近いメモリ要件を持つ高次元ロバスト統計量に対して,最初の効率的なストリーミングアルゴリズムを開発した。 我々の主な結果は,フーバー汚染モデルにおける高次元ロバスト平均推定の課題である。 ほぼ最適誤差保証と空間の複雑さをほぼ線形とした,このタスクのための効率的なシングルパスストリーミングアルゴリズムを提案する。 結果として,ロバスト共分散推定,ロバスト回帰,より一般にロバストな確率最適化など,より複雑なタスクに対して,最適に近い空間複雑性を持つストリーミングアルゴリズムを得る。

We study high-dimensional robust statistics tasks in the streaming model. A recent line of work obtained computationally efficient algorithms for a range of high-dimensional robust estimation tasks. Unfortunately, all previous algorithms require storing the entire dataset, incurring memory at least quadratic in the dimension. In this work, we develop the first efficient streaming algorithms for high-dimensional robust statistics with near-optimal memory requirements (up to logarithmic factors). Our main result is for the task of high-dimensional robust mean estimation in (a strengthening of) Huber's contamination model. We give an efficient single-pass streaming algorithm for this task with near-optimal error guarantees and space complexity nearly-linear in the dimension. As a corollary, we obtain streaming algorithms with near-optimal space complexity for several more complex tasks, including robust covariance estimation, robust regression, and more generally robust stochastic optimization.
翻訳日:2023-05-04 19:10:02 公開日:2023-05-03
# 粒子の絡み合いと場の絡み合い:独立量子資源

Entanglement of particles versus entanglement of fields: independent quantum resources ( http://arxiv.org/abs/2204.06245v3 )

ライセンス: Link先を確認
Jan Sperling and Elizabeth Agudelo(参考訳) 自然は驚くべき量子効果の多様体を探索することができる。 最も顕著な点として、量子絡み合いは多粒子系、複数の量子化体、およびそれらのハイブリッド結合で観測できる。 しかし、この多様性は、どんな物理的シナリオでも真に絡み合うことを構成するものについての矛盾する結論につながる。 様々な視点を明示的に認めることにより、第1および第2の量子化の文脈における絡み合いの異なる概念を厳格に検討する。 インストラクティブな例を提供することにより、粒子の絡み合いと磁場の絡み合いは実際に異なる現象であり、互いに独立して観測できることを示す。 この結論は我々の基本的な理解に影響を与えるだけでなく、実際のシナリオでこれらの独立した形の絡み合いを活用できる量子技術に直接的な意味を持つ。

Nature allows one to explore a manifold of remarkable quantum effects. Most prominently, quantum entanglement can be observed in many-particle systems, between multiple quantized fields, and in hybrid combinations thereof. This diversity, however, also leads to contradicting conclusions about what truly constitutes entanglement in any given physical scenario. By explicitly allowing various perspectives, we rigorously consider different notions of entanglement in the context of first and second quantization. By providing instructive examples, we show that particle entanglement and field entanglement are actually distinct phenomena that can occur and be observed independently of each other. This conclusion not only affects our fundamental understanding but has direct implications for quantum technology which can harness those independent forms of entanglement in practical scenarios.
翻訳日:2023-05-04 19:09:50 公開日:2023-05-03
# 敵対的ネオンビーム:DNNに対するロバストな物理世界対抗攻撃

Adversarial Neon Beam: Robust Physical-World Adversarial Attack to DNNs ( http://arxiv.org/abs/2204.00853v2 )

ライセンス: Link先を確認
Chengyin Hu and Kalibinuer Tiliwalidi(参考訳) 物理的な世界では、光はディープニューラルネットワークの性能に影響を与える。 今日では、ディープニューラルネットワークに基づく製品が日常生活に取り入れられている。 深層ニューラルネットワークモデルの性能に対する光の影響に関する研究はほとんどない。 しかし、光によって生じる逆摂動はこれらの系に非常に危険な影響を与える可能性がある。 本研究では, 対向ネオンビーム(advnb)と呼ばれる攻撃手法を提案する。 実験により,ディジタルテストと物理テストの両方において,高度な攻撃効果が得られた。 デジタル環境では99.3%の攻撃成功率が達成され、物理的環境では100%攻撃成功率が達成された。 最も高度な物理攻撃手法と比較すると,本手法はより優れた物理摂動隠蔽を実現することができる。 さらに, 実験データの解析により, 敵対的ネオンビーム攻撃による新たな現象を明らかにした。

In the physical world, light affects the performance of deep neural networks. Nowadays, many products based on deep neural network have been put into daily life. There are few researches on the effect of light on the performance of deep neural network models. However, the adversarial perturbations generated by light may have extremely dangerous effects on these systems. In this work, we propose an attack method called adversarial neon beam (AdvNB), which can execute the physical attack by obtaining the physical parameters of adversarial neon beams with very few queries. Experiments show that our algorithm can achieve advanced attack effect in both digital test and physical test. In the digital environment, 99.3% attack success rate was achieved, and in the physical environment, 100% attack success rate was achieved. Compared with the most advanced physical attack methods, our method can achieve better physical perturbation concealment. In addition, by analyzing the experimental data, we reveal some new phenomena brought about by the adversarial neon beam attack.
翻訳日:2023-05-04 19:09:36 公開日:2023-05-03
# 量子自由電子レーザー:超ラジエンスについて

On quantum free-electron laser: Superradience ( http://arxiv.org/abs/2203.14323v3 )

ライセンス: Link先を確認
Alexander Iomin(参考訳) 自由電子レーザーの量子モデルが多くの電子系で検討されている。 レーザー振幅の進化の正確な表現は、コヒーレント状態を考慮した枠組みで得られる。 高利得レーザーの超輝度に対する信頼性条件について, 正確な解の短時間の限界について論じる。

A quantum model of a free-electron laser is considered for the many electron system. An exact expression for the evolution of the laser amplitude is obtained in the framework of the coherent state consideration. Reliable conditions for the superradiance of the high-gained laser is discussed for the short time limit of the exact solution.
翻訳日:2023-05-04 19:09:24 公開日:2023-05-03
# テキスト・アタックに対する防御としてのテキスト・アタック

Text Adversarial Purification as Defense against Adversarial Attacks ( http://arxiv.org/abs/2203.14207v2 )

ライセンス: Link先を確認
Linyang Li, Demin Song, Xipeng Qiu(参考訳) 敵の浄化は、攻撃形態の知識を必要とせず、敵の攻撃に対する防御機構として成功している。 一般に, 敵の摂動を除去し, 回収したクリーンサンプルに基づいて正確な予測を行うことが目的である。 エネルギーベースモデルや拡散モデルなどの生成モデルを組み込んだコンピュータビジョン分野における敵の浄化の成功にもかかわらず、テキストの敵対的攻撃に対する防御戦略として浄化を用いることはまれである。 本稿では,テキストによる敵意攻撃を防御することに焦点を当てた,新たな敵意浄化手法を提案する。 言語モデルの助けを借りて、入力テキストをマスキングし、マスキングされた言語モデルに基づいてマスキングテキストを再構築することでノイズを注入することができる。 このようにして、最も広く使われている単語置換攻撃に対するテキストモデルに対する逆正解法を構築する。 本研究では, Textfooler や BERT-Attack などの強力な攻撃手法を用いて, 提案手法を検証し, 高い単語置換攻撃に対して, その除去アルゴリズムが有効であることを示す実験結果を得た。

Adversarial purification is a successful defense mechanism against adversarial attacks without requiring knowledge of the form of the incoming attack. Generally, adversarial purification aims to remove the adversarial perturbations therefore can make correct predictions based on the recovered clean samples. Despite the success of adversarial purification in the computer vision field that incorporates generative models such as energy-based models and diffusion models, using purification as a defense strategy against textual adversarial attacks is rarely explored. In this work, we introduce a novel adversarial purification method that focuses on defending against textual adversarial attacks. With the help of language models, we can inject noise by masking input texts and reconstructing the masked texts based on the masked language models. In this way, we construct an adversarial purification process for textual models against the most widely used word-substitution adversarial attacks. We test our proposed adversarial purification method on several strong adversarial attack methods including Textfooler and BERT-Attack and experimental results indicate that the purification algorithm can successfully defend against strong word-substitution attacks.
翻訳日:2023-05-04 19:09:20 公開日:2023-05-03
# ソーシャルメディアにおける社会的意味のコントラスト学習

Contrastive Learning of Sociopragmatic Meaning in Social Media ( http://arxiv.org/abs/2203.07648v4 )

ライセンス: Link先を確認
Chiyu Zhang, Muhammad Abdul-Mageed, Ganesh Jawahar(参考訳) NLPにおける表現とコントラスト学習の最近の進歩は、様々な言語コミュニティにおける相互作用における意味である「textit{sociopragmatic meaning}」のクラスを広く考慮していない。 このギャップを埋めるために,様々な社会プラグマティックなタスク(感情,ヘイトスピーチ,ユーモア,皮肉など)に移行可能なタスク非依存表現を学習するための新しい枠組みを提案する。 私たちのフレームワークは、一般的な設定と少数の設定の両方において、ドメイン内データとドメイン外データの両方に対して、他のコントラスト学習フレームワークよりも優れています。 例えば、トレーニング済みの2つの一般的な言語モデルと比較して、データセットあたり20ドルのトレーニングサンプルのみを微調整すると、平均$F_1$が16ドルで改善される。

Recent progress in representation and contrastive learning in NLP has not widely considered the class of \textit{sociopragmatic meaning} (i.e., meaning in interaction within different language communities). To bridge this gap, we propose a novel framework for learning task-agnostic representations transferable to a wide range of sociopragmatic tasks (e.g., emotion, hate speech, humor, sarcasm). Our framework outperforms other contrastive learning frameworks for both in-domain and out-of-domain data, across both the general and few-shot settings. For example, compared to two popular pre-trained language models, our method obtains an improvement of $11.66$ average $F_1$ on $16$ datasets when fine-tuned on only $20$ training samples per dataset.
翻訳日:2023-05-04 19:09:00 公開日:2023-05-03
# 超伝導回路における絡み合い干渉相補性と実験実証

Entanglement-interference complementarity and experimental demonstration in a superconducting circuit ( http://arxiv.org/abs/2203.06549v2 )

ライセンス: Link先を確認
Xin-Jie Huang, Pei-Rong Han, Wen Ning, Shou-Bang Yang, Xin Zhu, Jia-Hao L\"u, Ri-Hua Zheng, Hekang Li, Zhen-Biao Yang, Kai Xu, Chui-Ping Yang, Qi-Cheng Wu, Dongning Zheng, Heng Fan, and Shi-Biao Zheng(参考訳) 干渉粒子とどの経路情報を取得する検出器との間の量子の絡み合いは、ボーアの相補性原理を強制する中心的な役割を果たす。 しかし、この絡み合いとフレンチ可視性の間の量的関係は、初期混合状態では未接触のままである。 ここでは、この関係を定量化するための平等を見出す。 我々の等式は、干渉パターンが、最初は一定量のコヒーレンスを持つ干渉粒子が、whoパス検出器である程度絡み合っているときに、いかによく保存できるかを特徴付ける。 この等式は、コヒーレンスの統一的な枠組みにおける絡み合いと干渉の間の接続を提供し、量的絡み合い-干渉相補性を明らかにする。 共振器が干渉量子ビットの経路検出器として機能する超伝導回路とこの関係を実験的に示す。 qubitのramsey信号とqubit-resonator entanglementの可視性の測定は、理論的な予測とよく一致し、相補的な関係を示している。

Quantum entanglement between an interfering particle and a detector for acquiring the which-path information plays a central role for enforcing Bohr's complementarity principle. However, the quantitative relation between this entanglement and the fringe visibility remains untouched upon for an initial mixed state. Here we find an equality for quantifying this relation. Our equality characterizes how well the interference pattern can be preserved when an interfering particle, initially carrying a definite amount of coherence, is entangled, to a certain degree, with a which-path detector. This equality provides a connection between entanglement and interference in the unified framework of coherence, revealing the quantitative entanglement-interference complementarity. We experimentally demonstrate this relation with a superconducting circuit, where a resonator serves as a which-path detector for an interfering qubit. The measured fringe visibility of the qubit's Ramsey signal and the qubit-resonator entanglement exhibit a complementary relation, in well agreement with the theoretical prediction.
翻訳日:2023-05-04 19:08:44 公開日:2023-05-03
# 線形関数近似によるsarsaの収束について

On the Convergence of SARSA with Linear Function Approximation ( http://arxiv.org/abs/2202.06828v2 )

ライセンス: Link先を確認
Shangtong Zhang, Remi Tachet, Romain Laroche(参考訳) 強化学習のための古典的オンライン制御アルゴリズムであるSARSAは、線形関数近似と組み合わせることで、おしゃべりとして知られている: SARSAは分岐せず、有界領域で振動する。 しかし、sarsaがいかに速くその領域に収束するか、その領域の大きさについてはほとんど知られていない。 本稿では,有界領域への射影SARSAの収束率を示すことにより,この開放的問題に向けて前進する。 重要なのは、報酬の規模が大きすぎるわけではないので、この領域は私たちが投射する領域よりもはるかに小さいことです。 線形 SARSA の固定点への収束に関する既存の研究は、すべて SARSA のポリシー改善作用素のリプシッツ定数を十分に小さくする必要があるが、我々の分析は代わりに任意のリプシッツ定数に適用し、新しい状態に対する線形 SARSA の振舞いを特徴づける。

SARSA, a classical on-policy control algorithm for reinforcement learning, is known to chatter when combined with linear function approximation: SARSA does not diverge but oscillates in a bounded region. However, little is known about how fast SARSA converges to that region and how large the region is. In this paper, we make progress towards this open problem by showing the convergence rate of projected SARSA to a bounded region. Importantly, the region is much smaller than the region that we project into, provided that the magnitude of the reward is not too large. Existing works regarding the convergence of linear SARSA to a fixed point all require the Lipschitz constant of SARSA's policy improvement operator to be sufficiently small; our analysis instead applies to arbitrary Lipschitz constants and thus characterizes the behavior of linear SARSA for a new regime.
翻訳日:2023-05-04 19:08:03 公開日:2023-05-03
# 非可換電荷による熱化の実験観察

Experimental observation of thermalization with noncommuting charges ( http://arxiv.org/abs/2202.04652v3 )

ライセンス: Link先を確認
Florian Kranzl, Aleksander Lasek, Manoj K. Joshi, Amir Kalev, Rainer Blatt, Christian F. Roos and Nicole Yunger Halpern(参考訳) 量子シミュレータは最近、量子多体系の内部熱化の実験的な観測を可能にした。 しばしば、大域エネルギーと粒子数は保存され、システムはよく定義された粒子番号(マイクロカノニカル部分空間)で準備される。 しかし、量子進化は互いに通勤できない量や電荷を保存することもできる。 非交換電荷は、最近量子熱力学と量子情報の交差する部分場として現れた。 これまでのところ、このサブフィールドは理論上は存在していない。 我々は,その予測実験をトラップイオンシミュレータを用いて開始する。 非可換電荷を満たすためのマイクロカノニカル部分空間の一般化である近似マイクロカノニカル部分空間に6-21スピンを配置する。 レーザーによる絡み合い相互作用と集団スピン回転を用いてハイゼンベルク進化をシミュレートする。 非可換電荷は3つのスピン成分である。 小さいサブシステムは、最近予測された非可換熱状態に近いものとなる。 この研究は、量子多体シミュレーターを非可換電荷の量子熱力学にブリッジし、その予測をテストすることができる。

Quantum simulators have recently enabled experimental observations of quantum many-body systems' internal thermalization. Often, the global energy and particle number are conserved, and the system is prepared with a well-defined particle number - in a microcanonical subspace. However, quantum evolution can also conserve quantities, or charges, that fail to commute with each other. Noncommuting charges have recently emerged as a subfield at the intersection of quantum thermodynamics and quantum information. Until now, this subfield has remained theoretical. We initiate the experimental testing of its predictions, with a trapped-ion simulator. We prepare 6-21 spins in an approximate microcanonical subspace, a generalization of the microcanonical subspace for accommodating noncommuting charges, which cannot necessarily have well-defined nontrivial values simultaneously. We simulate a Heisenberg evolution using laser-induced entangling interactions and collective spin rotations. The noncommuting charges are the three spin components. We find that small subsystems equilibrate to near a recently predicted non-Abelian thermal state. This work bridges quantum many-body simulators to the quantum thermodynamics of noncommuting charges, whose predictions can now be tested.
翻訳日:2023-05-04 19:07:46 公開日:2023-05-03
# 属性除去サブネットによるモジュール・オンデマンドバイアス低減

Modular and On-demand Bias Mitigation with Attribute-Removal Subnetworks ( http://arxiv.org/abs/2205.15171v3 )

ライセンス: Link先を確認
Lukas Hauzenberger, Shahed Masoudian, Deepak Kumar, Markus Schedl, Navid Rekabsaz(参考訳) 社会バイアスは、大きな事前学習された言語モデルと下流タスクの微調整されたバージョンに反映される。 逆行訓練や相互情報除去といった一般的なプロセス内バイアス軽減手法は、さらなる最適化基準を導入し、新しいバイアス状態に到達するためにモデルを更新する。 しかし、実際には、エンドユーザと実践者は元のモデルに切り替えるか、保護された属性の特定のサブセットのみにデバイアスを適用することを好みます。 そこで本研究では,各デバイアスモジュールをオンデマンドでコアモデルに統合可能な,スタンドアローンの高度疎脱バイアスサブネットワークからなる,新しいモジュラーバイアス緩和手法を提案する。 提案手法は,<emph{diff> pruningの概念から導き出され,様々な表現不等角化最適化に適応可能な新しいトレーニングレジームを提案する。 我々は、性別、人種、年齢の3つの分類タスクを保護属性として実験する。 その結果、タスク性能を維持しながら、我々のモジュラーアプローチは、ベースラインファインタニングと比較してバイアス軽減の効果を向上(少なくともそれと同等に)することを示した。 特に2属性のデータセットでは、個別に学習したデバイアスサブネットを用いたアプローチは、選択バイアス軽減のためのサブネットの有効利用を示す。

Societal biases are reflected in large pre-trained language models and their fine-tuned versions on downstream tasks. Common in-processing bias mitigation approaches, such as adversarial training and mutual information removal, introduce additional optimization criteria, and update the model to reach a new debiased state. However, in practice, end-users and practitioners might prefer to switch back to the original model, or apply debiasing only on a specific subset of protected attributes. To enable this, we propose a novel modular bias mitigation approach, consisting of stand-alone highly sparse debiasing subnetworks, where each debiasing module can be integrated into the core model on-demand at inference time. Our approach draws from the concept of \emph{diff} pruning, and proposes a novel training regime adaptable to various representation disentanglement optimizations. We conduct experiments on three classification tasks with gender, race, and age as protected attributes. The results show that our modular approach, while maintaining task performance, improves (or at least remains on-par with) the effectiveness of bias mitigation in comparison with baseline finetuning. Particularly on a two-attribute dataset, our approach with separately learned debiasing subnetworks shows effective utilization of either or both the subnetworks for selective bias mitigation.
翻訳日:2023-05-04 19:02:06 公開日:2023-05-03
# 自励式軽視変換器のクローズアップ

A Closer Look at Self-Supervised Lightweight Vision Transformers ( http://arxiv.org/abs/2205.14443v2 )

ライセンス: Link先を確認
Shaoru Wang, Jin Gao, Zeming Li, Xiaoqin Zhang, Weiming Hu(参考訳) 大規模視覚変換器(ViT)の自己教師型学習を事前学習法として実現した。 しかし、これらの事前学習パラダイムが軽量なViTの性能を促進するかは、かなり研究されていない。 本研究では,画像分類タスクと下流密度予測タスクに関する自己教師付き事前学習手法の開発とベンチマークを行う。 適切な事前トレーニングが採用されれば、バニラ軽量なViTでさえ、デリケートなアーキテクチャ設計を持つ従来のSOTAネットワークと同等の性能を示すことになる。 これは、バニラ ViT が軽量レシエーションにおけるビジョンタスクには適さないという最近の一般的な概念を破るものだ。 また,大規模事前トレーニングデータのメリットが得られず,データ不足のダウンストリームタスクのパフォーマンスが劣るなど,事前トレーニングの欠点も指摘する。 さらに,関連モデルに対するレイヤ表現とアテンションマップの特性を解析することにより,事前学習の効果を解析し,明確に示す。 最後に, 上記の分析から, プレトレーニング中の蒸留戦略が開発され, MAEを用いたプレトレーニングの下流性能が向上した。 コードはhttps://github.com/wangsr126/mae-liteで入手できる。

Self-supervised learning on large-scale Vision Transformers (ViTs) as pre-training methods has achieved promising downstream performance. Yet, how much these pre-training paradigms promote lightweight ViTs' performance is considerably less studied. In this work, we develop and benchmark several self-supervised pre-training methods on image classification tasks and some downstream dense prediction tasks. We surprisingly find that if proper pre-training is adopted, even vanilla lightweight ViTs show comparable performance to previous SOTA networks with delicate architecture design. It breaks the recently popular conception that vanilla ViTs are not suitable for vision tasks in lightweight regimes. We also point out some defects of such pre-training, e.g., failing to benefit from large-scale pre-training data and showing inferior performance on data-insufficient downstream tasks. Furthermore, we analyze and clearly show the effect of such pre-training by analyzing the properties of the layer representation and attention maps for related models. Finally, based on the above analyses, a distillation strategy during pre-training is developed, which leads to further downstream performance improvement for MAE-based pre-training. Code is available at https://github.com/wangsr126/mae-lite.
翻訳日:2023-05-04 19:01:46 公開日:2023-05-03
# 最小二乗損失下での最適測度を持つ古典的パラメータ化状態のみ

Only Classical Parameterised States have Optimal Measurements under Least Squares Loss ( http://arxiv.org/abs/2205.14142v2 )

ライセンス: Link先を確認
Wilfred Salmon and Sergii Strelchuk and David Arvidsson-Shukur(参考訳) 量子状態の測定は、量子情報処理において重要な要素となる。 したがって、測定を比較、さらに測定戦略が最適かどうかを判断することは重要な課題である。 量子フィッシャー情報のようなエントロピー量は漸近的最適性を取り込むが、有限資源では最適ではない。 非漸近的状態において測定が最適であるかどうかを確定的に決定できる枠組みを導入する。 提案手法は,リスクと呼ばれる推定器の予測誤差の基本的な特性に依存し,エントロピー量に対する最適化を伴わない。 このフレームワークは、有限のサンプルサイズと事前知識の欠如、漸近的およびベイズ的設定にも適用される。 我々は、古典的状態だけが最も一般的な誤差測定の選択肢である最小二乗で最適な測定を許すことを示すノーゴー定理を証明している。 さらに, 近似最適測定の制約の少ない概念を考察し, その測定が存在するのに十分な条件を与える。 最後に、推定器が許容できないとき(すなわち代替品よりも厳密に悪いとき)の概念を一般化し、測定が許容できないような2つの十分な条件を与える。

Measurements of quantum states form a key component in quantum-information processing. It is therefore an important task to compare measurements and furthermore decide if a measurement strategy is optimal. Entropic quantities, such as the quantum Fisher information, capture asymptotic optimality but not optimality with finite resources. We introduce a framework that allows one to conclusively establish if a measurement is optimal in the non-asymptotic regime. Our method relies on the fundamental property of expected errors of estimators, known as risk, and it does not involve optimisation over entropic quantities. The framework applies to finite sample sizes and lack of prior knowledge, as well as to the asymptotic and Bayesian settings. We prove a no-go theorem that shows that only classical states admit optimal measurements under the most common choice of error measurement: least squares. We further consider the less restrictive notion of an approximately optimal measurement and give sufficient conditions for such measurements to exist. Finally, we generalise the notion of when an estimator is inadmissible (i.e. strictly worse than an alternative), and provide two sufficient conditions for a measurement to be inadmissible.
翻訳日:2023-05-04 19:01:28 公開日:2023-05-03
# マスク言語モデルの科学への回帰の低下

The Diminishing Returns of Masked Language Models to Science ( http://arxiv.org/abs/2205.11342v2 )

ライセンス: Link先を確認
Zhi Hong, Aswathy Ajith, Gregory Pauloski, Eamon Duede, Kyle Chard, Ian Foster(参考訳) 一般的なコーパスでトレーニングされたBERTのようなトランスフォーマーベースのマスク付き言語モデルは、下流タスクで素晴らしいパフォーマンスを示している。 また、より長いデータでより大きなモデルを事前訓練することで、そのようなモデルのダウンストリームタスク性能を改善することも実証されている。 本研究は,これらの結果が科学のタスクに及ぼす範囲を実証的に評価する。 我々は、トレーニングデータ、モデルサイズ、事前学習、12下流の科学的タスクに対する微調整時間の影響を評価するために、14のドメイン固有のトランスフォーマーベースモデル(ScholarBERTを含む 770M の科学パラメータにフォーカスした新しいマスク付き言語モデルである。 興味深いことに、モデルのサイズ、トレーニングデータ、または計算時間の増加が、科学的な情報抽出タスクにおいて、必ずしも大きな改善(つまり、1% F1)をもたらすとは限らないことが分かり、驚くべき性能の違いを説明できた。

Transformer-based masked language models such as BERT, trained on general corpora, have shown impressive performance on downstream tasks. It has also been demonstrated that the downstream task performance of such models can be improved by pretraining larger models for longer on more data. In this work, we empirically evaluate the extent to which these results extend to tasks in science. We use 14 domain-specific transformer-based models (including ScholarBERT, a new 770M-parameter science-focused masked language model pretrained on up to 225B tokens) to evaluate the impact of training data, model size, pretraining and finetuning time on 12 downstream scientific tasks. Interestingly, we find that increasing model sizes, training data, or compute time does not always lead to significant improvements (i.e., >1% F1), if at all, in scientific information extraction tasks and offered possible explanations for the surprising performance differences.
翻訳日:2023-05-04 19:01:09 公開日:2023-05-03
# ImGCL:不均衡ノード分類におけるグラフコントラスト学習の再検討

ImGCL: Revisiting Graph Contrastive Learning on Imbalanced Node Classification ( http://arxiv.org/abs/2205.11332v2 )

ライセンス: Link先を確認
Liang Zeng, Lanqing Li, Ziqi Gao, Peilin Zhao, Jian Li(参考訳) グラフコントラスト学習(gcl)はラベル無しでノード/グラフ表現を学習する優れた性能のために注目を集めている。 しかし、実際には、与えられたグラフに対するラベルのないノードのクラス分布は通常不均衡である。 この高度に不均衡なクラス分布は、GCLにおける学習ノード表現の品質を必然的に劣化させる。 実際、ほとんどの最先端のGCL法では識別的表現が得られず、不均衡なノード分類では性能が悪いことが実証されている。 本研究の目的は,ラベルなしでGCLから学習した表現を自動的かつ適応的にバランスをとるImGCL(Im Balanced node classification)の原理的GCLフレームワークを提案することである。 具体的には,GCLにおける学習表現から得られた擬似ラベルに基づいて,オンラインクラスタリングに基づく漸進的平衡サンプリング(PBS)手法と理論的理論的根拠を導入する。 次に,ノード中心性に基づくPBS法を開発し,グラフの重要なノードを重み付けすることで,グラフの固有構造をよりよく保存する。 複数の不均衡グラフデータセットと不均衡設定に関する大規模な実験により,提案手法の有効性が示され,最新のGCL法の性能が大幅に向上した。 さらに実験的に、ImGCLフレームワークは、未表現(テール)クラスにおけるノードの表現品質を一貫して改善することを示している。

Graph contrastive learning (GCL) has attracted a surge of attention due to its superior performance for learning node/graph representations without labels. However, in practice, the underlying class distribution of unlabeled nodes for the given graph is usually imbalanced. This highly imbalanced class distribution inevitably deteriorates the quality of learned node representations in GCL. Indeed, we empirically find that most state-of-the-art GCL methods cannot obtain discriminative representations and exhibit poor performance on imbalanced node classification. Motivated by this observation, we propose a principled GCL framework on Imbalanced node classification (ImGCL), which automatically and adaptively balances the representations learned from GCL without labels. Specifically, we first introduce the online clustering based progressively balanced sampling (PBS) method with theoretical rationale, which balances the training sets based on pseudo-labels obtained from learned representations in GCL. We then develop the node centrality based PBS method to better preserve the intrinsic structure of graphs, by upweighting the important nodes of the given graph. Extensive experiments on multiple imbalanced graph datasets and imbalanced settings demonstrate the effectiveness of our proposed framework, which significantly improves the performance of the recent state-of-the-art GCL methods. Further experimental ablations and analyses show that the ImGCL framework consistently improves the representation quality of nodes in under-represented (tail) classes.
翻訳日:2023-05-04 19:00:51 公開日:2023-05-03
# いくつかのクエリによる勾配アライメント攻撃

Gradient Aligned Attacks via a Few Queries ( http://arxiv.org/abs/2205.09518v2 )

ライセンス: Link先を確認
Xiangyuan Yang, Jie Lin, Hanlin Zhang, Xinyu Yang, Peng Zhao(参考訳) 被害者モデルの出力のみに依存するブラックボックスクエリアタックは、ディープラーニングモデルへの攻撃に有効であることが証明されている。 しかし、既存のブラックボックスクエリアタックは、少数のクエリしか許可されない新しいシナリオでは、パフォーマンスが低い。 この問題に対処するため,我々は,サロゲートモデル上で設計したグラデーションアライメントアライメント損失 (gal) を用いたグラデーションアライメントアライメントアライメント攻撃 (gaa) を提案する。 具体的には,ロジットベクトルに対する損失関数の導関数がサロゲートモデルと被害者モデルで同一の重み係数を持つことを保証するための勾配アライメント機構を提案する。 この機構を用いて、クロスエントロピー(CE)損失とマージン損失を勾配整列形式、すなわち勾配整列CEまたはマージン損失に変換する。 これらの損失は、新しいシナリオにおける勾配整列攻撃の攻撃性能を改善するだけでなく、既存のブラックボックスクエリ攻撃のクエリ効率を向上させる。 ImageNetデータベース上の理論的および実証的な解析により、我々の勾配整列機構が有効であること、そして我々の勾配整列攻撃が、ボックス制約の$l_2$と$l_{\infty}$ノルムに対して、新しいシナリオにおける攻撃性能を16.1\%と31.3\%向上させることができることを実証した。 さらに、勾配に整合した損失は、転送可能な事前ベースのクエリ攻撃に必要なクエリ数を最大2.9倍削減する。 全体として,提案する勾配アラインアタックと損失は,ブラックボックスクエリアタックのアタック性能とクエリ効率,特に数クエリしか許可されていないシナリオにおいて大幅な改善を示す。

Black-box query attacks, which rely only on the output of the victim model, have proven to be effective in attacking deep learning models. However, existing black-box query attacks show low performance in a novel scenario where only a few queries are allowed. To address this issue, we propose gradient aligned attacks (GAA), which use the gradient aligned losses (GAL) we designed on the surrogate model to estimate the accurate gradient to improve the attack performance on the victim model. Specifically, we propose a gradient aligned mechanism to ensure that the derivatives of the loss function with respect to the logit vector have the same weight coefficients between the surrogate and victim models. Using this mechanism, we transform the cross-entropy (CE) loss and margin loss into gradient aligned forms, i.e. the gradient aligned CE or margin losses. These losses not only improve the attack performance of our gradient aligned attacks in the novel scenario but also increase the query efficiency of existing black-box query attacks. Through theoretical and empirical analysis on the ImageNet database, we demonstrate that our gradient aligned mechanism is effective, and that our gradient aligned attacks can improve the attack performance in the novel scenario by 16.1\% and 31.3\% on the $l_2$ and $l_{\infty}$ norms of the box constraint, respectively, compared to four latest transferable prior-based query attacks. Additionally, the gradient aligned losses also significantly reduce the number of queries required in these transferable prior-based query attacks by a maximum factor of 2.9 times. Overall, our proposed gradient aligned attacks and losses show significant improvements in the attack performance and query efficiency of black-box query attacks, particularly in scenarios where only a few queries are allowed.
翻訳日:2023-05-04 19:00:28 公開日:2023-05-03
# 臨床ノートからのオントロジによる希少疾患の同定

Ontology-Driven and Weakly Supervised Rare Disease Identification from Clinical Notes ( http://arxiv.org/abs/2205.05656v5 )

ライセンス: Link先を確認
Hang Dong, V\'ictor Su\'arez-Paniagua, Huayu Zhang, Minhong Wang, Arlene Casey, Emma Davidson, Jiaoyan Chen, Beatrice Alex, William Whiteley, Honghan Wu(参考訳) 計算テキスト表現型付け(compute text phenotyping)は、特定の疾患や特徴を有する患者を臨床ノートから識別する手法である。 機械学習やドメインの専門家によるデータアノテーションの必要性から、希少な疾患の特定は困難である。 本稿では,2方向変換器(BERTなど)から事前学習した文脈表現を用いたオントロジーと弱い監督手法を提案する。 オントロジーベースのフレームワークには2つのステップがある。 一 統一医療言語システム(UMLS)における概念への言及を文脈的にリンクすることで表現型を抽出し、名前付きエンティティ認識リンク(NER+L)ツール、SemEHR、カスタマイズされた規則及び文脈参照表現による弱い監督を行う。 (II) Orphanet Rare Disease Ontology (ORDO)におけるUMLS概念と希少疾患との整合性。 弱教師付きアプローチは、ドメインの専門家による注釈付きデータなしで、テキスト-UMLSリンクを改善するための表現型確認モデルを学ぶために提案される。 本研究は,MIMIC-III放電サマリー,MIMIC-III放射像,およびNHS Tayside脳画像報告の3つの臨床データセットに対するアプローチをアノテーションを用いて評価した。 精度の改善は、既存のNER+LツールであるSemEHRと比べてほとんどリコールが無く、(Text-to-UMLSリンクの30%以上から50%の絶対スコア)発音された。 MIMIC-III, NHS Taysideの放射線検査所見は, 放電サマリーと一致していた。 パイプライン処理全体の臨床ノートは稀な疾患の症例を抽出でき、ほとんどは構造化データ(icd符号)に格納されていない。 我々は,弱い監督手法の有用性を議論し,今後の研究の方向性を提案する。

Computational text phenotyping is the practice of identifying patients with certain disorders and traits from clinical notes. Rare diseases are challenging to be identified due to few cases available for machine learning and the need for data annotation from domain experts. We propose a method using ontologies and weak supervision, with recent pre-trained contextual representations from Bi-directional Transformers (e.g. BERT). The ontology-based framework includes two steps: (i) Text-to-UMLS, extracting phenotypes by contextually linking mentions to concepts in Unified Medical Language System (UMLS), with a Named Entity Recognition and Linking (NER+L) tool, SemEHR, and weak supervision with customised rules and contextual mention representation; (ii) UMLS-to-ORDO, matching UMLS concepts to rare diseases in Orphanet Rare Disease Ontology (ORDO). The weakly supervised approach is proposed to learn a phenotype confirmation model to improve Text-to-UMLS linking, without annotated data from domain experts. We evaluated the approach on three clinical datasets, MIMIC-III discharge summaries, MIMIC-III radiology reports, and NHS Tayside brain imaging reports from two institutions in the US and the UK, with annotations. The improvements in the precision were pronounced (by over 30% to 50% absolute score for Text-to-UMLS linking), with almost no loss of recall compared to the existing NER+L tool, SemEHR. Results on radiology reports from MIMIC-III and NHS Tayside were consistent with the discharge summaries. The overall pipeline processing clinical notes can extract rare disease cases, mostly uncaptured in structured data (manually assigned ICD codes). We discuss the usefulness of the weak supervision approach and propose directions for future studies.
翻訳日:2023-05-04 18:59:54 公開日:2023-05-03
# 相転移による高速クエンチにおけるキブル・ズールクスケーリングの普遍的破壊

Universal breakdown of Kibble-Zurek scaling in fast quenches across a phase transition ( http://arxiv.org/abs/2204.13529v2 )

ライセンス: Link先を確認
Hua-Bi Zeng, Chuan-Yin Xia, Adolfo del Campo(参考訳) 連続相転移の交差は、ゆっくりしたクエンチの極限でキブル・ズレック機構(KZM)によって記述される位相欠陥の形成を引き起こす。 KZMは、欠陥密度の普遍的なパワーロースケーリングをクエンチ時間の関数として予測する。 急激なクエンチで実験的に観察されたKZMの偏差に着目し,その普遍性を確立する。 kzmスケーリングは臨界クエンチレートを下回るが、より高速なクエンチでは欠陥密度と凍結アウト時間がクエンチレートとは独立となり、制御パラメータの最終値で普遍的なパワーロースケーリングを示す。 これらの予測は古典領域と量子領域の両方においていくつかのパラダイムシナリオで検証される。

The crossing of a continuous phase transition gives rise to the formation of topological defects described by the Kibble-Zurek mechanism (KZM) in the limit of slow quenches. The KZM predicts a universal power-law scaling of the defect density as a function of the quench time. We focus on the deviations from KZM experimentally observed in rapid quenches and establish their universality. While KZM scaling holds below a critical quench rate, for faster quenches the defect density and the freeze-out time become independent of the quench rate and exhibit a universal power-law scaling with the final value of the control parameter. These predictions are verified in several paradigmatic scenarios in both the classical and quantum domains.
翻訳日:2023-05-04 18:58:57 公開日:2023-05-03
# 量子相状態学習のための最適アルゴリズム

Optimal algorithms for learning quantum phase states ( http://arxiv.org/abs/2208.07851v2 )

ライセンス: Link先を確認
Srinivasan Arunachalam, Sergey Bravyi, Arkopal Dutt, Theodore J. Yoder(参考訳) 我々は、n$-qubitの量子状態の学習の複雑さを分析する。 次数-$d$位相状態は、$n$変数上の次数-$d$ Boolean多項式である$(-1)^{f(x)}$に比例する振幅を持つすべての2^n$基底ベクトル$x$の重ね合わせとして定義される。 未知の次数-d$位相状態の学習のサンプル複雑性は、分離可能な測定を許すならば$\theta(n^d)$であり、絡み合った測定を許すなら$\theta(n^{d-1})$である。 分離可能な測定に基づく学習アルゴリズムは、実行時$\textsf{poly}(n)$(一定の$d$)を持ち、pauli $x$と$z$ベースでシングルキュービットの測定のみを必要とするため、短期的なデモンストレーションには適しています。 複素数値振幅を持つ一般化位相状態の学習におけるサンプルの複雑さに類似した境界を示す。 さらに、$f$が$\mathbb{f}_2$表現を持つ場合(サンプル複雑性$o(2^d sn)$)、$f$がフーリエ度$t$を持つ場合(サンプル複雑性$o(2^{2t})$)、$\varepsilon$-global非分極化ノイズ(サンプル複雑性$o(n^{1+\varepsilon})$)で二次位相状態を学ぶ場合も検討する。 これらの学習アルゴリズムは、クリフォード階層と iqp~circuit の対角ユニタリを学ぶ手順を与える。

We analyze the complexity of learning $n$-qubit quantum phase states. A degree-$d$ phase state is defined as a superposition of all $2^n$ basis vectors $x$ with amplitudes proportional to $(-1)^{f(x)}$, where $f$ is a degree-$d$ Boolean polynomial over $n$ variables. We show that the sample complexity of learning an unknown degree-$d$ phase state is $\Theta(n^d)$ if we allow separable measurements and $\Theta(n^{d-1})$ if we allow entangled measurements. Our learning algorithm based on separable measurements has runtime $\textsf{poly}(n)$ (for constant $d$) and is well-suited for near-term demonstrations as it requires only single-qubit measurements in the Pauli $X$ and $Z$ bases. We show similar bounds on the sample complexity for learning generalized phase states with complex-valued amplitudes. We further consider learning phase states when $f$ has sparsity-$s$, degree-$d$ in its $\mathbb{F}_2$ representation (with sample complexity $O(2^d sn)$), $f$ has Fourier-degree-$t$ (with sample complexity $O(2^{2t})$), and learning quadratic phase states with $\varepsilon$-global depolarizing noise (with sample complexity $O(n^{1+\varepsilon})$). These learning algorithms give us a procedure to learn the diagonal unitaries of the Clifford hierarchy and IQP~circuits.
翻訳日:2023-05-04 18:52:01 公開日:2023-05-03
# 協調正規推定と点クラウドフィルタリングのためのコントラスト学習

Contrastive Learning for Joint Normal Estimation and Point Cloud Filtering ( http://arxiv.org/abs/2208.06811v2 )

ライセンス: Link先を確認
Dasith de Silva Edirimuni, Xuequan Lu, Gang Li, and Antonio Robles-Kelly(参考訳) 点雲フィルタリングと正規推定は3次元領域における2つの基本的な研究課題である。 既存の手法は通常、通常の推定とフィルタリングを別々に行い、しばしばノイズに対する感度を示し、角や縁などの鋭い幾何学的特徴を保存できない。 本稿では,正規分布とフィルタ点群を共同で推定する新しい深層学習法を提案する。 まず,ノイズに頑健なままポイントクラウドパッチの忠実な表現を生成可能な特徴エンコーダを訓練するために,ノイズ崩壊を補足として,3次元パッチベースのコントラスト学習フレームワークを導入する。 これらの表現は単純な回帰ネットワークによって消費され、新しいジョイントロスによって監督され、パッチセンターのフィルタに使われる点正規値と変位を同時に推定する。 実験の結果,本手法は2つのタスクを同時にサポートでき,鋭い特徴と細部を保存できることがわかった。 一般に、両方のタスクで最先端の技術よりも優れています。 ソースコードはhttps://github.com/ddsediri/cljnepcfで入手できます。

Point cloud filtering and normal estimation are two fundamental research problems in the 3D field. Existing methods usually perform normal estimation and filtering separately and often show sensitivity to noise and/or inability to preserve sharp geometric features such as corners and edges. In this paper, we propose a novel deep learning method to jointly estimate normals and filter point clouds. We first introduce a 3D patch based contrastive learning framework, with noise corruption as an augmentation, to train a feature encoder capable of generating faithful representations of point cloud patches while remaining robust to noise. These representations are consumed by a simple regression network and supervised by a novel joint loss, simultaneously estimating point normals and displacements that are used to filter the patch centers. Experimental results show that our method well supports the two tasks simultaneously and preserves sharp features and fine details. It generally outperforms state-of-the-art techniques on both tasks. Our source code is available at https://github.com/ddsediri/CLJNEPCF.
翻訳日:2023-05-04 18:51:21 公開日:2023-05-03
# 連続時間確率過程の量子解析

Quantum Analysis of Continuous Time Stochastic Process ( http://arxiv.org/abs/2208.02364v3 )

ライセンス: Link先を確認
Xi-Ning Zhuang, Zhao-Yun Chen, Cheng Xue, Yu-Chun Wu, Guo-Ping Guo(参考訳) 連続時間確率過程 (continuous time stochastic process) は、金融、統計、物理学、時系列分析を含む幅広い応用でランダム世界をモデル化する主流の数学的手法であり、連続時間確率過程のシミュレーションと解析は古典的コンピュータにとって難しい問題である。 本研究では,量子コンピュータにおける連続時間確率過程の経路を効率的に作成するための一般的な枠組みを構築した。 クビット数と回路深さの両方を圧縮状態準備法により最適化するため、保持時間のキーパラメータに対して記憶資源と演算資源を指数関数的に削減する。 財務問題に不可欠な経路依存情報及び履歴依存情報を含む所望情報は、圧縮されたサンプリングパスから効率的に抽出でき、さらに二次的なスピードアップが認められる。 さらに、この抽出方法は、極端な市場イベントを捉える不連続なジャンプに対してより敏感である。 メルトンジャンプ拡散モデルにおけるオプション価格の2つの応用と集団リスクモデルにおける破壊確率計算について述べる。

The continuous time stochastic process is a mainstream mathematical instrument modeling the random world with a wide range of applications involving finance, statistics, physics, and time series analysis, while the simulation and analysis of the continuous time stochastic process is a challenging problem for classical computers. In this work, a general framework is established to prepare the path of a continuous time stochastic process in a quantum computer efficiently. The storage and computation resource is exponentially reduced on the key parameter of holding time, as the qubit number and the circuit depth are both optimized via our compressed state preparation method. The desired information, including the path-dependent and history-sensitive information that is essential for financial problems, can be extracted efficiently from the compressed sampling path, and admits a further quadratic speed-up. Moreover, this extraction method is more sensitive to those discontinuous jumps capturing extreme market events. Two applications of option pricing in Merton jump diffusion model and ruin probability computing in the collective risk model are given.
翻訳日:2023-05-04 18:51:05 公開日:2023-05-03
# 強化学習を用いた量子熱機関の電力・効率・変動に対するパレート最適サイクル

Pareto-optimal cycles for power, efficiency and fluctuations of quantum heat engines using reinforcement learning ( http://arxiv.org/abs/2207.13104v2 )

ライセンス: Link先を確認
Paolo Andrea Erdman, Alberto Rolandi, Paolo Abiuso, Mart\'i Perarnau-Llobet, Frank No\'e(参考訳) 量子熱エンジンの完全な最適化には、高出力、高効率、高安定性(低電力変動)での運転が必要である。 しかし、これらの3つの目的は、いわゆる熱力学的不確実性関係によって示されるように、同時に最適化することはできない。 本稿では、電力、効率、変動をトレードオフする駆動量子熱エンジンのパレート最適サイクルを特定するための一般的な枠組みを提案する。 次に、量子ドットベースエンジンのパレートフロントの同定に強化学習を用い、最適化2と3つの目的を切り替える際に最適なサイクルの形式に急激な変化を見出す。 さらに,パレートフロントの異なる領域を正確に記述した高速・低速運転方式の解析結果も導出する。

The full optimization of a quantum heat engine requires operating at high power, high efficiency, and high stability (i.e. low power fluctuations). However, these three objectives cannot be simultaneously optimized - as indicated by the so-called thermodynamic uncertainty relations - and a systematic approach to finding optimal balances between them including power fluctuations has, as yet, been elusive. Here we propose such a general framework to identify Pareto-optimal cycles for driven quantum heat engines that trade-off power, efficiency, and fluctuations. We then employ reinforcement learning to identify the Pareto front of a quantum dot based engine and find abrupt changes in the form of optimal cycles when switching between optimizing two and three objectives. We further derive analytical results in the fast and slow-driving regimes that accurately describe different regions of the Pareto front.
翻訳日:2023-05-04 18:50:48 公開日:2023-05-03
# 2つの発振器間の量子交換の強化

Enhancing quantum exchanges between two oscillators ( http://arxiv.org/abs/2207.11156v2 )

ライセンス: Link先を確認
Quentin Ansel, Alexei D. Chepelianskii, Jose Lages(参考訳) 2つの量子発振器が、固体中の色中心のスピンレベルとなる3レベルシステムを通じて、量子状態を効率的に交換できる範囲について検討する。 高遷移確率はハミルトン工学と量子制御技術を用いて得られる。 弱いカップリング近似から始め、量子の高忠実な交換を可能にするスピン-オシレータ相互作用の条件を導出する。 これらの条件は任意のスピン-オシレータカップリングでは満たせないことが判明した。 この制限を克服するために,3レベルシステムに適用する時間依存制御場が,所望の励磁の交換を行う効果的なダイナミクスにどのようにつながるかを説明する。 ウルトラ)強結合系では、振動子の多くのフォック状態への励起の分散によって忠実度の重要な損失が引き起こされる。 最適制御数値アルゴリズムを用いて計算した最適制御場により, この劣化効果を著しく低減できることを示す。

We explore the extent to which two quantum oscillators can exchange their quantum states efficiently through a three-level system which can be spin levels of colored centers in solids. High transition probabilities are obtained using Hamiltonian engineering and quantum control techniques. Starting from a weak coupling approximation, we derive conditions on the spin-oscillator interaction Hamiltonian that enable a high-fidelity exchange of quanta. We find that these conditions cannot be fulfilled for arbitrary spin-oscillator coupling. To overcome this limitation, we illustrate how a time-dependent control field applied to the three-level system can lead to an effective dynamic that performs the desired exchange of excitation. In the (ultra) strong coupling regime, an important loss of fidelity is induced by the dispersion of the excitation onto many Fock states of the oscillators. We show that this detrimental effect can be substantially reduced by suitable control fields, which are computed with optimal control numerical algorithms.
翻訳日:2023-05-04 18:50:33 公開日:2023-05-03
# $\beta$-divergence を用いたスパース非負行列分解の最小化

Majorization-minimization for Sparse Nonnegative Matrix Factorization with the $\beta$-divergence ( http://arxiv.org/abs/2207.06316v2 )

ライセンス: Link先を確認
Arthur Marmin, Jos\'e Henrique de Morais Goulart, C\'edric F\'evotte(参考訳) この記事では、2つの因子のうちの1つ(例えば活性化行列)の$\beta$-divergenceとスパース正規化による非負行列因子化の新しい乗法的更新を紹介する。 他の因子(辞書行列)のノルムは、不適切な定式化を避けるために制御する必要があることはよく知られている。 標準的な実践は辞書の列を単位ノルムに制限することであり、これは非自明な最適化問題につながる。 提案手法は,元問題の再パラメータ化を利用して,等価スケール不変目的関数の最適化を行う。 そこで我々は,$\ell_{1}$-regularization あるいはより "攻撃的" なログ正規化に対して,単純な乗法的更新をもたらすブロック・ディフレッシブ・プライマリゼーション・最小化アルゴリズムを導出する。 他の最先端手法とは対照的に、我々のアルゴリズムは任意の$\beta$-divergence(すなわち$\beta$の値)に適用可能であり、収束保証付きであるという意味で普遍的である。 本研究では,顔画像,音声スペクトログラム,ハイパースペクトルデータ,曲の演奏数などを用いて,既存のヒューリスティックおよびラグランジアン法との比較を行った。 提案手法は, コンバージェンス(類似目的値)において, CPU時間を大幅に短縮した類似品質の解が得られることを示す。

This article introduces new multiplicative updates for nonnegative matrix factorization with the $\beta$-divergence and sparse regularization of one of the two factors (say, the activation matrix). It is well known that the norm of the other factor (the dictionary matrix) needs to be controlled in order to avoid an ill-posed formulation. Standard practice consists in constraining the columns of the dictionary to have unit norm, which leads to a nontrivial optimization problem. Our approach leverages a reparametrization of the original problem into the optimization of an equivalent scale-invariant objective function. From there, we derive block-descent majorization-minimization algorithms that result in simple multiplicative updates for either $\ell_{1}$-regularization or the more "aggressive" log-regularization. In contrast with other state-of-the-art methods, our algorithms are universal in the sense that they can be applied to any $\beta$-divergence (i.e., any value of $\beta$) and that they come with convergence guarantees. We report numerical comparisons with existing heuristic and Lagrangian methods using various datasets: face images, an audio spectrogram, hyperspectral data, and song play counts. We show that our methods obtain solutions of similar quality at convergence (similar objective values) but with significantly reduced CPU times.
翻訳日:2023-05-04 18:50:19 公開日:2023-05-03
# De Broglie-Bohmによるディラック場の定式化

de Broglie-Bohm formulation of Dirac fields ( http://arxiv.org/abs/2207.05755v3 )

ライセンス: Link先を確認
Luca Fabbri(参考訳) 量子相対論的物質場は古典流体の特殊型として等価に書き直され、この定式化において、上記の隠れ変数理論の非局所的な側面を相対論的環境が担うことができることを示す。 拡張のためのスケッチがついに提供される。

We present the theory of Dirac spinors in the formulation given by Bohm on the idea of de Broglie: the quantum relativistic matter field is equivalently re-written as a special type of classical fluid and in this formulation it is shown how a relativistic environment can host the non-local aspects of the above-mentioned hidden-variables theory. Sketches for extensions are given at last.
翻訳日:2023-05-04 18:49:52 公開日:2023-05-03
# スプリットギブス・サンプラーの再検討:アルゴリズム構造の改善とターゲット分布の強化

The split Gibbs sampler revisited: improvements to its algorithmic structure and augmented target distribution ( http://arxiv.org/abs/2206.13894v3 )

ライセンス: Link先を確認
Marcelo Pereyra, Luis A. Vargas-Mieles, Konstantinos C. Zygalakis(参考訳) 逆問題のイメージングのための効率的なベイズ計算アルゴリズムの開発は、関連する次元とベイズ画像モデルがしばしば滑らかではないため、難しい。 現在の最先端の手法は、ランゲヴィン・マルコフ連鎖モンテカルロ (MCMC) 法による効率的な探索が可能な滑らかな近似に後部密度を置き換えることによってこれらの困難に対処することが多い。 別のアプローチはデータ拡張と緩和に基づいており、gibbsサンプリングによる効率的な探索に適する近似拡張後続分布を構築するために補助変数が導入された。 本稿では,2つの戦略の利点を密結合した潜在空間SK-ROCK (ls SK-ROCK) と呼ばれる,新しい加速近距離MCMC法を提案する。 さらに, 拡張された後方分布を元のモデルの近似として見るのではなく, このモデルの一般化と考えることを提案する。 この結果から,モデル精度が向上する緩和パラメータの値の範囲が実験的に示され,与えられた問題の最適緩和量を自動的に同定する確率的最適化アルゴリズムを提案する。 この体制では、Ls SK-ROCKは、技術の競合するアプローチよりも早く収束し、基礎となるベイズモデルのベイズ的証拠が高いため、精度も向上する。 提案手法は, 画像の劣化と塗装に関する様々な数値実験と, 技術の現状から得られた代替手法との比較により実証された。 提案されたMCMCメソッドのオープンソース実装はhttps://github.com/luisvargasmieles/ls-MCMCから入手できる。

Developing efficient Bayesian computation algorithms for imaging inverse problems is challenging due to the dimensionality involved and because Bayesian imaging models are often not smooth. Current state-of-the-art methods often address these difficulties by replacing the posterior density with a smooth approximation that is amenable to efficient exploration by using Langevin Markov chain Monte Carlo (MCMC) methods. An alternative approach is based on data augmentation and relaxation, where auxiliary variables are introduced in order to construct an approximate augmented posterior distribution that is amenable to efficient exploration by Gibbs sampling. This paper proposes a new accelerated proximal MCMC method called latent space SK-ROCK (ls SK-ROCK), which tightly combines the benefits of the two aforementioned strategies. Additionally, instead of viewing the augmented posterior distribution as an approximation of the original model, we propose to consider it as a generalisation of this model. Following on from this, we empirically show that there is a range of values for the relaxation parameter for which the accuracy of the model improves, and propose a stochastic optimisation algorithm to automatically identify the optimal amount of relaxation for a given problem. In this regime, ls SK-ROCK converges faster than competing approaches from the state of the art, and also achieves better accuracy since the underlying augmented Bayesian model has a higher Bayesian evidence. The proposed methodology is demonstrated with a range of numerical experiments related to image deblurring and inpainting, as well as with comparisons with alternative approaches from the state of the art. An open-source implementation of the proposed MCMC methods is available from https://github.com/luisvargasmieles/ls-MCMC.
翻訳日:2023-05-04 18:49:45 公開日:2023-05-03
# oadat: 標準化画像処理のための実験および合成臨床視音響データ

OADAT: Experimental and Synthetic Clinical Optoacoustic Data for Standardized Image Processing ( http://arxiv.org/abs/2206.08612v2 )

ライセンス: Link先を確認
Firat Ozdemir, Berkan Lafci, Xos\'e Lu\'is De\'an-Ben, Daniel Razansky, Fernando Perez-Cruz(参考訳) オプトアコースティック(OA)イメージングは、ナノ秒レーザーパルスによる生体組織の励起と、光吸収による熱弾性膨張によって発生する超音波の検出に基づいている。 OAイメージングは、豊富な光学コントラストと深部組織における高分解能の強力な組み合わせである。 これにより、臨床と実験室の両方で多くの魅力的な新しい応用が探求できるようになった。 しかし、OAのより広範な臨床応用を促進するために、異なるタイプの実験的なセットアップと関連する処理方法によって生成される標準化データセットは存在しない。 これは、新しいデータ処理方法と確立されたデータ処理方法の客観的な比較を複雑にし、しばしば定性的な結果とデータの任意の解釈をもたらす。 本稿では,実験パラメータとトモグラフィー取得ジオメトリを用いて,実験および合成OA生信号と再構成画像領域データセットの両方を提供する。 さらに, oa画像処理に関連する3つの重要な課題,すなわち, 制限された断層撮影条件下での正確な再構成, 空間的アンサンブルアーティファクトの除去, 画像再構成改善のための解剖学的セグメンテーションに取り組むために, 訓練されたニューラルネットワークを提供する。 具体的には、上記の課題に対応する44の実験を、より高度な処理方法の開発のための参考として使用するベンチマークとして定義する。

Optoacoustic (OA) imaging is based on excitation of biological tissues with nanosecond-duration laser pulses followed by subsequent detection of ultrasound waves generated via light-absorption-mediated thermoelastic expansion. OA imaging features a powerful combination between rich optical contrast and high resolution in deep tissues. This enabled the exploration of a number of attractive new applications both in clinical and laboratory settings. However, no standardized datasets generated with different types of experimental set-up and associated processing methods are available to facilitate advances in broader applications of OA in clinical settings. This complicates an objective comparison between new and established data processing methods, often leading to qualitative results and arbitrary interpretations of the data. In this paper, we provide both experimental and synthetic OA raw signals and reconstructed image domain datasets rendered with different experimental parameters and tomographic acquisition geometries. We further provide trained neural networks to tackle three important challenges related to OA image processing, namely accurate reconstruction under limited view tomographic conditions, removal of spatial undersampling artifacts and anatomical segmentation for improved image reconstruction. Specifically, we define 44 experiments corresponding to the aforementioned challenges as benchmarks to be used as a reference for the development of more advanced processing methods.
翻訳日:2023-05-04 18:49:16 公開日:2023-05-03
# 多項式複雑性をもつスコアベース生成モデルの収束性

Convergence for score-based generative modeling with polynomial complexity ( http://arxiv.org/abs/2206.06227v2 )

ライセンス: Link先を確認
Holden Lee and Jianfeng Lu and Yixin Tan(参考訳) スコアベース生成モデリング(SGM)は、データから確率分布を学習し、さらなるサンプルを生成するために非常に成功した手法である。 sgm の背後にあるコアメカニックに対する最初の多項式収束性を保証する: 確率密度 $p$ が与えられたスコア推定値 ($\nabla \ln p$ の見積もり) からサンプルを抽出し、$l^2(p)$ で正確であることを証明する。 以前の作品と比較して、私たちは指数関数的に増加するエラーや、次元の呪いに苦しむエラーを犯さない。 この保証は任意の滑らかな分布に対して有効であり、その対数ソボレフ定数に依存する。 保証条件を用いて,音階の異なるスコア推定値から,ホワイトノイズ入力をサンプルに変換するスコアベース生成モデルの理論解析を行った。 提案手法は, 熱処理による各工程の温かいスタート点の獲得に要するので, 有効試料の生成には熱処理が必要であるという理論的な根拠を与える。 さらに,予測子補正アルゴリズムは,どちらの部分のみを使用するよりも収束性が良いことを示す。

Score-based generative modeling (SGM) is a highly successful approach for learning a probability distribution from data and generating further samples. We prove the first polynomial convergence guarantees for the core mechanic behind SGM: drawing samples from a probability density $p$ given a score estimate (an estimate of $\nabla \ln p$) that is accurate in $L^2(p)$. Compared to previous works, we do not incur error that grows exponentially in time or that suffers from a curse of dimensionality. Our guarantee works for any smooth distribution and depends polynomially on its log-Sobolev constant. Using our guarantee, we give a theoretical analysis of score-based generative modeling, which transforms white-noise input into samples from a learned data distribution given score estimates at different noise scales. Our analysis gives theoretical grounding to the observation that an annealed procedure is required in practice to generate good samples, as our proof depends essentially on using annealing to obtain a warm start at each step. Moreover, we show that a predictor-corrector algorithm gives better convergence than using either portion alone.
翻訳日:2023-05-04 18:48:55 公開日:2023-05-03
# カーネルによる言語モデルの微調整

A Kernel-Based View of Language Model Fine-Tuning ( http://arxiv.org/abs/2210.05643v3 )

ライセンス: Link先を確認
Sadhika Malladi, Alexander Wettig, Dingli Yu, Danqi Chen, Sanjeev Arora(参考訳) 訓練済み言語モデル(LM)を微調整することで、特に低データ設定でNLPタスクを解決するのが標準になっている。 例えば、数十のトレーニングポイントで10^8$以上のパラメータを持つモデルの微調整が過度に適合しない理由など、経験的成功に関する最小限の理論的な理解がある。 ランダム初期化に適する無限広帯域ネットワークの勾配勾配ダイナミクスの研究モデルであるニューラル・タンジェント・カーネル(NTK)が,事前学習したLMの微調整について検討する。 この研究はコンピュータビジョンタスク(wei et al., 2022)におけるntkの性能に触発されたものである。 我々は、NTKフォーマリズムをAdamに拡張し、テンソルプログラム(Yang, 2020)を使用して、NTKレンズが事前訓練された言語モデルの微調整を記述できる条件を特徴付ける。 14のNLPタスクに対する大規模な実験により、ダウンストリームタスクをマスク付き単語予測問題として定式化することで、微調整中にカーネルベースのダイナミクスをしばしば引き起こすことを示す。 最後に、このカーネルビューを用いてパラメータ効率の高いサブスペースベース微調整法の成功を説明する。

It has become standard to solve NLP tasks by fine-tuning pre-trained language models (LMs), especially in low-data settings. There is minimal theoretical understanding of empirical success, e.g., why fine-tuning a model with $10^8$ or more parameters on a couple dozen training points does not result in overfitting. We investigate whether the Neural Tangent Kernel (NTK) - which originated as a model to study the gradient descent dynamics of infinitely wide networks with suitable random initialization - describes fine-tuning of pre-trained LMs. This study was inspired by the decent performance of NTK for computer vision tasks (Wei et al., 2022). We extend the NTK formalism to Adam and use Tensor Programs (Yang, 2020) to characterize conditions under which the NTK lens may describe fine-tuning updates to pre-trained language models. Extensive experiments on 14 NLP tasks validate our theory and show that formulating the downstream task as a masked word prediction problem through prompting often induces kernel-based dynamics during fine-tuning. Finally, we use this kernel view to propose an explanation for the success of parameter-efficient subspace-based fine-tuning methods.
翻訳日:2023-05-04 18:42:39 公開日:2023-05-03
# CD-FSOD:クロスドメインFew-shotオブジェクト検出のためのベンチマーク

CD-FSOD: A Benchmark for Cross-domain Few-shot Object Detection ( http://arxiv.org/abs/2210.05311v3 )

ライセンス: Link先を確認
Wuti Xiong(参考訳) 本稿では,多種多様なデータ領域の画像データからなるクロスドメイン小ショットオブジェクト検出(CD-FSOD)ベンチマークを提案する。 提案したベンチマークでは,メタラーニングのFSODアプローチや微調整のFSODアプローチなど,最先端のFSODアプローチを評価する。 その結果,これらの手法は転倒する傾向があり,単純な微調整モデルよりも優れていた。 本報告では, 失敗の原因を分析し, オーバーフィッティング問題を緩和するために相互便宜的手法を用いた強力なベースラインを導入する。 提案手法は,提案するベンチマークで有意なマージン(平均2.0\%)で既存手法よりも優れている。 私たちのコードは \url{https://github.com/FSOD/CD-FSOD} で利用可能です。

In this paper, we propose a study of the cross-domain few-shot object detection (CD-FSOD) benchmark, consisting of image data from a diverse data domain. On the proposed benchmark, we evaluate state-of-art FSOD approaches, including meta-learning FSOD approaches and fine-tuning FSOD approaches. The results show that these methods tend to fall, and even underperform the naive fine-tuning model. We analyze the reasons for their failure and introduce a strong baseline that uses a mutually-beneficial manner to alleviate the overfitting problem. Our approach is remarkably superior to existing approaches by significant margins (2.0\% on average) on the proposed benchmark. Our code is available at \url{https://github.com/FSOD/CD-FSOD}.
翻訳日:2023-05-04 18:42:19 公開日:2023-05-03
# 本当の同義語置換攻撃から どこまで?

How Far Are We from Real Synonym Substitution Attacks? ( http://arxiv.org/abs/2210.02844v2 )

ライセンス: Link先を確認
Cheng-Han Chiang and Hung-yi Lee(参考訳) 本稿では, 現実のシノニム置換攻撃(SSAs)からどこまでの距離が遠いか, という課題を考察する。 そこで本研究では,SSAが文中の単語をどう置き換えるかを検証し,現在のSSAが無効な対数サンプルを生成する未解決の障害が存在することを示す。 広く使われている4つの単語置換法は、文法的でない、あるいは原文の意味を保たない、多数の無効な置換語を生成する。 次に,無効な単語置換の検出に用いる意味的制約と文法的制約が,無効な単語置換の検出に極めて不十分であることを示す。 私たちの仕事は、将来より優れたSSAを構築するための重要なステップストーンです。

In this paper, we explore the following question: how far are we from real synonym substitution attacks (SSAs). We approach this question by examining how SSAs replace words in the original sentence and show that there are still unresolved obstacles that make current SSAs generate invalid adversarial samples. We reveal that four widely used word substitution methods generate a large fraction of invalid substitution words that are ungrammatical or do not preserve the original sentence's semantics. Next, we show that the semantic and grammatical constraints used in SSAs for detecting invalid word replacements are highly insufficient in detecting invalid adversarial samples. Our work is an important stepping stone to constructing better SSAs in the future.
翻訳日:2023-05-04 18:41:46 公開日:2023-05-03
# 諸問題:多体絡み合った時間反転型量子力学

Matters Arising: Time-reversal-based quantum metrology with many-body entangled states ( http://arxiv.org/abs/2208.14816v4 )

ライセンス: Link先を確認
Liam P. McGuinness(参考訳) 彼らの論文 "time-reversal-based quantum metrology with many-body entangled states" nature physics (2022), colombo et。 al.は、未知の位相と振動する磁場の両方を、独立粒子(標準量子極限として知られる限界)では達成できない精度で測定すると主張する。 Colomboなど、$\sim300$の原子のアンサンブルを絡める。 al. 既知の初期状態から離れた回転角を測定し、さらに290hzで振動する磁場を測定する。 著者らは、同じ数の独立した原子(それぞれ12.8dBと11.8dB)で可能なものを超える4倍の精度で実験を行った。 これらの主張は誤りである。 コロンボなど。 al. は 300 個の独立粒子に対する精度の上限を超えず、また 1 個の粒子に対する精度の上限を超えることもない。 コロンボなど。 al.は、エンタングルメントを用いて標準量子限界を超えるいくつかの実験を引用している。 引用された各論文は、ここで強調するタイプの不正確、不完全、または誤解を招く比較を行います。 その結果、単一粒子の精度境界が絡み合いによって実験的に超えることはなかった。

In their paper "Time-reversal-based quantum metrology with many-body entangled states" Nature Physics (2022), Colombo et. al. claim to measure both an unknown phase and an oscillating magnetic field with a precision that cannot be achieved using independent particles - a limit known as the standard quantum limit. By entangling an ensemble of $\sim300$ atoms, Colombo et. al. measure an angle of rotation away from a known initial state and additionally measure a magnetic field oscillating at 290 Hz. The authors report an experimental precision approximately a factor of 4 beyond what is possible with the same number of independent atoms (12.8 dB and 11.8 dB for these tasks respectively). These claims are incorrect. Colombo et. al. do not surpass the precision bound for 300 independent particles, nor do they even surpass the precision bound for a single particle. Colombo et. al. cite several experiments that surpass the standard quantum limit using entanglement. Each and every paper cited performs incorrect, incomplete or misleading comparisons of the type that we highlight here. The consequence being that the single particle precision bound has never been experimentally surpassed with entanglement.
翻訳日:2023-05-04 18:40:12 公開日:2023-05-03
# クロスモーダルニューラルモデルによる低リソース音楽ジャンル分類

Low-Resource Music Genre Classification with Cross-Modal Neural Model Reprogramming ( http://arxiv.org/abs/2211.01317v3 )

ライセンス: Link先を確認
Yun-Ning Hung, Chao-Han Huck Yang, Pin-Yu Chen, Alexander Lerch(参考訳) 伝達学習(TL)アプローチは、限られたトレーニングデータでタスクを処理する際に有望な結果を示している。 しかし、トレーニング済みのニューラルネットワークをターゲットのドメインデータで微調整するためには、かなりのメモリと計算資源が必要とされることが多い。 本稿では,ニューラル・モデル・リプログラミング(NMR)の概念に基づく低リソース(音楽)分類のための事前学習モデルを活用する新しい手法を提案する。 NMRは、凍結した事前学習モデルの入力を変更することにより、ソースドメインからターゲットドメインへの事前学習モデルの再取得を目指している。 入力非依存のリプログラミング手法に加えて、音楽オーディオなどの複雑な入力データへの適応性を高めるために、入力依存nmrという高度なリプログラミングパラダイムを提案する。 実験結果から,大規模データセットに事前学習したニューラルモデルは,この再プログラミング手法を用いて,音楽ジャンルの分類に成功できることが示唆された。 2つの入力依存型NMR TL法は、小さなジャンル分類データセット上で微調整型TL法より優れている。

Transfer learning (TL) approaches have shown promising results when handling tasks with limited training data. However, considerable memory and computational resources are often required for fine-tuning pre-trained neural networks with target domain data. In this work, we introduce a novel method for leveraging pre-trained models for low-resource (music) classification based on the concept of Neural Model Reprogramming (NMR). NMR aims at re-purposing a pre-trained model from a source domain to a target domain by modifying the input of a frozen pre-trained model. In addition to the known, input-independent, reprogramming method, we propose an advanced reprogramming paradigm: Input-dependent NMR, to increase adaptability to complex input data such as musical audio. Experimental results suggest that a neural model pre-trained on large-scale datasets can successfully perform music genre classification by using this reprogramming method. The two proposed Input-dependent NMR TL methods outperform fine-tuning-based TL methods on a small genre classification dataset.
翻訳日:2023-05-04 18:32:43 公開日:2023-05-03
# 位置依存質量背景における半無限量子井戸

Semi-infinite quantum wells in a position-dependent mass background ( http://arxiv.org/abs/2210.15502v2 )

ライセンス: Link先を確認
C. Quesne(参考訳) モースポテンシャルに対する定数-質量 schr\"odinger 方程式を出発点とする点正準変換を用いることにより、位置の負の値に対して無限となる位置依存質量に付随する非正則プロファイルを持つ半無限の量子井戸モデルを容易に導出できることが示される。 さらに、同じ位置依存質量に関連付けられた別のタイプの半無限量子井戸を、モースポテンシャルの代わりにローゼンモースiiポテンシャルから開始して構築し、解く。

By using a point canonical transformation starting from the constant-mass Schr\"odinger equation for the Morse potential, it is shown that a semi-infinite quantum well model with a non-rectangular profile associated with a position-dependent mass that becomes infinite for some negative value of the position, while going to a constant for a large positive value of the latter, can be easily derived. In addition, another type of semi-infinite quantum well associated with the same position-dependent mass is constructed and solved by starting from the Rosen-Morse II potential instead of the Morse one.
翻訳日:2023-05-04 18:32:07 公開日:2023-05-03
# 双対ユニタリティから一般量子作用素の拡散へ

From Dual Unitarity to Generic Quantum Operator Spreading ( http://arxiv.org/abs/2210.13490v3 )

ライセンス: Link先を確認
Michael A. Rampp, Roderich Moessner, and Pieter W. Claeys(参考訳) デュアルユニタリ回路は、正確に解けるがカオス的な量子多体系のパラダイム的な例であるが、可解性は自然に非ジェネリックな振る舞いの程度に沿っている。 弱破壊双対性が局所作用素の拡散に及ぼす影響を調べることにより、双対性からの小さな偏差が完全総称多体力学を回復するかどうか、どのようにして研究する。 本稿では, 時間外相関器の離散経路積分式を提案し, 光円錐速度より小さいバタフライ速度を回復するために, $v_B < v_{LC}$ と, 2単位回路力学に欠落するエルゴード量子スピン鎖の2つの一般的な特徴である拡散的に拡大する演算子フロントについて述べる。 蝶の速度と拡散定数は微小な量の小さな集合によって決定され、ゲートのオペレータの絡み合いが重要な役割を担っていることが判明した。

Dual-unitary circuits are paradigmatic examples of exactly solvable yet chaotic quantum many-body systems, but solvability naturally goes along with a degree of non-generic behaviour. By investigating the effect of weakly broken dual-unitarity on the spreading of local operators we study whether, and how, small deviations from dual-unitarity recover fully generic many-body dynamics. We present a discrete path-integral formula for the out-of-time-order correlator and use it to recover a butterfly velocity smaller than the light-cone velocity, $v_B < v_{LC}$ , and a diffusively broadening operator front, two generic features of ergodic quantum spin chains absent in dual-unitary circuit dynamics. We find that the butterfly velocity and diffusion constant are determined by a small set of microscopic quantities and that the operator entanglement of the gates plays a crucial role.
翻訳日:2023-05-04 18:31:39 公開日:2023-05-03
# MIXER:不確実なペアワイド親和性のマルチ属性・マルチウェイ融合

MIXER: Multiattribute, Multiway Fusion of Uncertain Pairwise Affinities ( http://arxiv.org/abs/2210.08360v2 )

ライセンス: Link先を確認
Parker C. Lusk, Kaveh Fathian, Jonathan P. How(参考訳) 本稿では,不確定な対関係を直接処理できるマルチウェイ融合アルゴリズムを提案する。 最初のペアワイズ関係を必要とする既存の作業とは対照的に、ミキサーアルゴリズムはペアワイズアフィニティによって提供される追加情報を利用して精度を向上させる。 我々の主な貢献は、非二項親和性処理に特に適するマルチウェイ融合の定式化と、解が二項であると保証される新しい連続緩和であり、そのため、実現不可能を引き起こす可能性のある典型的な、潜在的に問題のある解双項化ステップを避けることである。 私たちの定式化の重要な洞察は、不一致、未決定、一致の3つのモードを可能にすることです。 この洞察をエクスプロイトすることで、複数の属性/情報ソースとの融合に有効な機能である、より多くの情報が手に入るまで、データペアの融合を遅らせることができる。 本研究では,典型的な合成データとベンチマークデータセットを用いたミキサーの評価を行い,多方向マッチングにおいて,特に観測冗長性の低い雑音環境において,その技術に対する精度が向上することを示す。 さらに,駐車場内の車両のrgbデータを収集し,複数の属性(色,視覚的外観,バウンディングボックス)を持つデータをミキサーが融合する能力を示す。 この困難なデータセットでは、mixerは74%のf1精度を達成し、次の最良のアルゴリズムよりも49倍高速である。 ソースコードはhttps://github.com/mit-acl/mixerで入手できる。

We present a multiway fusion algorithm capable of directly processing uncertain pairwise affinities. In contrast to existing works that require initial pairwise associations, our MIXER algorithm improves accuracy by leveraging the additional information provided by pairwise affinities. Our main contribution is a multiway fusion formulation that is particularly suited to processing non-binary affinities and a novel continuous relaxation whose solutions are guaranteed to be binary, thus avoiding the typical, but potentially problematic, solution binarization steps that may cause infeasibility. A crucial insight of our formulation is that it allows for three modes of association, ranging from non-match, undecided, and match. Exploiting this insight allows fusion to be delayed for some data pairs until more information is available, which is an effective feature for fusion of data with multiple attributes/information sources. We evaluate MIXER on typical synthetic data and benchmark datasets and show increased accuracy against the state of the art in multiway matching, especially in noisy regimes with low observation redundancy. Additionally, we collect RGB data of cars in a parking lot to demonstrate MIXER's ability to fuse data having multiple attributes (color, visual appearance, and bounding box). On this challenging dataset, MIXER achieves 74% F1 accuracy and is 49x faster than the next best algorithm, which has 42% accuracy. Open source code is available at https://github.com/mit-acl/mixer.
翻訳日:2023-05-04 18:30:49 公開日:2023-05-03
# グラフニューラルネットワークの改良: 高周波ブースター

Improving Your Graph Neural Networks: A High-Frequency Booster ( http://arxiv.org/abs/2210.08251v2 )

ライセンス: Link先を確認
Jiaqi Sun, Lin Zhang, Shenglin Zhao, Yujiu Yang(参考訳) グラフニューラルネットワーク(gnns)は、グラフ構造化データの効率的な表現の学習を約束しており、その最も重要な応用の1つは半教師付きノード分類である。 しかし、このアプリケーションでは、過剰なスムースとヘテロフィリーという問題のためにGNNフレームワークは失敗する傾向にある。 最も人気のあるGNNはメッセージパッシングフレームワークに焦点を当てていることが知られており、近年の研究により、これらのGNNは信号処理の観点からローパスフィルタによってバウンドされることがしばしば示されている。 そこで我々は,gnnに高周波情報を組み込んで遺伝的問題を緩和する。 本稿では,元のグラフの補グラフにハイパスフィルタが組み込まれ,高周波数成分の効率向上を目的とした補完ラプラシアン正規化(CLAR)を提案する。 実験の結果、CLARはGNNが過剰な平滑化に取り組み、異種グラフの表現性を向上し、一般的なベースラインよりも最大3.6%改善し、トポロジカルロバスト性を確保することが示されている。

Graph neural networks (GNNs) hold the promise of learning efficient representations of graph-structured data, and one of its most important applications is semi-supervised node classification. However, in this application, GNN frameworks tend to fail due to the following issues: over-smoothing and heterophily. The most popular GNNs are known to be focused on the message-passing framework, and recent research shows that these GNNs are often bounded by low-pass filters from a signal processing perspective. We thus incorporate high-frequency information into GNNs to alleviate this genetic problem. In this paper, we argue that the complement of the original graph incorporates a high-pass filter and propose Complement Laplacian Regularization (CLAR) for an efficient enhancement of high-frequency components. The experimental results demonstrate that CLAR helps GNNs tackle over-smoothing, improving the expressiveness of heterophilic graphs, which adds up to 3.6% improvement over popular baselines and ensures topological robustness.
翻訳日:2023-05-04 18:30:24 公開日:2023-05-03
# 量子ワーク分布のエントロピー

Entropy of the quantum work distribution ( http://arxiv.org/abs/2210.07896v2 )

ライセンス: Link先を確認
Anthony Kiely, Eoin O'Connor, Thom\'as Fogarty, Gabriel T. Landi, Steve Campbell(参考訳) 量子系における仕事の統計は、2点測定方式で定量化することができる。 ワーク分布のシャノンエントロピーは、初期対角エントロピーに依存する一般的な上限と、コヒーレンスの相対エントロピーに関連する純粋量子項をどのように認めるかを示す。 このアプローチは、様々な設定で基礎となる物理の強いシグネチャを捉えていることを実証する。 特に, aubry-andr\e-harperモデルに関する詳細な研究を行い, 作業分布のエントロピーが, 統計的瞬間から明らかでない局在遷移の物理を非常に明確に伝達することを示した。

The statistics of work done on a quantum system can be quantified by the two-point measurement scheme. We show how the Shannon entropy of the work distribution admits a general upper bound depending on the initial diagonal entropy, and a purely quantum term associated to the relative entropy of coherence. We demonstrate that this approach captures strong signatures of the underlying physics in a diverse range of settings. In particular, we carry out a detailed study of the Aubry-Andr\'e-Harper model and show that the entropy of the work distribution conveys very clearly the physics of the localization transition, which is not apparent from the statistical moments.
翻訳日:2023-05-04 18:30:05 公開日:2023-05-03
# Recommenderシステムにおける言語モデリングのPivotalの役割:タスク特化学習とタスク非依存表現学習の強化

Pivotal Role of Language Modeling in Recommender Systems: Enriching Task-specific and Task-agnostic Representation Learning ( http://arxiv.org/abs/2212.03760v3 )

ライセンス: Link先を確認
Kyuyong Shin, Hanock Kwak, Wonjae Kim, Jisu Jeong, Seungjae Jung, Kyung-Min Kim, Jung-Woo Ha, Sang-Woo Lee(参考訳) 近年,様々なアプリケーションのユーザ行動データを活用する統合ユーザモデリングフレームワークが提案されている。 それらの多くは、ユーザの振る舞いシーケンスをプレーンテキストとして利用することで、一般性を失うことなく、任意のドメインやシステム内のリッチな情報を表現することができる。 ユーザ履歴コーパスのための言語モデリングは、レコメンダシステムを改善するのに役立つか? その汎用性は、多くのドメインで広く研究されてきたが、レコメンデーションシステムへの応用は、まだ未検討のままである。 タスク固有のユーザ履歴に直接適用される言語モデリングは,様々なレコメンデーションタスクにおいて優れた結果が得られることを示す。 また、追加のタスクに依存しないユーザ履歴を利用することで、大きなパフォーマンス上のメリットが得られます。 さらに,本手法は,未確認領域やサービスにおいても,幅広い実世界のレコメンデータシステムに対して,有望な伝達学習能力を提供できることを示す。

Recent studies have proposed unified user modeling frameworks that leverage user behavior data from various applications. Many of them benefit from utilizing users' behavior sequences as plain texts, representing rich information in any domain or system without losing generality. Hence, a question arises: Can language modeling for user history corpus help improve recommender systems? While its versatile usability has been widely investigated in many domains, its applications to recommender systems still remain underexplored. We show that language modeling applied directly to task-specific user histories achieves excellent results on diverse recommendation tasks. Also, leveraging additional task-agnostic user histories delivers significant performance benefits. We further demonstrate that our approach can provide promising transfer learning capabilities for a broad spectrum of real-world recommender systems, even on unseen domains and services.
翻訳日:2023-05-04 18:23:56 公開日:2023-05-03
# Comic:(Multi-)Omicsデータを用いたエンドツーエンド学習のための畳み込みカーネルネットワーク

COmic: Convolutional Kernel Networks for Interpretable End-to-End Learning on (Multi-)Omics Data ( http://arxiv.org/abs/2212.02504v2 )

ライセンス: Link先を確認
Jonas C. Ditz, Bernhard Reuter, Nico Pfeifer(参考訳) モチベーション:近年の技術進歩に伴い、利用可能なオミクスデータセットのサイズは着実に増加している。 このサンプルサイズの増加は、医療における関連する予測タスクのパフォーマンス向上に有効だが、大規模なデータセットに最適化されたモデルは、通常はブラックボックスとして動作する。 医療のようなリスクの高いシナリオでは、ブラックボックスモデルを使うことは安全性とセキュリティの問題を引き起こす。 予測に影響を及ぼす分子要因や表現型についての説明がなければ、医療提供者はモデルに盲目的に信頼するしかない。 我々は,畳み込みOmics Kernel Network (COmic) と呼ばれる新しいタイプの人工ニューラルネットワークを提案する。 畳み込み型カーネルネットワークと経路誘導型カーネルを組み合わせることで、数百から数十万のサンプルから数百から数十万のオミックデータセットの堅牢で解釈可能なエンドツーエンド学習を可能にする。 さらに、COmicはマルチオミクスデータに容易に適応できる。 結果:6種類の乳癌コホートに対するCOmicの性能評価を行った。 さらに,METABRICコホートを用いたマルチオミクスデータに基づくCOmicモデルの訓練を行った。 私たちのモデルでは、両方のタスクで競合とよく似たパフォーマンスをしました。 経路誘起ラプラシア核の使用がニューラルネットワークのブラックボックスの性質をいかに開き、本質的に解釈可能なモデルとなり、ポストホックな説明モデルの必要性がなくなるかを示す。

Motivation: The size of available omics datasets is steadily increasing with technological advancement in recent years. While this increase in sample size can be used to improve the performance of relevant prediction tasks in healthcare, models that are optimized for large datasets usually operate as black boxes. In high stakes scenarios, like healthcare, using a black-box model poses safety and security issues. Without an explanation about molecular factors and phenotypes that affected the prediction, healthcare providers are left with no choice but to blindly trust the models. We propose a new type of artificial neural network, named Convolutional Omics Kernel Network (COmic). By combining convolutional kernel networks with pathway-induced kernels, our method enables robust and interpretable end-to-end learning on omics datasets ranging in size from a few hundred to several hundreds of thousands of samples. Furthermore, COmic can be easily adapted to utilize multi-omics data. Results: We evaluated the performance capabilities of COmic on six different breast cancer cohorts. Additionally, we trained COmic models on multi-omics data using the METABRIC cohort. Our models performed either better or similar to competitors on both tasks. We show how the use of pathway-induced Laplacian kernels opens the black-box nature of neural networks and results in intrinsically interpretable models that eliminate the need for post-hoc explanation models.
翻訳日:2023-05-04 18:23:41 公開日:2023-05-03
# 原子構造同定のためのスコアベースDenoising

Score-based denoising for atomic structure identification ( http://arxiv.org/abs/2212.02421v3 )

ライセンス: Link先を確認
Tim Hsu, Babak Sadigh, Nicolas Bertin, Cheol Woo Park, James Chapman, Vasily Bulatov, Fei Zhou(参考訳) 本研究では, 凝縮物質の原子論的シミュレーションにおいて, 複雑な力学解析を複雑に行う熱振動の除去方法を提案する。 提案手法は, 合成雑音の結晶格子上で学習したデノナイジングスコア関数を用いて, 原子位置の熱雑音や摂動を反復的に減算する。 結果として生じる分極構造は、結晶欠陥に関連する障害を維持しながら、下層の結晶秩序を明らかにする。 純粋に幾何学的であり、原子間ポテンシャルに無依存であり、明示的なシミュレーションからの入力なしで訓練された我々のデノイザーは、非常に異なる原子間相互作用から生成されるシミュレーションデータに適用することができる。 このデノイザは, 融点までの熱摂動構造のベンチマークデータセットにおいて, 一般的な隣り合う解析や多面体テンプレートマッチングなどの既存の分類法の改善を図っている。 ここでの多種多様な原子論的シミュレーションの文脈で示されるデノイザーは、構造的および化学的に複雑な物質の乱れから秩序を導くために、一般的で堅牢であり、容易に拡張できる。

We propose an effective method for removing thermal vibrations that complicate the task of analyzing complex dynamics in atomistic simulation of condensed matter. Our method iteratively subtracts thermal noises or perturbations in atomic positions using a denoising score function trained on synthetically noised but otherwise perfect crystal lattices. The resulting denoised structures clearly reveal underlying crystal order while retaining disorder associated with crystal defects. Purely geometric, agnostic to interatomic potentials, and trained without inputs from explicit simulations, our denoiser can be applied to simulation data generated from vastly different interatomic interactions. The denoiser is shown to improve existing classification methods such as common neighbor analysis and polyhedral template matching, reaching perfect classification accuracy on a recent benchmark dataset of thermally perturbed structures up to the melting point. Demonstrated here in a wide variety of atomistic simulation contexts, the denoiser is general, robust, and readily extendable to delineate order from disorder in structurally and chemically complex materials.
翻訳日:2023-05-04 18:23:19 公開日:2023-05-03
# 第二種表面コード

A Genus-two Surface Code ( http://arxiv.org/abs/2211.12695v4 )

ライセンス: Link先を確認
Komal Kumari, Garima Rajpoot, Sudhir Ranjan Jain(参考訳) 両面曲面符号は, 翼状タイルを用いて平面テッセルレーションを用いて構成する。 nデータキュービットでは、少なくともn/3論理キュービットや量子メモリをエンコードすることができます。 タイルの適切な配置により、コードはより大きな距離を達成し、重大なエラー訂正能力をもたらす。 本研究では,外部雑音の存在下で得られる論理量子ビットのロバスト性を示す。 ここで提示されるコードの最適性は、効率的なスケーラブルアーキテクチャ設計の道を開くものだと考えています。

We construct a double-toric surface code by exploiting the planar tessellation using a rhombus-shaped tile. With n data qubits, we are able to encode at least n/3 logical qubits or quantum memories. By a suitable arrangement of the tiles, the code achieves larger distances, leading to significant error-correcting capability. We demonstrate the robustness of the logical qubits thus obtained in the presence of external noise. We believe that the optimality of the code presented here will pave the way for design of efficient scalable architectures.
翻訳日:2023-05-04 18:22:25 公開日:2023-05-03
# ステアリング角予測のための緑と注意対応ソリューションを目指して

Towards Greener and Attention-aware Solutions for Steering Angle Prediction ( http://arxiv.org/abs/2211.11133v2 )

ライセンス: Link先を確認
Pramiti Barua, Jeremy C. Hagler, David J. Lamb, Qing Tian(参考訳) 本稿では,操舵角予測の自律運転タスクにおいて,ディープニューラルアーキテクチャ(resnetsとinceptionnets)の2つの最もポピュラーなファミリーについて検討する。 この研究は、インセプションアーキテクチャが、自律運転タスクの複雑さの少ないresnetアーキテクチャよりも、あるいは時には優れているという予備的な証拠を提供する。 我々の焦点は、複雑性スペクトルのコンパクトな終端にある。 コンパクトニューラルネットワークアーキテクチャは、二酸化炭素排出量が少なく、環境に優しい。 結果を比較するために、コンパクトresnetとinceptionnetモデルの様々なサイズを調べます。 我々の導出したモデルは、操舵角度MSEの観点で最先端の結果を得ることができる。 また,注意機構を探究し,操舵角度予測への影響について検討した。

In this paper, we investigate the two most popular families of deep neural architectures (i.e., ResNets and InceptionNets) for the autonomous driving task of steering angle prediction. This work provides preliminary evidence that Inception architectures can perform as well or sometimes better than ResNet architectures with less complexity for the autonomous driving task. Our focus is on the compact end of the complexity spectrum. Compact neural network architectures produce less carbon emissions and are thus more environmentally friendly. We look at various sizes of compact ResNet and InceptionNet models to compare results. Our derived models can achieve state-of-the-art results in terms of steering angle MSE. In addition, we also explore the attention mechanism and investigate its influence on steering angle prediction.
翻訳日:2023-05-04 18:22:18 公開日:2023-05-03
# 生体認証のための少数ショット学習

Few-Shot Learning for Biometric Verification ( http://arxiv.org/abs/2211.06761v2 )

ライセンス: Link先を確認
Saad Bin Ahmed, Umaid M. Zaffar, Marium Aslam and Muhammad Imran Malik(参考訳) 機械学習アプリケーションでは、できるだけ多くの情報を供給することが一般的である。 ほとんどの場合、モデルはより正確に予測できる大規模なデータセットを扱うことができる。 データ不足の存在下では、Few-Shot Learning(FSL)アプローチは、トレーニングデータに制限のあるより正確なアルゴリズムを構築することを目的としている。 本稿では,Few-Shot 学習手法による最先端のアキュラシーと比較し,バイオメトリックスデータの検証を行う,新しいエンドツーエンド軽量アーキテクチャを提案する。 高密度層は最先端のディープラーニングモデルの複雑さを増し、低消費電力アプリケーションでの使用を阻害する。 提案するアプローチでは、浅層ネットワークと従来の機械学習手法を組み合わせることで、手作りの機能を活用し、シグネチャ、眼窩領域、虹彩、顔、指紋など、マルチモーダルソースからのバイオメトリックイメージを検証する。 本研究では,False Acceptance Rate (FAR) を厳格に監視する自己推定しきい値を導入し,その結果を一般化し,ローカルデータ分布に偏りやすいROC曲線からユーザ定義しきい値を排除する。 このハイブリッドモデルは、バイオメトリックユースケースにおけるデータの不足を補うために、数ショットの学習の恩恵を受ける。 汎用バイオメトリックデータセットを用いた広範囲な実験を行った。 その結果,生体認証システムに対する有効解が得られた。

In machine learning applications, it is common practice to feed as much information as possible. In most cases, the model can handle large data sets that allow to predict more accurately. In the presence of data scarcity, a Few-Shot learning (FSL) approach aims to build more accurate algorithms with limited training data. We propose a novel end-to-end lightweight architecture that verifies biometric data by producing competitive results as compared to state-of-the-art accuracies through Few-Shot learning methods. The dense layers add to the complexity of state-of-the-art deep learning models which inhibits them to be used in low-power applications. In presented approach, a shallow network is coupled with a conventional machine learning technique that exploits hand-crafted features to verify biometric images from multi-modal sources such as signatures, periocular region, iris, face, fingerprints etc. We introduce a self-estimated threshold that strictly monitors False Acceptance Rate (FAR) while generalizing its results hence eliminating user-defined thresholds from ROC curves that are likely to be biased on local data distribution. This hybrid model benefits from few-shot learning to make up for scarcity of data in biometric use-cases. We have conducted extensive experimentation with commonly used biometric datasets. The obtained results provided an effective solution for biometric verification systems.
翻訳日:2023-05-04 18:21:51 公開日:2023-05-03
# エゴセントリックな騒音抑制

Egocentric Audio-Visual Noise Suppression ( http://arxiv.org/abs/2211.03643v2 )

ライセンス: Link先を確認
Roshan Sharma, Weipeng He, Ju Lin, Egor Lakomkin, Yang Liu and Kaustubh Kalgaonkar(参考訳) 本稿では,エゴセントリックビデオにおける音声・視覚ノイズの抑制について検討する。 代わりに、潜在的なノイズ源はスクリーン上に見え、カメラは外界のオフスクリーンスピーカーのビューをエミュレートする。 この設定は、唇と顔面の視覚に依存する音声・視覚強調の以前の作業とは異なる。 本稿では,エゴセントリックな視覚情報が雑音抑制に有効であることを示す。 オブジェクト認識と行動分類に基づく視覚特徴抽出器を比較し,音声および視覚表現の整合性を検討する。 そこで,同調した特徴に対する異なる融合戦略と騒音抑制モデル内の位置について検討し,視覚情報を取り入れた。 実験により、視覚機能は補正マスクの生成に最も有用であることが示されている。 最後に,様々なノイズタイプに対して視覚的な特徴が判別可能であることを保証するため,音声-視覚雑音抑圧と映像に基づく音響イベント検出を共同で最適化するマルチタスク学習フレームワークを提案する。 このマルチタスクフレームワークは、0.16 pesqの改善を含む、すべてのメトリクスでオーディオのみのベースラインを上回っている。 複数のアクティブなイントラクタ、全体的なノイズタイプ、および異なるSNRをまたいだモデルの性能向上を示す。

This paper studies audio-visual noise suppression for egocentric videos -- where the speaker is not captured in the video. Instead, potential noise sources are visible on screen with the camera emulating the off-screen speaker's view of the outside world. This setting is different from prior work in audio-visual speech enhancement that relies on lip and facial visuals. In this paper, we first demonstrate that egocentric visual information is helpful for noise suppression. We compare object recognition and action classification-based visual feature extractors and investigate methods to align audio and visual representations. Then, we examine different fusion strategies for the aligned features, and locations within the noise suppression model to incorporate visual information. Experiments demonstrate that visual features are most helpful when used to generate additive correction masks. Finally, in order to ensure that the visual features are discriminative with respect to different noise types, we introduce a multi-task learning framework that jointly optimizes audio-visual noise suppression and video-based acoustic event detection. This proposed multi-task framework outperforms the audio-only baseline on all metrics, including a 0.16 PESQ improvement. Extensive ablations reveal the improved performance of the proposed model with multiple active distractors, overall noise types, and across different SNRs.
翻訳日:2023-05-04 18:21:28 公開日:2023-05-03
# 高精細空洞におけるエンタングルメント強化物質波干渉計

Matters Arising: Entanglement-enhanced matter-wave interferometry in a high-finesse cavity ( http://arxiv.org/abs/2301.04396v2 )

ライセンス: Link先を確認
Liam P. McGuinness(参考訳) 彼らの論文"interanglement-enhanced matter-wave interferometry in a high-finessecavity"(2022年)の中で、griveらはこのように述べている。 al.は、標準量子極限(SQL)として知られる、同じ数の独立粒子で達成できる以上の感度を達成するために、物質波干渉計で絡み合いを使用すると主張している。 特に700個の原子の圧縮運動量状態を用いて、著者らはSQLの下の感度3.4dB(1.5倍)を直接観測すると主張している。 この主張は誤りだ。 著者らはSQL以外のものは測定せず、単一の原子で得られるもの以上の感度も達成していない。 達成された感度は、請求値よりも少なくとも39の因子である。

In their paper "Entanglement-enhanced matter-wave interferometry in a high-finesse cavity" Nature (2022), Greve et. al. claim to use entanglement in a matter-wave interferometer to achieve a sensitivity beyond that achievable with the same number of independent particles -- a limit known as the standard quantum limit (SQL). In particular, using squeezed momentum states of 700 atoms, the authors claim to directly observe a sensitivity 3.4 dB (a factor of 1.5) below the SQL. This claim is incorrect. The authors do not measure anything beyond the SQL, nor do they achieve a sensitivity beyond what one could obtain with a single atom. The achieved sensitivity is at least a factor of 39 worse than the claimed value.
翻訳日:2023-05-04 18:13:52 公開日:2023-05-03
# 変分基底状態エンコーダによる電子フォノン系の効率的な量子シミュレーション

Efficient Quantum Simulation of Electron-Phonon Systems by Variational Basis State Encoder ( http://arxiv.org/abs/2301.01442v2 )

ライセンス: Link先を確認
Weitang Li, Jiajun Ren, Sainan Huai, Tianqi Cai, Zhigang Shuai, Shengyu Zhang(参考訳) 電子フォノン系のデジタル量子シミュレーションでは、無限フォノン準位をn$基底状態に切り換え、量子ビット計算基底でエンコードする必要がある。 ユニタリ符号化とよりコンパクトなバイナリ/Gray符号化は、それぞれ$\mathcal{O}(N)$と$\mathcal{O}(\log{N})$ qubitsと$\mathcal{O}(N)$と$\mathcal{O}(N\log{N})$量子ゲートを要求する2つの最も代表的な符号化スキームである。 本研究では,エンタングルメントエントロピーの領域法則に従うシステムに対して,量子ビット数と量子ゲート数のスケーリングを$\mathcal{O}(1)$に削減する変動基底状態符号化アルゴリズムを提案する。 スケーリング削減のコストは、付加的な測定の一定量である。 このアプローチの精度と効率は、数値シミュレーションと現実的な量子ハードウェア実験の両方によって検証される。 特に、各フォノンモードに1つまたは2つの量子ビットを用いると、弱い結合状態と強い結合状態にまたがって定量的に正しい結果が得られる。 提案手法は,短期ハードウェアおよび誤り訂正量子コンピュータ上での電子フォノンシステムの実用的な量子シミュレーション手法である。

Digital quantum simulation of electron-phonon systems requires truncating infinite phonon levels into $N$ basis states and then encoding them with qubit computational basis. Unary encoding and the more compact binary/Gray encoding are the two most representative encoding schemes, which demand $\mathcal{O}(N)$ and $\mathcal{O}(\log{N})$ qubits as well as $\mathcal{O}(N)$ and $\mathcal{O}(N\log{N})$ quantum gates respectively. In this work, we propose a variational basis state encoding algorithm that reduces the scaling of the number of qubits and quantum gates to both $\mathcal{O}(1)$ for systems obeying the area law of entanglement entropy. The cost for the scaling reduction is a constant amount of additional measurement. The accuracy and efficiency of the approach are verified by both numerical simulation and realistic quantum hardware experiments. In particular, we find using one or two qubits for each phonon mode is sufficient to produce quantitatively correct results across weak and strong coupling regimes. Our approach paves the way for practical quantum simulation of electron-phonon systems on both near-term hardware and error-corrected quantum computers.
翻訳日:2023-05-04 18:13:41 公開日:2023-05-03
# 2相同心噴流の深層学習とモード分解による予測

Forecasting through deep learning and modal decomposition in two-phase concentric jets ( http://arxiv.org/abs/2212.12731v2 )

ライセンス: Link先を確認
Le\'on Mata, Rodrigo Abad\'ia-Heredia, Manuel Lopez-Martin, Jos\'e M. P\'erez, Soledad Le Clainche(参考訳) 本研究は, ターボファンエンジンにおける燃料室噴射器の性能向上を目的としている。 これは、燃料/空気混合物のリアルタイム予測と改善を可能にするモデルの開発を必要とする。 しかし、これまで実施されてきた研究は、実験データ(測定に要する)や完全な問題の数値解法(計算的に禁止される)を用いる。 後者は偏微分方程式系(PDE)の分解を含む。 これらの問題はリアルタイム予測ツールの開発を困難にしている。 そこで本研究では,二相流における混合過程を推定するために,連接不連続の存在下での単相流数値シミュレーションと併用した機械学習の利用を提案する。 この意味において,提案する2つのニューラルネットワーク(nn)モデルのpdeサロゲートモデルへの適用について検討する。 将来のダイナミクスはNNによって予測されるが、いくつかの予備的な情報がある。 これらのモデルが必要とする計算コストの低さを,トレーニングフェーズと推論フェーズの両方で示す。 また,高次動的モード分解(hodmd)と呼ばれるモーダル分解手法によって,フローダイナミクス内の主構造を識別し,これら主構造のみを用いて元のフローを再構築することで,データの複雑さを低減し,nnトレーニングを改善する方法を示す。 この再構成は元のフローと同じ数のサンプルと空間次元を持つが、より複雑なダイナミクスを持ち、主な特徴を保っている。 この研究の核となるアイデアは、複雑な流体力学問題におけるデータ予測へのディープラーニングモデルの適用可能性の限界をテストすることである。 4つの異なる二相流の将来ダイナミクスを予測するために、同じnnアーキテクチャを用いて、モデルの一般化能力を示す。

This work aims to improve fuel chamber injectors' performance in turbofan engines, thus implying improved performance and reduction of pollutants. This requires the development of models that allow real-time prediction and improvement of the fuel/air mixture. However, the work carried out to date involves using experimental data (complicated to measure) or the numerical resolution of the complete problem (computationally prohibitive). The latter involves the resolution of a system of partial differential equations (PDE). These problems make difficult to develop a real-time prediction tool. Therefore, in this work, we propose using machine learning in conjunction with (complementarily cheaper) single-phase flow numerical simulations in the presence of tangential discontinuities to estimate the mixing process in two-phase flows. In this meaning we study the application of two proposed neural network (NN) models as PDE surrogate models. Where the future dynamics is predicted by the NN, given some preliminary information. We show the low computational cost required by these models, both in their training and inference phases. We also show how NN training can be improved by reducing data complexity through a modal decomposition technique called higher order dynamic mode decomposition (HODMD), which identifies the main structures inside flow dynamics and reconstructs the original flow using only these main structures. This reconstruction has the same number of samples and spatial dimension as the original flow, but with a less complex dynamics and preserving its main features. The core idea of this work is to test the limits of applicability of deep learning models to data forecasting in complex fluid dynamics problems. Generalization capabilities of the models are demonstrated by using the same NN architectures to forecast the future dynamics of four different two-phase flows.
翻訳日:2023-05-04 18:13:03 公開日:2023-05-03
# 文字認識モデルによるビジュアルテキストレンダリングの改善

Character-Aware Models Improve Visual Text Rendering ( http://arxiv.org/abs/2212.10562v2 )

ライセンス: Link先を確認
Rosanne Liu, Dan Garrette, Chitwan Saharia, William Chan, Adam Roberts, Sharan Narang, Irina Blok, RJ Mical, Mohammad Norouzi, Noah Constant(参考訳) 現在の画像生成モデルは、よく形成されたビジュアルテキストを確実に生成するのに苦労している。 一般的なテキストから画像へのモデルには文字レベルの入力機能がないため、単語の視覚的な構成を一連のグリフとして予測するのがずっと困難である。 この効果を定量化するために,文字認識と文字認識テキストエンコーダの比較実験を行った。 テキストのみのドメインでは、文字認識モデルは新しいスペルタスク(WikiSpell)に大きな利益をもたらす。 学習を視覚領域に適用し、画像生成モデルをトレーニングし、文字認識の変種が、新しいテキストレンダリングタスク(DrawTextベンチマーク)の範囲で、文字認識の変種よりも優れていることを示す。 われわれのモデルはビジュアルスペルの精度をはるかに高く設定し、稀な単語の競合よりも30ポイント以上精度が向上した。

Current image generation models struggle to reliably produce well-formed visual text. In this paper, we investigate a key contributing factor: popular text-to-image models lack character-level input features, making it much harder to predict a word's visual makeup as a series of glyphs. To quantify this effect, we conduct a series of experiments comparing character-aware vs. character-blind text encoders. In the text-only domain, we find that character-aware models provide large gains on a novel spelling task (WikiSpell). Applying our learnings to the visual domain, we train a suite of image generation models, and show that character-aware variants outperform their character-blind counterparts across a range of novel text rendering tasks (our DrawText benchmark). Our models set a much higher state-of-the-art on visual spelling, with 30+ point accuracy gains over competitors on rare words, despite training on far fewer examples.
翻訳日:2023-05-04 18:12:37 公開日:2023-05-03
# 自己適応型インコンテキスト学習:インコンテキスト選択と順序付けのための情報圧縮の視点

Self-Adaptive In-Context Learning: An Information Compression Perspective for In-Context Example Selection and Ordering ( http://arxiv.org/abs/2212.10375v2 )

ライセンス: Link先を確認
Zhiyong Wu, Yaoxiang Wang, Jiacheng Ye, Lingpeng Kong(参考訳) In-context Learning (ICL) の驚くべき数ショットのパフォーマンスにもかかわらず、サンプルをランダムにサンプルしてコンテキストとして扱うのが一般的である。 本稿では,iclの新しい原則である自己適応型インコンテキスト学習を提唱する。 自己適応機構を導入し、各サンプルが正しい予測を導出し、性能を最大化する、コンテキスト内サンプル置換(選択と順序付け)を見つけるのを助ける。 自己適応型ICLの有効性を検証するため,汎用の選択列フレームワークを提案し,新しい選択とランク付けアルゴリズムでインスタンス化する。 8つの異なるnlpデータセットを広範囲に評価した結果,自己適応型icl法は,一般的な実践環境に比べて40%の相対的改善を達成している。 さらなる分析により、より高度なアルゴリズムによってICLと微調整のギャップを埋めることのできる自己適応型ICLの巨大な可能性を明らかにしている。 私たちのコードは、この分野における将来の研究を促進するためにリリースされた。

Despite the surprising few-shot performance of in-context learning (ICL), it is still a common practice to randomly sample examples to serve as context. This paper advocates a new principle for ICL: self-adaptive in-context learning. The self-adaption mechanism is introduced to help each sample find an in-context example permutation (i.e., selection and ordering) that can derive the correct prediction, thus maximizing performance. To validate the effectiveness of self-adaptive ICL, we propose a general select-then-rank framework and instantiate it with new selection and ranking algorithms. Upon extensive evaluation on eight different NLP datasets, our self-adaptive ICL method achieves a 40% relative improvement over the common practice setting. Further analysis reveals the enormous potential of self-adaptive ICL that it might be able to close the gap between ICL and finetuning given more advanced algorithms. Our code is released to facilitate future research in this area: https://github.com/Shark-NLP/self-adaptive-ICL
翻訳日:2023-05-04 18:12:19 公開日:2023-05-03
# SeqDiffuSeq:シーケンス・ツー・シーケンス生成のためのエンコーダ・デコーダ変換器を用いたテキスト拡散モデル

SeqDiffuSeq: Text Diffusion Model with Encoder-Decoder Transformers for Sequence-to-Sequence Generation ( http://arxiv.org/abs/2212.10325v2 )

ライセンス: Link先を確認
Hongyi Yuan, Zheng Yuan, Chuanqi Tan, Fei Huang, Songfang Huang(参考訳) 新しい生成モデルパラダイムである拡散モデルは、画像、オーディオ、ビデオ生成において大きな成功を収めている。 しかし、テキストの離散的分類学的性質を考えると、連続拡散モデルを自然言語に拡張することは自明ではなく、テキスト拡散モデルはあまり研究されていない。 シーケンスからシーケンスへのテキスト生成は、自然言語処理の重要なトピックの1つです。 本研究では,逐次テキスト生成に拡散モデルを適用し,拡散モデルの優越性生成性能が自然言語領域に転移できるかどうかを検討する。 シーケンス列生成のためのテキスト拡散モデルであるseqdiffuseqを提案する。 SeqDiffuSeqはEncoder-decoder Transformersアーキテクチャを使ってデノナイジング関数をモデル化している。 生成品質を向上させるため、seqdiffuseqは、自己調整技術と新しく提案された適応型ノイズスケジュール技術を組み合わせた。 適応ノイズスケジュールは、時間ステップにまたがって均等に分散する難しさがあり、異なる位置順でトークンの排他的ノイズスケジュールを考える。 実験結果は,テキスト品質と推論時間の観点から,シーケンス列生成における優れた性能を示す。

Diffusion model, a new generative modelling paradigm, has achieved great success in image, audio, and video generation. However, considering the discrete categorical nature of text, it is not trivial to extend continuous diffusion models to natural language, and text diffusion models are less studied. Sequence-to-sequence text generation is one of the essential natural language processing topics. In this work, we apply diffusion models to approach sequence-to-sequence text generation, and explore whether the superiority generation performance of diffusion model can transfer to natural language domain. We propose SeqDiffuSeq, a text diffusion model for sequence-to-sequence generation. SeqDiffuSeq uses an encoder-decoder Transformers architecture to model denoising function. In order to improve generation quality, SeqDiffuSeq combines the self-conditioning technique and a newly proposed adaptive noise schedule technique. The adaptive noise schedule has the difficulty of denoising evenly distributed across time steps, and considers exclusive noise schedules for tokens at different positional order. Experiment results illustrate the good performance on sequence-to-sequence generation in terms of text quality and inference time.
翻訳日:2023-05-04 18:12:01 公開日:2023-05-03
# don't generate, discriminate: 実環境への言語モデルの接地に関する提案

Don't Generate, Discriminate: A Proposal for Grounding Language Models to Real-World Environments ( http://arxiv.org/abs/2212.09736v2 )

ライセンス: Link先を確認
Yu Gu, Xiang Deng, Yu Su(参考訳) 現在の言語モデル(LM)に欠けている重要な能力は、現実世界の環境に根ざしていることです。 接地言語理解のための既存の作業の多くは、望まれる効果を達成するために環境内で実行できるプランを直接生成するためにLMを使用している。 これにより、lmsに文法性、忠実性、制御性を保証する責任が全て負う。 生成能力の代わりに、LMの識別能力を活かした基盤言語理解のための汎用フレームワークであるPanguを提案する。 エージェントは、有効なプランを段階的に構築するために環境を探索し、LMは、探索プロセスを導くための候補プランの妥当性を評価する。 膨大な環境を特徴とする知識ベース質問応答(KBQA)の難解な問題に関するケーススタディでは,Panguの顕著な有効性と柔軟性が示されている。 また、Panguは、Codexのような大規模なLMを持つKBQAに対して、初めて効果的な数発のインコンテキスト学習を可能にする。

A key missing capacity of current language models (LMs) is grounding to real-world environments. Most existing work for grounded language understanding uses LMs to directly generate plans that can be executed in the environment to achieve the desired effects. It thereby casts the burden of ensuring grammaticality, faithfulness, and controllability all on the LMs. We propose Pangu, a generic framework for grounded language understanding that capitalizes on the discriminative ability of LMs instead of their generative ability. Pangu consists of a symbolic agent and a neural LM working in a concerted fashion: The agent explores the environment to incrementally construct valid plans, and the LM evaluates the plausibility of the candidate plans to guide the search process. A case study on the challenging problem of knowledge base question answering (KBQA), which features a massive environment, demonstrates the remarkable effectiveness and flexibility of Pangu: A BERT-base LM is sufficient for setting a new record on standard KBQA datasets, and larger LMs further bring substantial gains. Pangu also enables, for the first time, effective few-shot in-context learning for KBQA with large LMs such as Codex.
翻訳日:2023-05-04 18:11:43 公開日:2023-05-03
# 早期誤情報検出のためのループ内ヒト評価 : COVID-19治療の事例

Human-in-the-loop Evaluation for Early Misinformation Detection: A Case Study of COVID-19 Treatments ( http://arxiv.org/abs/2212.09683v2 )

ライセンス: Link先を確認
Ethan Mendes, Yang Chen, Alan Ritter, Wei Xu(参考訳) 本稿では,新たな誤情報主張を事実チェックし,それをサポートするソーシャルメディアメッセージを特定するための,ループ内人間評価フレームワークを提案する。 当社のアプローチでは,チェック価値の高いクレームを抽出し,レビュー用にランク付けする。 スタンス分類器は、新しい誤った情報クレームをサポートするツイートを識別するために使用され、関連するポリシーに違反しているかどうかを判断するためにさらにレビューされる。 提案手法の有効性を実証するため,HIV治療領域におけるヒト・イン・ザ・ループファクトチェックのための最新のNLP法に基づくベースラインシステムを開発した。 当社のベースラインシステムを用いて、人間のファクトチェッカーがcovid-19の誤った情報に対するtwitterのポリシーに違反する1時間に114ツイートを識別できることを示しました。 我々は、コード、データ、ベースラインモデル、詳細なガイドラインを公開し、生のユーザ生成コンテンツから直接、新しい誤情報を識別するループシステムの評価を支援する。

We present a human-in-the-loop evaluation framework for fact-checking novel misinformation claims and identifying social media messages that support them. Our approach extracts check-worthy claims, which are aggregated and ranked for review. Stance classifiers are then used to identify tweets supporting novel misinformation claims, which are further reviewed to determine whether they violate relevant policies. To demonstrate the feasibility of our approach, we develop a baseline system based on modern NLP methods for human-in-the-loop fact-checking in the domain of COVID-19 treatments. Using our baseline system, we show that human fact-checkers can identify 124 tweets per hour that violate Twitter's policies on COVID-19 misinformation. We will make our code, data, baseline models, and detailed annotation guidelines available to support the evaluation of human-in-the-loop systems that identify novel misinformation directly from raw user-generated content.
翻訳日:2023-05-04 18:11:25 公開日:2023-05-03
# 確率的コントラスト学習はあいまいな入力の正解不確かさを回復する

Probabilistic Contrastive Learning Recovers the Correct Aleatoric Uncertainty of Ambiguous Inputs ( http://arxiv.org/abs/2302.02865v2 )

ライセンス: Link先を確認
Michael Kirchhof, Enkelejda Kasneci, Seong Joon Oh(参考訳) 対照的に訓練されたエンコーダは、最近データ生成過程を反転させることが証明されており、例えば、イメージを生成した真の潜在ベクトルに各入力をエンコードする(Zimmermann et al., 2021)。 しかし、実世界の観測には固有の曖昧さがしばしばある。 例えば、画像はぼやけているか、3Dオブジェクトの2Dビューのみを表示するため、複数の潜伏者がそれらを生成できた可能性がある。 これにより、非定常不確実性を伴う潜在ベクトルの真の後部確率が成立する。 この設定では、共通InfoNCEの目的とエンコーダを拡張して、ポイントの代わりに遅延分布を予測する。 これらの分布は, 滞留空間の回転に至るまでのアレータティック不確実性のレベルを含む, データ生成過程の正しい後部を復元することを示す。 不確実性の推定を校正することに加えて、これらの後方は画像検索における信頼できる間隔の計算を可能にする。 それらは、あるクエリと同じ潜在性を持つ画像で構成されており、その不確実性がある。 コードはhttps://github.com/mkirchhof/Probabilistic_Contrastive_Learningで入手できる。

Contrastively trained encoders have recently been proven to invert the data-generating process: they encode each input, e.g., an image, into the true latent vector that generated the image (Zimmermann et al., 2021). However, real-world observations often have inherent ambiguities. For instance, images may be blurred or only show a 2D view of a 3D object, so multiple latents could have generated them. This makes the true posterior for the latent vector probabilistic with heteroscedastic uncertainty. In this setup, we extend the common InfoNCE objective and encoders to predict latent distributions instead of points. We prove that these distributions recover the correct posteriors of the data-generating process, including its level of aleatoric uncertainty, up to a rotation of the latent space. In addition to providing calibrated uncertainty estimates, these posteriors allow the computation of credible intervals in image retrieval. They comprise images with the same latent as a given query, subject to its uncertainty. Code is available at https://github.com/mkirchhof/Probabilistic_Contrastive_Learning
翻訳日:2023-05-04 18:05:15 公開日:2023-05-03
# 潜在変数および構造方程式モデルの同定可能性:線形から非線形へ

Identifiability of latent-variable and structural-equation models: from linear to nonlinear ( http://arxiv.org/abs/2302.02672v2 )

ライセンス: Link先を確認
Aapo Hyv\"arinen, Ilyes Khemakhem, Ricardo Monti(参考訳) 多変量統計学における古い問題として、線形ガウスモデルはしばしば同定不能であり、あるパラメータは一意的に推定できない。 因子(成分)分析では、因子の直交回転は特定できないが、線形回帰では効果の方向は特定できない。 このような線形モデルでは、(相対)変数の非ガウス性が識別可能性をもたらすことが示されている。 因子分析の場合、これは独立成分分析につながるが、効果の方向の場合には、構造方程式モデリングの非ガウシアンバージョンが問題を解く。 最近では、そのようなモデルの一般の非パラメトリック非線形バージョンでさえ、どのように推定できるかが示されている。 非ガウス性は、この場合では十分ではないが、時系列がある、あるいは、分布が観測された補助変数によって適切に変調されていると仮定すると、モデルは識別可能である。 本稿では、因子分析モデルと構造方程式モデルの両方を考慮して、線形および非線形の場合の識別可能性理論をレビューする。

An old problem in multivariate statistics is that linear Gaussian models are often unidentifiable, i.e. some parameters cannot be uniquely estimated. In factor (component) analysis, an orthogonal rotation of the factors is unidentifiable, while in linear regression, the direction of effect cannot be identified. For such linear models, non-Gaussianity of the (latent) variables has been shown to provide identifiability. In the case of factor analysis, this leads to independent component analysis, while in the case of the direction of effect, non-Gaussian versions of structural equation modelling solve the problem. More recently, we have shown how even general nonparametric nonlinear versions of such models can be estimated. Non-Gaussianity is not enough in this case, but assuming we have time series, or that the distributions are suitably modulated by some observed auxiliary variables, the models are identifiable. This paper reviews the identifiability theory for the linear and nonlinear cases, considering both factor analytic models and structural equation models.
翻訳日:2023-05-04 18:04:55 公開日:2023-05-03
# 時間的注意機構に基づく中期風力予測のための新しい枠組み

A novel framework for medium-term wind power prediction based on temporal attention mechanisms ( http://arxiv.org/abs/2302.01222v4 )

ライセンス: Link先を確認
Meiyu Jiang, Jun Shen, Xuetao Jiang, Qingguo Zhou, Rui Zhou(参考訳) 風力エネルギーは広く分布し、リサイクル可能で環境に優しいエネルギー源であり、地球温暖化とエネルギー不足の緩和に重要な役割を果たしている。 風力エネルギーの不確実性と変動する性質は、大規模な風力エネルギーシステムのグリッド統合を困難にしている。 中期風力予測はエネルギー供給に不可欠な基盤となりうるため、正確な風力予測が不可欠である。 近年、多くの研究が成果を上げている。 しかし、それらの多くは、他のデータに適用する際に追加の実験と分析を必要とする。 本稿では,木構造パーゼン推定器(TPE)と分解アルゴリズムによる新しい短期予測フレームワークを提案する。 本フレームワークは,変分モード分解(VMD)と時間融合変圧器(TFT)に基づいて,24時間および48時間先進風力予測のためのTPE-VMD-TFT法を定義する。 フランスの電力会社による風速データセットにおいて,提案手法は予測精度を大幅に向上させることを示した。 さらに、提案されたフレームワークは、他の分解アルゴリズムで使用することができ、モデルトレーニングで手作業がほとんど必要ない。

Wind energy is a widely distributed, recyclable and environmentally friendly energy source that plays an important role in mitigating global warming and energy shortages. Wind energy's uncertainty and fluctuating nature makes grid integration of large-scale wind energy systems challenging. Medium-term wind power forecasts can provide an essential basis for energy dispatch, so accurate wind power forecasts are essential. Much research has yielded excellent results in recent years. However, many of them require additional experimentation and analysis when applied to other data. In this paper, we propose a novel short-term forecasting framework by tree-structured parzen estimator (TPE) and decomposition algorithms. This framework defines the TPE-VMD-TFT method for 24-h and 48-h ahead wind power forecasting based on variational mode decomposition (VMD) and time fusion transformer (TFT). In the Engie wind dataset from the electricity company in France, the results show that the proposed method significantly improves the prediction accuracy. In addition, the proposed framework can be used to other decomposition algorithms and require little manual work in model training.
翻訳日:2023-05-04 18:04:00 公開日:2023-05-03
# 問題:モード絡み合いスピン配列原子状態を持つ分散量子センシング

Matters Arising: Distributed quantum sensing with mode-entangled spin-squeezed atomic states ( http://arxiv.org/abs/2302.00733v2 )

ライセンス: Link先を確認
Liam P. McGuinness(参考訳) モード絡み合うスピンスクイーズ原子状態を用いた「分散量子センシング」における自然(2022年)、マリアら al. 絡み合いを用いてクロックネットワークの精度を向上させる。 特に、最大4つのノードでクロックネットワークを絡めることにより、量子投影ノイズ限界(すなわち、絡みのない精度)よりも精度11.6dBの精度が報告される。 これらの主張は間違っている、maliaなど。 al. エンタングルメントによる精度の向上は行わない。 ここでは、これらの実演が量子射影雑音限界よりも2桁以上悪いことを示す。

In ``Distributed quantum sensing with mode-entangled spin-squeezed atomic states" Nature (2022), Malia et. al. claim to improve the precision of a network of clocks by using entanglement. In particular, by entangling a clock network with up to four nodes, a precision 11.6 dB better than the quantum projection noise limit (i.e. precision without any entanglement) is reported. These claims are incorrect, Malia et. al. do not achieve an improved precision with entanglement. Here we show their demonstration is more than two orders of magnitude worse than the quantum projection noise limit.
翻訳日:2023-05-04 18:03:41 公開日:2023-05-03
# 癌遺伝子予測のための説明可能な多層グラフニューラルネットワーク

Explainable Multilayer Graph Neural Network for Cancer Gene Prediction ( http://arxiv.org/abs/2301.08831v2 )

ライセンス: Link先を確認
Michail Chatzianastasis, Michalis Vazirgiannis, Zijun Zhang(参考訳) がん遺伝子の同定は、がんゲノム研究において決定的かつ困難な問題である。 ディープグラフニューラルネットワークを含む既存の計算手法では、多層遺伝子間相互作用を利用したり、予測の限定的な説明をしなかった。 これらの方法は単一の生物学的ネットワークに制限されており、腫瘍遺伝の完全な複雑さを捉えることはできない。 異なる生物学的ネットワークで訓練されたモデルは、しばしば異なる癌遺伝子予測を生じさせ、信頼に値する適応を妨げる。 本稿では,複数の遺伝子間相互作用ネットワークとパン・カンサーマルチオミクスデータを活用することで,癌遺伝子を同定するための説明可能な多層グラフニューラルネットワーク(EMGNN)を提案する。 単一の生物学的ネットワーク上の従来のグラフ学習とは異なり、EMGNNは多層グラフニューラルネットワークを使用して、複数の生物学的ネットワークから正確ながん遺伝子予測を学習する。 本手法は,既存の手法を平均7.15%改善し,現行手法よりも精度recall curve (aupr) が向上した。 重要なことに、EMGNNは複数のグラフを統合し、単一の生物学的ネットワークからの予測に矛盾する新しい予測された癌遺伝子を優先順位付けした。 それぞれの予測のために、EMGNNはモデルレベルの特徴重要度説明と分子レベルの遺伝子セット富化分析の両方を通して貴重な生物学的洞察を提供した。 全体として、EMGNNは多層トポロジカル遺伝子関係をモデル化することでグラフ学習の強力なパラダイムを提供し、がんゲノム研究に有用なツールを提供する。

The identification of cancer genes is a critical yet challenging problem in cancer genomics research. Existing computational methods, including deep graph neural networks, fail to exploit the multilayered gene-gene interactions or provide limited explanation for their predictions. These methods are restricted to a single biological network, which cannot capture the full complexity of tumorigenesis. Models trained on different biological networks often yield different and even opposite cancer gene predictions, hindering their trustworthy adaptation. Here, we introduce an Explainable Multilayer Graph Neural Network (EMGNN) approach to identify cancer genes by leveraging multiple genegene interaction networks and pan-cancer multi-omics data. Unlike conventional graph learning on a single biological network, EMGNN uses a multilayered graph neural network to learn from multiple biological networks for accurate cancer gene prediction. Our method consistently outperforms all existing methods, with an average 7.15% improvement in area under the precision-recall curve (AUPR) over the current state-of-the-art method. Importantly, EMGNN integrated multiple graphs to prioritize newly predicted cancer genes with conflicting predictions from single biological networks. For each prediction, EMGNN provided valuable biological insights via both model-level feature importance explanations and molecular-level gene set enrichment analysis. Overall, EMGNN offers a powerful new paradigm of graph learning through modeling the multilayered topological gene relationships and provides a valuable tool for cancer genomics research.
翻訳日:2023-05-04 18:03:32 公開日:2023-05-03
# PlasmoFAB: Plasmodium falciparum protein Antigen Candidate Predictionのための機械学習のためのベンチマーク

PlasmoFAB: A Benchmark to Foster Machine Learning for Plasmodium falciparum Protein Antigen Candidate Prediction ( http://arxiv.org/abs/2301.06454v2 )

ライセンス: Link先を確認
Jonas Christian Ditz and Jacqueline Wistuba-Hamprecht and Timo Maier and Rolf Fendel and Nico Pfeifer and Bernhard Reuter(参考訳) モチベーション(Motivation):医療関連研究分野における科学的発見を支援する機械学習手法。 しかし、これらのメソッドは、高品質でキュレートされたデータセットでトレーニングできる場合にのみ確実に使用できる。 現在、Plasmodium falciparumタンパク質の抗原候補を探索するためのデータセットは存在しない。 寄生虫plasmodium falciparumは感染症のマラリアを引き起こす。 したがって、潜在的な抗原の同定は抗マラリア薬やワクチンの開発に最も重要である。 抗原候補を実験的に探索することは高価で時間を要するプロセスであるため、このプロセスをサポートするために機械学習手法を適用することで、マラリアと闘うために必要とされる薬物やワクチンの開発を加速する可能性がある。 結果:PlasmoFABは,Plasmodium falciparumタンパク質抗原候補の探索のための機械学習手法の訓練に使用できるキュレートされたベンチマークである。 われわれは広範囲にわたる文献検索とドメインの専門知識を組み合わせて,抗原候補と細胞内タンパク質を区別するPlasmodium falciparum特異的タンパク質の高品質なラベルを作成した。 さらに,このベンチマークを用いて,タンパク質抗原候補の同定作業において,よく知られた予測モデルと利用可能なタンパク質局在予測サービスを比較した。 汎用サービスでは,タンパク質抗原候補の同定に十分な性能が得られず,このデータに基づいてトレーニングしたモデルに勝っていることが示された。 利用可能: plasmofabはzenodo 10.5281/zenodo.7433087で公開されている。 さらに、PlasmoFABの作成や機械学習モデルのトレーニングと評価に使用されたすべてのスクリプトはオープンソースであり、GitHubで公開されている。

Motivation: Machine learning methods can be used to support scientific discovery in healthcare-related research fields. However, these methods can only be reliably used if they can be trained on high-quality and curated datasets. Currently, no such dataset for the exploration of Plasmodium falciparum protein antigen candidates exists. The parasite Plasmodium falciparum causes the infectious disease malaria. Thus, identifying potential antigens is of utmost importance for the development of antimalarial drugs and vaccines. Since exploring antigen candidates experimentally is an expensive and time-consuming process, applying machine learning methods to support this process has the potential to accelerate the development of drugs and vaccines, which are needed for fighting and controlling malaria. Results: We developed PlasmoFAB, a curated benchmark that can be used to train machine learning methods for the exploration of Plasmodium falciparum protein antigen candidates. We combined an extensive literature search with domain expertise to create high-quality labels for Plasmodium falciparum specific proteins that distinguish between antigen candidates and intracellular proteins. Additionally, we used our benchmark to compare different well-known prediction models and available protein localization prediction services on the task of identifying protein antigen candidates. We show that available general-purpose services are unable to provide sufficient performance on identifying protein antigen candidates and are outperformed by our models that were trained on this tailored data. Availability: PlasmoFAB is publicly available on Zenodo with DOI 10.5281/zenodo.7433087. Furthermore, all scripts that were used in the creation of PlasmoFAB and the training and evaluation of machine learning models are open source and publicly available on GitHub here: https://github.com/msmdev/PlasmoFAB.
翻訳日:2023-05-04 18:02:53 公開日:2023-05-03
# レジームスイッチングモデルのための微分可能なブートストラップ粒子フィルタ

Differentiable Bootstrap Particle Filters for Regime-Switching Models ( http://arxiv.org/abs/2302.10319v2 )

ライセンス: Link先を確認
Wenhan Li, Xiongjie Chen, Wenwu Wang, V\'ictor Elvira and Yunpeng Li(参考訳) 微分可能な粒子フィルタは、ニューラルネットワークを用いてパラメトリック状態空間モデルを構築し、学習する新しい種類の粒子フィルタリング法である。 現実世界のアプリケーションでは、状態力学と測定の両方が候補モデルのセットを切り替えることができる。 例えば、目標追跡では、車両はアイドルしたり、交通を移動したり、高速道路を巡航したりすることができ、測度は異なる地理的または天候条件で収集される。 本稿では、状態空間モデルに対する新しい微分可能な粒子フィルタを提案する。 この手法は、未知の候補動的および測定モデルの集合を学習し、状態後部を追跡する。 本稿では,新しいアルゴリズムの性能を関連モデルで評価し,他の競合アルゴリズムと比較して優れた性能を示す。

Differentiable particle filters are an emerging class of particle filtering methods that use neural networks to construct and learn parametric state-space models. In real-world applications, both the state dynamics and measurements can switch between a set of candidate models. For instance, in target tracking, vehicles can idle, move through traffic, or cruise on motorways, and measurements are collected in different geographical or weather conditions. This paper proposes a new differentiable particle filter for regime-switching state-space models. The method can learn a set of unknown candidate dynamic and measurement models and track the state posteriors. We evaluate the performance of the novel algorithm in relevant models, showing its great performance compared to other competitive algorithms.
翻訳日:2023-05-04 17:55:20 公開日:2023-05-03
# 解釈可能なモデルの混合に対するブラックボックスの分割とクエリ:経路、解釈、繰り返し

Dividing and Conquering a BlackBox to a Mixture of Interpretable Models: Route, Interpret, Repeat ( http://arxiv.org/abs/2302.10289v3 )

ライセンス: Link先を確認
Shantanu Ghosh, Ke Yu, Forough Arabshahi, Kayhan Batmanghelich(参考訳) mlモデル設計は解釈可能なモデルかブラックボックスから始まり、ポストホックであると説明する。 ブラックボックスモデルは柔軟だが説明が難しいが、解釈可能なモデルは本質的に説明可能である。 しかし、解釈可能なモデルは広範なml知識を必要とし、ブラックボックスの変種よりも柔軟性とパフォーマンスが低い傾向がある。 本稿では,ブラックボックスのポストホックな説明と解釈可能なモデルの構築の区別を曖昧にすることを目的とする。 ブラックボックスから始めると、解釈可能な専門家(moie)と残りのネットワークの混合を反復的に作り出す。 各解釈可能なモデルはサンプルのサブセットを専門とし、一階述語論理(fol)を用いて説明し、ブラックボックスの概念に関する基本的な推論を提供する。 残りのサンプルを柔軟な残留物にルーティングします。 すべての解釈可能なモデルが所望のデータの割合を説明するまで、残差ネットワーク上のメソッドを繰り返す。 以上の結果から,本手法では,提案手法は,性能を損なうことなく,MoIEによる高概念完全性を備えた多種多様なインスタンス固有概念の集合を同定し,残差による説明が比較的難しいサンプルを同定し,テスト時間介入時にかなりのマージンで解釈可能な設計モデルを上回り,(4)元のBlackboxで学んだショートカットを修正した。 MoIEのコードは、https://github.com/batmanlab/ICML-2023-Route-interpret-repeatで公開されている。

ML model design either starts with an interpretable model or a Blackbox and explains it post hoc. Blackbox models are flexible but difficult to explain, while interpretable models are inherently explainable. Yet, interpretable models require extensive ML knowledge and tend to be less flexible and underperforming than their Blackbox variants. This paper aims to blur the distinction between a post hoc explanation of a Blackbox and constructing interpretable models. Beginning with a Blackbox, we iteratively carve out a mixture of interpretable experts (MoIE) and a residual network. Each interpretable model specializes in a subset of samples and explains them using First Order Logic (FOL), providing basic reasoning on concepts from the Blackbox. We route the remaining samples through a flexible residual. We repeat the method on the residual network until all the interpretable models explain the desired proportion of data. Our extensive experiments show that our route, interpret, and repeat approach (1) identifies a diverse set of instance-specific concepts with high concept completeness via MoIE without compromising in performance, (2) identifies the relatively harder samples to explain via residuals, (3) outperforms the interpretable by-design models by significant margins during test-time interventions, and (4) fixes the shortcut learned by the original Blackbox. The code for MoIE is publicly available at: https://github.com/batmanlab/ICML-2023-Route-interpret-repeat.
翻訳日:2023-05-04 17:55:09 公開日:2023-05-03
# オンラインアクティブラーニングに関する調査

A survey on online active learning ( http://arxiv.org/abs/2302.08893v3 )

ライセンス: Link先を確認
Davide Cacciarelli, Murat Kulahci(参考訳) オンラインアクティブな学習は機械学習のパラダイムであり、データストリームからラベルに最も情報のあるデータポイントを選択することを目的としている。 ラベル付き観測の収集に伴うコストを最小化する問題は近年,特にラベルなし形式でのみ利用可能となる実世界のアプリケーションにおいて注目されている。 それぞれの観測に注釈をつけるのは時間と費用がかかり、大量のラベル付きデータを得るのが難しくなる。 この問題を解決するために、この数十年間、機械学習モデルの性能を向上させるために、ラベル付けに関する最も有益な観察を選択するための、多くのアクティブラーニング戦略が提案されてきた。 これらのアプローチは、静的プールベースとストリームベースアクティブラーニングの2つのカテゴリに分けられる。 プールベースのアクティブラーニングは、ラベルなしデータのクローズドプールから観測のサブセットを選択することを含み、多くの調査や文献レビューの焦点となっている。 しかし、データストリームの可用性が高まるにつれ、オンラインのアクティブラーニングに重点を置くアプローチが増加し、ストリームに到達した観察を継続的に選択、ラベル付けすることが可能になる。 本研究の目的は、データストリームから最も情報性の高い観測をリアルタイムで選択するための、最近提案されたアプローチの概要を提供することである。 我々は,提案されている様々な技術についてレビューし,その強みと限界,及びこの分野に存在する課題と機会について論じる。

Online active learning is a paradigm in machine learning that aims to select the most informative data points to label from a data stream. The problem of minimizing the cost associated with collecting labeled observations has gained a lot of attention in recent years, particularly in real-world applications where data is only available in an unlabeled form. Annotating each observation can be time-consuming and costly, making it difficult to obtain large amounts of labeled data. To overcome this issue, many active learning strategies have been proposed in the last decades, aiming to select the most informative observations for labeling in order to improve the performance of machine learning models. These approaches can be broadly divided into two categories: static pool-based and stream-based active learning. Pool-based active learning involves selecting a subset of observations from a closed pool of unlabeled data, and it has been the focus of many surveys and literature reviews. However, the growing availability of data streams has led to an increase in the number of approaches that focus on online active learning, which involves continuously selecting and labeling observations as they arrive in a stream. This work aims to provide an overview of the most recently proposed approaches for selecting the most informative observations from data streams in real time. We review the various techniques that have been proposed and discuss their strengths and limitations, as well as the challenges and opportunities that exist in this area of research.
翻訳日:2023-05-04 17:54:25 公開日:2023-05-03
# 電子商取引における製品質問の回答

Product Question Answering in E-Commerce: A Survey ( http://arxiv.org/abs/2302.08092v2 )

ライセンス: Link先を確認
Yang Deng, Wenxuan Zhang, Qian Yu, Wai Lam(参考訳) 商品質問応答(PQA)は、Eコマースプラットフォームにおける顧客の質問に対する即時応答を自動で提供することを目的としており、近年注目を集めている。 典型的なQA問題と比較すると、PQAはEコマースプラットフォームにおけるユーザ生成コンテンツの主観性と信頼性といったユニークな課題を示す。 そのため,これらの特徴を捉えるために,様々な問題設定や新しい手法が提案されている。 本稿では,PQAに関する既存の研究成果を体系的にレビューすることを目的とする。 具体的には,pqa研究を,回答形式の観点から4つの問題に分類する。 提案手法は,各設定に対する既存のデータセットと評価プロトコルだけでなく,その長所と短所も分析する。 さらに、一般的なQAアプリケーションからPQAを特徴づける最も重要な課題を要約し、対応するソリューションについて議論する。 最後に,本稿の結論として,今後の展望について述べる。

Product question answering (PQA), aiming to automatically provide instant responses to customer's questions in E-Commerce platforms, has drawn increasing attention in recent years. Compared with typical QA problems, PQA exhibits unique challenges such as the subjectivity and reliability of user-generated contents in E-commerce platforms. Therefore, various problem settings and novel methods have been proposed to capture these special characteristics. In this paper, we aim to systematically review existing research efforts on PQA. Specifically, we categorize PQA studies into four problem settings in terms of the form of provided answers. We analyze the pros and cons, as well as present existing datasets and evaluation protocols for each setting. We further summarize the most significant challenges that characterize PQA from general QA applications and discuss their corresponding solutions. Finally, we conclude this paper by providing the prospect on several future directions.
翻訳日:2023-05-04 17:54:02 公開日:2023-05-03
# 未取得オンライン試験における結束検出のためのデータマイニング手法

A Data Mining Approach for Detecting Collusion in Unproctored Online Exams ( http://arxiv.org/abs/2302.07014v2 )

ライセンス: Link先を確認
Janine Langerbein, Till Massing, Jens Klenke, Natalie Reckmann, Michael Striewe, Michael Goedicke, and Christoph Hanck(参考訳) 新型コロナウイルスのパンデミックで予防措置が講じられたため、多くの大学が未熟な在宅試験を提供した。 パンデミック時の家庭内受験のイベントログデータに対して,学生間の潜在的な結束を検知し,そのアプローチを適用する手法を提案する。 疑わしいほどよく似た試験を受けた学生のグループを見つけます。 また,本研究の結果をプロクター制御群と比較した。 これにより、どのケースが「明らかに類似している」か、すなわち疑わしいケースを評価するための親指の規則を確立する。

Due to the precautionary measures during the COVID-19 pandemic many universities offered unproctored take-home exams. We propose methods to detect potential collusion between students and apply our approach on event log data from take-home exams during the pandemic. We find groups of students with suspiciously similar exams. In addition, we compare our findings to a proctored control group. By this, we establish a rule of thumb for evaluating which cases are "outstandingly similar", i.e., suspicious cases.
翻訳日:2023-05-04 17:53:50 公開日:2023-05-03
# 可変時間量子探索のための改良アルゴリズムと低境界

Improved Algorithm and Lower Bound for Variable Time Quantum Search ( http://arxiv.org/abs/2302.06749v2 )

ライセンス: Link先を確認
Andris Ambainis, Martins Kokainis, Jevg\=enijs Vihrovs(参考訳) 変数時間探索は、異なる項目に対するクエリに異なる時間を要する量子探索の形式である。 我々の最初の結果は、複雑さを持つ変数時間探索を行う新しい量子アルゴリズムである$O(\sqrt{T}\log n)$ where $T=\sum_{i=1}^n t_i^2$ with $t_i$。 2つ目の結果は、$\Omega(\sqrt{T\log T})$の量子下界である。 アルゴリズムと下限は、従来知られていた結果に対して$\sqrt{\log t}$という係数で改善されるが、アルゴリズムは従来知られていた量子アルゴリズムよりも大幅に単純である。

We study variable time search, a form of quantum search where queries to different items take different time. Our first result is a new quantum algorithm that performs variable time search with complexity $O(\sqrt{T}\log n)$ where $T=\sum_{i=1}^n t_i^2$ with $t_i$ denoting the time to check the $i$-th item. Our second result is a quantum lower bound of $\Omega(\sqrt{T\log T})$. Both the algorithm and the lower bound improve over previously known results by a factor of $\sqrt{\log T}$ but the algorithm is also substantially simpler than the previously known quantum algorithms.
翻訳日:2023-05-04 17:53:43 公開日:2023-05-03
# 文書情報のローカライゼーションと抽出のためのDocILEベンチマーク

DocILE Benchmark for Document Information Localization and Extraction ( http://arxiv.org/abs/2302.05658v2 )

ライセンス: Link先を確認
\v{S}t\v{e}p\'an \v{S}imsa and Milan \v{S}ulc and Michal U\v{r}i\v{c}\'a\v{r} and Yash Patel and Ahmed Hamdi and Mat\v{e}j Koci\'an and Maty\'a\v{s} Skalick\'y and Ji\v{r}\'i Matas and Antoine Doucet and Micka\"el Coustaty and Dimosthenis Karatzas(参考訳) 本稿では,鍵情報局所化・抽出・ラインアイテム認識のタスクに対して,ビジネス文書の最大のデータセットを用いたDocILEベンチマークを提案する。 6.7kの注釈付きビジネス文書、100kの合成文書、および教師なしの事前訓練のためのラベルなし文書を含む。 データセットは、ドメインとタスク固有の側面の知識で構築され、以下の主要な特徴をもたらす。 i) 55のクラスにおけるアノテーションは、以前に公表されたキー情報抽出データセットの粒度を大きなマージンで上回る。 2 ラインアイテム認識は、テーブル内の項目に鍵情報を割り当てなければならない高度に実践的な情報抽出タスクを表す。 三 文書は、多数のレイアウトからなり、テストセットには、訓練セットによく見られるレイアウトだけでなく、ゼロショットや少数ショットのケースが含まれる。 ベンチマークにはRoBERTa、LayoutLMv3、DETRベースのTable Transformerなど、いくつかのベースラインが含まれている。 データセット、ベースライン、補足資料はhttps://github.com/rossumai/docile.comで入手できる。

This paper introduces the DocILE benchmark with the largest dataset of business documents for the tasks of Key Information Localization and Extraction and Line Item Recognition. It contains 6.7k annotated business documents, 100k synthetically generated documents, and nearly~1M unlabeled documents for unsupervised pre-training. The dataset has been built with knowledge of domain- and task-specific aspects, resulting in the following key features: (i) annotations in 55 classes, which surpasses the granularity of previously published key information extraction datasets by a large margin; (ii) Line Item Recognition represents a highly practical information extraction task, where key information has to be assigned to items in a table; (iii) documents come from numerous layouts and the test set includes zero- and few-shot cases as well as layouts commonly seen in the training set. The benchmark comes with several baselines, including RoBERTa, LayoutLMv3 and DETR-based Table Transformer; applied to both tasks of the DocILE benchmark, with results shared in this paper, offering a quick starting point for future work. The dataset, baselines and supplementary material are available at https://github.com/rossumai/docile.
翻訳日:2023-05-04 17:53:28 公開日:2023-05-03
# ロバストネスを考慮したコアセット選択による効率よい対人コントラスト学習

Efficient Adversarial Contrastive Learning via Robustness-Aware Coreset Selection ( http://arxiv.org/abs/2302.03857v2 )

ライセンス: Link先を確認
Xilie Xu, Jingfeng Zhang, Feng Liu, Masashi Sugiyama, Mohan Kankanhalli(参考訳) ACL(Adversarial contrastive Learning)は、高価なデータアノテーションを必要としないが、敵攻撃に耐える堅牢な表現を出力し、幅広い下流タスクに一般化する。 しかし、ACLは、すべてのトレーニングデータの逆の変種を生成するために、膨大な実行時間を必要とします。 ACLを高速化するために,ロバストネス対応コアセット選択法(RCS)を提案する。 RCSはラベル情報を必要とせず、自然なデータとその仮想逆数との表現の距離である表現の発散を最小限に抑える情報的サブセットを検索する。 すべての可能な部分集合をトラバースするRCSのバニラ解は計算的に禁じられている。 そこで, 理論上はrcsをサブモジュラー最大化のサロゲート問題に変換し, グリーディ探索は元の問題に対して最適性を保証する効率的な解である。 実験的な結果から、RCSはロバスト性伝達性を著しく損なうことなく、大きなマージンでACLを高速化できることを示す。 特に,我々の知る限りでは,大規模な ImageNet-1K データセット上で ACL を効率的に実行し,RCS による効率的なロバスト表現を実現するのは初めてである。

Adversarial contrastive learning (ACL) does not require expensive data annotations but outputs a robust representation that withstands adversarial attacks and also generalizes to a wide range of downstream tasks. However, ACL needs tremendous running time to generate the adversarial variants of all training data, which limits its scalability to large datasets. To speed up ACL, this paper proposes a robustness-aware coreset selection (RCS) method. RCS does not require label information and searches for an informative subset that minimizes a representational divergence, which is the distance of the representation between natural data and their virtual adversarial variants. The vanilla solution of RCS via traversing all possible subsets is computationally prohibitive. Therefore, we theoretically transform RCS into a surrogate problem of submodular maximization, of which the greedy search is an efficient solution with an optimality guarantee for the original problem. Empirically, our comprehensive results corroborate that RCS can speed up ACL by a large margin without significantly hurting the robustness transferability. Notably, to the best of our knowledge, we are the first to conduct ACL efficiently on the large-scale ImageNet-1K dataset to obtain an effective robust representation via RCS.
翻訳日:2023-05-04 17:53:09 公開日:2023-05-03
# 流体力学形式のディラック理論

Dirac Theory in Hydrodynamic Form ( http://arxiv.org/abs/2303.17461v2 )

ライセンス: Link先を確認
Luca Fabbri(参考訳) 相対論的スピノル場の場合、その速度を研究するために流体力学的定式化で記述された量子力学を考える:そのような流体力学的定式化では、通常定義される速度は、粒子の軌跡への接ベクトルを実際に表現することはできない。 我々は、この接ベクトルの代替的な定義を提案し、それゆえ粒子の軌道に対して、新しく、実際に可能な唯一の定義であると信じている。 最後に、これらの結果が、多粒子系における軌道の定義など、さらなる問題に直面するために必要なステップであることを示す。

We consider quantum mechanics written in hydrodynamic formulation for the case of relativistic spinor fields to study their velocity: within such a hydrodynamic formulation it is possible to see that the velocity as is usually defined can not actually represent the tangent vector to the trajectories of particles. We propose an alternative definition for this tangent vector and hence for the trajectories of particles, which we believe to be new and in fact the only one that is possible. Finally we discuss how these results are a necessary step to take in order to face further problems, like the definition of trajectories for the multi-particle systems.
翻訳日:2023-05-04 17:46:49 公開日:2023-05-03
# 不完全ラベルを用いた複数ラベル認識のための構造化セマンティック先行探索

Exploring Structured Semantic Prior for Multi Label Recognition with Incomplete Labels ( http://arxiv.org/abs/2303.13223v4 )

ライセンス: Link先を確認
Zixuan Ding, Ao Wang, Hui Chen, Qiang Zhang, Pengzhang Liu, Yongjun Bao, Weipeng Yan, Jungong Han(参考訳) 不完全なラベルを持つマルチラベル認識(MLR)は非常に難しい。 近年、視覚言語モデルである \ie, clip で画像とラベルの対応を探求し、アノテーションの不足を補う研究が進められている。 有望なパフォーマンスにもかかわらず、彼らは一般にラベルとラベルの対応について価値ある事前を見落としている。 本稿では,semantic prior prompter によるラベル間対応の構造化された意味を導出することにより,不完全なラベルを持つmlrのラベル管理の欠如を解消することを推奨する。 次に、構造化されたセマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティックス・ネットワーク(SCPNet)を提案する。 さらに,事前学習の促進を図るために,事前学習法が導入された。 ベンチマークデータセットの総合的な実験と解析により,提案手法が既存の手法を全データセットで大幅に上回っており,提案手法の有効性と優越性が実証されている。 私たちのコードはhttps://github.com/jameslahm/scpnetで利用可能です。

Multi-label recognition (MLR) with incomplete labels is very challenging. Recent works strive to explore the image-to-label correspondence in the vision-language model, \ie, CLIP, to compensate for insufficient annotations. In spite of promising performance, they generally overlook the valuable prior about the label-to-label correspondence. In this paper, we advocate remedying the deficiency of label supervision for the MLR with incomplete labels by deriving a structured semantic prior about the label-to-label correspondence via a semantic prior prompter. We then present a novel Semantic Correspondence Prompt Network (SCPNet), which can thoroughly explore the structured semantic prior. A Prior-Enhanced Self-Supervised Learning method is further introduced to enhance the use of the prior. Comprehensive experiments and analyses on several widely used benchmark datasets show that our method significantly outperforms existing methods on all datasets, well demonstrating the effectiveness and the superiority of our method. Our code will be available at https://github.com/jameslahm/SCPNet.
翻訳日:2023-05-04 17:46:39 公開日:2023-05-03
# 分布シフトを伴う時間表型データセットのためのロバストな漸進学習パイプライン

Robust incremental learning pipelines for temporal tabular datasets with distribution shifts ( http://arxiv.org/abs/2303.07925v3 )

ライセンス: Link先を確認
Thomas Wong, Mauricio Barahona(参考訳) 本稿では,時間表型データセット上での回帰タスクのためのロバストな漸進学習パイプラインを提案する。 一般的な利用可能な表型および時系列予測モデルをビルディングブロックとして使用すると、分散シフトに適応するために、マシンラーニングパイプラインがインクリメンタルに構築される。 パイプラインは、データ依存の機能エンジニアリングメソッドを必要としないため、標準化されたすべてのデータセットに共通である。 自己相似性(self-similarity)という概念を用いることで、パイプラインは2つの基本的なMLモデルの構築ブロックのみを使用する。 特殊なニューラルアーキテクチャを使用しず、各モデル構築ブロックを独立してトレーニングできるため、パイプラインは効率的である。 このパイプラインは,レジーム変化,脂肪尾分布,低信号対雑音比などの悪条件下でのロバストな性能を示すことが実証された。

In this paper, we present a robust incremental learning pipeline for regression tasks on temporal tabular datasets. Using commonly available tabular and time-series prediction models as building blocks, a machine-learning pipeline is built incrementally to adapt to distributional shifts. The pipeline is universal to all standardised datasets as no data-dependent feature engineering methods is required. Using the concept of self-similarity, the pipeline uses only two basic building blocks of ML models, gradient boosting decision trees and networks to build models for any required complexity. The pipeline is efficient as no specialised neural architectures are used and each model building block can be independently trained. The pipeline is demonstrated to have robust performances under adverse situations such as regime changes, fat-tailed distributions and low signal-to-noise ratios.
翻訳日:2023-05-04 17:46:19 公開日:2023-05-03
# Architext: 言語駆動生成アーキテクチャ設計

Architext: Language-Driven Generative Architecture Design ( http://arxiv.org/abs/2303.07519v3 )

ライセンス: Link先を確認
Theodoros Galanos, Antonios Liapis and Georgios N. Yannakakis(参考訳) アーキテクチャ設計は、幅広い分野、技術、プロプライエタリなデザインソフトウェア、専門知識、そしてほぼ無限の制約を含む非常に複雑なプラクティスである。 直感的でアクセシブルでスケーラブルな設計プロセスを実現することは、パフォーマンス駆動で持続可能な設計への重要なステップです。 そこで本研究では,新しい意味生成支援ツールであるarchitextを紹介する。 Architextは、大規模な言語モデルに入力として与えられる自然言語プロンプトのみを持つ設計生成を可能にする。 我々は,1億2000万から60億のパラメータを含む事前学習された言語モデルの意味的精度と多様性に着目し,Architextの下流タスク性能の詳細な定量的評価を行う。 Architextモデルは、特定の設計タスクを学習し、有効な住宅レイアウトを100%近い速度で生成することができる。 大きなモデル(gpt-j)では、さまざまなプロンプトカテゴリで25%から80%以上という、印象的な精度を実現している。 私たちは、このエキサイティングなデザイン研究領域で実験を刺激したいと考えている、微調整Architextモデルと合成データセットをオープンソースにしています。

Architectural design is a highly complex practice that involves a wide diversity of disciplines, technologies, proprietary design software, expertise, and an almost infinite number of constraints, across a vast array of design tasks. Enabling intuitive, accessible, and scalable design processes is an important step towards performance-driven and sustainable design for all. To that end, we introduce Architext, a novel semantic generation assistive tool. Architext enables design generation with only natural language prompts, given to large-scale Language Models, as input. We conduct a thorough quantitative evaluation of Architext's downstream task performance, focusing on semantic accuracy and diversity for a number of pre-trained language models ranging from 120 million to 6 billion parameters. Architext models are able to learn the specific design task, generating valid residential layouts at a near 100% rate. Accuracy shows great improvement when scaling the models, with the largest model (GPT-J) yielding impressive accuracy ranging between 25% to over 80% for different prompt categories. We open source the finetuned Architext models and our synthetic dataset, hoping to inspire experimentation in this exciting area of design research.
翻訳日:2023-05-04 17:46:04 公開日:2023-05-03
# 一般知性の分類的枠組み

A Categorical Framework of General Intelligence ( http://arxiv.org/abs/2303.04571v2 )

ライセンス: Link先を確認
Yang Yuan(参考訳) マシンは考えられるか? 1950年にアラン・チューリング(alan turing)がこの疑問を問うため、一般の知性に対する数学的基礎がないために、直接答えることはできない。 本稿では,この目標に向けて,2つの主な結果を含むカテゴリー的枠組みを提案する。 まず,自己意識のカテゴリー的類似としての自己状態認識の概念と,その実施と評価のためのアルゴリズムを導入して,プレシーブによる対象表現について検討する。 次に、オブジェクト表現をダイアグラムと極限を使ってシナリオ表現に拡張し、数学的モデリング、解釈可能性、ai安全性の構成要素となる。 補助的な結果として,モデル学習のためのアライメント信号として機能する様々なカテゴリー的不変性を導入する。

Can machines think? Since Alan Turing asked this question in 1950, nobody is able to give a direct answer, due to the lack of solid mathematical foundations for general intelligence. In this paper, we introduce a categorical framework towards this goal, with two main results. First, we investigate object representation through presheaves, introducing the notion of self-state awareness as a categorical analogue to self-consciousness, along with corresponding algorithms for its enforcement and evaluation. Secondly, we extend object representation to scenario representation using diagrams and limits, which then become building blocks for mathematical modeling, interpretability and AI safety. As an ancillary result, our framework introduces various categorical invariance properties that can serve as the alignment signals for model training.
翻訳日:2023-05-04 17:45:45 公開日:2023-05-03
# ロバスト制御による動的環境における原子干渉慣性センサの感度向上

Enhancing the sensitivity of atom-interferometric inertial sensors in dynamic environments using robust control ( http://arxiv.org/abs/2303.03683v2 )

ライセンス: Link先を確認
J. C. Saywell, M. S. Carey, P. S. Light, S. S. Szigeti, A. R. Milne, K. Gill, M. L. Goh, V. S. Perunicic, N. M. Wilson, C. D. Macrae, A. Rischka, P. J. Everitt, N. P. Robins, R. P. Anderson, M. R. Hush, and M. J. Biercuk(参考訳) 物質波干渉計に基づく量子センサーは、航法、土木工学、地球観測に革命をもたらす可能性がある。 しかし、外的干渉、プラットフォームノイズ、サイズ、重量、電力の制約などにより、現実の環境でこれらのデバイスを運用することは困難である。 したがって、従来の代替品よりも量子センサーを選択する利点は、実験室からフィールドに移行する際に失われる。 そこで本研究では,ロバストな制御技術を用いてソフトウェアに設計・実装された光パルスが,原子干渉型加速度計の性能劣化の原因を軽減できることを実験的に実証する。 予測不能な横方向プラットフォーム動作の効果を模倣するため,パルスからパルスまで最大20%の波長変化のレーザ強度雑音を適用し,従来のパルスの有用性を損なうとともに,ロバスト制御ソリューションが高性能センシングを維持していることを示す。 局所重力の測定により, このロバストなパルス列は干渉計スケール係数を保ち, レーザ強度雑音の存在下で10\times$で精度を向上させることを示した。 さらに, 最大適用雑音に対して, 200〜\mu g$の範囲を最大21\times$まで測定することで, これらの拡張を検証した。 これは、ソフトウェア定義の量子センシングが、従来の操作が著しく劣化しているオンボードアプリケーション固有の動的環境において有用なパフォーマンスを提供できることを示し、現在のおよび次世代の原子慣性センサーの性能を現実の環境で向上させる経路を提供する。

Quantum sensors based on matter-wave interferometry have the potential to revolutionize navigation, civil engineering, and Earth observation. However, operating these devices in real-world environments is challenging due to external interference, platform noise, and constraints on size, weight, and power. Consequently, the advantages of choosing a quantum sensor over conventional alternatives are typically lost when transitioning from the laboratory to the field. Here we experimentally demonstrate that tailored light pulses designed and implemented in software using robust control techniques mitigate significant sources of performance degradation in an atom-interferometric accelerometer. To mimic the effect of unpredictable lateral platform motion, we apply laser-intensity noise that varies up to 20% from pulse-to-pulse, and demonstrate that our robust control solution maintains performant sensing, while the utility of conventional pulses collapses. By measuring local gravity, we show that these robust pulse sequences preserve the interferometer scale factor and improve its precision by $10\times$ in the presence of the applied laser intensity noise. We further validate these enhancements by measuring applied accelerations over a $200~\mu g$ range up to $21\times$ more precisely for the largest applied noise. This shows for the first time that software-defined quantum sensing can deliver useful performance in dynamic environments inherent to onboard applications where conventional operation is severely degraded, providing a pathway to augment the performance of current and next-generation atom inertial sensors in real-world settings.
翻訳日:2023-05-04 17:45:30 公開日:2023-05-03
# ハンズオン実験室による量子通信教育

Teaching quantum communications through a hands-on laboratory ( http://arxiv.org/abs/2303.01251v2 )

ライセンス: Link先を確認
Alberto Sebasti\'an-Lombra\~na, Laura Ortiz, Juan P. Brito, Jaime S\'aez de Buruaga, Rafael J. Vicente, Ruben B. Mendez, Rafael Arti\~nano, Vicente Mart\'in(参考訳) 異なる技術とエンジニアリングのバックグラウンドを巻き込む場合、量子コミュニケーションを教えることは難しい課題です。 これらのプロファイルの知識や、デモンストレーションやエクササイズで利用可能な他の技術リソースを活用するアプローチの使用は、この教育を強化する。 本稿は,2021年の第6回INFIERIサマースクールで行われた「量子コミュニケーション研究所」の事例として紹介する。 この研究室では、マドリード量子通信インフラ(MadQCI)へのアクセスが重要なリソースであった。

Teaching quantum communication is a challenging task when involving different technical and engineering backgrounds. The use of an approach that exploits the knowledge of these profiles, as well as other technological resources available for demonstrations or exercises, enhances this teaching. This paper presents as an example the "Quantum Communications Lab" that took place at the 6th INFIERI Summer School in 2021. In this lab, the access to the Madrid Quantum Communication Infrastructure (MadQCI) was an important resource available.
翻訳日:2023-05-04 17:45:05 公開日:2023-05-03
# $(\alpha_D,\alpha_G)$-GANs: デュアルオブジェクトによるGANトレーニングの不安定性への対処

$(\alpha_D,\alpha_G)$-GANs: Addressing GAN Training Instabilities via Dual Objectives ( http://arxiv.org/abs/2302.14320v2 )

ライセンス: Link先を確認
Monica Welfert, Kyle Otstot, Gowtham R. Kurri, Lalitha Sankar(参考訳) GANのトレーニング不安定性に対処するために、生成器(G)と識別器(D)に対して異なる値関数(対象物)を持つ二重目的GANのクラスを導入する。 特に、調整可能な分類損失である$\alpha$-lossを用いて各目的をモデル化し、$(\alpha_D,\alpha_G)$-GANsを求め、$(\alpha_D,\alpha_G)\in (0,\infty]^2$でパラメータ化する。 g と d の十分な数のサンプルと容量について、結果の非零和ゲームは $(\alpha_d,\alpha_g)$ の適切な条件下での$f$-divergence を最小化する。 有限サンプルとキャパシティ設定において、無限サンプルの最適設定に対するジェネレータ性能のギャップを定量化するための推定誤差を定義し、この誤差の上限を求め、一定の条件下で最適であることを示す。 最後に、合成2Dガウス混合環とスタックドMNISTデータセットのトレーニング不安定性を緩和するために、$(\alpha_D,\alpha_G)$のチューニング値を強調した。

In an effort to address the training instabilities of GANs, we introduce a class of dual-objective GANs with different value functions (objectives) for the generator (G) and discriminator (D). In particular, we model each objective using $\alpha$-loss, a tunable classification loss, to obtain $(\alpha_D,\alpha_G)$-GANs, parameterized by $(\alpha_D,\alpha_G)\in (0,\infty]^2$. For sufficiently large number of samples and capacities for G and D, we show that the resulting non-zero sum game simplifies to minimizing an $f$-divergence under appropriate conditions on $(\alpha_D,\alpha_G)$. In the finite sample and capacity setting, we define estimation error to quantify the gap in the generator's performance relative to the optimal setting with infinite samples and obtain upper bounds on this error, showing it to be order optimal under certain conditions. Finally, we highlight the value of tuning $(\alpha_D,\alpha_G)$ in alleviating training instabilities for the synthetic 2D Gaussian mixture ring and the Stacked MNIST datasets.
翻訳日:2023-05-04 17:44:57 公開日:2023-05-03
# うつ病早期発見のためのソーシャルメディアの探索

Exploring Social Media for Early Detection of Depression in COVID-19 Patients ( http://arxiv.org/abs/2302.12044v2 )

ライセンス: Link先を確認
Jiageng Wu, Xian Wu, Yining Hua, Shixu Lin, Yefeng Zheng, Jie Yang(参考訳) 新型コロナウイルス(COVID-19)のパンデミックは世界的な健康に深刻な打撃を与えた。 3年が経過したにもかかわらず、世界は引き続きウイルスと闘っている。 新型コロナウイルス(COVID-19)がうつ病を経験しやすく、感染した個人と世界の両方に長期にわたる影響をもたらす可能性がある個人のメンタルヘルスに影響を及ぼすとの懸念が高まっている。 早期発見と介入は、新型コロナウイルス患者のうつ病のリスクを減少させる可能性がある。 本稿では,ソーシャルメディア分析による新型コロナウイルス感染とうつ病との関連について検討した。 まず、感染前後のソーシャルメディア活動に関する情報を含む、新型コロナウイルス(covid-19)患者のデータセットを管理した。 第2に,うつ病リスクの高いCOVID-19患者の特徴を明らかにするために,このデータセットを広範囲に分析した。 第3に,抑うつリスクの早期予測のためのディープニューラルネットワークを提案する。 本モデルは,日常の気分変動を精神信号とみなし,知識蒸留による文章的・感情的特徴を取り入れたモデルである。 実験の結果,提案手法は抑うつリスクの検出において,auroc 0.9317,auprc 0.8116の基準値を上回ることがわかった。 我々のモデルは、公衆衛生機関が高リスク患者への迅速な介入を開始できる可能性を持っている

The COVID-19 pandemic has caused substantial damage to global health. Even though three years have passed, the world continues to struggle with the virus. Concerns are growing about the impact of COVID-19 on the mental health of infected individuals, who are more likely to experience depression, which can have long-lasting consequences for both the affected individuals and the world. Detection and intervention at an early stage can reduce the risk of depression in COVID-19 patients. In this paper, we investigated the relationship between COVID-19 infection and depression through social media analysis. Firstly, we managed a dataset of COVID-19 patients that contains information about their social media activity both before and after infection. Secondly,We conducted an extensive analysis of this dataset to investigate the characteristic of COVID-19 patients with a higher risk of depression. Thirdly, we proposed a deep neural network for early prediction of depression risk. This model considers daily mood swings as a psychiatric signal and incorporates textual and emotional characteristics via knowledge distillation. Experimental results demonstrate that our proposed framework outperforms baselines in detecting depression risk, with an AUROC of 0.9317 and an AUPRC of 0.8116. Our model has the potential to enable public health organizations to initiate prompt intervention with high-risk patients
翻訳日:2023-05-04 17:44:30 公開日:2023-05-03
# end-to-end noise-robust音声認識におけるマルチタスク学習のための勾配修正

Gradient Remedy for Multi-Task Learning in End-to-End Noise-Robust Speech Recognition ( http://arxiv.org/abs/2302.11362v2 )

ライセンス: Link先を確認
Yuchen Hu, Chen Chen, Ruizhe Li, Qiushi Zhu, Eng Siong Chng(参考訳) 音声強調 (se) は, 下流自動音声認識 (asr) におけるノイズ低減に有効であり, これら2つのタスクを協調的に最適化するためにマルチタスク学習戦略が採用されている。 しかし、SE目標によって学習された強化音声は、必ずしも良好なASR結果をもたらすとは限らない。 最適化の観点からは、SEタスクとASRタスクの勾配が干渉することがあるため、マルチタスク学習が妨げられ、最終的に準最適ASR性能につながる可能性がある。 本稿では,ノイズロスト音声認識におけるタスク勾配間の干渉を,角度と大きさの両面から解消する,グラデーション・レメディエーション(GR)と呼ばれるシンプルなアプローチを提案する。 具体的には,seタスクの勾配をasr勾配に鋭角の動的表面に投影し,それらの衝突を除去し,asr最適化を支援する。 さらに,2つの勾配の大きさを適応的に再スケールすることで,asrタスクがse勾配によってミスされるのを防ぐ。 実験の結果, 提案手法は, ラットおよびchime-4データセットにおいて, 勾配干渉を良好に解決し, 単語誤り率 (wer) を9.3%, 11.1%削減できた。 私たちのコードはGitHubで入手可能です。

Speech enhancement (SE) is proved effective in reducing noise from noisy speech signals for downstream automatic speech recognition (ASR), where multi-task learning strategy is employed to jointly optimize these two tasks. However, the enhanced speech learned by SE objective may not always yield good ASR results. From the optimization view, there sometimes exists interference between the gradients of SE and ASR tasks, which could hinder the multi-task learning and finally lead to sub-optimal ASR performance. In this paper, we propose a simple yet effective approach called gradient remedy (GR) to solve interference between task gradients in noise-robust speech recognition, from perspectives of both angle and magnitude. Specifically, we first project the SE task's gradient onto a dynamic surface that is at acute angle to ASR gradient, in order to remove the conflict between them and assist in ASR optimization. Furthermore, we adaptively rescale the magnitude of two gradients to prevent the dominant ASR task from being misled by SE gradient. Experimental results show that the proposed approach well resolves the gradient interference and achieves relative word error rate (WER) reductions of 9.3% and 11.1% over multi-task learning baseline, on RATS and CHiME-4 datasets, respectively. Our code is available at GitHub.
翻訳日:2023-05-04 17:44:12 公開日:2023-05-03
# 反復計画におけるグループユーティリティの最適化:戦略的・集団的アプローチ

Optimizing Group Utility in Itinerary Planning: A Strategic and Crowd-Aware Approach ( http://arxiv.org/abs/2304.08495v3 )

ライセンス: Link先を確認
Junhua Liu, Kwan Hui Lim, Kristin L. Wood, Menglin Li(参考訳) イテナリーレコメンデーションは複雑なシーケンス予測問題であり、多くの実世界のアプリケーションがある。 このタスクは、複数のユーザーキューイング時間や群衆レベルの最適化、アトラクションの人気、キューイング時間、歩行時間、営業時間といった多くのパラメータを考慮するとさらに困難になる。 既存のソリューションは通常、一人称視点にフォーカスし、利己的なルーティング問題のような自然な群衆の振る舞いによって生じる現実世界の問題に対処できない。 本稿では,実環境におけるグループユーティリティを最適化するStrategic and Crowd-Aware Itinerary Recommendation (SCAIR)アルゴリズムを提案する。 経路推薦戦略をマルコフ決定プロセスとしてモデル化し,線形時間におけるリアルタイム計画と割り当てを可能にする状態符号化機構を提案する。 提案手法は,テーマパークのデータセットを用いて,様々な競合ベースラインに対する評価を行い,4つのテーマパークを横断する利己的なルーティング問題に対して,スカアがこれらのベースラインよりも優れていることを示す。

Itinerary recommendation is a complex sequence prediction problem with numerous real-world applications. This task becomes even more challenging when considering the optimization of multiple user queuing times and crowd levels, as well as numerous involved parameters, such as attraction popularity, queuing time, walking time, and operating hours. Existing solutions typically focus on single-person perspectives and fail to address real-world issues resulting from natural crowd behavior, like the Selfish Routing problem. In this paper, we introduce the Strategic and Crowd-Aware Itinerary Recommendation (SCAIR) algorithm, which optimizes group utility in real-world settings. We model the route recommendation strategy as a Markov Decision Process and propose a State Encoding mechanism that enables real-time planning and allocation in linear time. We evaluate our algorithm against various competitive and realistic baselines using a theme park dataset, demonstrating that SCAIR outperforms these baselines in addressing the Selfish Routing problem across four theme parks.
翻訳日:2023-05-04 17:37:19 公開日:2023-05-03
# ImpressionGPT: ChatGPTによる放射線学レポート要約のための反復最適化フレームワーク

ImpressionGPT: An Iterative Optimizing Framework for Radiology Report Summarization with ChatGPT ( http://arxiv.org/abs/2304.08448v2 )

ライセンス: Link先を確認
Chong Ma, Zihao Wu, Jiaqi Wang, Shaochen Xu, Yaonai Wei, Zhengliang Liu, Xi Jiang, Lei Guo, Xiaoyan Cai, Shu Zhang, Tuo Zhang, Dajiang Zhu, Dinggang Shen, Tianming Liu, Xiang Li(参考訳) 放射線医学レポートの「インプレッション」セクションは、放射線科医と他の医師とのコミュニケーションの重要な基盤であり、一般的には「発見」セクションに基づいた放射線科医によって書かれる。 しかし、多くの印象書を書くことは、放射線科医にとって面倒で誤りやすい。 近年の研究では、事前訓練と微調整のための大規模医療用テキストデータを用いた印象自動生成の有望な成果が得られているが、そのようなモデルは大量の医療用テキストデータを必要とし、一般化性能が劣ることが多い。 ChatGPTのような大規模言語モデル(LLM)は強力な一般化能力と性能を示してきたが、放射線学のような特定の領域における性能は未検討であり、潜在的に制限されている。 そこで本研究では,ドメイン固有の個別化データを用いて動的コンテキストを構築することで,llmの文脈内学習能力を活用するインプレッションgptを提案する。 この動的プロンプトアプローチにより、モデルが既存のデータから意味的に類似した例から文脈知識を学習することができる。 さらに,生成された印象結果の自動評価を行い,それに対応する命令プロンプトを構成する反復最適化アルゴリズムを設計し,さらに最適化する。 提案したImpressionGPTモデルは,MIMIC-CXRおよびOpenIデータセット上で,追加のトレーニングデータやLLMの微調整を必要とせずに,最先端のパフォーマンスを実現する。 本研究は,LLMをローカライズするためのパラダイムとして,汎用LLMと各種ドメインの言語処理ニーズとのギャップを埋める,様々なアプリケーションシナリオに適用可能な手法を提案する。

The 'Impression' section of a radiology report is a critical basis for communication between radiologists and other physicians, and it is typically written by radiologists based on the 'Findings' section. However, writing numerous impressions can be laborious and error-prone for radiologists. Although recent studies have achieved promising results in automatic impression generation using large-scale medical text data for pre-training and fine-tuning pre-trained language models, such models often require substantial amounts of medical text data and have poor generalization performance. While large language models (LLMs) like ChatGPT have shown strong generalization capabilities and performance, their performance in specific domains, such as radiology, remains under-investigated and potentially limited. To address this limitation, we propose ImpressionGPT, which leverages the in-context learning capability of LLMs by constructing dynamic contexts using domain-specific, individualized data. This dynamic prompt approach enables the model to learn contextual knowledge from semantically similar examples from existing data. Additionally, we design an iterative optimization algorithm that performs automatic evaluation on the generated impression results and composes the corresponding instruction prompts to further optimize the model. The proposed ImpressionGPT model achieves state-of-the-art performance on both MIMIC-CXR and OpenI datasets without requiring additional training data or fine-tuning the LLMs. This work presents a paradigm for localizing LLMs that can be applied in a wide range of similar application scenarios, bridging the gap between general-purpose LLMs and the specific language processing needs of various domains.
翻訳日:2023-05-04 17:37:00 公開日:2023-05-03
# シングルスキャン光コヒーレンストモグラフィーのための深層学習に基づく血管抽出

Deep-Learning-based Vasculature Extraction for Single-Scan Optical Coherence Tomography Angiography ( http://arxiv.org/abs/2304.08282v3 )

ライセンス: Link先を確認
Jinpeng Liao, Tianyu Zhang, Yilong Zhang, Chunhui Li, Zhihong Huang(参考訳) 光コヒーレンス断層撮影血管造影(OCTA)は、周囲の静的生体組織から赤血球シグナルを抽出することによりOCTの機能を拡張する非侵襲的な画像モダリティである。 OCTAは皮膚微小血管の分析に有用なツールとして登場し、より正確な診断と治療のモニタリングを可能にしている。 speckle variance (sv)-およびeigen-decomposition (ed)-octaのような既存のオクタード抽出アルゴリズムは、同じ位置においてより多くの繰り返し (nr) oct スキャンを実装し、高品質の血管造影画像を生成する。 しかし、より高いNRは、より長いデータ取得時間を必要とし、予測不可能なモーションアーティファクトをもたらす。 本研究では1回のOCTスキャンのみを用いてOCTA画像を生成する血管抽出パイプラインを提案する。 このパイプラインは、画像パッチ間の空間関係をよりよく学習するために畳み込み投影を利用するvet(vasculature extraction transformer)に基づいている。 SV-OCTA (PSNR: 17.809) とED-OCTA (PSNR: 18.049) による4回のOCTスキャンによるOCTA画像と比較すると、VETによって抽出されたOCTA画像は、必要なデータ取得時間を ~8秒から ~2秒に短縮しつつ、中程度の品質 (PSNR: 17.515) と高い画像コントラストを示す。 視覚観察に基づいて,提案するvetは,スキャンが難しい領域でネックデータと面オクタデータを使用する場合,svおよびedアルゴリズムよりも優れている。 本研究は、VETが高速1回OCTスキャンから血管画像の抽出能力を有しており、患者の正確な診断を容易にすることを示唆している。

Optical coherence tomography angiography (OCTA) is a non-invasive imaging modality that extends the functionality of OCT by extracting moving red blood cell signals from surrounding static biological tissues. OCTA has emerged as a valuable tool for analyzing skin microvasculature, enabling more accurate diagnosis and treatment monitoring. Most existing OCTA extraction algorithms, such as speckle variance (SV)- and eigen-decomposition (ED)-OCTA, implement a larger number of repeated (NR) OCT scans at the same position to produce high-quality angiography images. However, a higher NR requires a longer data acquisition time, leading to more unpredictable motion artifacts. In this study, we propose a vasculature extraction pipeline that uses only one-repeated OCT scan to generate OCTA images. The pipeline is based on the proposed Vasculature Extraction Transformer (VET), which leverages convolutional projection to better learn the spatial relationships between image patches. In comparison to OCTA images obtained via the SV-OCTA (PSNR: 17.809) and ED-OCTA (PSNR: 18.049) using four-repeated OCT scans, OCTA images extracted by VET exhibit moderate quality (PSNR: 17.515) and higher image contrast while reducing the required data acquisition time from ~8 s to ~2 s. Based on visual observations, the proposed VET outperforms SV and ED algorithms when using neck and face OCTA data in areas that are challenging to scan. This study represents that the VET has the capacity to extract vascularture images from a fast one-repeated OCT scan, facilitating accurate diagnosis for patients.
翻訳日:2023-05-04 17:36:32 公開日:2023-05-03
# heat:cpuに基づくコラボレーティブフィルタリングのための高効率で安価なトレーニングシステム

HEAT: A Highly Efficient and Affordable Training System for Collaborative Filtering Based Recommendation on CPUs ( http://arxiv.org/abs/2304.07334v2 )

ライセンス: Link先を確認
Chengming Zhang, Shaden Smith, Baixi Sun, Jiannan Tian, Jonathan Soifer, Xiaodong Yu, Shuaiwen Leon Song, Yuxiong He, Dingwen Tao(参考訳) 協調フィルタリング(CF)は推奨のための最も効果的な手法の1つであることが証明されている。 CFアプローチの中でもSimpleXは、新しい損失関数と適切な数の負のサンプルを採用する最先端の手法である。 しかし、マルチコアcpu上でsimplexを最適化する作業はなく、パフォーマンスが制限される。 そこで我々は,(1)不規則なメモリアクセス,(2)不必要なメモリコピー,(3)冗長な計算など,既存のSimpleX実装の詳細なプロファイリングと解析を行い,その性能ボトルネックを特定する。 これらの問題に対処するため,現代CPUのマルチレベルキャッシュとマルチスレッド機能を完全に実現した効率的なCFトレーニングシステム(HEAT)を提案する。 Specifically, the optimization of HEAT is threefold: (1) It tiles the embedding matrix to increase data locality and reduce cache misses (thus reduces read latency); (2) It optimizes stochastic gradient descent (SGD) with sampling by parallelizing vector products instead of matrix-matrix multiplications, in particular the similarity computation therein, to avoid memory copies for matrix data preparation; and (3) It aggressively reuses intermediate results from the forward phase in the backward phase to alleviate redundant computation. x86とARMアーキテクチャプロセッサの両方で広く使用されている5つのデータセットの評価によると、HEATは既存のCPUソリューションよりも45.2倍のスピードアップ、4.5倍のスピードアップと7.9倍のコスト削減を実現している。

Collaborative filtering (CF) has been proven to be one of the most effective techniques for recommendation. Among all CF approaches, SimpleX is the state-of-the-art method that adopts a novel loss function and a proper number of negative samples. However, there is no work that optimizes SimpleX on multi-core CPUs, leading to limited performance. To this end, we perform an in-depth profiling and analysis of existing SimpleX implementations and identify their performance bottlenecks including (1) irregular memory accesses, (2) unnecessary memory copies, and (3) redundant computations. To address these issues, we propose an efficient CF training system (called HEAT) that fully enables the multi-level caching and multi-threading capabilities of modern CPUs. Specifically, the optimization of HEAT is threefold: (1) It tiles the embedding matrix to increase data locality and reduce cache misses (thus reduces read latency); (2) It optimizes stochastic gradient descent (SGD) with sampling by parallelizing vector products instead of matrix-matrix multiplications, in particular the similarity computation therein, to avoid memory copies for matrix data preparation; and (3) It aggressively reuses intermediate results from the forward phase in the backward phase to alleviate redundant computation. Evaluation on five widely used datasets with both x86- and ARM-architecture processors shows that HEAT achieves up to 45.2X speedup over existing CPU solution and 4.5X speedup and 7.9X cost reduction in Cloud over existing GPU solution with NVIDIA V100 GPU.
翻訳日:2023-05-04 17:35:53 公開日:2023-05-03
# hgwavenet:時間的リンク予測のための双曲グラフニューラルネットワーク

HGWaveNet: A Hyperbolic Graph Neural Network for Temporal Link Prediction ( http://arxiv.org/abs/2304.07302v2 )

ライセンス: Link先を確認
Qijie Bai, Changli Nie, Haiwei Zhang, Dongming Zhao, Xiaojie Yuan(参考訳) 動的グラフにおけるペアノード間の将来のエッジ予測を目的とした時間的リンク予測は、多様なアプリケーションにおいて不可欠である。 しかし、既存の手法は主にユークリッド空間上に構築されており、これは実世界のグラフの正則分布と矛盾し、ノード間の階層的接続を効果的に表現できない。 特別なデータ特性に関して、双曲幾何学はその指数展開性のために理想的な代替となる。 本稿では,双曲空間と時間的リンク予測のためのデータ分布間の適合性を完全に活用する,新しい双曲グラフニューラルネットワークHGWaveNetを提案する。 具体的には,空間的トポロジー構造と時間的進化情報を別々に学習するための2つのキーモジュールを設計する。 一方、双曲拡散グラフ畳み込み(hdgc)モジュールは、より広い範囲の近傍から情報を効果的に集約する。 一方、歴史的状態間の因果相関の内部順序は双曲型拡張因果畳み込み(hdcc)モジュールによって捉えられる。 モデル全体が双曲空間の上に構築され、データフロー全体の階層構造情報を保存します。 HGWaveNetの優位性を証明するため、6つの実世界のグラフデータセットに対して広範な実験を行い、SOTA法よりも時間的リンク予測のためにAUCに対して6.67%の相対的な改善を示した。

Temporal link prediction, aiming to predict future edges between paired nodes in a dynamic graph, is of vital importance in diverse applications. However, existing methods are mainly built upon uniform Euclidean space, which has been found to be conflict with the power-law distributions of real-world graphs and unable to represent the hierarchical connections between nodes effectively. With respect to the special data characteristic, hyperbolic geometry offers an ideal alternative due to its exponential expansion property. In this paper, we propose HGWaveNet, a novel hyperbolic graph neural network that fully exploits the fitness between hyperbolic spaces and data distributions for temporal link prediction. Specifically, we design two key modules to learn the spatial topological structures and temporal evolutionary information separately. On the one hand, a hyperbolic diffusion graph convolution (HDGC) module effectively aggregates information from a wider range of neighbors. On the other hand, the internal order of causal correlation between historical states is captured by hyperbolic dilated causal convolution (HDCC) modules. The whole model is built upon the hyperbolic spaces to preserve the hierarchical structural information in the entire data flow. To prove the superiority of HGWaveNet, extensive experiments are conducted on six real-world graph datasets and the results show a relative improvement by up to 6.67% on AUC for temporal link prediction over SOTA methods.
翻訳日:2023-05-04 17:35:27 公開日:2023-05-03
# DiffFit: 簡単なパラメータ効率の良い微調整による大拡散モデルの解錠性

DiffFit: Unlocking Transferability of Large Diffusion Models via Simple Parameter-Efficient Fine-Tuning ( http://arxiv.org/abs/2304.06648v4 )

ライセンス: Link先を確認
Enze Xie, Lewei Yao, Han Shi, Zhili Liu, Daquan Zhou, Zhaoqiang Liu, Jiawei Li, Zhenguo Li(参考訳) 拡散モデルは高品質な画像の生成に非常に有効であることが証明されている。 しかし、大規模な事前学習拡散モデルを新しい領域に適用することは、現実世界のアプリケーションにとって重要な課題である。 本稿では,新しい領域への高速適応を可能にする大規模事前学習拡散モデルを微調整するパラメータ効率の高い手法であるdifffitを提案する。 DiffFitは、特定のレイヤでバイアス項と新たに追加されたスケーリング要素のみを微調整するが、トレーニングのスピードアップとモデルストレージコストの削減をもたらす、恥ずかしいほど単純である。 完全な微調整と比較すると、DiffFitは2$\times$トレーニングスピードアップを実現しており、全体のモデルパラメータの約0.12\%を格納する必要がある。 高速適応におけるスケーリング因子の有効性を正当化する直観的理論解析が提案されている。 下流の8つのデータセットでは、DiffFitはより効率的でありながら、完全な微調整よりも優れた、あるいは競争的なパフォーマンスを達成する。 注目すべきは、DiffFitが最小のコストを加えることで、訓練済みの低解像度生成モデルを高解像度に適応できることである。 拡散ベースの手法の中で、DiffFitはImageNet 512$\times$512ベンチマークで3.02の最先端FIDを新たに設定し、公開前のImageNet 256$\times$256チェックポイントから25エポックだけを微調整した。

Diffusion models have proven to be highly effective in generating high-quality images. However, adapting large pre-trained diffusion models to new domains remains an open challenge, which is critical for real-world applications. This paper proposes DiffFit, a parameter-efficient strategy to fine-tune large pre-trained diffusion models that enable fast adaptation to new domains. DiffFit is embarrassingly simple that only fine-tunes the bias term and newly-added scaling factors in specific layers, yet resulting in significant training speed-up and reduced model storage costs. Compared with full fine-tuning, DiffFit achieves 2$\times$ training speed-up and only needs to store approximately 0.12\% of the total model parameters. Intuitive theoretical analysis has been provided to justify the efficacy of scaling factors on fast adaptation. On 8 downstream datasets, DiffFit achieves superior or competitive performances compared to the full fine-tuning while being more efficient. Remarkably, we show that DiffFit can adapt a pre-trained low-resolution generative model to a high-resolution one by adding minimal cost. Among diffusion-based methods, DiffFit sets a new state-of-the-art FID of 3.02 on ImageNet 512$\times$512 benchmark by fine-tuning only 25 epochs from a public pre-trained ImageNet 256$\times$256 checkpoint while being 30$\times$ more training efficient than the closest competitor.
翻訳日:2023-05-04 17:35:04 公開日:2023-05-03
# 安全ガイド下網膜微小手術における非教師的分布検出

Unsupervised out-of-distribution detection for safer robotically guided retinal microsurgery ( http://arxiv.org/abs/2304.05040v2 )

ライセンス: Link先を確認
Alain Jungo, Lars Doorenbos, Tommaso Da Col, Maarten Beelen, Martin Zinkernagel, Pablo M\'arquez-Neila, Raphael Sznitman(参考訳) 目的: 安全な機械学習システムを設計する上での基本的な問題は、デプロイされたモデルに提示されたサンプルがトレーニング時に観測されたものとは異なる場合の識別である。 いわゆるオフ・オブ・ディストリビューション(OoD)サンプルの検出は、ロボットガイドによる網膜微小手術(英語版)のような安全上重要な応用において不可欠であり、楽器と網膜の間の距離は、計器積分光コヒーレンス断層撮影(英語版) (iiOCT) プローブによって取得された1D画像のシーケンスから導かれる。 方法: 本研究は, iioctプローブからの画像が後続の機械学習に基づく距離推定に不適切である場合の識別にood検出器を用いた場合の可能性を検討する。 マハラノビス距離に基づく単純なOoD検出器が、実際の外生ブタの眼から得られた劣化サンプルをうまく除去できることを示す。 結果: 提案手法はOoDサンプルの検出に成功し, ダウンストリームタスクの性能を妥当なレベルに維持できることを示した。 MahaADは、同じ種類の汚職で訓練された監督されたアプローチを上回り、現実世界の汚職を伴うiiOCTサンプルのコレクションからOoDのケースを検出する最高のパフォーマンスを達成した。 結論: ood検出による劣化したiioctデータの検出は実現可能であり,腐敗の可能性に関する事前知識は不要である。 その結果、mahaadは、患者を危険にさらす距離の推定をデプロイされた予測モデルが防ぎ、ロボットガイドによるマイクロサージの際の患者の安全性を確保するのに役立つ。

Purpose: A fundamental problem in designing safe machine learning systems is identifying when samples presented to a deployed model differ from those observed at training time. Detecting so-called out-of-distribution (OoD) samples is crucial in safety-critical applications such as robotically guided retinal microsurgery, where distances between the instrument and the retina are derived from sequences of 1D images that are acquired by an instrument-integrated optical coherence tomography (iiOCT) probe. Methods: This work investigates the feasibility of using an OoD detector to identify when images from the iiOCT probe are inappropriate for subsequent machine learning-based distance estimation. We show how a simple OoD detector based on the Mahalanobis distance can successfully reject corrupted samples coming from real-world ex vivo porcine eyes. Results: Our results demonstrate that the proposed approach can successfully detect OoD samples and help maintain the performance of the downstream task within reasonable levels. MahaAD outperformed a supervised approach trained on the same kind of corruptions and achieved the best performance in detecting OoD cases from a collection of iiOCT samples with real-world corruptions. Conclusion: The results indicate that detecting corrupted iiOCT data through OoD detection is feasible and does not need prior knowledge of possible corruptions. Consequently, MahaAD could aid in ensuring patient safety during robotically guided microsurgery by preventing deployed prediction models from estimating distances that put the patient at risk.
翻訳日:2023-05-04 17:34:35 公開日:2023-05-03
# 前進と後退の2つのステップ - ディープラーニングによる時系列予測再考

Two Steps Forward and One Behind: Rethinking Time Series Forecasting with Deep Learning ( http://arxiv.org/abs/2304.04553v2 )

ライセンス: Link先を確認
Riccardo Ughi, Eugenio Lomurno and Matteo Matteucci(参考訳) Transformerは、人工知能ニューラルネットワークの世界に革命をもたらした、高度に成功したディープラーニングモデルである。 このモデルは注意機構に基づいており、入力データに存在する様々なパターン間の複雑な意味関係を捉えることができる。 これらの特性から, 連続数列の領域への自然適応性を仮定して, 近年, 時系列予測問題に応用されている。 文学で評価された結果にもかかわらず、このアプローチの堅牢性と有効性に疑問を呈する著作もある。 本稿では, 時系列予測の領域に適用した変圧器モデルの有効性をさらに検証し, その限界を実証し, 性能が向上し, 複雑化が著しく少ない代替モデルを提案する。 特に,トランスフォーマーに基づく予測モデルの簡略化が,常に改善につながることを実証的に示し,その成果を実証する。 また,長時間連続予測におけるアート全体の状態と競合するアテンション機構のない浅いモデルを提案し,超長窓上での時系列を正確に予測する能力を示す。 方法論学的観点からは,提案モデルの有効性を検証するために,単純なベースラインを常に使用する必要があることを示し,最後に,最近の研究経路と,必要とされない傾向や誇大広告に追従する機会を振り返って,論文をまとめる。

The Transformer is a highly successful deep learning model that has revolutionised the world of artificial neural networks, first in natural language processing and later in computer vision. This model is based on the attention mechanism and is able to capture complex semantic relationships between a variety of patterns present in the input data. Precisely because of these characteristics, the Transformer has recently been exploited for time series forecasting problems, assuming a natural adaptability to the domain of continuous numerical series. Despite the acclaimed results in the literature, some works have raised doubts about the robustness and effectiveness of this approach. In this paper, we further investigate the effectiveness of Transformer-based models applied to the domain of time series forecasting, demonstrate their limitations, and propose a set of alternative models that are better performing and significantly less complex. In particular, we empirically show how simplifying Transformer-based forecasting models almost always leads to an improvement, reaching state of the art performance. We also propose shallow models without the attention mechanism, which compete with the overall state of the art in long time series forecasting, and demonstrate their ability to accurately predict time series over extremely long windows. From a methodological perspective, we show how it is always necessary to use a simple baseline to verify the effectiveness of proposed models, and finally, we conclude the paper with a reflection on recent research paths and the opportunity to follow trends and hypes even where it may not be necessary.
翻訳日:2023-05-04 17:34:09 公開日:2023-05-03
# CitePrompt: 科学論文の引用内容の特定にPromptsを使う

CitePrompt: Using Prompts to Identify Citation Intent in Scientific Papers ( http://arxiv.org/abs/2304.12730v2 )

ライセンス: Link先を確認
Avishek Lahiri, Debarshi Kumar Sanyal, Imon Mukherjee(参考訳) 科学論文の引用は、知的系統の追跡に役立つだけでなく、作品の科学的意義を示す有用な指標でもある。 引用意図は、与えられた文脈における引用の役割を特定することで有益である。 本稿では,引用意図分類のためのプロンプトベース学習のhherto unexploredアプローチを用いたフレームワークであるcitepromptを提案する。 我々は、事前学習された言語モデル、プロンプトテンプレート、およびプロンプト言語化の適切な選択により、最先端の手法で得られたものよりも優れた結果を得るだけでなく、科学的文書に関する外部情報よりも少ない結果を得ることができると主張している。 ACL-ARCデータセットの最先端結果を報告するとともに、SciCiteデータセットは1つを除くすべてのベースラインモデルに対して大幅に改善されている。 引用意図分類のための大きなラベル付きデータセットを見つけるのは非常に難しいため、まず、このタスクを少数ショットおよびゼロショット設定に変換することを提案する。 ACL-ARCデータセットでは、ゼロショット設定で53.86%のF1スコアを報告し、5ショット設定と10ショット設定でそれぞれ63.61%と66.99%に改善した。

Citations in scientific papers not only help us trace the intellectual lineage but also are a useful indicator of the scientific significance of the work. Citation intents prove beneficial as they specify the role of the citation in a given context. In this paper, we present CitePrompt, a framework which uses the hitherto unexplored approach of prompt-based learning for citation intent classification. We argue that with the proper choice of the pretrained language model, the prompt template, and the prompt verbalizer, we can not only get results that are better than or comparable to those obtained with the state-of-the-art methods but also do it with much less exterior information about the scientific document. We report state-of-the-art results on the ACL-ARC dataset, and also show significant improvement on the SciCite dataset over all baseline models except one. As suitably large labelled datasets for citation intent classification can be quite hard to find, in a first, we propose the conversion of this task to the few-shot and zero-shot settings. For the ACL-ARC dataset, we report a 53.86% F1 score for the zero-shot setting, which improves to 63.61% and 66.99% for the 5-shot and 10-shot settings, respectively.
翻訳日:2023-05-04 17:28:23 公開日:2023-05-03
# 医用samアダプタ : 医用画像分割のためのsegment anythingモデルの適用

Medical SAM Adapter: Adapting Segment Anything Model for Medical Image Segmentation ( http://arxiv.org/abs/2304.12620v3 )

ライセンス: Link先を確認
Junde Wu and Rao Fu and Huihui Fang and Yuanpei Liu and Zhaowei Wang and Yanwu Xu and Yueming Jin and Tal Arbel(参考訳) Segment Anything Model (SAM)は画像セグメンテーションの分野で最近人気を集めている。 全面的なセグメンテーションタスクとプロンプトベースのインターフェースの素晴らしい機能のおかげで、SAMはコミュニティ内で激しい議論を巻き起こした。 イメージセグメンテーションのタスクはSAMによって「完了」されたと多くの名高い専門家から言われている。 しかし, イメージセグメンテーションは, イメージセグメンテーションファミリーの重要な分枝であるが, セグメンテーション"Anything"の範囲には含まれていないようである。 多くの個人実験や最近の研究では、SAMは医療画像のセグメンテーションのサブパールを担っていることが示されている。 自然な疑問は、SAMの強力なセグメンテーション能力を医療画像セグメンテーションに拡張するために、パズルの欠片を見つける方法である。 本稿では,SAMモデルを微調整する代わりに,医療特化領域の知識をセグメンテーションモデルに統合するMed SAM Adapterを提案する。 この単純な実装は、医療画像のセグメンテーションにおいて驚くほど優れた性能を示しており、一般的なNLP技術であるAdapterをコンピュータビジョンのケースに転送する試みの1つだ。 医用SAMアダプタ (MSA) は, CT, MRI, 超音波画像, 眼底画像, 皮膚内視鏡画像など, 様々な画像モダリティを有する19の医用画像セグメンテーションタスクにおいて, 優れた性能を示した。 MSAは、nnUNet、TransUNet、UNetr、MedSegDiffのような幅広い最先端(SOTA)の医療画像セグメンテーション手法より優れており、また、完全に細返されたMedSAMよりもかなりパフォーマンスの差がある。 コードは、https://github.com/WuJunde/Medical-SAM-Adapter.comでリリースされる。

The Segment Anything Model (SAM) has recently gained popularity in the field of image segmentation. Thanks to its impressive capabilities in all-round segmentation tasks and its prompt-based interface, SAM has sparked intensive discussion within the community. It is even said by many prestigious experts that image segmentation task has been "finished" by SAM. However, medical image segmentation, although an important branch of the image segmentation family, seems not to be included in the scope of Segmenting "Anything". Many individual experiments and recent studies have shown that SAM performs subpar in medical image segmentation. A natural question is how to find the missing piece of the puzzle to extend the strong segmentation capability of SAM to medical image segmentation. In this paper, instead of fine-tuning the SAM model, we propose Med SAM Adapter, which integrates the medical specific domain knowledge to the segmentation model, by a simple yet effective adaptation technique. Although this work is still one of a few to transfer the popular NLP technique Adapter to computer vision cases, this simple implementation shows surprisingly good performance on medical image segmentation. A medical image adapted SAM, which we have dubbed Medical SAM Adapter (MSA), shows superior performance on 19 medical image segmentation tasks with various image modalities including CT, MRI, ultrasound image, fundus image, and dermoscopic images. MSA outperforms a wide range of state-of-the-art (SOTA) medical image segmentation methods, such as nnUNet, TransUNet, UNetr, MedSegDiff, and also outperforms the fully fine-turned MedSAM with a considerable performance gap. Code will be released at: https://github.com/WuJunde/Medical-SAM-Adapter.
翻訳日:2023-05-04 17:27:59 公開日:2023-05-03
# Pylogik を用いた医用画像の識別・洗浄・圧縮

Medical Image Deidentification, Cleaning and Compression Using Pylogik ( http://arxiv.org/abs/2304.12322v2 )

ライセンス: Link先を確認
Adrienne Kline, Vinesh Appadurai, Yuan Luo, Sanjiv Shah(参考訳) ビッグデータと機械学習の時代における医療記録情報の活用は、データのクリーン化と識別の欠如に注意する必要がある。 保護された健康情報(PHI)が画像メタデータに含まれる場合,多施設連携のためのデータ共有と調和は特に困難である。 我々は,pylogikと呼ばれるpythonフレームワークの新しいライブラリを提案し,超音波画像に対するこの問題を軽減する。 PyLogikは、一連のテキスト検出/抽出、フィルタリング、しきい値、形態と輪郭の比較を通じて画像ボリュームを処理する。 この方法論は、イメージを識別し、ファイルサイズを小さくし、ディープラーニングとデータ共有のアプリケーション用の画像ボリュームを作成する。 興味領域(ROI)の同定における有効性を評価するため,PyLogikを用いて50個の心エコー(心電図)のランダムサンプルを処理し,専門家による手動セグメンテーションと比較した。 2つのアプローチのDice係数は0.976の平均値を達成した。 次に,アルゴリズムを用いて得られた情報圧縮の程度を確認するために調査を行った。 結果、pylogikによる処理後、平均で約72%小さくなることがわかった。 以上の結果から,PyLogikは超音波データのクリーニングや識別,ROIの決定,ファイル圧縮に有効な手法であることが示唆された。

Leveraging medical record information in the era of big data and machine learning comes with the caveat that data must be cleaned and deidentified. Facilitating data sharing and harmonization for multi-center collaborations are particularly difficult when protected health information (PHI) is contained or embedded in image meta-data. We propose a novel library in the Python framework, called PyLogik, to help alleviate this issue for ultrasound images, which are particularly challenging because of the frequent inclusion of PHI directly on the images. PyLogik processes the image volumes through a series of text detection/extraction, filtering, thresholding, morphological and contour comparisons. This methodology deidentifies the images, reduces file sizes, and prepares image volumes for applications in deep learning and data sharing. To evaluate its effectiveness in the identification of regions of interest (ROI), a random sample of 50 cardiac ultrasounds (echocardiograms) were processed through PyLogik, and the outputs were compared with the manual segmentations by an expert user. The Dice coefficient of the two approaches achieved an average value of 0.976. Next, an investigation was conducted to ascertain the degree of information compression achieved using the algorithm. Resultant data was found to be on average approximately 72% smaller after processing by PyLogik. Our results suggest that PyLogik is a viable methodology for ultrasound data cleaning and deidentification, determining ROI, and file compression which will facilitate efficient storage, use, and dissemination of ultrasound data.
翻訳日:2023-05-04 17:27:23 公開日:2023-05-03
# ブラックホール放射における重力の揺らぎ力の無関係について

On the irrelevance of the scrambling power of gravity for black hole radiation ( http://arxiv.org/abs/2304.12278v2 )

ライセンス: Link先を確認
Xuan-Lin Su, Alioscia Hamma and Antonino Marciano(参考訳) ブラックホールは、事象の地平線に特徴付けられる一般相対性理論の予測であり、そこから情報は逃れられない。 量子力学のレンズを通して観察すると、質量と地平線半径に対して一定の温度で放射することができる。 ホーキング放射は、ブラックホールから散乱する粒子を考慮し、スペクトルが計算され、それらの中に落下する情報の損失のパラドックスと結びついている。 情報は揺るぎなくなりかねない。 平坦な時空間におけるソフトな放射散乱は、スクランブル情報も行う。 この目的のために、ブラックホールからの散乱過程における三成分相互情報を介して情報のスクランブルを計算し、平坦な時空アナログと比較する。 ブラックホールの重力場の揺らぎ力は、平坦な時空の揺らぎ力に対して無視可能であることを示す。

Black holes are a recently observed theoretical prediction of General Relativity, characterized by event horizons, from which information cannot escape. Examined through the lenses of quantum mechanics, they can radiate at a definite temperature inverse to their mass and horizon radius. Hawking radiation, whose spectrum was calculated considering particles scattering off black holes, is connected to the paradox of the loss of information falling into them. Information can become non-fungible, due to scrambling. We demonstrate this feature not to be restricted to curved space-times: soft radiation scattering in a flat space-time does scramble information as well. To this end, we compute the scrambling of information through the tripartite mutual information in a scattering process off a black hole and compare it with the flat space-time analog. We show that the scrambling power of the gravitational field of a black hole is negligible with respect to the scrambling power of flat space-time.
翻訳日:2023-05-04 17:26:58 公開日:2023-05-03
# ソフト光子のスクランブルパワー

Scrambling Power of Soft Photons ( http://arxiv.org/abs/2304.12277v2 )

ライセンス: Link先を確認
Xuan-Lin Su, Alioscia Hamma and Antonino Marciano(参考訳) 可観測散乱過程は軟質光子の発光吸収を伴う。 これらの自由度が検出されないと、いくつかの情報は失われる。 この情報の一部が硬質光子の観測で回収できるかどうかは、情報のスクランブルの実際のパターンに依存する。 2-renyiエントロピーの観点から3部共役情報による光子散乱の情報スクランブルを計算し,有限量のスクランブルが存在することを確認する。 開発された手法は、ブラックホール情報損失パラドックスに新しい光を当て、スクランブルは、完全に一元的な過程におけるソフト光子の放出吸収のため、散乱系が環境との相互作用において達成した非一貫性の副産物であることを示した。

Observable scattering processes entail emission-absorption of soft photons. As these degrees of freedom go undetected, some information is lost. Whether some of this information can be recovered in the observation of the hard photons, depends of the actual pattern of the scrambling of information. We compute the information scrambling of photon scattering by the tripartite mutual information in terms of the 2-Renyi entropy, and find a finite amount of scrambling is present. The developed procedure thus sheds novel light on the black hole information loss paradox, showing that scrambling is a byproduct of decoherence achieved by the scattering system in its interaction with the environment, due to the emission-absorption of soft photons in fully unitary processes.
翻訳日:2023-05-04 17:26:44 公開日:2023-05-03
# データから常微分方程式を自動同定する

Automatically identifying ordinary differential equations from data ( http://arxiv.org/abs/2304.11182v2 )

ライセンス: Link先を確認
Kevin Egan and Weizhen Li and Rui Carvalho(参考訳) 経験的データから系力学を記述する非線形微分方程式の発見は、現代科学における根本的な課題である。 そこで本研究では,信号の平滑化や,関連するパラメータを識別するための疎回帰,推定の不確かさを定量化するためのブートストラップ信頼区間など,動的法則の同定手法を提案する。 本手法は,ランダム初期条件のアンサンブル,長さ増加の時系列,信号対雑音比の変動により,よく知られた常微分方程式に対する評価を行う。 提案アルゴリズムは,中等度な時系列と背景雑音に対して高い信号品質を有する3次元系を連続的に同定する。 力学系を自動で発見することにより, 複雑なシステム, 特にデータが豊富である分野において, 複雑なシステムの理解に影響を及ぼす可能性がある。

Discovering nonlinear differential equations that describe system dynamics from empirical data is a fundamental challenge in contemporary science. Here, we propose a methodology to identify dynamical laws by integrating denoising techniques to smooth the signal, sparse regression to identify the relevant parameters, and bootstrap confidence intervals to quantify the uncertainty of the estimates. We evaluate our method on well-known ordinary differential equations with an ensemble of random initial conditions, time series of increasing length, and varying signal-to-noise ratios. Our algorithm consistently identifies three-dimensional systems, given moderately-sized time series and high levels of signal quality relative to background noise. By accurately discovering dynamical systems automatically, our methodology has the potential to impact the understanding of complex systems, especially in fields where data are abundant, but developing mathematical models demands considerable effort.
翻訳日:2023-05-04 17:26:32 公開日:2023-05-03
# GREATスコア: 生成モデルを用いた対向摂動のグローバルロバストネス評価

GREAT Score: Global Robustness Evaluation of Adversarial Perturbation using Generative Models ( http://arxiv.org/abs/2304.09875v2 )

ライセンス: Link先を確認
Zaitang Li, Pin-Yu Chen and Tsung-Yi Ho(参考訳) 対向ロバストネスに関する最近の研究は、主に異なるモデルの評価とランク付けを行う一連のデータサンプルからの局所ロバストネス結果の集約に焦点を当てている。 しかし、ローカル統計は、基礎となる未知のデータ分布の真のグローバルロバスト性を表しているのではないかもしれない。 この課題に対処するため,本論文は,生成モデルを用いた逆摂動のグローバルロバスト性評価のための,great score と呼ばれる新しい枠組みを初めて提示する試みである。 正式には、GREAT Scoreは、生成モデルから引き出された全てのサンプルに対して平均的な攻撃防御摂動レベルを捕捉するグローバル統計の物理的意味を持つ。 また, 有限サンプル評価において, サンプル平均と真の平均との差と, サンプルの複雑さの確率的保証を導出する。 優れたスコアにはいくつかの利点がある。 1) 優れたスコアを用いた堅牢性評価は、敵の攻撃を回避し、大規模モデルに対して効率的でスケーラブルである。 特に,ロバストベンチの攻撃ベースモデル(Croce,et. 2021)と比較して,高い相関性を示し,GREATスコアの計算コストを大幅に削減した。 2) 生成モデルを用いることで未知のデータ分布の近似が容易になる。 本研究は,GAN (Generative Adversarial Network) を用いたアブレーション研究において,グローバルロバストネス評価とGANの品質の整合性を観察する。 3) オンライン顔認識サービスのロバスト性評価によって示されるように,優れたスコアは,プライバシに敏感なブラックボックスモデルの遠隔監査に使用できる。

Current studies on adversarial robustness mainly focus on aggregating local robustness results from a set of data samples to evaluate and rank different models. However, the local statistics may not well represent the true global robustness of the underlying unknown data distribution. To address this challenge, this paper makes the first attempt to present a new framework, called GREAT Score , for global robustness evaluation of adversarial perturbation using generative models. Formally, GREAT Score carries the physical meaning of a global statistic capturing a mean certified attack-proof perturbation level over all samples drawn from a generative model. For finite-sample evaluation, we also derive a probabilistic guarantee on the sample complexity and the difference between the sample mean and the true mean. GREAT Score has several advantages: (1) Robustness evaluations using GREAT Score are efficient and scalable to large models, by sparing the need of running adversarial attacks. In particular, we show high correlation and significantly reduced computation cost of GREAT Score when compared to the attack-based model ranking on RobustBench (Croce,et. al. 2021). (2) The use of generative models facilitates the approximation of the unknown data distribution. In our ablation study with different generative adversarial networks (GANs), we observe consistency between global robustness evaluation and the quality of GANs. (3) GREAT Score can be used for remote auditing of privacy-sensitive black-box models, as demonstrated by our robustness evaluation on several online facial recognition services.
翻訳日:2023-05-04 17:25:30 公開日:2023-05-03
# 絶対有界スピン状態のポリトープ

Polytopes of Absolutely Wigner Bounded Spin States ( http://arxiv.org/abs/2304.09006v2 )

ライセンス: Link先を確認
J\'er\^ome Denis, Jack Davis, Robert B. Mann, John Martin(参考訳) 我々は、特定の値で割ったウィグナー関数によって特徴づけられる混合スピン状態のユニタリ軌道の性質について研究する。 この目的のために、極大混合状態を中心とするスピン-j混合状態の単純性においてポリトープを定義する線形固有値制約の集合として絶対ウィグナー正状態の集合の特徴付けを拡張する。 下界は、そのような絶対ウィグナー有界(AWB)ポリトープの相対サイズを決定し、それらの幾何学的性質を研究する。 特に、各次元において、純度に基づくタイトなAWB充足基準を表すヒルベルト・シュミット球を正確に決定し、AWBの必要性を表す別の球を推測する。 ポリトープが他の軌道と正のウィグナー関数のみを含む軌道を分離する場合には、スピン状態の非古典性の証人としてウィグナーネガティビティを使用するため、特に注意が払われる。 絶対対称状態分離性と球状グラウバー・スダルシャン正の正の比と、低スピン量子数に対する追加的な詳細を比較する。

We study the properties of unitary orbits of mixed spin states that are characterized by Wigner functions lower bounded by a specified value. To this end, we extend a characterization of the set of absolutely Wigner positive states as a set of linear eigenvalue constraints, which together define a polytope in the simplex of spin-j mixed states centred on the maximally mixed state. The lower bound determines the relative size of such absolutely Wigner bounded (AWB) polytopes and we study their geometric properties. In particular, in each dimension a Hilbert-Schmidt ball representing a tight AWB sufficiency criterion based on the purity is exactly determined, while another ball representing AWB necessity is conjectured. Special attention is given to the case where the polytope separates orbits containing only positive Wigner functions from other orbits because of the use of Wigner negativity as a witness of non-classicality of spin states. Comparisons are made to absolute symmetric state separability and spherical Glauber-Sudarshan positivity, with additional details given for low spin quantum numbers.
翻訳日:2023-05-04 17:25:00 公開日:2023-05-03
# 多結晶組織のニューラルネットワークによるプロセス設計

Neural Network Accelerated Process Design of Polycrystalline Microstructures ( http://arxiv.org/abs/2305.00003v2 )

ライセンス: Link先を確認
Junrong Lin, Mahmudul Hasan, Pinar Acar, Jose Blanchet and Vahid Tarokh(参考訳) 計算実験は、材料構造を望ましい性質に最適化するよく設計された処理経路を見つけるために利用される。 これは、マクロスケール(プロセスパラメータ)をメソ(均質化特性)とマイクロ(結晶テクスチャ)スケールに接続するマルチスケールアプローチを用いて、プロセス-(ミクロ)構造-プロパティ結合間の相互作用を理解する必要がある。 マルチスケール・モデリング・セットアップの性質から、決定木が深くなるにつれて処理経路の選択が指数関数的に増加し、従来のシミュレータの速度が重要な計算しきい値に達する可能性がある。 所与の負荷条件下での微構造進化を予測する際の計算負担を軽減するために,物理拡散制約を用いたニューラルネットワーク(NN)ベースの手法を開発した。 NNは、各基本過程下での微細構造の進化を学習することを目的としている。 本手法は最適処理経路の探索に有効で堅牢である。 本研究では, 均質化剛性を最大化するためにnn法を適用し, 得られた均質化剛性は10過程実験における従来の有限要素シミュレータと比較して0.053%の誤差を達成するとともに, 686倍高速であることが判明した。

Computational experiments are exploited in finding a well-designed processing path to optimize material structures for desired properties. This requires understanding the interplay between the processing-(micro)structure-property linkages using a multi-scale approach that connects the macro-scale (process parameters) to meso (homogenized properties) and micro (crystallographic texture) scales. Due to the nature of the problem's multi-scale modeling setup, possible processing path choices could grow exponentially as the decision tree becomes deeper, and the traditional simulators' speed reaches a critical computational threshold. To lessen the computational burden for predicting microstructural evolution under given loading conditions, we develop a neural network (NN)-based method with physics-infused constraints. The NN aims to learn the evolution of microstructures under each elementary process. Our method is effective and robust in finding optimal processing paths. In this study, our NN-based method is applied to maximize the homogenized stiffness of a Copper microstructure, and it is found to be 686 times faster while achieving 0.053% error in the resulting homogenized stiffness compared to the traditional finite element simulator on a 10-process experiment.
翻訳日:2023-05-04 17:16:47 公開日:2023-05-03
# Search-in-the-Chain:知識集約型タスクのための精度、信頼性、トレース可能な大規模言語モデルを目指して

Search-in-the-Chain: Towards Accurate, Credible and Traceable Large Language Models for Knowledge-intensive Tasks ( http://arxiv.org/abs/2304.14732v2 )

ライセンス: Link先を確認
Shicheng Xu, Liang Pang, Huawei Shen, Xueqi Cheng, Tat-seng Chua(参考訳) ChatGPTのような大規模言語モデル(LLM)の幅広い応用により、特に複雑な知識集約的なタスクにおいて、LLMによって生成されたコンテンツを正確かつ信頼性の高いものにする方法が非常に重要になる。 本稿では,複雑な知識集約タスクであるマルチホップ質問応答のためのllm生成コンテンツの精度,信頼性,トレーサビリティを向上させるための,search-in-the-chain(searchain)と呼ばれる新しいフレームワークを提案する。 SearChainはLLMと情報検索(IR)を深く統合したフレームワークである。 SearChainでは、LLMはマルチホップ問題の分解であるクエリの連鎖を構成する。 チェーンの各ノードは、IR指向のクエリと、このクエリのためにLLMが生成した回答からなるクエリ-問合せペアである。 IRはチェーンの各ノードの情報を確認し、完了し、追跡し、LCMを誘導して正しいチェーン・オブ・クエリを構築し、最後にマルチホップの質問に答える。 SearChainは、マルチホップ問題に直面した場合のクエリーチェーン構築の試みに対する回答から、LLMの変更を可能にし、知識推論能力を刺激し、LLMの推論プロセスに深く関与するIRのインターフェースを提供する。 IRはLLMのチェーン・オブ・クエリの各ノードと相互作用する。 ノードの情報を検証し、llmに未知の知識を提供することで、llmが応答を生成するプロセスにおいて、チェーン全体の正確性を保証する。 また、LCMがユーザに返したコンテンツは、最終回答だけでなく、問合せ、すなわち、チェーンの各ノードに対してIRによって検索されたクエリとサポートドキュメントの推論プロセスも含み、LCMが生成したコンテンツの信頼性とトレーサビリティを向上させる。 実験の結果、SearChainは4つのマルチホップ質問応答データセットのベースラインよりも優れていた。

With the wide application of Large Language Models (LLMs) such as ChatGPT, how to make the contents generated by LLM accurate and credible becomes very important, especially in complex knowledge-intensive tasks. In this paper, we propose a novel framework called Search-in-the-Chain (SearChain) to improve the accuracy, credibility and traceability of LLM-generated content for multi-hop question answering, which is a typical complex knowledge-intensive task. SearChain is a framework that deeply integrates LLM and information retrieval (IR). In SearChain, LLM constructs a chain-of-query, which is the decomposition of the multi-hop question. Each node of the chain is a query-answer pair consisting of an IR-oriented query and the answer generated by LLM for this query. IR verifies, completes, and traces the information of each node of the chain, so as to guide LLM to construct the correct chain-of-query, and finally answer the multi-hop question. SearChain makes LLM change from trying to give a answer to trying to construct the chain-of-query when faced with the multi-hop question, which can stimulate the knowledge-reasoning ability and provides the interface for IR to be deeply involved in reasoning process of LLM. IR interacts with each node of chain-of-query of LLM. It verifies the information of the node and provides the unknown knowledge to LLM, which ensures the accuracy of the whole chain in the process of LLM generating the answer. Besides, the contents returned by LLM to the user include not only the final answer but also the reasoning process for the question, that is, the chain-of-query and the supporting documents retrieved by IR for each node of the chain, which improves the credibility and traceability of the contents generated by LLM. Experimental results show SearChain outperforms related baselines on four multi-hop question-answering datasets.
翻訳日:2023-05-04 17:16:24 公開日:2023-05-03
# HoloLensとInstant-NeRFを組み合わせる - 高度なリアルタイム3Dモバイルマッピング

Combining HoloLens with Instant-NeRFs: Advanced Real-Time 3D Mobile Mapping ( http://arxiv.org/abs/2304.14301v2 )

ライセンス: Link先を確認
Dennis Haitz, Boris Jutzi, Markus Ulrich, Miriam Jaeger, Patrick Huebner(参考訳) この研究は、RGBカメラ画像に基づく高速3D再構成の現代的方法への大きな一歩である。 Microsoft HoloLens 2 を RGB カメラと SLAM ベースのカメラ配置決定のための慣性測定ユニットを含むマルチセンサプラットフォームとして活用することにより,HoloLens から取得したデータをリアルタイムでニューラル・ラジアンス・フィールド (NeRF) をニューラル・シーン表現として訓練する。 HoloLensはWifi経由で、トレーニングと3D再構成を担当する高性能PCに接続される。 データストリームが終了すると、トレーニングが停止し、3D再構成が開始され、シーンの点雲が抽出される。 特殊推論アルゴリズムでは,500万のシーンポイントを1秒以内に抽出できる。 さらに、点雲は点当たりの放射計も含む。 筆者らの3次元再構成法は,複数桁のNeRFを用いた格子点サンプリングよりも優れており,移動体マッピング装置における完全リアルタイム3次元再構成法とみなすことができる。

This work represents a large step into modern ways of fast 3D reconstruction based on RGB camera images. Utilizing a Microsoft HoloLens 2 as a multisensor platform that includes an RGB camera and an inertial measurement unit for SLAM-based camera-pose determination, we train a Neural Radiance Field (NeRF) as a neural scene representation in real-time with the acquired data from the HoloLens. The HoloLens is connected via Wifi to a high-performance PC that is responsible for the training and 3D reconstruction. After the data stream ends, the training is stopped and the 3D reconstruction is initiated, which extracts a point cloud of the scene. With our specialized inference algorithm, five million scene points can be extracted within 1 second. In addition, the point cloud also includes radiometry per point. Our method of 3D reconstruction outperforms grid point sampling with NeRFs by multiple orders of magnitude and can be regarded as a complete real-time 3D reconstruction method in a mobile mapping setup.
翻訳日:2023-05-04 17:15:51 公開日:2023-05-03
# ニューロモルフィック地球観測のための密度不変コントラスト最大化

Density Invariant Contrast Maximization for Neuromorphic Earth Observations ( http://arxiv.org/abs/2304.14125v2 )

ライセンス: Link先を確認
Sami Arja, Alexandre Marcireau, Richard L. Balthazor, Matthew G. McHarg, Saeed Afshar and Gregory Cohen(参考訳) コントラスト最大化(CMax)技術は、イベントベースの視覚システムにおいて、カメラの運動パラメータを推定し、高コントラスト画像を生成するために広く用いられている。 しかし、これらの手法は耐雑音性があり、シーンが構造よりもノイズの多いイベントを含む場合に発生する多重極端問題に悩まされ、複数の場所でコントラストが高くなる。 これにより、運動パラメータの適切な推定がなければ、高コントラストの地図を生成できず、重要な詳細が失われてしまうため、神経形態的地球観測の課題であるカメラ動作の推定が極めて困難になる。 cmaxを使用する同様の方法は、目的関数を正しい動きパラメータに収束させるために変更または拡張することでこの問題に対処した。 提案手法は、コントラストを計算する前に歪んだイベントを補正することにより、複数の過度および耐雑音性問題を克服し、イベントデータに依存しない、カメラの動きに関する事前情報を必要としない、CMaxパイプラインの残りの部分を変更しないといった利点を提供する。 これは、コントラストが正しい動きパラメータの周りでのみ高いことを保証するためである。 本手法は,国際宇宙ステーション(ISS)の新たなデータセットを用いた解析的補償手法により,より優れた動き補償マップの作成を可能にする。 コードは \url{https://github.com/neuromorphicsystems/event_warping} で入手できる。

Contrast maximization (CMax) techniques are widely used in event-based vision systems to estimate the motion parameters of the camera and generate high-contrast images. However, these techniques are noise-intolerance and suffer from the multiple extrema problem which arises when the scene contains more noisy events than structure, causing the contrast to be higher at multiple locations. This makes the task of estimating the camera motion extremely challenging, which is a problem for neuromorphic earth observation, because, without a proper estimation of the motion parameters, it is not possible to generate a map with high contrast, causing important details to be lost. Similar methods that use CMax addressed this problem by changing or augmenting the objective function to enable it to converge to the correct motion parameters. Our proposed solution overcomes the multiple extrema and noise-intolerance problems by correcting the warped event before calculating the contrast and offers the following advantages: it does not depend on the event data, it does not require a prior about the camera motion, and keeps the rest of the CMax pipeline unchanged. This is to ensure that the contrast is only high around the correct motion parameters. Our approach enables the creation of better motion-compensated maps through an analytical compensation technique using a novel dataset from the International Space Station (ISS). Code is available at \url{https://github.com/neuromorphicsystems/event_warping}
翻訳日:2023-05-04 17:15:34 公開日:2023-05-03
# 量子クエンチ後の安定化エントロピーダイナミクス

Stabilizer entropy dynamics after a quantum quench ( http://arxiv.org/abs/2304.13768v2 )

ライセンス: Link先を確認
Davide Rattacaso, Lorenzo Leone, Salvatore F.E. Oliviero, Alioscia Hamma(参考訳) 安定化器エントロピー(SE)は安定化器資源からの偏差を測定し、量子的優位性の基礎となる要素である。 特に、SEと絡み合いの相互作用は、古典的にシミュレートされた量子多体系の複雑さの根底にある。 本稿では,可積分系における量子クエンチ後の平衡から離れた量子多体系におけるseのダイナミクスについて検討する。 主な結果が2つあります (i)seは、量子カオスの欠如と互換性のある値に同値であることを示し、 (ii)時間的に線形に増加するse長が相関や絡み合いに類似していることを示す。

Stabilizer entropies (SE) measure deviations from stabilizer resources and as such are a fundamental ingredient for quantum advantage. In particular, the interplay of SE and entanglement is at the root of the complexity of classically simulating quantum many-body systems. In this paper, we study the dynamics of SE in a quantum many-body system away from the equilibrium after a quantum quench in an integrable system. We obtain two main results: (i) we show that SE equilibrates to a value that is compatible with the absence of quantum chaos; and (ii) we show that there is a SE length increasing linearly in time, akin to correlations and entanglement spreading.
翻訳日:2023-05-04 17:15:09 公開日:2023-05-03
# 画像偽造検出のための不一致誘導型再構成学習

Discrepancy-Guided Reconstruction Learning for Image Forgery Detection ( http://arxiv.org/abs/2304.13349v2 )

ライセンス: Link先を確認
Zenan Shi, Haipeng Chen, Long Chen and Dong Zhang(参考訳) 本稿では,偽造感応と真正のコンパクトな視覚パターンの両方において,モデル学習能力を高めるための新しい画像偽造検出パラダイムを提案する。 離散化パターン(雑音,テクスチャ,周波数など)にのみ焦点をあてた既存の手法と比較して,より一般化した手法である。 具体的には,まず,偽造に敏感な視覚パターンを抽出するためのdisrepancy-guided encoder (disge)を提案する。 disgeは2つのブランチで構成されており、メインストリームバックボーンブランチは一般的な意味的特徴を抽出し、acsorial discrepant external attentionブランチは明示的な偽造の手がかりを抽出するために使用される。 また,DouHR (Dou-Head Reconstruction) モジュールは,異なる粒度空間における真のコンパクトな視覚パターンを強化するために提案されている。 douhrではさらに,これら真にコンパクトな視覚パターンを集約するdisrepancy-aggregation detector (disad)を導入することで,未知のパターンに対する偽造検出能力を向上させることができる。 4つの挑戦的データセットの大規模な実験結果から,提案手法の有効性を検証した。

In this paper, we propose a novel image forgery detection paradigm for boosting the model learning capacity on both forgery-sensitive and genuine compact visual patterns. Compared to the existing methods that only focus on the discrepant-specific patterns (\eg, noises, textures, and frequencies), our method has a greater generalization. Specifically, we first propose a Discrepancy-Guided Encoder (DisGE) to extract forgery-sensitive visual patterns. DisGE consists of two branches, where the mainstream backbone branch is used to extract general semantic features, and the accessorial discrepant external attention branch is used to extract explicit forgery cues. Besides, a Double-Head Reconstruction (DouHR) module is proposed to enhance genuine compact visual patterns in different granular spaces. Under DouHR, we further introduce a Discrepancy-Aggregation Detector (DisAD) to aggregate these genuine compact visual patterns, such that the forgery detection capability on unknown patterns can be improved. Extensive experimental results on four challenging datasets validate the effectiveness of our proposed method against state-of-the-art competitors.
翻訳日:2023-05-04 17:14:59 公開日:2023-05-03
# 不確定多変量系の予測モーメント

Inferential Moments of Uncertain Multivariable Systems ( http://arxiv.org/abs/2305.01841v1 )

ライセンス: Link先を確認
Kevin Vanslette(参考訳) 本稿では,不確実な多変量系の挙動を<emph{inferential moments} と呼ぶ量の集合を用いて解析するための新しいパラダイムを提案する。 マージナリゼーション(英: Marginalization)は、興味のある確率の 'emph{expected value} を定量化する条件付き確率を平均化する不確実な定量化プロセスである。 推論モーメントは、分布が新しい情報にどのように反応するかを記述する高次条件付き確率モーメントである。 この記事で特に興味があるのは、ある変数が他の変数の予想的な更新に応答して確率が予想されるゆらぎである \emph{inferential deviation} である。 推論モーメントの観点で相互情報のパワー級数展開を見出した結果、情報理論ツールで一般的に実行されるタスクには推論モーメント論理が有用である可能性が示唆された。 ベイジアンネットワークの偏差を解析して状況認識と意思決定を改善する2つのアプリケーションでこれを検討する。 予測確率誤差の観点で、類似のグリーディ相互情報アルゴリズムを概ね上回る近似偏差を用いた、最適センサタスクのための単純なグリーディアルゴリズムを実装した。

This article offers a new paradigm for analyzing the behavior of uncertain multivariable systems using a set of quantities we call \emph{inferential moments}. Marginalization is an uncertainty quantification process that averages conditional probabilities to quantify the \emph{expected value} of a probability of interest. Inferential moments are higher order conditional probability moments that describe how a distribution is expected to respond to new information. Of particular interest in this article is the \emph{inferential deviation}, which is the expected fluctuation of the probability of one variable in response to an inferential update of another. We find a power series expansion of the Mutual Information in terms of inferential moments, which implies that inferential moment logic may be useful for tasks typically performed with information theoretic tools. We explore this in two applications that analyze the inferential deviations of a Bayesian Network to improve situational awareness and decision-making. We implement a simple greedy algorithm for optimal sensor tasking using inferential deviations that generally outperforms a similar greedy Mutual Information algorithm in terms of predictive probabilistic error.
翻訳日:2023-05-04 16:22:17 公開日:2023-05-03
# LineFormer: 行グラフデータの抽出をインスタンスセグメンテーションとして再考

LineFormer: Rethinking Line Chart Data Extraction as Instance Segmentation ( http://arxiv.org/abs/2305.01837v1 )

ライセンス: Link先を確認
Jay Lal, Aditya Mitkari, Mahesh Bhosale, David Doermann(参考訳) ラインチャートはユビキタスなデータ視覚化フォーマットであるため,ラインチャートからのデータ抽出は自動文書理解プロセスの不可欠な要素である。 しかしながら、多行グラフにおける視覚的および構造的バリエーションの量は、自動解析において特に困難である。 しかし、既存の作品は、全チャート統一アプローチを採用するか、またはラインデータ抽出の伝説のような補助的な情報に頼るなど、これらすべてのバリエーションに対して堅牢ではない。 本稿では,インスタンスセグメンテーションを用いた行データ抽出のためのロバストな手法であるlineformerを提案する。 いくつかのベンチマーク合成および実グラフデータセットで最先端の性能を実現する。 私たちの実装はhttps://github.com/TheJaeLal/LineFormerで利用可能です。

Data extraction from line-chart images is an essential component of the automated document understanding process, as line charts are a ubiquitous data visualization format. However, the amount of visual and structural variations in multi-line graphs makes them particularly challenging for automated parsing. Existing works, however, are not robust to all these variations, either taking an all-chart unified approach or relying on auxiliary information such as legends for line data extraction. In this work, we propose LineFormer, a robust approach to line data extraction using instance segmentation. We achieve state-of-the-art performance on several benchmark synthetic and real chart datasets. Our implementation is available at https://github.com/TheJaeLal/LineFormer .
翻訳日:2023-05-04 16:21:56 公開日:2023-05-03
# av-sam: segment anythingモデルによる視聴覚定位とセグメンテーション

AV-SAM: Segment Anything Model Meets Audio-Visual Localization and Segmentation ( http://arxiv.org/abs/2305.01836v1 )

ライセンス: Link先を確認
Shentong Mo, Yapeng Tian(参考訳) Segment Anything Model (SAM) は視覚的セグメンテーションにおける強力な効果を示した。 しかし、サムが視覚的な音像の定位やセグメンテーションといった視聴覚タスクでどのように働くかについての探究は少ない。 本研究では,音声に対応する音像マスクを生成可能なセグメンション・アロシング・モデル(AV-SAM)に基づく,シンプルで効果的な音声-視覚的局所化とセグメンテーション・フレームワークを提案する。 具体的には、AV-SAMは、SAMの事前学習画像エンコーダからオーディオ機能と視覚機能にまたがる画素ワイドオーディオ-視覚融合を利用して、クロスモーダル表現を集約する。 そして、集約されたクロスモーダル特徴をプロンプトエンコーダとマスクデコーダに入力し、最終的なオーディオ視覚分割マスクを生成する。 Flickr-SoundNet と AVSBench のデータセットについて広範な実験を行った。 その結果,提案したAV-SAMは音像定位とセグメンテーションの競争性能を向上できることを示した。

Segment Anything Model (SAM) has recently shown its powerful effectiveness in visual segmentation tasks. However, there is less exploration concerning how SAM works on audio-visual tasks, such as visual sound localization and segmentation. In this work, we propose a simple yet effective audio-visual localization and segmentation framework based on the Segment Anything Model, namely AV-SAM, that can generate sounding object masks corresponding to the audio. Specifically, our AV-SAM simply leverages pixel-wise audio-visual fusion across audio features and visual features from the pre-trained image encoder in SAM to aggregate cross-modal representations. Then, the aggregated cross-modal features are fed into the prompt encoder and mask decoder to generate the final audio-visual segmentation masks. We conduct extensive experiments on Flickr-SoundNet and AVSBench datasets. The results demonstrate that the proposed AV-SAM can achieve competitive performance on sounding object localization and segmentation.
翻訳日:2023-05-04 16:21:45 公開日:2023-05-03
# 動的システムに基づく経路計画と教師なし学習を組み合わせた実生活環境の自動探索

Autonomous search of real-life environments combining dynamical system-based path planning and unsupervised learning ( http://arxiv.org/abs/2305.01834v1 )

ライセンス: Link先を確認
Uyiosa Philip Amadasun, Patrick McNamee, Zahra Nili Ahmadabadi(参考訳) 近年,環境条件が限定された空間の自律探索と横断にカオス的カバレッジ・パス・プランナーを使用することが目標となっている。 しかし、実験的な研究がほとんど行われていないため、この分野の状況はまだ初期段階にある。 現在の実験では、現実的な環境を適度なカバレッジ時間でスキャンするために、カオス的なカバレッジパスプランナーが克服する必要がある問題の即時セットを満足するロバストな方法が開発されていない。 これらの課題は,(1)ロボットの動きの運動効率を全般的に維持する障害物回避技術,(2)カバーが必要な環境(特に大型・複合型環境において重要な)にカオス軌道を拡大する手段,(3)正確な細胞サイズに依存しないリアルタイムカバレッジ計算技術である。 本稿では, 障害物回避, カオス軌道分散, 正確なカバレッジ計算を行う手法を提供することで, これらの問題に対処するアルゴリズムを提案することにより, 分野の進展を図ることを目的とする。 このアルゴリズムは一般に滑らかなカオス軌道を生成し、高い走査範囲の環境を提供する。 これらのアルゴリズムはROSフレームワーク内で作成され、新しく開発されたカオスパス計画アプリケーションを構成する。 このアプリケーションの性能は従来の最適経路プランナーに匹敵するものだった。 実環境とガゼボシミュレーションの両方において, 各種サイズ, 形状, 障害物密度の環境下で性能試験を行った。

In recent years, advancements have been made towards the goal of using chaotic coverage path planners for autonomous search and traversal of spaces with limited environmental cues. However, the state of this field is still in its infancy as there has been little experimental work done. Current experimental work has not developed robust methods to satisfactorily address the immediate set of problems a chaotic coverage path planner needs to overcome in order to scan realistic environments within reasonable coverage times. These immediate problems are as follows: (1) an obstacle avoidance technique which generally maintains the kinematic efficiency of the robot's motion, (2) a means to spread chaotic trajectories across the environment (especially crucial for large and/or complex-shaped environments) that need to be covered, and (3) a real-time coverage calculation technique that is accurate and independent of cell size. This paper aims to progress the field by proposing algorithms that address all of these problems by providing techniques for obstacle avoidance, chaotic trajectory dispersal, and accurate coverage calculation. The algorithms produce generally smooth chaotic trajectories and provide high scanning coverage of environments. These algorithms were created within the ROS framework and make up a newly developed chaotic path planning application. The performance of this application was comparable to that of a conventional optimal path planner. The performance tests were carried out in environments of various sizes, shapes, and obstacle densities, both in real-life and Gazebo simulations.
翻訳日:2023-05-04 16:21:28 公開日:2023-05-03
# SCOTT: 自己持続型耐火鎖蒸留

SCOTT: Self-Consistent Chain-of-Thought Distillation ( http://arxiv.org/abs/2305.01879v1 )

ライセンス: Link先を確認
Peifeng Wang, Zhengyang Wang, Zheng Li, Yifan Gao, Bing Yin and Xiang Ren(参考訳) 大規模な言語モデル(LM)は、チェーン・オブ・シークレット(CoT)のプロンプトを通じて、予測のための自由テキスト論理を創発的に生成する能力を示している。 CoTは劇的に性能が向上するが、そのような利得は十分に大きなLMに対してのみ観測される。 さらには、生成された合理性がlmの予測と一致しているか、あるいは決定を忠実に正当化する保証がほとんどない。 本研究では,教師モデルから,規模が桁違いの小さい自己整合CoTモデルを学習するための,忠実な知識蒸留法を提案する。 教師は, より優れた指導を行うために, 対照的な復号化によって, 大規模LM(教師)から金の回答を支持する合理性を付与し, 回答が検討された場合にのみ, より信頼性の高いトークンを生成するように促す。 忠実な蒸留を確保するために,教師生成の合理性を用いて,非事実的推論目的の学生lmを学習し,その合理性を無視して矛盾する予測を行うことを防止する。 実験により, エンドタスク性能に匹敵する結果が得られる一方で, ベースラインよりも忠実なCoT論理を生成できることがわかった。 さらなる分析は、そのようなモデルが決定を下す際に、より合理的を尊重していることを示唆している。

Large language models (LMs) beyond a certain scale, demonstrate the emergent capability of generating free-text rationales for their predictions via chain-of-thought (CoT) prompting. While CoT can yield dramatically improved performance, such gains are only observed for sufficiently large LMs. Even more concerning, there is little guarantee that the generated rationales are consistent with LM's predictions or faithfully justify the decisions. In this work, we propose a faithful knowledge distillation method to learn a small, self-consistent CoT model from a teacher model that is orders of magnitude larger. To form better supervision, we elicit rationales supporting the gold answers from a large LM (teacher) by contrastive decoding, which encourages the teacher to generate tokens that become more plausible only when the answer is considered. To ensure faithful distillation, we use the teacher-generated rationales to learn a student LM with a counterfactual reasoning objective, which prevents the student from ignoring the rationales to make inconsistent predictions. Experiments show that, while yielding comparable end-task performance, our method can generate CoT rationales that are more faithful than baselines do. Further analysis suggests that such a model respects the rationales more when making decisions; thus, we can improve its performance more by refining its rationales.
翻訳日:2023-05-04 16:12:36 公開日:2023-05-03
# 知識誘導型プロンプティングに基づく因果認識概念抽出

Causality-aware Concept Extraction based on Knowledge-guided Prompting ( http://arxiv.org/abs/2305.01876v1 )

ライセンス: Link先を確認
Siyu Yuan, Deqing Yang, Jinxi Liu, Shuyu Tian, Jiaqing Liang, Yanghua Xiao, Rui Xie(参考訳) 概念は自然言語理解に役立つが、既存の知識グラフ(kgs)では完璧ではない。 近年,テキストベース概念抽出(CE)において,事前学習言語モデル (PLM) が広く用いられている。 しかし, PLMは, トークン間の因果関係ではなく, 大量のコーパスからの共起関連を事前学習した知識として抽出する傾向にあり, 結果として, 事前学習した知識は, 素早い共起相関に基づいて偏りのある概念を抽出する。 本稿では, 構造因果モデル (SCM) のレンズを用いて, 概念バイアスを軽減するため, 知識誘導型プロンプトを用いたPLM抽出器を提案する。 このプロンプトは、与えられた実体のトピックを既存のKGの知識から採用し、実体と偏見のある概念の間の急激な共起相関を緩和する。 代表的多言語KGデータセットに関する広範な実験により,提案するプロンプトが概念バイアスを効果的に緩和し,PLMベースのCEモデルの性能を向上させることが確認された。

Concepts benefit natural language understanding but are far from complete in existing knowledge graphs (KGs). Recently, pre-trained language models (PLMs) have been widely used in text-based concept extraction (CE). However, PLMs tend to mine the co-occurrence associations from massive corpus as pre-trained knowledge rather than the real causal effect between tokens.As a result, the pre-trained knowledge confounds PLMs to extract biased concepts based on spurious co-occurrence correlations, inevitably resulting in low precision. In this paper, through the lens of a Structural Causal Model (SCM), we propose equipping the PLM-based extractor with a knowledge-guided prompt as an intervention to alleviate concept bias. The prompt adopts the topic of the given entity from the existing knowledge in KGs to mitigate the spurious co-occurrence correlations between entities and biased concepts. Our extensive experiments on representative multilingual KG datasets justify that our proposed prompt can effectively alleviate concept bias and improve the performance of PLM-based CE models.The code has been released on https://github.com/siyuyuan/KPCE.
翻訳日:2023-05-04 16:12:13 公開日:2023-05-03
# スピナルネットを用いた銀河の形態分類

Morphological Classification of Galaxies Using SpinalNet ( http://arxiv.org/abs/2305.01873v1 )

ライセンス: Link先を確認
Dim Shaiakhmetov, Remudin Reshid Mekuria, Ruslan Isaev and Fatma Unsal(参考訳) 深層ニューラルネットワーク(DNN)は入力をステップバイステップで導入し、この研究でSpinalNetとして知られる人体の体感覚システムを模倣して構築されている。 SpinalNetの入力セグメンテーションにより、中間層は入力の一部を取り込み、前の層の出力をすることで、中間層で収集した重みの量を削減できる。 これらの結果、SpinalNetの著者らは、彼らがテストしたほとんどのDNNにおいて、エラーの顕著な削減だけでなく、計算コストの大幅な削減も達成したと報告した。 これをGalaxy Zooデータセットに適用することで、銀河の異なるクラスやサブクラスを分類することができます。 その結果、楕円銀河と渦巻銀河の間には98.2、95、82パーセント、不規則銀河と10のサブクラスの間にそれぞれ高い分類精度が得られた。

Deep neural networks (DNNs) with a step-by-step introduction of inputs, which is constructed by imitating the somatosensory system in human body, known as SpinalNet have been implemented in this work on a Galaxy Zoo dataset. The input segmentation in SpinalNet has enabled the intermediate layers to take some of the inputs as well as output of preceding layers thereby reducing the amount of the collected weights in the intermediate layers. As a result of these, the authors of SpinalNet reported to have achieved in most of the DNNs they tested, not only a remarkable cut in the error but also in the large reduction of the computational costs. Having applied it to the Galaxy Zoo dataset, we are able to classify the different classes and/or sub-classes of the galaxies. Thus, we have obtained higher classification accuracies of 98.2, 95 and 82 percents between elliptical and spirals, between these two and irregulars, and between 10 sub-classes of galaxies, respectively.
翻訳日:2023-05-04 16:11:50 公開日:2023-05-03
# 多モード超伝導共振器を用いたマイクロ波損失特性評価

Microwave loss characterization using multi-mode superconducting resonators ( http://arxiv.org/abs/2305.01872v1 )

ライセンス: Link先を確認
Chan U Lei, Suhas Ganjam, Lev Krayzman, Archan Banerjee, Kim Kisslinger, Sooyeon Hwang, Luigi Frunzio, Robert J. Schoelkopf(参考訳) 超伝導量子回路のコヒーレンス向上には,異なる材料や界面から生じる損失の測定が不可欠である。 これは長い間興味を引いていたが、現在の研究はそれらの損失に限界を与えるか、あるいは完全な特徴づけのためにいくつかのデバイスを必要とする。 本研究では, 単モード超伝導共振器を用いて材料と界面のマイクロ波損失を測定する手法を提案する。 マルチモードシステムの損失感度解析のための定式化を実証し、材料損失研究のためのマルチモード共振器の設計戦略について考察する。 本研究では, バルク超電導体の研究のための2種類の多モード超伝導共振器について述べる。 これらの共振器を用いて高純度 (5n5) アルミニウムおよびアルミニウム合金 (6061) の表面誘電率, 導体およびシーム損失を測定し, 化学的エッチング, ダイヤモンド回転, 薄膜コーティングの影響について検討した。 化学エッチングとダイヤモンドの回転は高純度アルミニウムの表面誘電率と導電損失の両方を減少させるが、シームの改善は認められない。 ダイヤモンド転位アルミニウム合金の表面を電子ビームで蒸着またはスパッタしたアルミニウム薄膜でコーティングすると, 3つの損失が著しく低減される。 さらに, 透過電子顕微鏡(TEM)を用いて高純度アルミニウムの表面への化学エッチングの影響を調べた結果, 化学エッチングプロセスは表面誘電損失の観察改善と一致して, より薄く均一な酸化物層を形成することがわかった。

Measuring the losses arising from different materials and interfaces is crucial to improving the coherence of superconducting quantum circuits. Although this has been of interest for a long time, current studies can either only provide bounds to those losses, or require several devices for a complete characterization. In this work, we introduce a method to measure the microwave losses of materials and interfaces with a single multi-mode superconducting resonator. We demonstrate a formalism for analyzing the loss sensitivity of multi-mode systems and discuss the design strategies of multi-mode resonators for material loss studies. We present two types of multi-mode superconducting resonators for the study of bulk superconductors: the forky whispering-gallery-mode resonator (FWGMR) and the ellipsoidal cavity. We use these resonators to measure the surface dielectric, conductor, and seam losses of high-purity (5N5) aluminum and aluminum alloy (6061), as well as how they are affected by chemical etching, diamond turning, and thin-film coating. We find that chemical etching and diamond turning reduce both the surface dielectric and conductive losses of high-purity aluminum, but provide no appreciable improvement to the seam. Coating the surfaces of diamond-turned aluminum alloys with e-beam evaporated or sputtered aluminum thin-films significantly reduces all three losses under study. In addition, we study the effect of chemical etching on the surface of high-purity aluminum using transmission electron microscopy (TEM) and find that the chemical etching process creates a thinner and more uniform oxide layer, consistent with the observed improvement in the surface dielectric loss.
翻訳日:2023-05-04 16:11:33 公開日:2023-05-03
# pre-train and search: pre-trained neural cost modelを用いた効率的な埋め込みテーブルシャーディング

Pre-train and Search: Efficient Embedding Table Sharding with Pre-trained Neural Cost Models ( http://arxiv.org/abs/2305.01868v1 )

ライセンス: Link先を確認
Daochen Zha, Louis Feng, Liang Luo, Bhargav Bhushanam, Zirui Liu, Yusuo Hu, Jade Nie, Yuzhen Huang, Yuandong Tian, Arun Kejariwal, Xia Hu(参考訳) 大規模な機械学習モデルを複数のデバイスに分散して、コストのバランスをとることは、分散トレーニングにおいて重要である。 パーティショニングはnpハードであり、コストを正確にかつ効率的に見積もるのは困難である。 本研究では,効率的なシャーディングのための"事前訓練と探索"のパラダイムを検討する。 そのアイデアは、すべてのシャードのコストを予測するために、普遍的で一度限りのニューラルネットワークを事前訓練することであり、効率的なシャーディングシミュレータとして機能する。 この事前訓練されたコストモデルに基づいてオンライン検索を行い、特定のシャーディングタスクによって最適なシャーディング計画を特定する。 我々は、このアイデアをディープラーニングレコメンデーションモデル(DLRM)でインスタンス化し、テーブルシャーディングを埋め込むためのNeuroShardを提案する。 NeuroShardは、さまざまなシャーディングシナリオをカバーするために、拡張テーブル上のニューラルコストモデルをトレーニングする。 次に,ビームサーチとグリーディグリッドサーチを用いて,最善の列分割計画とテーブル分割計画を特定する。 実験の結果、NeuroShardはベンチマークシャーディングデータセットの最先端性を大幅に向上し、最大23.8%の改善を達成した。 マルチテラバイトの埋め込みテーブルを備えた超大型のDLRMにデプロイすると、NeuroShardは11.6%の組込みコスト向上を実現し、エンドツーエンドのトレーニングスループットが6.6%向上した。 ML for Systemsの"pre-train, and search"パラダイムの今後の研究を促進するために、私たちはコードをhttps://github.com/daochenzha/neuroshardでオープンソース化しました。

Sharding a large machine learning model across multiple devices to balance the costs is important in distributed training. This is challenging because partitioning is NP-hard, and estimating the costs accurately and efficiently is difficult. In this work, we explore a "pre-train, and search" paradigm for efficient sharding. The idea is to pre-train a universal and once-for-all neural network to predict the costs of all the possible shards, which serves as an efficient sharding simulator. Built upon this pre-trained cost model, we then perform an online search to identify the best sharding plans given any specific sharding task. We instantiate this idea in deep learning recommendation models (DLRMs) and propose NeuroShard for embedding table sharding. NeuroShard pre-trains neural cost models on augmented tables to cover various sharding scenarios. Then it identifies the best column-wise and table-wise sharding plans with beam search and greedy grid search, respectively. Experiments show that NeuroShard significantly and consistently outperforms the state-of-the-art on the benchmark sharding dataset, achieving up to 23.8% improvement. When deployed in an ultra-large production DLRM with multi-terabyte embedding tables, NeuroShard achieves 11.6% improvement in embedding costs over the state-of-the-art, which translates to 6.6% end-to-end training throughput improvement. To facilitate future research of the "pre-train, and search" paradigm in ML for Systems, we open-source our code at https://github.com/daochenzha/neuroshard
翻訳日:2023-05-04 16:11:04 公開日:2023-05-03
# 集合子羊シフトと高密度原子ガスの自発放出

Collective Lamb Shift and Spontaneous Emission of A Dense Atomic Gas ( http://arxiv.org/abs/2305.01865v1 )

ライセンス: Link先を確認
Hanzhen Ma, Susanne F. Yelin(参考訳) 放射相互作用系における集団ラムシフトの包括的かつ一般的な説明と協調的拡大は、長年の疑問である。 エネルギー準位と崩壊速度は、双極子-双極子相互作用を構成する実光子と仮想光子の交換によって変化する。 本研究では,2レベル原子の弱駆動・低励起アンサンブルを理論的に研究する手法を提案し,多重散乱を含む自己整合形式を通じて集合子羊シフトと集合崩壊率の解析的記述を得る。 我々は、アンサンブルの数密度、外部プローブ場のデチューニング、サンプルの幾何といったシステムパラメーターに対するこれらの量の依存性を測定可能なものとして予測する。

Finding a comprehensive and general description of the collective Lamb shift and cooperative broadening in a radiatively interacting system is a long-standing open question. Both, energy levels and decay rates, are modified by the exchange of real and virtual photons making up the dipole-dipole interaction. We introduce a method to theoretically study weakly-driven, low-excited ensembles of two-level atoms and obtain an analytic description of the collective Lamb shift and collective decay rate via a self-consistent formalism including multiple scattering. We predict the dependency of these quantities, as measurables, on system parameters: the number density of the ensemble, the detuning of an external probe field, and the geometry of the sample.
翻訳日:2023-05-04 16:10:39 公開日:2023-05-03
# 音声テキストクロスモーダル表現の教師なし改善

Unsupervised Improvement of Audio-Text Cross-Modal Representations ( http://arxiv.org/abs/2305.01864v1 )

ライセンス: Link先を確認
Zhepei Wang, Cem Subakan, Krishna Subramani, Junkai Wu, Tiago Tavares, Fabio Ayres, Paris Smaragdis(参考訳) 言語モデルを用いてモーダルな音声テキスト表現を得る手法の進歩は,事前定義されたラベルを用いた従来の訓練手法の限界を克服している。 これによってコミュニティはゼロショット分類のようなタスクを前進させることができたが、そうでなければ不可能だった。 しかし、そのような表現を学習するには、大量の人間の注釈付き音声テキストペアが必要である。 本稿では,教師なしのテキストと音声による表現の学習フレームワークを改善するための教師なしアプローチについて検討する。 ドメイン固有およびドメイン固有のキュレーション手法を探索し、モデルをさらに改善するために使用する音声テキストペアを作成する。 また,ソフトラベルのコントラスト損失とともにドメイン固有キュレーションを用いた場合,下流の音響イベント分類や音響シーン分類タスクにおいて,ゼロショット分類性能の点で有意な改善が得られた。

Recent advances in using language models to obtain cross-modal audio-text representations have overcome the limitations of conventional training approaches that use predefined labels. This has allowed the community to make progress in tasks like zero-shot classification, which would otherwise not be possible. However, learning such representations requires a large amount of human-annotated audio-text pairs. In this paper, we study unsupervised approaches to improve the learning framework of such representations with unpaired text and audio. We explore domain-unspecific and domain-specific curation methods to create audio-text pairs that we use to further improve the model. We also show that when domain-specific curation is used in conjunction with a soft-labeled contrastive loss, we are able to obtain significant improvement in terms of zero-shot classification performance on downstream sound event classification or acoustic scene classification tasks.
翻訳日:2023-05-04 16:10:26 公開日:2023-05-03
# GPTutor: コード説明のためのChatGPTを利用したプログラミングツール

GPTutor: a ChatGPT-powered programming tool for code explanation ( http://arxiv.org/abs/2305.01863v1 )

ライセンス: Link先を確認
Eason Chen, Ray Huang, Han-Shin Chen, Yuen-Hsien Tseng, and Liang-Yi Li(参考訳) 新しいプログラミングスキルを学ぶには、調整されたガイダンスが必要です。 ChatGPT APIのような先進的な自然言語生成モデルの出現により、コンピュータサイエンス教育のためのAIを使った、便利でパーソナライズされた学習システムを構築することが可能になった。 本稿では,chatgpt api を利用した visual studio コード拡張である chatgpt を活用したプログラミングツール gptutor を提案する。 visual studio code apiを統合することで、gptutorは提供されたコードを関連するソースコードを参照して総合的に分析することができる。 その結果、GPTutorは設計したプロンプトを使用して、選択したコードをポップアップメッセージで説明できる。 gptutorは現在、visual studio code extension marketplaceで公開されており、ソースコードはgithubで公開されている。 予備評価は、GPTutorがバニラChatGPTやGitHub Copilotと比較して、最も簡潔で正確な説明を提供することを示している。 さらに,学生や教師のフィードバックから,GPTutorはユーザフレンドリであり,与えられたコードを十分に説明できることが示唆された。 最後に,GPTutorの今後の研究方針について述べる。 これには、さらなるプロンプトプログラミングによるパフォーマンス向上とパーソナライズ、実際のユーザによるGPTutorの有効性の評価が含まれる。

Learning new programming skills requires tailored guidance. With the emergence of advanced Natural Language Generation models like the ChatGPT API, there is now a possibility of creating a convenient and personalized tutoring system with AI for computer science education. This paper presents GPTutor, a ChatGPT-powered programming tool, which is a Visual Studio Code extension using the ChatGPT API to provide programming code explanations. By integrating Visual Studio Code API, GPTutor can comprehensively analyze the provided code by referencing the relevant source codes. As a result, GPTutor can use designed prompts to explain the selected code with a pop-up message. GPTutor is now published at the Visual Studio Code Extension Marketplace, and its source code is openly accessible on GitHub. Preliminary evaluation indicates that GPTutor delivers the most concise and accurate explanations compared to vanilla ChatGPT and GitHub Copilot. Moreover, the feedback from students and teachers indicated that GPTutor is user-friendly and can explain given codes satisfactorily. Finally, we discuss possible future research directions for GPTutor. This includes enhancing its performance and personalization via further prompt programming, as well as evaluating the effectiveness of GPTutor with real users.
翻訳日:2023-05-04 16:10:12 公開日:2023-05-03
# 拡散モデルを用いた画像キャプションのためのマルチモーダルデータ拡張

Multimodal Data Augmentation for Image Captioning using Diffusion Models ( http://arxiv.org/abs/2305.01855v1 )

ライセンス: Link先を確認
Changrong Xiao, Sean Xin Xu, Kunpeng Zhang(参考訳) 重要な視覚言語タスクである画像キャプションは、画像とテキストの基本的なアライメントを学ぶために、非常に多くの画像キャプチャペアを必要とします。 本稿では,最近のstable diffusionと呼ばれるテキスト対画像モデルを用いて,高品質な画像キャプチャペア生成によるトレーニングセットの拡張を行うマルチモーダルデータ拡張手法を提案する。 ms cocoデータセットに関する広範囲な実験は、いくつかのベンチマーク手法に対する我々のアプローチの利点、特にトレーニングインスタンスが少ない場合の大幅な向上を示している。 さらに、我々の拡張データセットでトレーニングされたモデルは、未ペア画像キャプション手法よりも大きなマージンで優れている。 最後に、品質評価に基づいて生成したデータを意図的にフィルタリングした後、トレーニング効率と有効性に関するさらなる改善が得られる。

Image captioning, an important vision-language task, often requires a tremendous number of finely labeled image-caption pairs for learning the underlying alignment between images and texts. In this paper, we proposed a multimodal data augmentation method, leveraging a recent text-to-image model called Stable Diffusion, to expand the training set via high-quality generation of image-caption pairs. Extensive experiments on the MS COCO dataset demonstrate the advantages of our approach over several benchmark methods, and particularly a significant boost when having fewer training instances. In addition, models trained on our augmented datasets also outperform prior unpaired image captioning methods by a large margin. Finally, further improvement regarding the training efficiency and effectiveness can be obtained after intentionally filtering the generated data based on quality assessment.
翻訳日:2023-05-04 16:09:50 公開日:2023-05-03
# 低光画像復元のためのバイオインスパイアされたシンプルなニューラルネットワーク:ミニマリストアプローチ

Bio-Inspired Simple Neural Network for Low-Light Image Restoration: A Minimalist Approach ( http://arxiv.org/abs/2305.01844v1 )

ライセンス: Link先を確認
Junjie Ye, Jilin Zhao(参考訳) 本研究では、網膜モデルにインスパイアされた単純なニューラルネットワークを用いて、低照度画像を効率的に復元する可能性を検討する。 網膜モデルは様々な光学ニューロンの神経生理学的原理と力学を模倣している。 提案するニューラルネットワークモデルでは,従来の信号処理モデルと比較して計算オーバーヘッドを低減し,複雑な深層学習モデルに似た結果が得られる。 ニューラルネットワークによる網膜ニューロン機能を直接シミュレーションすることにより、手動パラメータ最適化を回避するだけでなく、特定の神経生物学組織を人工的に構築するための基盤となる。

In this study, we explore the potential of using a straightforward neural network inspired by the retina model to efficiently restore low-light images. The retina model imitates the neurophysiological principles and dynamics of various optical neurons. Our proposed neural network model reduces the computational overhead compared to traditional signal-processing models while achieving results similar to complex deep learning models from a subjective perceptual perspective. By directly simulating retinal neuron functionalities with neural networks, we not only avoid manual parameter optimization but also lay the groundwork for constructing artificial versions of specific neurobiological organizations.
翻訳日:2023-05-04 16:09:39 公開日:2023-05-03
# 不変特徴によるロバストな自然言語透かし

Robust Natural Language Watermarking through Invariant Features ( http://arxiv.org/abs/2305.01904v1 )

ライセンス: Link先を確認
KiYoon Yoo, Wonhyuk Ahn, Jiho Jang, Nojun Kwak(参考訳) 近年,サブスクリプションベースのメディアやウェブの新しいプラットフォーム,大規模言語モデルのアウトプットなどにおいて,貴重な自然言語コンテンツが急増している。 しかし、適切なセキュリティ対策がなければ、これらの内容は違法な海賊行為や潜在的な誤用の影響を受けやすい。 これにより、漏洩追跡や所有権の識別を通じて著作権保護を保証するセキュアな透かしシステムが必要となる。 海賊行為を効果的に防ぎ、著作権を保護するためには、透かしの枠組みは適切な情報を埋め込むだけでなく、汚職の可能性があるにもかかわらず、堅牢な方法で透かしを抽出できる必要がある。 本研究では、画像透かしからよく知られた提案に従うことにより、ペイロードとロバスト性の両方を推し進める方法を模索し、小さな汚職に不変な自然言語の特徴を特定する。 さらに, エラー発生源の系統的解析を通じて, 汚損耐性の埋没モデルを提案する。 従来のロバスト性に関する作業では,4つのデータセット,3つの腐敗タイプ,2つの腐敗率の平均値が16.8%向上した。 コードはhttps://github.com/bangawayoo/nlp-watermarking。

Recent years have witnessed a proliferation of valuable original natural language contents found in subscription-based media outlets, web novel platforms, and outputs of large language models. Without proper security measures, however, these contents are susceptible to illegal piracy and potential misuse. This calls for a secure watermarking system to guarantee copyright protection through leakage tracing or ownership identification. To effectively combat piracy and protect copyrights, a watermarking framework should be able not only to embed adequate bits of information but also extract the watermarks in a robust manner despite possible corruption. In this work, we explore ways to advance both payload and robustness by following a well-known proposition from image watermarking and identify features in natural language that are invariant to minor corruption. Through a systematic analysis of the possible sources of errors, we further propose a corruption-resistant infill model. Our full method improves upon the previous work on robustness by +16.8% point on average on four datasets, three corruption types, and two corruption ratios. Code available at https://github.com/bangawayoo/nlp-watermarking.
翻訳日:2023-05-04 16:02:25 公開日:2023-05-03
# 数発のイベント検出:実証的研究と統一ビュー

Few-shot Event Detection: An Empirical Study and a Unified View ( http://arxiv.org/abs/2305.01901v1 )

ライセンス: Link先を確認
Yubo Ma, Zehao Wang, Yixin Cao and Aixin Sun(参考訳) Few-shot Event Detection (ED) は広く研究されているが、これは様々なモチベーション、タスク、実験的な設定など、将来の進歩に対するモデルの理解を妨げる顕著な相違をもたらす。 本稿では,EDモデルの統一的なビューと,より優れた統一されたベースラインを提案する。 公平な評価のために, 汎用性を評価するための低リソース設定と, 転送可能性のためのクラス転送設定の2つの実践的な設定を選択する。 提案手法は3つのデータセットに対して10個の代表的手法を比較し, 概ねプロンプトベースモデルとプロトタイプベースモデルに分類し, 詳細な分析を行う。 プロトタイプベースの手法の優れた性能を調べるために,設計を分割し,統一フレームワークを構築する。 それに基づいて、単純で効果的な方法(例えば、低リソース環境下での2.7%のf1利得)を提案するだけでなく、将来の研究に多くの貴重な研究知見を提供する。

Few-shot event detection (ED) has been widely studied, while this brings noticeable discrepancies, e.g., various motivations, tasks, and experimental settings, that hinder the understanding of models for future progress. This paper presents a thorough empirical study, a unified view of ED models, and a better unified baseline. For fair evaluation, we choose two practical settings: low-resource setting to assess generalization ability and class-transfer setting for transferability. We compare ten representative methods on three datasets, which are roughly grouped into prompt-based and prototype-based models for detailed analysis. To investigate the superior performance of prototype-based methods, we break down the design and build a unified framework. Based on that, we not only propose a simple yet effective method (e.g., 2.7% F1 gains under low-resource setting) but also offer many valuable research insights for future research.
翻訳日:2023-05-04 16:02:06 公開日:2023-05-03
# アグリフードシステムを人工知能で変革する:調査

Revolutionizing Agrifood Systems with Artificial Intelligence: A Survey ( http://arxiv.org/abs/2305.01899v1 )

ライセンス: Link先を確認
Tao Chen, Liang Lv, Di Wang, Jing Zhang, Yue Yang, Zeyang Zhao, Chen Wang, Xiaowei Guo, Hao Chen, Qingye Wang, Yufei Xu, Qiming Zhang, Bo Du, Liangpei Zhang and Dacheng Tao(参考訳) 世界の人口が急速に増加する中、アグリフードシステムをより生産的、効率的、安全、持続的に変えることは、潜在的な食糧不足を軽減するために不可欠です。 近年、ディープラーニング(DL)のような人工知能(AI)技術は、言語、視覚、リモートセンシング(RS)、アグリフードシステムアプリケーションなど、様々な分野でその強力な能力を実証している。 しかし、アグリフードシステムに対するAIの全体的な影響は未だ不明である。 本稿では,AI技術がアグリフードシステムをどのように変革し,現代のアグリフード産業に貢献するかを,徹底的にレビューする。 まず、取得、ストレージ、処理技術を含むagrifoodシステムにおけるデータ取得手法を概説する。 第2に,農業,畜産,漁業などのアグリフードシステムにおけるAI手法の進歩を概観し,アグリフード分類,成長モニタリング,収量予測,品質評価などのトピックについて紹介する。 さらに、AIで現代のアグリファドシステムを変革するための潜在的な課題と有望な研究機会を強調します。 この調査が、この分野の新参者に全体像を提供し、さらなる研究の出発点になることを期待している。

With the world population rapidly increasing, transforming our agrifood systems to be more productive, efficient, safe, and sustainable is crucial to mitigate potential food shortages. Recently, artificial intelligence (AI) techniques such as deep learning (DL) have demonstrated their strong abilities in various areas, including language, vision, remote sensing (RS), and agrifood systems applications. However, the overall impact of AI on agrifood systems remains unclear. In this paper, we thoroughly review how AI techniques can transform agrifood systems and contribute to the modern agrifood industry. Firstly, we summarize the data acquisition methods in agrifood systems, including acquisition, storage, and processing techniques. Secondly, we present a progress review of AI methods in agrifood systems, specifically in agriculture, animal husbandry, and fishery, covering topics such as agrifood classification, growth monitoring, yield prediction, and quality assessment. Furthermore, we highlight potential challenges and promising research opportunities for transforming modern agrifood systems with AI. We hope this survey could offer an overall picture to newcomers in the field and serve as a starting point for their further research.
翻訳日:2023-05-04 16:01:48 公開日:2023-05-03
# vsrq:車両インテリジェント接続システムの安全リスクの定量的評価法

VSRQ: Quantitative Assessment Method for Safety Risk of Vehicle Intelligent Connected System ( http://arxiv.org/abs/2305.01898v1 )

ライセンス: Link先を確認
Tian Zhang, Wenshan Guan, Hao Miao, Xiujie Huang, Zhiquan Liu, Chaonan Wang, Quanlong Guan, Liangda Fang, Zhifei Duan(参考訳) 現代の自動車におけるインテリジェント・コネクテッド(intelligent connected)の分野は拡大を続けており、時代が進むにつれて車両の機能はますます複雑になっていく。 これはまた、車両の脆弱性が増え、多くの安全性問題を引き起こした。 したがって、攻撃に対して最も脆弱なシステムをセキュリティ担当者に知らせ、より徹底的な検査や試験を行うことができるため、高リスク車両のインテリジェントな接続システムを特定することが特に重要である。 本稿では,i-fahpとfcaクラスタリングを組み合わせた車両リスクアセスメントモデルであるvsrqモデルを開発した。 車両の安全性に関する重要な指標を抽出し、ファジィクラスタ分析(fca)とファジィ分析階層処理(fahp)を組み合わせることで、車両インテリジェント接続システムの脆弱なコンポーネントを発掘し、脆弱なコンポーネントに対して優先度テストを行い、リスクを低減し、車両の安全性を確保する。 我々はOpenPilotのモデルを評価し,VSRQモデルの有効性を実験的に実証した。 この実験はISO 26262およびISO/SAE 21434標準に完全に準拠しており、我々のモデルは他のモデルよりも精度が高い。 これらの結果は、車両のインテリジェントな接続システムのセキュリティリスクを予測し、VSRQの典型的なアプリケーションタスクを提供する、有望な新しい研究方向を提供する。 実験の結果、精度は94.36%であり、リコール率は73.43%であり、他の既知の指標よりも少なくとも14.63%高い。

The field of intelligent connected in modern vehicles continues to expand, and the functions of vehicles become more and more complex with the development of the times. This has also led to an increasing number of vehicle vulnerabilities and many safety issues. Therefore, it is particularly important to identify high-risk vehicle intelligent connected systems, because it can inform security personnel which systems are most vulnerable to attacks, allowing them to conduct more thorough inspections and tests. In this paper, we develop a new model for vehicle risk assessment by combining I-FAHP with FCA clustering: VSRQ model. We extract important indicators related to vehicle safety, use fuzzy cluster analys (FCA) combined with fuzzy analytic hierarchy process (FAHP) to mine the vulnerable components of the vehicle intelligent connected system, and conduct priority testing on vulnerable components to reduce risks and ensure vehicle safety. We evaluate the model on OpenPilot and experimentally demonstrate the effectiveness of the VSRQ model in identifying the safety of vehicle intelligent connected systems. The experiment fully complies with ISO 26262 and ISO/SAE 21434 standards, and our model has a higher accuracy rate than other models. These results provide a promising new research direction for predicting the security risks of vehicle intelligent connected systems and provide typical application tasks for VSRQ. The experimental results show that the accuracy rate is 94.36%, and the recall rate is 73.43%, which is at least 14.63% higher than all other known indicators.
翻訳日:2023-05-04 16:01:28 公開日:2023-05-03
# 103kmの都市ファイバー上での量子双方向時間同期

Quantum two-way time synchronization over a 103 km urban fiber ( http://arxiv.org/abs/2305.01897v1 )

ライセンス: Link先を確認
Huibo Hong, Runai Quan, Xiao Xiang, Yuting Liu, Tao Liu, Mingtao Cao, Ruifang Dong, and Shougang Zhang(参考訳) 遠隔時間スケール間の高精度時間同期を実現する新しいアプローチとして、実験室ファイバーリンクによる量子双方向時間同期は数十フェムト秒の同期安定性を著しく向上させた。 実用システムにおけるその大きな可能性を検証するためには, 長距離設置光ファイバインフラストラクチャにおけるフィールドテストの実証が必要である。 本稿では,103kmの都市ファイバリンク上での2方向量子時間同期を実現する。 10sで3.67ps、40000sで0.28psの時間同期安定性が達成されているが、38dBの大きな減衰は毎秒40回未満の相関現象をもたらす。 この成果は、高精度長距離場同期システムのタスクにおける量子二方向同期の最初の成功例である。

As a new approach to realizing high-precision time synchronization between remote time scales, quantum two-way time synchronization via laboratory fiber link has shown significant enhancement of the synchronization stability to several tens of femtoseconds. To verify its great potential in practical systems, the field test in long-haul installed fiber optic infrastructure is required to be demonstrated. In this paper, we implement the two-way quantum time synchronization over a 103 km urban fiber link. A time synchronization stability of 3.67 ps at 10 s and 0.28 ps at 40000 s has been achieved, despite the large attenuation of 38 dB leading to fewer than 40 correlated events per second. This achievement marks the first successful step of quantum two-way time synchronization in the task of high-precision long-distance field synchronization systems.
翻訳日:2023-05-04 16:00:59 公開日:2023-05-03
# AIシステムの公正性: 言語ビジョンモデルによる性別バイアスの軽減

Fairness in AI Systems: Mitigating gender bias from language-vision models ( http://arxiv.org/abs/2305.01888v1 )

ライセンス: Link先を確認
Lavisha Aggarwal, Shruti Bhargava(参考訳) 私たちの社会は、人種バイアス、キャストバイアス、ジェンダーバイアスなど、いくつかのバイアスに苦しめられている。 事実、数年前にはこれらの概念のほとんどが耳にされなかった。 これらのバイアスは、増幅とともに世代を通して受け継がれ、社会の特定のグループによって期待される規範の役割を担った。 特筆すべき例はジェンダーバイアスである。 政治・ライフスタイル・コーポレート・ワールドについて語るにせよ、両グループの関与に関していくつかの一般的な違いが観察される。 この差分分布は、社会の一部であり、記録されたデータにもその存在を示す。 機械学習はデータの可用性にほぼ完全に依存しており、データから学習し、予測するという考えは、データが期待する行動全体を定義することを前提としている。 したがって、バイアスデータでは、結果のモデルもそれらの固有のバイアスによって破損する。そして製品におけるMLの現在の人気により、これは平等と正義の道に大きな障害をもたらす可能性がある。 この研究は、特に画像キャプションのタスクである言語ビジョンモデルからジェンダーバイアスの問題を緩和する研究と試みである。 既存のデータセットにおけるジェンダーバイアスの影響の程度を調査し,キャプションに基づく言語ビジョンモデルにおけるその影響を緩和する手法を提案する。

Our society is plagued by several biases, including racial biases, caste biases, and gender bias. As a matter of fact, several years ago, most of these notions were unheard of. These biases passed through generations along with amplification have lead to scenarios where these have taken the role of expected norms by certain groups in the society. One notable example is of gender bias. Whether we talk about the political world, lifestyle or corporate world, some generic differences are observed regarding the involvement of both the groups. This differential distribution, being a part of the society at large, exhibits its presence in the recorded data as well. Machine learning is almost entirely dependent on the availability of data; and the idea of learning from data and making predictions assumes that data defines the expected behavior at large. Hence, with biased data the resulting models are corrupted with those inherent biases too; and with the current popularity of ML in products, this can result in a huge obstacle in the path of equality and justice. This work studies and attempts to alleviate gender bias issues from language vision models particularly the task of image captioning. We study the extent of the impact of gender bias in existing datasets and propose a methodology to mitigate its impact in caption based language vision models.
翻訳日:2023-05-04 16:00:45 公開日:2023-05-03
# 授業増分学習のための進化辞書表現

Evolving Dictionary Representation for Few-shot Class-incremental Learning ( http://arxiv.org/abs/2305.01885v1 )

ライセンス: Link先を確認
Xuejun Han, Yuhong Guo(参考訳) 新しいオブジェクトは、動的に変化する世界で継続的に出現しており、現実世界の人工知能システムは、古いものを忘れずに、新しい新興クラスに継続的に、効果的に適応できるべきである。 そこで,本稿では,基礎セッションのクラスに対してラベル付きデータが付与されるが,新しいインクリメンタルクラスではラベル付きインスタンスが非常に限定される,マイショットクラスインクリメンタルラーニング(fscil)という,挑戦的で実践的な連続学習シナリオに挑戦する。 この問題に対処するために,辞書学習と視覚表現学習を組み合わせたハイブリッド学習アーキテクチャであるディープ辞書学習を導入し,異なるクラスを特徴付けるためのより良い空間を提供する,新規かつ簡潔なアプローチを提案する。 ベースセッションにおける辞書と特徴抽出のバックボーンを同時に最適化すると同時に,新規クラスへの適応のためのインクリメンタルセッションにおいてのみ辞書を微調整する。 さらに,複数の疑似クラスをベースセッショントレーニングに組み込んで,辞書に投影された特定の空間を新たな概念のために予約できるようにした。 CIFAR100, miniImageNet, CUB200における実験結果から, 他のSOTA法と比較して, 提案手法の有効性が検証された。

New objects are continuously emerging in the dynamically changing world and a real-world artificial intelligence system should be capable of continual and effectual adaptation to new emerging classes without forgetting old ones. In view of this, in this paper we tackle a challenging and practical continual learning scenario named few-shot class-incremental learning (FSCIL), in which labeled data are given for classes in a base session but very limited labeled instances are available for new incremental classes. To address this problem, we propose a novel and succinct approach by introducing deep dictionary learning which is a hybrid learning architecture that combines dictionary learning and visual representation learning to provide a better space for characterizing different classes. We simultaneously optimize the dictionary and the feature extraction backbone in the base session, while only finetune the dictionary in the incremental session for adaptation to novel classes, which can alleviate the forgetting on base classes compared to finetuning the entire model. To further facilitate future adaptation, we also incorporate multiple pseudo classes into the base session training so that certain space projected by dictionary can be reserved for future new concepts. The extensive experimental results on CIFAR100, miniImageNet and CUB200 validate the effectiveness of our approach compared to other SOTA methods.
翻訳日:2023-05-04 16:00:24 公開日:2023-05-03
# クラス適応しきい値と負のクラス誘導雑音による顔表情認識

Class adaptive threshold and negative class guided noisy annotation robust Facial Expression Recognition ( http://arxiv.org/abs/2305.01884v1 )

ライセンス: Link先を確認
Darshan Gera, Badveeti Naveen Siva Kumar, Bobbili Veerendra Raj Kumar, S Balasubramanian(参考訳) 表情認識(FER)における障害となる問題は、データセットにノイズアノテーションと呼ばれる不正確なアノテーションが存在することである。 これらのノイズの多いアノテーションは、アノテータに対するラベル付けが主観的であること、画像の明快さなど、本質的にデータセットに存在します。 最近の研究は、FERにおけるこのノイズの多いアノテーション問題を解決するためにサンプル選択法を用いている。 私たちの研究では、自信のあるサンプルと信頼できないサンプルを分離するために動的適応しきい値を使い、信頼できないサンプルのために学習が妨げられないようにしています。 信頼できないサンプルを捨てる代わりに、信頼できないサンプルの負のクラスに一貫性を課し、モデルがポジティブなクラスでより良く学ぶように導く。 FERデータセットは通常7または8のクラスから来るので、ランダムに選択しても、負のクラスを85%の確率で正確に推測できる。 サンプルのどのクラスが属していないか」を学習することで、「どのクラスが属しているか」をより良く学習することができる。 定量的および質的結果を用いて,提案フレームワークの有効性を示す。 本手法は,RAFDBでは4%から28%,FERPlusでは3.3%から31.4%の差でベースラインよりも優れた性能を示した。

The hindering problem in facial expression recognition (FER) is the presence of inaccurate annotations referred to as noisy annotations in the datasets. These noisy annotations are present in the datasets inherently because the labeling is subjective to the annotator, clarity of the image, etc. Recent works use sample selection methods to solve this noisy annotation problem in FER. In our work, we use a dynamic adaptive threshold to separate confident samples from non-confident ones so that our learning won't be hampered due to non-confident samples. Instead of discarding the non-confident samples, we impose consistency in the negative classes of those non-confident samples to guide the model to learn better in the positive class. Since FER datasets usually come with 7 or 8 classes, we can correctly guess a negative class by 85% probability even by choosing randomly. By learning "which class a sample doesn't belong to", the model can learn "which class it belongs to" in a better manner. We demonstrate proposed framework's effectiveness using quantitative as well as qualitative results. Our method performs better than the baseline by a margin of 4% to 28% on RAFDB and 3.3% to 31.4% on FERPlus for various levels of synthetic noisy labels in the aforementioned datasets.
翻訳日:2023-05-04 16:00:03 公開日:2023-05-03
# 旅行セールスマン問題学習のための軽量CNN変換器モデル

A Lightweight CNN-Transformer Model for Learning Traveling Salesman Problems ( http://arxiv.org/abs/2305.01883v1 )

ライセンス: Link先を確認
Minseop Jung, Jaeseung Lee, Jibum Kim(参考訳) トランスフォーマーベースのモデルは、大規模トラベリングセールスマン問題(TSP)においても最先端のパフォーマンスを示す。 しかし、それらは完全に接続されたアテンションモデルに基づいており、計算の複雑さとgpuメモリ使用に苦しむ。 本稿では,CNN埋め込み層と部分的自己注意に基づく軽量CNN変換器モデルを提案する。 我々のCNN-Transformerモデルは,標準のTransformerモデルと比較して,CNN埋め込み層を用いて入力データから空間的特徴をよりよく学習することができる。 また,提案する部分的セルフアテンションを用いて,完全連結注意モデルにおけるかなりの冗長性を取り除く。 実験により,提案モデルがtspソリューション品質,gpuメモリ使用量,推論時間といった点で,最先端トランスフォーマーモデルよりも優れていることが示された。 我々のモデルはGPUメモリ使用量の約20%を消費し、他の最先端のTransformerベースモデルと比較して45%高速な推論時間を持つ。 私たちのコードはhttps://github.com/cm8908/CNN_Transformer3で公開されています。

Transformer-based models show state-of-the-art performance even for large-scale Traveling Salesman Problems (TSPs). However, they are based on fully-connected attention models and suffer from large computational complexity and GPU memory usage. We propose a lightweight CNN-Transformer model based on a CNN embedding layer and partial self-attention. Our CNN-Transformer model is able to better learn spatial features from input data using a CNN embedding layer compared with the standard Transformer models. It also removes considerable redundancy in fully connected attention models using the proposed partial self-attention. Experiments show that the proposed model outperforms other state-of-the-art Transformer-based models in terms of TSP solution quality, GPU memory usage, and inference time. Our model consumes approximately 20% less GPU memory usage and has 45% faster inference time compared with other state-of-the-art Transformer-based models. Our code is publicly available at https://github.com/cm8908/CNN_Transformer3
翻訳日:2023-05-04 15:59:41 公開日:2023-05-03
# 古典・量子古典系の位相空間アンサンブル

Phase space ensembles for classical and quantum-classical systems ( http://arxiv.org/abs/2305.01880v1 )

ライセンス: Link先を確認
A. D. Berm\'udez Manjarres(参考訳) 位相空間におけるアンサンブルの理論を開発し、それを用いて量子古典ハイブリッド理論の構築を研究する。 ここで提示されるハイブリッドモデルを構築するためのガイドとして、ガリレイ共分散とガリレイ群のリー代数を用いる。 特に、古典と量子セクターの間の相互作用項を選択し、方程式がガリレイ共変であるようにした。 提案手法は,従来無関係であった2つのハイブリッドシステム間の接続可能性を示す。

We develop a so-called theory of ensembles in phase space and use it to investigate the construction of a quantum-classical hybrid theory. We use Galilei covariance and the Lie algebra of the Galilei group as a guide to constructing the hybrid model presented here. In particular, we chose the interaction term between the classical and the quantum sector so that the equations are Galilei covariant. Our approach points out a possible connection between two previously unrelated hybrid systems.
翻訳日:2023-05-04 15:59:25 公開日:2023-05-03
# グラフニューラルネットワークにおける条件付け手法の検討

An Exploration of Conditioning Methods in Graph Neural Networks ( http://arxiv.org/abs/2305.01933v1 )

ライセンス: Link先を確認
Yeskendir Koishekenov, Erik J. Bekkers(参考訳) メッセージパッシングに基づくグラフニューラルネットワーク(GNN)の柔軟性と有効性は、グラフ構造化データに対するディープラーニングの大幅な進歩を引き起こした。 このようなアプローチでは、GNNは隣人に基づいてノード表現を再帰的に更新し、ノード属性ベクトルとエッジ属性ベクトルを用いて表現性を得る。 例えば、物理学や化学などの計算タスクにおいて、相対位置や距離といったエッジ属性の使用が不可欠であることが証明された。 本研究では、使用する属性の種類ではなく、モデル性能を改善するためにこの情報をどのように条件づけするかについて論じる。 我々は,それぞれの属性に因果的に依存する結合型条件付け,ゲーティング,変換に関連する,弱い条件付け,強い条件付け,純粋条件付けの3種類の条件付けを考える。 この分類は、分離可能な畳み込みから様々な形式のメッセージパッシングネットワークまで、GNNの異なるクラスについて統一的な視点を提供する。 本稿では,計算化学における条件付け手法の効果に関する実証的研究を行う。

The flexibility and effectiveness of message passing based graph neural networks (GNNs) induced considerable advances in deep learning on graph-structured data. In such approaches, GNNs recursively update node representations based on their neighbors and they gain expressivity through the use of node and edge attribute vectors. E.g., in computational tasks such as physics and chemistry usage of edge attributes such as relative position or distance proved to be essential. In this work, we address not what kind of attributes to use, but how to condition on this information to improve model performance. We consider three types of conditioning; weak, strong, and pure, which respectively relate to concatenation-based conditioning, gating, and transformations that are causally dependent on the attributes. This categorization provides a unifying viewpoint on different classes of GNNs, from separable convolutions to various forms of message passing networks. We provide an empirical study on the effect of conditioning methods in several tasks in computational chemistry.
翻訳日:2023-05-04 15:53:30 公開日:2023-05-03
# スケーラブルな形式検証のための仕様駆動ニューラルネットワークの削減

Specification-Driven Neural Network Reduction for Scalable Formal Verification ( http://arxiv.org/abs/2305.01932v1 )

ライセンス: Link先を確認
Tobias Ladner, Matthias Althoff(参考訳) ニューラルネットワークの形式的検証は、安全クリティカルな設定で展開する前に不可欠である。 しかし、ニューラルネットワークを公式に検証する既存の方法は、多数のニューロンを含む実用的な問題を扱うのに十分なスケーラビリティを持っていない。 本研究では,この課題に対処する新しいアプローチを提案する。 ネットワークの検証が元のネットワークの検証を意味することを確実にする,保守的なニューラルネットワーク削減アプローチ。 提案手法は,元のネットワークとその仕様を同時に検証しながら,オンザフライでの低減を構築する。 この還元は、同様の出力を持つ非線形層の全てのニューロンをマージし、ReLU、シグモイド、タンなどの任意の種類の活性化機能を持つニューラルネットワークに適用できる。 評価の結果,本手法はニューロン数の5%以下までネットワークを縮小し,検証時間を短縮できることがわかった。

Formal verification of neural networks is essential before their deployment in safety-critical settings. However, existing methods for formally verifying neural networks are not yet scalable enough to handle practical problems that involve a large number of neurons. In this work, we propose a novel approach to address this challenge: A conservative neural network reduction approach that ensures that the verification of the reduced network implies the verification of the original network. Our approach constructs the reduction on-the-fly, while simultaneously verifying the original network and its specifications. The reduction merges all neurons of a nonlinear layer with similar outputs and is applicable to neural networks with any type of activation function such as ReLU, sigmoid, and tanh. Our evaluation shows that our approach can reduce a network to less than 5% of the number of neurons and thus to a similar degree the verification time is reduced.
翻訳日:2023-05-04 15:53:15 公開日:2023-05-03
# ビジュアルトランスフォーメーション

Visual Transformation Telling ( http://arxiv.org/abs/2305.01928v1 )

ライセンス: Link先を確認
Xin Hong, Yanyan Lan, Liang Pang, Jiafeng Guo, Xueqi Cheng(参考訳) 本稿では,ビジュアルトランスフォーメーション・テリング(VTT)と呼ばれる新しい視覚的推論タスクを提案する。 このタスクは、一連の2つの隣接する状態(すなわち画像)間で発生した変換を記述する機械を必要とする。 状態推論に重点を置く既存の視覚推論タスクとは異なり、VTTは変換推論を強調している。 我々は、CrossTaskとCOINという2つのインストラクショナルビデオデータセットから13,547のサンプルを収集し、望ましいVTTベンチマークデータセットを作成するために、望ましい状態と変換記述を抽出した。 人間は、表面的な状態の違い(例えば、地面の湿気)から、生活経験に基づく変化の記述(例えば、雨)まで、自然に推論できるが、この過程をモデル化して、このセマンティックギャップを橋渡しする方法は難しい。 我々は,既存のビジュアルストーリーテリングモデル上にTTNetを設計し,モデルの状態差感度と変換コンテキスト認識を強化した。 TTNetは、視覚的なストーリーテリングや高密度ビデオキャプションといった類似のタスクに適応した他のベースラインモデルよりも優れており、我々のモデリングが変換に与える影響を実証している。 包括的診断分析により,TTNetには強い文脈利用能力があることがわかったが,CLIPのような最先端技術でも,さらなる検討を要する一般化の課題が残っている。

In this paper, we propose a new visual reasoning task, called Visual Transformation Telling (VTT). This task requires a machine to describe the transformation that occurred between every two adjacent states (i.e. images) in a series. Unlike most existing visual reasoning tasks that focus on state reasoning, VTT emphasizes transformation reasoning. We collected 13,547 samples from two instructional video datasets, CrossTask and COIN, and extracted desired states and transformation descriptions to create a suitable VTT benchmark dataset. Humans can naturally reason from superficial states differences (e.g. ground wetness) to transformations descriptions (e.g. raining) according to their life experience but how to model this process to bridge this semantic gap is challenging. We designed TTNet on top of existing visual storytelling models by enhancing the model's state-difference sensitivity and transformation-context awareness. TTNet significantly outperforms other baseline models adapted from similar tasks, such as visual storytelling and dense video captioning, demonstrating the effectiveness of our modeling on transformations. Through comprehensive diagnostic analyses, we found TTNet has strong context utilization abilities, but even with some state-of-the-art techniques such as CLIP, there remain challenges in generalization that need to be further explored.
翻訳日:2023-05-04 15:53:02 公開日:2023-05-03
# クロス拡散によるDiffFacto制御部品ベース3次元点雲生成

DiffFacto Controllable Part-Based 3D Point Cloud Generation with Cross Diffusion ( http://arxiv.org/abs/2305.01921v1 )

ライセンス: Link先を確認
Kiyohiro Nakayama, Mikaela Angelina Uy, Jiahui Huang, Shi-Min Hu, Ke Li, Leonidas J Guibas(参考訳) 3dポイントクラウド生成のコミュニティは近年大きな成長を遂げているものの、生成プロセスにおいて直感的なユーザ制御を可能にする効果的な方法が不足しているため、そのような方法の汎用性が制限されている。 形状を直感的に分解する方法はその部分を通して行われるので,制御可能な部分ベースの点雲生成の課題に取り組むことを提案する。 DiffFactoは,部品レベルの制御で形状の分布を学習する新しい確率的生成モデルである。 本論文では,部品形状と部品構成分布を独立にモデル化する因子化を提案し,提案する因子化の下でコヒーレントかつ可算な形状を生成できる新しいクロス拡散ネットワークを提案する。 実験により,複数軸の制御により新たな形状を生成できることが確認された。 最先端の部品レベルの生成品質を実現し、形状補間、混合、変換編集といった様々な下流編集アプリケーションを可能にしながら、妥当でコヒーレントな形状を生成する。 コードは公開される予定だ。

While the community of 3D point cloud generation has witnessed a big growth in recent years, there still lacks an effective way to enable intuitive user control in the generation process, hence limiting the general utility of such methods. Since an intuitive way of decomposing a shape is through its parts, we propose to tackle the task of controllable part-based point cloud generation. We introduce DiffFacto, a novel probabilistic generative model that learns the distribution of shapes with part-level control. We propose a factorization that models independent part style and part configuration distributions, and present a novel cross diffusion network that enables us to generate coherent and plausible shapes under our proposed factorization. Experiments show that our method is able to generate novel shapes with multiple axes of control. It achieves state-of-the-art part-level generation quality and generates plausible and coherent shape, while enabling various downstream editing applications such as shape interpolation, mixing and transformation editing. Code will be made publicly available.
翻訳日:2023-05-04 15:52:37 公開日:2023-05-03
# ゼロショット関係トリプレット抽出のための生成メタラーニング

Generative Meta-Learning for Zero-Shot Relation Triplet Extraction ( http://arxiv.org/abs/2305.01920v1 )

ライセンス: Link先を確認
Wanli Li, Tieyun Qian(参考訳) ゼロショット関係三重項抽出(ZeroRTE)タスクは、未知の関係型を持つテキストから関係三重項を抽出することを目的としている。 基礎研究は、事前学習された生成モデルを採用し、新しい関係のための合成サンプルを生成する。 しかし、現在の生成モデルでは、トレーニング中の異なるタスクにおけるモデル一般化の最適化プロセスが欠けているため、一般化能力は限られている。 そこで本研究では,メタラーニングの「学習から学習への」能力を利用して,生成モデルの一般化能力を高める新しい生成メタラーニングフレームワークを提案する。 具体的には,複数のタスクにまたがって最適化処理を強制することにより,一般的な知識を学習できるタスク認識生成モデルの設計を行った。 そこで我々は,3つの典型的なメタラーニングカテゴリに指定された3つの生成メタラーニングアプローチを提案する。 我々のフレームワークはZeroRTEタスクに対して新しい最先端性能を実現することを実証した。

The zero-shot relation triplet extraction (ZeroRTE) task aims to extract relation triplets from a piece of text with unseen relation types. The seminal work adopts the pre-trained generative model to generate synthetic samples for new relations. However, current generative models lack the optimization process of model generalization on different tasks during training, and thus have limited generalization capability. For this reason, we propose a novel generative meta-learning framework which exploits the `learning-to-learn' ability of meta-learning to boost the generalization capability of generative models. Specifically, we first design a task-aware generative model which can learn the general knowledge by forcing the optimization process to be conducted across multiple tasks. Based on it, we then present three generative meta-learning approaches designated for three typical meta-learning categories. Extensive experimental results demonstrate that our framework achieves a new state-of-the-art performance for the ZeroRTE task.
翻訳日:2023-05-04 15:52:19 公開日:2023-05-03
# AIフィードバックによる文埋め込みのコントラスト学習の改善

Improving Contrastive Learning of Sentence Embeddings from AI Feedback ( http://arxiv.org/abs/2305.01918v1 )

ライセンス: Link先を確認
Qinyuan Cheng, Xiaogui Yang, Tianxiang Sun, Linyang Li, Xipeng Qiu(参考訳) コントラスト学習は自然言語処理、特に文埋め込みの学習において一般的なアプローチとなっている。 しかし、自然言語の離散的な性質は、データ拡張法による正と負のサンプルペアの品質を保証するのを困難にしている。 教師付きコントラスト学習は、人間のフィードバックラベルとより正確なサンプルペアを生成することができるが、きめ細かいトレーニング信号が不足している。 本稿では,<textbf{AI} \textbf{F}eedback \textbf{(CLAIF)} からの文埋め込みの<textbf{C}ontrastive \textbf{L}earning を改善することを提案する。 提案手法は,大規模な事前学習言語モデル(LLM)からのAIフィードバックを利用して,微細なサンプル類似度スコアを持つサンプルペアを構築し,コントラスト学習を改善する。 さらに、人間のフィードバックとAIフィードバックを組み合わせて、文埋め込みの教師付きコントラスト学習のためのより良い監視信号を提供する。 実験の結果,複数の意味的テキスト類似性 (sts) と伝達学習タスクにおいて,教師なし,教師なしの他のコントラスト学習法と比較して,最先端のパフォーマンスが得られることがわかった。

Contrastive learning has become a popular approach in natural language processing, particularly for the learning of sentence embeddings. However, the discrete nature of natural language makes it difficult to ensure the quality of positive and negative sample pairs generated through data augmentation methods. Although supervised contrastive learning can produce more accurate sample pairs with human feedback labels, it still lacks fine-grained training signals. In this paper, we propose to improve \textbf{C}ontrastive \textbf{L}earning of sentence embeddings from \textbf{AI} \textbf{F}eedback \textbf{(CLAIF)}. Our method utilizes AI feedback from large pre-trained language models (LLMs) to construct sample pairs with fine-grained sample similarity scores to improve contrastive learning. Besides, we combine human feedback and AI feedback to provide better supervision signals for supervised contrastive learning of sentence embeddings. Experimental results show that our method achieves state-of-the-art performance on several semantic textual similarity (STS) and transfer learning tasks compared to other unsupervised and supervised contrastive learning methods.
翻訳日:2023-05-04 15:52:04 公開日:2023-05-03
# 因果干渉に基づくファウショットによるエンティティ認識

Causal Interventions-based Few-Shot Named Entity Recognition ( http://arxiv.org/abs/2305.01914v1 )

ライセンス: Link先を確認
Zhen Yang, Yongbin Liu, Chunping Ouyang(参考訳) 名前付きエンティティ認識(NER)システムは、いくつかのラベル付きサンプルに基づいて新しいエンティティのクラスを認識することを目的としている。 少数ショット体制における重要な課題は、豊富なサンプルを持つタスクよりも過剰にフィットする傾向があることである。 少数ショット学習における過大な過剰は, 少数のサンプル選択バイアスによって引き起こされる散発的な相関が主因である。 本稿では,数発NERにおけるスプリアス相関の問題を軽減するために,因果介入に基づく数発NER法を提案する。 原型的なネットワークに基づいて、この手法はトレーニング中にバックドア調整を通じてコンテキストとプロトタイプに介入する。 特に、ワンショットシナリオのコンテキストでの介入は非常に難しいため、私たちはインクリメンタルな学習を通じてプロトタイプに介入します。 異なるベンチマーク実験により、我々の手法は、新しい最先端の成果(全タスクで最大29%、平均12%の絶対改善を達成する)を達成することが示された。

Few-shot named entity recognition (NER) systems aims at recognizing new classes of entities based on a few labeled samples. A significant challenge in the few-shot regime is prone to overfitting than the tasks with abundant samples. The heavy overfitting in few-shot learning is mainly led by spurious correlation caused by the few samples selection bias. To alleviate the problem of the spurious correlation in the few-shot NER, in this paper, we propose a causal intervention-based few-shot NER method. Based on the prototypical network, the method intervenes in the context and prototype via backdoor adjustment during training. In particular, intervening in the context of the one-shot scenario is very difficult, so we intervene in the prototype via incremental learning, which can also avoid catastrophic forgetting. Our experiments on different benchmarks show that our approach achieves new state-of-the-art results (achieving up to 29% absolute improvement and 12% on average for all tasks).
翻訳日:2023-05-04 15:51:42 公開日:2023-05-03
# MolKD:分子特性予測のための化学反応におけるクロスモーダル知識の蒸留

MolKD: Distilling Cross-Modal Knowledge in Chemical Reactions for Molecular Property Prediction ( http://arxiv.org/abs/2305.01912v1 )

ライセンス: Link先を確認
Liang Zeng, Lanqing Li, Jian Li(参考訳) 分子を効果的に表現する方法は、分子特性予測と薬物発見の長年の課題である。 本稿では, 化学領域の知識, 特に化学反応に関する知識を, 効果的な分子表現の学習に取り入れることを提案する。 しかし、化学反応と分子間の固有の相互モダリティ特性は、対処すべき重要な課題である。 この目的のために,分子特性予測を支援するために化学反応におけるクロスモーダル知識を希釈する新しい手法,MolKDを導入する。 具体的には、molkd内の反応-分子蒸留モデルは、あるモダリティ(反応)を持つ教師ネットワーク学習から別のモダリティ(分子)を持つ学生ネットワーク学習へのクロスモーダル知識を伝達する。 さらに、MolKDは反応生成物を組み込むことで効果的な分子表現を学習し、反応の事前学習時に反応生成物対の変換効率を測定する。 大規模な実験により、MolKD は Tox21 上での2.1% の絶対 AUC-ROC ゲインなど、様々な競争ベースラインモデルよりも大幅に優れていることが示された。 さらなる研究により、MolKDの事前訓練された分子表現は化学的に合理的な分子類似性を区別し、高い堅牢性と解釈性を持つ分子特性予測を可能にすることが示されている。

How to effectively represent molecules is a long-standing challenge for molecular property prediction and drug discovery. This paper studies this problem and proposes to incorporate chemical domain knowledge, specifically related to chemical reactions, for learning effective molecular representations. However, the inherent cross-modality property between chemical reactions and molecules presents a significant challenge to address. To this end, we introduce a novel method, namely MolKD, which Distills cross-modal Knowledge in chemical reactions to assist Molecular property prediction. Specifically, the reaction-to-molecule distillation model within MolKD transfers cross-modal knowledge from a pre-trained teacher network learning with one modality (i.e., reactions) into a student network learning with another modality (i.e., molecules). Moreover, MolKD learns effective molecular representations by incorporating reaction yields to measure transformation efficiency of the reactant-product pair when pre-training on reactions. Extensive experiments demonstrate that MolKD significantly outperforms various competitive baseline models, e.g., 2.1% absolute AUC-ROC gain on Tox21. Further investigations demonstrate that pre-trained molecular representations in MolKD can distinguish chemically reasonable molecular similarities, which enables molecular property prediction with high robustness and interpretability.
翻訳日:2023-05-04 15:51:27 公開日:2023-05-03
# 分散インスタンスセグメンテーション:潜在MaskRCNNによる不確実性と信頼性予測のモデル化

Distributional Instance Segmentation: Modeling Uncertainty and High Confidence Predictions with Latent-MaskRCNN ( http://arxiv.org/abs/2305.01910v1 )

ライセンス: Link先を確認
YuXuan Liu, Nikhil Mishra, Pieter Abbeel, Xi Chen(参考訳) オブジェクト認識とインスタンスセグメンテーションは、あらゆるロボットや自律システムの基本的なスキルである。 既存の最先端の手法では、困難なシーンや曖昧なシーンで意味のある不確実性を捉えることができず、高性能なアプリケーションにおいて重大なエラーを引き起こすことがある。 本稿では,オブジェクトマスクの確率的仮説に対する不確かさをモデル化できる潜在符号を用いた分布型インスタンス分割モデルについて検討する。 ロボットピッキングアプリケーションでは,産業用途に必要な高精度化を実現するための信頼性マスク手法を提案する。 本手法は,ロボットアプリケーションにおける不明瞭なシーンのデータセットを含む,ロボットシステムの重大なエラーを著しく低減できることを示す。 実世界のアパレルピッキングロボットでは,高い性能を維持しながら2重ピック誤差を大幅に低減する。

Object recognition and instance segmentation are fundamental skills in any robotic or autonomous system. Existing state-of-the-art methods are often unable to capture meaningful uncertainty in challenging or ambiguous scenes, and as such can cause critical errors in high-performance applications. In this paper, we explore a class of distributional instance segmentation models using latent codes that can model uncertainty over plausible hypotheses of object masks. For robotic picking applications, we propose a confidence mask method to achieve the high precision necessary in industrial use cases. We show that our method can significantly reduce critical errors in robotic systems, including our newly released dataset of ambiguous scenes in a robotic application. On a real-world apparel-picking robot, our method significantly reduces double pick errors while maintaining high performance.
翻訳日:2023-05-04 15:51:06 公開日:2023-05-03
# マルチフォーカス空間アテンションを用いたマスケ顔認識

Localization using Multi-Focal Spatial Attention for Masked Face Recognition ( http://arxiv.org/abs/2305.01905v1 )

ライセンス: Link先を確認
Yooshin Cho, Hanbyel Cho, Hyeong Gwon Hong, Jaesung Ahn, Dongmin Cho, JungWoo Chang, and Junmo Kim(参考訳) 世界的な新型コロナウイルス(covid-19)パンデミックの始まり以来、顔のマスクは感染拡大を制限するために推奨されてきた。 しかし、これらのマスクは特定の顔の特徴を隠す。 そのため、既存の顔認証システムでは、マスク付き顔認証を行うのが難しくなっている。 この文脈では、非接触生体認証システムのためのマスク顔認識(mfr)を開発する必要がある。 そこで,本稿では,マスク領域と背景領域の2つの異なる領域に着目して,補完的な空間的注意を訓練することにより,マスク領域を正確に除去する補完的注意学習と多焦点空間注意を提案する。 本手法では,非マスク領域に着目し,従来型顔認識(fr)性能の低下を最小限に抑えつつマスク不変特徴を抽出する。 従来のFRでは,IJB-C, Age-DB, CALFW, CPLFWデータセットの性能評価を行った。 ICCV2021-MFR/Insightfaceトラック上でのMFR性能を評価し,MFRデータセットとFRデータセットの両方において改善された性能を示す。 さらに,提案手法の空間的注意が,未成熟領域でより正確に活性化されていることを実証的に検証した。

Since the beginning of world-wide COVID-19 pandemic, facial masks have been recommended to limit the spread of the disease. However, these masks hide certain facial attributes. Hence, it has become difficult for existing face recognition systems to perform identity verification on masked faces. In this context, it is necessary to develop masked Face Recognition (MFR) for contactless biometric recognition systems. Thus, in this paper, we propose Complementary Attention Learning and Multi-Focal Spatial Attention that precisely removes masked region by training complementary spatial attention to focus on two distinct regions: masked regions and backgrounds. In our method, standard spatial attention and networks focus on unmasked regions, and extract mask-invariant features while minimizing the loss of the conventional Face Recognition (FR) performance. For conventional FR, we evaluate the performance on the IJB-C, Age-DB, CALFW, and CPLFW datasets. We evaluate the MFR performance on the ICCV2021-MFR/Insightface track, and demonstrate the improved performance on the both MFR and FR datasets. Additionally, we empirically verify that spatial attention of proposed method is more precisely activated in unmasked regions.
翻訳日:2023-05-04 15:50:52 公開日:2023-05-03
# NorQuAD: ノルウェーの質問回答データセット

NorQuAD: Norwegian Question Answering Dataset ( http://arxiv.org/abs/2305.01957v1 )

ライセンス: Link先を確認
Sardana Ivanova, Fredrik Aas Andreassen, Matias Jentoft, Sondre Wold, Lilja {\O}vrelid(参考訳) 本稿では,norquad: the first norwegian question answering dataset for machine reading comprehensionについて述べる。 データセットは4,752人で作成されている。 ここでは、データ収集手順とデータセットの統計について詳述する。 また、複数の多言語およびノルウェーの単言語モデルについてベンチマークを行い、人間のパフォーマンスと比較した。 データセットは無償で提供される。

In this paper we present NorQuAD: the first Norwegian question answering dataset for machine reading comprehension. The dataset consists of 4,752 manually created question-answer pairs. We here detail the data collection procedure and present statistics of the dataset. We also benchmark several multilingual and Norwegian monolingual language models on the dataset and compare them against human performance. The dataset will be made freely available.
翻訳日:2023-05-04 15:42:47 公開日:2023-05-03
# SeqAug: モーダリティに依存しない拡張手法としての逐次特徴再サンプリング

SeqAug: Sequential Feature Resampling as a modality agnostic augmentation method ( http://arxiv.org/abs/2305.01954v1 )

ライセンス: Link先を確認
Efthymios Georgiou, Alexandros Potamianos(参考訳) データ拡張は、さまざまな機械学習アプリケーションのパフォーマンスを改善するための一般的なテクニックである。 本稿では,抽出された特徴の列に合わせたモダリティに依存しない拡張法SeqAugを提案する。 SeqAugの中核となる考え方は、基礎となる機能ディストリビューションから再サンプリングすることでシーケンスを増強することだ。 再サンプリングは、特徴次元をランダムに選択し、時間軸に沿って順応することで行われる。 CMU-MOSEIの実験は、SeqAugがモダリティ非依存であることを検証する。 さらに、リカレントアーキテクチャとトランスフォーマーアーキテクチャの両方との互換性を検証するとともに、最先端の結果に匹敵する結果を示す。

Data augmentation is a prevalent technique for improving performance in various machine learning applications. We propose SeqAug, a modality-agnostic augmentation method that is tailored towards sequences of extracted features. The core idea of SeqAug is to augment the sequence by resampling from the underlying feature distribution. Resampling is performed by randomly selecting feature dimensions and permuting them along the temporal axis. Experiments on CMU-MOSEI verify that SeqAug is modality agnostic; it can be successfully applied to a single modality or multiple modalities. We further verify its compatibility with both recurrent and transformer architectures, and also demonstrate comparable to state-of-the-art results.
翻訳日:2023-05-04 15:42:42 公開日:2023-05-03
# TempoSum:抽象的な要約の時間的一般化を評価する

TempoSum: Evaluating the Temporal Generalization of Abstractive Summarization ( http://arxiv.org/abs/2305.01951v1 )

ライセンス: Link先を確認
Chi Seng Cheang, Hou Pong Chan, Derek F. Wong, Xuebo Liu, Zhaocong Li, Yanming Sun, Shudong Liu, Lidia S. Chao(参考訳) 最近の学習済み言語モデル(PLM)は、既存の抽象的な要約データセットにおいて有望な結果をもたらす。 しかし、既存の要約ベンチマークは、標準の事前学習コーパスと微調整データセットと時間的に重なる。 したがって、PLMの強い性能は、事前学習と微調整の間に記憶されるパラメトリック知識に依存する可能性がある。 さらに, PLM が記憶する知識は急速に時代遅れになり, 将来のデータに対する PLM の一般化性能に影響を与える可能性がある。 本研究では,抽象的な要約モデルの時間的一般化能力を理解するため,2010年から2022年までのデータサンプルを含む新しいベンチマークであるTempoSumを提案する。 本研究では,要約モデルに蓄積されたパラメトリック知識が,生成した要約の忠実性に大きく影響することを示す。 また,既存の忠実性向上手法は,将来のデータに対する要約モデルの忠実性を確実に改善することができない。 最後に,テキスト要約モデルの時間的一般化能力の評価と改善について,研究コミュニティにいくつか提言する。

Recent pre-trained language models (PLMs) achieve promising results in existing abstractive summarization datasets. However, existing summarization benchmarks overlap in time with the standard pre-training corpora and finetuning datasets. Hence, the strong performance of PLMs may rely on the parametric knowledge that is memorized during pre-training and fine-tuning. Moreover, the knowledge memorized by PLMs may quickly become outdated, which affects the generalization performance of PLMs on future data. In this work, we propose TempoSum, a novel benchmark that contains data samples from 2010 to 2022, to understand the temporal generalization ability of abstractive summarization models. Through extensive human evaluation, we show that parametric knowledge stored in summarization models significantly affects the faithfulness of the generated summaries on future data. Moreover, existing faithfulness enhancement methods cannot reliably improve the faithfulness of summarization models on future data. Finally, we discuss several recommendations to the research community on how to evaluate and improve the temporal generalization capability of text summarization models.
翻訳日:2023-05-04 15:42:30 公開日:2023-05-03
# 量子暗号のための制御された絡み合い源

Controlled entanglement source for quantum cryptography ( http://arxiv.org/abs/2305.01946v1 )

ライセンス: Link先を確認
Qiang Zeng, Haoyang Wang, Huihong Yuan, Yuanbin Fan, Lai Zhou, Yuanfei Gao, Haiqiang Ma, and Zhiliang Yuan(参考訳) 量子エンタングルメントは量子情報処理において重要な資源となっている。 既存の作品は、様々なタスクを実行するために絡み合った量子状態を使用し、リソースの制御にはほとんど注意を払わない。 本研究では,光ポンプの位相ランダム化によるアクセス制御により絡み合い源をアップグレードする簡単なプロトコルを提案する。 拡張されたソースは、量子暗号を実装するために絡み合うリソースを利用するすべてのユーザーを効果的に制御することができる。 さらに、この制御は、デバイス非依存の量子鍵分布に対するメモリ攻撃に対して、無視できるコストで実用的な対策として機能することを示す。 提案プロトコルの実現可能性を示すために,既製の部品のみを用いて実験的な構成を実装し,その性能を特徴付ける。

Quantum entanglement has become an essential resource in quantum information processing. Existing works employ entangled quantum states to perform various tasks, while little attention is paid to the control of the resource. In this work, we propose a simple protocol to upgrade an entanglement source with access control through phase randomization at the optical pump. The enhanced source can effectively control all users in utilizing the entanglement resource to implement quantum cryptography. In addition, we show this control can act as a practical countermeasure against memory attack on device-independent quantum key distribution at a negligible cost. To demonstrate the feasibility of our protocol, we implement an experimental setup using just off-the-shelf components and characterize its performance accordingly.
翻訳日:2023-05-04 15:42:15 公開日:2023-05-03
# 任意の$p$-Normの実験的設計

Experimental Design for Any $p$-Norm ( http://arxiv.org/abs/2305.01942v1 )

ライセンス: Link先を確認
Lap Chi Lau, Robert Wang, Hong Zhou(参考訳) 我々は,実験的な設計問題に対する一般の$p$-norm 目標を,いくつかの熟達した目的 (d/a/e-design) を特殊ケースとして捉えた。 ランダムな局所探索手法は、全ての$p$でこの問題を解くための統一アルゴリズムを提供する。 これは一般の$p$-normの目的に対する最初の近似アルゴリズムを提供し、特殊ケースの最もよく知られた境界をうまく補間する。

We consider a general $p$-norm objective for experimental design problems that captures some well-studied objectives (D/A/E-design) as special cases. We prove that a randomized local search approach provides a unified algorithm to solve this problem for all $p$. This provides the first approximation algorithm for the general $p$-norm objective, and a nice interpolation of the best known bounds of the special cases.
翻訳日:2023-05-04 15:42:05 公開日:2023-05-03
# 地球生成モデルによるタンパク質配列空間の探索

Exploring the Protein Sequence Space with Global Generative Models ( http://arxiv.org/abs/2305.01941v1 )

ライセンス: Link先を確認
Sergio Romero-Romero, Sebastian Lindner, Noelia Ferruz(参考訳) 画像と言語を訓練するための大規模アーキテクチャの進歩は、コンピュータビジョンと自然言語処理(NLP)の分野に大きな影響を与えている。 最近のChatGPTやGPT4のような言語モデルは、人間の言語を処理、翻訳、生成する際、例外的な能力を示している。 これらのブレークスルーはタンパク質研究にも反映され、多くの新しい手法が短期間で急速に発展し、前例のない性能を誇った。 特に言語モデルはタンパク質の研究で広く使われており、タンパク質の埋め込み、新しいタンパク質の生成、第三紀の構造の予測に使われている。 本章では,タンパク質生成モデルの利用について概説し,概説する。 1)新規人工タンパク質の設計のための言語モデル 2)非トランスフォーマーアーキテクチャを使用する作業,及び 3) 有向進化的アプローチにおける応用

Recent advancements in specialized large-scale architectures for training image and language have profoundly impacted the field of computer vision and natural language processing (NLP). Language models, such as the recent ChatGPT and GPT4 have demonstrated exceptional capabilities in processing, translating, and generating human languages. These breakthroughs have also been reflected in protein research, leading to the rapid development of numerous new methods in a short time, with unprecedented performance. Language models, in particular, have seen widespread use in protein research, as they have been utilized to embed proteins, generate novel ones, and predict tertiary structures. In this book chapter, we provide an overview of the use of protein generative models, reviewing 1) language models for the design of novel artificial proteins, 2) works that use non-Transformer architectures, and 3) applications in directed evolution approaches.
翻訳日:2023-05-04 15:41:57 公開日:2023-05-03
# aiモデルにおける疎結合な象徴的概念の出現を証明し

Where We Have Arrived in Proving the Emergence of Sparse Symbolic Concepts in AI Models ( http://arxiv.org/abs/2305.01939v1 )

ライセンス: Link先を確認
Qihan Ren, Jiayang Gao, Wen Shen, Quanshi Zhang(参考訳) 本稿では、よく訓練されたAIモデルにおける象徴的概念の出現を証明することを目的とする。 その結果,(1)入力変数がすべてゼロであるようなモデルの高次導関数が,(2)オクルードされたサンプルにaiモデルを適用でき,入力サンプルがオクルードされていない場合に高い信頼性が得られること,(3)オクルードされたサンプルでは,aiモデルの信頼度が著しく低下しないこと,そして、aiモデルはスパースインタラクティブな概念を符号化できることが証明された。 各インタラクティブな概念は、入力変数の特定のセット間の相互作用を表し、モデルの推論スコアに一定の数値効果を持つ。 特に、モデルの推論スコアは、常に全ての対話的概念の相互作用効果の和として表現できることが証明される。 実際、象徴的概念の出現の条件が極めて一般的であることを証明したい。 つまり、ほとんどのaiモデルでは、任意のマスクされたサンプルのモデルの出力を模倣するために、少数のインタラクティブなコンセプトを使うことができる。

This paper aims to prove the emergence of symbolic concepts in well-trained AI models. We prove that if (1) the high-order derivatives of the model output w.r.t. the input variables are all zero, (2) the AI model can be used on occluded samples and will yield higher confidence when the input sample is less occluded, and (3) the confidence of the AI model does not significantly degrade on occluded samples, then the AI model will encode sparse interactive concepts. Each interactive concept represents an interaction between a specific set of input variables, and has a certain numerical effect on the inference score of the model. Specifically, it is proved that the inference score of the model can always be represented as the sum of the interaction effects of all interactive concepts. In fact, we hope to prove that conditions for the emergence of symbolic concepts are quite common. It means that for most AI models, we can usually use a small number of interactive concepts to mimic the model outputs on any arbitrarily masked samples.
翻訳日:2023-05-04 15:41:47 公開日:2023-05-03
# Doc2SoarGraph: セマンティック指向階層グラフによるビジュアルリッチテーブルテキストドキュメントの離散推論

Doc2SoarGraph: Discrete Reasoning over Visually-Rich Table-Text Documents with Semantic-Oriented Hierarchical Graphs ( http://arxiv.org/abs/2305.01938v1 )

ライセンス: Link先を確認
Fengbin Zhu, Chao Wang, Fuli Feng, Zifeng Ren, Moxin Li, Tat-Seng Chua(参考訳) テーブルテキスト文書(例えば財務報告)に対する離散的推論は、近年2年間で注目を集めている。 既存の作業は、ドキュメントページを構造化テーブルや段落に手動で選択・変換することで、この課題を単純化する。 本研究では,より現実的なTAT-DQA形式,すなわち視覚的にリッチなテーブルテキスト文書の解答について検討する。 具体的には,与えられた質問と文書の異なる要素(量,日付など)間の差異と相関を意味的指向の階層的グラフ構造で活用し,離散的推論能力を高めた新しいdoc2soargraphフレームワークを提案する。 tat-dqaデータセットに関する広範な実験を行い,提案フレームワークが,テストセット上で17.73%,16.91%の精度マッチング(em)とf1スコアで,最高のベースラインモデルを上回って,新たな最先端を実現したことを示す。

Discrete reasoning over table-text documents (e.g., financial reports) gains increasing attention in recent two years. Existing works mostly simplify this challenge by manually selecting and transforming document pages to structured tables and paragraphs, hindering their practical application. In this work, we explore a more realistic problem setting in the form of TAT-DQA, i.e. to answer the question over a visually-rich table-text document. Specifically, we propose a novel Doc2SoarGraph framework with enhanced discrete reasoning capability by harnessing the differences and correlations among different elements (e.g., quantities, dates) of the given question and document with Semantic-oriented hierarchical Graph structures. We conduct extensive experiments on TAT-DQA dataset, and the results show that our proposed framework outperforms the best baseline model by 17.73% and 16.91% in terms of Exact Match (EM) and F1 score respectively on the test set, achieving the new state-of-the-art.
翻訳日:2023-05-04 15:41:28 公開日:2023-05-03
# 大規模言語モデルは人間の評価の代替となるか?

Can Large Language Models Be an Alternative to Human Evaluations? ( http://arxiv.org/abs/2305.01937v1 )

ライセンス: Link先を確認
Cheng-Han Chiang and Hung-yi Lee(参考訳) 人間の評価は、機械学習モデルや人間が書いたテキストの品質を評価するのに不可欠であり、避けられない。 しかし、人間の評価は再現が非常に困難であり、その品質は不安定であり、異なる自然言語処理(NLP)モデルとアルゴリズムの公正な比較を妨げる。 近年の大規模言語モデル(llm)では,タスク命令のみを提供する場合の非認識タスクの性能が著しく向上している。 本稿では,LLMのこのような能力が人間の評価の代替として利用できるかどうかを考察する。 我々は、人間評価を行うのに使用される質問と全く同じ指示、評価すべきサンプル、および質問をllmに提示し、その質問に対する応答を生成するようにllmに依頼する。 我々は,オープンエンドストーリー生成と敵攻撃という2つのNLPタスクにおいて,人間の評価とLLM評価を用いてテキストの評価を行う。 llm評価の結果は、専門家による評価結果と一致しており、人間の専門家によって高く評価されたテキストは、llmによっても高く評価されている。 また,LLM評価の結果は,タスク命令とサンプリングアルゴリズムの異なるフォーマットに対して安定であることがわかった。 我々は, LLMを用いてテキストの品質を評価する可能性を初めて示し, LLM評価の限界と倫理的考察について議論する。

Human evaluation is indispensable and inevitable for assessing the quality of texts generated by machine learning models or written by humans. However, human evaluation is very difficult to reproduce and its quality is notoriously unstable, hindering fair comparisons among different natural language processing (NLP) models and algorithms. Recently, large language models (LLMs) have demonstrated exceptional performance on unseen tasks when only the task instructions are provided. In this paper, we explore if such an ability of the LLMs can be used as an alternative to human evaluation. We present the LLMs with the exact same instructions, samples to be evaluated, and questions used to conduct human evaluation, and then ask the LLMs to generate responses to those questions; we dub this LLM evaluation. We use human evaluation and LLM evaluation to evaluate the texts in two NLP tasks: open-ended story generation and adversarial attacks. We show that the result of LLM evaluation is consistent with the results obtained by expert human evaluation: the texts rated higher by human experts are also rated higher by the LLMs. We also find that the results of LLM evaluation are stable over different formatting of the task instructions and the sampling algorithm used to generate the answer. We are the first to show the potential of using LLMs to assess the quality of texts and discuss the limitations and ethical considerations of LLM evaluation.
翻訳日:2023-05-04 15:41:07 公開日:2023-05-03
# セキュリティ用x線画像における不正項目検出

Illicit item detection in X-ray images for security applications ( http://arxiv.org/abs/2305.01936v1 )

ライセンス: Link先を確認
Georgios Batsis, Ioannis Mademlis, Georgios Th. Papadopoulos(参考訳) 空港や地下鉄、税関・郵便局などの警備員の精神的負担を軽減することで、x線画像中のコントラバンド項目の自動検出は公共の安全を大幅に向上させることができる。 ラッシュ時の乗客の大量かつ高スループット、郵便荷物等は、ビッグデータ分析タスクとなる。 ディープニューラルネットワーク(DNN)に依存した現代のコンピュータビジョンアルゴリズムは、高速で単一ステージのアンカーベースのオブジェクト検出器と同様に、リソース制約や組込み実行シナリオの下でも、このタスクを遂行できることが証明されている。 本稿では,x線解析領域におけるそのようなアルゴリズムの2次元的改良を提案する。 第一に、より効率的なアンカーは、基底トラストレーニングセット境界ボックスのサイズを階層的にクラスタリングすることによって得られるので、結果として得られるアンカーは、データのセマンティック構造に沿った自然な階層に従う。 第二に、オブジェクト検出パイプラインの終端にあるデフォルトの非最大抑圧(NMS)アルゴリズムは、重み付きクラスタNMSメソッドにE-IoU(Efficient Intersection over Union)メトリックを挿入することにより、隠蔽されたオブジェクトの検出をよりうまく処理し、誤予測の数を減らすために修正される。 E-IoUは、候補境界ボックス/Regions-of-Interest(RoIs)間のより識別的な幾何学的相関を提供する。 提案手法は,共通単段物体検出器 (yolov5) に実装され,関連する公開データセットに対する実験的評価は,ベースラインと競合するアプローチの両方に対して有意な精度向上を示す。 これは、公共の安全性向上におけるビッグデータ分析の可能性を強調している。

Automated detection of contraband items in X-ray images can significantly increase public safety, by enhancing the productivity and alleviating the mental load of security officers in airports, subways, customs/post offices, etc. The large volume and high throughput of passengers, mailed parcels, etc., during rush hours make it a Big Data analysis task. Modern computer vision algorithms relying on Deep Neural Networks (DNNs) have proven capable of undertaking this task even under resource-constrained and embedded execution scenarios, e.g., as is the case with fast, single-stage, anchor-based object detectors. This paper proposes a two-fold improvement of such algorithms for the X-ray analysis domain, introducing two complementary novelties. Firstly, more efficient anchors are obtained by hierarchical clustering the sizes of the ground-truth training set bounding boxes; thus, the resulting anchors follow a natural hierarchy aligned with the semantic structure of the data. Secondly, the default Non-Maximum Suppression (NMS) algorithm at the end of the object detection pipeline is modified to better handle occluded object detection and to reduce the number of false predictions, by inserting the Efficient Intersection over Union (E-IoU) metric into the Weighted Cluster NMS method. E-IoU provides more discriminative geometrical correlations between the candidate bounding boxes/Regions-of-Interest (RoIs). The proposed method is implemented on a common single-stage object detector (YOLOv5) and its experimental evaluation on a relevant public dataset indicates significant accuracy gains over both the baseline and competing approaches. This highlights the potential of Big Data analysis in enhancing public safety.
翻訳日:2023-05-04 15:40:45 公開日:2023-05-03
# 駆動マイクロ波共振器の光子放射統計

Photon emission statistics of a driven microwave cavity ( http://arxiv.org/abs/2305.01986v1 )

ライセンス: Link先を確認
Pedro Portugal, Fredrik Brange, Kalle S. U. Kansanen, Peter Samuelsson, and Christian Flindt(参考訳) 最近の実験的進歩により、ナノスケール導体中の単一電子のトンネル化や非古典光源からの光子放出など、オープン量子系の個々の量子ジャンプを検出できるようになった。 本研究では,外部磁場により共鳴駆動されるマイクロ波共振器から放射される光子の統計を理論的に検討する。 パラメトリックとコヒーレントドライブの違いに着目し,キャビティフィールドを圧縮または変位させる。 ガウス状態に基づく理論的枠組みを用いて,光子放射統計量の生成関数を得るために,計数場を施したlindbladマスター方程式を用いる。 次に、2つのドライブの光子待ち時間の分布と、出射光の$g^{(2)}$-関数を比較し、これらの観測値間の重要な違いを同定する。 長時間の限界において、光子放射統計の因子的累積と、この2つの駆動で顕著に異なる放出電流の大規模偏差統計を解析する。 理論的な枠組みは、マイクロ波共振器を複数組み合わせた、より複雑なシステムにも容易に拡張でき、将来の実験で予測を検証できる。

Recent experimental advances have made it possible to detect individual quantum jumps in open quantum systems, such as the tunneling of single electrons in nanoscale conductors or the emission of photons from non-classical light sources. Here, we investigate theoretically the statistics of photons emitted from a microwave cavity that is driven resonantly by an external field. We focus on the differences between a parametric and a coherent drive, which either squeezes or displaces the cavity field. We employ a Lindblad master equation dressed with counting fields to obtain the generating function of the photon emission statistics using a theoretical framework based on Gaussian states. We then compare the distribution of photon waiting times for the two drives as well as the $g^{(2)}$-functions of the outgoing light, and we identify important differences between these observables. In the long-time limit, we analyze the factorial cumulants of the photon emission statistics and the large-deviation statistics of the emission currents, which are markedly different for the two drives. Our theoretical framework can readily be extended to more complicated systems, for instance, with several coupled microwave cavities, and our predictions may be tested in future experiments.
翻訳日:2023-05-04 15:34:49 公開日:2023-05-03
# 『マトリックスのグリッチ!』:コンテンツ駆動型オーディオ映像偽造検出と位置推定のための大規模ベンチマーク

"Glitch in the Matrix!": A Large Scale Benchmark for Content Driven Audio-Visual Forgery Detection and Localization ( http://arxiv.org/abs/2305.01979v1 )

ライセンス: Link先を確認
Zhixi Cai, Shreya Ghosh, Tom Gedeon, Abhinav Dhall, Kalin Stefanov, Munawar Hayat(参考訳) ほとんどのディープフェイク検出方法は、顔属性の空間的および/または時空間的変化を検出することに焦点を当てている。 これは、利用可能なベンチマークデータセットに主に視覚のみの変更が含まれているためである。 しかし、洗練されたディープフェイクには、コンテンツの意味を完全に変えることができるオーディオまたはオーディオ視覚操作の小さな部分が含まれるかもしれない。 このギャップに対処するために,我々は,戦略的コンテンツ駆動型オーディオ,ビジュアルおよびオーディオビジュアル操作からなる,新たなデータセットであるlocalized audio visual deepfake (lav-df)を提案し,ベンチマークを行った。 提案手法であるBundary Aware Temporal Forgery Detection (BA-TFD)は,マルチモーダル操作を効率的に捉える3次元畳み込みニューラルネットワークに基づくアーキテクチャである。 さらに,バックボーンをマルチスケールビジョン変換器に置き換え,コントラスト,フレーム分類,バウンダリマッチング,マルチモーダル境界マッチング損失関数を用いてトレーニングプロセスを導出することにより,ベースライン法をさらに改良する(BA-TFD+)。 この定量分析は,新たに提案したデータセットを含むいくつかのベンチマークデータセットを用いて,時間的偽造位置推定および深度検出タスクにおけるBA-TFD+の優位性を示す。 データセット、モデル、コードはhttps://github.com/controlnet/lav-dfで入手できる。

Most deepfake detection methods focus on detecting spatial and/or spatio-temporal changes in facial attributes. This is because available benchmark datasets contain mostly visual-only modifications. However, a sophisticated deepfake may include small segments of audio or audio-visual manipulations that can completely change the meaning of the content. To addresses this gap, we propose and benchmark a new dataset, Localized Audio Visual DeepFake (LAV-DF), consisting of strategic content-driven audio, visual and audio-visual manipulations. The proposed baseline method, Boundary Aware Temporal Forgery Detection (BA-TFD), is a 3D Convolutional Neural Network-based architecture which efficiently captures multimodal manipulations. We further improve (i.e. BA-TFD+) the baseline method by replacing the backbone with a Multiscale Vision Transformer and guide the training process with contrastive, frame classification, boundary matching and multimodal boundary matching loss functions. The quantitative analysis demonstrates the superiority of BA- TFD+ on temporal forgery localization and deepfake detection tasks using several benchmark datasets including our newly proposed dataset. The dataset, models and code are available at https://github.com/ControlNet/LAV-DF.
翻訳日:2023-05-04 15:34:30 公開日:2023-05-03
# データセット蒸留に関する調査 : アプローチ, 応用, 今後の展開

A Survey on Dataset Distillation: Approaches, Applications and Future Directions ( http://arxiv.org/abs/2305.01975v1 )

ライセンス: Link先を確認
Jiahui Geng, Zongxiong Chen, Yuandou Wang, Herbert Woisetschlaeger, Sonja Schimmler, Ruben Mayer, Zhiming Zhao and Chunming Rong(参考訳) トレーニングセットが増加し続け、最先端モデルのトレーニングコストが高まる中、データセット蒸留は機械学習で注目を集めている。 高い情報密度でデータセットを合成することで、データセット蒸留は、継続的な学習、ニューラルネットワーク検索、プライバシ保護など、さまざまな潜在的なアプリケーションを提供する。 最近の進歩にもかかわらず、アプローチとアプリケーションに対する総合的な理解が欠けている。 このギャップを埋めるために、まずデータセット蒸留の分類を提案し、既存のアプローチを特徴付けるとともに、データモダリティとその関連アプリケーションについて体系的にレビューする。 また,本研究の課題を要約し,今後の方向性について考察する。

Dataset distillation is attracting more attention in machine learning as training sets continue to grow and the cost of training state-of-the-art models becomes increasingly high. By synthesizing datasets with high information density, dataset distillation offers a range of potential applications, including support for continual learning, neural architecture search, and privacy protection. Despite recent advances, we lack a holistic understanding of the approaches and applications. Our survey aims to bridge this gap by first proposing a taxonomy of dataset distillation, characterizing existing approaches, and then systematically reviewing the data modalities, and related applications. In addition, we summarize the challenges and discuss future directions for this field of research.
翻訳日:2023-05-04 15:34:09 公開日:2023-05-03
# 高分解能熱赤外画像から発生する地表面温度

District-scale surface temperatures generated from high-resolution longitudinal thermal infrared images ( http://arxiv.org/abs/2305.01971v1 )

ライセンス: Link先を確認
Subin Lin, Vasantha Ramani, Miguel Martin, Pandarasamy Arjunan, Adrian Chong, Filip Biljecki, Marcel Ignatius, Kameshwar Poolla, Clayton Miller(参考訳) 本稿では,赤外線サーモグラフィ(赤外線サーモグラフィ)によって収集されたデータセットについて述べる。 ほとんどの研究は都市と建築規模に焦点を当てているが、屋上観測所は地域規模での動的相互作用を伴う時間的・空間的な高分解能な観測を提供する。 シンガポールでは、都市システムにおける幅広いダイナミックなプロセスを評価することができるマルチモーダルプラットフォームを備えた屋上赤外線サーモグラフィ観測所が配備された。 シンガポール国立大学のキャンパスの屋外の文脈を見渡す2つの建物の最上部に置かれた。 このプラットフォームは熱帯地域からのリモートセンシングデータを一時的なスケールで収集し、ユーザーは建物、道路、植生などの個々の特徴の温度トレンドを判断できる。 データセットには、平均10秒間隔で収集された1,365,921枚の熱画像が含まれている。

The paper describes a dataset that was collected by infrared thermography, which is a non-contact, non-intrusive technique to collect data and analyze the built environment in various aspects. While most studies focus on the city and building scales, the rooftop observatory provides high temporal and spatial resolution observations with dynamic interactions on the district scale. The rooftop infrared thermography observatory with a multi-modal platform that is capable of assessing a wide range of dynamic processes in urban systems was deployed in Singapore. It was placed on the top of two buildings that overlook the outdoor context of the campus of the National University of Singapore. The platform collects remote sensing data from tropical areas on a temporal scale, allowing users to determine the temperature trend of individual features such as buildings, roads, and vegetation. The dataset includes 1,365,921 thermal images collected on average at approximately 10 seconds intervals from two locations during ten months.
翻訳日:2023-05-04 15:33:57 公開日:2023-05-03
# dpseq:シーケンサーアーキテクチャを用いた癌バイオマーカー予測のための新規かつ効率的なデジタル病理分類器

DPSeq: A Novel and Efficient Digital Pathology Classifier for Predicting Cancer Biomarkers using Sequencer Architecture ( http://arxiv.org/abs/2305.01968v1 )

ライセンス: Link先を確認
Min Cen, Xingyu Li, Bangwei Guo, Jitendra Jonnagaddala, Hong Zhang, Xu Steven Xu(参考訳) デジタル病理学のタスクでは、トランスフォーマーは最先端の結果を達成し、畳み込みニューラルネットワーク(CNN)を超えた。 しかし、変圧器は通常複雑で資源集約的である。 本研究では,水平線と垂直2方向長短期メモリ(BiLSTM)ネットワークを統合したシーケンサアーキテクチャを用いて,癌バイオマーカーの予測を行うDPSeqという新しいデジタル病理分類器を開発した。 The Cancer Genome Atlas (TCGA) と Molecular and Cellular Oncology (MCO) の2つの国際データセットから, Hematoxylin と eosin (H&E) を用いた大腸癌の組織像を用いて, DPSeq の予測性能を一連の実験で評価した。 DPSeq は CRC (MSI status, Hypermutation, CIMP status, BRAF mutation, TP53 mutation and chromosomal instability [CING]) におけるキーバイオマーカーの予測に優れた性能を示した。 さらに、同じトレーニングとテストデータセットを使用した同じ実験条件下で、DPSeqは4つのCNN(ResNet18、ResNet50、MobileNetV2、EfficientNet)と2つのトランスフォーマー(ViTとSwin-T)モデルを超え、MSIステータス、BRAF変異、CIMPステータスを予測する上で最高のAUROCとAUPRC値を達成した。 さらにDPSeqは、単純なアーキテクチャのため、トレーニングと予測の両方に時間を必要とした。 したがってDPSeqは、がんバイオマーカーを予測するためにトランスフォーマーやCNNモデルよりも好まれる。

In digital pathology tasks, transformers have achieved state-of-the-art results, surpassing convolutional neural networks (CNNs). However, transformers are usually complex and resource intensive. In this study, we developed a novel and efficient digital pathology classifier called DPSeq, to predict cancer biomarkers through fine-tuning a sequencer architecture integrating horizon and vertical bidirectional long short-term memory (BiLSTM) networks. Using hematoxylin and eosin (H&E)-stained histopathological images of colorectal cancer (CRC) from two international datasets: The Cancer Genome Atlas (TCGA) and Molecular and Cellular Oncology (MCO), the predictive performance of DPSeq was evaluated in series of experiments. DPSeq demonstrated exceptional performance for predicting key biomarkers in CRC (MSI status, Hypermutation, CIMP status, BRAF mutation, TP53 mutation and chromosomal instability [CING]), outperforming most published state-of-the-art classifiers in a within-cohort internal validation and a cross-cohort external validation. Additionally, under the same experimental conditions using the same set of training and testing datasets, DPSeq surpassed 4 CNN (ResNet18, ResNet50, MobileNetV2, and EfficientNet) and 2 transformer (ViT and Swin-T) models, achieving the highest AUROC and AUPRC values in predicting MSI status, BRAF mutation, and CIMP status. Furthermore, DPSeq required less time for both training and prediction due to its simple architecture. Therefore, DPSeq appears to be the preferred choice over transformer and CNN models for predicting cancer biomarkers.
翻訳日:2023-05-04 15:33:42 公開日:2023-05-03
# 連続変数量子鍵分散アクセスネットワークのアップストリーム伝送実験

Experimental upstream transmission of continuous variable quantum key distribution access network ( http://arxiv.org/abs/2305.01966v1 )

ライセンス: Link先を確認
Xiangyu Wang, Ziyang Chen, Zhenghua Li, Dengke Qi, Song Yu, Hong Guo(参考訳) 低コストおよびオフザシェルフコンポーネントのみを用いて実装できる連続可変量子鍵分布は、実用的な大規模実現に大きな可能性を示す。 現代のネットワークに必要なアクセスネットワークは、複数のエンドユーザをネットワークバックボーンに接続する。 本研究では,連続可変量子鍵分布を用いた最初のアップストリーム伝送量子アクセスネットワークを実演する。 次に、2エンドユーザー量子アクセスネットワークを実験的に実現する。 位相補償、データ同期、その他の技術的アップグレードにより、全ネットワークの秘密鍵レートは390kbpsに達する。 さらに,複数ユーザを対象とした2エンドユーザ用量子アクセスネットワークの事例を拡張し,異なる時間スロットから付加余剰雑音を測定することで,複数ユーザの場合のネットワーク容量を解析する。

Continuous-variable quantum key distribution which can be implemented using only low-cost and off-the-shelf components reveals great potential in the practical large-scale realization. Access network as a modern network necessity, connects multiple end-users to the network backbone. In this work, we demonstrate the first upstream transmission quantum access networks using continuous-variable quantum key distribution. A two-end-user quantum access network is then experimentally realized. Through phase compensation, data synchronization and other technical upgrades, we achieve 390kbps secret key rate of the total network. In addition, we extend the case of two-end-user quantum access network to the case of multiple users, and analyze the network capacity in the case of multiple users by measuring the additive excess noise from different time slots.
翻訳日:2023-05-04 15:33:07 公開日:2023-05-03
# 幼児指向音声研究における音声品質が自然主義的長音録音に与える影響の分析

Analysing the Impact of Audio Quality on the Use of Naturalistic Long-Form Recordings for Infant-Directed Speech Research ( http://arxiv.org/abs/2305.01965v1 )

ライセンス: Link先を確認
Mar\'ia Andrea Cruz Bland\'on, Alejandrina Cristia, Okko R\"as\"anen(参考訳) 早期言語習得のモデリングは、幼児が言語スキルをブートストラップする方法を理解することを目的としている。 モデリングは、モデルトレーニングに使用される入力データの特性、テスト中の認知仮説とそのアルゴリズムの実装、およびモデルと人間データを比較する評価方法論を包含する。 近年の進歩により、計算モデルにより自然主義的なトレーニングデータを利用できるようになった。 これはまた、モデル行動のより自然なテストの開発を動機付けます。 このような目的に向けての重要なステップは、乳幼児の自然環境における音声による代表的音声データセットの開発である。 しかし、これらの録音の大きな欠点は、通常ノイズが多いことであり、音質がデータの解析やモデリング実験にどのように影響するかは、現在不明である。 本稿では,幼児指向音声 (IDS) と成人指向音声 (ADS) 分析の場合について検討する。 まず,2コーパスから抽出した音声の音質(英語とフランス語)を手動で自動で注釈付けした。 次に、実験室内データセットにおけるIDSとADSの音響特性を、自然科学データの異なる音質サブセットで比較した。 最後に,近年の自己教師付き学習モデルを用いて,音声品質と記録環境がモデル解析の結論をどのように変えるかを検討した。 以上の結果から,音声品質の高い音声データを用いることで,音響解析やモデル実験の観点から,idや広告にほぼ類似した結論が得られることがわかった。 また, 音質自動評価ツールを用いて, 長尺録音の有用な部分の画面表示を行い, 手動音質アノテーションと同等の結果を得た。

Modelling of early language acquisition aims to understand how infants bootstrap their language skills. The modelling encompasses properties of the input data used for training the models, the cognitive hypotheses and their algorithmic implementations being tested, and the evaluation methodologies to compare models to human data. Recent developments have enabled the use of more naturalistic training data for computational models. This also motivates development of more naturalistic tests of model behaviour. A crucial step towards such an aim is to develop representative speech datasets consisting of speech heard by infants in their natural environments. However, a major drawback of such recordings is that they are typically noisy, and it is currently unclear how the sound quality could affect analyses and modelling experiments conducted on such data. In this paper, we explore this aspect for the case of infant-directed speech (IDS) and adult-directed speech (ADS) analysis. First, we manually and automatically annotated audio quality of utterances extracted from two corpora of child-centred long-form recordings (in English and French). We then compared acoustic features of IDS and ADS in an in-lab dataset and across different audio quality subsets of naturalistic data. Finally, we assessed how the audio quality and recording environment may change the conclusions of a modelling analysis using a recent self-supervised learning model. Our results show that the use of modest and high audio quality naturalistic speech data result in largely similar conclusions on IDS and ADS in terms of acoustic analyses and modelling experiments. We also found that an automatic sound quality assessment tool can be used to screen out useful parts of long-form recordings for a closer analysis with comparable results to that of manual quality annotation.
翻訳日:2023-05-04 15:32:56 公開日:2023-05-03
# 連続可変量子鍵分布に対する非ガウス和解

Non-Gaussian reconciliation for continuous-variable quantum key distribution ( http://arxiv.org/abs/2305.01963v1 )

ライセンス: Link先を確認
Xiangyu Wang, Menghao Xu, Yin Zhao, Ziyang Chen, Song Yu, Hong Guo(参考訳) 非ガウス変調は連続可変量子鍵分布(CV-QKD)の性能を向上させることができる。 ガウス変調コヒーレント状態 CV-QKD に対して、フォトンサブトラクションは非ガウス変調を実現することができる。 しかし、非ガウス和解は深く研究されておらず、CV-QKDの重要な技術の一つである。 本稿では,非ガウスデータから同一鍵を得るための非ガウス調停法を提案する。 マルチ次元整合およびマルチエッジ型低密度パリティチェック符号(MET-LDPC)は,MET-LDPC符号の層状信念伝搬復号アルゴリズムを用いて復号複雑性を低減する。 さらに,ガウスデータと非ガウスデータの誤り訂正性能を比較した。 その結果,非ガウスデータの誤り訂正性能はガウスデータより優れており,0.1554のSNRにおける符号レート0.1でフレーム誤り率を50%削減でき,平均反復回数を25%削減できることがわかった。

Non-Gaussian modulation can improve the performance of continuous-variable quantum key distribution (CV-QKD). For Gaussian modulated coherent state CV-QKD, photon subtraction can realize non-Gaussian modulation, which can be equivalently implemented by non-Gaussian postselection. However, non-Gaussian reconciliation has not been deeply researched, which is one of the key technologies in CV-QKD. In this paper, we propose a non-Gaussian reconciliation method to obtain identical keys from non-Gaussian data. Multidimensional reconciliation and multi-edge type low density parity check codes (MET-LDPC) are used in non-Gaussian reconciliation scheme, where the layered belief propagation decoding algorithm of MET-LDPC codes is used to reduce the decoding complexity. Furthermore, we compare the error correction performance of Gaussian data and non-Gaussian data. The results show that the error correction performance of non-Gaussian data is better than Gaussian data, where the frame error rate can be reduced by 50% for code rate 0.1 at SNR of 0.1554 and the average iteration number can be reduced by 25%.
翻訳日:2023-05-04 15:32:34 公開日:2023-05-03
# デジタルサービス法の施行に集団知能を付与すること

Putting collective intelligence to the enforcement of the Digital Services Act ( http://arxiv.org/abs/2305.01959v1 )

ライセンス: Link先を確認
Suzanne Vergnolle (LISE)(参考訳) この報告書は、規制当局とCSOの間で強力な協力関係を構築するための多くの方法の基礎を成す一方で、欧州委員会による効率的かつ影響力のある専門家グループの設計を具体的に推奨することに焦点を当てている。 専門家グループの創設は、欧州連合の専門知識と能力開発を求めるDSAの第64条と第137条にそのルーツを見出している。 このグループのエキスパートは、エビデンスに基づく情報を委員会に直接届けることができ、基本的な権利の保護とオンラインユーザの安全に関する専門知識が与えられる。 専門家グループを設置することで、委員会は貴重な専門家知識の恩恵を受けるだけでなく、集団知性に基づく効率的な執行システムを構築する意思を示す。 専門家団体の設立とは別に、他の累積的なメカニズムは、DSAの実施の促進にも役立ちます。 民間社会組織は、例えば、透明性義務によってカバーされるエンティティによって公表されたデータを深く理解し分析するために、定期的なクラウドソーシングイベントを組織することを検討すべきである。 過去に行われたように、委員会はこれらのイベントのスポンサーとなり、その結果の直接の受益者となることができる。 市民社会の組織がレギュレータに情報をもたらす別の方法は、規制当局に苦情を申し立てることを含む法的措置である。

While underlying the many ways to build strong cooperation settings between regulators and CSOs, this report focuses on making concrete recommendations for the design of an efficient and influential expert group with the European Commission. The creation of an expert group finds its roots in article 64 and recital 137 of the DSA which require the Commission to develop Union expertise and capabilities. Once established, the experts of this group will be able to bring evidence-based information directly to the Commission and specific expertise on the protection of fundamental rights and the safety of users online. By instituting an expert group, the Commission will not only benefit from valuable expert knowledge but will also demonstrate its willingness to put in place an efficient enforcement system based on collective intelligence. Aside from the establishment of an expert group, other cumulative mechanisms will also help the DSA's enforcement to thrive. Civil society organisations should, for instance, consider organising regular crowdsourcing events to deep-dive and analyse the data published by entities covered by the transparency obligations. As it has done in the past, the Commission can sponsor these events and be a direct beneficiary of their results. Another way for civil society organisations to bring information to the Regulator is by legal action, including by making complaints to the regulators.
翻訳日:2023-05-04 15:32:11 公開日:2023-05-03
# 重み付け型キャンパスフレンドシップネットワークの連続時間における情報フローシミュレーションコミュニティ検出

Information flow simulation community detection of weighted-directed campus friendship network in continuous time ( http://arxiv.org/abs/2305.01958v1 )

ライセンス: Link先を確認
Ren Chao and Yang Menghui(参考訳) 大規模データを用いた大学生の社会行動研究において,教育データマイニングが重要な研究分野となっている。 しかし、伝統的なキャンパスフレンドシップネットワークとその時間特性を欠いたコミュニティ検出アルゴリズムには制限がある。 本稿では、キャンパス友情ネットワークを連続的に重み付き指向ネットワークに再構築し、従来のキャンパス友情ネットワークの有効性とコミュニティ検出結果の精度を向上させることにより、これらの制約に対処する新しいアプローチを提案する。 これを実現するために、キャンパス友情ネットワークを連続的に検出する新たな重み付きコミュニティ検出アルゴリズムを提案し、大学生のコミュニティ検出の研究に利用した。 その結果,本論文で再構成された重み付き指向性フレンドシップネットワークは,最初の非指向性非許可性フレンドシップネットワークよりも真の友人関係を明らかにすることができた。 さらに,本論文で提案するコミュニティ検出アルゴリズムは,より優れたコミュニティ検出効果が得られる。 地域社会の検知後、同じコミュニティの学生は、消費水準、食習慣、行動規則の類似性を示す。 本稿では,時間的特徴を考慮した複雑な友情ネットワークに関する理論的研究を充実させ,大学生の管理のための客観的な科学的ガイダンスを提供する。

Educational data mining has become an important research field in studying the social behavior of college students using massive data. However, traditional campus friendship network and their community detection algorithms, which lack time characteristics, have their limitations. This paper proposes a new approach to address these limitations by reconstructing the campus friendship network into weighted directed networks in continuous time, improving the effectiveness of traditional campus friendship network and the accuracy of community detection results. To achieve this, a new weighted directed community detection algorithm for campus friendship network in continuous time is proposed, and it is used to study the community detection of a university student. The results show that the weighted directed friendship network reconstructed in this paper can reveal the real friend relationships better than the initial undirected unauthorized friendship network. Furthermore, the community detection algorithm proposed in this paper obtains better community detection effects. After community detection, students in the same community exhibit similarities in consumption level, eating habits, and behavior regularity. This paper enriches the theoretical research of complex friendship network considering the characteristics of time, and also provides objective scientific guidance for the management of college students.
翻訳日:2023-05-04 15:31:50 公開日:2023-05-03
# LearnDefend: フェデレーションラーニングにおけるターゲットモデルポジショニング攻撃に対する防御学習

LearnDefend: Learning to Defend against Targeted Model-Poisoning Attacks on Federated Learning ( http://arxiv.org/abs/2305.02022v1 )

ライセンス: Link先を確認
Kiran Purohit, Soumi Das, Sourangshu Bhattacharya and Santu Rana(参考訳) ターゲットとするモデル中毒攻撃は、連合学習システムにとって大きな脅威となる。 近年の研究では、入力空間のごく一部をターゲットにしたエッジケース標的攻撃は、既存の固定防御戦略ではほぼ不可能であることが示された。 本稿では,このような攻撃に対する学習防御戦略を,小さな防衛データセットを用いて設計する。 防衛データセットは、連合学習タスクの中央機関によって収集することができ、毒と清潔な例の混合を含むべきである。 提案されたフレームワークであるLearnDefendは、クライアント更新が悪意がある確率を推定する。 防衛データセットの例は、毒や清潔と事前にマークされてはならない。 我々はまた、防御データセットの各例をクリーンまたは中毒とマークするために使用できる毒付きデータ検出器モデルも学習する。 有害データ検出器とクライアント重要度モデルを結合最適化手法で推定する。 我々の実験は、LearnDefendが既存の固定防御戦略が失敗する最先端の攻撃に対して防御できることを示した。 また、LearnDefendは、防御データセットのクリーンな例のマーキングにおいて、サイズやノイズに対して堅牢であることを示す。

Targeted model poisoning attacks pose a significant threat to federated learning systems. Recent studies show that edge-case targeted attacks, which target a small fraction of the input space are nearly impossible to counter using existing fixed defense strategies. In this paper, we strive to design a learned-defense strategy against such attacks, using a small defense dataset. The defense dataset can be collected by the central authority of the federated learning task, and should contain a mix of poisoned and clean examples. The proposed framework, LearnDefend, estimates the probability of a client update being malicious. The examples in defense dataset need not be pre-marked as poisoned or clean. We also learn a poisoned data detector model which can be used to mark each example in the defense dataset as clean or poisoned. We estimate the poisoned data detector and the client importance models in a coupled optimization approach. Our experiments demonstrate that LearnDefend is capable of defending against state-of-the-art attacks where existing fixed defense strategies fail. We also show that LearnDefend is robust to size and noise in the marking of clean examples in the defense dataset.
翻訳日:2023-05-04 15:24:54 公開日:2023-05-03
# 非線形偏微分方程式を解くための深層学習型量子アルゴリズム

Towards Deep Learning-Based Quantum Algorithms for Solving Nonlinear Partial Differential Equations ( http://arxiv.org/abs/2305.02019v1 )

ライセンス: Link先を確認
Lukas Mouton, Florentin Reiter, Ying Chen, Patrick Rebentrost(参考訳) 偏微分方程式は自然科学や関連する分野にしばしば現れる。 それらの解くことは、特に高次元では「次元の曲線」のため、しばしば困難である。 本研究では,量子サブルーチンを用いて高次元非線形偏微分方程式を解くための古典的深層学習法の拡張の可能性を探る。 まず,ノイズの多い中間スケール量子コンピュータを念頭に置いて,変動量子回路と古典的ニューラルネットワークを併用したアーキテクチャを構築する。 ハイブリッドアーキテクチャは、シミュレーションにおいて完全に古典的なアーキテクチャよりも同等か悪い性能を示すが、それでも非常に高次元のケースや、量子力学的性質の場合に使用される。 次に,モンテカルロサンプリングによるボトルネックとニューラルネットワークのトレーニングを同定する。 量子加速モンテカルロ法と古典的マルチレベルモンテカルロ法が損失関数の推定を高速化する可能性を示唆している。 さらに,量子加速度モンテカルロ法を用いて,最近開発されたバックプロダクタフリーフォワードグラデーション法を含む,異なる手法で勾配を推定する場合のトレードオフを同定・解析する。 最後に、フィードフォワードニューラルネットワークのトレーニングを高速化するための適切な量子アルゴリズムの利用について論じる。 したがって、この研究は非線形偏微分方程式の深層学習法における多項式スピードアップのポテンシャルと異なる経路を提供する。

Partial differential equations frequently appear in the natural sciences and related disciplines. Solving them is often challenging, particularly in high dimensions, due to the "curse of dimensionality". In this work, we explore the potential for enhancing a classical deep learning-based method for solving high-dimensional nonlinear partial differential equations with suitable quantum subroutines. First, with near-term noisy intermediate-scale quantum computers in mind, we construct architectures employing variational quantum circuits and classical neural networks in conjunction. While the hybrid architectures show equal or worse performance than their fully classical counterparts in simulations, they may still be of use in very high-dimensional cases or if the problem is of a quantum mechanical nature. Next, we identify the bottlenecks imposed by Monte Carlo sampling and the training of the neural networks. We find that quantum-accelerated Monte Carlo methods, as well as classical multi-level Monte Carlo methods, offer the potential to speed up the estimation of the loss function. In addition, we identify and analyse the trade-offs when using quantum-accelerated Monte Carlo methods to estimate the gradients with different methods, including a recently-developed back propagation-free forward gradient method. Finally, we discuss the usage of a suitable quantum algorithm for accelerating the training of feed-forward neural networks. Hence, this work provides different avenues with the potential for polynomial speedups for deep learning-based methods for nonlinear partial differential equations.
翻訳日:2023-05-04 15:24:35 公開日:2023-05-03
# 多値量子ニューロン

Multi-Valued Quantum Neurons ( http://arxiv.org/abs/2305.02018v1 )

ライセンス: Link先を確認
M. W. AlMasri(参考訳) 多値量子論理は、量子基底状態のバーグマン表現を用いて体系的に定式化される。 このアプローチでは、真理値や区別状態は自然に単位円上に置かれるユニティのユニークな根として表される。 したがって、多値量子ニューロンは複素数体上の多重値しきい値論理の原理に基づいている。 MVQNの訓練は、単位円に沿った運動に還元される。 多値量子ニューロンに基づく量子ニューラルネットワーク(QNN)は、複雑な重み、入力、単位のルートで符号化された出力、複雑な平面を単位円にマッピングする活性化関数で構築することができる。 このようなニューラルネットワークは、同じ数のニューロンや層を持つバイナリ入力に基づく量子ニューラルネットワークと比較して、高速収束と高機能を享受する。 光ベースのQNNの軌道角運動量(OAM)を用いて、実用的な操作が可能である。

The multiple-valued quantum logic is formulated in a systematic way using the Bargmann representation of quantum basis states. In this approach, the truth values or distinguish states are represented naturally as unique roots of unity placed on the unit circle. Consequently, multi-valued quantum neurons are based on the principles of multiple-valued threshold logic over the field of complex numbers. The training of MVQN is reduced to the movement along the unit circle. A quantum neural networks (QNNs) based on multi-valued quantum neurons can be constructed with complex weights, inputs, outputs encoded by roots of unity and activation function which maps the complex plane into the unit circle. Such neural networks enjoys fast convergence and higher functionalities comparing with quantum neural networks based on binary input with the same number of neurons and layers. Possible practical manipulation can be found using the orbital angular momentum (OAM) of light based QNNs.
翻訳日:2023-05-04 15:24:12 公開日:2023-05-03
# 3次元SAR超解像のための深層学習に基づくマルチバンド信号融合

Deep Learning-Based Multiband Signal Fusion for 3-D SAR Super-Resolution ( http://arxiv.org/abs/2305.02017v1 )

ライセンス: Link先を確認
Josiah Smith, Murat Torlak(参考訳) 三次元3次元合成開口レーダー(SAR)は、隠蔽または隠蔽された物体の高分解能イメージングを必要とする多くのセキュリティおよび産業用途で広く利用されている。 複雑な3Dターゲットを解決する能力は、そのようなアプリケーションの性能に不可欠であり、システム帯域に直接依存する。 しかし、高帯域幅システムはいくつかの禁止ハードルに直面しているため、別の解決策は複数のレーダーを異なる周波数帯域で動作させ、マルチバンド信号を融合させることである。 現在のマルチバンド信号融合法は、単純なターゲットモデルと少数のポイントリフレクタを想定しており、実際のセキュリティスクリーニングや産業用イメージングシナリオでは無効であり、ターゲットモデルは多数のリフレクタから効果的に構成されている。 そこで本研究では,マルチバンド信号融合における深層学習の初利用について述べる。 提案するネットワークはkr-netと呼ばれ、二重ドメイン複素値畳み込みニューラルネットワーク(cv-cnn)を用いてマルチバンド信号を融合し、サブバンド間の周波数ギャップに欠落サンプルを注入する。 提案手法は、波数領域と波数スペクトル領域の両方の関係を利用して、既存のマルチバンド融合アルゴリズムの計算時間のごく一部で、現実的なシナリオに対する既存のマルチバンドイメージング技術の欠点を克服する。 従来は不可能だった複雑なターゲットの高分解能撮像を実現し,より高度なハードウェアを必要とせず,マルチバンド信号を用いた隠蔽兵器検出と隠蔽対象分類のための微細化能力を実現する。 さらに, 商業用ミリ波レーダを用いた完全統合マルチバンドイメージングシステムを構築し, 効率的なマルチバンドイメージングを実現する。

Three-dimensional (3-D) synthetic aperture radar (SAR) is widely used in many security and industrial applications requiring high-resolution imaging of concealed or occluded objects. The ability to resolve intricate 3-D targets is essential to the performance of such applications and depends directly on system bandwidth. However, because high-bandwidth systems face several prohibitive hurdles, an alternative solution is to operate multiple radars at distinct frequency bands and fuse the multiband signals. Current multiband signal fusion methods assume a simple target model and a small number of point reflectors, which is invalid for realistic security screening and industrial imaging scenarios wherein the target model effectively consists of a large number of reflectors. To the best of our knowledge, this study presents the first use of deep learning for multiband signal fusion. The proposed network, called kR-Net, employs a hybrid, dual-domain complex-valued convolutional neural network (CV-CNN) to fuse multiband signals and impute the missing samples in the frequency gaps between subbands. By exploiting the relationships in both the wavenumber domain and wavenumber spectral domain, the proposed framework overcomes the drawbacks of existing multiband imaging techniques for realistic scenarios at a fraction of the computation time of existing multiband fusion algorithms. Our method achieves high-resolution imaging of intricate targets previously impossible using conventional techniques and enables finer resolution capacity for concealed weapon detection and occluded object classification using multiband signaling without requiring more advanced hardware. Furthermore, a fully integrated multiband imaging system is developed using commercially available millimeter-wave (mmWave) radars for efficient multiband imaging.
翻訳日:2023-05-04 15:23:59 公開日:2023-05-03
# Qkd@Edge: QKDセキュア通信を用いたエッジアプリケーションのオンラインアドミッション制御

Qkd@Edge: Online Admission Control of Edge Applications with QKD-secured Communications ( http://arxiv.org/abs/2305.02015v1 )

ライセンス: Link先を確認
Claudio Cicconetti and Marco Conti and Andrea Passarella(参考訳) 量子鍵分布(QKD)は、量子力学の特性を利用した暗号鍵の交換によるセキュアな通信を可能にする。 現在、関連する技術はプロダクションシステムに十分成熟しているため、QKDネットワークのフィールド展開は近い将来、エッジコンピューティングがすでに繁栄しているローカル/メトロポリタン設定から始まると期待されている。 本稿では,QKDネットワークとエッジノードのリソース割り当ての相互作用について検討する。 問題を数学的にモデル化した後,QKDネットワーク内のエッジノードとパスを選択するエッジアプリケーション要求を受け入れるための実用的なオンラインポリシーを提案する。 シミュレーションの結果から,この話題についての最初の知見が得られ,今後の研究への道がもたらされる。

Quantum Key Distribution (QKD) enables secure communications via the exchange of cryptographic keys exploiting the properties of quantum mechanics. Nowadays the related technology is mature enough for production systems, thus field deployments of QKD networks are expected to appear in the near future, starting from local/metropolitan settings, where edge computing is already a thriving reality. In this paper, we investigate the interplay of resource allocation in the QKD network vs. edge nodes, which creates unique research challenges. After modeling mathematically the problem, we propose practical online policies for admitting edge application requests, which also select the edge node for processing and the path in the QKD network. Our simulation results provide initial insights into this emerging topic and lead the way to upcoming studies on the subject.
翻訳日:2023-05-04 15:23:30 公開日:2023-05-03
# 説明可能な人工知能手法に関する解説:SHAPとLIME

Commentary on explainable artificial intelligence methods: SHAP and LIME ( http://arxiv.org/abs/2305.02012v1 )

ライセンス: Link先を確認
Ahmed Salih, Zahra Raisi-Estabragh, Ilaria Boscolo Galazzo, Petia Radeva, Steffen E. Petersen, Gloria Menegaz, Karim Lekadir(参考訳) eXplainable AI(XAI)メソッドは、機械学習モデルのブラックボックスを、より消化しやすい形式に変換するために登場した。 これらの方法は、機械学習モデルをより透明にし、エンドユーザの信頼をアウトプットに高めることを目的として、モデルがどのように機能するかを伝えるのに役立つ。 SHAP(SHapley Additive ExPlanations)とLIME(Local Interpretable Model Agnostic Explanation)は、特に表データで広く使われているXAI手法である。 本稿では,これら2つの手法の説明可能性メトリクスの生成方法について論じ,その弱点と強みを浮き彫りにして,それらの出力を解釈するためのフレームワークを提案する。

eXplainable artificial intelligence (XAI) methods have emerged to convert the black box of machine learning models into a more digestible form. These methods help to communicate how the model works with the aim of making machine learning models more transparent and increasing the trust of end-users into their output. SHapley Additive exPlanations (SHAP) and Local Interpretable Model Agnostic Explanation (LIME) are two widely used XAI methods particularly with tabular data. In this commentary piece, we discuss the way the explainability metrics of these two methods are generated and propose a framework for interpretation of their outputs, highlighting their weaknesses and strengths.
翻訳日:2023-05-04 15:23:16 公開日:2023-05-03
# Fairml: 公正な機械学習モデルに関する統計学者の見解

fairml: A Statistician's Take on Fair Machine Learning Modelling ( http://arxiv.org/abs/2305.02009v1 )

ライセンス: Link先を確認
Marco Scutari(参考訳) 公正性と説明責任を保証することが不可欠であるアプリケーションにおける機械学習の採用は、多くのモデル提案をもたらし、主に最適化問題として定式化され、応答に対する機密属性の影響を減少または排除する制約が課されている。 このアプローチは理論的な観点からは非常に柔軟だが、結果として得られるモデルは本質的には幾分ブラックボックスであり、統計的性質、応用利用におけるベストプラクティス、本来設計されたもの以外の問題への拡張方法などについてはほとんど語られません。 さらに、各モデルの推定には、ソフトウェア工学の観点からは望ましくない適切な解法を含む疎外的な実装が必要である。 本稿では,これまでの論文(Scutari, Panero, Proissl 2022)とその関連モデルを実装した Fairml R パッケージについて述べる。 fairml は古典統計モデル(一般化線形モデル)とペナル化回帰結果(リッジ回帰)に基づいて設計され、解釈可能で、その特性がよく知られているフェアモデルを生成する。 フェアネスを強制するために使用される制約は、モデル推定に直交するものであり、各アプリケーションに対して望ましいモデルファミリとフェアネス定義を混合およびマッチングすることができる。 さらにfairmlは、診断プロットを含むモデル推定、モデル選択、検証のための設備を提供する。

The adoption of machine learning in applications where it is crucial to ensure fairness and accountability has led to a large number of model proposals in the literature, largely formulated as optimisation problems with constraints reducing or eliminating the effect of sensitive attributes on the response. While this approach is very flexible from a theoretical perspective, the resulting models are somewhat black-box in nature: very little can be said about their statistical properties, what are the best practices in their applied use, and how they can be extended to problems other than those they were originally designed for. Furthermore, the estimation of each model requires a bespoke implementation involving an appropriate solver which is less than desirable from a software engineering perspective. In this paper, we describe the fairml R package which implements our previous work (Scutari, Panero, and Proissl 2022) and related models in the literature. fairml is designed around classical statistical models (generalised linear models) and penalised regression results (ridge regression) to produce fair models that are interpretable and whose properties are well-known. The constraint used to enforce fairness is orthogonal to model estimation, making it possible to mix-and-match the desired model family and fairness definition for each application. Furthermore, fairml provides facilities for model estimation, model selection and validation including diagnostic plots.
翻訳日:2023-05-04 15:23:04 公開日:2023-05-03
# Zenseact Open Dataset: 自動運転のための大規模かつ多様なマルチモーダルデータセット

Zenseact Open Dataset: A large-scale and diverse multimodal dataset for autonomous driving ( http://arxiv.org/abs/2305.02008v1 )

ライセンス: Link先を確認
Mina Alibeigi, William Ljungbergh, Adam Tonderski, Georg Hess, Adam Lilja, Carl Lindstrom, Daria Motorniuk, Junsheng Fu, Jenny Widahl, and Christoffer Petersson(参考訳) 既存の自律運転(ad)のためのデータセットは、360{\deg}の知覚と時間的推論に重点を置きながら、多様性と長距離能力に欠けることが多い。 このギャップに対処するため、欧州各国で2年以上にわたって収集された大規模で多様なマルチモーダルデータセットであるzenseact open dataset (zod)を紹介し、既存のデータセットの9倍の範囲をカバーする。 ZODは、2Dおよび3Dオブジェクト(最大245m)の詳細なキーフレームアノテーション、ロードインスタンス/セマンティックセグメンテーション、トラフィックサイン認識、道路分類など、同等のデータセットの中で最高範囲と解像度のセンサーを備えている。 このユニークな組み合わせは、長距離認識とマルチタスク学習のブレークスルーを促進するだろうと考えています。 データセットはフレーム、シーケンス、ドライブで構成されており、データの多様性と時空間学習、センサー融合、ローカライゼーション、マッピングの両方をサポートするように設計されている。 フレームは100kのキュレートされたカメラ画像と他の2秒間のセンサーデータで構成され、1473のシーケンスと29のドライブはそれぞれ20秒と数分のセンサースイートを含んでいる。 ZODは、パーミッシブライセンスの下でリリースされた唯一の大規模ADデータセットであり、研究と商業の両方が利用可能である。 データセットには広範な開発キットが付属している。 データはオンラインで入手できる(https://zod.zenseact.com)。

Existing datasets for autonomous driving (AD) often lack diversity and long-range capabilities, focusing instead on 360{\deg} perception and temporal reasoning. To address this gap, we introduce Zenseact Open Dataset (ZOD), a large-scale and diverse multimodal dataset collected over two years in various European countries, covering an area 9x that of existing datasets. ZOD boasts the highest range and resolution sensors among comparable datasets, coupled with detailed keyframe annotations for 2D and 3D objects (up to 245m), road instance/semantic segmentation, traffic sign recognition, and road classification. We believe that this unique combination will facilitate breakthroughs in long-range perception and multi-task learning. The dataset is composed of Frames, Sequences, and Drives, designed to encompass both data diversity and support for spatio-temporal learning, sensor fusion, localization, and mapping. Frames consist of 100k curated camera images with two seconds of other supporting sensor data, while the 1473 Sequences and 29 Drives include the entire sensor suite for 20 seconds and a few minutes, respectively. ZOD is the only large-scale AD dataset released under a permissive license, allowing for both research and commercial use. The dataset is accompanied by an extensive development kit. Data and more information are available online (https://zod.zenseact.com).
翻訳日:2023-05-04 15:22:41 公開日:2023-05-03
# 符号なし原理からの量子クローニングの基本的限界

Fundamental limits on quantum cloning from the no-signalling principle ( http://arxiv.org/abs/2305.02002v1 )

ライセンス: Link先を確認
Yanglin Hu and Marco Tomamichel(参考訳) no-cloning定理は量子暗号の基盤である。 ここでは,確率的および決定論的クローニング機械の到達可能な最大忠実性について,より弱い仮定の下で一般化し,再帰的に評価する。 gisin [phys.~lett.~a, 1998] のアイデアに基づいて, 遠隔状態の準備が可能で, 非署名原理が成り立つ限り, 量子力学の法則に従わないクローンマシンにおいても結果が得られた。 一般定理を量子暗号に興味を持ついくつかの状態の部分集合に適用する。

The no-cloning theorem is a cornerstone of quantum cryptography. Here we generalize and rederive under weaker assumptions various upper bounds on the maximum achievable fidelity of probabilistic and deterministic cloning machines. Building on ideas by Gisin [Phys.~Lett.~A, 1998], our results hold even for cloning machines that do not obey the laws of quantum mechanics, as long as remote state preparation is possible and the non-signalling principle holds. We apply our general theorem to several subsets of states that are of interest in quantum cryptography.
翻訳日:2023-05-04 15:22:15 公開日:2023-05-03
# 心エコー法による容積指標の抽出--臨床応用のための深層学習法とは?

Extraction of volumetric indices from echocardiography: which deep learning solution for clinical use? ( http://arxiv.org/abs/2305.01997v1 )

ライセンス: Link先を確認
Hang Jung Ling, Nathan Painchaud, Pierre-Yves Courand, Pierre-Marc Jodoin, Damien Garcia, Olivier Bernard(参考訳) 深層学習に基づく手法は、専門家によって注釈付けされた複数のオープンアクセスデータセット(CAMUSは最大のパブリックデータベースの1つである)の公開を利用して、心エコー画像の自動解析を先導している。 しかし、これらのモデルは未解決の問題から、いまだに臨床医からは信頼できないと見なされている。 一 予測の時間的整合性及び 二 データセットをまたいで一般化する能力。 本稿では,医用/心電図画像のセグメンテーションにおける現在最高の手法と,時間的整合性およびデータセット横断性に着目した総合的な比較法を提案する。 CARDINALという新しいプライベートデータセットを導入し,全心循環に基準セグメンテーションを施した2-chamberと4-chamberの2-chamber配列を解析した。 提案した3D nnU-Netは,2D法と繰り返しセグメンテーション法よりも優れていることを示す。 また,カージナルでトレーニングされた最善のモデルは,微調整を行わずにcamus上でテストした場合も,従来手法との競争力が保たれていることも報告した。 実験の結果、十分なトレーニングデータがあれば、3D nnU-Netは最終的に日常的な臨床機器の基準を満たす最初の自動化ツールになる可能性が示唆された。

Deep learning-based methods have spearheaded the automatic analysis of echocardiographic images, taking advantage of the publication of multiple open access datasets annotated by experts (CAMUS being one of the largest public databases). However, these models are still considered unreliable by clinicians due to unresolved issues concerning i) the temporal consistency of their predictions, and ii) their ability to generalize across datasets. In this context, we propose a comprehensive comparison between the current best performing methods in medical/echocardiographic image segmentation, with a particular focus on temporal consistency and cross-dataset aspects. We introduce a new private dataset, named CARDINAL, of apical two-chamber and apical four-chamber sequences, with reference segmentation over the full cardiac cycle. We show that the proposed 3D nnU-Net outperforms alternative 2D and recurrent segmentation methods. We also report that the best models trained on CARDINAL, when tested on CAMUS without any fine-tuning, still manage to perform competitively with respect to prior methods. Overall, the experimental results suggest that with sufficient training data, 3D nnU-Net could become the first automated tool to finally meet the standards of an everyday clinical device.
翻訳日:2023-05-04 15:22:07 公開日:2023-05-03
# 応答条件付きターンテイク予測

Response-conditioned Turn-taking Prediction ( http://arxiv.org/abs/2305.02036v1 )

ライセンス: Link先を確認
Bing'er Jiang, Erik Ekstedt, Gabriel Skantze(参考訳) 会話システムにおけるターンテイクとレスポンス生成に対する以前のアプローチは、2段階のプロセスとして扱われてきた: まず、ターンの終了が(会話履歴に基づいて)検出され、システムが適切な応答を生成する。 しかし、人間は、それがおそらくあるからというだけでなく、自分が言いたいことをその立場に当てはまるかどうかも考慮する。 本稿では,会話履歴と次の話者が言いたいことの両方について,エンド・オブ・ターンを予測するモデル(TurnGPTの拡張)を提案する。 私たちのモデルは、さまざまなメトリクスでベースラインモデルよりも一貫して優れています。 この改善は、ターン予測が会話履歴からのみ曖昧にできる2つのシナリオにおいて最も顕著である。 1) 現在の発声が文を含むときは,次に掲げる質問 2) 現在の発話の終わりが意味的に応答に一致する場合。 ターン予測と応答ランクを1段階のプロセスとして扱うことで,本モデルがインクリメンタルな応答ランク付けとして利用可能であることが示唆された。

Previous approaches to turn-taking and response generation in conversational systems have treated it as a two-stage process: First, the end of a turn is detected (based on conversation history), then the system generates an appropriate response. Humans, however, do not take the turn just because it is likely, but also consider whether what they want to say fits the position. In this paper, we present a model (an extension of TurnGPT) that conditions the end-of-turn prediction on both conversation history and what the next speaker wants to say. We found that our model consistently outperforms the baseline model in a variety of metrics. The improvement is most prominent in two scenarios where turn predictions can be ambiguous solely from the conversation history: 1) when the current utterance contains a statement followed by a question; 2) when the end of the current utterance semantically matches the response. Treating the turn-prediction and response-ranking as a one-stage process, our findings suggest that our model can be used as an incremental response ranker, which can be applied in various settings.
翻訳日:2023-05-04 15:16:20 公開日:2023-05-03
# segment anythingモデルを用いたリモートセンシングセグメンテーションデータセットのスケールアップ

Scaling-up Remote Sensing Segmentation Dataset with Segment Anything Model ( http://arxiv.org/abs/2305.02034v1 )

ライセンス: Link先を確認
Di Wang, Jing Zhang, Bo Du, Dacheng Tao and Liangpei Zhang(参考訳) Segment Anything Model(SAM)の成功は、データ中心の機械学習の重要性を示している。 しかし、リモートセンシング(rs)画像に注釈を付けることに伴う困難とコストのため、貴重なrsデータは、特にピクセルレベルではラベルが付かないままである。 本研究では,samと既存のrsオブジェクト検出データセットを活用して,大規模rsセグメンテーションデータセットを生成する効率的なパイプラインを開発する。 SAMRSは、既存の高解像度RSセグメンテーションデータセットを数桁の規模で上回り、セグメンテーション、インスタンスセグメンテーション、オブジェクト検出に使用できるオブジェクトカテゴリ、ロケーション、インスタンス情報を提供する。 また,様々な側面からSAMRSを包括的に分析する。 RSセグメンテーション、特に大規模モデルの事前学習において研究を促進することを願っている。

The success of the Segment Anything Model (SAM) demonstrates the significance of data-centric machine learning. However, due to the difficulties and high costs associated with annotating Remote Sensing (RS) images, a large amount of valuable RS data remains unlabeled, particularly at the pixel level. In this study, we leverage SAM and existing RS object detection datasets to develop an efficient pipeline for generating a large-scale RS segmentation dataset, dubbed SAMRS. SAMRS surpasses existing high-resolution RS segmentation datasets in size by several orders of magnitude, and provides object category, location, and instance information that can be used for semantic segmentation, instance segmentation, and object detection, either individually or in combination. We also provide a comprehensive analysis of SAMRS from various aspects. We hope it could facilitate research in RS segmentation, particularly in large model pre-training.
翻訳日:2023-05-04 15:16:04 公開日:2023-05-03
# Gym-preCICE:アクティブフロー制御のための強化学習環境

Gym-preCICE: Reinforcement Learning Environments for Active Flow Control ( http://arxiv.org/abs/2305.02033v1 )

ライセンス: Link先を確認
Mosayeb Shams, Ahmed H. Elsheikh(参考訳) アクティブフロー制御(AFC)は、望ましい性能や効率を達成するために、時間とともに流体の流れを操作する。 AFCは、逐次最適化タスクとして、動的最適化のために強化学習(RL)を利用する利点がある。 本稿では,Gymnasium (旧名称はOpenAI Gym) APIに完全準拠したPythonアダプタであるGym-preCICEを紹介する。 アクタ環境設定において、gym-preciceは、分割マルチフィジカルシミュレーションのためのオープンソースの結合ライブラリであるpreciceを利用して、コントローラ(アクタ)とafcシミュレーション環境間の情報交換を処理する。 このフレームワークは、リアルな物理ベースのシミュレーションツールボックスとrlアルゴリズムをシームレスに非侵襲的に統合する。 Gym-preCICEは、AFCタスクをモデル化するためのRL環境を設計するためのフレームワークと、さまざまなAFC関連エンジニアリングアプリケーションにRLアルゴリズムを適用するための遊び場を提供する。

Active flow control (AFC) involves manipulating fluid flow over time to achieve a desired performance or efficiency. AFC, as a sequential optimisation task, can benefit from utilising Reinforcement Learning (RL) for dynamic optimisation. In this work, we introduce Gym-preCICE, a Python adapter fully compliant with Gymnasium (formerly known as OpenAI Gym) API to facilitate designing and developing RL environments for single- and multi-physics AFC applications. In an actor-environment setting, Gym-preCICE takes advantage of preCICE, an open-source coupling library for partitioned multi-physics simulations, to handle information exchange between a controller (actor) and an AFC simulation environment. The developed framework results in a seamless non-invasive integration of realistic physics-based simulation toolboxes with RL algorithms. Gym-preCICE provides a framework for designing RL environments to model AFC tasks, as well as a playground for applying RL algorithms in various AFC-related engineering applications.
翻訳日:2023-05-04 15:15:48 公開日:2023-05-03
# マルチギガピクセル全スライド画像分類のための教師なし相互変圧器学習

Unsupervised Mutual Transformer Learning for Multi-Gigapixel Whole Slide Image Classification ( http://arxiv.org/abs/2305.02032v1 )

ライセンス: Link先を確認
Sajid Javed, Arif Mahmood, Talha Qaiser, Naoufel Werghi, and Nasir Rajpoot(参考訳) ギガピクセル全スライド画像(WSI)の分類は,新しい計算病理領域において重要な予測課題である。 WSI分類のための深層学習モデルの研究が急増しており、がんの検出やWSIからの分子変異の予測などの臨床応用がある。 ほとんどの方法は、専門家の病理学者による高価で労働集約的なマニュアルを必要とする。 弱教師付きMIL(Multiple Instance Learning)手法は近年,優れたパフォーマンスを示しているが,専門家の病理医による各スライドの注意深く検査が必要な,大きなスライドレベルのラベル付きトレーニングデータセットが必要である。 本研究では,相互変圧器学習に基づく完全教師なしwsi分類アルゴリズムを提案する。 ギガピクセルのwsi(すなわちイメージパッチ)のインスタンスは潜在空間に変換され、元の空間に逆変換される。 変換損失を用いて擬似ラベルを生成し、トランスフォーマーラベルクリーナーを用いてクリーン化する。 トランスを用いた擬似ラベル生成とクリーニングモジュールは相互に相互に教師なしの方法で反復的に訓練する。 正常とがんのインスタンスラベリングを改善するために識別学習機構を導入する。 非教師なし分類に加えて,癌サブタイプ分類を下流解析として弱監視するための枠組みの有効性を実証する。 4つの公開データセットに対する大規模な実験は、最先端の手法と比較して優れたパフォーマンスを示している。 近いうちにアルゴリズムのソースコードを公開するつもりです。

Classification of gigapixel Whole Slide Images (WSIs) is an important prediction task in the emerging area of computational pathology. There has been a surge of research in deep learning models for WSI classification with clinical applications such as cancer detection or prediction of molecular mutations from WSIs. Most methods require expensive and labor-intensive manual annotations by expert pathologists. Weakly supervised Multiple Instance Learning (MIL) methods have recently demonstrated excellent performance; however, they still require large slide-level labeled training datasets that need a careful inspection of each slide by an expert pathologist. In this work, we propose a fully unsupervised WSI classification algorithm based on mutual transformer learning. Instances from gigapixel WSI (i.e., image patches) are transformed into a latent space and then inverse-transformed to the original space. Using the transformation loss, pseudo-labels are generated and cleaned using a transformer label-cleaner. The proposed transformer-based pseudo-label generation and cleaning modules mutually train each other iteratively in an unsupervised manner. A discriminative learning mechanism is introduced to improve normal versus cancerous instance labeling. In addition to unsupervised classification, we demonstrate the effectiveness of the proposed framework for weak supervision for cancer subtype classification as downstream analysis. Extensive experiments on four publicly available datasets show excellent performance compared to the state-of-the-art methods. We intend to make the source code of our algorithm publicly available soon.
翻訳日:2023-05-04 15:15:27 公開日:2023-05-03
# 疑似目標訓練による自然言語生成のための知識蒸留の体系的研究

A Systematic Study of Knowledge Distillation for Natural Language Generation with Pseudo-Target Training ( http://arxiv.org/abs/2305.02031v1 )

ライセンス: Link先を確認
Nitay Calderon, Subhabrata Mukherjee, Roi Reichart and Amir Kantor(参考訳) 現代の自然言語生成(NLG)モデルには、膨大な計算とストレージの要求がある。 本研究では,数百万のユーザを対象とした実世界のアプリケーションにとって重要な圧縮の可能性について検討する。 我々は,小学生が大きな教師モデルに模倣することを学習し,教師から生徒に知識を伝達する,知識蒸留(KD)技術に注目した。 これまでの多くの作業とは対照的に、私たちの目標は特定のnlgタスクと特定のデータセットのモデルを最適化することです。 通常、現実世界のアプリケーションではラベル付きデータに加えて、大量のラベルなしのタスク固有のデータがあり、kdで高い圧縮率を達成するのに不可欠である。 本研究では,現実的な仮定の下で,様々なNLGタスクに対するタスク固有KD手法の体系的研究を行う。 nlg蒸留の特殊特性,特に露出バイアス問題について考察する。 次に, Pseudo-Target (PT) 拡張手法のファミリーを導出し, 配列レベルのKDに関する先行研究を大幅に延長する。 教師と学生の両方が生成する複数のPTに単語レベルKDを適用したNLG蒸留のジョイントティーチング法を提案する。 本研究は,実用的なモデル設計観察を提供し,nlgにおけるタスク固有kdに対するptトレーニングの有効性を示す。

Modern Natural Language Generation (NLG) models come with massive computational and storage requirements. In this work, we study the potential of compressing them, which is crucial for real-world applications serving millions of users. We focus on Knowledge Distillation (KD) techniques, in which a small student model learns to imitate a large teacher model, allowing to transfer knowledge from the teacher to the student. In contrast to much of the previous work, our goal is to optimize the model for a specific NLG task and a specific dataset. Typically, in real-world applications, in addition to labeled data there is abundant unlabeled task-specific data, which is crucial for attaining high compression rates via KD. In this work, we conduct a systematic study of task-specific KD techniques for various NLG tasks under realistic assumptions. We discuss the special characteristics of NLG distillation and particularly the exposure bias problem. Following, we derive a family of Pseudo-Target (PT) augmentation methods, substantially extending prior work on sequence-level KD. We propose the Joint-Teaching method for NLG distillation, which applies word-level KD to multiple PTs generated by both the teacher and the student. Our study provides practical model design observations and demonstrates the effectiveness of PT training for task-specific KD in NLG.
翻訳日:2023-05-04 15:15:08 公開日:2023-05-03
# 近接場MIMO-ISARミリ波イメージング

Near-Field MIMO-ISAR Millimeter-Wave Imaging ( http://arxiv.org/abs/2305.02030v1 )

ライセンス: Link先を確認
Josiah W. Smith, Muhammet Emin Yanik, Murat Torlak(参考訳) 合成開口レーダ(SAR)と逆SAR(ISAR)のためのMIMO(Multi-input-multiple-output)ミリ波センサは、近接場イメージングに固有のコスト効率性とスケーラビリティの根本的な課題に対処する。 本稿では,近距離場MIMO-ISARmm波イメージングシステムについて述べる。 本論文では, 回転型ISAR (R-ISAR) 方式では, トランスシーバから一定半径距離で目標を回転させ, 垂直軌道に沿ってトランスシーバを走査する必要がある。 77GHzmm波レーダを用いて、この2次元走査から球面近傍波面を考慮した高分解能3次元3次元画像の再構成を行うことができる。 文献学における先行研究は、単一入出力円形合成開口レーダ(SISO-CSAR)アルゴリズムや、計算的に粗いMIMO-CSAR画像再構成アルゴリズムによるものであるが、本研究では、MIMO3次元ホログラフィー画像の高速化のための新しいアルゴリズムを提案し、MIMO R-ISARイメージングシステムの設計を詳述する。 提案アルゴリズムは、高効率なモノスタティックアルゴリズムの使用を可能にするため、R-ISAR方式にマルチスタティック-モノスタティック位相補償を適用する。 プロトタイプMIMO R-ISARプラットフォーム上で,実世界の撮像シナリオにおけるアルゴリズムの性能を示す。 メカニカルスキャナーと効率的なイメージングアルゴリズムからなる本システムでは,MIMO方式の走査効率と,単一画素画像再構成アルゴリズムの計算効率を両立させることができる。

Multiple-input-multiple-output (MIMO) millimeter-wave (mmWave) sensors for synthetic aperture radar (SAR) and inverse SAR (ISAR) address the fundamental challenges of cost-effectiveness and scalability inherent to near-field imaging. In this paper, near-field MIMO-ISAR mmWave imaging systems are discussed and developed. The rotational ISAR (R-ISAR) regime investigated in this paper requires rotating the target at a constant radial distance from the transceiver and scanning the transceiver along a vertical track. Using a 77GHz mmWave radar, a high resolution three-dimensional (3-D) image can be reconstructed from this two-dimensional scanning taking into account the spherical near-field wavefront. While prior work in literature consists of single-input-single-output circular synthetic aperture radar (SISO-CSAR) algorithms or computationally sluggish MIMO-CSAR image reconstruction algorithms, this paper proposes a novel algorithm for efficient MIMO 3-D holographic imaging and details the design of a MIMO R-ISAR imaging system. The proposed algorithm applies a multistatic-to-monostatic phase compensation to the R-ISAR regime allowing for use of highly efficient monostatic algorithms. We demonstrate the algorithm's performance in real-world imaging scenarios on a prototyped MIMO R-ISAR platform. Our fully integrated system, consisting of a mechanical scanner and efficient imaging algorithm, is capable of pairing the scanning efficiency of the MIMO regime with the computational efficiency of single pixel image reconstruction algorithms.
翻訳日:2023-05-04 15:14:47 公開日:2023-05-03
# 顧客ノートデータを用いた自然言語処理

Natural language processing on customer note data ( http://arxiv.org/abs/2305.02029v1 )

ライセンス: Link先を確認
Andrew Hilditch, David Webb, Jozef Baca, Tom Armitage, Matthew Shardlow, Peter Appleby(参考訳) 企業の顧客データの自動分析は、企業にとって関心のある分野である。 ビジネスデータとビジネスデータは、そのような情報の繊細な性質のため、学術的にはほとんど研究されない。 自然言語処理を適用することで、禁止されるほど大きなデータ集合の分析をスピードアップすることができる。 本稿では,b2bデータセットに感情分析,トピックモデリング,キーワード抽出を適用する。 音符から正確な感情を自動的に抽出でき、音符は関連性によって異なる話題に分類できることを示す。 明確な分離トピックがなければ、ビジネスコンテキストとの関連性が欠如していることが分かります。

Automatic analysis of customer data for businesses is an area that is of interest to companies. Business to business data is studied rarely in academia due to the sensitive nature of such information. Applying natural language processing can speed up the analysis of prohibitively large sets of data. This paper addresses this subject and applies sentiment analysis, topic modelling and keyword extraction to a B2B data set. We show that accurate sentiment can be extracted from the notes automatically and the notes can be sorted by relevance into different topics. We see that without clear separation topics can lack relevance to a business context.
翻訳日:2023-05-04 15:14:19 公開日:2023-05-03
# 運動エネルギー同分:量子熱化を特徴付けるツール

Kinetic energy equipartition: a tool to characterize quantum thermalization ( http://arxiv.org/abs/2305.02026v1 )

ライセンス: Link先を確認
Carlos F. Destefani and Xavier Oriols(参考訳) 正統的な運動エネルギーは、実際には2つの隠れた変数を持つ:1つは電流(またはボーム)速度に関連し、もう1つは浸透速度(または量子ポテンシャル)に関連し、それぞれ波動関数の位相と振幅に識別される。 ボヘミアンとストカスティックの量子力学に触発され、正方運動エネルギーが閉系で熱化するときにこれらの2つの速度成分に何が起こるか、そして、関連する弱い値がそれらの実験情報をどのように生成するかを論じる。 熱化後、(二乗)電流と浸透速度の両方の期待値は同じ定常値、すなわちボヘミアン運動エネルギーと量子ポテンシャルエネルギーのそれぞれが正統的な運動エネルギーの半分に近づくことを示した。 このような「運動エネルギー均質」は、実験室で経験的にテストできる量子熱化の新しい記号であり、運動量の(二乗)実部と実部と虚部との期待値(それぞれ電流と浸透速度に関係している)によって与えられる、よく定義された運用プロトコルに従っている。 このように、ここで示される運動エネルギーの等価性は、これらの隠れた変数に与えられたオントロジな状態とは独立であり、エルミート作用素に関連付けられた従来の期待値の使用よりも、実験室における量子熱化を特徴付ける新しい要素として使用できる。 ランダム障害下における数粒子高調波トラップの非平衡ダイナミクスに関する数値解を例示として提示する。 また, 粒子数の多いシステムに対して, 参照の重心系を用いた場合の利点についても考察した。

The Orthodox kinetic energy has, in fact, two hidden-variable components: one linked to the current (or Bohmian) velocity, and another linked to the osmotic velocity (or quantum potential), and which are respectively identified with phase and amplitude of the wavefunction. Inspired by Bohmian and Stochastic quantum mechanics, we address what happens to each of these two velocity components when the Orthodox kinetic energy thermalizes in closed systems, and how the pertinent weak values yield experimental information about them. We show that, after thermalization, the expectation values of both the (squared) current and osmotic velocities approach the same stationary value, that is, each of the Bohmian kinetic and quantum potential energies approaches half of the Orthodox kinetic energy. Such a `kinetic energy equipartition' is a novel signature of quantum thermalization that can empirically be tested in the laboratory, following a well-defined operational protocol as given by the expectation values of (squared) real and imaginary parts of the local-in-position weak value of the momentum, which are respectively related to the current and osmotic velocities. Thus, the kinetic energy equipartion presented here is independent on any ontological status given to these hidden variables, and it could be used as a novel element to characterize quantum thermalization in the laboratory, beyond the traditional use of expectation values linked to Hermitian operators. Numerical results for the nonequilibrium dynamics of a few-particle harmonic trap under random disorder are presented as illustration. And the advantages in using the center-of-mass frame of reference for dealing with systems with many indistinguishable particles are also discussed.
翻訳日:2023-05-04 15:14:11 公開日:2023-05-03
# 拡張Su-Schrieffer-Heeger鎖における高調波分光による位相検出

Topological phase detection through high-harmonic spectroscopy in extended Su-Schrieffer-Heeger chains ( http://arxiv.org/abs/2305.02025v1 )

ライセンス: Link先を確認
Mohit Lal Bera, Jessica O. de Almeida, Marlena Dziurawiec, Marcin P{\l}odzie\'n, Maciej M. Ma\'ska, Maciej Lewenstein, Tobias Grass and Utso Bhattacharya(参考訳) Su-Schrieffer-Heeger (SSH) 鎖は、ゼロエネルギーエッジモードを持つ1次元トポロジカル絶縁体のパラダイム的な例である。 近年,高調波分光法が位相位相検出のツールとして提案されている。 具体的には、SSH鎖がバンドギャップよりもはるかに小さい周波数の外部レーザー場に結合されている場合、ハーモニック周波数の発光光は自明性と位相位相の相違を強く示している。 しかし、様々な非自明な位相位相(エッジ状態の数の違い)が高調波発生(HHG)によって区別できるかどうかは不明である。 本稿では,SSH 鎖の拡張版を拡張領域ホッピングで検討し,トポロジカル位相の異なるトポロジカルモデルを構築した。 複数の位相位相が存在する場合,HHGスペクトルは位相位相を識別するための感度が高く,適切なツールであることを示す。 また,このチェーンの各位相位相におけるエッジモードの数を正確に把握するために,システム充填のチューニングに基づく定量的スキームを提案する。

Su-Schrieffer-Heeger (SSH) chains are paradigmatic examples of 1D topological insulators hosting zero-energy edge modes when the bulk of the system has a non-zero topological winding invariant. Recently, high-harmonic spectroscopy has been suggested as a tool for detecting the topological phase. Specifically, it has been shown that when the SSH chain is coupled to an external laser field of a frequency much smaller than the band gap, the emitted light at harmonic frequencies strongly differs between the trivial and the topological phase. However, it remains unclear whether various non-trivial topological phases -- differing in the number of edge states -- can also be distinguished by the high harmonic generation (HHG). In this paper, we investigate this problem by studying an extended version of the SSH chain with extended-range hoppings, resulting in a topological model with different topological phases. We explicitly show that HHG spectra are a sensitive and suitable tool for distinguishing topological phases when there is more than one topological phase. We also propose a quantitative scheme based on tuning the filling of the system to precisely locate the number of edge modes in each topological phase of this chain.
翻訳日:2023-05-04 15:13:40 公開日:2023-05-03
# ニューラルネットワーク学習と識別不能目的関数

Neural Network Training and Non-Differentiable Objective Functions ( http://arxiv.org/abs/2305.02024v1 )

ライセンス: Link先を確認
Yash Patel(参考訳) 多くの重要なコンピュータビジョンタスクは、自然に微分不能な目的を持つように定式化されている。 したがって、バックプロパゲーションはモデルの出力に対する目的の勾配を必要とするため、ニューラルネットワークの標準的な支配的なトレーニング手順は適用できない。 ほとんどのディープラーニング手法は、元々は別のタスク用に設計され、目的の具体例に合わせたものではない、訓練にプロキシ損失を使用することで、問題を副次的に解決する。 プロキシ損失関数は、元の微分不可能な目的とうまく一致しているかもしれない。 適切なプロキシは、非専門家にとって実現不可能な、新しいタスクのために設計されなければなりません。 本論文は,非微分目標とトレーニング損失関数のギャップを埋めるための4つの主要な貢献を述べる。 論文全体を通して、損失関数を、それが微分不可能な目的の微分可能近似である場合の代理損失とみなす。 客観性と評価基準を相互に使用することに注意。 この論文のコントリビューションにより、ニューラルネットワークのトレーニングがよりスケーラブルになり -- 評価基準が分解可能な場合、ほぼ労働力のない方法で新しいタスクに移行し、研究者が新しいタスクをこなすのに役立つ。 非分解性評価メトリクスでは、ソートやカウントといったrecall@kサーロゲート用に開発された微分可能なコンポーネントも、新しいサーロゲートの作成に使用できる。

Many important computer vision tasks are naturally formulated to have a non-differentiable objective. Therefore, the standard, dominant training procedure of a neural network is not applicable since back-propagation requires the gradients of the objective with respect to the output of the model. Most deep learning methods side-step the problem sub-optimally by using a proxy loss for training, which was originally designed for another task and is not tailored to the specifics of the objective. The proxy loss functions may or may not align well with the original non-differentiable objective. An appropriate proxy has to be designed for a novel task, which may not be feasible for a non-specialist. This thesis makes four main contributions toward bridging the gap between the non-differentiable objective and the training loss function. Throughout the thesis, we refer to a loss function as a surrogate loss if it is a differentiable approximation of the non-differentiable objective. Note that we use the terms objective and evaluation metric interchangeably. The contributions of this thesis make the training of neural networks more scalable -- to new tasks in a nearly labor-free manner when the evaluation metric is decomposable, which will help researchers with novel tasks. For non-decomposable evaluation metrics, the differentiable components developed for the recall@k surrogate, such as sorting and counting, can also be used for creating new surrogates.
翻訳日:2023-05-04 15:13:19 公開日:2023-05-03
# 役割依存名のためのオントロジー設計パターン

An Ontology Design Pattern for Role-Dependent Names ( http://arxiv.org/abs/2305.02077v1 )

ライセンス: Link先を確認
Rushrukh Rayan, Cogan Shimizu, Pascal Hitzler(参考訳) エージェントが異なるロールに関連付けられた異なる名前を使って異なるロールを実行するシナリオをキャプチャするために、ロールの一部として名前のモデル化を行うオントロジーデザインパターンを提案する。 異なる名前を使ってロールを実行するエージェントの例は、例えば、異なる名前で書く著者や、複数の国の市民のために異なる法律名など、かなりユビキタスである。 提案したパターンは、標準エージェントロールと標準ネームパターンスタブの修正されたマージである。

We present an ontology design pattern for modeling Names as part of Roles, to capture scenarios where an Agent performs different Roles using different Names associated with the different Roles. Examples of an Agent performing a Role using different Names are rather ubiquitous, e.g., authors who write under different pseudonyms, or different legal names for citizens of more than one country. The proposed pattern is a modified merger of a standard Agent Role and a standard Name pattern stub.
翻訳日:2023-05-04 15:06:56 公開日:2023-05-03
# 近接場不規則なSAR超解像のための視覚変換器の一手法

A Vision Transformer Approach for Efficient Near-Field Irregular SAR Super-Resolution ( http://arxiv.org/abs/2305.02074v1 )

ライセンス: Link先を確認
Josiah Smith, Yusef Alimam, Geetika Vedula(参考訳) 本論文では, 近接場合成開口レーダ(SAR)の非規則な走査測地下での新しい超解像アルゴリズムを開発した。 第5世代(5G)ミリ波(mmWave)デバイスはますます手頃な価格で手に入るようになり、高解像度のSARイメージングはエンドユーザアプリケーションや非コラボレーション環境でも実現可能である。 ハンドヘルドレーダーをユーザーが宇宙中にスキャンするフリーハンドイメージングや、無人航空機(uav)イメージング、自動車sarといった新しい応用は、高解像度イメージングに特有の課題に直面している。 まず、SAR画像の復元には、スキャン全体を通して配列位置の知識が必要である。 最近の研究では、位置を適切に推定できるカメラベースの位置決めシステムを導入しているが、アルゴリズムを効率的に回復することは、エッジとIoT(Internet of Things)技術を実現するための要件である。 非協力的近距離sarサンプリングのための効率的なアルゴリズムは近年研究されているが、位置推定誤差下で画像デフォーカスに苦しみ、中忠実な画像しか生成できない。 本稿では、位置推定誤差に対処し、不規則なサンプリングジオメトリの下でSAR画像超解像(SR)を実行するモバイルフレンドビジョントランスフォーマー(ViT)アーキテクチャを提案する。 提案アルゴリズムであるMobile-SRViTは,SAR画像強調にViTを用いた最初の手法であり,シミュレーションおよび実証実験によって検証されている。

In this paper, we develop a novel super-resolution algorithm for near-field synthetic-aperture radar (SAR) under irregular scanning geometries. As fifth-generation (5G) millimeter-wave (mmWave) devices are becoming increasingly affordable and available, high-resolution SAR imaging is feasible for end-user applications and non-laboratory environments. Emerging applications such freehand imaging, wherein a handheld radar is scanned throughout space by a user, unmanned aerial vehicle (UAV) imaging, and automotive SAR face several unique challenges for high-resolution imaging. First, recovering a SAR image requires knowledge of the array positions throughout the scan. While recent work has introduced camera-based positioning systems capable of adequately estimating the position, recovering the algorithm efficiently is a requirement to enable edge and Internet of Things (IoT) technologies. Efficient algorithms for non-cooperative near-field SAR sampling have been explored in recent work, but suffer image defocusing under position estimation error and can only produce medium-fidelity images. In this paper, we introduce a mobile-friend vision transformer (ViT) architecture to address position estimation error and perform SAR image super-resolution (SR) under irregular sampling geometries. The proposed algorithm, Mobile-SRViT, is the first to employ a ViT approach for SAR image enhancement and is validated in simulation and via empirical studies.
翻訳日:2023-05-04 15:06:42 公開日:2023-05-03
# 不規則走査測地のための3次元近接場MIMO-SARイメージング

Efficient 3-D Near-Field MIMO-SAR Imaging for Irregular Scanning Geometries ( http://arxiv.org/abs/2305.02064v1 )

ライセンス: Link先を確認
Josiah Smith, Murat Torlak(参考訳) 本稿では, 近接場合成開口レーダ(SAR)を用いた不規則な走査測地のための新しいアルゴリズムを提案する。 第5世代(5G)ミリ波(mmWave)装置の出現により、近接場SARイメージングは実験室環境に限定されなくなった。 近年の測位技術の進歩は、mmWaveイメージングにおける様々な新しい応用に多大な関心を集めている。 しかし、自動車搭載SARイメージング、無人航空機(UAV)イメージング、スマートフォンによるフリーハンドイメージングなどの多くのユースケースは、不規則な走査幾何学に制約されている。 従来の近接場SARイメージングシステムとクイックヒューマンセキュリティ(英語版)(QPS)スキャナーは理想的な合成アレイを作成するために高精度なモーションコントローラを使用しているが、先述の新興アプリケーションは本質的にそのような理想的な位置決めを達成できない。 さらに、IoT(Internet of Things)や5Gアプリケーションの多くは、エッジmmWaveイメージング技術のために考慮しなければならない、厳格なサイズと計算複雑性の制限を課している。 本研究では,非協調型sarスキャンパターン,小型フォームファクタ多入力マルチアウトプット(mimo)レーダ,効率的なモノスタティック平面画像再構成アルゴリズムの利点を生かした新しいアルゴリズムを提案する。 本稿では,任意かつ不規則なサンプリング測地を数学的に分解するフレームワークと,マルチスタティックアレイ画像アーティファクトを緩和するジョイントソリューションを提案する。 提案アルゴリズムはシミュレーションと任意の走査シナリオの実証的研究を通じて検証される。 提案アルゴリズムは高分解能・高効率な近場MIMO-SARイメージングを実現し,不規則サンプル画像問題に対するエレガントな解法である。

In this article, we introduce a novel algorithm for efficient near-field synthetic aperture radar (SAR) imaging for irregular scanning geometries. With the emergence of fifth-generation (5G) millimeter-wave (mmWave) devices, near-field SAR imaging is no longer confined to laboratory environments. Recent advances in positioning technology have attracted significant interest for a diverse set of new applications in mmWave imaging. However, many use cases, such as automotive-mounted SAR imaging, unmanned aerial vehicle (UAV) imaging, and freehand imaging with smartphones, are constrained to irregular scanning geometries. Whereas traditional near-field SAR imaging systems and quick personnel security (QPS) scanners employ highly precise motion controllers to create ideal synthetic arrays, emerging applications, mentioned previously, inherently cannot achieve such ideal positioning. In addition, many Internet of Things (IoT) and 5G applications impose strict size and computational complexity limitations that must be considered for edge mmWave imaging technology. In this study, we propose a novel algorithm to leverage the advantages of non-cooperative SAR scanning patterns, small form-factor multiple-input multiple-output (MIMO) radars, and efficient monostatic planar image reconstruction algorithms. We propose a framework to mathematically decompose arbitrary and irregular sampling geometries and a joint solution to mitigate multistatic array imaging artifacts. The proposed algorithm is validated through simulations and an empirical study of arbitrary scanning scenarios. Our algorithm achieves high-resolution and high-efficiency near-field MIMO-SAR imaging, and is an elegant solution to computationally constrained irregularly sampled imaging problems.
翻訳日:2023-05-04 15:06:00 公開日:2023-05-03
# マルチエージェント協調知覚のための注意に基づく特徴融合

Attention Based Feature Fusion For Multi-Agent Collaborative Perception ( http://arxiv.org/abs/2305.02061v1 )

ライセンス: Link先を確認
Ahmed N. Ahmed, Siegfried Mercelis, Ali Anwar(参考訳) 知的輸送システム(ITS)の分野では、複数のエージェントが情報を交換できるようにすることで、個人の知覚の限界を克服し、状況認識を高めるという、有望なアプローチとして協調認識が出現している。 協調的な知覚は個々のセンサーの限界を克服し、接続されたエージェントが視線や視野を超えた環境を認識できるようにする。 しかし、協調知覚の信頼性は、限られたネットワークリソースがもたらす課題を克服しなければならないデータ集約戦略と通信帯域に大きく依存する。 本稿では,物体検出の精度の向上と限られたネットワーク資源の緩和を目的として,グラフ注意ネットワーク(GAT)の形式での協調認識ソリューションを提案する。 提案手法は,複数の連結エージェント間で交換される中間表現を融合するアテンションベースのアグリゲーション戦略を開発する。 このアプローチは、チャネルレベルと空間レベルの中間特徴写像における重要な領域を適応的に強調し、オブジェクト検出精度を向上させる。 注意に基づくアーキテクチャを用いた特徴融合方式を提案し,他の最先端協調知覚手法と比較して定量的に評価する。 提案手法はV2XSimデータセットを用いて検証する。 本研究は,ネットワークリソース使用量を削減しつつ,物体検出平均精度を向上させるための中間協調知覚手法の有効性を示す。

In the domain of intelligent transportation systems (ITS), collaborative perception has emerged as a promising approach to overcome the limitations of individual perception by enabling multiple agents to exchange information, thus enhancing their situational awareness. Collaborative perception overcomes the limitations of individual sensors, allowing connected agents to perceive environments beyond their line-of-sight and field of view. However, the reliability of collaborative perception heavily depends on the data aggregation strategy and communication bandwidth, which must overcome the challenges posed by limited network resources. To improve the precision of object detection and alleviate limited network resources, we propose an intermediate collaborative perception solution in the form of a graph attention network (GAT). The proposed approach develops an attention-based aggregation strategy to fuse intermediate representations exchanged among multiple connected agents. This approach adaptively highlights important regions in the intermediate feature maps at both the channel and spatial levels, resulting in improved object detection precision. We propose a feature fusion scheme using attention-based architectures and evaluate the results quantitatively in comparison to other state-of-the-art collaborative perception approaches. Our proposed approach is validated using the V2XSim dataset. The results of this work demonstrate the efficacy of the proposed approach for intermediate collaborative perception in improving object detection average precision while reducing network resource usage.
翻訳日:2023-05-04 15:05:14 公開日:2023-05-03
# 量子ビットルーティングのアルゴリズム理論

Algorithmic Theory of Qubit Routing ( http://arxiv.org/abs/2305.02059v1 )

ライセンス: Link先を確認
Takehiro Ito, Naonori Kakimura, Naoyuki Kamiyama, Yusuke Kobayashi, Yoshio Okamoto(参考訳) 量子ビットルーティング問題(qubit routing problem)またはスワップ最小化問題(swap minimization problem)は、量子プログラムのコンパイラの設計において生じる(古典的な)組合せ最適化問題である。 理論計算機科学の立場から量子経路問題を研究する一方,既存の研究の多くは実用的側面を考察している。 我々は、グラフトポロジが経路である量子コンピュータの線形近接アーキテクチャ(LNN)に集中する。 私たちの結果は3倍です。 1) 量子ビットルーティング問題はNPハードであることを証明する。 2) 2量子ゲートの数がパラメータである場合,固定パラメータアルゴリズムを提案する。 (3) 各キュービットが少なくとも1つの2量子ビットゲートに関与している場合に多項式時間アルゴリズムを与える。

The qubit routing problem, also known as the swap minimization problem, is a (classical) combinatorial optimization problem that arises in the design of compilers of quantum programs. We study the qubit routing problem from the viewpoint of theoretical computer science, while most of the existing studies investigated the practical aspects. We concentrate on the linear nearest neighbor (LNN) architectures of quantum computers, in which the graph topology is a path. Our results are three-fold. (1) We prove that the qubit routing problem is NP-hard. (2) We give a fixed-parameter algorithm when the number of two-qubit gates is a parameter. (3) We give a polynomial-time algorithm when each qubit is involved in at most one two-qubit gate.
翻訳日:2023-05-04 15:04:51 公開日:2023-05-03
# 協調マルコフ決定処理システムによるヒューマンマシン協調インタフェース

Human Machine Co-adaption Interface via Cooperation Markov Decision Process System ( http://arxiv.org/abs/2305.02058v1 )

ライセンス: Link先を確認
Kairui Guo, Adrian Cheng, Yaqi Li, Jun Li, Rob Duffield, Steven W. Su(参考訳) 本稿では,患者(患者)と機械(ロボット)の両方の観点から,モデルに基づく強化学習を通じて協調適応技術を導入することにより,リハビリテーション性能を向上させる新しいヒューマンマシンインタフェースを開発することを目的とする。 従来の研究は、ロボット支援、すなわち、支援の目的を達成するために、制御戦略を改善することに焦点を当てていた。 本研究では,ロボット支援リハビリテーションの全過程を,協調的あるいは相互学習プロセスとして扱い,利用者の機械への適応を強調する。 そこで本研究では,協調型マルチエージェント強化学習(MARL)に基づく学習率の定量化を目的とした,協調適応型MDP(CaMDP)モデルを提案する。 政策イテレーションの枠組みにおいて,2つのエージェント間の政策改善を協調的に調整するためのいくつかのアプローチを提案した。 提案した協調適応型MDPから, 様々な政策改善手法を用いて, 非定常問題を緩和できることを示す。

This paper aims to develop a new human-machine interface to improve rehabilitation performance from the perspective of both the user (patient) and the machine (robot) by introducing the co-adaption techniques via model-based reinforcement learning. Previous studies focus more on robot assistance, i.e., to improve the control strategy so as to fulfill the objective of Assist-As-Needed. In this study, we treat the full process of robot-assisted rehabilitation as a co-adaptive or mutual learning process and emphasize the adaptation of the user to the machine. To this end, we proposed a Co-adaptive MDPs (CaMDPs) model to quantify the learning rates based on cooperative multi-agent reinforcement learning (MARL) in the high abstraction layer of the systems. We proposed several approaches to cooperatively adjust the Policy Improvement among the two agents in the framework of Policy Iteration. Based on the proposed co-adaptive MDPs, the simulation study indicates the non-stationary problem can be mitigated using various proposed Policy Improvement approaches.
翻訳日:2023-05-04 15:04:38 公開日:2023-05-03
# 地図に基づく体験リプレイ:強化学習における破滅的蓄積に対する記憶効率の良い解決法

Map-based Experience Replay: A Memory-Efficient Solution to Catastrophic Forgetting in Reinforcement Learning ( http://arxiv.org/abs/2305.02054v1 )

ライセンス: Link先を確認
Muhammad Burhan Hafez, Tilman Immisch, Tom Weber, Stefan Wermter(参考訳) 深層強化学習エージェントは、新しいデータをトレーニングするとき、入力空間の一部で以前に見つかったソリューションを忘れ、壊滅的な忘れに苦しむことが多い。 Replay Memoriesはこの問題の一般的な解決策であり、古いトレーニングサンプルと新しいトレーニングサンプルを関連付け、シャッフルする。 冗長性を考慮せずに、入ってくる状態遷移を生かして保存する。 本稿では,世界地図ベースの心的モデルに類似したgwr自己組織化ネットワークに基づく,新しい認知的インスパイアされたリプレイメモリアプローチを提案する。 本手法では,ステートノードとトランジッションエッジの簡潔な環境モデルライクなネットワークにストアドトランジションを整理し,類似したサンプルをマージすることでメモリサイズを削減し,サンプル間のペアワイズ距離を増加させ,各サンプルの関連性を高める。 全体的に、マップベースのエクスペリエンスリプレイにより、少ないパフォーマンスで大幅にメモリ削減が可能となることを示した。

Deep Reinforcement Learning agents often suffer from catastrophic forgetting, forgetting previously found solutions in parts of the input space when training on new data. Replay Memories are a common solution to the problem, decorrelating and shuffling old and new training samples. They naively store state transitions as they come in, without regard for redundancy. We introduce a novel cognitive-inspired replay memory approach based on the Grow-When-Required (GWR) self-organizing network, which resembles a map-based mental model of the world. Our approach organizes stored transitions into a concise environment-model-like network of state-nodes and transition-edges, merging similar samples to reduce the memory size and increase pair-wise distance among samples, which increases the relevancy of each sample. Overall, our paper shows that map-based experience replay allows for significant memory reduction with only small performance decreases.
翻訳日:2023-05-04 15:04:23 公開日:2023-05-03
# バイアスノイズ量子ビットに対するスケーラブルノイズ量子回路

Scalable noisy quantum circuits for biased-noise qubits ( http://arxiv.org/abs/2305.02045v1 )

ライセンス: Link先を確認
Marco Fellous-Asiani, Moein Naseri, Chandan Datta, Alexander Streltsov, Micha{\l} Oszmaniec(参考訳) 量子誤差軽減は、量子アルゴリズムに対するノイズの影響を低減することができる。 しかし、回路サイズで指数関数的にスケールするリソースを必要とするため、スケーラブルではない。 本研究では,安定猫量子ビットの既存システムに動機づけられたビットフリップ誤差のみに影響されるバイアスノイズ量子ビットについて考察する。 この特性により、アルゴリズム繰り返しの多項式オーバーヘッドだけで確実に実行される、絡み合いと非クリフォードゲートを含むノイズの多いアダマールテストのクラスを設計できる。 また,従来のアルゴリズムでは,Adamardテストの特定の変種を効率的にシミュレートすることができた。 我々は,このアルゴリズムを,大規模かつ複雑な量子回路のスケールにおける雑音のバイアスの単純なベンチマークとして用いることを提案する。 我々の回路の強いノイズ耐性はさらなる研究の動機となり、量子計算の利点が高度に特定されながらノイズの多い回路に到達できるかどうかを確かめる。

Quantum error mitigation allows to reduce the impact of noise on quantum algorithms. Yet, it is not scalable as it requires resources scaling exponentially with the circuit size. In this work, we consider biased-noise qubits affected only by bit-flip errors, which is motivated by existing systems of stabilized cat qubits. This property allows us to design a class of noisy Hadamard-tests involving entangling and certain non-Clifford gates, which can be conducted reliably with only a polynomial overhead in algorithm repetitions. On the flip side we also found a classical algorithm able to efficiently simulate our specific variants of Hadamard test. We propose to use this algorithm as a simple benchmark of the biasness of the noise at the scale of large and complicated quantum circuits. The strong noise-resilience of our circuits could motivate further research, to see if a quantum computational advantage could be reached for highly specific, yet noisy circuits.
翻訳日:2023-05-04 15:04:02 公開日:2023-05-03
# 対称正定値多様体上の低複素部分空間線

Low-complexity subspace-descent over symmetric positive definite manifold ( http://arxiv.org/abs/2305.02041v1 )

ライセンス: Link先を確認
Yogesh Darmwal, Ketan Rajawat(参考訳) この研究は、対称正定値(spd)多様体上の関数の最小化のための低複素リーマン部分空間降下アルゴリズムをもたらす。 既存のリーマン勾配降下変種と異なり、提案手法は慎重に選択された部分空間を利用して、更新をイテレートのコレスキー因子とスパース行列の積として記述することができる。 結果として得られる更新は、spd多様体上のほとんど全てのリーマン最適化アルゴリズムで一般的に必要とされる行列指数や密行列乗法のようなコストのかかる行列演算を避ける。 さらに,多種多様な応用,例えば,カーネル・マトリックス・ラーニング,ガウス分布の共分散推定,楕円曲線分布の最大確率パラメータ推定,およびリーマン勾配を効率的に計算できるガウス混合モデル問題におけるパラメータ推定を同定する。 提案された一方向および多方向のリーマン部分空間降下変種は、既存のリーマン勾配降下変種すべてによって引き起こされる$\mathcal{o}(n)$ と$\mathcal{o}(n^2)$ の共役関係をそれぞれ負う。 また, 大規模共分散推定問題に対する数値実験により, 提案アルゴリズムの優れた実行時間と文毎の複雑性を実証した。

This work puts forth low-complexity Riemannian subspace descent algorithms for the minimization of functions over the symmetric positive definite (SPD) manifold. Different from the existing Riemannian gradient descent variants, the proposed approach utilizes carefully chosen subspaces that allow the update to be written as a product of the Cholesky factor of the iterate and a sparse matrix. The resulting updates avoid the costly matrix operations like matrix exponentiation and dense matrix multiplication, which are generally required in almost all other Riemannian optimization algorithms on SPD manifold. We further identify a broad class of functions, arising in diverse applications, such as kernel matrix learning, covariance estimation of Gaussian distributions, maximum likelihood parameter estimation of elliptically contoured distributions, and parameter estimation in Gaussian mixture model problems, over which the Riemannian gradients can be calculated efficiently. The proposed uni-directional and multi-directional Riemannian subspace descent variants incur per-iteration complexities of $\mathcal{O}(n)$ and $\mathcal{O}(n^2)$ respectively, as compared to the $\mathcal{O}(n^3)$ or higher complexity incurred by all existing Riemannian gradient descent variants. The superior runtime and low per-iteration complexity of the proposed algorithms is also demonstrated via numerical tests on large-scale covariance estimation problems.
翻訳日:2023-05-04 15:03:45 公開日:2023-05-03
# 新しいステイスタイルトレーニング手法による深部畳み込みニューラルネットワークの静的手技分類の改善

Improved Static Hand Gesture Classification on Deep Convolutional Neural Networks using Novel Sterile Training Technique ( http://arxiv.org/abs/2305.02039v1 )

ライセンス: Link先を確認
Josiah Smith, Shiva Thiagarajan, Richard Willis, Yiorgos Makris, Murat Torlak(参考訳) 本稿では,畳み込みニューラルネットワーク (cnn) と周波数変調連続波 (fmcw) ミリ波 (mmwave) レーダを用いた非移動ハンドジェスチャの分類精度を向上させるための新しいデータ収集と訓練手法について検討する。 近年,HCI(Human-Computer Interaction),AR/VR(AR/Virtual Reality),医療応用のための治療範囲など,多くの応用において,非接触手ポーズや静的ジェスチャー認識が注目されている。 現在のほとんどのソリューションは光学または深度カメラに依存しているが、これらの方法は理想的な照明と温度条件を必要とする。 mmwaveレーダデバイスは、非理想的撮像条件においても正確な空間情報を出力信号に含む低コストのシステムオンチップセンサを提供する有望な代替品として最近登場した。 さらに、深い畳み込みニューラルネットワークは、特徴抽出と分類の両方を同時に学習することで、画像認識に広く採用されている。 しかし, レーダー帰還信号から有意な特徴を抽出することの難しさから, mmWave レーダと CNN を用いた静的ジェスチャー認識への取り組みはほとんど行われておらず, 動的ジェスチャー分類よりは劣っている。 本稿では,静的なジェスチャの異なる特徴を識別し,その後に分類精度を向上させる 'sterile' 画像を導入することで,効率的なデータ収集手法と深層cnnトレーニングのための新しい手法を提案する。 提案したデータ収集とトレーニング手法を適用すると、静的ハンドジェスチャの分類率は、それぞれ8,5\%$から9,3\%$に、90,9,5\%$から9,5\%$に上昇する。

In this paper, we investigate novel data collection and training techniques towards improving classification accuracy of non-moving (static) hand gestures using a convolutional neural network (CNN) and frequency-modulated-continuous-wave (FMCW) millimeter-wave (mmWave) radars. Recently, non-contact hand pose and static gesture recognition have received considerable attention in many applications ranging from human-computer interaction (HCI), augmented/virtual reality (AR/VR), and even therapeutic range of motion for medical applications. While most current solutions rely on optical or depth cameras, these methods require ideal lighting and temperature conditions. mmWave radar devices have recently emerged as a promising alternative offering low-cost system-on-chip sensors whose output signals contain precise spatial information even in non-ideal imaging conditions. Additionally, deep convolutional neural networks have been employed extensively in image recognition by learning both feature extraction and classification simultaneously. However, little work has been done towards static gesture recognition using mmWave radars and CNNs due to the difficulty involved in extracting meaningful features from the radar return signal, and the results are inferior compared with dynamic gesture classification. This article presents an efficient data collection approach and a novel technique for deep CNN training by introducing ``sterile'' images which aid in distinguishing distinct features among the static gestures and subsequently improve the classification accuracy. Applying the proposed data collection and training methods yields an increase in classification rate of static hand gestures from $85\%$ to $93\%$ and $90\%$ to $95\%$ for range and range-angle profiles, respectively.
翻訳日:2023-05-04 15:03:19 公開日:2023-05-03
# 特徴量に基づく深部畳み込みニューラルネットワークによる単一画像推定

Single Image Deraining via Feature-based Deep Convolutional Neural Network ( http://arxiv.org/abs/2305.02100v1 )

ライセンス: Link先を確認
Chaobing Zheng, Jun Jiang, Wenjian Ying, Shiqian Wu(参考訳) 雨天ステーキは雨天像に空間的に変化するため、雨天像から雨天像を除去することは困難である。 CNNベースのメソッドは最近、有望なパフォーマンスを報告しているが、データ依存や不十分な解釈など、いくつかの欠陥がある。 データ駆動型アプローチとモデルベースアプローチの組み合わせに基づく単一の画像参照アルゴリズムを提案する。 まず、改良された重み付きガイド画像フィルタ(iWGIF)を用いて高周波情報を抽出し、レインステーキを学習し、入力画像を介して他の情報からの干渉を避ける。 そして、入力画像とレインステーキを画像領域から特徴領域に適応的に転送し、高品質な画像デライニングに有用な特徴を学習する。 最後に、注目機構を持つネットワークを用いて、潜在特徴から高品質な画像を復元する。 実験により,提案手法は定性的および定量的尺度の両面で最先端手法を有意に上回ることがわかった。

It is challenging to remove rain-steaks from a single rainy image because the rain steaks are spatially varying in the rainy image. Although the CNN based methods have reported promising performance recently, there are still some defects, such as data dependency and insufficient interpretation. A single image deraining algorithm based on the combination of data-driven and model-based approaches is proposed. Firstly, an improved weighted guided image filter (iWGIF) is used to extract high-frequency information and learn the rain steaks to avoid interference from other information through the input image. Then, transfering the input image and rain steaks from the image domain to the feature domain adaptively to learn useful features for high-quality image deraining. Finally, networks with attention mechanisms is used to restore high-quality images from the latent features. Experiments show that the proposed algorithm significantly outperforms state-of-the-art methods in terms of both qualitative and quantitative measures.
翻訳日:2023-05-04 14:57:28 公開日:2023-05-03
# A-SNN:自己蒸留と重み因子化による人工・スパイクニューラルネットワークの合同訓練

Joint A-SNN: Joint Training of Artificial and Spiking Neural Networks via Self-Distillation and Weight Factorization ( http://arxiv.org/abs/2305.02099v1 )

ライセンス: Link先を確認
Yufei Guo, Weihang Peng, Yuanpei Chen, Liwen Zhang, Xiaode Liu, Xuhui Huang, Zhe Ma(参考訳) 生物学にヒントを得たスパイキングニューラルネットワーク(SNN)は、脳ニューロンのスパイキング特性を模倣し、多くの研究の注目を集めている。 snnはバイナリスパイクをアクティベーションとして扱い、ハードウェアのエネルギー効率を極端に向上させる。 しかし、これはまた、スクラッチからSNNを訓練するためには、勾配を計算するために発射関数を再定義する必要がある本質的な障害につながる。 しかし、ANN(Artificial Neural Networks)は、勾配降下でトレーニングすることができる。 本稿では,ANNとSNNの協調トレーニングフレームワークを提案する。 まず、ネットワークからの複数のブランチを使用することで、ANN内の知識をSNNに蒸留する。 第二に、ANNとSNNのパラメータを制限し、部分的パラメータを共有し、異なる特異重みを学習する。 広範に使用されるネットワーク構造に関する広範囲な実験により,本手法は他の最先端のトレーニング手法を一貫して上回っていることが示された。 例えば、CIFAR100分類タスクでは、我々の方法で訓練されたスパイクされたResNet-18モデルは、わずか4ステップで77.39%のトップ-1精度に達する。

Emerged as a biology-inspired method, Spiking Neural Networks (SNNs) mimic the spiking nature of brain neurons and have received lots of research attention. SNNs deal with binary spikes as their activation and therefore derive extreme energy efficiency on hardware. However, it also leads to an intrinsic obstacle that training SNNs from scratch requires a re-definition of the firing function for computing gradient. Artificial Neural Networks (ANNs), however, are fully differentiable to be trained with gradient descent. In this paper, we propose a joint training framework of ANN and SNN, in which the ANN can guide the SNN's optimization. This joint framework contains two parts: First, the knowledge inside ANN is distilled to SNN by using multiple branches from the networks. Second, we restrict the parameters of ANN and SNN, where they share partial parameters and learn different singular weights. Extensive experiments over several widely used network structures show that our method consistently outperforms many other state-of-the-art training methods. For example, on the CIFAR100 classification task, the spiking ResNet-18 model trained by our method can reach to 77.39% top-1 accuracy with only 4 time steps.
翻訳日:2023-05-04 14:57:13 公開日:2023-05-03
# カメラトラップ画像とディープラーニングを用いた鳥分類における人間のボトルネック除去

Removing Human Bottlenecks in Bird Classification Using Camera Trap Images and Deep Learning ( http://arxiv.org/abs/2305.02097v1 )

ライセンス: Link先を確認
Carl Chalmers, Paul Fergus, Serge Wich, Steven N Longmore, Naomi Davies Walsh, Philip Stephens, Chris Sutherland, Naomi Matthews, Jens Mudde, Amira Nuseibeh(参考訳) 鳥類は生物多様性と生息地の健康の両方を監視する重要な指標であり、生態系管理において重要な役割を果たす。 鳥類の個体数は減少し、種子散布、受粉、害虫防除などの生態系が減少する。 保全的介入の成功を計測しながら、鳥類の関心種を特定するための正確な長期モニタリングは、生態学者にとって不可欠である。 しかし、モニタリングは時間がかかり、コストがかかり、長い時間と意味のある大きな空間スケールで管理することがしばしば困難である。 カメラトラップ、音響モニター、ドローンなどの技術は、非侵襲的な監視方法を提供する。 監視にカメラトラップを使用する場合、主な問題は2つある。 a) カメラは,多数の画像を生成し,データを適宜処理し,分析することが困難である。 b) 偽陽性の比率が高いと、報告の処理及び分析が妨げられる。 本稿では,鳥種のリアルタイム分類とカメラトラップデータにおける偽陽性の自動除去にディープラーニングを活用し,これらの問題を克服するためのアプローチについて概説する。 画像はFaster-RCNNアーキテクチャを使ってリアルタイムで分類される。 画像は3/4g cam-erasで送信され、gpu(graphical processing unit)を使用して処理され、保存主義者に重要な検出メトリクスを提供するため、手動で観察する必要がなくなる。 我々のモデルは平均感度88.79%、特異性98.16%、精度96.71%を達成した。 これは,鳥の自動モニタリングにおけるディープラーニングの有効性を示す。

Birds are important indicators for monitoring both biodiversity and habitat health; they also play a crucial role in ecosystem management. Decline in bird populations can result in reduced eco-system services, including seed dispersal, pollination and pest control. Accurate and long-term monitoring of birds to identify species of concern while measuring the success of conservation interventions is essential for ecologists. However, monitoring is time consuming, costly and often difficult to manage over long durations and at meaningfully large spatial scales. Technology such as camera traps, acoustic monitors and drones provide methods for non-invasive monitoring. There are two main problems with using camera traps for monitoring: a) cameras generate many images, making it difficult to process and analyse the data in a timely manner; and b) the high proportion of false positives hinders the processing and analysis for reporting. In this paper, we outline an approach for overcoming these issues by utilising deep learning for real-time classi-fication of bird species and automated removal of false positives in camera trap data. Images are classified in real-time using a Faster-RCNN architecture. Images are transmitted over 3/4G cam-eras and processed using Graphical Processing Units (GPUs) to provide conservationists with key detection metrics therefore removing the requirement for manual observations. Our models achieved an average sensitivity of 88.79%, a specificity of 98.16% and accuracy of 96.71%. This demonstrates the effectiveness of using deep learning for automatic bird monitoring.
翻訳日:2023-05-04 14:56:53 公開日:2023-05-03
# 長期一重項状態準備のための反断熱駆動

Counterdiabatic driving for long-lived singlet state preparation ( http://arxiv.org/abs/2305.02096v1 )

ライセンス: Link先を確認
Abhinav Suresh, Vishal Varma, Priya Batra, and T S Mahesh(参考訳) 量子アディアバティック法は、状態の進化を通じて瞬時に固有状態の個体群を維持するもので、状態の準備と操作のために確立され、しばしば好まれる選択である。 駆動コストを著しく最小化するが、その遅い速度はノイズの多い中規模量子(NISQ)時代の技術では厳しい制限となる。 断熱経路は多くの物理過程において広く見られるため、断熱をはるかに高速に達成することはより広い関心事である。 非断熱経路を高速に駆動することで、遅い断熱過程を克服する断熱技術へのショートカットが近年注目されている。 過去10年間に確立された核磁気共鳴における長寿命一重項状態(LLS)の極端に長い寿命は、分光法から生医学的イメージングまで、いくつかの重要な応用を開拓してきた。 断熱法を含む様々な方法がLSSの調製にすでに使われている。 本稿では,高速駆動によるLSS調製を高速化するために,逆断熱駆動(CD)を用いたことを報告する。 NMR実験により,CDは従来の断熱駆動よりも短い期間でLSSのオーダーを得られることを示した。

The quantum adiabatic method, which maintains populations in their instantaneous eigenstates throughout the state evolution, is an established and often a preferred choice for state preparation and manipulation. Though it minimizes the driving cost significantly, its slow speed is a severe limitation in noisy intermediate-scale quantum (NISQ) era technologies. Since adiabatic paths are extensive in many physical processes, it is of broader interest to achieve adiabaticity at a much faster rate. Shortcuts to adiabaticity techniques which overcome the slow adiabatic process by driving the system faster through non-adiabatic paths, have seen increased attention recently. The extraordinarily long lifetime of the long-lived singlet states (LLS) in nuclear magnetic resonance, established over the past decade, has opened several important applications ranging from spectroscopy to biomedical imaging. Various methods, including adiabatic methods, are already being used to prepare LLS. In this article, we report the use of counterdiabatic driving (CD) to speed up LLS preparation with faster drives. Using NMR experiments, we show that CD can give stronger LLS order in shorter durations than conventional adiabatic driving.
翻訳日:2023-05-04 14:56:30 公開日:2023-05-03
# 能動的特徴獲得による効率的なオンライン決定木学習

Efficient Online Decision Tree Learning with Active Feature Acquisition ( http://arxiv.org/abs/2305.02093v1 )

ライセンス: Link先を確認
Arman Rahbar, Ziyu Ye, Yuxin Chen, Morteza Haghir Chehreghani(参考訳) 決定木をオンラインで構築することは、古典的な機械学習の問題である。 既存の作業は、入ってくる各データポイントで機能を簡単に利用できると仮定することが多い。 しかし、多くの現実のアプリケーションでは、特徴値とラベルは前もって不明であり、1つのコストでしか取得できない。 例えば、診断において、医師は診断決定(ラベルの予測)を行うために、患者に対してどの検査を行うか(すなわち、高価な特徴クエリ)を選択する必要がある。 我々はこの実用的な課題に取り組むための新しい視点を提供する。 本フレームワークは,オンライン学習方式に埋め込まれたアクティブプランニングオラクルで構成され,いくつかの情報取得機能について検討する。 具体的には,アダプティブサブモジュラリティに基づくサロゲート情報取得機能を用いて,特徴値のクエリを最小限のコストで積極的に行うとともに,後続サンプリング方式を用いてオンライン予測に対する後悔度を低く抑えている。 我々は,様々な実世界のデータセットに対する広範な実験を通じて,フレームワークの効率性と有効性を示す。 当社のフレームワークは,コンセプトドリフトによるオンライン学習の難易度設定にも自然に適応し,より柔軟なベースラインモデルと競合することを示す。

Constructing decision trees online is a classical machine learning problem. Existing works often assume that features are readily available for each incoming data point. However, in many real world applications, both feature values and the labels are unknown a priori and can only be obtained at a cost. For example, in medical diagnosis, doctors have to choose which tests to perform (i.e., making costly feature queries) on a patient in order to make a diagnosis decision (i.e., predicting labels). We provide a fresh perspective to tackle this practical challenge. Our framework consists of an active planning oracle embedded in an online learning scheme for which we investigate several information acquisition functions. Specifically, we employ a surrogate information acquisition function based on adaptive submodularity to actively query feature values with a minimal cost, while using a posterior sampling scheme to maintain a low regret for online prediction. We demonstrate the efficiency and effectiveness of our framework via extensive experiments on various real-world datasets. Our framework also naturally adapts to the challenging setting of online learning with concept drift and is shown to be competitive with baseline models while being more flexible.
翻訳日:2023-05-04 14:56:11 公開日:2023-05-03
# ミリ波移動レーダイメージングのための効率的なCNNに基づく超解像アルゴリズム

Efficient CNN-based Super Resolution Algorithms for mmWave Mobile Radar Imaging ( http://arxiv.org/abs/2305.02092v1 )

ライセンス: Link先を確認
Christos Vasileiou, Josiah W. Smith, Shiva Thiagarajan, Matthew Nigh, Yiorgos Makris, Murat Torlak(参考訳) 本稿では,近距離場合成開口レーダ(SAR)イメージングの新興モードに対する革新的な超解像手法を提案する。 最近の研究は、畳み込みニューラルネットワーク(CNN)アーキテクチャを光学から電磁領域に拡張し、レーダ信号から生成された画像の超解像を実現する。 具体的には、近接場合成開口レーダ(SAR)イメージングは、空間を横断するレーダーを走査して合成開口を生成することで高分解能画像を生成する方法であり、その高忠実な空間センシング能力、低コストデバイス、大規模アプリケーション空間のために関心がある。 SARイメージングは高分解能を実現するために大きな開口サイズを必要とするため、多くのアプリケーションで超高分解能アルゴリズムが有用である。 フリーハンドスマートフォンのSARは、近距離界における不規則なSAR開口とモバイルデバイスでの計算を必要とする。 スマートフォンのフリーハンドモーションで収集した不規則なサンプルデータから効率的な高分解能sar画像を実現することは難しい課題である。 本稿では,最新のSAR処理とディープラーニング技術を用いて,モバイルアプリケーションにおけるSAR画像の超解像を実現する新しいCNNアーキテクチャを提案する。 提案アルゴリズムはシミュレーションと実証実験により検証される。 本アルゴリズムは,不規則なスキャニングジオメトリを有する近接場シナリオに対する高効率・高分解能レーダイメージングを示す。

In this paper, we introduce an innovative super resolution approach to emerging modes of near-field synthetic aperture radar (SAR) imaging. Recent research extends convolutional neural network (CNN) architectures from the optical to the electromagnetic domain to achieve super resolution on images generated from radar signaling. Specifically, near-field synthetic aperture radar (SAR) imaging, a method for generating high-resolution images by scanning a radar across space to create a synthetic aperture, is of interest due to its high-fidelity spatial sensing capability, low cost devices, and large application space. Since SAR imaging requires large aperture sizes to achieve high resolution, super-resolution algorithms are valuable for many applications. Freehand smartphone SAR, an emerging sensing modality, requires irregular SAR apertures in the near-field and computation on mobile devices. Achieving efficient high-resolution SAR images from irregularly sampled data collected by freehand motion of a smartphone is a challenging task. In this paper, we propose a novel CNN architecture to achieve SAR image super-resolution for mobile applications by employing state-of-the-art SAR processing and deep learning techniques. The proposed algorithm is verified via simulation and an empirical study. Our algorithm demonstrates high-efficiency and high-resolution radar imaging for near-field scenarios with irregular scanning geometries.
翻訳日:2023-05-04 14:55:52 公開日:2023-05-03
# 説明可能な機械学習によるシラス雲の理解

Understanding cirrus clouds using explainable machine learning ( http://arxiv.org/abs/2305.02090v1 )

ライセンス: Link先を確認
Kai Jeggle, David Neubauer, Gustau Camps-Valls and Ulrike Lohmann(参考訳) 円雲は地球の気候の鍵となる変調物質である。 気象およびエアロゾル条件への依存は、地球規模の気候モデルにおける最大の不確実性の一つである。 この研究は3年間の衛星データと再分析データを用いて、サイラスドライバと雲の性質の関係を研究する。 我々は,氷水含量と結晶数濃度を予測するため,勾配ブースト機械学習モデルと,注意層を有する長短短期記憶(LSTM)ネットワークを用いた。 モデルによれば、気象条件とエアロゾル条件は、r^2 = 0.49$のシラス特性を予測できる。 特徴属性をSHAP(SHapley Additive ExPlanations)を用いて計算し,気象条件とエアロゾル条件の関連性を定量化する。 例えば、氷結晶数濃度の予測を減少させるのに必要な超微小粒子の最小濃度は、2 \times 10^{-4}$ mg m\textsuperscript{-3}である。 観測の15時間前には、全てのシラスの性質が予測される。

Cirrus clouds are key modulators of Earth's climate. Their dependencies on meteorological and aerosol conditions are among the largest uncertainties in global climate models. This work uses three years of satellite and reanalysis data to study the link between cirrus drivers and cloud properties. We use a gradient-boosted machine learning model and a Long Short-Term Memory (LSTM) network with an attention layer to predict the ice water content and ice crystal number concentration. The models show that meteorological and aerosol conditions can predict cirrus properties with $R^2 = 0.49$. Feature attributions are calculated with SHapley Additive exPlanations (SHAP) to quantify the link between meteorological and aerosol conditions and cirrus properties. For instance, the minimum concentration of supermicron-sized dust particles required to cause a decrease in ice crystal number concentration predictions is $2 \times 10^{-4}$ mg m\textsuperscript{-3}. The last 15 hours before the observation predict all cirrus properties.
翻訳日:2023-05-04 14:55:33 公開日:2023-05-03
# 衛星画像時系列の符号化の再考

Rethinking the Encoding of Satellite Image Time Series ( http://arxiv.org/abs/2305.02086v1 )

ライセンス: Link先を確認
Xin Cai, Yaxin Bi, Peter Nicholl, and Roy Sterritt(参考訳) 衛星画像時系列(SITS)の表現学習は、高時空間分解による計算負荷の禁止、不規則な取得時間、複雑な時空間相互作用などの固有の課題を示し、SITS分析のための高度に特殊化されたニューラルネットワークアーキテクチャをもたらす。 先駆的な研究によって達成された有望な成果にもかかわらず、十分な表現学習パラダイムが未だ確立されていないため、成功したパラダイムやコンピュータビジョン(cv)からシットへの最新の進歩をもたらす孤立した島は困難である。 本稿では,オブジェクト検出や画像セグメンテーションパイプラインの合理化にクエリベースのトランスフォーマデコーダを採用する最近のトレンドに触発されて,直接セット予測問題としてのsits処理の独特な視点を開発し,さらに,sitsの表現学習プロセスを3つの明確なステップに分解する手法を提案する。 提案した一意の再構成と効果的な特徴抽出フレームワークにより,我々のモデルは,画素セット形式入力に基づいて事前訓練され,一般的に使用されているセグメンテーションネットワークを付加するだけで,下流の高密度予測タスクに微調整される。 さらに,sesのパンオプティカルセグメンテーションパイプラインにおける時間的・空間的成分間の明瞭な分離により,近年のcvの進歩である汎用セグメンテーションアーキテクチャであるmask2formerを活用し,これまでに報告された最高のスコアと比較して,pqが8.8ポイント増加した。

Representation learning of Satellite Image Time Series (SITS) presents its unique challenges, such as prohibitive computation burden caused by high spatiotemporal resolutions, irregular acquisition times, and complex spatiotemporal interactions, leading to highly-specialized neural network architectures for SITS analysis. Despite the promising results achieved by some pioneering work, we argue that satisfactory representation learning paradigms have not yet been established for SITS analysis, causing an isolated island where transferring successful paradigms or the latest advances from Computer Vision (CV) to SITS is arduous. In this paper, we develop a unique perspective of SITS processing as a direct set prediction problem, inspired by the recent trend in adopting query-based transformer decoders to streamline the object detection or image segmentation pipeline, and further propose to decompose the representation learning process of SITS into three explicit steps: collect--update--distribute, which is computationally efficient and suits for irregularly-sampled and asynchronous temporal observations. Facilitated by the unique reformulation and effective feature extraction framework proposed, our models pre-trained on pixel-set format input and then fine-tuned on downstream dense prediction tasks by simply appending a commonly-used segmentation network have attained new state-of-the-art (SoTA) results on PASTIS dataset compared to bespoke neural architectures such as U-TAE. Furthermore, the clear separation, conceptually and practically, between temporal and spatial components in the panoptic segmentation pipeline of SITS allows us to leverage the recent advances in CV, such as Mask2Former, a universal segmentation architecture, resulting in a noticeable 8.8 points increase in PQ compared to the best score reported so far.
翻訳日:2023-05-04 14:55:14 公開日:2023-05-03
# ミリ波レーダを用いた物体認識に関する体系的研究

A Systematic Study on Object Recognition Using Millimeter-wave Radar ( http://arxiv.org/abs/2305.02085v1 )

ライセンス: Link先を確認
Maloy Kumar Devnath, Avijoy Chakma, Mohammad Saeid Anwar, Emon Dey, Zahid Hasan, Marc Conn, Biplab Pal, Nirmalya Roy(参考訳) 光と気象に依存しないセンシングのため、ミリ波レーダーはスマート環境において不可欠である。 インテリジェントな車両システムと産業用MMWレーダーは、そのような機能を統合している。 業界グレードのMMWレーダーは高価で、コミュニティ向けのスマート環境アプリケーションでは入手が難しい。 しかし、市販のMMWレーダーは、オブジェクトやアクティビティの認識、リアルタイムの人物追跡、オブジェクトのローカライゼーションなど、調査すべき課題を隠蔽している。 画像とビデオデータは、そのような仕事の収集、理解、注釈付けが簡単である。 画像とビデオのデータは、ライトと天気に依存し、閉塞効果に影響を受け、プライバシー問題を引き起こす。 依存を排除し、プライバシーを確保するために、商用MMWレーダーをテストする必要がある。 様々な運用環境でのMMWレーダーの実用性と性能は、それを推進する前に対処する必要がある。 この問題に対処するため,テキサス・インスツルメンツのAutomotive mmWave Radar (AWR2944) を用いてデータセットを収集し,異なるディープラーニングアルゴリズムを用いてオブジェクト認識性能の最適設定を報告した。 広範囲にわたるデータ収集手法により,対象識別課題の体系的探索と識別を両立可能とした。 いくつかのソリューションを調査し,詳細な実験データを公表した。

Due to its light and weather-independent sensing, millimeter-wave (MMW) radar is essential in smart environments. Intelligent vehicle systems and industry-grade MMW radars have integrated such capabilities. Industry-grade MMW radars are expensive and hard to get for community-purpose smart environment applications. However, commercially available MMW radars have hidden underpinning challenges that need to be investigated for tasks like recognizing objects and activities, real-time person tracking, object localization, etc. Image and video data are straightforward to gather, understand, and annotate for such jobs. Image and video data are light and weather-dependent, susceptible to the occlusion effect, and present privacy problems. To eliminate dependence and ensure privacy, commercial MMW radars should be tested. MMW radar's practicality and performance in varied operating settings must be addressed before promoting it. To address the problems, we collected a dataset using Texas Instruments' Automotive mmWave Radar (AWR2944) and reported the best experimental settings for object recognition performance using different deep learning algorithms. Our extensive data gathering technique allows us to systematically explore and identify object identification task problems under cross-ambience conditions. We investigated several solutions and published detailed experimental data.
翻訳日:2023-05-04 14:54:41 公開日:2023-05-03
# 倫理的音声認識データセットの考察

Considerations for Ethical Speech Recognition Datasets ( http://arxiv.org/abs/2305.02081v1 )

ライセンス: Link先を確認
Orestis Papakyriakopoulos, Alice Xiang(参考訳) Speech AI Technologiesは、公開データセットや大規模なWebクローリングによって、主にトレーニングされている。 いずれの場合も、データ取得は、データ対象者の保護やユーザニーズを考慮せずに、収集作業の最小化に重点を置いている。 これにより、トレーニングセットにおける支配的な人口層から逸脱するユーザに対して使用した場合、堅牢でないモデルが得られ、異なる方言、アクセント、話し方、ディフルエンシを持つ個人を識別する。 本稿では,自動音声認識を事例研究として,倫理的音声データセットが責任あるaiアプリケーションに対して持つべき特性について検討する。 モデル説明の容易さとユーザとデータ課題の保護を図りながら、トレーニングされたモデルを改善するために必要な多様性問題、包摂的プラクティス、そして考慮事項を紹介します。 我々は,データ対象の法的・プライバシー保護,ユーザ人口統計とニーズに応じた対象データサンプリング,モデル障害発生時の説明可能性と説明責任を保証する適切なメタデータ,社会工学的モデル設計について論じる。 この講演は、マシンラーニングモデルの堅牢性と有用性を改善しつつ、ユーザを力づけて尊重する方法で、音声技術やその他のドメインにおいて、より人間中心のデータセットを設計し、使用するように研究者に促すことを願っている。

Speech AI Technologies are largely trained on publicly available datasets or by the massive web-crawling of speech. In both cases, data acquisition focuses on minimizing collection effort, without necessarily taking the data subjects' protection or user needs into consideration. This results to models that are not robust when used on users who deviate from the dominant demographics in the training set, discriminating individuals having different dialects, accents, speaking styles, and disfluencies. In this talk, we use automatic speech recognition as a case study and examine the properties that ethical speech datasets should possess towards responsible AI applications. We showcase diversity issues, inclusion practices, and necessary considerations that can improve trained models, while facilitating model explainability and protecting users and data subjects. We argue for the legal & privacy protection of data subjects, targeted data sampling corresponding to user demographics & needs, appropriate meta data that ensure explainability & accountability in cases of model failure, and the sociotechnical \& situated model design. We hope this talk can inspire researchers \& practitioners to design and use more human-centric datasets in speech technologies and other domains, in ways that empower and respect users, while improving machine learning models' robustness and utility.
翻訳日:2023-05-04 14:54:21 公開日:2023-05-03
# システムニューラルダイバーシティ:マルチエージェント学習における行動不均一性の測定

System Neural Diversity: Measuring Behavioral Heterogeneity in Multi-Agent Learning ( http://arxiv.org/abs/2305.02128v1 )

ライセンス: Link先を確認
Matteo Bettini, Ajay Shankar, Amanda Prorok(参考訳) 進化科学は多様性が回復力を与える証拠を与える。 しかし、従来のマルチエージェント強化学習技術は、トレーニングサンプル効率を高めるために、通常均質性を強制する。 学習エージェントのシステムが均質なポリシーに制約されない場合、個々のエージェントは多様な振る舞いを発達させ、システムに恩恵をもたらす創発的な相補性をもたらす。 このような成果にもかかわらず、学習エージェントのシステムにおける行動の多様性を測定するツールが驚くほど欠如している。 このようなテクニックは、集団的レジリエンスとパフォーマンスにおける多様性の影響を理解するための道を開くだろう。 本稿では,エージェントが確率的ポリシーを持つマルチエージェントシステムにおける行動の多様性の尺度であるsystem neural diversity (snd)を提案する。 %であった。 我々は,その理論的性質を議論し,実証し,学際的領域で使用される交互に最先端の行動多様性指標と比較する。 様々なマルチエージェントタスクのシミュレーションを通じて、我々のメトリクスが、行動の不均一性の潜在性を分析する重要な診断ツールになることを示す。 静的タスクにおけるSNDとタスク報酬を比較することで、トレーニング中に問題が変化しない場合、不均一なエージェントと均質なエージェントの有効性を理解することが重要であることを示す。 学習中の障害が繰り返し発生する動的タスクでは,異種エージェントがまず,障害に対処するための専門的な役割を学習し,障害を取り除いた場合,それらの役割を保持できることが示されている。 SNDは遅延レジリエンスを直接測定するが、タスクパフォーマンス(逆)などの他のプロキシは失敗する。

Evolutionary science provides evidence that diversity confers resilience. Yet, traditional multi-agent reinforcement learning techniques commonly enforce homogeneity to increase training sample efficiency. When a system of learning agents is not constrained to homogeneous policies, individual agents may develop diverse behaviors, resulting in emergent complementarity that benefits the system. Despite this feat, there is a surprising lack of tools that measure behavioral diversity in systems of learning agents. Such techniques would pave the way towards understanding the impact of diversity in collective resilience and performance. In this paper, we introduce System Neural Diversity (SND): a measure of behavioral heterogeneity for multi-agent systems where agents have stochastic policies. %over a continuous state space. We discuss and prove its theoretical properties, and compare it with alternate, state-of-the-art behavioral diversity metrics used in cross-disciplinary domains. Through simulations of a variety of multi-agent tasks, we show how our metric constitutes an important diagnostic tool to analyze latent properties of behavioral heterogeneity. By comparing SND with task reward in static tasks, where the problem does not change during training, we show that it is key to understanding the effectiveness of heterogeneous vs homogeneous agents. In dynamic tasks, where the problem is affected by repeated disturbances during training, we show that heterogeneous agents are first able to learn specialized roles that allow them to cope with the disturbance, and then retain these roles when the disturbance is removed. SND allows a direct measurement of this latent resilience, while other proxies such as task performance (reward) fail to.
翻訳日:2023-05-04 14:47:02 公開日:2023-05-03
# Bicubic++: Slim, Slimmer, Slimmest -- 産業用超解ネットワークの設計

Bicubic++: Slim, Slimmer, Slimmest -- Designing an Industry-Grade Super-Resolution Network ( http://arxiv.org/abs/2305.02126v1 )

ライセンス: Link先を確認
Bahri Batuhan Bilecen, Mustafa Ayazoglu(参考訳) 本稿では,Bicubic++というリアルタイムかつ軽量な単一画像超解像(SR)ネットワークを提案する。 入力画像の空間次元をネットワーク全体にわたって用いながら、Bicubic++はまず、計算回数を減らすために、画像の高速で可逆的なダウングレードと低解像度の特徴を学習する。 また,大規模化や勾配ノルムなどの指標を使わずに,畳み込み層を終端から終端までのグローバルな構造化プルーニングを適用し,評価セット上でのプルーンドネットワークのPSNRの最適化に重点を置いている。 さらに,PSNRを極端に増加させながら,バイアス項がランタイムのかなりの量を占めることを示したので,畳み込み層にもバイアス除去を適用した。 提案手法では,試験されたすべてのSRデータセットに対して,ビックビックアップスケーリングPSNRで1dB,RTX3090で1.17ms,RTX3070で2.9ms,FP16精度で720p入力と4K出力をそれぞれ追加する。 Bicubic++ は NTIRE 2023 RTSR Track 2 x3 SR コンペティションで優勝し、全ての競争手法の中で最速となった。 標準のBicubic Upsamplingメソッドとほぼ同じ速さで、Bicubic++は新しい業界標準を設定できると考えています。

We propose a real-time and lightweight single-image super-resolution (SR) network named Bicubic++. Despite using spatial dimensions of the input image across the whole network, Bicubic++ first learns quick reversible downgraded and lower resolution features of the image in order to decrease the number of computations. We also construct a training pipeline, where we apply an end-to-end global structured pruning of convolutional layers without using metrics like magnitude and gradient norms, and focus on optimizing the pruned network's PSNR on the validation set. Furthermore, we have experimentally shown that the bias terms take considerable amount of the runtime while increasing PSNR marginally, hence we have also applied bias removal to the convolutional layers. Our method adds ~1dB on Bicubic upscaling PSNR for all tested SR datasets and runs with ~1.17ms on RTX3090 and ~2.9ms on RTX3070, for 720p inputs and 4K outputs, both in FP16 precision. Bicubic++ won NTIRE 2023 RTSR Track 2 x3 SR competition and is the fastest among all competitive methods. Being almost as fast as the standard Bicubic upsampling method, we believe that Bicubic++ can set a new industry standard.
翻訳日:2023-05-04 14:46:38 公開日:2023-05-03
# 知識ベース質問応答のための関係探索にもっと注意を払う

Pay More Attention to Relation Exploration for Knowledge Base Question Answering ( http://arxiv.org/abs/2305.02118v1 )

ライセンス: Link先を確認
Yong Cao, Xianzhi Li, Huiwen Liu, Wen Dai, Shuai Chen, Bin Wang, Min Chen and Daniel Hershcovich(参考訳) 知識ベース質問応答(KBQA)は,大規模知識ベースから正しい回答を取得することを目的とした課題である。 既存の試みは、主にエンティティ表現と最終回答推論にフォーカスしており、このタスクの監督は限られている。 また、近年の進歩において、推論経路の選択を実証的に決定する関係は十分に考慮されていない。 本研究では,知識ベースにおける関係を利用してエンティティ表現を強化し,追加の監督を行う新しいフレームワークRE-KBQAを提案する。 本研究は,(1)変動グラフオートエンコーダを用いて関係の重要性を学習すること,(2)ソフトラベルとしての関係分布をマルチタスク方式で予測することによる余分な監督,(3)事後処理のための関係誘導再ランキングアルゴリズムを設計すること,の3つの側面から,関係からの指導について検討する。 2つのベンチマークデータセットにおける実験結果から,f1スコアをcwqでは40.5から46.3に5.7%改善し,webqspでは62.8から68.5に5.8%改善した。

Knowledge base question answering (KBQA) is a challenging task that aims to retrieve correct answers from large-scale knowledge bases. Existing attempts primarily focus on entity representation and final answer reasoning, which results in limited supervision for this task. Moreover, the relations, which empirically determine the reasoning path selection, are not fully considered in recent advancements. In this study, we propose a novel framework, RE-KBQA, that utilizes relations in the knowledge base to enhance entity representation and introduce additional supervision. We explore guidance from relations in three aspects, including (1) distinguishing similar entities by employing a variational graph auto-encoder to learn relation importance; (2) exploring extra supervision by predicting relation distributions as soft labels with a multi-task scheme; (3) designing a relation-guided re-ranking algorithm for post-processing. Experimental results on two benchmark datasets demonstrate the effectiveness and superiority of our framework, improving the F1 score by 5.7% from 40.5 to 46.3 on CWQ and 5.8% from 62.8 to 68.5 on WebQSP, better or on par with state-of-the-art methods.
翻訳日:2023-05-04 14:46:11 公開日:2023-05-03
# 非対称量子意思決定

Asymmetric quantum decision-making ( http://arxiv.org/abs/2305.02117v1 )

ライセンス: Link先を確認
Honoka Shiratori, Hiroaki Shinkawa, Andr\'e R\"ohm, Nicolas Chauvet, Etsuo Segawa, Jonathan Laurent, Guillaume Bachelier, Tomoki Yamagami, Ryoichi Horisaki, Makoto Naruse(参考訳) 集団意思決定は情報と通信システムにとって不可欠である。 エージェント間の決定的衝突は、システム全体の潜在的ユーティリティの最大化を妨げる。 量子プロセスは、光子の絡み合いや軌道角運動量(oam)の量子干渉を用いて、2つのエージェント間の衝突のない共同決定を実現できる。 しかし、従来の研究は対称的な結果の合同決定を常に示してきた。 この性質は平等を維持し維持するのに役立つが、格差を解決できない。 倫理や公平といったグローバルな課題は、責任ある人工知能の分野において責任ある研究と革新のパラダイムとして認識されている。 したがって、意思決定システムは、既存の平等を守るだけでなく、格差に取り組む必要がある。 本研究は、oamや絡み合った光子の量子干渉を利用した非対称集団意思決定を理論的および数値的に検討する。 非対称性は成功するが、提案されたモデルでは光子損失は避けられない。 非対称性の可利用範囲と所望の非対称性の次数を求める方法が解析的に定式化される。

Collective decision-making is crucial to information and communication systems. Decision conflicts among agents hinder the maximization of potential utilities of the entire system. Quantum processes can realize conflict-free joint decisions among two agents using the entanglement of photons or quantum interference of orbital angular momentum (OAM). However, previous studies have always presented symmetric resultant joint decisions. Although this property helps maintain and preserve equality, it cannot resolve disparities. Global challenges, such as ethics and equity, are recognized in the field of responsible artificial intelligence as responsible research and innovation paradigm. Thus, decision-making systems must not only preserve existing equality but also tackle disparities. This study theoretically and numerically investigates asymmetric collective decision-making using quantum interference of photons carrying OAM or entangled photons. Although asymmetry is successfully realized, a photon loss is inevitable in the proposed models. The available range of asymmetry and method for obtaining the desired degree of asymmetry are analytically formulated.
翻訳日:2023-05-04 14:45:49 公開日:2023-05-03
# 深層幾何学習による空力形状最適化の自動パラメータ化

Automatic Parameterization for Aerodynamic Shape Optimization via Deep Geometric Learning ( http://arxiv.org/abs/2305.02116v1 )

ライセンス: Link先を確認
Zhen Wei and Pascal Fua and Micha\"el Bauerheim(参考訳) 空力形状最適化のための形状パラメータ化を完全に自動化する2つの深層学習モデルを提案する。 どちらのモデルも、学習された幾何学パターンに人間の事前知識を埋め込むために深い幾何学的学習を通じてパラメータ化するように最適化されており、さらなる手作りの必要性をなくしている。 ラテント・スペース・モデル(LSM)は、様々なジオメトリのデータセットからオブジェクトの低次元ラテント表現を学習し、ダイレクトマッピング・モデル(DMM)は1つの幾何学のみを用いて、ハエのパラメータ化を構築する。 また,体積メッシュ変形をパラメータ化モデルに効率的に統合する新しい正規化損失を考案する。 モデルは、移動頂点によって高次元メッシュデータを直接操作する。 LSMとDMMは完全に差別化可能であり、勾配に基づくエンドツーエンドパイプライン設計と、サロゲートモデルや随伴ソルバのプラグアンドプレイ展開を可能にする。 2次元翼の形状最適化実験を行い,その適用シナリオについて考察した。

We propose two deep learning models that fully automate shape parameterization for aerodynamic shape optimization. Both models are optimized to parameterize via deep geometric learning to embed human prior knowledge into learned geometric patterns, eliminating the need for further handcrafting. The Latent Space Model (LSM) learns a low-dimensional latent representation of an object from a dataset of various geometries, while the Direct Mapping Model (DMM) builds parameterization on the fly using only one geometry of interest. We also devise a novel regularization loss that efficiently integrates volumetric mesh deformation into the parameterization model. The models directly manipulate the high-dimensional mesh data by moving vertices. LSM and DMM are fully differentiable, enabling gradient-based, end-to-end pipeline design and plug-and-play deployment of surrogate models or adjoint solvers. We perform shape optimization experiments on 2D airfoils and discuss the applicable scenarios for the two models.
翻訳日:2023-05-04 14:45:37 公開日:2023-05-03
# 量子ランダムウォークを用いた四頂点周期における任意の単一量子状態の量子状態移動の実験的研究

Experimental quantum state transfer of an arbitrary single-qubit state on a cycle with four vertices using a coined quantum random walk ( http://arxiv.org/abs/2305.02106v1 )

ライセンス: Link先を確認
Gayatri Singh and Kavita Dorai and Arvind(参考訳) 4量子ビット核磁気共鳴量子プロセッサ上の4つの頂点を持つサイクル上の2段階の離散時間量子ランダムウォークによって、aliceからbobへの未知の単一量子ビット状態の転送を実験的に実証する。 アリスとボブのキュービットはコインキュービットとして使用され、ウォークは2キュービットの 'gaming arena' で実行される。 このスキームでは、必要な絡み合い状態は、事前に準備するのではなく、量子ウォーク中に条件シフト演算子を介して自然に生成される。 我々は,alice のコイン qubit と arena qubits によって制御されるbob's end で制御演算子を実装し,alice のランダム生成状態をbob's end で再構成する。 状態伝達過程を特徴づけるために、入力状態の集合である$\{ \vert 0\rangle, \vert 1\rangle, \vert +\rangle, \vert -\rangle \}$の実験を繰り返して量子プロセストモグラフィーを行う。 エンタングルメント証人を用いて、量子ウォークが4つの量子ビットの完全な四角い状態を生成することを証明した。 転送方式の有効性を評価するため, 量子状態トモグラフィーを用いて, 実験的に再構成された4量子密度行列の3量子基底状態への投影を計算することにより, 転送状態の再構成を行う。 その結果、量子回路は2段階の量子ランダムウォークによって高い忠実度で量子状態伝達を行うことができることを示した。

We experimentally demonstrate the transfer of an unknown single-qubit state from Alice to Bob via a two-step discrete-time quantum random walk on a cycle with four vertices on a four-qubit nuclear magnetic resonance quantum processor. The qubits with Alice and Bob are used as coin qubits and the walk is carried out on in a two-qubit `Gaming Arena'. In this scheme, the required entangled state is generated naturally via conditional shift operators during the quantum walk, instead of being prepared in advance. We implement controlled operators at Bob's end, which are controlled by Alice's coin qubit and arena qubits, in order to reconstruct Alice's randomly generated state at Bob's end. To characterize the state transfer process, we perform quantum process tomography by repeating the experiment for a set of input states $\{ \vert 0\rangle, \vert 1\rangle, \vert +\rangle, \vert -\rangle \}$. Using an entanglement witness, we certify that the quantum walk generates a genuine quadripartite entangled state of all four qubits. To evaluate the efficacy of the transfer scheme, We use quantum state tomography to reconstruct the transferred state by calculating the projection of the experimentally reconstructed four-qubit density matrix onto three-qubit basis states. Our results demonstrate that the quantum circuit is able to perform quantum state transfer via the two-step quantum random walk with high fidelity.
翻訳日:2023-05-04 14:45:19 公開日:2023-05-03
# GPT-RE:大規模言語モデルを用いた関係抽出のための文脈内学習

GPT-RE: In-context Learning for Relation Extraction using Large Language Models ( http://arxiv.org/abs/2305.02105v1 )

ライセンス: Link先を確認
Zhen Wan, Fei Cheng, Zhuoyuan Mao, Qianying Liu, Haiyue Song, Jiwei Li, Sadao Kurohashi(参考訳) 大規模な言語モデル(例えばGPT-3)によって提供される画期的な成果の可能性があるにもかかわらず、関係抽出(RE)において完全に教師されたベースライン(例えば細調整されたBERT)を大きく遅れている。 これは、reにおけるllmの2つの大きな欠点が原因である: (1) 文脈内学習のための検索されたデモンストレーションにおけるエンティティと関係に関する関連性が低い、(2) ヌル例を他の事前定義されたラベルに誤って分類する強い傾向。 本稿では,LPMと完全教師付きベースラインのギャップを埋めるためのGPT-REを提案する。 gpt-reは,(1)実演検索におけるタスク固有実体表現の導入,(2)ゴールドラベル推論論理による実演の充実により,上記の課題にうまく対処した。 広範に使用されている4つのREデータセット上でGPT-REを評価し、GPT-REが既存のGPT-3ベースラインだけでなく、完全に教師されたベースラインよりも改善されていることを観察した。 具体的には、GPT-REはSemevalデータセットとSciERCデータセットのSOTAパフォーマンス、TACREDデータセットとACE05データセットの競合パフォーマンスを実現している。

In spite of the potential for ground-breaking achievements offered by large language models (LLMs) (e.g., GPT-3), they still lag significantly behind fully-supervised baselines (e.g., fine-tuned BERT) in relation extraction (RE). This is due to the two major shortcomings of LLMs in RE: (1) low relevance regarding entity and relation in retrieved demonstrations for in-context learning; and (2) the strong inclination to wrongly classify NULL examples into other pre-defined labels. In this paper, we propose GPT-RE to bridge the gap between LLMs and fully-supervised baselines. GPT-RE successfully addresses the aforementioned issues by (1) incorporating task-specific entity representations in demonstration retrieval; and (2) enriching the demonstrations with gold label-induced reasoning logic. We evaluate GPT-RE on four widely-used RE datasets, and observe that GPT-RE achieves improvements over not only existing GPT-3 baselines, but also fully-supervised baselines. Specifically, GPT-RE achieves SOTA performances on the Semeval and SciERC datasets, and competitive performances on the TACRED and ACE05 datasets.
翻訳日:2023-05-04 14:44:50 公開日:2023-05-03
# 読解・関連・事実的生医学的要約の背景知識基盤化

Background Knowledge Grounding for Readable, Relevant, and Factual Biomedical Lay Summaries ( http://arxiv.org/abs/2305.02104v1 )

ライセンス: Link先を確認
Domenic Rosati(参考訳) 科学的な知見を公衆に伝えることは、救命医療などの発展を非専門家に知らせる上で重要である。 しかし、科学的文書から読みやすい要約を生成することは困難であり、現在これらの要約は重大な事実的誤りを被っている。 事実性を改善するための一般的な介入の1つは、事実の根拠を提供するために追加の外部知識を使用することである。 しかし,これらの接地資料の検索,選択,統合,補足的接地資料が生成した要約の可読性や関連性にどのような影響を及ぼすかは明らかでない。 提案手法は,ソース選択とソースドキュメントの統合のための簡易な手法である。 次に、BioLaySum要約データセットを用いて、異なる接地源が要約品質に与える影響を評価する。 ソース文書の接地は,要約の関連性と可読性は向上するが,要約の事実性は向上しないことがわかった。 ゼロショットの要約では、事実の要約ではグラウンドがさらに重要だと仮定している。

Communication of scientific findings to the public is important for keeping non-experts informed of developments such as life-saving medical treatments. However, generating readable lay summaries from scientific documents is challenging, and currently, these summaries suffer from critical factual errors. One popular intervention for improving factuality is using additional external knowledge to provide factual grounding. However, it is unclear how these grounding sources should be retrieved, selected, or integrated, and how supplementary grounding documents might affect the readability or relevance of the generated summaries. We develop a simple method for selecting grounding sources and integrating them with source documents. We then use the BioLaySum summarization dataset to evaluate the effects of different grounding sources on summary quality. We found that grounding source documents improves the relevance and readability of lay summaries but does not improve factuality of lay summaries. This continues to be true in zero-shot summarization settings where we hypothesized that grounding might be even more important for factual lay summaries.
翻訳日:2023-05-04 14:44:26 公開日:2023-05-03
# ScatterNeRF: 物理ベース逆ニューラルレンダリングによるファグを通しての観察

ScatterNeRF: Seeing Through Fog with Physically-Based Inverse Neural Rendering ( http://arxiv.org/abs/2305.02103v1 )

ライセンス: Link先を確認
Andrea Ramazzina, Mario Bijelic, Stefanie Walz, Alessandro Sanvito, Dominik Scheuble and Felix Heide(参考訳) 雪、雨、霧のいずれであっても、悪天候下での視界は困難である。 これらのシナリオでは、散乱と減衰は画質を著しく低下させる。 しかし、このような不適切な気象条件の処理は、人間のパフォーマンスが最も損なわれる自動運転車、ドローン、ロボットアプリケーションを操作するのに不可欠である。 大規模な作業は、デハザーズ方式で気象による画像劣化の除去を探求する。 ほとんどの手法は入力として単一画像に依存しており、完全な教師付きトレーニングアプローチから一般化したり、実世界のデータセットから高忠実度結果を生成するのに苦労している。 データはボトルネックとなり、今日のトレーニングデータのほとんどは不適切な気象条件に依存するため、シーンコンテンツを再構築するための逆レンダリングアプローチに依存しています。 ScatterNeRFは、霧のシーンを適切にレンダリングし、メディアから霧のない背景を分解するニューラルネットワークで、大規模なトレーニングデータコーパスを必要とせずに、短い自動車シーケンスから複数のビューを抽出する。 その代わり、レンダリングアプローチはマルチビューシーン自体に最適化されており、通常、運用中の自律車両、ロボット、ドローンによってキャプチャされる。 具体的には,散乱体積とシーンオブジェクトの絡み合った表現を提案し,物理に触発された損失によるシーン再構成を学習する。 マルチビューIn-the-Wildデータをキャプチャして,大規模な霧室内でのキャプチャを制御し,本手法の有効性を検証する。

Vision in adverse weather conditions, whether it be snow, rain, or fog is challenging. In these scenarios, scattering and attenuation severly degrades image quality. Handling such inclement weather conditions, however, is essential to operate autonomous vehicles, drones and robotic applications where human performance is impeded the most. A large body of work explores removing weather-induced image degradations with dehazing methods. Most methods rely on single images as input and struggle to generalize from synthetic fully-supervised training approaches or to generate high fidelity results from unpaired real-world datasets. With data as bottleneck and most of today's training data relying on good weather conditions with inclement weather as outlier, we rely on an inverse rendering approach to reconstruct the scene content. We introduce ScatterNeRF, a neural rendering method which adequately renders foggy scenes and decomposes the fog-free background from the participating media-exploiting the multiple views from a short automotive sequence without the need for a large training data corpus. Instead, the rendering approach is optimized on the multi-view scene itself, which can be typically captured by an autonomous vehicle, robot or drone during operation. Specifically, we propose a disentangled representation for the scattering volume and the scene objects, and learn the scene reconstruction with physics-inspired losses. We validate our method by capturing multi-view In-the-Wild data and controlled captures in a large-scale fog chamber.
翻訳日:2023-05-04 14:44:08 公開日:2023-05-03
# 何が良い一時停止になるのか? フィラーのターンホールディング効果の検討

What makes a good pause? Investigating the turn-holding effects of fillers ( http://arxiv.org/abs/2305.02101v1 )

ライセンス: Link先を確認
Bing'er Jiang, Erik Ekstedt, Gabriel Skantze(参考訳) uh" や "um" のような充満したポーズ(またはフィラー)は、自発的なスピーチで頻繁に行われ、リスナーのターンホールディングキューとして機能し、現在の話者がまだ実行されていないことを示す。 本稿では,会話のダイナミクスを予測するために訓練された深層学習モデルであるVAP(Voice Activity Projection)モデルを用いて,想定されるターンホールド確率に対するポーズが与える影響を分析する。 その結果、充填された一時停止は実際にはターンホールディング効果を持つが、おそらく他の手がかりの冗長性のため、期待できるほど強くはないことが判明した。 また,フィラーの韻律的性質と位置がターンホールド確率に大きな影響を与えることがわかった。 しかしながら、先行研究で示唆されたものとは対照的に、この点において「uh」と「um」の間には差がない。

Filled pauses (or fillers), such as "uh" and "um", are frequent in spontaneous speech and can serve as a turn-holding cue for the listener, indicating that the current speaker is not done yet. In this paper, we use the recently proposed Voice Activity Projection (VAP) model, which is a deep learning model trained to predict the dynamics of conversation, to analyse the effects of filled pauses on the expected turn-hold probability. The results show that, while filled pauses do indeed have a turn-holding effect, it is perhaps not as strong as could be expected, probably due to the redundancy of other cues. We also find that the prosodic properties and position of the filler has a significant effect on the turn-hold probability. However, contrary to what has been suggested in previous work, there is no difference between "uh" and "um" in this regard.
翻訳日:2023-05-04 14:43:44 公開日:2023-05-03
# 近似量子誤差補正、共分散対称性とその関係

Approximate quantum error correction, covariance symmetry and their relation ( http://arxiv.org/abs/2305.02162v1 )

ライセンス: Link先を確認
Hao Dai(参考訳) 信頼性の高い量子計算を行うには、量子誤差補正が不可欠である。 ある場合には、物理系の連続共分散対称性は正確な誤差補正を不可能にすることがある。 本研究では,情報理論の観点から近似誤差補正と共分散対称性について検討する。 一般符号化とノイズチャネルに対して、近似量子誤差補正の性能を特徴づける不忠実な値を定義し、対応するチョイ状態の非対称性測度から符号化チャネルの非共分散を定量化する。 特に、符号化チャネルが等方性である場合、不確かさと非共分散の間のトレードオフ関係を導出する。 さらに、ランダムコードの種類に対する平均不忠実性と非共分散測度を計算する。

To perform reliable quantum computation, quantum error correction is indispensable. In certain cases, continuous covariance symmetry of the physical system can make exact error correction impossible. In this work, we study the approximate error correction and covariance symmetry from the information-theoretic perspective. For general encoding and noise channels, we define a quantity named infidelity to characterize the performance of the approximate quantum error correction and quantify the noncovariance of an encoding channel from the asymmetry measure of the corresponding Choi state. Particularly, when the encoding channel is isometric, we derive a trade-off relation between infidelity and noncovariance. Furthermore, we calculate the average infidelity and noncovariance measure for a type of random code.
翻訳日:2023-05-04 14:37:26 公開日:2023-05-03
# 高速概念を用いた言語モデルの予測

Explaining Language Models' Predictions with High-Impact Concepts ( http://arxiv.org/abs/2305.02160v1 )

ライセンス: Link先を確認
Ruochen Zhao, Shafiq Joty, Yongjie Wang, Tan Wang(参考訳) 大規模事前学習された言語モデルの出現は、モデルがなぜいくつかの予測をしたのかを説明する上で、前例のない課題となった。 言語の構成の性質からすると、突発的な相関はNLPシステムの信頼性をさらに低下させ、単に出力予測と相関した信頼性の低いモデル説明につながった。 公平さと透明性を促進するために、ユーザがモデルの振る舞いを一貫して理解できるように、信頼できる説明を求める緊急の要求がある。 本研究では,概念に基づく解釈可能性手法をNLPに拡張するための完全なフレームワークを提案する。 具体的には,事前学習したモデルの隠れレイヤアクティベーションから予測高レベル特徴(概念)を抽出するポストホック解釈法を提案する。 我々は,出力予測が大幅に変化するような特徴を最適化する。 さらに、普遍的に適用可能ないくつかの評価指標を考案する。 実および合成タスクに関する広範な実験により,本手法は,ベースラインと比較して,予測的影響,ユーザビリティ,忠実性において優れた結果が得られることが示された。

The emergence of large-scale pretrained language models has posed unprecedented challenges in deriving explanations of why the model has made some predictions. Stemmed from the compositional nature of languages, spurious correlations have further undermined the trustworthiness of NLP systems, leading to unreliable model explanations that are merely correlated with the output predictions. To encourage fairness and transparency, there exists an urgent demand for reliable explanations that allow users to consistently understand the model's behavior. In this work, we propose a complete framework for extending concept-based interpretability methods to NLP. Specifically, we propose a post-hoc interpretability method for extracting predictive high-level features (concepts) from the pretrained model's hidden layer activations. We optimize for features whose existence causes the output predictions to change substantially, \ie generates a high impact. Moreover, we devise several evaluation metrics that can be universally applied. Extensive experiments on real and synthetic tasks demonstrate that our method achieves superior results on {predictive impact}, usability, and faithfulness compared to the baselines.
翻訳日:2023-05-04 14:37:16 公開日:2023-05-03
# 機械学習形成エネルギーを用いたショットガン結晶構造予測

Shotgun crystal structure prediction using machine-learned formation energies ( http://arxiv.org/abs/2305.02158v1 )

ライセンス: Link先を確認
Chang Liu (1), Hiromasa Tamaki (2), Tomoyasu Yokoyama (2), Kensuke Wakasugi (2), Satoshi Yotsuhashi (2), Minoru Kusaba (1), Ryo Yoshida (1, 3 and 4) ((1) The Institute of Statistical Mathematics, (2) Panasonic Holdings Corporation, (3) National Institute for Materials Science, (4) The Graduate University for Advanced Studies)(参考訳) 組み立てられた原子の安定あるいは準安定な結晶構造は、原子配置に関してエネルギー表面の大域的または局所的なミニマを見つけることで予測できる。 一般に、これは単位セルに30個以上の原子を含むような大きなシステムでは実用的でない第一原理エネルギー計算を繰り返す必要がある。 そこで我々は, 簡単な機械学習ワークフローを用いて, 結晶構造予測問題の解決に多大な進歩を遂げた; 第一原理エネルギー計算に機械学習サロゲートを用いて, 仮想的に生成した結晶構造の大規模なライブラリを用いて, 非定位単発スクリーニングを行った。 本手法は, 第一原理計算から得られた少数のトレーニングサンプルのみを用いて, 結晶前状態の高精度なエネルギー予測を可能にする伝達学習と, 有望かつ多種多様な結晶構造をスクリーニングするための生成モデルである。 ここでは、トレーニングサンプルの生成と、最終的に狭くなった結晶構造の最適化のために、第一原理計算を行った。 ショットガン法は計算要求の5~10倍以下であり, 逐次第一原理計算に大きく依存する従来の手法の2~6倍の精度で予測精度が向上した。

Stable or metastable crystal structures of assembled atoms can be predicted by finding the global or local minima of the energy surface with respect to the atomic configurations. Generally, this requires repeated first-principles energy calculations that are impractical for large systems, such as those containing more than 30 atoms in the unit cell. Here, we have made significant progress in solving the crystal structure prediction problem with a simple but powerful machine-learning workflow; using a machine-learning surrogate for first-principles energy calculations, we performed non-iterative, single-shot screening using a large library of virtually created crystal structures. The present method relies on two key technical components: transfer learning, which enables a highly accurate energy prediction of pre-relaxed crystalline states given only a small set of training samples from first-principles calculations, and generative models to create promising and diverse crystal structures for screening. Here, first-principles calculations were performed only to generate the training samples, and for the optimization of a dozen or fewer finally narrowed-down crystal structures. Our shotgun method was more than 5--10 times less computationally demanding and achieved an outstanding prediction accuracy that was 2--6 times higher than that of the conventional methods that rely heavily on iterative first-principles calculations.
翻訳日:2023-05-04 14:36:58 公開日:2023-05-03
# 大規模言語モデルを用いたゼロショットリストワイド文書の改訂

Zero-Shot Listwise Document Reranking with a Large Language Model ( http://arxiv.org/abs/2305.02156v1 )

ライセンス: Link先を確認
Xueguang Ma, Xinyu Zhang, Ronak Pradeep, Jimmy Lin(参考訳) バイエンコーダまたはクロスエンコーダアーキテクチャに基づく教師付きランキング手法は、多段階テキストランキングタスクの成功を示しているが、トレーニングデータとして大量の関連性判断を必要とする。 本研究では,タスク固有のトレーニングデータを用いることなく,高いランク付け効率を実現するLarge Language Model (LRL) を用いたリスワイズ・リランカを提案する。 既存のポイントワイドランキング法とは異なり、文書は独立してスコアに従ってランク付けされ、LRLは候補文書に与えられた文書識別子の並べ替えリストを直接生成する。 3つのTRECウェブサーチデータセットの実験により、LRLは第1段階の検索結果の再ランク付け時にゼロショットポイントワイズ法より優れるだけでなく、最終段階のリランカとして機能し、ポイントワイズ法の上位ランク付け結果を改善することで効率を向上することを示した。 さらに、最近の多言語検索データセットであるMIRACLのサブセットにアプローチを適用し、異なる言語にまたがる一般化の可能性を示す。

Supervised ranking methods based on bi-encoder or cross-encoder architectures have shown success in multi-stage text ranking tasks, but they require large amounts of relevance judgments as training data. In this work, we propose Listwise Reranker with a Large Language Model (LRL), which achieves strong reranking effectiveness without using any task-specific training data. Different from the existing pointwise ranking methods, where documents are scored independently and ranked according to the scores, LRL directly generates a reordered list of document identifiers given the candidate documents. Experiments on three TREC web search datasets demonstrate that LRL not only outperforms zero-shot pointwise methods when reranking first-stage retrieval results, but can also act as a final-stage reranker to improve the top-ranked results of a pointwise method for improved efficiency. Additionally, we apply our approach to subsets of MIRACL, a recent multilingual retrieval dataset, with results showing its potential to generalize across different languages.
翻訳日:2023-05-04 14:36:36 公開日:2023-05-03
# 多言語表現空間における言語距離と言語間移動の関係の同定

Identifying the Correlation Between Language Distance and Cross-Lingual Transfer in a Multilingual Representation Space ( http://arxiv.org/abs/2305.02151v1 )

ライセンス: Link先を確認
Fred Philippy, Siwen Guo, Shohreh Haddadan(参考訳) 先行研究は、言語的特徴が言語間伝達性能に与える影響を調査した。 本研究では,この効果を表現空間にマッピングする方法を検討する。 過去の研究は、微調整中の多言語モデルにおける言語間アライメントの影響に焦点を当ててきたが、MLLMによって生成された言語表現空間の絶対的な進化について検討した。 言語特性の役割を特に強調し,それらの相互関係が表現空間と言語間伝達性能に与える影響について検討する。 さらに,言語的に離れた言語への移動を促進するために,これらの知見をどのように活用できるかを予備的な証拠として提示する。

Prior research has investigated the impact of various linguistic features on cross-lingual transfer performance. In this study, we investigate the manner in which this effect can be mapped onto the representation space. While past studies have focused on the impact on cross-lingual alignment in multilingual language models during fine-tuning, this study examines the absolute evolution of the respective language representation spaces produced by MLLMs. We place a specific emphasis on the role of linguistic characteristics and investigate their inter-correlation with the impact on representation spaces and cross-lingual transfer performance. Additionally, this paper provides preliminary evidence of how these findings can be leveraged to enhance transfer to linguistically distant languages.
翻訳日:2023-05-04 14:36:16 公開日:2023-05-03
# 細胞レベルでの機能組織単位の半監督的セグメンテーション

Semi-Supervised Segmentation of Functional Tissue Units at the Cellular Level ( http://arxiv.org/abs/2305.02148v1 )

ライセンス: Link先を確認
Volodymyr Sydorskyi, Igor Krashenyi, Denis Savka and Oleksandr Zarichkovyi(参考訳) 本稿では,最新の深層学習セマンティックセマンティックセマンティクスアプローチと,ドメイン適応と半教師付き学習技術を用いた,細胞レベルでの機能組織単位セマンティクスの新しい手法を提案する。 このアプローチにより、ドメインギャップの最小化、クラス不均衡、HPAとHubMAPデータセット間の設定の影響のキャプチャが可能になる。 提案手法は, 細胞レベルでの機能的組織単位のセグメンテーションにおける現状と同等である。 ソースコードはhttps://github.com/VSydorskyy/hubmap_2022_htt_solutionで入手できる。

We present a new method for functional tissue unit segmentation at the cellular level, which utilizes the latest deep learning semantic segmentation approaches together with domain adaptation and semi-supervised learning techniques. This approach allows for minimizing the domain gap, class imbalance, and captures settings influence between HPA and HubMAP datasets. The presented approach achieves comparable with state-of-the-art-result in functional tissue unit segmentation at the cellular level. The source code is available at https://github.com/VSydorskyy/hubmap_2022_htt_solution
翻訳日:2023-05-04 14:36:03 公開日:2023-05-03
# progdtd: ダブルテールドロップトレーニングによるプログレッシブ学習画像圧縮

ProgDTD: Progressive Learned Image Compression with Double-Tail-Drop Training ( http://arxiv.org/abs/2305.02145v1 )

ライセンス: Link先を確認
Ali Hojjat, Janek Haberer, Olaf Landsiedel(参考訳) プログレッシブ圧縮により、画像は低解像度バージョンとしてロードされ始め、より多くのデータが受信されるとより明確になる。 これにより、例えばネットワーク接続が遅い場合にユーザエクスペリエンスが向上する。 現在、画像圧縮のほとんどのアプローチ(古典的・学習的手法)は非プログレッシブに設計されている。 本稿では,学習中の非プログレッシブ画像圧縮アプローチをプログレッシブ画像に変換するトレーニング手法であるprogdtdを提案する。 ProgDTDの設計は、圧縮モデルのボトルネックに格納されている情報が一般的に重要度が異なるという観察に基づいている。 プログレッシブ圧縮モデルを作成するために、ProgDTDはトレーニングステップを変更して、優先順位でソートされたボトルネックにデータを格納するようにモデルを強制する。 ソートされたインデックスの順にデータを送信することで、プログレッシブ圧縮を実現する。 ProgDTDはCNNベースの学習画像圧縮モデル用に設計されており、追加のパラメータを必要としない。 評価のために、progdtdを学習画像圧縮における最も一般的な構造の1つであるハイパープリオールモデルに適用する。 実験の結果,progdtdはその非プログレッシブモデルと,ms-ssimと精度の点で最先端のプログレッシブモデルとを両立できることがわかった。

Progressive compression allows images to start loading as low-resolution versions, becoming clearer as more data is received. This increases user experience when, for example, network connections are slow. Today, most approaches for image compression, both classical and learned ones, are designed to be non-progressive. This paper introduces ProgDTD, a training method that transforms learned, non-progressive image compression approaches into progressive ones. The design of ProgDTD is based on the observation that the information stored within the bottleneck of a compression model commonly varies in importance. To create a progressive compression model, ProgDTD modifies the training steps to enforce the model to store the data in the bottleneck sorted by priority. We achieve progressive compression by transmitting the data in order of its sorted index. ProgDTD is designed for CNN-based learned image compression models, does not need additional parameters, and has a customizable range of progressiveness. For evaluation, we apply ProgDTDto the hyperprior model, one of the most common structures in learned image compression. Our experimental results show that ProgDTD performs comparably to its non-progressive counterparts and other state-of-the-art progressive models in terms of MS-SSIM and accuracy.
翻訳日:2023-05-04 14:35:53 公開日:2023-05-03
# ganonymization: 感情表現を保存するためのganベースの顔匿名化フレームワーク

GANonymization: A GAN-based Face Anonymization Framework for Preserving Emotional Expressions ( http://arxiv.org/abs/2305.02143v1 )

ライセンス: Link先を確認
Fabio Hellmann, Silvan Mertes, Mohamed Benouis, Alexander Hustinx, Tzung-Chien Hsieh, Cristina Conati, Peter Krawitz, Elisabeth Andr\'e(参考訳) 近年、個人情報の入手が増加し、プライバシーとセキュリティに関する懸念が高まっている。 これらの懸念に対処する重要なプロセスの1つは、個人のプライバシーを保護し、機密情報の公開を防止することを目的とした、データ匿名化である。 本研究は顔の匿名化の重要性に焦点を当てる。 そこで,顔表情保存機能を備えた顔匿名化フレームワークであるGANonymizationを導入する。 本手法は,gan(generative adversarial network)に基づく匿名化バージョンに合成された顔の高レベル表現に基づいている。 本手法の有効性を,特定可能な顔属性を除去し,個々の顔の匿名性を高めることにより評価した。 また,感情認識データセットで表情保存性能を評価し,ほとんどのカテゴリで最先端の手法を上回った。 最後に,ジュエリー,ヘアカラー,その他複数の顔特徴を除去できる能力について分析した。 ここでは,これらの属性の除去において,信頼性の高い性能を示す。 以上の結果から,顔表情を保ちながら顔の匿名化に期待できるアプローチであることが示唆された。

In recent years, the increasing availability of personal data has raised concerns regarding privacy and security. One of the critical processes to address these concerns is data anonymization, which aims to protect individual privacy and prevent the release of sensitive information. This research focuses on the importance of face anonymization. Therefore, we introduce GANonymization, a novel face anonymization framework with facial expression-preserving abilities. Our approach is based on a high-level representation of a face which is synthesized into an anonymized version based on a generative adversarial network (GAN). The effectiveness of the approach was assessed by evaluating its performance in removing identifiable facial attributes to increase the anonymity of the given individual face. Additionally, the performance of preserving facial expressions was evaluated on several affect recognition datasets and outperformed the state-of-the-art method in most categories. Finally, our approach was analyzed for its ability to remove various facial traits, such as jewelry, hair color, and multiple others. Here, it demonstrated reliable performance in removing these attributes. Our results suggest that GANonymization is a promising approach for anonymizing faces while preserving facial expressions.
翻訳日:2023-05-04 14:35:27 公開日:2023-05-03
# ロバスト損失関数のカリキュラムビュー

A Curriculum View of Robust Loss Functions ( http://arxiv.org/abs/2305.02139v1 )

ライセンス: Link先を確認
Zebin Ou, Yue Zhang(参考訳) ロバスト損失関数はラベルノイズの悪影響に対処するために設計されており、その頑健さはトレーニング力学に非依存な理論的境界によって支えられる。 しかしながら、これらの境界は、ロバストな損失関数が不適合な理由がまだ不明であるため、経験的性能を特徴づけることができないかもしれない。 ほとんどの損失関数は、同じクラススコアマージンと異なるサンプル重み付け関数を持つ形式に書き換えることができることを示す。 結果として得られたカリキュラムビューは、トレーニングダイナミクスの簡単な分析を提供し、クリーンなサンプルに対する平均的なサンプルウェイトとノイズロバスト性の低下に対する属性の適合を支援する。 カリキュラムの簡単な修正は、最先端技術と競合するロバストなロス関数を不適合にし、トレーニングスケジュールがロバストなロス関数であっても、ロバストなロス関数に大きな影響を及ぼすことを示した。 コードは \url{github} で入手できる。

Robust loss functions are designed to combat the adverse impacts of label noise, whose robustness is typically supported by theoretical bounds agnostic to the training dynamics. However, these bounds may fail to characterize the empirical performance as it remains unclear why robust loss functions can underfit. We show that most loss functions can be rewritten into a form with the same class-score margin and different sample-weighting functions. The resulting curriculum view provides a straightforward analysis of the training dynamics, which helps attribute underfitting to diminished average sample weights and noise robustness to larger weights for clean samples. We show that simple fixes to the curriculums can make underfitting robust loss functions competitive with the state-of-the-art, and training schedules can substantially affect the noise robustness even with robust loss functions. Code is available at \url{github}.
翻訳日:2023-05-04 14:35:10 公開日:2023-05-03
# Oatmealがチープな理由:Kolmogorovの複雑さと手続き生成

Why Oatmeal is Cheap: Kolmogorov Complexity and Procedural Generation ( http://arxiv.org/abs/2305.02131v1 )

ライセンス: Link先を確認
Youn\`es Rabii and Michael Cook(参考訳) プロシージャ生成はゲーム開発者の間で人気があるが、このトピックに関する学術研究は主に新しい応用に焦点を当てており、経験分析の研究もある。 本稿では,情報理論における理論的研究とゲームコンテンツの生成について述べる。 生成元が生成できる最も複雑なアーティファクトのコロモゴロフ複雑性と、生成元の可能性空間のサイズとの間には関係があることを証明する。 そこで我々は, 生成物に符号化された知識, 出力空間の密度, 生成する人工物の複雑さの制限関係を同定する。 本結果は,プロシージャジェネレータの設計者の経験と関係し,いくつかの例で解説する。

Although procedural generation is popular among game developers, academic research on the topic has primarily focused on new applications, with some research into empirical analysis. In this paper we relate theoretical work in information theory to the generation of content for games. We prove that there is a relationship between the Kolomogorov complexity of the most complex artifact a generator can produce, and the size of that generator's possibility space. In doing so, we identify the limiting relationship between the knowledge encoded in a generator, the density of its output space, and the intricacy of the artifacts it produces. We relate our result to the experience of expert procedural generator designers, and illustrate it with some examples.
翻訳日:2023-05-04 14:34:53 公開日:2023-05-03
# ニューラルラジオメトリック前駆体を用いた逆大域照明

Inverse Global Illumination using a Neural Radiometric Prior ( http://arxiv.org/abs/2305.02192v1 )

ライセンス: Link先を確認
Saeed Hadadan, Geng Lin, Jan Nov\'ak, Fabrice Rousselle, Matthias Zwicker(参考訳) グローバル照明を考慮した逆レンダリング手法が普及しているが、現在の手法では複数の光反射を追跡することで数百万の経路積分を評価し、自動的に微分する必要がある。 そこで本稿では,従来の微分可能経路トレーサに完全経路積分を構築するための簡易な代替として放射能前置法を提案する。 ニューラル・ラジオシティ・テクニックに触発されて、ニューラルネットワークを放射関数として使用し、逆レンダリング損失におけるレンダリング方程式の残差のノルムからなる事前構成を導入する。 輝度ネットワークを訓練し、レンダリングとマルチビュー入力画像の間の測光項と、放射能前兆(残差項)の両方からなる損失を用いて、シーンパラメータを同時に最適化する。 この残余項は、放射場が大域照明の責任を負うように最適化に物理的な制約を課す。 提案手法を,バニラ微分可能なパストレーサや,パス再生バックプロパゲーションなどの高度な手法と比較する。 このアプローチの単純さにもかかわらず、シーンパラメータを同等で、場合によっては品質が向上し、計算時間が大幅に短縮できる。

Inverse rendering methods that account for global illumination are becoming more popular, but current methods require evaluating and automatically differentiating millions of path integrals by tracing multiple light bounces, which remains expensive and prone to noise. Instead, this paper proposes a radiometric prior as a simple alternative to building complete path integrals in a traditional differentiable path tracer, while still correctly accounting for global illumination. Inspired by the Neural Radiosity technique, we use a neural network as a radiance function, and we introduce a prior consisting of the norm of the residual of the rendering equation in the inverse rendering loss. We train our radiance network and optimize scene parameters simultaneously using a loss consisting of both a photometric term between renderings and the multi-view input images, and our radiometric prior (the residual term). This residual term enforces a physical constraint on the optimization that ensures that the radiance field accounts for global illumination. We compare our method to a vanilla differentiable path tracer, and more advanced techniques such as Path Replay Backpropagation. Despite the simplicity of our approach, we can recover scene parameters with comparable and in some cases better quality, at considerably lower computation times.
翻訳日:2023-05-04 14:27:51 公開日:2023-05-03
# グラフ抽選チケットの再検討 - グラフのスパーシティが重要

Rethinking Graph Lottery Tickets: Graph Sparsity Matters ( http://arxiv.org/abs/2305.02190v1 )

ライセンス: Link先を確認
Bo Hui, Da Yan, Xiaolong Ma, Wei-Shinn Ku(参考訳) Lottery Ticket hypothesis (LTH) は、勝利のチケット(すなわち、元の重み付け初期化と共に適切に刈り上げられたサブネットワーク)の存在は、元の高密度ネットワークとの競合性能を達成することができると主張している。 UGSと呼ばれる最近の研究は、LTHをグラフニューラルネットワーク(GNN)に拡張し、GNN推論を効果的に高速化した。 ugsは同じマスキング機構を用いてグラフ隣接行列とモデル重みを同時にプルーピングするが、グラフ隣接行列と重み行列の役割は大きく異なるため、それらのスパース化によって異なる性能特性がもたらされることがわかった。 具体的には,グラフの間隔が一定を超えると,分散GNNの性能は著しく低下することがわかった。 そこで本研究では,グラフ間隔が高い場合のGNN性能を改善する2つの手法を提案する。 第一に、UGSは、損失定式化(英語版)を用いて、隣接行列のすべての要素を適切に含まないが、それに対して、隣接行列全体を巻き込むことにより、エッジプルーニングをより良く導くために、新しい補助的損失ヘッドを追加する。 第2に,不利なグラフスペーシフィケーションを逆データ摂動として扱うことにより,グラフスペーシリティが高い場合の抽選券のロバスト性を得るため,プルーニング処理をmin-max最適化問題として定式化する。 GNNの「制限可能な」勝利チケットは、グラフ転送学習にも有効か? これを転送可能なグラフ宝くじ(GLT)仮説と呼ぶ。 UGSよりもスペーシフィケーション法が優れていることを実証し, 転送可能なGLT仮説を実験的に検証した。

Lottery Ticket Hypothesis (LTH) claims the existence of a winning ticket (i.e., a properly pruned sub-network together with original weight initialization) that can achieve competitive performance to the original dense network. A recent work, called UGS, extended LTH to prune graph neural networks (GNNs) for effectively accelerating GNN inference. UGS simultaneously prunes the graph adjacency matrix and the model weights using the same masking mechanism, but since the roles of the graph adjacency matrix and the weight matrices are very different, we find that their sparsifications lead to different performance characteristics. Specifically, we find that the performance of a sparsified GNN degrades significantly when the graph sparsity goes beyond a certain extent. Therefore, we propose two techniques to improve GNN performance when the graph sparsity is high. First, UGS prunes the adjacency matrix using a loss formulation which, however, does not properly involve all elements of the adjacency matrix; in contrast, we add a new auxiliary loss head to better guide the edge pruning by involving the entire adjacency matrix. Second, by regarding unfavorable graph sparsification as adversarial data perturbations, we formulate the pruning process as a min-max optimization problem to gain the robustness of lottery tickets when the graph sparsity is high. We further investigate the question: Can the "retrainable" winning ticket of a GNN be also effective for graph transferring learning? We call it the transferable graph lottery ticket (GLT) hypothesis. Extensive experiments were conducted which demonstrate the superiority of our proposed sparsification method over UGS, and which empirically verified our transferable GLT hypothesis.
翻訳日:2023-05-04 14:27:30 公開日:2023-05-03
# CLUSTSEG: ユニバーサルセグメンテーションのためのクラスタリング

CLUSTSEG: Clustering for Universal Segmentation ( http://arxiv.org/abs/2305.02187v1 )

ライセンス: Link先を確認
James Liang, Tianfei Zhou, Dongfang Liu, Wenguan Wang(参考訳) 本稿では,様々な画像分割タスク(スーパーピクセル,セマンティクス,インスタンス,panopticなど)に取り組む,一般的なトランスフォーマティブベースのフレームワークであるclustsegを提案する。 1) クラスタセンタは、タスク固有の要求(例えば、インスタンスやカテゴリレベルの特徴性)に対して、アーキテクチャを変更することなく、明確に対処できるように、異種に初期化されている。 2) クロスアテンション方式で形式化された画素クラスタ割り当ては、クラスタセンター更新と代替されるが、追加パラメータは学習しない。 これらの革新はCLUSTSEGをEMクラスタリングに密接に結び付け、上記のセグメンテーションタスクで優れた結果をもたらす透過的で強力なフレームワークにする。

We present CLUSTSEG, a general, transformer-based framework that tackles different image segmentation tasks (i.e., superpixel, semantic, instance, and panoptic) through a unified neural clustering scheme. Regarding queries as cluster centers, CLUSTSEG is innovative in two aspects:1) cluster centers are initialized in heterogeneous ways so as to pointedly address task-specific demands (e.g., instance- or category-level distinctiveness), yet without modifying the architecture; and 2) pixel-cluster assignment, formalized in a cross-attention fashion, is alternated with cluster center update, yet without learning additional parameters. These innovations closely link CLUSTSEG to EM clustering and make it a transparent and powerful framework that yields superior results across the above segmentation tasks.
翻訳日:2023-05-04 14:26:58 公開日:2023-05-03
# 産業規模問題に対する量子インスパイア最適化

Quantum Inspired Optimization for Industrial Scale Problems ( http://arxiv.org/abs/2305.02179v1 )

ライセンス: Link先を確認
William P. Banner, Shima Bab Hadiashar, Grzegorz Mazur, Tim Menke, Marcin Ziolkowski, Ken Kennedy, Jhonathan Romero, Yudong Cao, Jeffrey A. Grover, William D. Oliver(参考訳) モデルに基づく最適化は、従来のブラックボックス手法と連動して、大規模な組合せ問題を迅速に解決することができる。 近年, テンソルネットワークに基づく量子インスピレーションド・モデリング手法が開発され, データセットの相関関係をよりよく同定し, 表現することができる。 本稿では,量子モデルに基づく最適化手法であるTN-GEOを用いて,現実的な問題に適用した場合のこれらの方法の有効性を評価する。 この場合、問題はBMWの現在使用されている製造スケジュールに基づく現実的な組立ラインの最適化である。 最適化手法の比較により,従来のブラックボックス法と組み合わせると,特定の文脈で低コストな解を見つけることができることがわかった。

Model-based optimization, in concert with conventional black-box methods, can quickly solve large-scale combinatorial problems. Recently, quantum-inspired modeling schemes based on tensor networks have been developed which have the potential to better identify and represent correlations in datasets. Here, we use a quantum-inspired model-based optimization method TN-GEO to assess the efficacy of these quantum-inspired methods when applied to realistic problems. In this case, the problem of interest is the optimization of a realistic assembly line based on BMW's currently utilized manufacturing schedule. Through a comparison of optimization techniques, we found that quantum-inspired model-based optimization, when combined with conventional black-box methods, can find lower-cost solutions in certain contexts.
翻訳日:2023-05-04 14:26:41 公開日:2023-05-03
# 視覚シーングラフから画像キャプションへの変換

Transforming Visual Scene Graphs to Image Captions ( http://arxiv.org/abs/2305.02177v1 )

ライセンス: Link先を確認
Xu Yang, Jiawei Peng, Zihua Wang, Haiyang Xu, Qinghao Ye, Chenliang Li, Ming Yan, Fei Huang, Zhangzikang Li and Yu Zhang(参考訳) 我々は,Scene Graphs (TSG) をより説明的なキャプションに変換することを提案する。 tsgでは,シーングラフ埋め込みのためのグラフニューラルネットワーク(gnn)の設計にマルチヘッドアテンション(mha)を適用する。 埋め込み後、異なるグラフ埋め込みは、異なるパーシャル・オブ・スパイチを持つ単語を生成するための様々な特定の知識を含んでいる。 そこで我々は,mha上で各専門家が構築するmixed-of-expert(moe)ベースのデコーダを設計し,グラフ埋め込みを識別することで,異なる種類の単語を生成する。 エンコーダとデコーダはどちらもMHAに基づいて構築されているため、通常はFully-Connected-based GNNとLSTM-based Decoderを応用した異種エンコーダと異なり、同種エンコーダデコーダを構築する。 均質なアーキテクチャによって、ヘテロジニアスパイプラインのようにさまざまなサブネットワークのトレーニング戦略を指定せずに、モデル全体のトレーニング構成を統一することが可能になります。 TSGの有効性をMS-COCOキャプションベンチマークで検証した。 コードは:https://anonymous.4open.science/r/ACL23_TSG。

We propose to Transform Scene Graphs (TSG) into more descriptive captions. In TSG, we apply multi-head attention (MHA) to design the Graph Neural Network (GNN) for embedding scene graphs. After embedding, different graph embeddings contain diverse specific knowledge for generating the words with different part-of-speech, e.g., object/attribute embedding is good for generating nouns/adjectives. Motivated by this, we design a Mixture-of-Expert (MOE)-based decoder, where each expert is built on MHA, for discriminating the graph embeddings to generate different kinds of words. Since both the encoder and decoder are built based on the MHA, as a result, we construct a homogeneous encoder-decoder unlike the previous heterogeneous ones which usually apply Fully-Connected-based GNN and LSTM-based decoder. The homogeneous architecture enables us to unify the training configuration of the whole model instead of specifying different training strategies for diverse sub-networks as in the heterogeneous pipeline, which releases the training difficulty. Extensive experiments on the MS-COCO captioning benchmark validate the effectiveness of our TSG. The code is in: https://anonymous.4open.science/r/ACL23_TSG.
翻訳日:2023-05-04 14:26:30 公開日:2023-05-03
# パラメータ効率を目指して:動的容量を持つ階層化スパース活性変圧器

Towards Being Parameter-Efficient: A Stratified Sparsely Activated Transformer with Dynamic Capacity ( http://arxiv.org/abs/2305.02176v1 )

ライセンス: Link先を確認
Haoran Xu, Maha Elbayad, Kenton Murray, Jean Maillard and Vedanuj Goswami(参考訳) スパースアクティベーションを用いたMixture-of-Experts (MoE)モデルはトークン当たりの計算要求を低く保ちながらパラメータ数を著しく増加させる効果を示した。 しかし、近年の研究では、moeモデルの性能向上が専門家の増加とともに減少するにつれて、本質的にパラメータ非効率であることが判明している。 このパラメータの非効率性は、同じ能力を持つすべての専門家が、異なるトークンやタスクの異なる複雑さ要件を十分に満たしていない可能性があるため、例えば、多言語環境では、そのリソースレベルに基づく言語は、異なるキャパシティを必要とする可能性がある、と仮定する。 そこで本稿では,階層化された構造を特徴とし,異なるトークンに動的容量を割り当てる,階層化された専門家(smoe)モデルの混合を提案する。 本研究では,2つの多言語機械翻訳ベンチマークにおけるsmoeの有効性を示す。 多様な15言語データセット上で、SMoEはバニラMoEよりも平均で0.93 BLEUポイントの翻訳品質を改善する。 さらに、SMoE はパラメータ効率が良く、バニラ MoE のパフォーマンスは約 50 % のパラメータで一致している。

Mixture-of-experts (MoE) models that employ sparse activation have demonstrated effectiveness in significantly increasing the number of parameters while maintaining low computational requirements per token. However, recent studies have established that MoE models are inherently parameter-inefficient as the improvement in performance diminishes with an increasing number of experts. We hypothesize this parameter inefficiency is a result of all experts having equal capacity, which may not adequately meet the varying complexity requirements of different tokens or tasks, e.g., in a multilingual setting, languages based on their resource levels might require different capacities. In light of this, we propose Stratified Mixture of Experts(SMoE) models, which feature a stratified structure and can assign dynamic capacity to different tokens. We demonstrate the effectiveness of SMoE on two multilingual machine translation benchmarks, where it outperforms multiple state-of-the-art MoE models. On a diverse 15-language dataset, SMoE improves the translation quality over vanilla MoE by +0.93 BLEU points on average. Additionally, SMoE is parameter-efficient, matching vanilla MoE performance with around 50\% fewer parameters.
翻訳日:2023-05-04 14:26:09 公開日:2023-05-03
# 連続推論:連続学習を用いたニューロシンボリックAIにおける非単調推論

Continual Reasoning: Non-Monotonic Reasoning in Neurosymbolic AI using Continual Learning ( http://arxiv.org/abs/2305.02171v1 )

ライセンス: Link先を確認
Sofoklis Kyriakopoulos, Artur S. d'Avila Garcez(参考訳) 広範囲にわたる投資と類似性による推論の最近の印象的な進歩にもかかわらず、ディープラーニングは非単調や常識的推論のようなより複雑な推論形式に苦しめ続けている。 非単調性(英: non-monotonicity)は、通常、常識的推論で見られる非古典的推論の特性であり、推論系は(古典論理学とは違い)、新しい情報が得られると後で取り除かれるかもしれない結論にジャンプすることを許される。 Logic Tensor Networks (LTN)のようなニューラルシンボリックシステムは、深いニューラルネットワークが推論能力を達成するのに有効であることが示されている。 本稿では,ニューラルシンボリックシステムと連続学習の手法を組み合わせることで,非単調推論タスクに対処する際の高い精度が得られることを示す。 ltnsには、リコールを伴う知識とデータからの学習のカリキュラムを採用することで、連続学習が付加される。 我々はこのプロセスを、ニューラルシンボリックシステムの推論タスクへの応用のための新しい方法論であるContinual Reasoningと呼んでいる。 連続推論は、原型非単調推論問題や他の推論例に適用される。 異なるカリキュラム選択が全体的な学習と推論結果に与える影響を比較分析するために実験が行われる。 その結果, 原型的非単調推論問題に対する顕著な改善と, 統計的関係学習事例に対する提案手法の展望が示唆された。

Despite the extensive investment and impressive recent progress at reasoning by similarity, deep learning continues to struggle with more complex forms of reasoning such as non-monotonic and commonsense reasoning. Non-monotonicity is a property of non-classical reasoning typically seen in commonsense reasoning, whereby a reasoning system is allowed (differently from classical logic) to jump to conclusions which may be retracted later, when new information becomes available. Neural-symbolic systems such as Logic Tensor Networks (LTN) have been shown to be effective at enabling deep neural networks to achieve reasoning capabilities. In this paper, we show that by combining a neural-symbolic system with methods from continual learning, LTN can obtain a higher level of accuracy when addressing non-monotonic reasoning tasks. Continual learning is added to LTNs by adopting a curriculum of learning from knowledge and data with recall. We call this process Continual Reasoning, a new methodology for the application of neural-symbolic systems to reasoning tasks. Continual Reasoning is applied to a prototypical non-monotonic reasoning problem as well as other reasoning examples. Experimentation is conducted to compare and analyze the effects that different curriculum choices may have on overall learning and reasoning results. Results indicate significant improvement on the prototypical non-monotonic reasoning problem and a promising outlook for the proposed approach on statistical relational learning examples.
翻訳日:2023-05-04 14:25:51 公開日:2023-05-03
# 構成員へのテキスト分割の統計的探究--創世記と出世記の典拠を事例として

A Statistical Exploration of Text Partition Into Constituents: The Case of the Priestly Source in the Books of Genesis and Exodus ( http://arxiv.org/abs/2305.02170v1 )

ライセンス: Link先を確認
Gideon Yoffe and Axel B\"uhler and Nachum Dershowitz and Israel Finkelstein and Eli Piasetzky and Thomas R\"omer and Barak Sober(参考訳) 本稿では,統計的テキスト探索のためのパイプラインを提案する。スタイロメトリーに基づく説明と,テキストの仮説的な分割の統計的検証を提供する。 Given a parameterization of the text, our pipeline: (1) detects literary features yielding the optimal overlap between the hypothesized and unsupervised partitions, (2) performs a hypothesis-testing analysis to quantify the statistical significance of the optimal overlap, while conserving implicit correlations between units of text that are more likely to be grouped, and (3) extracts and quantifies the importance of features most responsible for the classification, estimates their statistical stability and cluster-wise abundance. 聖書の最初の2冊の本にパイプラインを適用し、聖書学者の目には1つの様式的な要素、すなわち神聖な要素が際立っている。 我々は、プリーストリー成分と非プリーストリー成分の統計的に重要な構造的差異を特定し、調査する。

We present a pipeline for a statistical textual exploration, offering a stylometry-based explanation and statistical validation of a hypothesized partition of a text. Given a parameterization of the text, our pipeline: (1) detects literary features yielding the optimal overlap between the hypothesized and unsupervised partitions, (2) performs a hypothesis-testing analysis to quantify the statistical significance of the optimal overlap, while conserving implicit correlations between units of text that are more likely to be grouped, and (3) extracts and quantifies the importance of features most responsible for the classification, estimates their statistical stability and cluster-wise abundance. We apply our pipeline to the first two books in the Bible, where one stylistic component stands out in the eyes of biblical scholars, namely, the Priestly component. We identify and explore statistically significant stylistic differences between the Priestly and non-Priestly components.
翻訳日:2023-05-04 14:25:26 公開日:2023-05-03
# 条件付きおよび局所連結スライス・wasserstein流による非パラメトリック生成モデル

Nonparametric Generative Modeling with Conditional and Locally-Connected Sliced-Wasserstein Flows ( http://arxiv.org/abs/2305.02164v1 )

ライセンス: Link先を確認
Chao Du, Tianbo Li, Tianyu Pang, Shuicheng Yan, Min Lin(参考訳) sliced-wasserstein flow (swf) は非パラメトリック生成モデリングに有望なアプローチであるが、その準最適生成品質と条件付きモデリング能力の欠如のために広く採用されていない。 この作業では、このギャップを埋めることに2つの大きな貢献をします。 まず,(一定の条件下で)関節分布のSWFが条件分布のSWFと一致するという快適な観察に基づいて,SWFの簡易かつ効果的な拡張である条件スライデッド・ワッサースタインフロー(CSWF)を提案する。 第2に、画像の適切な帰納バイアスをSWFに導入し、局所的な接続性と視覚研究におけるマルチスケール表現に着想を得て、画像の効率と品質を大幅に向上させる。 これらの改良により、条件付きタスクと非条件付きタスクの両方において、多くの深度パラメトリック生成モデルに匹敵する生成性能を実現し、その大きな可能性を示す。

Sliced-Wasserstein Flow (SWF) is a promising approach to nonparametric generative modeling but has not been widely adopted due to its suboptimal generative quality and lack of conditional modeling capabilities. In this work, we make two major contributions to bridging this gap. First, based on a pleasant observation that (under certain conditions) the SWF of joint distributions coincides with those of conditional distributions, we propose Conditional Sliced-Wasserstein Flow (CSWF), a simple yet effective extension of SWF that enables nonparametric conditional modeling. Second, we introduce appropriate inductive biases of images into SWF with two techniques inspired by local connectivity and multiscale representation in vision research, which greatly improve the efficiency and quality of modeling images. With all the improvements, we achieve generative performance comparable with many deep parametric generative models on both conditional and unconditional tasks in a purely nonparametric fashion, demonstrating its great potential.
翻訳日:2023-05-04 14:25:13 公開日:2023-05-03
# LESS-VFL:垂直的フェデレーション学習のためのコミュニケーション効率の良い特徴選択

LESS-VFL: Communication-Efficient Feature Selection for Vertical Federated Learning ( http://arxiv.org/abs/2305.02219v1 )

ライセンス: Link先を確認
Timothy Castiglia, Yi Zhou, Shiqiang Wang, Swanand Kadhe, Nathalie Baracaldo, Stacy Patterson(参考訳) 本稿では,垂直分割データを持つ分散システムにおける通信効率の高い特徴選択手法であるLESS-VFLを提案する。 我々は、サーバのシステムと、サンプルID空間を共有するが異なる特徴セットを持つローカルデータセットを持つ複数のパーティについて検討する。 当事者は、予測タスクのためのモデルを共同でトレーニングしたいと考えています。 訓練の一環として、当事者はシステムの重要でない特徴を取り除き、一般化、効率、説明可能性を改善することを望んでいる。 LESS-VFLでは、短い事前トレーニング期間の後、サーバはグローバルモデルの一部を最適化し、パーティモデルから関連する出力を決定する。 この情報は当事者と共有され、通信なしで局所的な特徴の選択を可能にする。 我々はLESS-VFLがモデルトレーニングから突発的特徴を取り除くことを解析的に証明した。 我々は,LESS-VFLが高い精度を実現し,他の特徴選択手法の通信コストのごく一部で突発的特徴を除去できることを示す。

We propose LESS-VFL, a communication-efficient feature selection method for distributed systems with vertically partitioned data. We consider a system of a server and several parties with local datasets that share a sample ID space but have different feature sets. The parties wish to collaboratively train a model for a prediction task. As part of the training, the parties wish to remove unimportant features in the system to improve generalization, efficiency, and explainability. In LESS-VFL, after a short pre-training period, the server optimizes its part of the global model to determine the relevant outputs from party models. This information is shared with the parties to then allow local feature selection without communication. We analytically prove that LESS-VFL removes spurious features from model training. We provide extensive empirical evidence that LESS-VFL can achieve high accuracy and remove spurious features at a fraction of the communication cost of other feature selection approaches.
翻訳日:2023-05-04 14:19:14 公開日:2023-05-03
# ストリーム効率のよい学習

Stream Efficient Learning ( http://arxiv.org/abs/2305.02217v1 )

ライセンス: Link先を確認
Zhi-Hua Zhou(参考訳) 多くの現実世界のアプリケーションにおけるデータはストリームのように時間とともに蓄積されることが多い。 与えられたトレーニングデータセットから学習することに焦点を当てた従来の機械学習研究とは対照的に、データストリームからの学習は、受信したデータストリームが圧倒的なサイズと未知の変化で無限に終止符を打つことができるという事実を無視することはできず、全ての受信したデータを時間内に処理できるような十分な計算/記憶資源を持つと仮定するのは現実的ではない。 このように、データストリームからの学習の一般化性能は、受信したデータ数だけでなく、学習アルゴリズムと問題の複雑さに加えて、リソースや急激な懸念とともに、どれだけのデータをタイムリーに活用できるかにも依存する。 本稿では,機械学習のスループットの概念を紹介し,ストリーム効率のよい学習を定義し,予備的な理論的枠組みを提案する。

Data in many real-world applications are often accumulated over time, like a stream. In contrast to conventional machine learning studies that focus on learning from a given training data set, learning from data streams cannot ignore the fact that the incoming data stream can be potentially endless with overwhelming size and unknown changes, and it is impractical to assume to have sufficient computational/storage resource such that all received data can be handled in time. Thus, the generalization performance of learning from data streams depends not only on how many data have been received, but also on how many data can be well exploited timely, with resource and rapidity concerns, in addition to the ability of learning algorithm and complexity of the problem. For this purpose, in this article we introduce the notion of machine learning throughput, define Stream Efficient Learning and present a preliminary theoretical framework.
翻訳日:2023-05-04 14:18:58 公開日:2023-05-03
# 言語分類による単言語BERTの言語学的特性の探索

Exploring Linguistic Properties of Monolingual BERTs with Typological Classification among Languages ( http://arxiv.org/abs/2305.02215v1 )

ライセンス: Link先を確認
Federico Ranaldi, Elena Sofia Ruzzetti, Felicia Logozzo, Michele Mastromattei, Leonardo Ranaldi, Fabio Massimo Zanzotto(参考訳) トランスフォーマーの圧倒的な成功は、説得力のある疑問を喚起する真の結束である。これらのマシンは、いくつかの伝統的な言語モデルを複製しているか、あるいは根本的に新しい理論を発見するのか? 本稿では,この重要な課題を調査するための新しい視点を提案する。 言語間の類型的類似性を用いて、異なる言語でトランスフォーマを比較し、それらの類似性が特定の層に現れるかどうかを観察する。 本研究では,重み行列間の類似度を測定するためにCentered kernelアライメントを提案する。 我々は,中間層における重み間の類似性に類似性があることを発見した。 この結果は,BERTを構文的に探索した結果を裏付けるものであり,BERTが従来の言語モデルを複製していることを示す重要な証拠となる。

The overwhelming success of transformers is a real conundrum stimulating a compelling question: are these machines replicating some traditional linguistic models or discovering radically new theories? In this paper, we propose a novel standpoint to investigate this important question. Using typological similarities among languages, we aim to layer-wise compare transformers for different languages to observe whether these similarities emerge for particular layers. For this investigation, we propose to use Centered kernel alignment to measure similarity among weight matrices. We discovered that syntactic typological similarity is consistent with the similarity among weights in the middle layers. This finding confirms results obtained by syntactically probing BERT and, thus, gives an important confirmation that BERT is replicating traditional linguistic models.
翻訳日:2023-05-04 14:18:43 公開日:2023-05-03
# doclangid: 歴史文書の言語識別のための少数ショットトレーニングの改善

DocLangID: Improving Few-Shot Training to Identify the Language of Historical Documents ( http://arxiv.org/abs/2305.02208v1 )

ライセンス: Link先を確認
Furkan Simsek, Brian Pfitzmann, Hendrik Raetz, Jona Otholt, Haojin Yang, Christoph Meinel(参考訳) 言語識別は文書中の文章の言語を認識するタスクを記述している。 この情報は、文書の語彙と文脈の分析を支援するために使用できるため、非常に重要である。 近年,教師付き学習手法が言語識別の課題を推し進めている。 しかし、これらの方法は通常、大きなラベル付きデータセットを必要とし、ドキュメントやシーンイメージなど、画像のさまざまな領域に含める必要がある。 本研究では,未ラベル歴史文書の言語を識別する伝達学習手法であるDocLangIDを提案する。 まず、異なるが関連する歴史的文書の領域からラベル付きデータを活用してこれを達成する。 第2に,畳み込みニューラルネットワークをラベルなしデータセットの新しい言語に適応させるために,距離ベースの少数ショット学習手法を実装した。 ラベルのない画像の集合から手作業でラベル付けされたサンプルを少量導入することにより、特徴抽出器は、歴史的文書の新しい異なるデータ分布への適応性を向上させる。 このようなモデルは、同じ少数ショットの例だけを再利用することで、ラベルのない画像集合に対して効果的に微調整可能であることを示す。 主にラテン文字を使用する10言語にわたる作業を紹介します。 過去の文献での実験では,組み合わせた手法によって言語識別性能が向上し,ラベルなしデータセットの4つの未確認言語に対して74%の認識精度が達成された。

Language identification describes the task of recognizing the language of written text in documents. This information is crucial because it can be used to support the analysis of a document's vocabulary and context. Supervised learning methods in recent years have advanced the task of language identification. However, these methods usually require large labeled datasets, which often need to be included for various domains of images, such as documents or scene images. In this work, we propose DocLangID, a transfer learning approach to identify the language of unlabeled historical documents. We achieve this by first leveraging labeled data from a different but related domain of historical documents. Secondly, we implement a distance-based few-shot learning approach to adapt a convolutional neural network to new languages of the unlabeled dataset. By introducing small amounts of manually labeled examples from the set of unlabeled images, our feature extractor develops a better adaptability towards new and different data distributions of historical documents. We show that such a model can be effectively fine-tuned for the unlabeled set of images by only reusing the same few-shot examples. We showcase our work across 10 languages that mostly use the Latin script. Our experiments on historical documents demonstrate that our combined approach improves the language identification performance, achieving 74% recognition accuracy on the four unseen languages of the unlabeled dataset.
翻訳日:2023-05-04 14:18:08 公開日:2023-05-03
# 自動科学的発見:方程式発見から自律的発見システムへ

Automated Scientific Discovery: From Equation Discovery to Autonomous Discovery Systems ( http://arxiv.org/abs/2305.02251v1 )

ライセンス: Link先を確認
Stefan Kramer, Mattia Cerrato, Sa\v{s}o D\v{z}eroski, Ross King(参考訳) 本稿では、方程式発見から記号回帰から自律的な発見システムやエージェントまで、自動的な科学的発見を調査する。 さらに、オープンな問題や、この領域におけるディープニューラルネットワークの様々な役割のような最近のトピックについても論じ、人間の解釈可能な知識の発見を支援する。 さらに、Adamシステムに関する先駆的な研究から、物質科学から天文学まで、現在の分野への取り組みまで、クローズドループ科学発見システムを紹介します。 最後に、機械学習の観点から自律性について詳しく説明するとともに、自律運転における自律性レベルと類似する。 レベル5の最大レベルは、科学的知識の生成において人間の介入を必要としないと定義されている。 この達成は、2050年までに最高の人間科学者に匹敵する水準で、非常に高品質な科学的発見を自律的に行うことができるAIシステム、AI科学者を開発するためのノーベルチューリンググランドチャレンジの解決への一歩である。

The paper surveys automated scientific discovery, from equation discovery and symbolic regression to autonomous discovery systems and agents. It discusses the individual approaches from a "big picture" perspective and in context, but also discusses open issues and recent topics like the various roles of deep neural networks in this area, aiding in the discovery of human-interpretable knowledge. Further, we will present closed-loop scientific discovery systems, starting with the pioneering work on the Adam system up to current efforts in fields from material science to astronomy. Finally, we will elaborate on autonomy from a machine learning perspective, but also in analogy to the autonomy levels in autonomous driving. The maximal level, level five, is defined to require no human intervention at all in the production of scientific knowledge. Achieving this is one step towards solving the Nobel Turing Grand Challenge to develop AI Scientists: AI systems capable of making Nobel-quality scientific discoveries highly autonomously at a level comparable, and possibly superior, to the best human scientists by 2050.
翻訳日:2023-05-04 14:09:29 公開日:2023-05-03
# select without fear: ほぼすべてのミニバッチスケジュールが最適に一般化する

Select without Fear: Almost All Mini-Batch Schedules Generalize Optimally ( http://arxiv.org/abs/2305.02247v1 )

ライセンス: Link先を確認
Konstantinos E. Nikolakakis, Amin Karbasi, Dionysis Kalogerias(参考訳) 我々は、決定的、確率的、データ非依存、その他の任意のバッチ選択ルールを用いて、GDトレーニングのための上限と下限の一般化誤差境界を確立する。 我々は滑らかなLipschitz-convex/nonconvex/strongly-convex損失関数を考察し、SGD(Stochastic GD)の古典的な上界が、任意の非適応バッチスケジュールに対して、すべての決定論的スケジュールを含む冗長性を持つことを示す。 さらに、凸と強凸の損失に対して、上記のバッチスケジュールのクラス上での一般化誤差の均一性を直接証明し、これらのバッチスケジュールが全て最適に一般化されることを示す。 最後に、スムーズな(非Lipschitz)非凸損失に対して、全バッチ(決定論的)GDが本質的に最適であることを示す。

We establish matching upper and lower generalization error bounds for mini-batch Gradient Descent (GD) training with either deterministic or stochastic, data-independent, but otherwise arbitrary batch selection rules. We consider smooth Lipschitz-convex/nonconvex/strongly-convex loss functions, and show that classical upper bounds for Stochastic GD (SGD) also hold verbatim for such arbitrary nonadaptive batch schedules, including all deterministic ones. Further, for convex and strongly-convex losses we prove matching lower bounds directly on the generalization error uniform over the aforementioned class of batch schedules, showing that all such batch schedules generalize optimally. Lastly, for smooth (non-Lipschitz) nonconvex losses, we show that full-batch (deterministic) GD is essentially optimal, among all possible batch schedules within the considered class, including all stochastic ones.
翻訳日:2023-05-04 14:09:12 公開日:2023-05-03
# ゼロショットテキスト分類におけるラベル記述訓練の利点

The Benefits of Label-Description Training for Zero-Shot Text Classification ( http://arxiv.org/abs/2305.02239v1 )

ライセンス: Link先を確認
Lingyu Gao, Debanjan Ghosh, Kevin Gimpel(参考訳) 大規模言語モデルは、下流タスクで特定のラベルセットを分類するために、トレーニングデータから意味的な知識を伝達することで、ゼロショットテキスト分類を改善した。 最小限の努力でゼロショット精度をさらに向上する簡単な方法を提案する。 タスクのラベルを記述するための小さな微調整データセットをキュレートする。 ラベルでアノテートされたテキストを持つ一般的な微調整データとは異なり、我々のデータは、いくつかの関連用語、辞書/百科事典エントリ、短いテンプレートを使用して、単にラベルを言語で記述する。 トピックや感情のデータセットの範囲で、この手法はゼロショットよりも15-17%精度が高い。 また、ゼロショット分類に必要な選択、例えばモデルの語彙のラベルからトークンへの分類とマッピングを促すパターンに対して、より堅牢である。 さらに,データにはラベルのみを記述するが入力テキストは使用しないため,入力文を微調整することで,与えられたラベルセットの複数のテキストドメインに対して強く動作し,複数設定で数ショットのドメイン外分類も改善するモデルが得られる。

Large language models have improved zero-shot text classification by allowing the transfer of semantic knowledge from the training data in order to classify among specific label sets in downstream tasks. We propose a simple way to further improve zero-shot accuracies with minimal effort. We curate small finetuning datasets intended to describe the labels for a task. Unlike typical finetuning data, which has texts annotated with labels, our data simply describes the labels in language, e.g., using a few related terms, dictionary/encyclopedia entries, and short templates. Across a range of topic and sentiment datasets, our method is more accurate than zero-shot by 15-17% absolute. It is also more robust to choices required for zero-shot classification, such as patterns for prompting the model to classify and mappings from labels to tokens in the model's vocabulary. Furthermore, since our data merely describes the labels but does not use input texts, finetuning on it yields a model that performs strongly on multiple text domains for a given label set, even improving over few-shot out-of-domain classification in multiple settings.
翻訳日:2023-05-04 14:08:51 公開日:2023-05-03
# 駆動散逸性フォトニック分子を用いたフロケ合成次元における量子トポロジカルエネルギー励起とワイル点

Quantized topological energy pumping and Weyl points in Floquet synthetic dimensions with a driven-dissipative photonic molecule ( http://arxiv.org/abs/2305.02238v1 )

ライセンス: Link先を確認
Sashank Kaushik Sridhar, Sayan Ghosh, Avik Dutt(参考訳) トポロジカルな効果は、固体結晶、音響波、フォトニック材料、冷たい原子など、幅広い物理系に現れる。 これらの効果は「トポロジカル不変量」によって特徴づけられ、通常は整数値で表され、空間、時間、その他の自由度における輸送の堅牢な定量化されたチャネルにつながる。 特に時間チャネルは、複数の非共振周波数でシステムを駆動することで、高次元の位相効果を達成することができる。 しかし、散逸は一般にそのような位相効果、特に量子スピンや量子ビットからなる系には有害である。 ここでは、Floquet合成次元に沿った量子化輸送を観測するための候補系として、複数のRF/光駆動と消散の光子分子を導入する。 非可換変調フォトニック分子の位相的エネルギーポンプは,我々のプラットフォームの推進散逸性によって強化される。 さらに,ワイル点を実現する経路を提供し,これらの相互空間(k$-space)磁気単極子から生じるベリー曲率を測定し,このプラットフォームにおける高次元位相ハミルトニアンシミュレーションの能力を示す。 提案手法は,光光学キャビティのフリースペクトル範囲(FSR)よりかなり低い変調帯域を用いて,さまざまなハミルトニアンの直接的な$k$-spaceエンジニアリングを可能にする。

Topological effects manifest in a wide range of physical systems, such as solid crystals, acoustic waves, photonic materials and cold atoms. These effects are characterized by `topological invariants' which are typically integer-valued, and lead to robust quantized channels of transport in space, time, and other degrees of freedom. The temporal channel, in particular, allows one to achieve higher-dimensional topological effects, by driving the system with multiple incommensurate frequencies. However, dissipation is generally detrimental to such topological effects, particularly when the systems consist of quantum spins or qubits. Here we introduce a photonic molecule subjected to multiple RF/optical drives and dissipation as a promising candidate system to observe quantized transport along Floquet synthetic dimensions. Topological energy pumping in the incommensurately modulated photonic molecule is enhanced by the driven-dissipative nature of our platform. Furthermore, we provide a path to realizing Weyl points and measuring the Berry curvature emanating from these reciprocal-space ($k$-space) magnetic monopoles, illustrating the capabilities for higher-dimensional topological Hamiltonian simulation in this platform. Our approach enables direct $k$-space engineering of a wide variety of Hamiltonians using modulation bandwidths that are well below the free-spectral range (FSR) of integrated photonic cavities.
翻訳日:2023-05-04 14:08:31 公開日:2023-05-03
# AttenWalker: 注意に基づくグラフウォーキングによる教師なし長文質問回答

AttenWalker: Unsupervised Long-Document Question Answering via Attention-based Graph Walking ( http://arxiv.org/abs/2305.02235v1 )

ライセンス: Link先を確認
Yuxiang Nie, Heyan Huang, Wei Wei, Xian-Ling Mao(参考訳) 注釈付き長期文書質問応答(長期文書QA)ペアは、時間と費用がかかる。 この問題を緩和するために、教師なし質問応答(UQA)手法により、長い文書QAペアを生成することができる。 しかし、既存のUQAタスクは短い文書に基づいており、長距離情報をほとんど組み込むことができない。 この問題に対処するために,教師なし長文書質問応答(ULQA)と呼ばれる新しいタスクを提案し,教師なしの方法で高品質の長文書QAインスタンスを生成する。 さらに,長い文書のQAペアを構築するために,長距離依存で回答を集約・生成する新しい教師なし手法であるAttenWalkerを提案する。 具体的には、AttenWalkerはスパンコレクタ、スパンリンカ、応答アグリゲータという3つのモジュールで構成されている。 まず、スパンコレクタは構成構文解析と再構成損失を利用して、回答を構成するための有用な候補スパンを選択する。 第二に、事前訓練されたロングドキュメントモデルのアテンショングラフを通すことによって、相互に関連のあるテキストスパン(遠く離れているかもしれない)をアテンションウォークアルゴリズムでリンクすることができる。 第3に、回答アグリゲータでは、事前学習されたモデルのマスク充填能力により、リンクされたスパンを最終回答に集約する。 大規模な実験により、AttenWalkerはQasperとNarrativeQAで過去の方法より優れていることが示された。 さらに、AttenWalkerは、数ショットの学習環境でも強力なパフォーマンスを示している。

Annotating long-document question answering (long-document QA) pairs is time-consuming and expensive. To alleviate the problem, it might be possible to generate long-document QA pairs via unsupervised question answering (UQA) methods. However, existing UQA tasks are based on short documents, and can hardly incorporate long-range information. To tackle the problem, we propose a new task, named unsupervised long-document question answering (ULQA), aiming to generate high-quality long-document QA instances in an unsupervised manner. Besides, we propose AttenWalker, a novel unsupervised method to aggregate and generate answers with long-range dependency so as to construct long-document QA pairs. Specifically, AttenWalker is composed of three modules, i.e., span collector, span linker and answer aggregator. Firstly, the span collector takes advantage of constituent parsing and reconstruction loss to select informative candidate spans for constructing answers. Secondly, by going through the attention graph of a pre-trained long-document model, potentially interrelated text spans (that might be far apart) could be linked together via an attention-walking algorithm. Thirdly, in the answer aggregator, linked spans are aggregated into the final answer via the mask-filling ability of a pre-trained model. Extensive experiments show that AttenWalker outperforms previous methods on Qasper and NarrativeQA. In addition, AttenWalker also shows strong performance in the few-shot learning setting.
翻訳日:2023-05-04 14:08:04 公開日:2023-05-03
# マルチモードスピンオブザーバブルを用いた連続変数絡み合い目撃者へのアクセス

Accessing continuous-variable entanglement witnesses with multimode spin observables ( http://arxiv.org/abs/2305.02227v1 )

ライセンス: Link先を確認
C\'elia Griffet, Tobias Haas, and Nicolas J. Cerf(参考訳) 連続可変二部量子系の分離性基準にアクセスするためのいくつかの測定手法を提案する。 ボゾンモード作用素のモーメントから始めると、目撃者の絡み合いに適した基準は、ジョルダン・シュウィンガー写像を通して多モードスピン観測可能量で表される。 これらのオブザーバブルは通常、興味のある状態のいくつかのレプリカ上で定義され、受動光学回路によって単純な光子数測定に変換される。 本手法では, 種々の物理的状態(Gaussian, Mixed Schr\odinger cat, NOON state) で示されるような高コストな状態トモグラフィを必要とせずに, 絡み合いを効率的に検出できる。 典型的な実験的不完全性の影響は中程度であることが示されている。

We present several measurement schemes for accessing separability criteria for continuous-variable bipartite quantum systems. Starting from moments of the bosonic mode operators, criteria suitable to witness entanglement are expressed in terms of multimode spin observables via the Jordan-Schwinger map. These observables are typically defined over a few replicas of the state of interest and can be transformed into simple photon-number measurements by passive optical circuits. Our measurement schemes require only a handful of measurements, thereby allowing one to efficiently detect entanglement without the need for costly state tomography as illustrated for a variety of physically relevant states (Gaussian, mixed Schr\"odinger cat, and NOON states). The influence of typical experimental imperfections is shown to be moderate.
翻訳日:2023-05-04 14:06:55 公開日:2023-05-03
# ニューラルネットワークのトレーニングと推論における同型暗号化によるデータプライバシー

Data Privacy with Homomorphic Encryption in Neural Networks Training and Inference ( http://arxiv.org/abs/2305.02225v1 )

ライセンス: Link先を確認
Ivone Amorim, Eva Maia, Pedro Barbosa, Isabel Pra\c{c}a(参考訳) センシティブなデータ処理にニューラルネットワーク(NN)を使用することは、データプライバシとセキュリティに対する懸念が高まっている。 ホモモルフィック暗号化(HE)は、NNのデータプライバシを保護するソリューションとして使われる可能性がある。 本研究では,データプライバシとセキュリティの強化に使用される技術と戦略に注目し,nnのトレーニングと分類におけるheの利用に関する総合的な分析を行う。 NNのHEにおける現在の最先端技術は分析されており、プライバシー保護のための信頼性と効率的なアプローチにするために対処する必要がある課題と制限が特定されている。 また,異なるカテゴリのHEスキームとNNの適合性,および暗号化モデルの精度と効率を最適化する手法についても論じる。 レビューによると、HEはNNに対して強力なデータプライバシ保証を提供する可能性があるが、高度なNN操作のサポートの制限、スケーラビリティの問題、パフォーマンス上のトレードオフなど、いくつかの課題に対処する必要がある。

The use of Neural Networks (NNs) for sensitive data processing is becoming increasingly popular, raising concerns about data privacy and security. Homomorphic Encryption (HE) has the potential to be used as a solution to preserve data privacy in NN. This study provides a comprehensive analysis on the use of HE for NN training and classification, focusing on the techniques and strategies used to enhance data privacy and security. The current state-of-the-art in HE for NNs is analysed, and the challenges and limitations that need to be addressed to make it a reliable and efficient approach for privacy preservation are identified. Also, the different categories of HE schemes and their suitability for NNs are discussed, as well as the techniques used to optimize the accuracy and efficiency of encrypted models. The review reveals that HE has the potential to provide strong data privacy guarantees for NNs, but several challenges need to be addressed, such as limited support for advanced NN operations, scalability issues, and performance trade-offs.
翻訳日:2023-05-04 14:06:41 公開日:2023-05-03
# 大規模言語モデルを用いた博士論文からの臨床ノートの作成:MEDIQA-Chatからの考察

Clinical Note Generation from Doctor-Patient Conversations using Large Language Models: Insights from MEDIQA-Chat ( http://arxiv.org/abs/2305.02220v1 )

ライセンス: Link先を確認
John Giorgi, Augustin Toma, Ronald Xie, Sondra Chen, Kevin R. An, Grace X. Zheng, Bo Wang(参考訳) 本稿では,MEDIQA-Chat 2023の共有課題として,医師と患者との会話から自動臨床ノート作成を行う。 本稿では,共有タスクデータ上に事前学習された言語モデル(PLM)を第1に微調整し,第2に大規模言語モデル(LLM)を用いたICLを用いた。 どちらも、自動メトリクス(ROUGE、BERTScoreなど)によって測定されたハイパフォーマンスを実現し、共有タスクへの全サブミッションのそれぞれ第2と第1のランク付けを行う。 専門家による精査では、ICLベースのGPT-4によるノート作成は、医師と患者の会話から自動メモ生成への道のりとして、人間書きのメモよりも好まれている。

This paper describes our submission to the MEDIQA-Chat 2023 shared task for automatic clinical note generation from doctor-patient conversations. We report results for two approaches: the first fine-tunes a pre-trained language model (PLM) on the shared task data, and the second uses few-shot in-context learning (ICL) with a large language model (LLM). Both achieve high performance as measured by automatic metrics (e.g. ROUGE, BERTScore) and ranked second and first, respectively, of all submissions to the shared task. Expert human scrutiny indicates that notes generated via the ICL-based approach with GPT-4 are preferred about as often as human-written notes, making it a promising path toward automated note generation from doctor-patient conversations.
翻訳日:2023-05-04 14:06:23 公開日:2023-05-03
# 二重ディラックデルタポテンシャルにおけるフェルミオンの1次元散乱

One-dimensional scattering of fermions in double Dirac delta potentials ( http://arxiv.org/abs/2305.02281v1 )

ライセンス: Link先を確認
Luc\'ia Santamar\'ia-Sanz(参考訳) 2つのディラックデルタポテンシャルから構築した静的背景によって歪んだフェルミオンを記述する1次元ディラックハミルトニアンの束縛状態と散乱状態のスペクトルを研究した。 質量スパイクと静電気的ディラックデルタポテンシャルを区別する。 次に、相対論的量子力学問題を相対論的量子場理論に促進し、不透明プレート間に閉じ込められたフェルミオンに対する量子真空相互作用エネルギーを研究する。

The spectrum of bound and scattering states of the one dimensional Dirac Hamiltonian describing fermions distorted by a static background built from two Dirac delta potentials is studied. A distinction will be made between mass-spike and electrostatic Dirac delta-potentials. The second quantisation is then performed to promote the relativistic quantum mechanical problem to a relativistic Quantum Field Theory and study the quantum vacuum interaction energy for fermions confined between opaque plates.
翻訳日:2023-05-04 14:00:09 公開日:2023-05-03
# Learngene: 継承モデルから継承モデルへの凝縮知識の継承

Learngene: Inheriting Condensed Knowledge from the Ancestry Model to Descendant Models ( http://arxiv.org/abs/2305.02279v1 )

ライセンス: Link先を確認
Qiufeng Wang, Xu Yang, Shuxia Lin, Xin Geng(参考訳) ある生物の祖先の継続的な進化の間、その遺伝子は豊富な経験と知識を蓄積し、新生児の子孫は特定の環境に迅速に適応できる。 そこで本研究では,学習モデルに3つの重要な遺伝子特性を組み込むことができる新しい機械学習パラダイムである「textit{Learngene}」を提案する。 (i)蓄積:知識は \textbf{ancestry model} の連続学習中に蓄積される。 (ii) 凝縮: 徹底的な蓄積された知識は、よりコンパクトな情報片 \ie \textbf{learngene} に凝縮される。 (iii)継承: 凝縮された \textbf{learngene} は、 \textbf{descendant models} が新しい環境に適応しやすいように継承される。 大規模事前学習や生涯学習など,開発が進んでいるいくつかのパラダイムで蓄積が研究されているので,凝縮と継承に重点を置いて,3つの重要な課題を提起し,これらの課題に対する予備的な解決策を本論文で提示する。 i) \textit{Learngene} 形式: \textbf{learngene} は、最も共通性を保持することができるいくつかの積分層に設定される。 (ii) \textit{Learngene} Condensing: 祖先モデルのどの層が1つの擬似子孫モデルと最も類似しているかを特定する。 (iii) \textit{learngene} 継承:特定の下流タスクの異なる後続モデルを構築するために、いくつかのランダムに初期化された層を \textbf{learngene} 層に積み重ねる。 ViT(Vision Transformer)やCNN(Convolutional Neural Networks)といった異なるネットワークアーキテクチャを異なるデータセットで使用するなど、さまざまな設定の大規模な実験を行い、5つの利点と2つの特性を確認した。

During the continuous evolution of one organism's ancestry, its genes accumulate extensive experiences and knowledge, enabling newborn descendants to rapidly adapt to their specific environments. Motivated by this observation, we propose a novel machine learning paradigm \textit{Learngene} to enable learning models to incorporate three key characteristics of genes. (i) Accumulating: the knowledge is accumulated during the continuous learning of an \textbf{ancestry model}. (ii) Condensing: the exhaustive accumulated knowledge is condensed into a much more compact information piece, \ie \textbf{learngene}. (iii): Inheriting: the condensed \textbf{learngene} is inherited to make it easier for \textbf{descendant models} to adapt to new environments. Since accumulating has been studied in some well-developed paradigms like large-scale pre-training and lifelong learning, we focus on condensing and inheriting, which induces three key issues and we provide the preliminary solutions to these issues in this paper: (i) \textit{Learngene} Form: the \textbf{learngene} is set to a few integral layers that can preserve the most commonality. (ii) \textit{Learngene} Condensing: we identify which layers among the ancestry model have the most similarity as one pseudo descendant model. (iii) \textit{Learngene} Inheriting: to construct distinct descendant models for specific downstream tasks, we stack some randomly initialized layers to the \textbf{learngene} layers. Extensive experiments of various settings, including using different network architectures like Vision Transformer (ViT) and Convolutional Neural Networks (CNNs) on different datasets, are carried out to confirm five advantages and two characteristics of \textit{Learngene}.
翻訳日:2023-05-04 14:00:01 公開日:2023-05-03
# 量子モンテカルロ計算による均一電子ガスの静的自己エネルギーと有効質量

Static self energy and effective mass of the homogeneous electron gas from Quantum Monte Carlo calculations ( http://arxiv.org/abs/2305.02274v1 )

ライセンス: Link先を確認
Markus Holzmann, Francesco Calcavecchia, David M. Ceperley, Valerio Olevano(参考訳) 静的自己エネルギー, $\Sigma(k,0)$ に基づく有効質量の量子モンテカルロ計算の方法論について議論する。 次に、様々な密度における均質電子ガスの$\sigma(k,0)$の変分モンテカルロ計算を用いて、密度パラメータ $1 \le r_s \le 10$ の値に対する摂動的$g_0 w_0$ の計算結果を得る。 有効質量の得られた値は、図式化されたモンテカルロの結果に近く、励起エネルギーのヒューリスティックなマッピングに基づく以前の量子モンテカルロ計算とは一致しない。

We discuss the methodology of quantum Monte Carlo calculations of the effective mass based on the static self energy, $\Sigma(k,0)$. We then use variational Monte Carlo calculations of $\Sigma(k,0)$ of the homogeneous electron gas at various densities to obtain results very close to perturbative $G_0 W_0$ calculations for values of the density parameter $1 \le r_s \le 10$. The obtained values for the effective mass are close to diagrammatic Monte Carlo results and disagree with previous quantum Monte Carlo calculations based on a heuristic mapping of excitation energies to those of an ideal gas.
翻訳日:2023-05-04 13:59:26 公開日:2023-05-03
# M2-CTTS:マルチモーダル対話音声合成

M2-CTTS: End-to-End Multi-scale Multi-modal Conversational Text-to-Speech Synthesis ( http://arxiv.org/abs/2305.02269v1 )

ライセンス: Link先を確認
Jinlong Xue, Yayue Deng, Fengping Wang, Ya Li, Yingming Gao, Jianhua Tao, Jianqing Sun, Jiaen Liang(参考訳) 会話テキスト音声(TTS)は,歴史的会話に基づく適切な韻律による音声合成を目的としている。 しかし、会話を包括的にモデル化することは依然として課題であり、ほとんどの会話的TSSシステムは、グローバル情報抽出と、キーワードや強調といった重要なきめ細かい情報を含む局所韻律特徴の省略にのみ焦点を絞っている。 また, テキストの特徴のみを考慮することは不十分であり, 様々な韻律情報を含む音響的特徴も含んでいる。 そこで本稿では,m2-ctts を提案する。m2-ctts は,歴史的会話の総合的活用と韻律表現の強化を目的としている。 より具体的には、粗粒度と細粒度の両方をモデル化したテキストコンテキストモジュールと音響コンテキストモジュールを設計する。 実験の結果,cmosテストにおいて,細粒度コンテキスト情報と音響特徴を混合したモデルが,より優れた韻律性能と自然性を実現することが示された。

Conversational text-to-speech (TTS) aims to synthesize speech with proper prosody of reply based on the historical conversation. However, it is still a challenge to comprehensively model the conversation, and a majority of conversational TTS systems only focus on extracting global information and omit local prosody features, which contain important fine-grained information like keywords and emphasis. Moreover, it is insufficient to only consider the textual features, and acoustic features also contain various prosody information. Hence, we propose M2-CTTS, an end-to-end multi-scale multi-modal conversational text-to-speech system, aiming to comprehensively utilize historical conversation and enhance prosodic expression. More specifically, we design a textual context module and an acoustic context module with both coarse-grained and fine-grained modeling. Experimental results demonstrate that our model mixed with fine-grained context information and additionally considering acoustic features achieves better prosody performance and naturalness in CMOS tests.
翻訳日:2023-05-04 13:59:15 公開日:2023-05-03
# 言語的複雑なテキストからの画像検索のためのニューラルディバイド・アンド・コンクェリ推論フレームワーク

A Neural Divide-and-Conquer Reasoning Framework for Image Retrieval from Linguistically Complex Text ( http://arxiv.org/abs/2305.02265v1 )

ライセンス: Link先を確認
Yunxin Li, Baotian Hu, Yunxin Ding, Lin Ma, and Min Zhang(参考訳) VLM(Pretrained Vision-Language Models)は,テキストからの画像検索において顕著な性能を発揮する。 しかし、理解に苦しむ言語的に複雑なテキストに直面すると、そのパフォーマンスは大きく低下する。 本稿では,複数の単純な命題文からなる複合命題テキストとして言語的に複雑なテキストを考察し,NDCRと呼ばれるエンドツーエンドのニューラルディバイド・アンド・コンカー推論フレームワークを提案する。 1)命題生成器は,合成命題文を単純な命題文に分割し,それらの表現を生成する,2)事前訓練されたVLMに基づく視覚言語的対話器は,分解された命題文と画像間の相互作用を達成する,3)コビン: ニューラルシンボリック推論器は,上記の推論状態を組み合わせて,論理的推論手法を用いて最終解を得る。 双対過程理論によれば、視覚言語相互作用系と神経記号推論系は類似推論系1と論理推論系2と見なすことができる。 本研究では,文脈記述データセットから挑戦的な画像検索を行う。 実験結果と解析結果から,NDCRは複雑な画像テキスト推論問題の性能を著しく向上させることが示された。 コードリンク: https://github.com/yunxinli/ndcr。

Pretrained Vision-Language Models (VLMs) have achieved remarkable performance in image retrieval from text. However, their performance drops drastically when confronted with linguistically complex texts that they struggle to comprehend. Inspired by the Divide-and-Conquer algorithm and dual-process theory, in this paper, we regard linguistically complex texts as compound proposition texts composed of multiple simple proposition sentences and propose an end-to-end Neural Divide-and-Conquer Reasoning framework, dubbed NDCR. It contains three main components: 1)Divide: a proposition generator divides the compound proposition text into simple proposition sentences and produces their corresponding representations, 2)Conquer: a pretrained VLMs-based visual-linguistic interactor achieves the interaction between decomposed proposition sentences and images, 3)Combine: a neural-symbolic reasoner combines the above reasoning states to obtain the final solution via a neural logic reasoning approach. According to the dual-process theory, the visual-linguistic interactor and neural-symbolic reasoner could be regarded as analogical reasoning System 1 and logical reasoning System 2. We conduct extensive experiments on a challenging image retrieval from contextual descriptions data set. Experimental results and analyses indicate NDCR significantly improves performance in the complex image-text reasoning problem. Code link: https://github.com/YunxinLi/NDCR.
翻訳日:2023-05-04 13:58:55 公開日:2023-05-03
# 低ランクデコンボリューションを用いた多次元信号復元

Multi-dimensional Signal Recovery using Low-rank Deconvolution ( http://arxiv.org/abs/2305.02264v1 )

ライセンス: Link先を確認
David Reixach(参考訳) 本研究では,効率的な信号表現のための低レベル特徴マップ学習のための強力なフレームワークであるlow-rank deconvolutionを提案する。 多重線型代数の定式化は、畳み込みのスパース符号とローランク近似法から性質を継承し、この設定信号は低ランクテンソルの集合に付随するフィルタの集合に分解される。 圧縮映像表現を学習し,画像インペインティング問題を解くことで,その利点を示す。

In this work we present Low-rank Deconvolution, a powerful framework for low-level feature-map learning for efficient signal representation with application to signal recovery. Its formulation in multi-linear algebra inherits properties from convolutional sparse coding and low-rank approximation methods as in this setting signals are decomposed in a set of filters convolved with a set of low-rank tensors. We show its advantages by learning compressed video representations and solving image in-painting problems.
翻訳日:2023-05-04 13:58:29 公開日:2023-05-03
# Pivot-based Cascaded Translation Modelのエンドツーエンド学習と復号化

End-to-end Training and Decoding for Pivot-based Cascaded Translation Model ( http://arxiv.org/abs/2305.02261v1 )

ライセンス: Link先を確認
Hao Cheng, Meng Zhang, Liangyou Li, Qun Liu and Zhihua Zhang(参考訳) pivot言語を効果的に利用すれば、低リソース機械翻訳を大幅に改善できる。 通常、2つの翻訳モデル(source-pivot と pivot-target)は個別に訓練され、限られた(ソース、ターゲット)並列データを使用しない。 本研究は、ケースケード翻訳モデルのエンドツーエンドトレーニング手法を提案し、改良された復号アルゴリズムを構成する。 ピボットモデルの入力は、ソースピボットモデルによって出力される確率分布に基づいて重み付けされたピボット埋め込みに修正される。 これにより、モデルをエンドツーエンドでトレーニングすることができる。 さらに,ピボット復号におけるビーム探索を用いてトークンと確率分布の不整合を緩和する。 実験により,本手法が翻訳の質を高めることを示す。

Utilizing pivot language effectively can significantly improve low-resource machine translation. Usually, the two translation models, source-pivot and pivot-target, are trained individually and do not utilize the limited (source, target) parallel data. This work proposes an end-to-end training method for the cascaded translation model and configures an improved decoding algorithm. The input of the pivot-target model is modified to weighted pivot embedding based on the probability distribution output by the source-pivot model. This allows the model to be trained end-to-end. In addition, we mitigate the inconsistency between tokens and probability distributions while using beam search in pivot decoding. Experiments demonstrate that our method enhances the quality of translation.
翻訳日:2023-05-04 13:58:23 公開日:2023-05-03
# 局所露光のための標準ベンチマークデータセットの10$-$90 GHzでのリアルソースへの応用

Standardized Benchmark Dataset for Localized Exposure to a Realistic Source at 10$-$90 GHz ( http://arxiv.org/abs/2305.02260v1 )

ライセンス: Link先を確認
Ante Kapetanovic, Dragan Poljak, Kun Li(参考訳) 無償で利用可能な標準データセットの欠如は、露出評価と線量測定研究における新しい計算技術の性能を開発・テストする際の増大要因である。 このことは、各露光シナリオのシミュレーションソフトウェアを用いて数値データ(フィールド、パワー、温度分布)を新たに生成する必要があるため、進行を妨げる。 時間を要することを除けば、このアプローチは電磁モデルの構成中に発生するエラーに非常に影響を受けやすい。 本稿では,10~90ghzにおける各種定常暴露条件を考慮した皮膚表面の入射電力密度と最大温度上昇に関する限られたデータについて,統計的にモデル化した。 合成データは,所定のドシメトリック制約に対して適合した統計的多変量分布からサンプリングされた。 そこで本研究では,現実の情報源への様々な露出を考慮した高忠実度数値データの包括的かつオープンソースのデータセットを提案する。 さらに, 合成データに基づいて皮膚表面温度の最大上昇を予測するための異なるサーロゲートモデルを適用した。 すべてのサロゲートモデルは、十分な予測性能が実証された当初利用可能なデータ上でテストされた。 2次多項式とテンソル積スプラインサロゲートを組み合わせた単純な手法は、それぞれ自身のデータクラスタ上で動作し、0.058 {\deg}Cの最小平均絶対誤差を達成した。 以上の結果から,提案する合成データセットの有効性が示唆された。

The lack of freely available standardized datasets represents an aggravating factor during the development and testing the performance of novel computational techniques in exposure assessment and dosimetry research. This hinders progress as researchers are required to generate numerical data (field, power and temperature distribution) anew using simulation software for each exposure scenario. Other than being time consuming, this approach is highly susceptible to errors that occur during the configuration of the electromagnetic model. To address this issue, in this paper, the limited available data on the incident power density and resultant maximum temperature rise on the skin surface considering various steady-state exposure scenarios at 10$-$90 GHz have been statistically modeled. The synthetic data have been sampled from the fitted statistical multivariate distribution with respect to predetermined dosimetric constraints. We thus present a comprehensive and open-source dataset compiled of the high-fidelity numerical data considering various exposures to a realistic source. Furthermore, different surrogate models for predicting maximum temperature rise on the skin surface were fitted based on the synthetic dataset. All surrogate models were tested on the originally available data where satisfactory predictive performance has been demonstrated. A simple technique of combining quadratic polynomial and tensor-product spline surrogates, each operating on its own cluster of data, has achieved the lowest mean absolute error of 0.058 {\deg}C. Therefore, overall experimental results indicate the validity of the proposed synthetic dataset.
翻訳日:2023-05-04 13:58:12 公開日:2023-05-03
# シーン生成のための文脈推論(技術報告)

Contextual Reasoning for Scene Generation (Technical Report) ( http://arxiv.org/abs/2305.02255v1 )

ライセンス: Link先を確認
Loris Bozzato, Thomas Eiter, Rafael Kiesel, and Daria Stepanova(参考訳) 我々は, MR-CKRフレームワークを開発し, マルチリレーショナル階層で構成されたコンテキストにまたがって知識をオーバーライドする手法を開発した。 推論は ASP を通じて代数的測度で実現され、好みの柔軟な定義が可能である。 本稿では,実際の自動運転車のシーンデータに適用する方法について述べる。 この研究の目的は、MR-CKRを自動運転車の学習に挑戦するシーンを生成する問題に適用することである。 実際、av学習モデルのためのシーンデータのほとんどは共通の状況であり、特定の状況(例えば横断する歩行者の部分的な閉塞)が発生した場合を捉えるのが困難である。 MR-CKRモデルは、そのようなデータの多次元性(時間と空間など)を利用するデータ組織を可能にする。 複数のコンテキストにわたる推論は、異なるシーンオントロジーの組み合わせを使って、シーンの検証と構成を可能にする。 本稿では,MR-CKRと代数測度を組み合わせた意味指導型データ生成フレームワークについて述べる。 このフレームワークは、シーン生成のいくつかの例を示す概念実証プロトタイプに実装されている。

We present a continuation to our previous work, in which we developed the MR-CKR framework to reason with knowledge overriding across contexts organized in multi-relational hierarchies. Reasoning is realized via ASP with algebraic measures, allowing for flexible definitions of preferences. In this paper, we show how to apply our theoretical work to real autonomous-vehicle scene data. Goal of this work is to apply MR-CKR to the problem of generating challenging scenes for autonomous vehicle learning. In practice, most of the scene data for AV learning models common situations, thus it might be difficult to capture cases where a particular situation occurs (e.g. partial occlusions of a crossing pedestrian). The MR-CKR model allows for data organization exploiting the multi-dimensionality of such data (e.g., temporal and spatial). Reasoning over multiple contexts enables the verification and configuration of scenes, using the combination of different scene ontologies. We describe a framework for semantically guided data generation, based on a combination of MR-CKR and Algebraic Measures. The framework is implemented in a proof-of-concept prototype exemplifying some cases of scene generation.
翻訳日:2023-05-04 13:57:49 公開日:2023-05-03
# 未知分布ドリフトを用いた適応的学習アルゴリズム

An Adaptive Algorithm for Learning with Unknown Distribution Drift ( http://arxiv.org/abs/2305.02252v1 )

ライセンス: Link先を確認
Alessio Mazzetto, Eli Upfal(参考訳) 我々は,未知分布ドリフトを用いた一般学習手法を開発し,解析する。 ドリフト分布の最後の$t$ステップから独立した観測のシーケンスを考えると、アルゴリズムは、時間$t$の現在の分布に関する関数群を無意識的に学習する。 従来の作業とは異なり,この手法ではドリフトの大きさに関する事前の知識を必要としない。 その代わりに、アルゴリズムはサンプルデータに適応する。 ドリフトを明示的に推定することなく、アルゴリズムはドリフトの大きさを事前に知っている学習アルゴリズムとほとんど同じ誤差の関数群を学習する。 さらに,本アルゴリズムはデータに適応するので,ドリフト上のゆるい境界に依存するアルゴリズムよりも学習誤差がよいことを保証できる。

We develop and analyze a general technique for learning with an unknown distribution drift. Given a sequence of independent observations from the last $T$ steps of a drifting distribution, our algorithm agnostically learns a family of functions with respect to the current distribution at time $T$. Unlike previous work, our technique does not require prior knowledge about the magnitude of the drift. Instead, the algorithm adapts to the sample data. Without explicitly estimating the drift, the algorithm learns a family of functions with almost the same error as a learning algorithm that knows the magnitude of the drift in advance. Furthermore, since our algorithm adapts to the data, it can guarantee a better learning error than an algorithm that relies on loose bounds on the drift.
翻訳日:2023-05-04 13:57:33 公開日:2023-05-03
# 校正説明:不確実性情報と対策

Calibrated Explanations: with Uncertainty Information and Counterfactuals ( http://arxiv.org/abs/2305.02305v1 )

ライセンス: Link先を確認
Helena Lofstrom, Tuwe Lofstrom, Ulf Johansson, Cecilia Sonstrod(参考訳) 人工知能(AI)は、さまざまな領域における意思決定支援システム(DSS)の不可欠な部分となっているが、AIベースのDSSで使用される予測モデルにおける透明性の欠如は、誤用や誤用につながる可能性がある。 説明可能な人工知能(XAI)は、人間のユーザーにその根拠を説明するAIシステムを構築することを目的としている。 XAIにおける局所的な説明は、特徴的重要性の観点から個々の予測の原因に関する情報を提供するが、不安定のような欠点に悩まされる。 そこで本研究では, venn-abers に基づいた特徴重要説明法(キャリブレーション説明法, calibrated explanations, ce)を提案する。 ceは、確率推定と特徴重要度に関する不確かさの定量化とともに、高速、信頼性、安定、堅牢な説明を提供する。 さらに、この方法は、容易に理解可能な条件規則と非依存なモデルであり、不確実性定量化を伴う反事実的説明も生成することができる。

Artificial Intelligence (AI) has become an integral part of decision support systems (DSSs) in various domains, but the lack of transparency in the predictive models used in AI-based DSSs can lead to misuse or disuse. Explainable Artificial Intelligence (XAI) aims to create AI systems that can explain their rationale to human users. Local explanations in XAI can provide information about the causes of individual predictions in terms of feature importance, but they suffer from drawbacks such as instability. To address these issues, we propose a new feature importance explanation method, Calibrated Explanations (CE), which is based on Venn-Abers and calibrates the underlying model while generating feature importance explanations. CE provides fast, reliable, stable, and robust explanations, along with uncertainty quantification of the probability estimates and feature importance weights. Furthermore, the method is model agnostic with easily understood conditional rules and can also generate counterfactual explanations with uncertainty quantification.
翻訳日:2023-05-04 13:50:11 公開日:2023-05-03
# 補間とSVMの新たな等価性:カーネルと構造的特徴

New Equivalences Between Interpolation and SVMs: Kernels and Structured Features ( http://arxiv.org/abs/2305.02304v1 )

ライセンス: Link先を確認
Chiraag Kaushik, Andrew D. McRae, Mark A. Davenport, Vidya Muthukumar(参考訳) サポートベクトルマシン(英語: Support vector machine、SVM)は、カーネルトリックを介してデータを高次元の特徴空間にマッピングした後、最大有界線形分類器を見つける教師付き学習アルゴリズムである。 最近の研究では、一定の過パラメータ設定において、svm決定関数は最小ノルムラベル補間関数と正確に一致することが示されている。 線形およびカーネルモデルにおける近年の無害補間解析を活用し,svm性能の理解を可能にするため,サポートベクター増殖(svp)現象は特に興味深い。 しかし、SVPに関する以前の研究は、データ/機能分布とスペクトルについて制限的な仮定をしてきた。 本稿では,任意の再生カーネルHilbert空間において,ラベル生成モデルの柔軟なクラスを持つSVPを証明するための,新しいフレキシブルな解析フレームワークを提案する。 一般有界正則系(例えばフーリエ特徴)と独立ガウス的部分ガウス的特徴の族における特徴に対するSVPの条件を示す。 どちらの場合も、SVPは以前の作業でカバーされていない多くの興味深い設定で発生し、これらの結果を利用してカーネルSVM分類の新しい一般化結果を示す。

The support vector machine (SVM) is a supervised learning algorithm that finds a maximum-margin linear classifier, often after mapping the data to a high-dimensional feature space via the kernel trick. Recent work has demonstrated that in certain sufficiently overparameterized settings, the SVM decision function coincides exactly with the minimum-norm label interpolant. This phenomenon of support vector proliferation (SVP) is especially interesting because it allows us to understand SVM performance by leveraging recent analyses of harmless interpolation in linear and kernel models. However, previous work on SVP has made restrictive assumptions on the data/feature distribution and spectrum. In this paper, we present a new and flexible analysis framework for proving SVP in an arbitrary reproducing kernel Hilbert space with a flexible class of generative models for the labels. We present conditions for SVP for features in the families of general bounded orthonormal systems (e.g. Fourier features) and independent sub-Gaussian features. In both cases, we show that SVP occurs in many interesting settings not covered by prior work, and we leverage these results to prove novel generalization results for kernel SVM classification.
翻訳日:2023-05-04 13:49:52 公開日:2023-05-03
# ステップバイステップ! 学習データが少ない大規模言語モデルと小モデルサイズの性能向上

Distilling Step-by-Step! Outperforming Larger Language Models with Less Training Data and Smaller Model Sizes ( http://arxiv.org/abs/2305.02301v1 )

ライセンス: Link先を確認
Cheng-Yu Hsieh, Chun-Liang Li, Chih-Kuan Yeh, Hootan Nakhost, Yasuhisa Fujii, Alexander Ratner, Ranjay Krishna, Chen-Yu Lee, Tomas Pfister(参考訳) 大規模言語モデル(LLM)のデプロイは、メモリ非効率で、実用的なアプリケーションには計算集約的であるため、難しい。 反応として、研究者は人間のラベルで微調整するか、LLM生成ラベルを使って蒸留することで、より小さなタスク固有のモデルを訓練する。 しかし、微調整と蒸留はLLMに匹敵する性能を達成するために大量の訓練データを必要とする。 新しいメカニズムであるDistilling Step-by-stepを導入する。 (a)LDMより優れた小型モデルを訓練し、 b)微調整や蒸留で必要なトレーニングデータの少ない活用により達成する。 本手法は,マルチタスク・トレーニング・フレームワークにおける小モデルに対する追加監督として,llm理論を抽出する。 まず, 4つのnlpベンチマークにおいて, 微調整と蒸留に比較して, ラベル付き/ラベルなしのトレーニング例をはるかに少なくして, 良好な性能を実現する機構を示す。 第2に, LLMと比較して, モデルサイズを大幅に小さくすることで, 性能が向上する。 第3に、LLMを上回るために必要なモデルサイズとデータ量の両方を削減し、770M T5モデルは、ベンチマークタスクで利用可能なデータの80%しか使用せず、540B PaLMモデルより優れています。

Deploying large language models (LLMs) is challenging because they are memory inefficient and compute-intensive for practical applications. In reaction, researchers train smaller task-specific models by either finetuning with human labels or distilling using LLM-generated labels. However, finetuning and distillation require large amounts of training data to achieve comparable performance to LLMs. We introduce Distilling step-by-step, a new mechanism that (a) trains smaller models that outperform LLMs, and (b) achieves so by leveraging less training data needed by finetuning or distillation. Our method extracts LLM rationales as additional supervision for small models within a multi-task training framework. We present three findings across 4 NLP benchmarks: First, compared to both finetuning and distillation, our mechanism achieves better performance with much fewer labeled/unlabeled training examples. Second, compared to LLMs, we achieve better performance using substantially smaller model sizes. Third, we reduce both the model size and the amount of data required to outperform LLMs; our 770M T5 model outperforms the 540B PaLM model using only 80% of available data on a benchmark task.
翻訳日:2023-05-04 13:49:31 公開日:2023-05-03
# 長さ制御型機械翻訳の有効性評価

Evaluating the Efficacy of Length-Controllable Machine Translation ( http://arxiv.org/abs/2305.02300v1 )

ライセンス: Link先を確認
Hao Cheng, Meng Zhang, Weixuan Wang, Liangyou Li, Qun Liu and Zhihua Zhang(参考訳) 長さ制御可能な機械翻訳は制約翻訳の一種である。 翻訳の長さを制御しながら、本来の意味をできるだけ含むことを目的としている。 自動要約や機械翻訳評価のメトリクスを長さ制御可能な機械翻訳に利用できるが、必ずしも適切で正確ではない。 この研究は、長さ制御可能な機械翻訳タスクの自動メトリクスを体系的に評価する最初の試みである。 2つの翻訳方向について厳密な人間評価を行い、18の要約や翻訳評価指標を評価した。 BLEURT と COMET は人間の評価と高い相関関係を持ち,長さ制御可能な機械翻訳の評価指標として最も適している。

Length-controllable machine translation is a type of constrained translation. It aims to contain the original meaning as much as possible while controlling the length of the translation. We can use automatic summarization or machine translation evaluation metrics for length-controllable machine translation, but this is not necessarily suitable and accurate. This work is the first attempt to evaluate the automatic metrics for length-controllable machine translation tasks systematically. We conduct a rigorous human evaluation on two translation directions and evaluate 18 summarization or translation evaluation metrics. We find that BLEURT and COMET have the highest correlation with human evaluation and are most suitable as evaluation metrics for length-controllable machine translation.
翻訳日:2023-05-04 13:49:12 公開日:2023-05-03
# 構造スパースを用いたダイナミックスパーストレーニング

Dynamic Sparse Training with Structured Sparsity ( http://arxiv.org/abs/2305.02299v1 )

ライセンス: Link先を確認
Mike Lasby, Anna Golubeva, Utku Evci, Mihai Nica, Yani Ioannou(参考訳) DST法は、スパースニューラルネットワークトレーニングにおける最先端の結果を達成し、スパーストレーニングと推論を可能にしながら、密集モデルの一般化と一致する。 結果のモデルは非常に疎らで、理論上は訓練のコストが安いが、現実のハードウェア上で非構造的な間隔でスピードアップを達成することは困難である。 そこで本研究では,一般的なハードウェアで一般的にサポートされている,構造化N:M空間のバラツキを学習するためのDST法を提案する。 さらに、理論解析と経験的結果の両方をモチベーションとし、特定の n:m スパーシティ(constant fan-in)の一般化性能を示し、パラメータとメモリフットプリントを削減した凝縮表現を示し、凝縮表現のナイーブなpytorch cpu実装による密集したモデルと比較して推論時間を削減した。

DST methods achieve state-of-the-art results in sparse neural network training, matching the generalization of dense models while enabling sparse training and inference. Although the resulting models are highly sparse and theoretically cheaper to train, achieving speedups with unstructured sparsity on real-world hardware is challenging. In this work we propose a DST method to learn a variant of structured N:M sparsity, the acceleration of which in general is commonly supported in commodity hardware. Furthermore, we motivate with both a theoretical analysis and empirical results, the generalization performance of our specific N:M sparsity (constant fan-in), present a condensed representation with a reduced parameter and memory footprint, and demonstrate reduced inference time compared to dense models with a naive PyTorch CPU implementation of the condensed representation Our source code is available at https://github.com/calgaryml/condensed-sparsity
翻訳日:2023-05-04 13:49:02 公開日:2023-05-03
# 最大限に活用する - トレーニング済みのビジュアル言語モデルを低データレジームに適応する

Making the Most of What You Have: Adapting Pre-trained Visual Language Models in the Low-data Regime ( http://arxiv.org/abs/2305.02297v1 )

ライセンス: Link先を確認
Chuhan Zhang, Antoine Miech, Jiajun Shen, Jean-Baptiste Alayrac, Pauline Luc(参考訳) 大規模ビジュアル言語モデルは、事前訓練されたモデルとして広く使われ、様々な下流タスクに適応する。 人間はいくつかの例から新しいタスクを効率的に学習することが知られているが、ディープラーニングモデルは少数の例から適応に苦労している。 本研究では,低データ構造におけるタスク適応について検討し,生成型ビジュアル言語モデルに対する既存の適応手法について詳しく検討する。 また,同一分布の多数の非ラベル画像にアクセスする際に,モデル独自の予測を用いて自己改善を行うという,自己ラベル付けの重要なメリットを示す。 本研究では,視覚的分類 (ImageNet), 視覚的キャプション (COCO), 詳細な視覚的キャプション (Localized Narratives), 視覚的質問応答 (VQAv2) など,幅広い視覚的言語タスクを対象としたタスク適応パイプラインを用いて大きな効果を示した。

Large-scale visual language models are widely used as pre-trained models and then adapted for various downstream tasks. While humans are known to efficiently learn new tasks from a few examples, deep learning models struggle with adaptation from few examples. In this work, we look into task adaptation in the low-data regime, and provide a thorough study of the existing adaptation methods for generative Visual Language Models. And we show important benefits of self-labelling, i.e. using the model's own predictions to self-improve when having access to a larger number of unlabelled images of the same distribution. Our study demonstrates significant gains using our proposed task adaptation pipeline across a wide range of visual language tasks such as visual classification (ImageNet), visual captioning (COCO), detailed visual captioning (Localised Narratives) and visual question answering (VQAv2).
翻訳日:2023-05-04 13:48:42 公開日:2023-05-03
# dynamicstereo:ステレオビデオからの一貫した動的深さ

DynamicStereo: Consistent Dynamic Depth from Stereo Videos ( http://arxiv.org/abs/2305.02296v1 )

ライセンス: Link先を確認
Nikita Karaev, Ignacio Rocco, Benjamin Graham, Natalia Neverova, Andrea Vedaldi, Christian Rupprecht(参考訳) ステレオカメラから観察された動的シーンを再構成する問題を考える。 ステレオからの深度の既存の方法のほとんどは、異なるステレオフレームを独立に扱うため、時間的に一貫性のない深さ予測に繋がる。 時間の一貫性は、没入型ARやVRのシナリオにおいて特に重要である。 ステレオビデオの相違を推定する新しいトランスフォーマーベースのアーキテクチャであるDynamicStereoを提案する。 ネットワークは隣接するフレームから情報をプールし、予測の時間的一貫性を改善する。 我々のアーキテクチャは、分割された注意層を通してステレオビデオを効率的に処理するように設計されている。 スキャンされた環境における人と動物の合成ビデオを含む新しいベンチマークデータセットであるdynamic replicaも紹介する。既存のデータセットよりも実際のアプリケーションに近いダイナミックステレオのための補完的なトレーニングと評価データを提供する。 このデータセットを使用したトレーニングは、提案したDynamicStereoの予測品質と、それ以前のメソッドをさらに改善します。 最後に、一貫性のあるステレオメソッドのベンチマークとして機能する。

We consider the problem of reconstructing a dynamic scene observed from a stereo camera. Most existing methods for depth from stereo treat different stereo frames independently, leading to temporally inconsistent depth predictions. Temporal consistency is especially important for immersive AR or VR scenarios, where flickering greatly diminishes the user experience. We propose DynamicStereo, a novel transformer-based architecture to estimate disparity for stereo videos. The network learns to pool information from neighboring frames to improve the temporal consistency of its predictions. Our architecture is designed to process stereo videos efficiently through divided attention layers. We also introduce Dynamic Replica, a new benchmark dataset containing synthetic videos of people and animals in scanned environments, which provides complementary training and evaluation data for dynamic stereo closer to real applications than existing datasets. Training with this dataset further improves the quality of predictions of our proposed DynamicStereo as well as prior methods. Finally, it acts as a benchmark for consistent stereo methods.
翻訳日:2023-05-04 13:48:23 公開日:2023-05-03
# 信頼度の高い深層学習アプローチによるイランのナンバープレート認識

Iranian License Plate Recognition Using a Reliable Deep Learning Approach ( http://arxiv.org/abs/2305.02292v1 )

ライセンス: Link先を確認
Soheila Hatami, Majid Sadedel, Farideh Jamali(参考訳) 自動ナンバープレート認識(alpr)の問題は近年最も困難な問題の一つとなっている。 気象条件、カメラの角度、照明条件、ナンバープレートに書かれた様々な文字、その他多くの要素が、alprの課題の1つとなっている。 近年のディープニューラルネットワークの分野での進歩を踏まえると、イランのナンバープレート認識のタスクを実行するために、いくつかのタイプのニューラルネットワークとモデルを使用することができる。 提案手法では,ライセンスプレートの認識を2段階に分けて行う。 最初のステップは、入力画像からライセンスプレートの矩形を検出することである。 第2のステップでは、これらのナンバープレートを画像から切り抜き、文字を認識する。 第1ステップでは、ライセンスプレートを含む3065イメージと第2ステップでは、ライセンスプレートの文字を含む3364イメージが準備され、望ましいデータセットとして検討されている。 最初のステップでは、畳み込みニューラルネットワーク(CNN)に基づくYOLOv4-tinyモデルを用いてライセンスプレートを検出する。 次のステップでは、これらのナンバープレートの文字は、畳み込みリカレントニューラルネットワーク(CRNN)と接続時分類(CTC)を用いて認識される。 2番目のステップでは、文字を分割してラベル付けする必要はなく、1行の数字と文字だけがラベルに十分である。

The issue of Automatic License Plate Recognition (ALPR) has been one of the most challenging issues in recent years. Weather conditions, camera angle of view, lighting conditions, different characters written on license plates, and many other factors are among the challenges for the issue of ALPR. Given the advances that have been made in recent years in the field of deep neural networks, some types of neural networks and models based on them can be used to perform the task of Iranian license plate recognition. In the proposed method presented in this paper, the license plate recognition is done in two steps. The first step is to detect the rectangles of the license plates from the input image. In the second step, these license plates are cropped from the image and their characters are recognized. For the first step, 3065 images including license plates and for the second step, 3364 images including characters of license plates have been prepared and considered as the desired datasets. In the first step, license plates are detected using the YOLOv4-tiny model, which is based on Convolutional Neural Network (CNN). In the next step, the characters of these license plates are recognized using Convolutional Recurrent Neural Network (CRNN), and Connectionist Temporal Classification (CTC). In the second step, there is no need to segment and label the characters separately, only one string of numbers and letters is enough for the labels.
翻訳日:2023-05-04 13:48:10 公開日:2023-05-03
# デジタル図書館コレクションの学習知識グラフ構築のためのBERTに基づく科学関係分類器の評価

Evaluating BERT-based Scientific Relation Classifiers for Scholarly Knowledge Graph Construction on Digital Library Collections ( http://arxiv.org/abs/2305.02291v1 )

ライセンス: Link先を確認
Ming Jiang, Jennifer D'Souza, S\"oren Auer, J. Stephen Downie(参考訳) 研究出版物の急速な成長は、先進的な情報管理技術に対するデジタル図書館(dl)の需要を大きく高めている。 これらの要求を満たすため、知識グラフ構造に依存する技術が提唱されている。 このようなグラフベースのパイプラインでは、関連する科学的概念間の意味関係を推測することが重要なステップである。 近年,BERTをベースとした事前学習モデルによる関係の自動分類が盛んに行われている。 かなりの進歩にもかかわらず、そのほとんどは異なるシナリオで評価され、互換性が制限された。 さらに、既存の手法は主にクリーンテキストに基づいて評価され、機械スキャンと光学文字認識(OCR)の観点から、初期の学術出版物のデジタル化コンテキストを無視する。 そのような場合、テキストにはocrノイズが含まれ、既存の分類器のパフォーマンスに不確実性が生じる。 これらの制約に対処するため、3つのクリーンコーパスに基づいたOCRノイズテキストの作成に着手した。 これらの並列コーパスを仮定し,(1)bert変種,(2)分類戦略,(3)ocr騒音の影響という3つの要因に着目し,bertに基づく分類モデルの徹底的な評価を行った。 クリーンデータに関する実験では、ドメイン固有の事前学習されたbertが、科学的関係を特定するのに最適な変種であることが示されている。 一つの関係を予測する戦略は、一般に複数の関係を同時に識別する手法よりも優れている。 最適な分類器の性能は、ノイズコーパス上のFスコアで約10%から20%低下することができる。 本研究では,DL利害関係者が最適な知識グラフベースシステムを構築するためのテクニックを選択するのに役立つ。

The rapid growth of research publications has placed great demands on digital libraries (DL) for advanced information management technologies. To cater to these demands, techniques relying on knowledge-graph structures are being advocated. In such graph-based pipelines, inferring semantic relations between related scientific concepts is a crucial step. Recently, BERT-based pre-trained models have been popularly explored for automatic relation classification. Despite significant progress, most of them were evaluated in different scenarios, which limits their comparability. Furthermore, existing methods are primarily evaluated on clean texts, which ignores the digitization context of early scholarly publications in terms of machine scanning and optical character recognition (OCR). In such cases, the texts may contain OCR noise, in turn creating uncertainty about existing classifiers' performances. To address these limitations, we started by creating OCR-noisy texts based on three clean corpora. Given these parallel corpora, we conducted a thorough empirical evaluation of eight Bert-based classification models by focusing on three factors: (1) Bert variants; (2) classification strategies; and, (3) OCR noise impacts. Experiments on clean data show that the domain-specific pre-trained Bert is the best variant to identify scientific relations. The strategy of predicting a single relation each time outperforms the one simultaneously identifying multiple relations in general. The optimal classifier's performance can decline by around 10% to 20% in F-score on the noisy corpora. Insights discussed in this study can help DL stakeholders select techniques for building optimal knowledge-graph-based systems.
翻訳日:2023-05-04 13:47:48 公開日:2023-05-03
# バイオインスパイアされたニューラルダイナミクスと適応スライディングイノベーションフィルタに基づく移動ロボットの分散リーダフォロワ生成制御

Distributed Leader Follower Formation Control of Mobile Robots based on Bioinspired Neural Dynamics and Adaptive Sliding Innovation Filter ( http://arxiv.org/abs/2305.02288v1 )

ライセンス: Link先を確認
Zhe Xu, Tao Yan, Simon X. Yang, S. Andrew Gadsden(参考訳) 本稿では,複数の微分駆動型移動ロボットにおける分散リーダフォロワ形成制御問題について検討した。 分散推定器が最初に導入され、各フォロワーとその隣人からの状態情報のみを必要とする。 そこで本研究では,バイオインスパイアされた神経力学に基づくバックステッピングとスライディングモード制御ハイブリッド生成制御法を提案する。 提案する制御戦略は従来のバックステッピング設計に存在する非実用的なスピードジャンプ問題を解決する。 さらに,システムと計測ノイズを考慮した制御手法では,従来のスライディングモード制御における解答問題を除去するだけでなく,より堅牢なスムーズな制御入力を提供する。 その後、適応型スライディングイノベーションフィルタを提案制御と統合し、不確かさのモデル化にロバストな正確な状態推定を行う。 最後に,提案手法の有効性と有効性を示すため,複数のシミュレーションを行った。

This paper investigated the distributed leader follower formation control problem for multiple differentially driven mobile robots. A distributed estimator is first introduced and it only requires the state information from each follower itself and its neighbors. Then, we propose a bioinspired neural dynamic based backstepping and sliding mode control hybrid formation control method with proof of its stability. The proposed control strategy resolves the impractical speed jump issue that exists in the conventional backstepping design. Additionally, considering the system and measurement noises, the proposed control strategy not only removes the chattering issue existing in the conventional sliding mode control but also provides smooth control input with extra robustness. After that, an adaptive sliding innovation filter is integrated with the proposed control to provide accurate state estimates that are robust to modeling uncertainties. Finally, we performed multiple simulations to demonstrate the efficiency and effectiveness of the proposed formation control strategy.
翻訳日:2023-05-04 13:47:25 公開日:2023-05-03
# tweezer配列における反強磁性ボソニック$t$-$j$モデルとその量子シミュレーション

Antiferromagnetic bosonic $t$-$J$ models and their quantum simulation in tweezer arrays ( http://arxiv.org/abs/2305.02322v1 )

ライセンス: Link先を確認
Lukas Homeier and Timothy J. Harris and Tizian Blatz and Ulrich Schollw\"ock and Fabian Grusdt and Annabelle Bohrdt(参考訳) 分子の双極子交換とrydberg原子のヴァン・ダー・ワールス相互作用による強い相互作用を持つ光学トワイザーアレイの組み合わせは、幅広い量子スピンモデルの研究の扉を開いた。 次の重要なステップは、そのような設定とモバイルのドーパントの組み合わせである。これにより、多くの強い相関量子材料を弱めていると信じられている物理学をシミュレートすることができる。 ここでは、局所ヒルベルト空間を3つの内部原子状態あるいは分子状態の集合に符号化することで、ボゾン$t$-$J$モデルを実現する実験スキームを提案する。 スピン間の反強磁性(AFM)カップレートの工学的結合により、高T_c$カップレートと同様の電荷運動と磁気秩序の競合を実現することができる。 提案する2d $t$-$j$モデルのbosonic afmバージョンは以前に研究されていなかったので、まず2つのドーパント(ボソニック統計が役割を果たす最も単純な例)のケースを分析し、その結果をフェルミオンの場合と比較する。 六脚シリンダ上で大規模密度行列再正規化群 (DMRG) 計算を行い, ストリップを形成するボソニックホールの強い傾向を見出した。 これは、ボソニックなAFM$t$-$J$モデルが強い相関電子の集合相と同様の物理を含むことを証明している。

The combination of optical tweezer arrays with strong interactions -- via dipole-exchange of molecules and van-der-Waals interactions of Rydberg atoms -- has opened the door for the exploration of a wide variety of quantum spin models. A next significant step will be the combination of such settings with mobile dopants: This will enable to simulate the physics believed to underlie many strongly correlated quantum materials. Here we propose an experimental scheme to realize bosonic $t$-$J$ models via encoding the local Hilbert space in a set of three internal atomic or molecular states. By engineering antiferromagnetic (AFM) couplings between spins, competition between charge motion and magnetic order similar to that in high-$T_c$ cuprates can be realized. Since the bosonic AFM version of the 2D $t$-$J$ model we propose has not been studied previously, we start by analyzing the case of two dopants -- the simplest instance in which their bosonic statistics plays a role, and contrast our results to the fermionic case. We perform large-scale density matrix renormalization group (DMRG) calculations on six-legged cylinders, and find a strong tendency for bosonic holes to form stripes. This demonstrates that bosonic, AFM $t$-$J$ models may contain similar physics as the collective phases in strongly correlated electrons.
翻訳日:2023-05-04 13:41:23 公開日:2023-05-03
# 自動要約における政治的バイアスの特徴:トランプとバイデンを事例として

Characterizing Political Bias in Automatic Summaries: A Case Study of Trump and Biden ( http://arxiv.org/abs/2305.02321v1 )

ライセンス: Link先を確認
Karen Zhou and Chenhao Tan(参考訳) 成長する文献によると、強力なNLPシステムは社会的偏見を符号化する可能性があるが、要約モデルの政治的偏見はいまだによく分かっていない。 本研究では,ニュース記事の自動生成要約における政治家の描写を調査するために,エンティティ置換手法を用いる。 我々は、政治的実体と語彙資源に基づく計算フレームワークを開発し、ドナルド・トランプとジョー・バイデンの偏見を抽出的および抽象的要約モデルの両方で評価する。 我々は、トランプよりもバイデンと団結する米国政府(すなわち、政権)との強い関係など、一貫性のある相違点を見いだす。 これらの要約の相違は、エンティティがソース記事に大きく取り上げられているときに最も顕著である。 我々の体系的特徴付けは、要約におけるバイアスの研究のためのフレームワークを提供する。

Growing literature has shown that powerful NLP systems may encode social biases; however, the political bias of summarization models remains relatively unknown. In this work, we use an entity replacement method to investigate the portrayal of politicians in automatically generated summaries of news articles. We develop a computational framework based on political entities and lexical resources, and use it to assess biases about Donald Trump and Joe Biden in both extractive and abstractive summarization models. We find consistent differences, such as stronger associations of a collective US government (i.e., administration) with Biden than with Trump. These summary dissimilarities are most prominent when the entity is heavily featured in the source article. Our systematic characterization provides a framework for future studies of bias in summarization.
翻訳日:2023-05-04 13:40:58 公開日:2023-05-03
# 全太陽放射と大西洋気候のウェーブレットコヒーレンス

Wavelet Coherence Of Total Solar Irradiance and Atlantic Climate ( http://arxiv.org/abs/2305.02319v1 )

ライセンス: Link先を確認
Vasil Kolev, Yavor Chapanov(参考訳) 北大西洋の気候パラメータの振動は、北アメリカやヨーロッパにおける様々な出来事において重要な役割を果たしている。 いくつかの気候指標はこれらの振動と関連している。 長期の大西洋温度異常はAMO(Atlantic Multidecadal Oscillation)によって説明される。 アトランティック・マルチデカダル振動(Atlantic Multidecadal Oscillation、AMV)は、北大西洋の海面温度(SST)の数十年の変動である。 AMOは北半球の大部分、特に北アメリカやヨーロッパにおける夏の気候において、気温と降雨と相関している。 表面温度の長期変化は、主に太陽活動の周期によって駆動され、トータル太陽放射率(TSI)の変動によって表される。 TSIとAMOの周波数および振幅依存性は、800年前からミレニアル時系列のウェーブレットコヒーレンスによって分析されている。 ウェーブレットコヒーレンスの結果は、部分フーリエ近似法により検出された狭帯域の太陽と気候の共通周期と比較された。 TSIとAMOの長期的な一貫性は、最近の気候変動をよりよく理解し、長期的な予測を改善するのに役立つ。

The oscillations of climatic parameters of North Atlantic Ocean play important role in various events in North America and Europe. Several climatic indices are associated with these oscillations. The long term Atlantic temperature anomalies are described by the Atlantic Multidecadal Oscillation (AMO). The Atlantic Multidecadal Oscillation also known as Atlantic Multidecadal Variability (AMV), is the variability of the sea surface temperature (SST) of the North Atlantic Ocean at the timescale of several decades. The AMO is correlated to air temperatures and rainfall over much of the Northern Hemisphere, in particular in the summer climate in North America and Europe. The long-term variations of surface temperature are driven mainly by the cycles of solar activity, represented by the variations of the Total Solar Irradiance (TSI). The frequency and amplitude dependences between the TSI and AMO are analyzed by wavelet coherence of millennial time series since 800 AD till now. The results of wavelet coherence are compared with the detected common solar and climate cycles in narrow frequency bands by the method of Partial Fourier Approximation. The long-term coherence between TSI and AMO can help to understand better the recent climate change and can improve the long term forecast.
翻訳日:2023-05-04 13:40:46 公開日:2023-05-03
# 思考の視覚的連鎖:マルチモーダルインフィルによる論理ギャップのブリッジ

Visual Chain of Thought: Bridging Logical Gaps with Multimodal Infillings ( http://arxiv.org/abs/2305.02317v1 )

ライセンス: Link先を確認
Daniel Rose, Vaishnavi Himakunthala, Andy Ouyang, Ryan He, Alex Mei, Yujie Lu, Michael Saxon, Chinmay Sonar, Diba Mirza, William Yang Wang(参考訳) 大規模言語モデルの最近の進歩は、モデルが人間のような方法で問題を分解できるように、思考の連鎖における推論をもたらす。 このパラダイムは言語モデルの多段階推論能力を向上させるが、ユニモーダルであり、主に質問応答タスクに適用することで制限される。 視覚的な拡張を推論に組み込むことは、特に複雑で想像力のあるタスクに不可欠である、と我々は主張する。 その結果,VCoTは視覚言語接地による思考の連鎖を利用して,逐次データ内の論理的ギャップを再帰的にブリッジする手法である。 提案手法は,視覚的なガイダンスを用いて合成マルチモーダルインフィルメントを生成し,時間的推論の恩恵を受ける下流タスクの論理的ギャップを低減し,モデルの多段階推論への解釈可能性を提供する。 ビジュアルストーリーテリングとウィキハウ要約データセットにvcotを適用し、vcotが思考ベースラインの新規で一貫性のある合成データ拡張ビーティングチェーンを提供し、下流のパフォーマンス向上に使用できることを人間による評価を通じて実証する。

Recent advances in large language models elicit reasoning in a chain of thought that allows models to decompose problems in a human-like fashion. Though this paradigm improves multi-step reasoning ability in language models, it is limited by being unimodal and applied mainly to question-answering tasks. We claim that incorporating visual augmentation into reasoning is essential, especially for complex, imaginative tasks. Consequently, we introduce VCoT, a novel method that leverages chain of thought prompting with vision-language grounding to recursively bridge the logical gaps within sequential data. Our method uses visual guidance to generate synthetic multimodal infillings that add consistent and novel information to reduce the logical gaps for downstream tasks that can benefit from temporal reasoning, as well as provide interpretability into models' multi-step reasoning. We apply VCoT to the Visual Storytelling and WikiHow summarization datasets and demonstrate through human evaluation that VCoT offers novel and consistent synthetic data augmentation beating chain of thought baselines, which can be used to enhance downstream performance.
翻訳日:2023-05-04 13:40:27 公開日:2023-05-03
# 局在駆動型量子センシング

Localization Driven Quantum Sensing ( http://arxiv.org/abs/2305.02315v1 )

ライセンス: Link先を確認
Ayan Sahoo, Utkarsh Mishra, Debraj Rakshit(参考訳) 量子体(qmb)系における非局在化-局所化遷移は、パラメータ推定において量子エンハンス感度を達成する上で魅力的な量子資源であることを示す。 パラメータシフトに対する近遷移QMB状態の脆弱性を利用して、効率的なセンシングツールを開発する。 この領域では、この研究の主な焦点は、精密測定のための実験的に関連する量子可観測物を特定し、提案し、分析することである。 準周期変調下でのフェルミ格子としてqmb系をエネルギー非依存な非局所化-局所化遷移をサポートし、演算子に基づく断熱・動的量子センサにかなりの量子長所を与えた。

We show that the delocalization-localization transition in a quantum-many body (QMB) systems is a compelling quantum resource for achieving quantum-enhanced sensitivity in parameter estimation. We exploit the vulnerability of a near-transition QMB state against the parameter shift for devising efficient sensing tools. In this realm the main focus of this work is to identify, propose and analyze experimentally relevant quantum observables for precision measurement. Taking a QMB system as a Fermi lattice under quasi-periodic modulation that supports an energy-independent delocalization-localization transition, we suggest operator-based adiabatic and dynamical quantum sensors endowed with considerable quantum advantages.
翻訳日:2023-05-04 13:40:07 公開日:2023-05-03
# AG3D:2Dイメージコレクションから3Dアバターを生成する学習

AG3D: Learning to Generate 3D Avatars from 2D Image Collections ( http://arxiv.org/abs/2305.02312v1 )

ライセンス: Link先を確認
Zijian Dong, Xu Chen, Jinlong Yang, Michael J. Black, Otmar Hilliges, Andreas Geiger(参考訳) 人間の外観の2次元生成モデルの進歩は急速に進んでいるが、多くのアプリケーションはアニメーションやレンダリングが可能な3dアバターを必要とする。 残念なことに、様々な形状と外観を持つ3D人間の生成モデルを学ぶには、3Dトレーニングデータが必要である。 進歩の鍵は、豊富な構造化されていない2D画像コレクションから3Dアバターの生成モデルを学ぶことである。 しかし、この制約の厳しい環境で現実的で完全な3Dの外観と幾何学を学ぶことは、特にドレスのようなゆるい衣服の存在下では困難である。 本稿では,2次元画像からリアルな3次元人物の対向生成モデルを提案する。 本手法は, 全身型3Dジェネレータを採用し, 効率よく柔軟な調音モジュールを組み込むことで, 体の形状と変形を捉える。 リアリズムを改善するために,複数の識別器を用いてモデルをトレーニングし,幾何学的手がかりを予測された2次元正規写像の形で統合する。 提案手法は, 従来の3次元・調音認識手法よりも幾何学的, 外観的に優れていた。 本モデルの有効性と各成分の重要性を系統的アブレーション研究により検証した。

While progress in 2D generative models of human appearance has been rapid, many applications require 3D avatars that can be animated and rendered. Unfortunately, most existing methods for learning generative models of 3D humans with diverse shape and appearance require 3D training data, which is limited and expensive to acquire. The key to progress is hence to learn generative models of 3D avatars from abundant unstructured 2D image collections. However, learning realistic and complete 3D appearance and geometry in this under-constrained setting remains challenging, especially in the presence of loose clothing such as dresses. In this paper, we propose a new adversarial generative model of realistic 3D people from 2D images. Our method captures shape and deformation of the body and loose clothing by adopting a holistic 3D generator and integrating an efficient and flexible articulation module. To improve realism, we train our model using multiple discriminators while also integrating geometric cues in the form of predicted 2D normal maps. We experimentally find that our method outperforms previous 3D- and articulation-aware methods in terms of geometry and appearance. We validate the effectiveness of our model and the importance of each component via systematic ablation studies.
翻訳日:2023-05-04 13:39:56 公開日:2023-05-03
# JaqalPaw: Jaqalのパルスと波形を定義するためのガイド

JaqalPaw: A Guide to Defining Pulses and Waveforms for Jaqal ( http://arxiv.org/abs/2305.02311v1 )

ライセンス: Link先を確認
Daniel Lobser, Joshua Goldberg, Andrew J. Landahl, Peter Maunz, Benjamin C. A. Morrison, Kenneth Rudinger, Antonio Russo, Brandon Ruzic, Daniel Stick, Jay Van Der Wall, Susan M. Clark(参考訳) QSCOUTのようなオープンなユーザテストベッドを開発する上での課題のひとつは,表現性やコントロールを損なうことなく,シンプルさを維持するインターフェースを提供することだ。 このインターフェースは、ゲートレベルで量子回路を指定するために設計された量子アセンブリ言語と、特定の量子演算を実現する波形でゲートを記述するために使用される低レベルの言語である。 jaqal(ジャカル、just another quantum assembly language)は、qscoutにおいて量子回路のゲートレベル記述に使用される言語である。 ジャカルパウ(jaqalpaw)またはジャカルパウ(jaqal pulses and waveforms)はそのパルスレベルである。 この文書は後者に関するもので、ゲートプリミティブに関連する波形を正確に定義するために必要なツールの説明を示す。

One of the many challenges of developing an open user testbed such as QSCOUT is providing an interface that maintains simplicity without compromising expressibility or control. This interface comprises two distinct elements: a quantum assembly language designed for specifying quantum circuits at the gate level, and a low-level counterpart used for describing gates in terms of waveforms that realize specific quantum operations. Jaqal, or "Just another quantum assembly language," is the language used in QSCOUT for gate-level descriptions of quantum circuits. JaqalPaw, or "Jaqal pulses and waveforms," is its pulse-level counterpart. This document concerns the latter, and presents a description of the tools needed for precisely defining the underlying waveforms associated with a gate primitive.
翻訳日:2023-05-04 13:39:35 公開日:2023-05-03
# 単一画像画像ビュー合成のためのリアルタイム放射場

Real-Time Radiance Fields for Single-Image Portrait View Synthesis ( http://arxiv.org/abs/2305.02310v1 )

ライセンス: Link先を確認
Alex Trevithick, Matthew Chan, Michael Stengel, Eric R. Chan, Chao Liu, Zhiding Yu, Sameh Khamis, Manmohan Chandraker, Ravi Ramamoorthi, Koki Nagano(参考訳) 本研究では,1枚の未提示画像(例えば顔画像)からリアルタイムに写実的な3D表現を推測・描画するワンショット手法を提案する。 一つのRGB入力が与えられた場合、画像エンコーダは、ボリュームレンダリングによる3次元新規ビュー合成のためのニューラルラディアンスフィールドの標準三面体表現を直接予測する。 提案手法は消費者ハードウェア上で高速(24fps)であり,テスト時間最適化を必要とする強力なGAN反転ベースラインよりも高品質な結果が得られる。 三面体エンコーダパイプラインの訓練には合成データのみを使用し、事前訓練された3D GANからフィードフォワードエンコーダへの知識の蒸留方法を示す。 技術的コントリビューションには、Vision Transformerベースのトリプレーンエンコーダ、カメラデータ拡張戦略、合成データトレーニングのためのよく設計された損失機能などがある。 我々は最先端の手法に対してベンチマークを行い、現実の環境に挑戦する際の堅牢性や画質を大幅に改善したことを示す。 我々は,顔(FFHQ)と猫(AFHQ)の肖像画を展示するが,将来は3D画像生成装置を用いた他のカテゴリにも適用できる。

We present a one-shot method to infer and render a photorealistic 3D representation from a single unposed image (e.g., face portrait) in real-time. Given a single RGB input, our image encoder directly predicts a canonical triplane representation of a neural radiance field for 3D-aware novel view synthesis via volume rendering. Our method is fast (24 fps) on consumer hardware, and produces higher quality results than strong GAN-inversion baselines that require test-time optimization. To train our triplane encoder pipeline, we use only synthetic data, showing how to distill the knowledge from a pretrained 3D GAN into a feedforward encoder. Technical contributions include a Vision Transformer-based triplane encoder, a camera data augmentation strategy, and a well-designed loss function for synthetic data training. We benchmark against the state-of-the-art methods, demonstrating significant improvements in robustness and image quality in challenging real-world settings. We showcase our results on portraits of faces (FFHQ) and cats (AFHQ), but our algorithm can also be applied in the future to other categories with a 3D-aware image generator.
翻訳日:2023-05-04 13:39:23 公開日:2023-05-03
# codegen2: プログラミングと自然言語に関するllmトレーニングの教訓

CodeGen2: Lessons for Training LLMs on Programming and Natural Languages ( http://arxiv.org/abs/2305.02309v1 )

ライセンス: Link先を確認
Erik Nijkamp, Hiroaki Hayashi, Caiming Xiong, Silvio Savarese, Yingbo Zhou(参考訳) 大規模言語モデル(LLM)は、プログラム合成および理解タスクの表現学習において顕著な能力を示した。 学習された表現の質は、モデルのパラメータ数と観測値の関数としてのニューラルネットワークのスケーリング則によって決定され、モデルの性能の上限は利用可能なデータ量と計算コストによって決定される。 本研究では,(1)モデルアーキテクチャ,(2)学習方法,(3)インフィルサンプリング,(4)データ分散の4つの主要コンポーネントを統合することで,プログラム合成のためのLCMのトレーニングをより効率的に行うことを試みる。 具体的には、モデルアーキテクチャにおいて、エンコーダとデコーダベースのモデルを単一のプレフィックスLMに統一しようと試みる。 学習方法です (i)因果言語モデリング (ii)汚職をまねる。 (iii)インフィルは単純な学習アルゴリズムに統合される。 インフィルサンプリングのために、我々は「フリーランチ」仮説の主張を探求する。 データ分布について,プログラミングと自然言語の混合分布がモデル性能に与える影響を考察した。 我々は1B LLMの総合的な実験を行い、この探索の失敗と成功を4つの教訓に抽出した。 CodeGen2モデルをサイズ1B、3.7B、7B、16Bパラメータでトレーニングしリリースするための最後のレシピと、オープンソースとしてトレーニングフレームワークを提供する。

Large language models (LLMs) have demonstrated remarkable abilities in representation learning for program synthesis and understanding tasks. The quality of the learned representations appears to be dictated by the neural scaling laws as a function of the number of model parameters and observations, while imposing upper bounds on the model performance by the amount of available data and compute, which is costly. In this study, we attempt to render the training of LLMs for program synthesis more efficient by unifying four key components: (1) model architectures, (2) learning methods, (3) infill sampling, and, (4) data distributions. Specifically, for the model architecture, we attempt to unify encoder and decoder-based models into a single prefix-LM. For learning methods, (i) causal language modeling, (ii) span corruption, (iii) infilling are unified into a simple learning algorithm. For infill sampling, we explore the claim of a "free lunch" hypothesis. For data distributions, the effect of a mixture distribution of programming and natural languages on model performance is explored. We conduct a comprehensive series of empirical experiments on 1B LLMs, for which failures and successes of this exploration are distilled into four lessons. We will provide a final recipe for training and release CodeGen2 models in size 1B, 3.7B, 7B, and, 16B parameters, along with the training framework as open-source: https://github.com/salesforce/CodeGen2.
翻訳日:2023-05-04 13:39:02 公開日:2023-05-03
# Fashionpedia-Taste:人間のファッション味を説明するためのデータセット

Fashionpedia-Taste: A Dataset towards Explaining Human Fashion Taste ( http://arxiv.org/abs/2305.02307v1 )

ライセンス: Link先を確認
Mengyun Shi, Serge Belongie, Claire Cardie(参考訳) 既存のファッションデータセットは、消費者がファッションイメージを好むか嫌いにするマルチファクトを考慮しない。 同じファッションイメージを好む2人の消費者でさえ、このイメージを全く異なる理由で好むことができる。 本稿では,消費者がファッションイメージを好む理由について考察する。 この目標に向けて、以下の3つの視点から、なぜ被写体がファッションイメージを好まないかを説明するリッチアノテーションからなる解釈可能性データセット、Fashionpedia-tasteを導入する。 1) ローカライズされた属性 2)人間の注意 3)キャプション。 さらに、パーソナリティや好みのファッションブランドなど、ファッションに対する個人的属性や好みの提示も求められる。 我々のデータセットは、研究者が人間のファッションの味を、異なる人文論的視点とモダリティから完全に理解し解釈する計算モデルを構築することを可能にする。

Existing fashion datasets do not consider the multi-facts that cause a consumer to like or dislike a fashion image. Even two consumers like a same fashion image, they could like this image for total different reasons. In this paper, we study the reason why a consumer like a certain fashion image. Towards this goal, we introduce an interpretability dataset, Fashionpedia-taste, consist of rich annotation to explain why a subject like or dislike a fashion image from the following 3 perspectives: 1) localized attributes; 2) human attention; 3) caption. Furthermore, subjects are asked to provide their personal attributes and preference on fashion, such as personality and preferred fashion brands. Our dataset makes it possible for researchers to build computational models to fully understand and interpret human fashion taste from different humanistic perspectives and modalities.
翻訳日:2023-05-04 13:38:41 公開日:2023-05-03
# 潜在特徴と接地ラベルの相互情報最大化によるロングテール認識

Long-Tailed Recognition by Mutual Information Maximization between Latent Features and Ground-Truth Labels ( http://arxiv.org/abs/2305.01160v2 )

ライセンス: Link先を確認
Min-Kook Suh and Seung-Woo Seo(参考訳) コントラスト学習手法は,様々な表現学習タスクにおいて有意な性能を示したが,訓練データセットが長期化されると困難に陥る。 多くの研究者は、この問題を解決するためにコントラスト学習とロジット調整技術を組み合わせたが、これらの組み合わせはアドホックに行われ、理論的背景はまだ提供されていない。 本稿の目標は,背景を提供し,パフォーマンスをさらに向上させることである。 まず,ロングテールタスクに苦しむコントラスト学習の基本的な理由は,潜在特徴量と入力データ間の相互情報最大化を最大化しようとすることである。 基底ラベルは最大化では考慮されないため、クラスラベル間の不均衡に対処することはできない。 むしろ、ロングテール認識タスクを潜在特徴と接地ラベルの相互情報最大化として解釈する。 このアプローチは、コントラスト学習とロジット調整をシームレスに統合し、ロングテール認識ベンチマークで最先端のパフォーマンスを示す損失関数を導出する。 また、画像分割タスクにおいて有効性を示し、画像分類を超えた汎用性を検証する。

Although contrastive learning methods have shown prevailing performance on a variety of representation learning tasks, they encounter difficulty when the training dataset is long-tailed. Many researchers have combined contrastive learning and a logit adjustment technique to address this problem, but the combinations are done ad-hoc and a theoretical background has not yet been provided. The goal of this paper is to provide the background and further improve the performance. First, we show that the fundamental reason contrastive learning methods struggle with long-tailed tasks is that they try to maximize the mutual information maximization between latent features and input data. As ground-truth labels are not considered in the maximization, they are not able to address imbalances between class labels. Rather, we interpret the long-tailed recognition task as a mutual information maximization between latent features and ground-truth labels. This approach integrates contrastive learning and logit adjustment seamlessly to derive a loss function that shows state-of-the-art performance on long-tailed recognition benchmarks. It also demonstrates its efficacy in image segmentation tasks, verifying its versatility beyond image classification.
翻訳日:2023-05-04 11:23:06 公開日:2023-05-03
# 制約付き多目的フェデレーション学習におけるプライバシ、ユーティリティ、効率の最適化

Optimizing Privacy, Utility and Efficiency in Constrained Multi-Objective Federated Learning ( http://arxiv.org/abs/2305.00312v2 )

ライセンス: Link先を確認
Yan Kang, Hanlin Gu, Xingxing Tang, Yuanqin He, Yuzhu Zhang, Jinnan He, Yuxing Han, Lixin Fan, Qiang Yang(参考訳) 従来、連合学習は単一の目的、通常はユーティリティを最適化することを目的としていた。 しかし、連合学習システムが信頼できるためには、モデル性能の最大化、プライバシのリークとトレーニングコストの最小化、悪意のある攻撃に対する堅牢性など、複数の目標を同時に満たす必要がある。 複数の競合する目的を同時に最適化することを目的とした多目的最適化(MOO)は、信頼できるフェデレートラーニング(TFL)の最適化問題を解決するのに非常に適している。 本稿では,制約付き多目的フェデレーション学習(CMOFL)の問題を定式化し,MOOとTFLを統一する。 この定式化の下では、既存のMOOアルゴリズムをTFLに簡単に適用することができる。 汎用性,効率性,公平性,堅牢性を重視した既存のcmoflとは違って,tflシステムの3つの主な目的であるユーティリティ損失とトレーニングコストとともに,プライバシリークの最適化を検討する。 NSGA-II と PSL に基づく 2 つの改良された CMOFL アルゴリズムを開発し,Pareto 最適解を効果的かつ効率的に検出し,その収束に関する理論的解析を行った。 我々は、ランダム化、BatchCrypt(同型暗号化の効率的なバージョン)、スパシフィケーションの3つのプライバシ保護メカニズムに対して、プライバシー漏洩、ユーティリティ損失、トレーニングコストの具体的な測定を設計する。 3つの保護機構のそれぞれで実験を行い,提案手法の有効性を実証した。

Conventionally, federated learning aims to optimize a single objective, typically the utility. However, for a federated learning system to be trustworthy, it needs to simultaneously satisfy multiple/many objectives, such as maximizing model performance, minimizing privacy leakage and training cost, and being robust to malicious attacks. Multi-Objective Optimization (MOO) aiming to optimize multiple conflicting objectives at the same time is quite suitable for solving the optimization problem of Trustworthy Federated Learning (TFL). In this paper, we unify MOO and TFL by formulating the problem of constrained multi-objective federated learning (CMOFL). Under this formulation, existing MOO algorithms can be adapted to TFL straightforwardly. Different from existing CMOFL works focusing on utility, efficiency, fairness, and robustness, we consider optimizing privacy leakage along with utility loss and training cost, the three primary objectives of a TFL system. We develop two improved CMOFL algorithms based on NSGA-II and PSL, respectively, for effectively and efficiently finding Pareto optimal solutions, and we provide theoretical analysis on their convergence. We design specific measurements of privacy leakage, utility loss, and training cost for three privacy protection mechanisms: Randomization, BatchCrypt (An efficient version of homomorphic encryption), and Sparsification. Empirical experiments conducted under each of the three protection mechanisms demonstrate the effectiveness of our proposed algorithms.
翻訳日:2023-05-04 11:22:38 公開日:2023-05-03
# Promptは必要なものすべて? いいえ。 包括的かつ広範な授業学習の視点

Is Prompt All You Need? No. A Comprehensive and Broader View of Instruction Learning ( http://arxiv.org/abs/2303.10475v5 )

ライセンス: Link先を確認
Renze Lou, Kai Zhang, Wenpeng Yin(参考訳) タスクのセマンティクスは入力から出力までの例のセットやテキストによる命令で表現できる。 自然言語処理(NLP)に対する従来の機械学習アプローチは主に、タスク固有の大規模データセットの可用性に依存している。 まず、タスク固有のラベル付き例の収集は、タスクが複雑すぎるか、アノテートにコストがかかりすぎるか、あるいはシステムが新しいタスクを即座に処理する必要があるシナリオには適用されない。 そのため、NLPの新しい監督・探索パラダイムであるタスク命令からの学習への関心が高まっている。 その目覚ましい進歩にもかかわらず、コミュニティが抱える共通の問題はいくつかある。 本稿では,授業学習に関する現在の研究,特に以下の質問への回答を要約し,考察する。 (i)タスク命令とは何で、どのような命令型が存在するか。 (ii)指示のモデル化方法? (三)指示の実行に影響を及ぼし、説明する要因は何か。 (iv) 指導学習に残る課題は何か? 私たちの知る限りでは、これはテキストによるインストラクションに関する最初の包括的な調査です。

Task semantics can be expressed by a set of input-to-output examples or a piece of textual instruction. Conventional machine learning approaches for natural language processing (NLP) mainly rely on the availability of large-scale sets of task-specific examples. Two issues arise: first, collecting task-specific labeled examples does not apply to scenarios where tasks may be too complicated or costly to annotate, or the system is required to handle a new task immediately; second, this is not user-friendly since end-users are probably more willing to provide task description rather than a set of examples before using the system. Therefore, the community is paying increasing interest in a new supervision-seeking paradigm for NLP: learning from task instructions. Despite its impressive progress, there are some common issues that the community struggles with. This survey paper tries to summarize and provide insights into the current research on instruction learning, particularly by answering the following questions: (i) What is task instruction, and what instruction types exist? (ii) How to model instructions? (iii) What factors influence and explain the instructions' performance? (iv) What challenges remain in instruction learning? To our knowledge, this is the first comprehensive survey about textual instructions.
翻訳日:2023-05-04 11:22:11 公開日:2023-05-03
# 中性水素分子形成における核スピンと電子スピンの効果の比較

Comparing the effects of nuclear and electron spins on the formation of neutral hydrogen molecule ( http://arxiv.org/abs/2303.10413v3 )

ライセンス: Link先を確認
Miao Hui-hui and Ozhigov Yuri Igorevich(参考訳) 光学キャビティ内の量子ドット上に2つの2層人工原子を持つ化学の有限次元空洞量子力学モデルである中性水素分子の結合解離モデルについて,Tavis-Cummings-Hubbardモデルに基づく。 原子核の運動は量子形式で表される。 電子スピン転移とスピンスピン相互作用はどちらも考慮される。 また、中性水素分子の形成に対する核スピンと電子スピンの影響についても考察する。

We introduce the association-dissociation model of neutral hydrogen molecule, which is a finite-dimensional cavity quantum electrodynamics model of chemistry with two two-level artificial atoms on quantum dots placed in optical cavities, based on the Tavis-Cummings-Hubbard model. The motion of the nuclei can be represented in quantum form. Electron spin transition and spin-spin interaction between electron and nucleus are both considered. Consideration is also given to the effects of nuclear and electron spins on the formation of neutral hydrogen molecule.
翻訳日:2023-05-04 11:21:55 公開日:2023-05-03
# 調和トラップに閉じ込められた2つの単純化されたライドバーグ原子の詳細な解析

Detailed analysis of two simplified Rydberg dressed atoms confined in a harmonic trap ( http://arxiv.org/abs/2301.06045v3 )

ライセンス: Link先を確認
Leila Chia and Nabila Grar(参考訳) ステップのようなポテンシャルを用いることで、2つの原子間の相互作用のリドバーグ短距離部分を模倣することができる。 この場合、Schr\"{o}dinger 方程式の解析解を確立することは容易である。 本論文では,異なる相互作用スキーム(強度と範囲),異なる次元,空間的相関に影響を及ぼす要因に着目し,この単純化されたモデルを詳細に分析する。 我々は, 摂動処理をポテンシャルに適用することで, このモデルの改良を実現することができる。 また, 潜在的特徴の急激な変化に関連する動的側面についても検討した。

By using a step-like potential, it is possible to mimic the Rydberg short range part of the interaction between two atoms. It is easy in this case to establish an analytical solution of the Schr\"{o}dinger equation. In this contribution, we are analyzing in detail this simplified model by highlighting the major players in different interaction schemes (strengths and ranges), different dimensionalities and the impact on spatial correlation. We are able to achieve an improvement to this model by applying a perturbation treatment to the potential. The dynamical aspects related to a sudden change of the potential features are also investigated.
翻訳日:2023-05-04 11:21:45 公開日:2023-05-03
# アバターマブ:モーションアウェアニューラルボクセルを用いた高速3次元頭部アバター再構成

AvatarMAV: Fast 3D Head Avatar Reconstruction Using Motion-Aware Neural Voxels ( http://arxiv.org/abs/2211.13206v3 )

ライセンス: Link先を確認
Yuelang Xu, Lizhen Wang, Xiaochen Zhao, Hongwen Zhang, Yebin Liu(参考訳) 顔の再現に広く利用されているNeRFでは、最近の方法は単眼ビデオから写実的な3D頭部アバターを回収することができる。 残念なことに、NeRFベースの手法のトレーニングプロセスは非常に時間がかかり、NeRFベースの手法で使用されるMPPは非効率であり、収束するにはイテレーションが多すぎる。 この問題を解決するために,モーション対応ニューラルボクセルを用いた高速な3次元頭部アバター再構成法であるAvatarMAVを提案する。 アバターMAVは、頭アバターの神経ボクセルによる標準的外観と解離した表情運動の両方をモデル化した最初のものである。 特に、複数の4次元テンソルの重み付け連結から運動認識型ニューラルボクセルが生成される。 4Dテンソルは意味的に3DMM式ベースと1対1に対応し、3DMM式係数と同じ重みを共有する。 提案するアバターマブは,新しい表現の利点を生かして,写真に写実的な頭部アバターをわずか5分で回収できる(ピュアトルチを組み込んだ)。 プロジェクトページ: https://www.liuyebin.com/avatarmav。

With NeRF widely used for facial reenactment, recent methods can recover photo-realistic 3D head avatar from just a monocular video. Unfortunately, the training process of the NeRF-based methods is quite time-consuming, as MLP used in the NeRF-based methods is inefficient and requires too many iterations to converge. To overcome this problem, we propose AvatarMAV, a fast 3D head avatar reconstruction method using Motion-Aware Neural Voxels. AvatarMAV is the first to model both the canonical appearance and the decoupled expression motion by neural voxels for head avatar. In particular, the motion-aware neural voxels is generated from the weighted concatenation of multiple 4D tensors. The 4D tensors semantically correspond one-to-one with 3DMM expression basis and share the same weights as 3DMM expression coefficients. Benefiting from our novel representation, the proposed AvatarMAV can recover photo-realistic head avatars in just 5 minutes (implemented with pure PyTorch), which is significantly faster than the state-of-the-art facial reenactment methods. Project page: https://www.liuyebin.com/avatarmav.
翻訳日:2023-05-04 11:21:34 公開日:2023-05-03
# 2つの時間スケール更新ルールを持つ生成逆数ネットワークのトレーニングのための臨界バッチサイズの存在と推定

Existence and Estimation of Critical Batch Size for Training Generative Adversarial Networks with Two Time-Scale Update Rule ( http://arxiv.org/abs/2201.11989v3 )

ライセンス: Link先を確認
Naoki Sato and Hideaki Iiduka(参考訳) 従来,2つの時間スケール更新規則(TTUR)は,異なる学習率,あるいは異なる減衰率などの異なる学習速度を用いて,理論上,実際に生成的敵ネットワーク(GAN)を訓練するのに有用であった。 さらに, 学習速度だけでなく, バッチサイズも, TTURを用いたGANの訓練において重要であり, どちらも訓練に必要なステップ数に影響を与える。 本稿では,一定の学習率に基づいて,バッチサイズとGANをTTURで訓練するために必要なステップ数との関係について検討する。 理論的には、一定の学習率を持つTTURの場合、判別器とジェネレータの両方の損失関数の定常点を見つけるために必要なステップの数は、バッチサイズが大きくなるにつれて減少し、確率的一階オラクル(SFO)の複雑さを最小化する臨界バッチサイズが存在することを示す。 次に、Fr'echet開始距離(FID)をトレーニングのパフォーマンス指標とし、バッチサイズが大きくなるにつれて、低いFIDスコアを達成するために必要なステップの数が減少し、バッチサイズが測定されたクリティカルバッチサイズを超えると、SFOの複雑さが増加することを示す数値結果を提供する。 さらに, 評価された臨界バッチサイズは, 理論結果から推定したサイズに近いことがわかった。

Previous results have shown that a two time-scale update rule (TTUR) using different learning rates, such as different constant rates or different decaying rates, is useful for training generative adversarial networks (GANs) in theory and in practice. Moreover, not only the learning rate but also the batch size is important for training GANs with TTURs and they both affect the number of steps needed for training. This paper studies the relationship between batch size and the number of steps needed for training GANs with TTURs based on constant learning rates. We theoretically show that, for a TTUR with constant learning rates, the number of steps needed to find stationary points of the loss functions of both the discriminator and generator decreases as the batch size increases and that there exists a critical batch size minimizing the stochastic first-order oracle (SFO) complexity. Then, we use the Fr'echet inception distance (FID) as the performance measure for training and provide numerical results indicating that the number of steps needed to achieve a low FID score decreases as the batch size increases and that the SFO complexity increases once the batch size exceeds the measured critical batch size. Moreover, we show that measured critical batch sizes are close to the sizes estimated from our theoretical results.
翻訳日:2023-05-04 11:21:13 公開日:2023-05-03
# デジタル量子コンピュータにおける物質臨界状態の探索

Probing critical states of matter on a digital quantum computer ( http://arxiv.org/abs/2305.01650v2 )

ライセンス: Link先を確認
Reza Haghshenas, Eli Chertkov, Matthew DeCross, Thomas M. Gatterman, Justin A. Gerber, Kevin Gilmore, Dan Gresh, Nathan Hewitt, Chandler V. Horst, Mitchell Matheny, Tanner Mengle, Brian Neyenhuis, David Hayes, Michael Foss-Feig(参考訳) 量子力学は全ての材料の微視的挙動を基礎としているが、その効果はしばしば熱揺らぎによってマクロなレベルで隠されている。 特筆すべき例外はゼロ温度の相転移であり、ここではスケーリング法則は発散する長さスケールの量子相関によって完全に現れる。 このような遷移の正確な記述は古典的な量子系のシミュレーション法では困難であり、量子シミュレーションの自然な応用分野である。 しかし、これらの量子シミュレーションは、自身の課題である‘textemdash〜representing quantum critical state on a quantum computer requires enanglement of a high degree of freedom, put strict demand on the coherence and fidelity of the computer's operations。 クァンティンヌムのh1-1量子コンピュータを用いて、階層的量子テンソルネットワーク技術を用いて、モデルの正確な臨界特性を抽出するのに十分な忠実度を持つ128箇所の臨界横場イジングチェーンの基底状態を作成することで、これらの課題に対処した。 本研究は,古典的手法の限界を超えた量子支援テンソルネットワークの縮小に有効な経路を示唆する。

Although quantum mechanics underpins the microscopic behavior of all materials, its effects are often obscured at the macroscopic level by thermal fluctuations. A notable exception is a zero-temperature phase transition, where scaling laws emerge entirely due to quantum correlations over a diverging length scale. The accurate description of such transitions is challenging for classical simulation methods of quantum systems, and is a natural application space for quantum simulation. These quantum simulations are, however, not without their own challenges \textemdash~representing quantum critical states on a quantum computer requires encoding entanglement of a large number of degrees of freedom, placing strict demands on the coherence and fidelity of the computer's operations. Using Quantinuum's H1-1 quantum computer, we address these challenges by employing hierarchical quantum tensor-network techniques, creating the ground state of the critical transverse-field Ising chain on 128-sites with sufficient fidelity to extract accurate critical properties of the model. Our results suggest a viable path to quantum-assisted tensor network contraction beyond the limits of classical methods.
翻訳日:2023-05-04 11:14:41 公開日:2023-05-03
# 蒸留か注釈か? コンパクトモデルのコスト効率の良い微調整

Distill or Annotate? Cost-Efficient Fine-Tuning of Compact Models ( http://arxiv.org/abs/2305.01645v2 )

ライセンス: Link先を確認
Junmo Kang, Wei Xu, Alan Ritter(参考訳) 微調整された大型モデルは非常に効果的であるが、これらのモデルを用いた推論は高価であり、二酸化炭素を排出する可能性がある。 知識蒸留は推論コストを削減するための実用的な方法であることが示されているが、蒸留プロセス自体はかなりの計算資源を必要とする。 コンパクトなモデルを必要とするNLP実践者は、GPUを購入したり借りたりするのではなく、アノテータを雇うために利用可能な予算を割り当てたり、追加の微調整データを手動でラベル付けしたりする。 本稿では,固定予算を最も効率的に利用してコンパクトモデルを構築する方法について検討する。 T5-XXL (11B) から T5-Small (60M) への蒸留は,6つの多種多様な NLP タスクに関する広範な実験を通して,コンパクトモデル(60M) を直接訓練するデータに注釈を付けるよりも,ほぼ常にコスト効率のよい選択肢であることが判明した。 さらに,有効性を最大化する蒸留量は,様々な予算シナリオで異なることを示す。

Fine-tuning large models is highly effective, however, inference using these models can be expensive and produces carbon emissions. Knowledge distillation has been shown to be a practical solution to reduce inference costs, but the distillation process itself requires significant computational resources. Rather than buying or renting GPUs to fine-tune, then distill a large model, an NLP practitioner who needs a compact model might also choose to simply allocate an available budget to hire annotators and manually label additional fine-tuning data. In this paper, we investigate how to most efficiently use a fixed budget to build a compact model. Through our extensive experiments on six diverse NLP tasks, we find that distilling from T5-XXL (11B) to T5-Small (60M) leads to almost always a cost-efficient option compared to annotating more data to directly train a compact model (T5-Small (60M)). We further demonstrate that the optimal amount of distillation that maximizes utility varies across different budgetary scenarios.
翻訳日:2023-05-04 11:14:20 公開日:2023-05-03
# 言葉からコードへ:自然言語からのプログラム合成のためのハーネスデータ

From Words to Code: Harnessing Data for Program Synthesis from Natural Language ( http://arxiv.org/abs/2305.01598v2 )

ライセンス: Link先を確認
Anirudh Khatry, Joyce Cahoon, Jordan Henkel, Shaleen Deep, Venkatesh Emani, Avrilia Floratou, Sumit Gulwani, Vu Le, Mohammad Raza, Sherry Shi, Mukul Singh, Ashish Tiwari(参考訳) 基礎となるプログラミング言語やAPIは、熟練したプログラマでない多くのユーザにとって学ぶことが難しいため、データを正しく操作するプログラムを作成することは難しい作業です。 大規模言語モデル(LLM)は、自然言語からコードを生成する素晴らしい可能性を示しているが、データ操作領域では、意図したタスクの自然言語(NL)記述とは別に、タスクを実行するデータセットや「データコンテキスト」も持っている。 既存のアプローチでは、LPMに送信されたプロンプトに入力データから関連する情報を単に追加することで、データコンテキストを限定的に活用している。 本研究では、利用可能な入力データを用いてLSMが生成した候補プログラムを実行し、その出力を収集する。 プログラムが出力する3つの信号に基づいてLLMが生成したプログラムをリランクするセマンティックリグレードを導入する。 (a)セマンティックフィルタリングと well-formedness に基づくスコアチューニング: プログラムは well-formed output を生成する。 (b)セマンティクス・インターリーブ:異なる候補からのアウトプットが互いにどのように比較されるか。 (c) 出力ベースのスコアチューニング: 出力を同じタスクで予測された出力と比較する方法。 セマンティックインターリービングの理論的正当化を提供する。 また,LLMが生成する試料を高温と低温の両方で混合する温度混合も導入した。 我々は、データベース(SQL)、データサイエンス(パンダ)、ビジネスインテリジェンス(ExcelのPower Query M)の3つの領域において、様々な新しいベンチマークと既存のベンチマークでアプローチを広く評価する。 top-1の精度は最大45%、top-3の精度は34%向上しました。

Creating programs to correctly manipulate data is a difficult task, as the underlying programming languages and APIs can be challenging to learn for many users who are not skilled programmers. Large language models (LLMs) demonstrate remarkable potential for generating code from natural language, but in the data manipulation domain, apart from the natural language (NL) description of the intended task, we also have the dataset on which the task is to be performed, or the "data context". Existing approaches have utilized data context in a limited way by simply adding relevant information from the input data into the prompts sent to the LLM. In this work, we utilize the available input data to execute the candidate programs generated by the LLMs and gather their outputs. We introduce semantic reranking, a technique to rerank the programs generated by LLMs based on three signals coming the program outputs: (a) semantic filtering and well-formedness based score tuning: do programs even generate well-formed outputs, (b) semantic interleaving: how do the outputs from different candidates compare to each other, and (c) output-based score tuning: how do the outputs compare to outputs predicted for the same task. We provide theoretical justification for semantic interleaving. We also introduce temperature mixing, where we combine samples generated by LLMs using both high and low temperatures. We extensively evaluate our approach in three domains, namely databases (SQL), data science (Pandas) and business intelligence (Excel's Power Query M) on a variety of new and existing benchmarks. We observe substantial gains across domains, with improvements of up to 45% in top-1 accuracy and 34% in top-3 accuracy.
翻訳日:2023-05-04 11:13:58 公開日:2023-05-03
# 限定的関係抽出のための大規模言語モデルのパワーを解き放つには?

How to Unleash the Power of Large Language Models for Few-shot Relation Extraction? ( http://arxiv.org/abs/2305.01555v2 )

ライセンス: Link先を確認
Xin Xu, Yuqi Zhu, Xiaohan Wang, Ningyu Zhang(参考訳) 言語モデルのスケーリングは、広範囲にわたるnlpタスクに革命をもたらしたが、大規模言語モデルによる限定的な関係抽出を包括的に検討した例はほとんどない。 本稿では,GPT-3.5による一括関係抽出のための基本手法,文脈内学習とデータ生成について,徹底的な実験により検討する。 少数ショットの性能を向上させるため,タスク関連命令とスキーマ制約付きデータ生成を提案する。 コンテキスト内学習は,従来のプロンプト学習手法と同等のパフォーマンスを達成し,大規模言語モデルによるデータ生成は,4つの広く研究された関係抽出データセットに対して,新たな最先端の限定的な結果を得るための,これまでのソリューションを促進できる。 我々の研究が、数ショットの関係抽出における大規模言語モデルの能力に関する将来の研究を刺激することを期待している。 コードはhttps://github.com/zjunlp/DeepKE/tree/main/example/llmで入手できる。

Scaling language models have revolutionized widespread NLP tasks, yet little comprehensively explored few-shot relation extraction with large language models. In this paper, we investigate principal methodologies, in-context learning and data generation, for few-shot relation extraction via GPT-3.5 through exhaustive experiments. To enhance few-shot performance, we further propose task-related instructions and schema-constrained data generation. We observe that in-context learning can achieve performance on par with previous prompt learning approaches, and data generation with the large language model can boost previous solutions to obtain new state-of-the-art few-shot results on four widely-studied relation extraction datasets. We hope our work can inspire future research for the capabilities of large language models in few-shot relation extraction. Code is available in https://github.com/zjunlp/DeepKE/tree/main/example/llm.
翻訳日:2023-05-04 11:13:28 公開日:2023-05-03
# 連続学習が可能なパラメータフリー適応共振理論に基づくトポロジカルクラスタリングアルゴリズム

A Parameter-free Adaptive Resonance Theory-based Topological Clustering Algorithm Capable of Continual Learning ( http://arxiv.org/abs/2305.01507v2 )

ライセンス: Link先を確認
Naoki Masuyama, Takanori Takebayashi, Yusuke Nojima, Chu Kiong Loo, Hisao Ishibuchi, Stefan Wermter(参考訳) 一般に、適応共振理論(ART)に基づくアルゴリズムにおけるノード学習プロセスの類似性しきい値(すなわち警戒パラメータ)はクラスタリング性能に大きな影響を及ぼす。 さらに、トポロジカルクラスタリングアルゴリズムにおけるエッジ削除しきい値が、自己組織化プロセス中に適切に分離されたクラスタを生成する上で重要な役割を果たす。 本稿では,パラメータ推定手法を導入することで,連続学習が可能なパラメータフリーなアートベーストポロジカルクラスタリングアルゴリズムを提案する。 合成および実世界のデータセットを用いた実験の結果,提案アルゴリズムは,パラメータを事前に指定することなく,最先端のクラスタリングアルゴリズムよりも優れたクラスタリング性能を示す。

In general, a similarity threshold (i.e., a vigilance parameter) for a node learning process in Adaptive Resonance Theory (ART)-based algorithms has a significant impact on clustering performance. In addition, an edge deletion threshold in a topological clustering algorithm plays an important role in adaptively generating well-separated clusters during a self-organizing process. In this paper, we propose a new parameter-free ART-based topological clustering algorithm capable of continual learning by introducing parameter estimation methods. Experimental results with synthetic and real-world datasets show that the proposed algorithm has superior clustering performance to the state-of-the-art clustering algorithms without any parameter pre-specifications.
翻訳日:2023-05-04 11:13:13 公開日:2023-05-03
# ランダム化測定による量子状態k設計の効率的な推定

Efficient estimation of quantum state k-designs with randomized measurements ( http://arxiv.org/abs/2305.01465v2 )

ライセンス: Link先を確認
Lorenzo Versini, Karim Alaa El-Din, Florian Mintert and Rick Mukherjee(参考訳) 純粋状態のランダムアンサンブルは、量子回路の性能のベンチマーク、量子優位性のテスト、多体熱化の新しい洞察の提供、ブラックホール情報パラドックスの研究など、量子物理学の様々な面で非常に重要であることが証明されている。 完全にランダムなアンサンブルを生成することはほとんど不可能であり、実験的に難しいが、近似は同様に有用であり、Rydbergセットアップを含む様々な物理モデルで自然に現れることが知られている。 これらは近似量子状態設計と呼ばれ、そのランダム性の程度を検証することは、多体系で完全な量子状態トモグラフィーを行うのと同様、高価な作業である。 本研究では,従来手法と比較してデータサイズ獲得に関して,近似量子設計の特性を効率的に検証する。 これは、複雑な多体状態に存在する情報をランダムな射影的測定基底を用いて古典データの簡潔な表現に変換し、ニューラルネットワークを含む統計的推論の方法を用いて処理することで実現される。 ランダム化測定から得られたデータを後処理して(近似)量子状態 k 設計の効率的なキャラクタリゼーションを行う機械学習手法を,量子設計を生成可能なノイズの多い量子プラットフォームに適用する。

Random ensembles of pure states have proven to be extremely important in various aspects of quantum physics such as benchmarking the performance of quantum circuits, testing for quantum advantage, providing novel insights for many-body thermalization and studying black hole information paradox. Although generating a fully random ensemble is almost impossible and experimentally challenging, approximations of it are just as useful and are known to emerge naturally in a variety of physical models, including Rydberg setups. These are referred to as approximate quantum state designs, and verifying their degree of randomness can be an expensive task, similar to performing full quantum state tomography on many-body systems. In this theoretical work, we efficiently validate the character of approximate quantum designs with respect to data size acquisition when compared to conventional frequentist approach. This is achieved by translating the information residing in the complex many-body state into a succinct representation of classical data using a random projective measurement basis, which is then processed, using methods of statistical inference including neural networks. Our scheme of combining machine learning methods for postprocessing the data obtained from randomized measurements for efficient characterisation of (approximate) quantum state k designs is applicable to any noisy quantum platform that can generate quantum designs.
翻訳日:2023-05-04 11:13:04 公開日:2023-05-03
# 最適保証付きLTL仕様からのモデルフリー強化学習のサンプル

Sample Efficient Model-free Reinforcement Learning from LTL Specifications with Optimality Guarantees ( http://arxiv.org/abs/2305.01381v2 )

ライセンス: Link先を確認
Daqian Shao and Marta Kwiatkowska(参考訳) 線形時間論理(LTL)はシステムポリシーの高レベルな目的を規定するために広く用いられており、そのような仕様に関して最適なポリシーを学ぶことが自律システムにとって非常に望ましい。 しかし、LTL仕様から最適なポリシーを学ぶことは簡単ではない。 本稿では,マルコフ決定過程(mdps)を用いてモデル化した未知確率システムの最適方針を効率的に学習するモデルフリー強化学習(rl)手法を提案する。 そこで,本研究では,市販のモデルフリーrlアルゴリズムを併用することで,所定のltl仕様を満たす確率を最大化する最適ポリシーを効率的に学習する,より汎用的な製品mdp,報酬構造,割引機構を提案する。 また、最適性を確保するため、RLにおける鍵パラメータの選択に関する理論的結果も改善した。 学習したポリシーを直接評価するために,確率的モデルチェッカープリズムを採用し,それらの仕様を満たすポリシーの確率を計算する。 様々なLTLタスクにおける表型MDP環境に関するいくつかの実験は、サンプル効率と最適政策収束性の改善を実証している。

Linear Temporal Logic (LTL) is widely used to specify high-level objectives for system policies, and it is highly desirable for autonomous systems to learn the optimal policy with respect to such specifications. However, learning the optimal policy from LTL specifications is not trivial. We present a model-free Reinforcement Learning (RL) approach that efficiently learns an optimal policy for an unknown stochastic system, modelled using Markov Decision Processes (MDPs). We propose a novel and more general product MDP, reward structure and discounting mechanism that, when applied in conjunction with off-the-shelf model-free RL algorithms, efficiently learn the optimal policy that maximizes the probability of satisfying a given LTL specification with optimality guarantees. We also provide improved theoretical results on choosing the key parameters in RL to ensure optimality. To directly evaluate the learned policy, we adopt probabilistic model checker PRISM to compute the probability of the policy satisfying such specifications. Several experiments on various tabular MDP environments across different LTL tasks demonstrate the improved sample efficiency and optimal policy convergence.
翻訳日:2023-05-04 11:12:43 公開日:2023-05-03
# 教師付きマルチモーダル学習における一様特徴学習について

On Uni-Modal Feature Learning in Supervised Multi-Modal Learning ( http://arxiv.org/abs/2305.01233v2 )

ライセンス: Link先を確認
Chenzhuang Du, Jiaye Teng, Tingle Li, Yichen Liu, Tianyuan Yuan, Yue Wang, Yang Yuan, Hang Zhao(参考訳) 我々はマルチモーダルデータの特徴(すなわち学習表現)を抽象化する 1)ユニモーダルトレーニングから学べるユニモーダルの特徴,および 2) 相互モーダル相互作用からのみ学習できるペア機能。 マルチモーダルモデルは、一様特徴学習の保証に基づいて、相互モーダル相互作用の恩恵を受けることが期待される。 しかし,近年のマルチモーダル・レイト・フュージョン・トレーニングアプローチでは,各モダリティにおけるユニモーダル特徴の学習が不十分なままである。 この現象がモデルの一般化能力を損なうことを証明します。 そこで本研究では,Uni-Modal Ensemble (UME) とUni-Modal Teacher (UMT) から,Uni-Modal and paired feature の分布に応じて,教師付きマルチモーダルタスクを対象とした遅延融合学習手法を提案する。 簡単な誘導戦略により,VGG-Sound, Kinetics-400, UCF101, ModelNet40 など,様々なマルチモーダルデータセット上での遅延融合や中間融合手法に匹敵する結果が得られることを示す。

We abstract the features (i.e. learned representations) of multi-modal data into 1) uni-modal features, which can be learned from uni-modal training, and 2) paired features, which can only be learned from cross-modal interactions. Multi-modal models are expected to benefit from cross-modal interactions on the basis of ensuring uni-modal feature learning. However, recent supervised multi-modal late-fusion training approaches still suffer from insufficient learning of uni-modal features on each modality. We prove that this phenomenon does hurt the model's generalization ability. To this end, we propose to choose a targeted late-fusion learning method for the given supervised multi-modal task from Uni-Modal Ensemble(UME) and the proposed Uni-Modal Teacher(UMT), according to the distribution of uni-modal and paired features. We demonstrate that, under a simple guiding strategy, we can achieve comparable results to other complex late-fusion or intermediate-fusion methods on various multi-modal datasets, including VGG-Sound, Kinetics-400, UCF101, and ModelNet40.
翻訳日:2023-05-04 11:12:23 公開日:2023-05-03
# バックドア攻撃のトリガーとしてのプロンプト:言語モデルの脆弱性を調べる

Prompt as Triggers for Backdoor Attack: Examining the Vulnerability in Language Models ( http://arxiv.org/abs/2305.01219v2 )

ライセンス: Link先を確認
Shuai Zhao, Jinming Wen, Luu Anh Tuan, Junbo Zhao, Jie Fu(参考訳) 事前学習と微調整のギャップを埋めるプロンプトベースの学習パラダイムは、いくつかのNLPタスク、特に数ショット設定における最先端のパフォーマンスを実現する。 広く適用されているにもかかわらず、プロンプトベースの学習はバックドア攻撃に対して脆弱である。 テキストバックドア攻撃は、インジェクションインジェクションとラベル修正を通じてトレーニングサンプルのサブセットを汚染することにより、ターゲットとする脆弱性をモデルに導入するように設計されている。 しかし、毒サンプルのトリガーや不正なラベル付けによる異常な自然言語表現などの欠陥に悩まされている。 本研究では,プロンプト自体をトリガとして使用するプロンプトに基づいて,クリーンラベルバックドア攻撃を行う新規かつ効率的な手法であるproattackを提案する。 本手法は外部からのトリガーを必要とせず、被毒サンプルの正しいラベル付けを保証し、バックドア攻撃のステルス性を改善する。 リッチリソースおよび少数ショットテキスト分類タスクに関する広範な実験により、テキストバックドア攻撃におけるProAttackの競合性能を実証的に検証した。 特に、リッチリソース環境では、ProAttackは外部トリガなしでクリーンラベルバックドア攻撃ベンチマークで最先端の攻撃成功率を達成する。

The prompt-based learning paradigm, which bridges the gap between pre-training and fine-tuning, achieves state-of-the-art performance on several NLP tasks, particularly in few-shot settings. Despite being widely applied, prompt-based learning is vulnerable to backdoor attacks. Textual backdoor attacks are designed to introduce targeted vulnerabilities into models by poisoning a subset of training samples through trigger injection and label modification. However, they suffer from flaws such as abnormal natural language expressions resulting from the trigger and incorrect labeling of poisoned samples. In this study, we propose ProAttack, a novel and efficient method for performing clean-label backdoor attacks based on the prompt, which uses the prompt itself as a trigger. Our method does not require external triggers and ensures correct labeling of poisoned samples, improving the stealthy nature of the backdoor attack. With extensive experiments on rich-resource and few-shot text classification tasks, we empirically validate ProAttack's competitive performance in textual backdoor attacks. Notably, in the rich-resource setting, ProAttack achieves state-of-the-art attack success rates in the clean-label backdoor attack benchmark without external triggers.
翻訳日:2023-05-04 11:12:06 公開日:2023-05-03
# LatentAvatar: 表現型神経頭アバターの潜在表現コード学習

LatentAvatar: Learning Latent Expression Code for Expressive Neural Head Avatar ( http://arxiv.org/abs/2305.01190v2 )

ライセンス: Link先を確認
Yuelang Xu, Hongwen Zhang, Lizhen Wang, Xiaochen Zhao, Han Huang, Guojun Qi, Yebin Liu(参考訳) 既存のNeRFベースのヘッドアバターへのアプローチは、顔テンプレート上に構築されるか、テンプレートの表現係数を駆動信号として使用する。 期待された進歩にもかかわらず、その性能はテンプレートの表現力と追跡精度に大きく左右される。 本研究では,潜在表現符号によって駆動される表現型神経頭アバターであるLatentAvatarを紹介する。 このような潜在式コードはテンプレートを使わずにエンドツーエンドかつ自己管理的な方法で学習され,表現の除去やトラッキングの問題が解決される。 これを実現するために,潜伏頭部nerfを利用して単眼ポートレートビデオから人物固有潜時表現符号を学習し,さらにy字型ネットワークをデザインし,異なる被写体の共有潜時表現符号を学習し,相互同一性再現を行う。 NeRFにおける光度再構成の目的を最適化することにより、潜伏表現符号は高頻度の詳細な表現を忠実に捉えながら3D認識される。 さらに、共有と人固有の設定で学習した潜在表現コードのマッピングを学習することにより、LatentAvatarは異なる被験者間で表現的再現を行うことができる。 実験の結果, 歯や眼球の動きは, 定量的, 質的比較において, 従来の最先端のソリューションを上回り, 挑戦的な表現や微妙な動きを捉えることができた。 プロジェクトページ: https://www.liuyebin.com/latentavatar。

Existing approaches to animatable NeRF-based head avatars are either built upon face templates or use the expression coefficients of templates as the driving signal. Despite the promising progress, their performances are heavily bound by the expression power and the tracking accuracy of the templates. In this work, we present LatentAvatar, an expressive neural head avatar driven by latent expression codes. Such latent expression codes are learned in an end-to-end and self-supervised manner without templates, enabling our method to get rid of expression and tracking issues. To achieve this, we leverage a latent head NeRF to learn the person-specific latent expression codes from a monocular portrait video, and further design a Y-shaped network to learn the shared latent expression codes of different subjects for cross-identity reenactment. By optimizing the photometric reconstruction objectives in NeRF, the latent expression codes are learned to be 3D-aware while faithfully capturing the high-frequency detailed expressions. Moreover, by learning a mapping between the latent expression code learned in shared and person-specific settings, LatentAvatar is able to perform expressive reenactment between different subjects. Experimental results show that our LatentAvatar is able to capture challenging expressions and the subtle movement of teeth and even eyeballs, which outperforms previous state-of-the-art solutions in both quantitative and qualitative comparisons. Project page: https://www.liuyebin.com/latentavatar.
翻訳日:2023-05-04 11:11:45 公開日:2023-05-03