このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230512となっている論文です。

PDF登録状況(公開日: 20230512)

TitleAuthorsAbstract論文公表日・翻訳日
# リソースモデルを用いたKubernetesコンテナシステムのリソース消費予測

Predicting Resource Consumption of Kubernetes Container Systems using Resource Models ( http://arxiv.org/abs/2305.07651v1 )

ライセンス: Link先を確認
Gianluca Turin, Andrea Borgarelli, Simone Donetti, Ferruccio Damiani, Einar Broch Johnsen, Silvia Lizeth Tapia Tarifa(参考訳) クラウドコンピューティングは、組織が手頃なコストでサービスの高可用性を実現することによって、ソフトウェアの運用方法を大きく変えました。 コンテナ化されたマイクロサービスは、この変更を可能にするテクノロジであり、Kubernetesなどの高度なコンテナオーケストレーションプラットフォームは、サービス管理に使用される。 このようなオーケストレーションプラットフォームのための監視ツールのエコシステムは繁栄しているが、サービス管理は依然として主に手作業である。 クラウドコンピューティングシステムのモデリングは、自動管理のための重要なステップであるが、このような複雑なクラウドシステムのモデリングは依然として困難であり、未対応である。 実際、リソース消費のモデリングは、可能なデプロイメントシナリオの結果を比較するための鍵となるでしょう。 本稿では,クラウドシステムの資源モデルを経験的に導出する方法を検討する。 私たちは、明示的なCPUとメモリリソースを備えたフォーマルなモデリング言語でデプロイされたサービスのモデルに基づいています。 マイクロサービスアプリケーションをターゲットに、リアルタイムABSで開発されたKubernetesのモデルを提示します。 大規模デプロイメントにおける高輝度シナリオの実行をシミュレートするために,小規模デプロイメントから実証的に収集したデータを活用することを報告する。 このアプローチから生じる課題と限界を議論し,十分な精度を得るための制約を特定する。

Cloud computing has radically changed the way organisations operate their software by allowing them to achieve high availability of services at affordable cost. Containerized microservices is an enabling technology for this change, and advanced container orchestration platforms such as Kubernetes are used for service management. Despite the flourishing ecosystem of monitoring tools for such orchestration platforms, service management is still mainly a manual effort. The modeling of cloud computing systems is an essential step towards automatic management, but the modeling of cloud systems of such complexity remains challenging and, as yet, unaddressed. In fact modeling resource consumption will be a key to comparing the outcome of possible deployment scenarios. This paper considers how to derive resource models for cloud systems empirically. We do so based on models of deployed services in a formal modeling language with explicit CPU and memory resources; once the adherence to the real system is good enough, formal properties can be verified in the model. Targeting a likely microservices application, we present a model of Kubernetes developed in Real-Time ABS. We report on leveraging data collected empirically from small deployments to simulate the execution of higher intensity scenarios on larger deployments. We discuss the challenges and limitations that arise from this approach, and identify constraints under which we obtain satisfactory accuracy.
翻訳日:2023-10-24 08:55:24 公開日:2023-05-12
# コードの修理はどこで行うか? 神経モデルと開発者の注意を比べる

Where to Look When Repairing Code? Comparing the Attention of Neural Models and Developers ( http://arxiv.org/abs/2305.07287v1 )

ライセンス: Link先を確認
Dominik Huber, Matteo Paltenghi, Michael Pradel(参考訳) 自動プログラム修復のためのニューラルネットワークベースの技術は、ますます効果的になりつつある。 彼らの成功にもかかわらず、なぜ成功するか、失敗したのか、そして修理するコードに対する彼らの推論方法が、人間開発者とどのように比較されるのかは、ほとんど分かっていない。 本稿では,人間と神経プログラムの修復に関する最初の詳細な研究を行う。 特に,ヒトのバギーコードの一部と,人工神経修復モデルの2つの状態について検討する。 この比較は、98のバグ修正セッションのデータセットと、神経修復モデルの注意層を収集した、人間のコード編集のための新しい注意追跡インターフェイスによって実現されている。 その結果、人間と両方の神経モデルの注意が重なり合うこと(0.35対 0.44相関)が示されている。 同時に、人間とモデルの間の合意には改善の余地が残っており、人間と人間の相関関係が0.56と高いことが証明されている。 2つのモデルは主にバギーラインか周辺コンテキストに焦点を当てているが、開発者は時間とともに進化するハイブリッドアプローチを採用しており、バギーラインとその他のコンテキストに36.8%の注意が向けられている。 全体として、人間は正しい修正を見つけるのに明らかに効果的であり、67.3%に対して、正確に予測されたパッチは3%未満である。 この研究の結果とデータは、神経プログラム修復の内部過程を深く理解するための第一歩であり、神経修復モデルをさらに改善するための人間の開発者の行動に触発された洞察を提供する。

Neural network-based techniques for automated program repair are becoming increasingly effective. Despite their success, little is known about why they succeed or fail, and how their way of reasoning about the code to repair compares to human developers. This paper presents the first in-depth study comparing human and neural program repair. In particular, we investigate what parts of the buggy code humans and two state of the art neural repair models focus on. This comparison is enabled by a novel attention-tracking interface for human code editing, based on which we gather a dataset of 98 bug fixing sessions, and on the attention layers of neural repair models. Our results show that the attention of the humans and both neural models often overlaps (0.35 to 0.44 correlation). At the same time, the agreement between humans and models still leaves room for improvement, as evidenced by the higher human-human correlation of 0.56. While the two models either focus mostly on the buggy line or on the surrounding context, the developers adopt a hybrid approach that evolves over time, where 36.8% of the attention is given to the buggy line and the rest to the context. Overall, we find the humans to still be clearly more effective at finding a correct fix, with 67.3% vs. less than 3% correctly predicted patches. The results and data of this study are a first step into a deeper understanding of the internal process of neural program repair, and offer insights inspired by the behavior of human developers on how to further improve neural repair models.
翻訳日:2023-10-24 08:54:44 公開日:2023-05-12
# 貿易執行のための強化学習の一般化に向けて

Towards Generalizable Reinforcement Learning for Trade Execution ( http://arxiv.org/abs/2307.11685v1 )

ライセンス: Link先を確認
Chuheng Zhang, Yitong Duan, Xiaoyu Chen, Jianyu Chen, Jian Li, Li Zhao(参考訳) 最適化された取引実行は、取引コストが最小の期間に一定量の資産を売買(または購入)することである。 近年、市場データからよりスマートな政策を学習するために、貿易実行の最適化に強化学習(RL)が適用されている。 しかし、既存のRLメソッドの多くは、実際のデプロイを妨げている、かなりの過度なオーバーフィッティングを示す。 本稿では,最適化された取引実行におけるオーバーフィッティング問題に関する詳細な研究を行う。 まず、最適化された取引実行を動的コンテキスト(ORDC)でオフラインRLとしてモデル化し、そのコンテキストは取引ポリシーの影響を受けない市場変数を表し、オフラインで収集する。 このフレームワークでは、一般化境界を導出し、オーバーフィッティング問題は、オフライン環境における大きなコンテキスト空間と限られたコンテキストサンプルによって引き起こされる。 そこで本稿では,事前知識の活用,あるいはエンドツーエンドの手法を用いて,オーバーフィット問題に対処するコンテキストのコンパクト表現を学習することを提案する。 また,提案アルゴリズムを評価するために,履歴リミットオーダーブック(LOB)データに基づくシミュレータを慎重に設計し,異なるアルゴリズムに対する高忠実度ベンチマークを提供する。 高忠実度シミュレータの実験により,アルゴリズムのオーバーフィッティングを効果的に軽減し,性能を向上できることが実証された。

Optimized trade execution is to sell (or buy) a given amount of assets in a given time with the lowest possible trading cost. Recently, reinforcement learning (RL) has been applied to optimized trade execution to learn smarter policies from market data. However, we find that many existing RL methods exhibit considerable overfitting which prevents them from real deployment. In this paper, we provide an extensive study on the overfitting problem in optimized trade execution. First, we model the optimized trade execution as offline RL with dynamic context (ORDC), where the context represents market variables that cannot be influenced by the trading policy and are collected in an offline manner. Under this framework, we derive the generalization bound and find that the overfitting issue is caused by large context space and limited context samples in the offline setting. Accordingly, we propose to learn compact representations for context to address the overfitting problem, either by leveraging prior knowledge or in an end-to-end manner. To evaluate our algorithms, we also implement a carefully designed simulator based on historical limit order book (LOB) data to provide a high-fidelity benchmark for different algorithms. Our experiments on the high-fidelity simulator demonstrate that our algorithms can effectively alleviate overfitting and achieve better performance.
翻訳日:2023-10-23 16:42:46 公開日:2023-05-12
# 携帯電話カメラを用いたマシンビジョン:インドコインの3つの難解な分類のためのディープネットワークの比較

Machine Vision Using Cellphone Camera: A Comparison of deep networks for classifying three challenging denominations of Indian Coins ( http://arxiv.org/abs/2306.06084v1 )

ライセンス: Link先を確認
Keyur D. Joshi, Dhruv Shah, Varshil Shah, Nilay Gandhi, Sanket J. Shah, Sanket B. Shah(参考訳) インドの硬貨には様々な種類がある。 Rs.1、RS.2、Rs.5はいずれも同じ直径である。 rs.1 と rs.2 の通貨流通における硬貨の形式は、その逆の数字を除いてほとんど同じである。 硬貨が横側に休んでいる場合、正しい分類は人間によって区別できない。 そこで, 両サイズに収まるコインのディジタル画像は, ディープニューラルネットワークモデルを訓練することにより, 正しい識別に分類できると考えられた。 デジタル画像は安価な携帯電話カメラを用いて生成した。 最も適切なディープニューラルネットワークアーキテクチャを見つけるために、比較のために行われた予備分析に基づいて4つを選定した。 その結果、深層ニューラルネットワークの4つのモデルのうち2つが正解をコインの両側から97%の精度で分類できることが確認された。

Indian currency coins come in a variety of denominations. Off all the varieties Rs.1, RS.2, and Rs.5 have similar diameters. Majority of the coin styles in market circulation for denominations of Rs.1 and Rs.2 coins are nearly the same except for numerals on its reverse side. If a coin is resting on its obverse side, the correct denomination is not distinguishable by humans. Therefore, it was hypothesized that a digital image of a coin resting on its either size could be classified into its correct denomination by training a deep neural network model. The digital images were generated by using cheap cell phone cameras. To find the most suitable deep neural network architecture, four were selected based on the preliminary analysis carried out for comparison. The results confirm that two of the four deep neural network models can classify the correct denomination from either side of a coin with an accuracy of 97%.
翻訳日:2023-06-18 12:50:19 公開日:2023-05-12
# segment anything model (sam: vision foundation model meets prompt engineering) に関する調査

A Survey on Segment Anything Model (SAM): Vision Foundation Model Meets Prompt Engineering ( http://arxiv.org/abs/2306.06211v1 )

ライセンス: Link先を確認
Chaoning Zhang, Sheng Zheng, Chenghao Li, Yu Qiao, Taegoo Kang, Xinru Shan, Chenshuang Zhang, Caiyan Qin, Francois Rameau, Sung-Ho Bae, Choong Seon Hong(参考訳) Meta AI Researchが開発したSegment Any Model(SAM)が最近注目を集めている。 10億以上のマスクからなる大きなセグメンテーションデータセットでトレーニングされたsamは、特定のイメージ上の任意のオブジェクトをセグメンテーションすることができる。 オリジナルのSAM研究において、著者らはSAMの性能を評価するためにゼロショート転送タスク(エッジ検出など)に切り替えた。 近年,多くの研究がSAMの性能を様々なシナリオで検証し,オブジェクトの認識とセグメント化を試みている。 さらに、Grounding DINO、Stable Diffusion、ChatGPTといった他のモデルと組み合わせることで、SAMの基盤モデルとしての汎用性を示すプロジェクトも数多く現れています。 関連論文やプロジェクトが指数関数的に増加する中、読者がSAMの開発に追いつくことは困難である。 この目的のために、この研究はSAMに関する最初の包括的調査を実施している。 これは進行中のプロジェクトであり、定期的に原稿を更新するつもりです。 したがって、読者は、samに関する新しい作品が完成したら、次のバージョンに含められるように連絡を頂きたいと思います。

Segment anything model (SAM) developed by Meta AI Research has recently attracted significant attention. Trained on a large segmentation dataset of over 1 billion masks, SAM is capable of segmenting any object on a certain image. In the original SAM work, the authors turned to zero-short transfer tasks (like edge detection) for evaluating the performance of SAM. Recently, numerous works have attempted to investigate the performance of SAM in various scenarios to recognize and segment objects. Moreover, numerous projects have emerged to show the versatility of SAM as a foundation model by combining it with other models, like Grounding DINO, Stable Diffusion, ChatGPT, etc. With the relevant papers and projects increasing exponentially, it is challenging for the readers to catch up with the development of SAM. To this end, this work conducts the first yet comprehensive survey on SAM. This is an ongoing project and we intend to update the manuscript on a regular basis. Therefore, readers are welcome to contact us if they complete new works related to SAM so that we can include them in our next version.
翻訳日:2023-06-18 12:41:49 公開日:2023-05-12
# 潜在バンディットを用いたユーザコールドスタートの高精度・低後悔

High Accuracy and Low Regret for User-Cold-Start Using Latent Bandits ( http://arxiv.org/abs/2305.18305v1 )

ライセンス: Link先を確認
David Young, Douglas Leith(参考訳) 我々は,推薦システムに参加する新規ユーザに対して,コールドスタート問題に対処するための新しい潜在帯域アルゴリズムを開発した。 この新しいアルゴリズムは、高い精度と低い後悔の両方を同時に達成し、芸術の状態を著しく上回る。

We develop a novel latent-bandit algorithm for tackling the cold-start problem for new users joining a recommender system. This new algorithm significantly outperforms the state of the art, simultaneously achieving both higher accuracy and lower regret.
翻訳日:2023-06-04 11:39:44 公開日:2023-05-12
# semantic-aware digital twin for metaverse: 包括的レビュー

Semantic-aware Digital Twin for Metaverse: A Comprehensive Review ( http://arxiv.org/abs/2305.18304v1 )

ライセンス: Link先を確認
Senthil Kumar Jagatheesaperumal, Zhaohui Yang, Qianqian Yang, Chongwen Huang, Wei Xu, Mohammad Shikh-Bahaei, and Zhaoyang Zhang(参考訳) デジタル双生児のMetaverseへの展開を容易にするため、意味的認識を伴うパラダイムが、固有知性による正確かつタスク指向の情報抽出を実現する手段として提案されている。 しかし、このフレームワークはメッセージの忠実な解釈を可能にするために、Metaverse環境のすべてのデバイスを意味モデルに直接リンクする必要がある。 対照的に,本稿では,メタバース対応技術との共役における意味コミュニケーションを可能にする,スマート産業アプリケーションを考慮したデジタルツインフレームワークを紹介する。 本フレームワークの基本は,デジタルツインを用いた産業用店舗管理ユースケースにおいて,セマンティックコミュニケーションによる性能向上を図ったものである。 意味コミュニケーション,メタバース,デジタル双生児について概説する。 これらの技術と基本アーキテクチャの統合、および将来の産業応用への影響について述べる。 簡単に言えば、メタバースアプリケーションのためのデジタルツインの実装において、セマンティックな認識が効果的な候補となるかを示す。

To facilitate the deployment of digital twins in Metaverse, the paradigm with semantic awareness has been proposed as a means for enabling accurate and task-oriented information extraction with inherent intelligence. However, this framework requires all devices in the Metaverse environment to be directly linked with the semantic model to enable faithful interpretation of messages. In contrast, this article introduces the digital twin framework, considering a smart industrial application, which enables semantic communication in conjugation with the Metaverse enabling technologies. The fundamentals of this framework are demonstrated on an industrial shopfloor management use case with a digital twin so as to improve its performance through semantic communication. An overview of semantic communication, Metaverse, and digital twins is presented. Integration of these technologies with the basic architecture as well as the impact on future industrial applications is presented. In a nutshell, this article showcases how semantic awareness can be an effective candidate in the implementation of digital twins for Metaverse applications.
翻訳日:2023-06-04 11:39:40 公開日:2023-05-12
# 教育における人工知能の新しい時代: 多面的革命

A New Era of Artificial Intelligence in Education: A Multifaceted Revolution ( http://arxiv.org/abs/2305.18303v1 )

ライセンス: Link先を確認
Firuz Kamalov, Ikhlaas Gurrib(参考訳) 近年のChatGPTの標準化された学術試験における高性能化は、人工知能(AI)の話題を教育の将来に関する主流の議論へと押し上げた。 本研究の目的は,AIが教育に与える影響について,その応用,利点,課題を検討することである。 本報告では, 協調学習, 知的学習システム, 自動評価, パーソナライズ学習における人工知能の利用に焦点を当てた。 また、教育におけるAI導入の潜在的なネガティブな側面、倫理的な問題、将来的なルートについても検討する。 最終的には、新しい技術を受け入れて受け入れる唯一の方法が、その悪用を防ぐためにguardrailsを実装していることです。

The recent high performance of ChatGPT on several standardized academic test has thrust the topic of artificial intelligence (AI) into the mainstream conversation about the future of education. The objective of the present study is to investigate the effect of AI on education by examining its applications, advantages, and challenges. Our report focuses on the use of artificial intelligence in collaborative teacher-student learning, intelligent tutoring systems, automated assessment, and personalized learning. We also look into potential negative aspects, ethical issues, and possible future routes for AI implementation in education. Ultimately, we find that the only way forward is to accept and embrace the new technology, while implementing guardrails to prevent its abuse.
翻訳日:2023-06-04 11:39:24 公開日:2023-05-12
# 自動運転とインテリジェント自動車のマイルストーン その1 : 制御, 計算機システム設計, 通信, hdマップ, テスト, 人間の行動

Milestones in Autonomous Driving and Intelligent Vehicles Part \uppercase\expandafter{\romannumeral1}: Control, Computing System Design, Communication, HD Map, Testing, and Human Behaviors ( http://arxiv.org/abs/2305.11239v1 )

ライセンス: Link先を確認
Long Chen, Yuchen Li, Chao Huang, Yang Xing, Daxin Tian, Li Li, Zhongxu Hu, Siyu Teng, Chen Lv, Jinjun Wang, Dongpu Cao, Nanning Zheng and Fei-Yue Wang(参考訳) 自動運転(AD)とインテリジェント車(IV)への関心は、利便性、安全性、経済的利益のために急速に成長している。 多くの調査がこの分野の研究成果をレビューしているが、特定のタスクに制限があり、将来的なシステム的な要約や研究の方向性が欠如している。 私たちの研究は3つの独立した記事に分かれており、第1部はadとivsの全技術に関する調査(sos)で、その歴史とマイルストーンを要約し、展望、倫理、今後の研究の方向性を提供する。 第2部(この技術調査ではPart \uppercase\expandafter{\romannumeral1)では、制御、コンピュータシステム設計、通信、HDマップ(High Definition Map)、テスト、およびIVにおける人間の振る舞いをレビューする。 さらに、第3部(この技術調査ではPart \uppercase\expandafter{\romannumeral2})は、知覚と計画セクションをレビューする。 本稿の目的は,adのすべてのセクションを包含し,最新の技術マイルストーンを要約し,アドとivsの発展を迅速に理解するためのアベドリアンを指導することである。 SoS と Part \uppercase\expandafter{\romannumeral2} を組み合わせることで、この研究は研究者や相続人に新しい多様な洞察をもたらし、過去と未来を橋渡しすることを期待している。

Interest in autonomous driving (AD) and intelligent vehicles (IVs) is growing at a rapid pace due to the convenience, safety, and economic benefits. Although a number of surveys have reviewed research achievements in this field, they are still limited in specific tasks and lack systematic summaries and research directions in the future. Our work is divided into 3 independent articles and the first part is a Survey of Surveys (SoS) for total technologies of AD and IVs that involves the history, summarizes the milestones, and provides the perspectives, ethics, and future research directions. This is the second part (Part \uppercase\expandafter{\romannumeral1} for this technical survey) to review the development of control, computing system design, communication, High Definition map (HD map), testing, and human behaviors in IVs. In addition, the third part (Part \uppercase\expandafter{\romannumeral2} for this technical survey) is to review the perception and planning sections. The objective of this paper is to involve all the sections of AD, summarize the latest technical milestones, and guide abecedarians to quickly understand the development of AD and IVs. Combining the SoS and Part \uppercase\expandafter{\romannumeral2}, we anticipate that this work will bring novel and diverse insights to researchers and abecedarians, and serve as a bridge between past and future.
翻訳日:2023-05-28 05:37:04 公開日:2023-05-12
# 逆最適化における学習:インセンタコスト、拡張されたサブ最適化損失、アルゴリズム

Learning in Inverse Optimization: Incenter Cost, Augmented Suboptimality Loss, and Algorithms ( http://arxiv.org/abs/2305.07730v1 )

ライセンス: Link先を確認
Pedro Zattoni Scroccaro, Bilge Atasoy, Peyman Mohajerin Esfahani(参考訳) 逆最適化(IO)では、エキスパートエージェントが外因性信号でパラメトリックな最適化問題を解く。 学習の観点からは、信号のデータセットと対応する最適なアクションが与えられた専門家のコスト関数を学ぶことが目標である。 一貫性のあるコストベクトルのio集合の幾何学に動機づけられ、besbesらによって最近提案されたcircorcenterに似た「インセンタ」概念を導入する。 [2022]. 中心コストベクトルの幾何的・ロバスト性解釈を議論し, 円周と対照的なトラクタブル凸修正法を開発し, トラクタブル最適化プログラムと等価であることを示した。 さらに,不整合データに対するインセンタ概念の緩和として,augmented suboptimality loss(asl)と呼ばれる新しい損失関数を提案する。 ASL の構造を探索し,Stochastic Approximate Mirror Descent と呼ばれる新しい一階法を提案する。 このアルゴリズムは、確率的および近似的な下次評価とミラー降下更新ステップを組み合わせることで、高い濃度の離散可能な集合を持つIO問題に対して確実に効率的である。 InvOptと呼ばれるPythonパッケージとして,本論文で開発されたIOアプローチを実装した。 私たちの数値実験はすべて再現可能で、基盤となるソースコードはinvoptパッケージの例として利用できます。

In Inverse Optimization (IO), an expert agent solves an optimization problem parametric in an exogenous signal. From a learning perspective, the goal is to learn the expert's cost function given a dataset of signals and corresponding optimal actions. Motivated by the geometry of the IO set of consistent cost vectors, we introduce the "incenter" concept, a new notion akin to circumcenter recently proposed by Besbes et al. [2022]. Discussing the geometric and robustness interpretation of the incenter cost vector, we develop corresponding tractable convex reformulations, which are in contrast with the circumcenter, which we show is equivalent to an intractable optimization program. We further propose a novel loss function called Augmented Suboptimality Loss (ASL), as a relaxation of the incenter concept, for problems with inconsistent data. Exploiting the structure of the ASL, we propose a novel first-order algorithm, which we name Stochastic Approximate Mirror Descent. This algorithm combines stochastic and approximate subgradient evaluations, together with mirror descent update steps, which is provably efficient for the IO problems with high cardinality discrete feasible sets. We implement the IO approaches developed in this paper as a Python package called InvOpt. All of our numerical experiments are reproducible, and the underlying source code is available as examples in the InvOpt package.
翻訳日:2023-05-28 05:36:06 公開日:2023-05-12
# 人・機械チームにおける有意義な人的制御の設計

Designing for Meaningful Human Control in Military Human-Machine Teams ( http://arxiv.org/abs/2305.11892v1 )

ライセンス: Link先を確認
Jurriaan van Diggelen, Karel van den Bosch, Mark Neerincx, Marc Steen(参考訳) 我々は,HMT(Human-machine Teaming)の観点から,防衛技術における意味のある人間制御(MHC)の分析,設計,評価手法を提案する。 私たちのアプローチは3つの原則に基づいている。 まず、MHCは分析、設計、評価のすべてのフェーズを導く中核的な目標と見なされるべきである。 第2に、MHCは人間、機械、AI、インタラクション、コンテキストを含む社会技術システムのすべての部分に影響を及ぼす。 最後に、MHCは、複数のアクターによる事前制御とリアルタイム制御の両方を含む、長期間にわたるプロパティと見なされるべきである。 MHCを実現するためのマクロレベルの設計オプションを記述するために,様々なチームデザインパターンを提案する。 さらに,これらの手法のいくつかをhmtの想定に応用し,軍事的文脈でロボットや兵士を捜索救助タスクに投入するケーススタディを行った。

We propose methods for analysis, design, and evaluation of Meaningful Human Control (MHC) for defense technologies from the perspective of military human-machine teaming (HMT). Our approach is based on three principles. Firstly, MHC should be regarded as a core objective that guides all phases of analysis, design and evaluation. Secondly, MHC affects all parts of the socio-technical system, including humans, machines, AI, interactions, and context. Lastly, MHC should be viewed as a property that spans longer periods of time, encompassing both prior and realtime control by multiple actors. To describe macrolevel design options for achieving MHC, we propose various Team Design Patterns. Furthermore, we present a case study, where we applied some of these methods to envision HMT, involving robots and soldiers in a search and rescue task in a military context.
翻訳日:2023-05-28 05:31:25 公開日:2023-05-12
# THRawS:RAW Sentinel-2データにおける熱ホットスポット検出のための新しいデータセット

THRawS: A Novel Dataset for Thermal Hotspots Detection in Raw Sentinel-2 Data ( http://arxiv.org/abs/2305.11891v1 )

ライセンス: Link先を確認
Gabriele Meoni and Roberto Del Prete and Federico Serva and Alix De Beussche and Olivier Colin and Nicolas Long\'ep\'e(参考訳) 今日では、地球観測(EO)データを利用したデータセットのほとんどは、整形、コアギスター化、校正、さらにノイズや歪みの影響を軽減するために処理されたハイエンドな製品に基づいている。 それでも、自然災害対応などの時間クリティカルな応用に人工知能(ai)を応用したいという関心が高まる中、生の衛星画像を提供することは、エネルギー効率の良い前処理アルゴリズムと衛星搭載アプリケーションのためのaiモデルの研究を促進するのに役立つだろう。 本研究では,気温の高いホットスポットを含むセンチネル2 (S-2) の生データからなる最初のデータセットである THRawS について述べる。 堅牢なAIアーキテクチャの実現を促進するため、データセットは世界中のデータを集めている。 さらに,対応するLevel-1C(L1C)製品から生データのイベントを識別する独自の手法を考案した。 実際、L1Cタイル上での熱異常検出のための最先端アルゴリズムが利用可能であることを踏まえ、後者でそのような事象を検出し、対応する生画像に再投影する。 さらに、未処理データを扱うために、軽量な粗いコア登録とジオ参照戦略を考案する。 開発されたデータセットは、山火事、火山噴火、およびイベントフリー火山地域を含む100以上のサンプルからなり、温暖地の検出と一般的な分類の両方を可能にする。 最後に,提案手法とスーパーグルー深層ニューラルネットワーク法との比較を行い,特定のシーンの空間変位誤差を最小化するために,空間登録のタイミングと品質の異なる制約を強調する。

Nowadays, most of the datasets leveraging space-borne Earth Observation (EO) data are based on high-end levels products, which are ortho-rectified, coregistered, calibrated, and further processed to mitigate the impact of noise and distortions. Nevertheless, given the growing interest to apply Artificial Intelligence (AI) onboard satellites for time-critical applications, such as natural disaster response, providing raw satellite images could be useful to foster the research on energy-efficient pre-processing algorithms and AI models for onboard-satellite applications. In this framework, we present THRawS, the first dataset composed of Sentinel-2 (S-2) raw data containing warm temperature hotspots (wildfires and volcanic eruptions). To foster the realisation of robust AI architectures, the dataset gathers data from all over the globe. Furthermore, we designed a custom methodology to identify events in raw data starting from the corresponding Level-1C (L1C) products. Indeed, given the availability of state-of-the-art algorithms for thermal anomalies detection on the L1C tiles, we detect such events on these latter and we then re-project them on the corresponding raw images. Additionally, to deal with unprocessed data, we devise a lightweight coarse coregisteration and georeferencing strategy. The developed dataset is comprehensive of more than 100 samples containing wildfires, volcanic eruptions, and event-free volcanic areas to enable both warm-events detection and general classification applications. Finally, we compare performances between the proposed coarse spatial coregistration technique and the SuperGlue Deep Neural Network method to highlight the different constraints in terms of timing and quality of spatial registration to minimise the spatial displacement error for a specific scene.
翻訳日:2023-05-28 05:31:10 公開日:2023-05-12
# chatgpt と bing chat を用いた化学学習の促進 : 比較事例研究

Enhancing Chemistry Learning with ChatGPT and Bing Chat as Agents to Think With: A Comparative Case Study ( http://arxiv.org/abs/2305.11890v1 )

ライセンス: Link先を確認
Renato P. dos Santos(参考訳) 本研究では, 化学教育におけるChatGPTやBing Chatといった生成型AIチャットボット(GenAIbot)の可能性について, 建設論的な枠組みで検討する。 シミュレーション化学学習経験において、学生と両方のAIシステム間の広範な相互作用ログを分析するために、シングルケース研究手法が用いられた。 その結果, 批判的思考, 問題解決, 概念理解, 創造性, パーソナライズされた学習経験を育成する上で, チャットGPTとBing Chatが"エージェント・トゥ・ウィズ"として行動する能力を強調した。 GenAIbotsはソクラテス的な質問手法を用いて、学生の好奇心を育み、活発な学習を促進する。 この研究は、GenAIbotから望ましい応答を導き出し、反復的なリフレクションと相互作用を促進する技術である、プロンプトクラフトの重要性を強調した。 これは、これらのツールを教室に効果的に統合するための総合的な教育訓練の必要性を強調するものである。 この研究は、ChatGPTとBing Chatをエージェント・ツー・シンクとして、建設学者のレンズを通してSTEM教育に革命をもたらす有望な手段を提供し、よりインタラクティブで包括的な学習環境を育み、様々な化学トピックにわたる学生の深い理解と批判的思考を促進する一方で、ChatGPTは一貫してBing Chatを上回り、より包括的で詳細で正確な応答を提供し、ニュアンスや文脈に巧みに対処する。

This study explores the potential of Generative AI chatbots (GenAIbots) such as ChatGPT and Bing Chat, in Chemistry education, within a constructionist theoretical framework. A single-case study methodology was used to analyse extensive interaction logs between students and both AI systems in simulated Chemistry learning experiences. The results highlight the ability of ChatGPT and Bing Chat to act as 'agents-to-think-with', fostering critical thinking, problem-solving, concept comprehension, creativity, and personalised learning experiences. By employing a Socratic-like questioning approach, GenAIbots nurture students' curiosity and promote active learning. The study emphasises the significance of prompt crafting, a technique to elicit desired responses from GenAIbots, fostering iterative reflections and interactions. It underlines the need for comprehensive educator training to effectively integrate these tools into classrooms. The study concludes that while ChatGPT and Bing Chat as agents-to-think-with offer promising avenues to revolutionise STEM education through a constructionist lens, fostering a more interactive, inclusive learning environment and promoting deeper comprehension and critical thinking in students across diverse Chemistry topics, ChatGPT consistently outperformed Bing Chat, providing more comprehensive, detailed, and accurate responses and skillfully addressing nuances and context.
翻訳日:2023-05-28 05:30:40 公開日:2023-05-12
# 粒子光とスマートフォンを用いた自動省電力システム(APCS)

An Automated Power Conservation System (APCS) using Particle Photon and Smartphone ( http://arxiv.org/abs/2305.11889v1 )

ライセンス: Link先を確認
Chandra Sekhar Sanaboina, Harish Bommidi(参考訳) 今日では、電力消費が徐々に増加するように、生活のあらゆる面で電気を使用している。 人間の怠慢や日光といった様々な理由により、電気の舞台が変わることがある。 したがって、エネルギーの保存はその日の必要性である。 本稿では,電気料金の節減による消費電力の節減,照明や電気機器のオン/オフを手動で行うのに必要な人的関与や人力の排除,電力消費の削減による貴重な天然資源の保全など,様々なメリットを享受する「省電力システム(apcs)」の構築について述べる。 このプロジェクトでは2つの赤外線センサーを使用し、この2つのセンサーは教室にいる人の存在を検出するために使用される。 APCSによって人の存在が検知されると、自動的に教室のファンとライトが点灯し、不在時には自動的に電源をオフにし、電力を節約する最も簡単な方法が舗装される。 このハードウェアはandroidアプリと統合されており、ユーザーは特定の時間にオンになっているファンとライトの数に関するスマートフォンのデータを取得することができる。 ユーザーはandroidアプリを使って世界中のどこからでもファンやライトをオン/オフすることもできる。

Nowadays, people use electricity in all aspects of their lives so that electricity consumption increases gradually. There can be wastage of electricity due to various reasons, such as human negligence, daylighting, etc. Hence, conservation of energy is the need of the day. This paper deals with the fabrication of an "Automated Power Conservation System (APCS)" that has multiple benefits like saving on power consumption there by saving on electricity bills of the organization, eliminating human involvement and manpower which is often required to manually toggle the lights and electrical devices on/off, and last but most importantly conserve the precious natural resources by reducing electrical energy consumption. Two IR sensors are used in this project and these two sensors are used for detecting the presence of a person in the classroom. When the existence of the person is detected by the APCS it automatically turns on the fans and lights in that classroom and during the absence they will be automatically turned off, thus paving the easiest way to conserve power. This hardware is integrated with the Android app, where the user can get data on his smartphone regarding the number of fans and lights that are turned on at a particular instance of time. The user can also switch on/off the fans and lights from anywhere in the world by using the Android App.
翻訳日:2023-05-28 05:30:05 公開日:2023-05-12
# 地質相生成のための原理的深層学習手法

A principled deep learning approach for geological facies generation ( http://arxiv.org/abs/2305.13318v1 )

ライセンス: Link先を確認
Ferdinand Bhavsar, Nicolas Desassis, Fabien Ors, Thomas Romary(参考訳) 観測不能な体積の地質相のシミュレーションは、様々な地球科学の応用において不可欠である。 問題の複雑さを考えると、深層生成学習は従来の統計シミュレーションモデルの限界、特に物理リアリズムの欠如を克服するための有望なアプローチである。 本研究は, 地下の蛇行流路を条件付きシミュレーションするための, 生成的対向ネットワークと深部変動推論の適用性を検討することを目的とする。 本稿では,創発的深層学習のアプローチ,特に敵対的アプローチと,学習の促進を目的とした安定化技術について概説する。 確率過程に基づくモデルflumyを用いて2次元および3次元シミュレーションを行った。 形態指標を用いて,提案手法と生成逆数ネットワークの初期イテレーションを比較した。 その結果,近年の安定化技術を利用することで,ターゲットデータ分布から生成型逆ネットワークを効率的にサンプリングできることがわかった。 さらに,提案手法の潜在変数モデル特性を用いて条件付きシミュレーションをシミュレートする能力を示す。

The simulation of geological facies in an unobservable volume is essential in various geoscience applications. Given the complexity of the problem, deep generative learning is a promising approach to overcome the limitations of traditional geostatistical simulation models, in particular their lack of physical realism. This research aims to investigate the application of generative adversarial networks and deep variational inference for conditionally simulating meandering channels in underground volumes. In this paper, we review the generative deep learning approaches, in particular the adversarial ones and the stabilization techniques that aim to facilitate their training. The proposed approach is tested on 2D and 3D simulations generated by the stochastic process-based model Flumy. Morphological metrics are utilized to compare our proposed method with earlier iterations of generative adversarial networks. The results indicate that by utilizing recent stabilization techniques, generative adversarial networks can efficiently sample from target data distributions. Moreover, we demonstrate the ability to simulate conditioned simulations through the latent variable model property of the proposed approach.
翻訳日:2023-05-28 05:11:48 公開日:2023-05-12
# 統合アクセスバックホールネットワークにおけるネットワークルーティングのためのマルチエージェント強化学習

Multi-Agent Reinforcement Learning for Network Routing in Integrated Access Backhaul Networks ( http://arxiv.org/abs/2305.16170v1 )

ライセンス: Link先を確認
Shahaf Yamin and Haim Permuter(参考訳) 本稿では,fiber-connected and wireless base stationと複数ユーザからなるiabネットワークにおける無線ルーティングの問題点について検討する。 これらのネットワークの物理的制約は中央制御器の使用を妨げ、基地局はリアルタイムネットワーク条件へのアクセスを制限している。 遅延を最小限に抑えつつパケット到着率を最大化することを目的として,マルチエージェント部分観測マルコフ決定プロセス(pomdp)として問題を定式化する。 この問題を解決するために,MARL(Multi-Agent Reinforcement Learning)と類似の宛先情報を用いたリレーショナルアドバンテージアクタ批判(Relational Advantage Actor Critic, Relational A2C)アルゴリズムを開発した。 本稿では,このアルゴリズムの3つの学習パラダイムを提示し,ほぼ集中型性能を実現する能力を示す。 その結果,リレーショナルA2Cは他の強化学習アルゴリズムよりも優れており,ネットワーク効率が向上し,利己的エージェントの挙動が低下することがわかった。 我々の知る限りでは、この作業はIABネットワークのルーティング戦略を最適化する最初のものである。

We investigate the problem of wireless routing in integrated access backhaul (IAB) networks consisting of fiber-connected and wireless base stations and multiple users. The physical constraints of these networks prevent the use of a central controller, and base stations have limited access to real-time network conditions. We aim to maximize packet arrival ratio while minimizing their latency, for this purpose, we formulate the problem as a multi-agent partially observed Markov decision process (POMDP). To solve this problem, we develop a Relational Advantage Actor Critic (Relational A2C) algorithm that uses Multi-Agent Reinforcement Learning (MARL) and information about similar destinations to derive a joint routing policy on a distributed basis. We present three training paradigms for this algorithm and demonstrate its ability to achieve near-centralized performance. Our results show that Relational A2C outperforms other reinforcement learning algorithms, leading to increased network efficiency and reduced selfish agent behavior. To the best of our knowledge, this work is the first to optimize routing strategy for IAB networks.
翻訳日:2023-05-28 04:32:45 公開日:2023-05-12
# ECG信号処理のための主観的非コントラスト自己監督学習

Subject-based Non-contrastive Self-Supervised Learning for ECG Signal Processing ( http://arxiv.org/abs/2305.10347v1 )

ライセンス: Link先を確認
Adrian Atienza, Jakob Bardram, Sadasivan Puthusserypady(参考訳) 心電図(ECG)信号から情報を抽出することは、心臓医学におけるデジタルヘルス技術の設計における重要なステップである。 近年,ECGにおける情報の自動抽出のための機械学習アルゴリズムがいくつか提案されている。 教師付き学習法は、リズム障害(不整脈)の検出など、信号の特定の側面を特定するのに成功している。 一方、自己教師付き学習(SSL)メソッドは、データに含まれるすべての機能を抽出するために使用することができる。 モデルは特定の目標なしに最適化され、データ自体から学習される。 最先端のコンピュータビジョン手法を信号処理領域に適用することにより、最近のECG処理におけるSSLアプローチが報告されている。 しかし、これらのSSLメソッドはデータ拡張または負のペアを必要とするため、2つのECG入力(同じ信号の2つのバージョンか、同じ対象の2つの信号)の類似性のみを求めることができる。 これは、性別や年齢などの被写体で安定している特徴を抽出するのに非常に効果的なモデルをもたらす。 しかし彼らは、異なる不整脈や異なる睡眠段階など、ダイナミックな側面を説明できるECG記録の変化を捉えることに成功していない。 本研究では,ECG信号の理解にデータ拡張も負のペアも使用せず,同等の品質の表現を実現する最初のSSL手法を提案する。 その結果、2つの入力間の類似性をキャプチャするだけでなく、データの完全理解のために相似性をキャプチャするSSLメソッドを設計できる。 さらに、変圧器ブロックに基づくモデルが提示され、ほぼ同じ数のパラメータを持つ畳み込み層(XResNet50)に基づくモデルよりも優れた結果が得られる。

Extracting information from the electrocardiography (ECG) signal is an essential step in the design of digital health technologies in cardiology. In recent years, several machine learning (ML) algorithms for automatic extraction of information in ECG have been proposed. Supervised learning methods have successfully been used to identify specific aspects in the signal, like detection of rhythm disorders (arrhythmias). Self-supervised learning (SSL) methods, on the other hand, can be used to extract all the features contained in the data. The model is optimized without any specific goal and learns from the data itself. By adapting state-of-the-art computer vision methodologies to the signal processing domain, a few SSL approaches have been reported recently for ECG processing. However, such SSL methods require either data augmentation or negative pairs, which limits the method to only look for similarities between two ECG inputs, either two versions of the same signal or two signals from the same subject. This leads to models that are very effective at extracting characteristics that are stable in a subject, such as gender or age. But they are not successful at capturing changes within the ECG recording that can explain dynamic aspects, like different arrhythmias or different sleep stages. In this work, we introduce the first SSL method that uses neither data augmentation nor negative pairs for understanding ECG signals, and still, achieves comparable quality representations. As a result, it is possible to design a SSL method that not only captures similarities between two inputs, but also captures dissimilarities for a complete understanding of the data. In addition, a model based on transformer blocks is presented, which produces better results than a model based on convolutional layers (XResNet50) with almost the same number of parameters.
翻訳日:2023-05-21 10:44:47 公開日:2023-05-12
# MM-Fi:Versatile Wireless Sensingのためのマルチモーダル非侵入型4Dヒューマンデータセット

MM-Fi: Multi-Modal Non-Intrusive 4D Human Dataset for Versatile Wireless Sensing ( http://arxiv.org/abs/2305.10345v1 )

ライセンス: Link先を確認
Jianfei Yang, He Huang, Yunjiao Zhou, Xinyan Chen, Yuecong Xu, Shenghai Yuan, Han Zou, Chris Xiaoxuan Lu, Lihua Xie(参考訳) 4次元人間の知覚は、ホームオートメーションやメタバースアバターシミュレーションなど、無数の応用において重要な役割を果たす。 しかし、カメラやウェアラブルデバイスに主に依存する既存のソリューションは、プライバシーの侵害的または不便である。 これらの問題に対処するため、無線センシングは有望な代替手段として登場し、LiDAR、mmWaveレーダー、WiFi信号をデバイスフリーの人体センシングに活用している。 本稿では,27のリハビリテーションアクションカテゴリを持つ,初のマルチモーダル非インタラクティブ4d人間データセットmm-fiを提案し,無線センシングとハイレベルな人間知覚タスクのギャップを埋める。 MM-Fiは40人の被験者から5つのモードからなる320k以上の同期フレームで構成されている。 潜在的な検知タスク、例えば人間のポーズ推定や行動認識をサポートする様々なアノテーションが提供されている。 複数のタスクの観点から各モダリティまたは複数のモダリティの感知能力を比較するために、広範囲にわたる実験が行われた。 MM-Fiは,行動認識,ポーズ推定,マルチモーダル学習,クロスモーダル監視,学際的医療研究において,無線センシング研究に寄与すると考えられる。

4D human perception plays an essential role in a myriad of applications, such as home automation and metaverse avatar simulation. However, existing solutions which mainly rely on cameras and wearable devices are either privacy intrusive or inconvenient to use. To address these issues, wireless sensing has emerged as a promising alternative, leveraging LiDAR, mmWave radar, and WiFi signals for device-free human sensing. In this paper, we propose MM-Fi, the first multi-modal non-intrusive 4D human dataset with 27 daily or rehabilitation action categories, to bridge the gap between wireless sensing and high-level human perception tasks. MM-Fi consists of over 320k synchronized frames of five modalities from 40 human subjects. Various annotations are provided to support potential sensing tasks, e.g., human pose estimation and action recognition. Extensive experiments have been conducted to compare the sensing capacity of each or several modalities in terms of multiple tasks. We envision that MM-Fi can contribute to wireless sensing research with respect to action recognition, human pose estimation, multi-modal learning, cross-modal supervision, and interdisciplinary healthcare research.
翻訳日:2023-05-21 10:44:20 公開日:2023-05-12
# IMAGINATOR:画像のワードレベルグラウンドを用いた事前学習画像+テキスト共同埋め込み

IMAGINATOR: Pre-Trained Image+Text Joint Embeddings using Word-Level Grounding of Images ( http://arxiv.org/abs/2305.10438v1 )

ライセンス: Link先を確認
Varuna Krishna, S Suryavardan, Shreyash Mishra, Sathyanarayanan Ramamoorthy, Parth Patwa, Megha Chakraborty, Aman Chadha, Amitava Das, Amit Sheth(参考訳) 単語埋め込み、すなわち意味的に意味のある単語のベクトル表現は、分布的仮説 "you shall know a word by the company it keep" (harris, 1954) の影響が大きいが、現代の予測に基づくニューラルネットワーク埋め込みは設計の選択とハイパーパラメータ最適化に依存している。 Word2Vec、GloVeなどの単語埋め込みは、コンテキスト性と実世界の類似性をうまく捉えているが、VGGNet、AlexNetなどの現代畳み込みベースの画像埋め込みは文脈知識を捉えない。 一般的なキング・クィン類推は、最もよく使われる視覚埋め込みには当てはまらない。 本稿では,1M画像とテキストのペアから21Kの異なる画像オブジェクトをトレーニングしたJE(IMAGINATOR)について紹介する。 JEは、テキストのモダリティが接地鍵として機能し、補完的なモダリティ(この場合、画像)が固定されるベクトル空間にマルチモーダルデータをエンコードする方法である。 IMAGINATORは3つの個別表現をカプセル化する。 (i)オブジェクト・オブジェクトのコロケーション (ii)ワード・オブジェクトのコロケーション、及び (iii) 単語と対象の相関。 これら3つの方法は、最終的なjesを得るためにさらに結合される2つのモダリティの相補的な側面を捉える。 生成されたJEは、文脈性や実世界の類似性をいかに捉えるかを評価するために本質的に評価される。 IMAGINATOR JEを3つの下流タスクで評価する。 (i)画像キャプション、 (ii)image2tweet、 (iii)テキストに基づく画像検索。 imaginatorは、選択したタスクの現在のsomaを上回ることで、前述のダウンストリームタスクの新しい標準を確立する。 IMAGINATORは一般公開される。 コードはhttps://github.com/varunakk/IMAGINATORで公開されている。

Word embeddings, i.e., semantically meaningful vector representation of words, are largely influenced by the distributional hypothesis "You shall know a word by the company it keeps" (Harris, 1954), whereas modern prediction-based neural network embeddings rely on design choices and hyperparameter optimization. Word embeddings like Word2Vec, GloVe etc. well capture the contextuality and real-world analogies but contemporary convolution-based image embeddings such as VGGNet, AlexNet, etc. do not capture contextual knowledge. The popular king-queen analogy does not hold true for most commonly used vision embeddings. In this paper, we introduce a pre-trained joint embedding (JE), named IMAGINATOR, trained on 21K distinct image objects level from 1M image+text pairs. JE is a way to encode multimodal data into a vector space where the text modality serves as the ground-ing key, which the complementary modality (in this case, the image) is anchored with. IMAGINATOR encapsulates three individual representations: (i) object-object co-location, (ii) word-object co-location, and (iii) word-object correlation. These three ways capture complementary aspects of the two modalities which are further combined to obtain the final JEs. Generated JEs are intrinsically evaluated to assess how well they capture the contextuality and real-world analogies. We also evaluate pre-trained IMAGINATOR JEs on three downstream tasks: (i) image captioning, (ii) Image2Tweet, and (iii) text-based image retrieval. IMAGINATOR establishes a new standard on the aforementioned down-stream tasks by outperforming the current SoTA on all the selected tasks. IMAGINATOR will be made publicly available. The codes are available at https://github.com/varunakk/IMAGINATOR
翻訳日:2023-05-21 10:37:28 公開日:2023-05-12
# ネットワーク状況認識と深層強化学習に基づくインテリジェントsdwnルーティングアルゴリズム

An Intelligent SDWN Routing Algorithm Based on Network Situational Awareness and Deep Reinforcement Learning ( http://arxiv.org/abs/2305.10441v1 )

ライセンス: Link先を確認
Jinqiang Li, Miao Ye, Linqiang Huang, Xiaofang Deng, Hongbing Qiu and Yong Wang(参考訳) 無線ネットワークトポロジの高度にダイナミックな変化のため,通信品質を向上させるために,効率的にネットワーク状態情報を取得し,データを柔軟に転送することが重要な課題である。 本稿では,ソフトウェア定義無線ネットワークアーキテクチャによるネットワーク状況認識を伴う深層強化学習に基づくインテリジェントルーティングアルゴリズム(drl-pponsa)を提案する。 まず、特定のデータプレーンは、ネットワークトポロジの構築とデータ転送のために設計されます。 制御プレーンは、ネットワークトラフィック情報を収集し、フローテーブルを送信し、GCN-GRU予測機構を使用して、将来のトラフィック変化トレンドを認識し、ネットワーク状況認識を実現する。 第2に、DRLに基づくデータ転送機構を知識平面に設計する。 予測されたネットワークトラフィックマトリクスとトポロジ情報マトリクスはdrlエージェントの環境として扱われ、隣り合うノードは実行可能アクションとして扱われる。 したがって、アクション選択戦略は、よりインテリジェントで柔軟で効率的なルーティング制御を実現するために、異なるネットワーク条件のために設計される。 報酬機能は、ネットワークリンク情報と様々な報酬・ペナルティ機構を用いて設計されている。 さらに、勾配更新時に重要サンプリングと勾配クリッピング技術を用い、収束速度と安定性を高める。 実験の結果,DRL-PPONSAはネットワークスループット,遅延,パケット損失率,無線ノード距離において従来のルーティング手法よりも優れていた。 値関数に基づくデュアリングDQNルーティングと比較して、収束速度は大幅に改善され、収束効果はより安定である。 同時に、ハードウェアストレージ空間の消費を削減し、現在のネットワーク状態情報を用いて、効率的なルーティング決定をリアルタイムに行うことができる。

Due to the highly dynamic changes in wireless network topologies, efficiently obtaining network status information and flexibly forwarding data to improve communication quality of service are important challenges. This article introduces an intelligent routing algorithm (DRL-PPONSA) based on proximal policy optimization deep reinforcement learning with network situational awareness under a software-defined wireless networking architecture. First, a specific data plane is designed for network topology construction and data forwarding. The control plane collects network traffic information, sends flow tables, and uses a GCN-GRU prediction mechanism to perceive future traffic change trends to achieve network situational awareness. Second, a DRL-based data forwarding mechanism is designed in the knowledge plane. The predicted network traffic matrix and topology information matrix are treated as the environment for DRL agents, while next-hop adjacent nodes are treated as executable actions. Accordingly, action selection strategies are designed for different network conditions to achieve more intelligent, flexible, and efficient routing control. The reward function is designed using network link information and various reward and penalty mechanisms. Additionally, importance sampling and gradient clipping techniques are employed during gradient updating to enhance convergence speed and stability. Experimental results show that DRL-PPONSA outperforms traditional routing methods in network throughput, delay, packet loss rate, and wireless node distance. Compared to value-function-based Dueling DQN routing, the convergence speed is significantly improved, and the convergence effect is more stable. Simultaneously, its consumption of hardware storage space is reduced, and efficient routing decisions can be made in real-time using the current network state information.
翻訳日:2023-05-21 10:23:44 公開日:2023-05-12
# SDWNにおけるマルチエージェント深部強化学習に基づくインテリジェントマルチキャストルーティング手法

Intelligent multicast routing method based on multi-agent deep reinforcement learning in SDWN ( http://arxiv.org/abs/2305.10440v1 )

ライセンス: Link先を確認
Hongwen Hu, Miao Ye, Chenwei Zhao, Qiuxiang Jiang, Yong Wang, Hongbing Qiu and Xiaofang Deng(参考訳) マルチキャスト通信技術は、デバイス密度の高い無線環境で広く利用されている。 従来の無線ネットワークアーキテクチャは、グローバルなネットワーク状態情報を取得し維持することは困難であり、ネットワーク状態の変化に迅速に対応できないため、既存のマルチキャストソリューションのスループット、遅延、その他のQoS要求に影響を与える。 そこで本稿では,ソフトウェア定義無線ネットワーク(sdwn)環境におけるマルチエージェント深層強化学習(madrl-mr)に基づく新しいマルチキャストルーティング手法を提案する。 まず、ネットワークを柔軟に構成し、リンク帯域幅、遅延、パケットロス率などのグローバルネットワークリンク情報を表すトラフィック行列形式でネットワーク状態情報を取得するsdwn技術を採用する。 第二に、マルチキャストルーティング問題は複数のサブプロブレムに分割され、マルチエージェント協調によって解決される。 各エージェントが現在のネットワーク状態とマルチキャストツリーの構築状況を正確に把握できるようにし、トラフィックとマルチキャストツリーの状態行列に基づいて各エージェントの状態空間を設計し、ネットワーク内のapノードの集合をアクションスペースとして使用する。 新しいシングルホップアクション戦略は、木の構築中に発生する4つの状態(プログレッシブ、無効、ループ、終了)に基づく報酬関数と共に設計されている。 最後に、分散トレーニングアプローチと転送学習を組み合わせることで、各エージェントが動的ネットワーク変更に迅速に適応し、収束を加速することができる。 シミュレーション実験により、MADRL-MRはスループット、遅延、パケット損失率などの点で既存のアルゴリズムより優れており、よりインテリジェントなマルチキャスト経路を確立することができることが示された。

Multicast communication technology is widely applied in wireless environments with a high device density. Traditional wireless network architectures have difficulty flexibly obtaining and maintaining global network state information and cannot quickly respond to network state changes, thus affecting the throughput, delay, and other QoS requirements of existing multicasting solutions. Therefore, this paper proposes a new multicast routing method based on multiagent deep reinforcement learning (MADRL-MR) in a software-defined wireless networking (SDWN) environment. First, SDWN technology is adopted to flexibly configure the network and obtain network state information in the form of traffic matrices representing global network links information, such as link bandwidth, delay, and packet loss rate. Second, the multicast routing problem is divided into multiple subproblems, which are solved through multiagent cooperation. To enable each agent to accurately understand the current network state and the status of multicast tree construction, the state space of each agent is designed based on the traffic and multicast tree status matrices, and the set of AP nodes in the network is used as the action space. A novel single-hop action strategy is designed, along with a reward function based on the four states that may occur during tree construction: progress, invalid, loop, and termination. Finally, a decentralized training approach is combined with transfer learning to enable each agent to quickly adapt to dynamic network changes and accelerate convergence. Simulation experiments show that MADRL-MR outperforms existing algorithms in terms of throughput, delay, packet loss rate, etc., and can establish more intelligent multicast routes.
翻訳日:2023-05-21 10:23:18 公開日:2023-05-12
# ニューロシンボリックAIとその分類:サーベイ

Neurosymbolic AI and its Taxonomy: a survey ( http://arxiv.org/abs/2305.08876v1 )

ライセンス: Link先を確認
Wandemberg Gibaut, Leonardo Pereira, Fabio Grassiotto, Alexandre Osorio, Eder Gadioli, Amparo Munoz, Sildolfo Gomes, Claudio dos Santos(参考訳) ニューロシンボリックAIは、古典的なAIやニューラルネットワークといった象徴的な処理を組み合わせたモデルを扱う。 これらのモデルは、データセットとモデルのサイズの増大に代えて、データ分散に関する学習の組み合わせ、事前知識と学習知識に基づく推論、およびそれらを共生的に使用することによって、人工知能(AGI)への取り組みとして現れている。 本調査は,近年,この分野の研究論文を調査し,提示されたモデルと応用モデルの分類・比較を行う。

Neurosymbolic AI deals with models that combine symbolic processing, like classic AI, and neural networks, as it's a very established area. These models are emerging as an effort toward Artificial General Intelligence (AGI) by both exploring an alternative to just increasing datasets' and models' sizes and combining Learning over the data distribution, Reasoning on prior and learned knowledge, and by symbiotically using them. This survey investigates research papers in this area during recent years and brings classification and comparison between the presented models as well as applications.
翻訳日:2023-05-17 17:50:43 公開日:2023-05-12
# 逐次データ同化のためのオンライン機械学習予測不確実性推定

Online machine-learning forecast uncertainty estimation for sequential data assimilation ( http://arxiv.org/abs/2305.08874v1 )

ライセンス: Link先を確認
Maximiliano A. Sacco, Manuel Pulido, Juan J. Ruiz and Pierre Tandeo(参考訳) 予測の不確かさの定量化は、最先端の数値気象予測とデータ同化システムの重要な側面である。 アンサンブルベースのデータ同化システムは、複数のモデル統合に基づく状態依存の不確実性定量化を含む。 しかし、このアプローチは計算と開発の観点から要求されている。 本研究では,単一力学モデル積分を用いて予測誤差共分散行列で表される状態依存予測の不確かさを推定する畳み込みニューラルネットワークに基づく機械学習手法を提案する。 これは、予測エラーがヘテロダストであることを考慮に入れた損失関数を使用することで達成される。 提案手法の性能は,カルマン型解析更新と状態依存予測誤差共分散行列の機械学習に基づく推定を組み合わせたハイブリッドデータ同化法で検証される。 lorenz'96モデルを概念実証として観測システムシミュレーション実験を行った。 有望な結果は, 比較的高次元状態において, 予測共分散行列の正確な値を予測できることを示す。 さらに、ハイブリッドデータ同化法は、アンサンブルが比較的小さい場合には、アンサンブルカルマンフィルタと同等の性能を示す。

Quantifying forecast uncertainty is a key aspect of state-of-the-art numerical weather prediction and data assimilation systems. Ensemble-based data assimilation systems incorporate state-dependent uncertainty quantification based on multiple model integrations. However, this approach is demanding in terms of computations and development. In this work a machine learning method is presented based on convolutional neural networks that estimates the state-dependent forecast uncertainty represented by the forecast error covariance matrix using a single dynamical model integration. This is achieved by the use of a loss function that takes into account the fact that the forecast errors are heterodastic. The performance of this approach is examined within a hybrid data assimilation method that combines a Kalman-like analysis update and the machine learning based estimation of a state-dependent forecast error covariance matrix. Observing system simulation experiments are conducted using the Lorenz'96 model as a proof-of-concept. The promising results show that the machine learning method is able to predict precise values of the forecast covariance matrix in relatively high-dimensional states. Moreover, the hybrid data assimilation method shows similar performance to the ensemble Kalman filter outperforming it when the ensembles are relatively small.
翻訳日:2023-05-17 17:50:31 公開日:2023-05-12
# amulet:適応行列乗算のようなタスク

AMULET: Adaptive Matrix-Multiplication-Like Tasks ( http://arxiv.org/abs/2305.08872v1 )

ライセンス: Link先を確認
Junyoung Kim, Kenneth Ross, Eric Sedlar, Lukas Stadler(参考訳) データサイエンスおよび機械学習アプリケーションにおける多くの有用なタスクは、行列乗算の単純なバリエーションとして記述できる。 しかし、既存の行列/ベクトルライブラリは各ハードウェアプラットフォームに対して手動で調整された限られた種類の計算しかサポートしていないため、ユーザーはそのようなタスクを実行するのが難しい。 ユーザは代わりに、タスクを単純なネストループとして書くことができるが、現在のコンパイラは、このように記述されたタスクの高速コードを生成するのに十分な高度ではない。 これらの問題に対処するため,オープンソースコンパイラを拡張して,行列乗算のようなタスクを認識し,最適化する。 amuletと呼ばれるこのフレームワークは、データベーススタイルとコンパイラの最適化技術を使って、実行環境に合わせた高速なコードを生成する。 我々は,Amuletが既存のコンパイラと比較して,行列乗算のようなタスクの高速化を実現する実験を通して示す。 大規模な行列の場合、Amuletは手動の行列乗算ライブラリの15%以内に動作し、より広範な計算クラスを扱う。

Many useful tasks in data science and machine learning applications can be written as simple variations of matrix multiplication. However, users have difficulty performing such tasks as existing matrix/vector libraries support only a limited class of computations hand-tuned for each unique hardware platform. Users can alternatively write the task as a simple nested loop but current compilers are not sophisticated enough to generate fast code for the task written in this way. To address these issues, we extend an open-source compiler to recognize and optimize these matrix multiplication-like tasks. Our framework, called Amulet, uses both database-style and compiler optimization techniques to generate fast code tailored to its execution environment. We show through experiments that Amulet achieves speedups on a variety of matrix multiplication-like tasks compared to existing compilers. For large matrices Amulet typically performs within 15% of hand-tuned matrix multiplication libraries, while handling a much broader class of computations.
翻訳日:2023-05-17 17:50:15 公開日:2023-05-12
# ELSA -- 改良されたコライダーシミュレーションのための拡張潜在空間

ELSA -- Enhanced latent spaces for improved collider simulations ( http://arxiv.org/abs/2305.07696v1 )

ライセンス: Link先を確認
Benjamin Nachman, Ramon Winterhalder(参考訳) シミュレーションは衝突器物理学における推論において重要な役割を果たす。 シミュレーションチェーンの終了時の介入(重み付け)、シミュレーションチェーンの開始時の介入(前処理)、終了と開始の間の接続(相対空間の精細化)など、機械学習を用いたシミュレーションの精度向上のための様々なアプローチを検討する。 提案手法の具体例として, 正規化フローに基づくW+jets行列要素代理シミュレーションを用いる。 まず、データ空間の重みは機械学習分類器を用いて導出される。 次に、データ空間の重みを潜在空間に引き戻し、非重み付き例を生成し、ハミルトンモンテカルロを用いたラテント空間微細化(LASER)プロトコルを用いる。 別のアプローチとして、拡張正規化フローがあり、潜在空間と対象空間の異なる次元を可能にする。 これらの方法は、広く使われているRAMBO-on-dietマッピングの微調整であるハドロン衝突器における質量粒子の新しいおよび一般的な方法を含む、様々な前処理戦略のために研究されている。 修正されたシミュレーションは、幅広い位相空間にまたがる部分精度を達成することができる。

Simulations play a key role for inference in collider physics. We explore various approaches for enhancing the precision of simulations using machine learning, including interventions at the end of the simulation chain (reweighting), at the beginning of the simulation chain (pre-processing), and connections between the end and beginning (latent space refinement). To clearly illustrate our approaches, we use W+jets matrix element surrogate simulations based on normalizing flows as a prototypical example. First, weights in the data space are derived using machine learning classifiers. Then, we pull back the data-space weights to the latent space to produce unweighted examples and employ the Latent Space Refinement (LASER) protocol using Hamiltonian Monte Carlo. An alternative approach is an augmented normalizing flow, which allows for different dimensions in the latent and target spaces. These methods are studied for various pre-processing strategies, including a new and general method for massive particles at hadron colliders that is a tweak on the widely-used RAMBO-on-diet mapping. We find that modified simulations can achieve sub-percent precision across a wide range of phase space.
翻訳日:2023-05-17 17:49:59 公開日:2023-05-12
# CDDO-HS:Child Drawing Development Optimization Harmony Search Algorithm

CDDO-HS:Child Drawing Development Optimization Harmony Search Algorithm ( http://arxiv.org/abs/2305.09615v1 )

ライセンス: Link先を確認
Azad A. Ameen, Tarik A. Rashid and Shavan Askar(参考訳) 児童図面開発最適化(CDDO)はメタヒューリスティックアルゴリズムの最近の例である。 この手法を考案する動機は、子どもの学習行動と認知発達であり、アートワークの美的価値を最適化するために黄金比が用いられる。 残念ながら、CDDOは探索段階での低パフォーマンスに悩まされており、ローカルのベストソリューションは停滞しています。 ハーモニー探索(harmony search, hs)は、ユニモーダルベンチマーク関数における探索位相性能が優れているため、他の一般的なメタヒューリスティックアルゴリズムと比較して高い競合性を持つアルゴリズムである。 そこで本研究では,CDDOHSとHSの両標準をハイブリッド化したCDDOHSを提案する。 提案するハイブリダイゼーションモデルには2つのフェーズがある。 当初、パターンサイズ(PS)はアルゴリズムのコアに移動され、初期パターンサイズは全集団サイズの80%に設定される。 第2に、探索フェーズのパターンサイズ(PS)に標準調和探索(HS)を追加して、各イテレーション後にソリューションを拡張および更新する。 実験は、23の共通関数と10のcec-c06 2019関数を含む、2つの異なる標準ベンチマーク関数を用いて評価される。 さらに、提案するcddohsは、cddo、hsおよび他の6つの広く使われているアルゴリズムと比較される。 Wilcoxonランキングテストを用いて、CDDOHSが代替アルゴリズムに勝っていることを示す。

Child drawing development optimization (CDDO) is a recent example of a metaheuristic algorithm. The motive for inventing this method is children's learning behavior and cognitive development, with the golden ratio employed to optimize their artwork's aesthetic value. Unfortunately, CDDO suffers from low performance in the exploration phase, and the local best solution stagnates. Harmony search (HS) is a highly competitive algorithm relative to other prevalent metaheuristic algorithms, as its exploration phase performance on unimodal benchmark functions is outstanding. Thus, to avoid these issues, we present CDDOHS, a hybridization of both standards of CDDO and HS. The hybridized model proposed consists of two phases. Initially, the pattern size (PS) is relocated to the algorithm's core and the initial pattern size is set to 80 % of the total population size. Second, the standard harmony search (HS) is added to the pattern size (PS) for the exploration phase to enhance and update the solution after each iteration. Experiments are evaluated using two distinct standard benchmark functions, known as classical test functions, including 23 common functions and 10 CEC-C06 2019 functions. Additionally, the suggested CDDOHS is compared to CDDO, HS, and six other widely used algorithms. Using the Wilcoxon ranksum test, the results indicate that CDDOHS beats alternative algorithms.
翻訳日:2023-05-17 13:51:18 公開日:2023-05-12
# Quinductor:Universal Dependenciesを用いた読解理解質問生成のための多言語データ駆動手法

Quinductor: a multilingual data-driven method for generating reading-comprehension questions using Universal Dependencies ( http://arxiv.org/abs/2103.10121v3 )

ライセンス: Link先を確認
Dmytro Kalpakchi and Johan Boye(参考訳) 係り受け木を用いた読解質問を生成する多言語データ駆動手法を提案する。 本手法は,低リソース言語に対して,強く,ほとんど決定論的かつ安価なベースラインを提供する。 言語固有のコーパスは依然として必要だが、そのサイズは現代のニューラルネットワーク生成(QG)アーキテクチャで必要とされるものに近い。 本手法は文献で報告したQGベースラインを超え,人的評価の点で優れた性能を示す。

We propose a multilingual data-driven method for generating reading comprehension questions using dependency trees. Our method provides a strong, mostly deterministic, and inexpensive-to-train baseline for less-resourced languages. While a language-specific corpus is still required, its size is nowhere near those required by modern neural question generation (QG) architectures. Our method surpasses QG baselines previously reported in the literature and shows a good performance in terms of human evaluation.
翻訳日:2023-05-17 01:50:34 公開日:2023-05-12
# ボトムアップとトップダウンによるニューロモルフィック処理系の設計:自然と人工知能のトレードオフと相乗効果

Bottom-up and top-down approaches for the design of neuromorphic processing systems: Tradeoffs and synergies between natural and artificial intelligence ( http://arxiv.org/abs/2106.01288v2 )

ライセンス: Link先を確認
Charlotte Frenkel, David Bol, Giacomo Indiveri(参考訳) ムーアの法則は指数関数計算能力の期待を駆り立ててきたが、システム全体のパフォーマンスを改善するための新しい方法が求められている。 これらの方法の1つは、生物学的ニューラルプロセッシングシステムの柔軟性と計算効率を達成することを目的とした、脳にインスパイアされた別のコンピューティングアーキテクチャの探求である。 この文脈では、ニューロモルフィックエンジニアリングは、処理とメモリが密に共存するスパイクニューラルネットワークアーキテクチャの実装に基づく、コンピューティングのパラダイムシフトを表している。 本稿では,このパラダイムシフトを実現するためのさまざまな粒度レベルに注目し,自然知能(ボットアップ)の再現に焦点を当てた設計アプローチと,実用的な人工知能アプリケーション(トップダウン)の解決を目的とした設計アプローチを比較する。 まず、アナログ、ミックスサイン、デジタル回路設計のスタイルを示し、時間多重化、インメモリ計算、新しいデバイスによる処理とメモリの境界を特定する。 次に,ボトムアップとトップダウンの各設計アプローチに対する重要なトレードオフを強調し,そのシリコン実装を調査し,設計ガイドラインを抽出するための詳細な比較分析を行う。 最後に、エッジコンピューティングアプリケーションにおける従来の機械学習アクセラレータよりも、ニューロモルフィックシステムの競争的優位性を達成するために必要なシナジーと欠如要素を特定し、ニューロモルフィックインテリジェンスのためのフレームワークの重要な要素を概説する。

While Moore's law has driven exponential computing power expectations, its nearing end calls for new avenues for improving the overall system performance. One of these avenues is the exploration of alternative brain-inspired computing architectures that aim at achieving the flexibility and computational efficiency of biological neural processing systems. Within this context, neuromorphic engineering represents a paradigm shift in computing based on the implementation of spiking neural network architectures in which processing and memory are tightly co-located. In this paper, we provide a comprehensive overview of the field, highlighting the different levels of granularity at which this paradigm shift is realized and comparing design approaches that focus on replicating natural intelligence (bottom-up) versus those that aim at solving practical artificial intelligence applications (top-down). First, we present the analog, mixed-signal and digital circuit design styles, identifying the boundary between processing and memory through time multiplexing, in-memory computation, and novel devices. Then, we highlight the key tradeoffs for each of the bottom-up and top-down design approaches, survey their silicon implementations, and carry out detailed comparative analyses to extract design guidelines. Finally, we identify necessary synergies and missing elements required to achieve a competitive advantage for neuromorphic systems over conventional machine-learning accelerators in edge computing applications, and outline the key ingredients for a framework toward neuromorphic intelligence.
翻訳日:2023-05-17 01:39:14 公開日:2023-05-12
# 線形関数近似によるsarsaの収束について

On the Convergence of SARSA with Linear Function Approximation ( http://arxiv.org/abs/2202.06828v3 )

ライセンス: Link先を確認
Shangtong Zhang, Remi Tachet, Romain Laroche(参考訳) 強化学習のための古典的オンライン制御アルゴリズムであるSARSAは、線形関数近似と組み合わせることで、おしゃべりとして知られている: SARSAは分岐せず、有界領域で振動する。 しかし、sarsaがいかに速くその領域に収束するか、その領域の大きさについてはほとんど知られていない。 本稿では,有界領域への射影SARSAの収束率を示すことにより,この開放的問題に向けて前進する。 重要なのは、報酬の規模が大きすぎるわけではないので、この領域は私たちが投射する領域よりもはるかに小さいことです。 線形 SARSA の固定点への収束に関する既存の研究は、すべて SARSA のポリシー改善作用素のリプシッツ定数を十分に小さくする必要があるが、我々の分析は代わりに任意のリプシッツ定数に適用し、新しい状態に対する線形 SARSA の振舞いを特徴づける。

SARSA, a classical on-policy control algorithm for reinforcement learning, is known to chatter when combined with linear function approximation: SARSA does not diverge but oscillates in a bounded region. However, little is known about how fast SARSA converges to that region and how large the region is. In this paper, we make progress towards this open problem by showing the convergence rate of projected SARSA to a bounded region. Importantly, the region is much smaller than the region that we project into, provided that the magnitude of the reward is not too large. Existing works regarding the convergence of linear SARSA to a fixed point all require the Lipschitz constant of SARSA's policy improvement operator to be sufficiently small; our analysis instead applies to arbitrary Lipschitz constants and thus characterizes the behavior of linear SARSA for a new regime.
翻訳日:2023-05-17 01:32:14 公開日:2023-05-12
# 熱損失チャネルにおける離散変数と連続変数の量子鍵分布プロトコルと位相雑音の比較

Comparison of Discrete Variable and Continuous Variable Quantum Key Distribution Protocols with Phase Noise in the Thermal-Loss Channel ( http://arxiv.org/abs/2206.13724v2 )

ライセンス: Link先を確認
Sebastian P. Kish, Patrick Gleeson, Ping Koy Lam, Syed M. Assad(参考訳) 単一光子検出器とソースに基づく離散可変量子鍵分布(QKD)は、長距離安全な鍵分布に成功している。 一方、コヒーレント検出器とソースに基づく連続可変(CV)量子鍵分布(QKD)は現在、損失と耐雑音性の観点から遅れを取っている。 DV-QKDとCV-QKDとの間の重要な識別要因は位相ノイズの影響であり、CV-QKDにはより関係があることが知られている。 本稿では,6状態プロトコルを含むdv-qkdプロトコルとcv-qkdプロトコルに対する熱損失チャネルにおける位相雑音の影響について検討する。 CV-QKDはDV-QKDに比べ,低相雑音では高い熱雑音では高い損失を許容できることがわかった。 また、秘密鍵レートをQKDの性能向上のための追加指標として比較する。 この量の要求は、CV-QKDがDV-QKDよりも優れた性能を発揮する領域を大きく拡張する。 本分析では,DV-QKDとCV-QKDの相ノイズがどう影響するか,熱損失チャネルにおいて従来より優れた性能を示したのか,という疑問に対処する。

Discrete-variable (DV) quantum key distribution (QKD) based on single-photon detectors and sources have been successfully deployed for long-range secure key distribution. On the other hand, continuous-variable (CV) quantum key distribution (QKD) based on coherent detectors and sources is currently lagging behind in terms of loss and noise tolerance. An important discerning factor between DV-QKD and CV-QKD is the effect of phase noise, which is known to be more relevant in CV-QKD. In this article, we investigate the effect of phase noise on DV-QKD and CV-QKD protocols, including the six-state protocol and squeezed-state protocol, in a thermal-loss channel but with the assumed availability of perfect sources and detectors. We find that in the low phase noise regime but high thermal noise regime, CV-QKD can tolerate more loss compared to DV-QKD. We also compare the secret key rate as an additional metric for the performance of QKD. Requirements for this quantity to be high vastly extend the regions at which CV-QKD performs better than DV-QKD. Our analysis addresses the questions of how phase noise affects DV-QKD and CV-QKD and why the former has historically performed better in a thermal-loss channel.
翻訳日:2023-05-17 01:11:21 公開日:2023-05-12
# 量子効果の物質化:ダークマター

Materializing Quantum Effects: Dark Mater ( http://arxiv.org/abs/2208.12267v3 )

ライセンス: Link先を確認
Eduardo V. Flores(参考訳) 物質化する量子効果は常に物理の保存法則と原理を満たす。 物理的相互作用は、保存された量の源と車両の存在を必要とする。 一般に、オンシェル粒子は源であり、オフシェル粒子は保存量を持つ車両である。 ソースまたは車両が失われている場合、量子効果は実現できないことがわかりました。 以上の結果から,Afshar実験における相補性違反の疑いが解決された。 さらに,銀河ニュートリノは古典的理想気体として扱われるべきであることが示唆された。 この目的のために、ダークマターに起因する影響を合理的な近似に説明できる古典的なニュートリノの理想気体の単純化されたモデルを提案する。

Quantum effects that materialize always fulfill the conservation laws and principles of physics. Physical interactions require the presence of sources and vehicles of conserved quantities. Generally, on-shell particles are sources, and off-shell particles are vehicles of conserved quantities. We have found that when either the source or vehicle is missing, quantum effects cannot materialize. Our findings resolve the alleged violation of complementarity in the Afshar experiment. Additionally, our findings indicate that galactic neutrinos should be treated as a classical ideal gas. To this end, we present a simplified model of a classical ideal gas of neutrinos that accounts for effects attributed to dark matter to a reasonable degree of approximation.
翻訳日:2023-05-17 00:51:51 公開日:2023-05-12
# 最大並列性による欠陥のない原子配列の組み立ての高速化

Accelerating the assembly of defect-free atomic arrays with maximum parallelisms ( http://arxiv.org/abs/2210.10364v2 )

ライセンス: Link先を確認
Shuai Wang, Wenjun Zhang, Tao Zhang, Shuyao Mei, Yuqing Wang, Jiazhong Hu, Wenlan Chen(参考訳) 欠陥のない原子配列は、量子シミュレーションと量子計算のためのスケーラブルで完全に制御可能なプラットフォームとして実証されている。 このプラットフォームの量子ビットサイズ制限をさらに押し上げるために,フィールドプログラマブルゲートアレイ(fpga)に基づく統合計測フィードバックシステムを設計し,最大並列性を用いて2次元の欠陥のない原子アレイを迅速に組み立てる。 まず、アトム検出処理、原子占有分析、再配置戦略定式化、aod駆動信号生成を並行して行うことで、再配置の総時間コストを低減させる。 そして、同じ列(カラム)に複数の原子を同時に移動させることで、空間の並列性による再配置時間を節約できる。 これらの並列性を最大限に活用するために,2次元の確率的に読み込まれた原子配列から任意のターゲット配列形状に原子を再構成するtetrisアルゴリズムを提案する。 目標配列幾何学の$L \times L$の場合、移動の数は$L$となり、全体の再配置時間は$L^2$となる。 我々は,異なるターゲットジオメトリの全体的な性能を示し,再配置時間と欠陥のないアトミックアレイシステムを数千キュービットにスケールアップする可能性を示す。

Defect-free atomic arrays have been demonstrated as a scalable and fully-controllable platform for quantum simulations and quantum computations. To push the qubit size limit of this platform further, we design an integrated measurement and feedback system, based on field programmable gate array (FPGA), to quickly assemble two-dimensional defect-free atomic array using maximum parallelisms. The total time cost of the rearrangement is first reduced by processing atom detection, atomic occupation analysis, rearrangement strategy formulation, and acousto-optic deflectors (AOD) driving signal generation in parallel in time. Then, by simultaneously moving multiple atoms in the same row (column), we save rearrangement time by parallelism in space. To best utilize these parallelisms, we propose a new algorithm named Tetris algorithm to reassemble atoms to arbitrary target array geometry from two-dimensional stochastically loaded atomic arrays. For an $L \times L$ target array geometry, the number of moves scales as $L$, and the total rearrangement time scales at most as $L^2$. We present the overall performance for different target geometries, and demonstrate a significant reduction in rearrangement time and the potential to scale up defect-free atomic array system to thousands of qubits.
翻訳日:2023-05-17 00:34:52 公開日:2023-05-12
# 逆行の公理:事前の時間反転対称性の実現

Axioms for retrodiction: achieving time-reversal symmetry with a prior ( http://arxiv.org/abs/2210.13531v2 )

ライセンス: Link先を確認
Arthur J. Parzygnat and Francesco Buscemi(参考訳) 回帰の圏論的定義を提案し,すべての量子チャネルに対して時間反転対称性を示す。 これは、レトロディクションが満足すべき多くの直観的性質を捉え、古典理論と量子理論の両方を包含するのに十分な一般性を持つ。 古典的なベイズ反転と、全ての回転および平均化されたpetzリカバリマップは、我々の意味でのレトロディクションファミリーを定義する。 しかし、Junge-Renner-Sutter-Wilde-Winter の普遍回復写像を含む平均回転ペッツ回収写像は、いくつかの構成性を満たすことができないため、回帰関手を定義しない。 レトロディクションファミリーのすべての例の中で、元のpetzリカバリマップは、レトロディクション関手を定義する唯一のものである。 さらに、回帰関手は、量子理論の標準定式化と一致する推論時間-逆対称性を示す。 このような回帰関手の存在は、量子チャネルの時間反転対称性に関する多くのノーゴー結果とは対照的である。 主な理由の1つは、そのような研究が量子チャネルのみのカテゴリで時間反転対称性を定義するのに対して、量子チャネルと量子状態のカテゴリで定義するからである。 この事実はさらに、時間反転対称性における事前の重要性を示している。

We propose a category-theoretic definition of retrodiction and use it to exhibit a time-reversal symmetry for all quantum channels. We do this by introducing retrodiction families and functors, which capture many intuitive properties that retrodiction should satisfy and are general enough to encompass both classical and quantum theories alike. Classical Bayesian inversion and all rotated and averaged Petz recovery maps define retrodiction families in our sense. However, averaged rotated Petz recovery maps, including the universal recovery map of Junge-Renner-Sutter-Wilde-Winter, do not define retrodiction functors, since they fail to satisfy some compositionality properties. Among all the examples we found of retrodiction families, the original Petz recovery map is the only one that defines a retrodiction functor. In addition, retrodiction functors exhibit an inferential time-reversal symmetry consistent with the standard formulation of quantum theory. The existence of such a retrodiction functor seems to be in stark contrast to the many no-go results on time-reversal symmetry for quantum channels. One of the main reasons is because such works defined time-reversal symmetry on the category of quantum channels alone, whereas we define it on the category of quantum channels and quantum states. This fact further illustrates the importance of a prior in time-reversal symmetry.
翻訳日:2023-05-17 00:22:46 公開日:2023-05-12
# PVGRU:擬似変動機構による多変量および関連対話応答の生成

PVGRU: Generating Diverse and Relevant Dialogue Responses via Pseudo-Variational Mechanism ( http://arxiv.org/abs/2212.09086v3 )

ライセンス: Link先を確認
Yongkang Liu and Shi Feng and Daling Wang and Hinrich Sch\"utze and Yifei Zhang(参考訳) 生成型チャットボットにおけるマルチターン対話の応答生成について検討する。 既存のRNN(Recurrent Neural Networks)に基づく生成モデルは、通常、シーケンスを要約するために最後の隠れ状態を使用するため、異なる対話で観察される微妙な変動を捉えることができず、合成において類似した対話の違いを区別できない。 本稿では,GRUに再帰的な要約変数を導入することで,後続知識のない擬似分散Gated Recurrent Unit (PVGRU) を提案する。 PVGRUは、考案された分布の一貫性と再構成目的によって最適化された変数を要約することで、微妙な意味的変動を認識することができる。 さらに,PVGRUに基づく擬似変数階層対話(PVHD)モデルを構築した。 実験の結果,PVGRUは2つのベンチマークデータセットにおける応答の多様性と関連性を大きく改善できることが示された。

We investigate response generation for multi-turn dialogue in generative-based chatbots. Existing generative models based on RNNs (Recurrent Neural Networks) usually employ the last hidden state to summarize the sequences, which makes models unable to capture the subtle variability observed in different dialogues and cannot distinguish the differences between dialogues that are similar in composition. In this paper, we propose a Pseudo-Variational Gated Recurrent Unit (PVGRU) component without posterior knowledge through introducing a recurrent summarizing variable into the GRU, which can aggregate the accumulated distribution variations of subsequences. PVGRU can perceive the subtle semantic variability through summarizing variables that are optimized by the devised distribution consistency and reconstruction objectives. In addition, we build a Pseudo-Variational Hierarchical Dialogue (PVHD) model based on PVGRU. Experimental results demonstrate that PVGRU can broadly improve the diversity and relevance of responses on two benchmark datasets.
翻訳日:2023-05-16 23:56:54 公開日:2023-05-12
# 説明と予測の関係について:因果的考察

On the Relationship Between Explanation and Prediction: A Causal View ( http://arxiv.org/abs/2212.06925v4 )

ライセンス: Link先を確認
Amir-Hossein Karimi, Krikamol Muandet, Simon Kornblith, Bernhard Sch\"olkopf, Been Kim(参考訳) モデルの決定に対して説明を提供することは、機械学習モデルの開発、デプロイ、導入の中心的な要件となっている。 しかし、説明法ができることとできないことはまだ分かっていない。 データやモデル予測、ハイパーパラメータ、ランダム初期化といった上流要因は下流の説明にどのように影響するのか? 前回の研究では、説明(E)が予測(Y)とはほとんど関係がないという懸念が持ち上がったが、この関係を定量化するための決定的な研究が欠如している。 私たちの仕事は因果推論からツールを借りて、この関係を体系的に確認します。 より具体的には, 因果祖先に介入する際の治療効果, すなわち過度パラメータおよび塩分濃度に基づくEsまたはYsの生成に使用される入力を計測することにより, EとYの関係について検討する。 この結果は、E と Y の関係は理想とは程遠いことを示唆している。 実際、"理想"ケース間のギャップは、高いパフォーマンスモデル -- デプロイされる可能性のあるモデルでのみ増加する。 我々の研究は、E と Y の関係の定量的な尺度を提供するための有望な第一歩である。

Being able to provide explanations for a model's decision has become a central requirement for the development, deployment, and adoption of machine learning models. However, we are yet to understand what explanation methods can and cannot do. How do upstream factors such as data, model prediction, hyperparameters, and random initialization influence downstream explanations? While previous work raised concerns that explanations (E) may have little relationship with the prediction (Y), there is a lack of conclusive study to quantify this relationship. Our work borrows tools from causal inference to systematically assay this relationship. More specifically, we study the relationship between E and Y by measuring the treatment effect when intervening on their causal ancestors, i.e., on hyperparameters and inputs used to generate saliency-based Es or Ys. Our results suggest that the relationships between E and Y is far from ideal. In fact, the gap between 'ideal' case only increase in higher-performing models -- models that are likely to be deployed. Our work is a promising first step towards providing a quantitative measure of the relationship between E and Y, which could also inform the future development of methods for E with a quantitative metric.
翻訳日:2023-05-16 23:54:57 公開日:2023-05-12
# 独立源と厳密な局所性制約を持つ実験的フルネットワーク非局所性

Experimental full network nonlocality with independent sources and strict locality constraints ( http://arxiv.org/abs/2302.02472v2 )

ライセンス: Link先を確認
Xue-Mei Gu, Liang Huang, Alejandro Pozas-Kerstjens, Yang-Fan Jiang, Dian Wu, Bing Bai, Qi-Chao Sun, Ming-Cheng Chen, Jun Zhang, Sixia Yu, Qiang Zhang, Chao-Yang Lu, Jian-Wei Pan(参考訳) いくつかの独立した情報源からなるネットワークで生じる非局所性は、標準的なベルのシナリオとは大きく異なる現象を引き起こす。 近年,エンタングルメントスワッピングシナリオにおけるネットワーク非局所性現象が十分に研究され,実証されている。 しかし, 従来の実証実験では, いわゆる「双局所性不平等」の違反は, 情報源の非古典性を証明できないことが知られている。 これにより、完全ネットワーク非局所性と呼ばれるネットワークにおける非局所性に関するより強力な概念が提唱された。 そこで本研究では, ソース・インデペンデンス, 局所性, 測定・インデペンデンス・ホールが閉ざされたネットワーク内の完全ネットワーク非局所相関を実験的に観察する。 これは、2つの独立したソース、迅速な設定生成、関連するイベントの空間的な分離によって保証される。 本実験は,非フルネットワーク非局所相関を5以上の標準偏差で特徴づける既知の不等式に違反し,その実現における古典的情報源の欠如を確認した。

Nonlocality arising in networks composed of several independent sources gives rise to phenomena radically different from that in standard Bell scenarios. Over the years, the phenomenon of network nonlocality in the entanglement-swapping scenario has been well investigated and demonstrated. However, it is known that violations of the so-called bilocality inequality used in previous experimental demonstrations cannot be used to certify the non-classicality of their sources. This has put forward a stronger concept for nonlocality in networks, called full network nonlocality. Here, we experimentally observe full network nonlocal correlations in a network where the source-independence, locality, and measurement-independence loopholes are closed. This is ensured by employing two independent sources, rapid setting generation, and space-like separations of relevant events. Our experiment violates known inequalities characterizing non-full network nonlocal correlations by over five standard deviations, certifying the absence of classical sources in the realization.
翻訳日:2023-05-16 23:27:30 公開日:2023-05-12
# アジャイルモデリング: 概念から分類までを数分で

Agile Modeling: From Concept to Classifier in Minutes ( http://arxiv.org/abs/2302.12948v2 )

ライセンス: Link先を確認
Otilia Stretcu, Edward Vendrow, Kenji Hata, Krishnamurthy Viswanathan, Vittorio Ferrari, Sasan Tavakkol, Wenlei Zhou, Aditya Avinash, Enming Luo, Neil Gordon Alldrin, MohammadHossein Bateni, Gabriel Berger, Andrew Bunner, Chun-Ta Lu, Javier A Rey, Giulia DeSalvo, Ranjay Krishna, Ariel Fuxman(参考訳) コンピュータビジョンの微妙な主観的ユースケースへの応用が増加している。 クラウドソーシングは、視覚コミュニティのほとんどの目的のタスク(例えば「ゼブラ」のラベル付けなど)によく役立っているが、現在では、概念にかなりの主観性があるタスク(例えば「グルメ・マグロ」の識別)に固執している。 ユーザーは機械学習の専門家ではないし、何千もの例をラベル付けする忍耐力もない。 主観的な視覚概念を、リアルタイムのユーザ・イン・ザ・ループインタラクションを通じてコンピュータビジョンモデルに変換するプロセスです。 画像分類のためのアジャイルモデリングプロトタイプをインスタンス化し、ユーザスタディ(N=14)を通じて、30分以内の最小限の労力で分類器を作成できることを示す。 このユーザ主導のプロセスと従来のクラウドソーシングのパラダイムを比較し,特に概念がより主観的になるにつれて,クラウドソーシングの概念がユーザの概念としばしば異なることを発見した。 最後に,ImageNet21kカテゴリのユーザ学習分類器のシミュレーションを用いて実験をスケールし,有効性を示す。

The application of computer vision to nuanced subjective use cases is growing. While crowdsourcing has served the vision community well for most objective tasks (such as labeling a "zebra"), it now falters on tasks where there is substantial subjectivity in the concept (such as identifying "gourmet tuna"). However, empowering any user to develop a classifier for their concept is technically difficult: users are neither machine learning experts, nor have the patience to label thousands of examples. In reaction, we introduce the problem of Agile Modeling: the process of turning any subjective visual concept into a computer vision model through a real-time user-in-the-loop interactions. We instantiate an Agile Modeling prototype for image classification and show through a user study (N=14) that users can create classifiers with minimal effort under 30 minutes. We compare this user driven process with the traditional crowdsourcing paradigm and find that the crowd's notion often differs from that of the user's, especially as the concepts become more subjective. Finally, we scale our experiments with simulations of users training classifiers for ImageNet21k categories to further demonstrate the efficacy.
翻訳日:2023-05-16 23:18:52 公開日:2023-05-12
# 4-log N+2$ Qubits を用いた量子化ダウンフォールディングのハミルトニアンシミュレーション

Hamiltonian Simulation Via Qubitized Downfolding Using $4\log N+2$ Qubits ( http://arxiv.org/abs/2303.07051v2 )

ライセンス: Link先を確認
Anirban Mukherjee(参考訳) 本稿では,N分子軌道(MO)の量子化学系を4-log N + 2$ qubitsを用いてシミュレーションする量子アルゴリズムについて報告する。 多電子配置の数はMOの数と指数関数的にスケールし、多電子系のエネルギーを計算する主要なボトルネックとなる。 本稿では,量子ウォーク法とハミルトニアンダウンフォールディング法を組み合わせた量子化ハミルトニアンダウンフォールディング法(qhd法)を提案する。 qhdの各段階では、分子軌道(mo)を最も高い占有率であるmo(homo)から切り離すことで、多電子配置の数は1/4ドル減少する。 このようなダウンフォールディングステップのシーケンスにより、低エネルギーのHOMO-LUMOウィンドウにスケールすることができる。 ダウンフォールディングの各段階について、emph{decoupling condition}すなわち多体正規順序ブロッホ方程式を二次多項式方程式の系に写像する。 これらの下降方程式は、誤差$\epsilon$内の非線形最小二乗(NLLS)アプローチで解ける。 NLLSの各ステップはヘシアン逆変換を含み、量子線形システム問題(QLSP)を構成する。 量子化オラクルを用いてヘッセンをブロックエンコードする量子回路について述べる。 その後、量子ウォークのシーケンスを利用して、エラー$\epsilon'$でQLSPを解くためのチェビシェフ拡張を実装した。 N軌道系から始まり、各ダウンフォールディング回路のゲート複雑性は$O(N^{2}\log^{2}(1/\epsilon'))$としてスケールし、すべてのダウンフォールディングMOは$O(N^3/\epsilon^{2})$ Oracleクエリを含む。

This paper reports a quantum algorithm for simulating quantum chemical systems of N molecular orbitals(MOs) using $4\log N +2$ qubits. The number of multi-electron configurations scales exponentially with the number of MOs and is the primary bottleneck in calculating the energy of a many-electron system. This paper introduces qubitized Hamiltonian downfolding(QHD) by combining the techniques of qubitized quantum walks and Hamiltonian downfolding to reduce the active space dimension systematically. At each stage of QHD, the number of many-electron configurations is reduced by $1/4$ by decoupling the molecular orbital (MO) farthest from the highest occupied MO (HOMO). The sequence of such downfolding steps enables us to scale towards the low-energy HOMO-LUMO window. For each stage of downfolding, we map the \emph{decoupling condition} i.e., a many-body normal-ordered Bloch equation to a system of quadratic polynomial equations. These downfolding equations can be solved using a non-linear least squares (NLLS) approach within error $\epsilon$. Each step of NLLS involves a Hessian inversion and comprises a quantum linear system problem(QLSP). We describe quantum circuits that block-encode the Hessian using qubitization oracles. Subsequently, we implement the Chebyshev expansion for solving the QLSP within error $\epsilon'$, utilizing a sequence of qubitized quantum walks. Starting from an N-orbital system the gate complexity of each downfolding circuit scales as $O(N^{2}\log^{2}(1/\epsilon'))$ and for downfolding all the MOs involve $O(N^3/\epsilon^{2})$ oracle queries.
翻訳日:2023-05-16 23:08:47 公開日:2023-05-12
# ディラックの自由場の量子論

Quantum theory of Dirac's free field ( http://arxiv.org/abs/2304.12182v2 )

ライセンス: Link先を確認
Ion I. Cotaescu(参考訳) 自由質量フェルミオンのディラック理論は、新しい保存されたスピン作用素とその関連する位置を中心に、長い間Pryceによって提案され、最近適切なスペクトル表現を用いて再定義されている。 I. Cot\u aescu, Eur Phys J.C (2022) 82:1073。 ここで、この方法は任意の積分作用素に関連付け、モードスピノルの代わりに運動量表現において粒子と反粒子波スピノルに作用する一対の積分作用素を配置表現する。 これにより、従来の解釈でzitterbewegungを産出するもののようにタームを振動させることなく、主観測可能な粒子が1粒子作用素であるコヒーレント量子理論に米を与える効果的な量子化手法が得られる。 このアプローチでは、スピン作用素は保存されるが、Pryceによって最初に提案された位置演算子は、保存速度とともに線形に進化する双極子作用素の量子化の後になる。 アイソメトリー生成器や様々な位置演算子を含む可観測物のリッチ代数は、大まかに研究されている。 1粒子波束の伝播は、このフレームワークで初めて、これらの動きが通常、他のスカラー波束や非相対論的波束のように時間的に均一に広がることを発見したと考えられている。

The Dirac theory of free massive fermions is reconstructed around the new conserved spin operator and its associated position one proposed initially by Pryce long time ago and re-defined recently by using suitable spectral representations [I. I. Cot\u aescu, Eur. Phys. J. C (2022) 82:1073]. This method is generalized here associating to any integral operator in configuration representation a pair of integral operators acting on particle and antiparticle wave spinors in momentum representation instead on the mode spinors. It results thus an effective quantization procedure giving rice to a coherent quantum theory in which the principal observables are one-particle operators without oscillating therms as those producing zitterbewegung in the traditional interpretation. In this approach the spin operator is conserved while the position one, proposed initially by Pryce as mass-center operator, becomes after quantization the dipole operator evolving linearly in time with a conserved velocity. The rich algebra of observables including the isometry generators and various position operators is carrefuly studied. The propagation of one-particle wave-packets is considered for the first time in this framework finding that these move uniformly spreading in time normally as any other scalar or non-relativistic wave-packet.
翻訳日:2023-05-16 20:51:41 公開日:2023-05-12
# ゼロ・マイズショット生物医学的エンティティ認識のためのトランスフォーマティブベース手法

A transformer-based method for zero and few-shot biomedical named entity recognition ( http://arxiv.org/abs/2305.04928v2 )

ライセンス: Link先を確認
Milo\v{s} Ko\v{s}prdi\'c, Nikola Prodanovi\'c, Adela Ljaji\'c, Bojana Ba\v{s}aragin and Nikola Milo\v{s}evi\'c(参考訳) 生物医学領域における監視された名前付きエンティティ認識(NER)は、与えられた名前付きエンティティを含む注釈付きテキストの大規模なセットに依存しており、その作成には時間と費用がかかる。 さらに、新しいエンティティの抽出には、追加のアノテーションタスクとモデルの再トレーニングが必要になることが多い。 これらの課題に対処するために,生物医学領域におけるゼロショットNERのトランスフォーマ方式を提案する。 マルチクラスのトークン分類のタスクをバイナリトークン分類に変換し(トーケンは検索されたエンティティを含むか、検索されたエンティティを含まない)、与えられたクラスと潜在クラスのセマンティック関係を学習できる大量のデータセットやバイオメディカルエンティティを事前学習する。 我々は,ゼロショットNERが35.44%,ワンショットNERが50.10%,10ショットNERが69.94%,100ショットNERが79.51%,PubMedBERT微調整モデルで評価された9つのバイオメディカルエンティティに対して平均F1スコアを達成した。 提案手法は,実例を限定し,最先端のゼロショットと少数ショットのner法と同等かそれ以上の結果を得た新しいエンティティを識別する手法の有効性を示す。

Supervised named entity recognition (NER) in the biomedical domain is dependent on large sets of annotated texts with the given named entities, whose creation can be time-consuming and expensive. Furthermore, the extraction of new entities often requires conducting additional annotation tasks and retraining the model. To address these challenges, this paper proposes a transformer-based method for zero- and few-shot NER in the biomedical domain. The method is based on transforming the task of multi-class token classification into binary token classification (token contains the searched entity or does not contain the searched entity) and pre-training on a larger amount of datasets and biomedical entities, from where the method can learn semantic relations between the given and potential classes. We have achieved average F1 scores of 35.44% for zero-shot NER, 50.10% for one-shot NER, 69.94% for 10-shot NER, and 79.51% for 100-shot NER on 9 diverse evaluated biomedical entities with PubMedBERT fine-tuned model. The results demonstrate the effectiveness of the proposed method for recognizing new entities with limited examples, with comparable or better results from the state-of-the-art zero- and few-shot NER methods.
翻訳日:2023-05-16 20:34:38 公開日:2023-05-12
# 必要なプロンプト:アンカーベースのプロンプトによる雨のシーンのセグメンテーション強化

Prompt What You Need: Enhancing Segmentation in Rainy Scenes with Anchor-based Prompting ( http://arxiv.org/abs/2305.03902v2 )

ライセンス: Link先を確認
Xiaoyu Guo, Xiang Wei, Qi Su, Huiqin Zhao and Shunli Zhang(参考訳) 雨場のセマンティックセグメンテーションは、複雑な環境、クラス分布の不均衡、限られた注釈付きデータのために難しい課題である。 これらの課題に対処するために,半教師付き学習と事前学習されたセグメンテーション基礎モデルを用いた新しいフレームワークを提案する。 具体的には、半教師付きモデルを利用して生のセグメンテーション結果を生成するとともに、事前訓練された基礎モデルにエントロピーベースのアンカーによる知識ギャップを補うための指導力として機能する。 また,事前学習した基礎モデルが生み出す無関係なセグメンテーションマスクの影響を最小限に抑えるために,最小リスクの原理に基づいて生のセグメンテーション結果を最適化するマスクフィルタリングと融合機構を提案する。 提案するフレームワークは,Rainy WCityデータセット上でのセグメンテーション性能に優れ,ICME 2023 Grand ChallengesにおいてSTRAINのサブトラックで1位を獲得している。

Semantic segmentation in rainy scenes is a challenging task due to the complex environment, class distribution imbalance, and limited annotated data. To address these challenges, we propose a novel framework that utilizes semi-supervised learning and pre-trained segmentation foundation model to achieve superior performance. Specifically, our framework leverages the semi-supervised model as the basis for generating raw semantic segmentation results, while also serving as a guiding force to prompt pre-trained foundation model to compensate for knowledge gaps with entropy-based anchors. In addition, to minimize the impact of irrelevant segmentation masks generated by the pre-trained foundation model, we also propose a mask filtering and fusion mechanism that optimizes raw semantic segmentation results based on the principle of minimum risk. The proposed framework achieves superior segmentation performance on the Rainy WCity dataset and is awarded the first prize in the sub-track of STRAIN in ICME 2023 Grand Challenges.
翻訳日:2023-05-16 20:32:53 公開日:2023-05-12
# 既存バイアス付きStyleGAN2を用いたゼロショット人種バランスデータセット生成

Zero-shot racially balanced dataset generation using an existing biased StyleGAN2 ( http://arxiv.org/abs/2305.07710v1 )

ライセンス: Link先を確認
Anubhav Jain, Nasir Memon, Julian Togelius(参考訳) 顔認識システムは、データの多いディープラーニングモデルのおかげで大きな進歩を遂げてきたが、これらのモデルは大きなプライバシーに敏感なデータセットに依存している。 残念なことに、これらのデータセットの多くは民族や人口統計の多様性を欠いているため、深刻な社会的・セキュリティ上の意味を持つモデルに偏りが生じる可能性がある。 これらの問題に対処するために, バイアス付き生成モデルstylegan2を用いて, 合成個体の人口分布に富む画像を作成する手法を提案する。 合成データセットは、特定の人口集団を対象とする新しい進化的探索アルゴリズムを用いて作成される。 1レースあたり5万のid(合計1350万の画像)を含むバランスのとれたデータセットで顔認識モデルをトレーニングすることで、実際のデータセットでトレーニングされたモデルに存在したバイアスを最小限に抑えることができる。

Facial recognition systems have made significant strides thanks to data-heavy deep learning models, but these models rely on large privacy-sensitive datasets. Unfortunately, many of these datasets lack diversity in terms of ethnicity and demographics, which can lead to biased models that can have serious societal and security implications. To address these issues, we propose a methodology that leverages the biased generative model StyleGAN2 to create demographically diverse images of synthetic individuals. The synthetic dataset is created using a novel evolutionary search algorithm that targets specific demographic groups. By training face recognition models with the resulting balanced dataset containing 50,000 identities per race (13.5 million images in total), we can improve their performance and minimize biases that might have been present in a model trained on a real dataset.
翻訳日:2023-05-16 20:17:02 公開日:2023-05-12
# 言語モデルを用いた学生のアラーム応答の検出

Using Language Models to Detect Alarming Student Responses ( http://arxiv.org/abs/2305.07709v1 )

ライセンス: Link先を確認
Christopher M. Ormerod and Milan Patel and Harry Wang(参考訳) 本稿は、人工知能を用いて生徒の不安な反応を識別するシステムに対する進歩を詳述する。 本システムは,学生の反応が自分に対する脅威であることを示すかどうかを評価するための評価プラットフォームに組み込まれている。 このような対応には、暴力の脅威、重度のうつ病、自殺リスク、虐待の描写に関する詳細が含まれる。 自然言語処理の進歩によって、最新のモデルは、学生の反応と補足テキストからなる大きなコーパスでトレーニングされた微調整された言語モデルである。 我々は、言語モデルの使用が、このシステムの以前のイテレーションよりも精度が大幅に向上することを実証する。

This article details the advances made to a system that uses artificial intelligence to identify alarming student responses. This system is built into our assessment platform to assess whether a student's response indicates they are a threat to themselves or others. Such responses may include details concerning threats of violence, severe depression, suicide risks, and descriptions of abuse. Driven by advances in natural language processing, the latest model is a fine-tuned language model trained on a large corpus consisting of student responses and supplementary texts. We demonstrate that the use of a language model delivers a substantial improvement in accuracy over the previous iterations of this system.
翻訳日:2023-05-16 20:16:43 公開日:2023-05-12
# テンソルネットワークによる基底状態の空間のグラフ化

Charting the space of ground states with tensor networks ( http://arxiv.org/abs/2305.07700v1 )

ライセンス: Link先を確認
Marvin Qi, David T. Stephen, Xueda Wen, Daniel Spiegel, Markus J. Pflaum, Agn\`es Beaudry, Michael Hermele(参考訳) 我々は行列積状態 (mps) とテンソルネットワークを用いて, ガッピング多体系の基底状態空間の位相的性質を研究する。 我々は、各状態が有限結合次元の射出的mpsとして表現できる1つの空間次元の状態族に焦点を当てる。 そのような状態は、ガッピングされた地元のハミルトニアンの短距離の絡み合った基底状態である。 x$ 以上のパラメトリズド族に対して、ゼロ次元族における基底状態のライン束を一般化するgerbe を関連付ける(小体量子力学における\emph{i.e} )。 ゲルベの非自明性は、一次元のパラメータ化系を分類すると考えられる$H^3(X, \mathbb{Z})$のクラスによって測定される。 ゲルベが非自明である場合、mpsテンソルで基底状態の族を表現するのに障害があり、x$ で至る所で連続する。 x=s^3$ と $x = \mathbb{r} p^2 \times s^1$ の2つの非自明なパラメトリライズシステムの例を用いて構成を説明する。 最後に、構築が高次元のパラメトリケートシステムにどのように拡張されるかのテンソルネットワーク手法を用いてスケッチし、X = S^4$ という非自明な 2-gerbe を生じる2次元パラメトリケートシステムの例を示す。

We employ matrix product states (MPS) and tensor networks to study topological properties of the space of ground states of gapped many-body systems. We focus on families of states in one spatial dimension, where each state can be represented as an injective MPS of finite bond dimension. Such states are short-range entangled ground states of gapped local Hamiltonians. To such parametrized families over $X$ we associate a gerbe, which generalizes the line bundle of ground states in zero-dimensional families (\emph{i.e.} in few-body quantum mechanics). The nontriviality of the gerbe is measured by a class in $H^3(X, \mathbb{Z})$, which is believed to classify one-dimensional parametrized systems. We show that when the gerbe is nontrivial, there is an obstruction to representing the family of ground states with an MPS tensor that is continuous everywhere on $X$. We illustrate our construction with two examples of nontrivial parametrized systems over $X=S^3$ and $X = \mathbb{R} P^2 \times S^1$. Finally, we sketch using tensor network methods how the construction extends to higher dimensional parametrized systems, with an example of a two-dimensional parametrized system that gives rise to a nontrivial 2-gerbe over $X = S^4$.
翻訳日:2023-05-16 20:16:23 公開日:2023-05-12
# 境界状態散乱の量子シミュレーションに向けて

Towards Quantum Simulation of Bound States Scattering ( http://arxiv.org/abs/2305.07692v1 )

ライセンス: Link先を確認
Matteo Turco, Gon\c{c}alo M. Quinta, Jo\~ao Seixas, Yasser Omar(参考訳) ここ数年、量子計算の量子場理論への応用が急速に発展してきた。 散乱の量子シミュレーションのための最初のアルゴリズムは、数千の論理量子ビットを必要とするスカラー理論とフェルミオン理論の文脈で提案されている。 これらのアルゴリズムは入射境界状態の散乱をシミュレートするには不適であり、初期状態の準備は典型的には自由理論の断熱的に自由理論の波束を相互作用理論の波束に変換することに依拠する。 本稿では、相互作用理論の真空から直接相互作用理論のウェーブパレットを励起し、複合粒子の状態を作るための戦略を提案する。 これは境界状態の散乱の量子シミュレーションへの第一歩である。 このアプローチは、完全な非摂動的枠組みで理論の生成と消滅作用素を構築する方法を提供するハーグ=ルエル散乱理論に基づいている。 ウェーブパックのサイズで対数であり、準備されている状態に応じて成功確率を有する数個の補助量子ビットを必要とする量子アルゴリズムを提供する。 回路の単一イテレーションのゲート複雑性は、一定時間における時間進化のゲート複雑性と同値である。

The last years have seen a rapid development of applications of quantum computation to quantum field theory. The first algorithms for quantum simulation of scattering have been proposed in the context of scalar and fermionic theories, requiring thousands of logical qubits. These algorithms are not suitable to simulate scattering of incoming bound states, as the initial state preparation relies typically on adiabatically transforming wavepackets of the free theory into wavepackets of the interacting theory. In this paper we present a strategy to excite wavepackets of the interacting theory directly from the vacuum of the interacting theory, allowing for preparation of states of composite particles. This is the first step towards quantum simulation of scattering of bound states. The approach is based on the Haag-Ruelle scattering theory, which provides a way to construct creation and annihilation operators of a theory in a full, nonperturbative framework. We provide a quantum algorithm requiring a number of ancillary qubits that is logarithmic in the size of the wavepackets, and with a success probability depending on the state being prepared. The gate complexity for a single iteration of the circuit is equivalent to that of a time evolution for a fixed time.
翻訳日:2023-05-16 20:15:56 公開日:2023-05-12
# ディープラーニングによるパーコレーション型ゲームのマスタリング

Mastering Percolation-like Games with Deep Learning ( http://arxiv.org/abs/2305.07687v1 )

ライセンス: Link先を確認
Michael M. Danziger, Omkar R. Gojala, Sean P. Cornelius(参考訳) ランダムアタックに対するネットワークの堅牢性は広く研究されているが、知的エージェントによる意図的な破壊は従来の方法では不可能である。 ここでは,ネットワークを破壊しようとする攻撃者の論理を模倣した格子上に単一プレイヤーゲームを作成する。 ゲームの目的は、最も少ないステップ数で全てのノードを無効にすることである。 我々は,ネットワークを最適に攻撃するために,このゲームをうまくプレイできる深層q学習を用いた強化学習手法を開発した。 学習アルゴリズムは普遍的であるため、堅牢性の異なる定義のエージェントを訓練し、学習戦略を比較する。 表面的に類似したロバストネスの定義は、訓練されたエージェントに異なる戦略を誘導し、ネットワークを最適に攻撃または防御することが特定の目的に敏感であることを示唆する。 本手法はネットワークのロバスト性を理解するための新しい手法であり、障害のあるシステムにおける他の離散プロセスへの潜在的な応用を提供する。

Though robustness of networks to random attacks has been widely studied, intentional destruction by an intelligent agent is not tractable with previous methods. Here we devise a single-player game on a lattice that mimics the logic of an attacker attempting to destroy a network. The objective of the game is to disable all nodes in the fewest number of steps. We develop a reinforcement learning approach using deep Q-learning that is capable of learning to play this game successfully, and in so doing, to optimally attack a network. Because the learning algorithm is universal, we train agents on different definitions of robustness and compare the learned strategies. We find that superficially similar definitions of robustness induce different strategies in the trained agent, implying that optimally attacking or defending a network is sensitive the particular objective. Our method provides a new approach to understand network robustness, with potential applications to other discrete processes in disordered systems.
翻訳日:2023-05-16 20:15:39 公開日:2023-05-12
# 長手コホート研究のための合成データ生成 -- 公表されたデータ解析結果の評価、方法拡張および再現

Synthetic data generation for a longitudinal cohort study -- Evaluation, method extension and reproduction of published data analysis results ( http://arxiv.org/abs/2305.07685v1 )

ライセンス: Link先を確認
Lisa K\"uhnel, Julian Schneider, Ines Perrar, Tim Adams, Fabian Prasser, Ute N\"othlings, Holger Fr\"ohlich, Juliane Fluck(参考訳) 個人の健康データへのアクセスは、新しい洞察を得ることと科学を進歩させるのに不可欠である。 特に、人工知能に基づく現代の手法は、大規模なデータセットの可用性とアクセスに依存している。 医療分野では、プライバシーの懸念から個人レベルのデータへのアクセスが難しいことが多い。 有望な代替手段は、完全な合成データ、すなわち、元のデータと同様の統計特性を持つが、元の個人レベルのレコードと1対1の対応を持たないランダム化されたプロセスによって生成されるデータの生成である。 本研究では,最先端の合成データ生成法を用いて,栄養分野の特定の用途に対して,生成データの詳細な品質分析を行う。 記述的統計以上の合成データの注意深く分析することの必要性を実証し、合成データセットの潜在可能性を完全に実現するための貴重な洞察を提供する。 学習したモデルからのサンプリングの効果を徹底的に分析することで、選択したユースケースにおいて、重要な実世界の分析結果を大々的に再現することができる。

Access to individual-level health data is essential for gaining new insights and advancing science. In particular, modern methods based on artificial intelligence rely on the availability of and access to large datasets. In the health sector, access to individual-level data is often challenging due to privacy concerns. A promising alternative is the generation of fully synthetic data, i.e. data generated through a randomised process that have similar statistical properties as the original data, but do not have a one-to-one correspondence with the original individual-level records. In this study, we use a state-of-the-art synthetic data generation method and perform in-depth quality analyses of the generated data for a specific use case in the field of nutrition. We demonstrate the need for careful analyses of synthetic data that go beyond descriptive statistics and provide valuable insights into how to realise the full potential of synthetic datasets. By extending the methods, but also by thoroughly analysing the effects of sampling from a trained model, we are able to largely reproduce significant real-world analysis results in the chosen use case.
翻訳日:2023-05-16 20:15:23 公開日:2023-05-12
# 光活性遷移金属錯体の量子ダイナミクス モデル還元のケーススタディ

Quantum Dynamics of Photoactive Transition Metal Complexes. A Case Study of Model Reduction ( http://arxiv.org/abs/2305.07682v1 )

ライセンス: Link先を確認
Olga Bokareva and Oliver K\"uhn(参考訳) 光化学応用のための遷移金属錯体は、しばしば非断熱的およびスピン軌道結合によって特徴づけられる電子振動状態の密度が高い。 概して、光励起後のダイナミクスは、異なる性質の状態と多重性の急速な遷移によって形成される。 過渡吸収実験は運動速度の観点から特徴づけることができるが、システムの複雑さは通常より詳細な分析を妨げている。 量子化学決定モデルを用いた量子力学シミュレーションは、そのような詳細を提供することができる。 特に、カップリングや振動モードをダイナミクスに最も関係のあるものにするために、モデル還元を追求する誘惑がある。 ここでは、遷移金属錯体の特定の性質によって、そのような取り組みがいかに挑戦されるかについて述べる。 この目的のために、最近研究された鉄(II)ホモルミスト錯体の量子力学シミュレーションを行った。

Transition metal complexes for photochemical applications often feature a high density of electron-vibrational states characterized by nonadiabatic and spin-orbit couplings. Overall, the dynamics after photoexcitation is shaped by rapid transitions between states of different character and multiplicity. Even though transient absorption experiments enable characterization in terms of kinetic rates, the complexity of the systems usually prevents a more detailed analysis. Quantum dynamics simulations using quantum chemically determined model Hamiltonians may provide such details. In particular, one is tempted to pursue a model reduction, such as to identify couplings or vibrational modes most relevant for the dynamics. Here, we address how such an endeavor is challenged by the particular nature of transition metal complexes. For that purpose, we performed quantum dynamics simulations for a recently studied iron(II) homoleptic complex.
翻訳日:2023-05-16 20:15:06 公開日:2023-05-12
# MLに基づく授業システム:概念的枠組み

ML-Based Teaching Systems: A Conceptual Framework ( http://arxiv.org/abs/2305.07681v1 )

ライセンス: Link先を確認
Philipp Spitzer, Niklas K\"uhl, Daniel Heinz, Gerhard Satzger(参考訳) 熟練労働者の不足は、人口変動によって悪化し続けており、退職した専門家の知識を維持し、初心者に伝えることは、組織にとって重要な課題となっている。 この知識伝達は従来、個人的なインタラクションを通じて行われてきたが、スケーラビリティに欠け、かなりのリソースと時間を要する。 ITベースの教育システムは、このスケーラビリティの問題に対処してきたが、その開発はいまだに面倒で時間を要する。 本研究では,組織的文脈における知識伝達を促進する機械学習(ML)モデルの可能性について検討し,より費用対効果の高いITベースの教育システムを実現する。 体系的な文献レビューを通じて、MLベースの教育システムをよりよく理解し、設計するための重要な概念、テーマ、次元について検討する。 そのため、我々は、ITベースの教育システムにおけるMLモデルの能力を捉え、統合し、この文脈における関連する概念を誘導的に分析し、それらの相互関係を決定する。 本研究は,MLに基づく教示システムを理解するための重要な概念,テーマ,次元のレビューという形で,本研究の成果を提示する。 これらの結果に基づいて,MLベースの教育システムが専門家の知識をいかに保存し,中小企業から初心者への移転を促進するかを概念化し,コンピュータ支援協調研究に寄与する。 このように、我々は人間とコンピュータの相互作用の新たなサブフィールドに光を当て、学際的な研究課題を構築するのに役立つ。

As the shortage of skilled workers continues to be a pressing issue, exacerbated by demographic change, it is becoming a critical challenge for organizations to preserve the knowledge of retiring experts and to pass it on to novices. While this knowledge transfer has traditionally taken place through personal interaction, it lacks scalability and requires significant resources and time. IT-based teaching systems have addressed this scalability issue, but their development is still tedious and time-consuming. In this work, we investigate the potential of machine learning (ML) models to facilitate knowledge transfer in an organizational context, leading to more cost-effective IT-based teaching systems. Through a systematic literature review, we examine key concepts, themes, and dimensions to better understand and design ML-based teaching systems. To do so, we capture and consolidate the capabilities of ML models in IT-based teaching systems, inductively analyze relevant concepts in this context, and determine their interrelationships. We present our findings in the form of a review of the key concepts, themes, and dimensions to understand and inform on ML-based teaching systems. Building on these results, our work contributes to research on computer-supported cooperative work by conceptualizing how ML-based teaching systems can preserve expert knowledge and facilitate its transfer from SMEs to human novices. In this way, we shed light on this emerging subfield of human-computer interaction and serve to build an interdisciplinary research agenda.
翻訳日:2023-05-16 20:14:54 公開日:2023-05-12
# ニューラル画像圧縮における速度・歪み・複雑度最適化の探索

Exploring the Rate-Distortion-Complexity Optimization in Neural Image Compression ( http://arxiv.org/abs/2305.07678v1 )

ライセンス: Link先を確認
Yixin Gao, Runsen Feng, Zongyu Guo, Zhibo Chen(参考訳) 短い歴史にもかかわらず、ニューラル画像コーデックは速度歪み性能の点で古典的画像コーデックを超えることが示されている。 しかし、その多くは非常に長い復号時間に悩まされており、これはニューラルイメージコーデックの実践的応用を妨げる。 この問題は、エントロピー復号時間を桁違いに増やすため、効果的だが時間を要する自己回帰的コンテキストモデルを採用する場合に特に顕著である。 本稿では,符号化の複雑さを時間的に見落としながら最適なrd性能を追求する先行研究と異なり,ニューラルネットワーク圧縮におけるrdc最適化を体系的に検討する。 最適化目標の要因としてデコード複雑さを定量化することにより、rdcトレードオフを正確に制御し、ニューラルネットワークコーデックのレートゆがみ性能が様々な複雑性要求にどのように適応するかを実証することができる。 RDC最適化の調査を超えて、可変複雑ニューラルコーデックは産業的要求に応じて空間的依存関係を適応的に活用するように設計されており、RCCトレードオフのバランスをとることで、微細な複雑性調整をサポートする。 このスキームを強力なベースモデルに実装することにより、ニューラルイメージコーデックに対するRCC最適化の実現可能性と柔軟性を示す。

Despite a short history, neural image codecs have been shown to surpass classical image codecs in terms of rate-distortion performance. However, most of them suffer from significantly longer decoding times, which hinders the practical applications of neural image codecs. This issue is especially pronounced when employing an effective yet time-consuming autoregressive context model since it would increase entropy decoding time by orders of magnitude. In this paper, unlike most previous works that pursue optimal RD performance while temporally overlooking the coding complexity, we make a systematical investigation on the rate-distortion-complexity (RDC) optimization in neural image compression. By quantifying the decoding complexity as a factor in the optimization goal, we are now able to precisely control the RDC trade-off and then demonstrate how the rate-distortion performance of neural image codecs could adapt to various complexity demands. Going beyond the investigation of RDC optimization, a variable-complexity neural codec is designed to leverage the spatial dependencies adaptively according to industrial demands, which supports fine-grained complexity adjustment by balancing the RDC tradeoff. By implementing this scheme in a powerful base model, we demonstrate the feasibility and flexibility of RDC optimization for neural image codecs.
翻訳日:2023-05-16 20:14:30 公開日:2023-05-12
# 時空間グラフニューラルネットワークによる新型コロナウイルスのパンデミック予測 : ニュージーランドの研究

Predicting COVID-19 pandemic by spatio-temporal graph neural networks: A New Zealand's study ( http://arxiv.org/abs/2305.07731v1 )

ライセンス: Link先を確認
Viet Bach Nguyen, Truong Son Hy, Long Tran-Thanh, Nhung Nghiem(参考訳) パンデミックのダイナミクスのモデル化とシミュレーションは、新型コロナウイルスなどの高感染症の拡散の理解と解決に不可欠である。 本研究では,空間グラフ情報,すなわち地理的データと時間的情報,すなわち新型コロナウイルス感染者数の時系列データを組み合わせて,パンデミックの将来のダイナミクスを予測することを目的として,ATMGNN(Attention-based Multi resolution Graph Neural Networks)という新しいディープラーニングアーキテクチャを提案する。 鍵となる革新は,本手法が空間グラフのマルチスケール構造を学習からクラスタアルゴリズムにより,データ駆動方式で捉えることができる点である。 これにより、私たちのアーキテクチャは、パンデミックのローカルまたはグローバルシグナルをピックアップし、長距離の空間的および時間的依存性の両方をモデル化することを学びます。 重要なことに、ニュージーランド向けの新しいデータセットを収集し、組み立てました。 我々は時空間モデルとともに統計手法、時間的アーキテクチャ、グラフニューラルネットワークの包括的なベンチマークを構築した。 また,社会経済横断データを導入し,予測をさらに強化した。 提案モデルでは,イギリス,フランス,イタリア,スペインの既存のデータセットとともに,ニュージーランドの新しいデータセットのさまざまな指標において,非常に堅牢な予測結果を示し,その他のベースラインを上回りました。 将来的には、リアルタイム予測とグローバルスケールのための作業を拡大する予定です。 私たちのデータとソースコードはhttps://github.com/HySonLab/pandemic_tgnnで公開されています。

Modeling and simulations of pandemic dynamics play an essential role in understanding and addressing the spreading of highly infectious diseases such as COVID-19. In this work, we propose a novel deep learning architecture named Attention-based Multiresolution Graph Neural Networks (ATMGNN) that learns to combine the spatial graph information, i.e. geographical data, with the temporal information, i.e. timeseries data of number of COVID-19 cases, to predict the future dynamics of the pandemic. The key innovation is that our method can capture the multiscale structures of the spatial graph via a learning to cluster algorithm in a data-driven manner. This allows our architecture to learn to pick up either local or global signals of a pandemic, and model both the long-range spatial and temporal dependencies. Importantly, we collected and assembled a new dataset for New Zealand. We established a comprehensive benchmark of statistical methods, temporal architectures, graph neural networks along with our spatio-temporal model. We also incorporated socioeconomic cross-sectional data to further enhance our prediction. Our proposed model have shown highly robust predictions and outperformed all other baselines in various metrics for our new dataset of New Zealand along with existing datasets of England, France, Italy and Spain. For a future work, we plan to extend our work for real-time prediction and global scale. Our data and source code are publicly available at https://github.com/HySonLab/pandemic_tgnn
翻訳日:2023-05-16 20:08:41 公開日:2023-05-12
# 検証可能性の探索:AIが修正した意思決定における補足的性能の低い説明

In Search of Verifiability: Explanations Rarely Enable Complementary Performance in AI-Advised Decision Making ( http://arxiv.org/abs/2305.07722v1 )

ライセンス: Link先を確認
Raymond Fok, Daniel S. Weld(参考訳) AIが推奨する意思決定に関する現在の文献 - 人間の意思決定を助言する説明可能なAIシステムを含む - は、一連の不決定かつ不確定な結果を提示している。 そこで本研究では,ai説明の失敗頻度を,適切な信頼度と相補的な意思決定性能に反映させる単純な理論を提案する。 説明は、人間の意思決定者がAIの予測の正しさを検証できる範囲でのみ有用である、と我々は主張する。 以前の研究では、多くの意思決定コンテキストにおいて、AIの説明はそのような検証を促進するものではない。 さらに、ほとんどの文脈は、説明方法にかかわらず、基本的に検証を許さない。 結論として,より効果的に説明可能なai-advised decision makingとヒューマン-aiコラボレーションのアプローチについて論じた。

The current literature on AI-advised decision making -- involving explainable AI systems advising human decision makers -- presents a series of inconclusive and confounding results. To synthesize these findings, we propose a simple theory that elucidates the frequent failure of AI explanations to engender appropriate reliance and complementary decision making performance. We argue explanations are only useful to the extent that they allow a human decision maker to verify the correctness of an AI's prediction, in contrast to other desiderata, e.g., interpretability or spelling out the AI's reasoning process. Prior studies find in many decision making contexts AI explanations do not facilitate such verification. Moreover, most contexts fundamentally do not allow verification, regardless of explanation method. We conclude with a discussion of potential approaches for more effective explainable AI-advised decision making and human-AI collaboration.
翻訳日:2023-05-16 20:08:19 公開日:2023-05-12
# 機械学習を用いた最適行動実験の設計

Designing Optimal Behavioral Experiments Using Machine Learning ( http://arxiv.org/abs/2305.07721v1 )

ライセンス: Link先を確認
Simon Valentin, Steven Kleinegesse, Neil R. Bramley, Peggy Seri\`es, Michael U. Gutmann, Christopher G. Lucas(参考訳) 計算モデルは人間の認知と行動を理解する強力なツールである。 彼らは我々の理論を明確かつ正確に表現し、微妙でしばしば直感に反する予測を提供する。 しかし、この豊かさと驚きの能力は、我々の科学的直観と伝統的なツールが、これらのモデルをテストし比較するための実験の設計に不適であることを意味する。 これらの落とし穴を回避し、計算モデリングの可能性を最大限に発揮するためには、モデルが人間の振る舞いを説明することや、モデルがすべき補助的な仮定について明確な答えを提供する実験をデザインするツールが必要です。 ベイズ最適実験設計(BOED)は、情報的データが得られると思われる実験を特定することにより、最適な実験設計の探索を定式化する。 本稿では,boedと機械学習の最近の進歩を活かして,データのシミュレーションが可能な任意の種類のモデルに対して最適な実験を見つけるためのチュートリアルを提供し,この手法の副産物が実際の実験データに対して,モデルとそのパラメータを迅速かつ簡単に評価できることを示す。 ケーススタディとして,マルチアームバンディット意思決定タスクにおける探索と搾取のバランスに関する理論を考察する。 提案手法をシミュレーションと実世界実験を用いて検証する。 文献で一般的に用いられる実験的な設計と比較すると,人間の行動に最も適したモデル群を最適設計がより効率的に決定し,望ましいモデルに対する行動のキャラクタリゼーションをより効率的に行うことが示される。 すべての分析を再現するコードと、他の実験的な設定に方法論を適用するためのチュートリアルノートやポインタを提供します。

Computational models are powerful tools for understanding human cognition and behavior. They let us express our theories clearly and precisely, and offer predictions that can be subtle and often counter-intuitive. However, this same richness and ability to surprise means our scientific intuitions and traditional tools are ill-suited to designing experiments to test and compare these models. To avoid these pitfalls and realize the full potential of computational modeling, we require tools to design experiments that provide clear answers about what models explain human behavior and the auxiliary assumptions those models must make. Bayesian optimal experimental design (BOED) formalizes the search for optimal experimental designs by identifying experiments that are expected to yield informative data. In this work, we provide a tutorial on leveraging recent advances in BOED and machine learning to find optimal experiments for any kind of model that we can simulate data from, and show how by-products of this procedure allow for quick and straightforward evaluation of models and their parameters against real experimental data. As a case study, we consider theories of how people balance exploration and exploitation in multi-armed bandit decision-making tasks. We validate the presented approach using simulations and a real-world experiment. As compared to experimental designs commonly used in the literature, we show that our optimal designs more efficiently determine which of a set of models best account for individual human behavior, and more efficiently characterize behavior given a preferred model. We provide code to replicate all analyses as well as tutorial notebooks and pointers to adapt the methodology to other experimental settings.
翻訳日:2023-05-16 20:08:04 公開日:2023-05-12
# 量子回路の触媒的埋め込み

Catalytic Embeddings of Quantum Circuits ( http://arxiv.org/abs/2305.07720v1 )

ライセンス: Link先を確認
M. Amy, M. Crawford, A. N. Glaudell, M. L. Macasieb, S. S. Mendelson, N. J. Ross(参考訳) 量子ゲートのセット $\mathbb{g}$ が可算であれば、$\mathbb{g}$ 上の回路によって正確に表現できる作用素は、すべてのユニタリ作用素の集合の厳密な部分集合を形成する。 もし$\mathbb{g}$ が普遍的であれば、繰り返しゲート近似を用いてこの制限を回避することができる: $\mathbb{g}$ 上で正確に表現できないゲートの発生はすべて近似回路に置き換えられる。 ここでは、繰り返しゲート近似の代替となる触媒埋め込みを紹介する。 触媒の埋め込みにより、触媒と呼ばれる多くの再利用可能な資源状態の準備に近似が還元される。 触媒は一度だけ調製する必要があるため、触媒埋め込みが存在するときは常により短い回路を生成し、ゲート数とターゲット精度を増加させる。 本稿では,触媒の埋め込み理論の基礎を定式化し,その構造特性のいくつかを定式化する。 さらに, 触媒組込みの設計方法を提供し, ゲートが代数数環の well-behaved ring へのエントリを持つ場合, それらの構成を単一の固定行列に還元できることを示した。 最後に,具体例と応用例を紹介する。 特に、触媒埋め込みは、clifford+$t$ゲート集合上の量子フーリエ変換を$o(n)$ゲート近似で実装するために以前に用いられた手法を一般化している。

If a set $\mathbb{G}$ of quantum gates is countable, then the operators that can be exactly represented by a circuit over $\mathbb{G}$ form a strict subset of the collection of all unitary operators. When $\mathbb{G}$ is universal, one circumvents this limitation by resorting to repeated gate approximations: every occurrence of a gate which cannot be exactly represented over $\mathbb{G}$ is replaced by an approximating circuit. Here, we introduce catalytic embeddings, which provide an alternative to repeated gate approximations. With catalytic embeddings, approximations are relegated to the preparation of a fixed number of reusable resource states called catalysts. Because the catalysts only need to be prepared once, when catalytic embeddings exist they always produce shorter circuits, in the limit of increasing gate count and target precision. In the present paper, we lay the foundations of the theory of catalytic embeddings and we establish several of their structural properties. In addition, we provide methods to design catalytic embeddings, showing that their construction can be reduced to that of a single fixed matrix when the gates involved have entries in well-behaved rings of algebraic numbers. Finally, we showcase some concrete examples and applications. Notably, we show that catalytic embeddings generalize a technique previously used to implement the Quantum Fourier Transform over the Clifford+$T$ gate set with $O(n)$ gate approximations.
翻訳日:2023-05-16 20:07:38 公開日:2023-05-12
# ブラウンドワーフモデルグリッドの相互比較と機械学習による大気検索

Intercomparison of Brown Dwarf Model Grids and Atmospheric Retrieval Using Machine Learning ( http://arxiv.org/abs/2305.07719v1 )

ライセンス: Link先を確認
Anna Lueber, Daniel Kitzmann, Chloe E. Fisher, Brendan P. Bowler, Adam J. Burgasser, Mark Marley, Kevin Heng(参考訳) サブステラースペクトルデータとモデルの違いを理解することは、特にブラウンドワーフ大気の徹底的な調査に必要な自己整合モデルグリッドにおいて、大きな課題であることが証明されている。 ランダム林の教師付き機械学習手法を用いて,1997年から2021年までのブラウンドロームの14個のモデルグリッドの情報量について検討した。 ランダムフォレスト法により,モデルグリッドの予測力を解析し,近似ベイズ計算(abc)の枠組み内でデータを解釈することができる。 我々のキュレートされたデータセットには、3つのベンチマークブラウンドローム(Gl 570D, {\epsilon} Indi Ba, Bb)と19個のLおよびTドロームのサンプルが含まれており、このサンプルは従来型のベイズ法(ネステッドサンプリング)を用いてLueber et al. (2022)で分析された。 この解釈のために選択されたモデルグリッドとは無関係に、ブラウンドロームの有効温度を頑健に予測できることが判明した。 しかし、表面重力の推論はモデルに依存します。 具体的には、BT-Settl, Sonora Bobcat および Sonora Cholla モデルグリッドは 1.2 {\mu}m のデータブルーワードが不完全なアルカリ線の形状に関する知識を緩和するために無視されているにもかかわらず、logg ~3-4 (cgs unit) を予測する傾向にある。 ブラウンドワーフの大気における雲の影響を理解することに関連する2つの大きな、長い間の課題は、次の原則からそれらをモデル化できないことと、これらのモデルを堅牢に検証することである。

Understanding differences between sub-stellar spectral data and models has proven to be a major challenge, especially for self-consistent model grids that are necessary for a thorough investigation of brown dwarf atmospheres. Using the supervised machine learning method of the random forest, we study the information content of 14 previously published model grids of brown dwarfs (from 1997 to 2021). The random forest method allows us to analyze the predictive power of these model grids, as well as interpret data within the framework of Approximate Bayesian Computation (ABC). Our curated dataset includes 3 benchmark brown dwarfs (Gl 570D, {\epsilon} Indi Ba and Bb) as well as a sample of 19 L and T dwarfs; this sample was previously analyzed in Lueber et al. (2022) using traditional Bayesian methods (nested sampling). We find that the effective temperature of a brown dwarf can be robustly predicted independent of the model grid chosen for the interpretation. However, inference of the surface gravity is model-dependent. Specifically, the BT-Settl, Sonora Bobcat and Sonora Cholla model grids tend to predict logg ~3-4 (cgs units) even after data blueward of 1.2 {\mu}m have been disregarded to mitigate for our incomplete knowledge of the shapes of alkali lines. Two major, longstanding challenges associated with understanding the influence of clouds in brown dwarf atmospheres remain: our inability to model them from first principles and also to robustly validate these models.
翻訳日:2023-05-16 20:07:17 公開日:2023-05-12
# 並列木核計算

Parallel Tree Kernel Computation ( http://arxiv.org/abs/2305.07717v1 )

ライセンス: Link先を確認
Souad Taouti, Hadda Cherroun and Djelloul Ziadi(参考訳) ツリーカーネルは多くのアプリケーション、特に自然言語処理タスクのための機械学習に基づくツールで活用されている。 本稿では,二つの有限木集合の木核計算のための逐次アルゴリズムの並列的実装を考案する(ouali-sebti, 2015)。 比較対象はサブツリーカーネル計算の逐次実装である。 後者は、主に加重木オートマトンとの交点に還元される。 我々のアプローチは、MapReduceパラダイムをデプロイすることで、この計算に固有のデータ並列性源の性質に依存します。 このアプローチの重要な利点の1つは、幅広いサブ構造木カーネルベースの学習手法に適応できることの汎用性である。 並列手法の有効性を評価するために,手作業で解析を行った多種多様な合成木言語データセットを用いて,逐次バージョンと比較した一連の実験を行った。 その結果,提案した並列アルゴリズムは遅延の点で逐次アルゴリズムよりも優れていることが示された。

Tree kernels are fundamental tools that have been leveraged in many applications, particularly those based on machine learning for Natural Language Processing tasks. In this paper, we devise a parallel implementation of the sequential algorithm for the computation of some tree kernels of two finite sets of trees (Ouali-Sebti, 2015). Our comparison is narrowed on a sequential implementation of SubTree kernel computation. This latter is mainly reduced to an intersection of weighted tree automata. Our approach relies on the nature of the data parallelism source inherent in this computation by deploying the MapReduce paradigm. One of the key benefits of our approach is its versatility in being adaptable to a wide range of substructure tree kernel-based learning methods. To evaluate the efficacy of our parallel approach, we conducted a series of experiments that compared it against the sequential version using a diverse set of synthetic tree language datasets that were manually crafted for our analysis. The reached results clearly demonstrate that the proposed parallel algorithm outperforms the sequential one in terms of latency.
翻訳日:2023-05-16 20:06:43 公開日:2023-05-12
# シーングラフによる推論学習:グラウンドド・タスク・プランニングのためのロボット言語モデルへの精巧なGPT-2を事例として

Learning to Reason over Scene Graphs: A Case Study of Finetuning GPT-2 into a Robot Language Model for Grounded Task Planning ( http://arxiv.org/abs/2305.07716v1 )

ライセンス: Link先を確認
Georgia Chalvatzaki, Ali Younes, Daljeet Nandha, An Le, Leonardo F. R. Ribeiro, and Iryna Gurevych(参考訳) 長距離タスクプランニングは、インテリジェントアシストロボットやサービスロボットの開発に不可欠である。 本研究では,ロボットタスクプランニングにおける小規模の大規模言語モデル(llm),特にgpt-2の適用性について,プランナーが順次実行するための下位仕様にタスクを分解することを学ぶことにより検討する。 提案手法は,シーングラフとして表現される領域に基づいてLLMを入力し,人間の要求を実行可能なロボット計画に変換することによって,ALFREDベンチマークで見られるような長距離タスクの推論を学習する。 本手法を古典的計画法とベースライン法と比較し,llmに基づくプランナーの適用性と一般化性について検討した。 本研究は,LLMに格納された知識を長期タスクプランニングに効果的に活用できることを示唆し,ロボット工学におけるニューロシンボリックプランニング手法の今後の可能性を示すものである。

Long-horizon task planning is essential for the development of intelligent assistive and service robots. In this work, we investigate the applicability of a smaller class of large language models (LLMs), specifically GPT-2, in robotic task planning by learning to decompose tasks into subgoal specifications for a planner to execute sequentially. Our method grounds the input of the LLM on the domain that is represented as a scene graph, enabling it to translate human requests into executable robot plans, thereby learning to reason over long-horizon tasks, as encountered in the ALFRED benchmark. We compare our approach with classical planning and baseline methods to examine the applicability and generalizability of LLM-based planners. Our findings suggest that the knowledge stored in an LLM can be effectively grounded to perform long-horizon task planning, demonstrating the promising potential for the future application of neuro-symbolic planning methods in robotics.
翻訳日:2023-05-16 20:06:29 公開日:2023-05-12
# 残留スケーリングによる再ネットの最適信号伝搬

Optimal signal propagation in ResNets through residual scaling ( http://arxiv.org/abs/2305.07715v1 )

ライセンス: Link先を確認
Kirsten Fischer, David Dahmen, Moritz Helias(参考訳) ResNets(Residual Networks)は、フィードフォワードネットワークよりも訓練性や性能が大幅に向上する。 スキップ接続の導入は、より深い層へのシグナル伝達を容易にする。 さらに, 余分分岐にスケーリングパラメータを追加することにより, 一般化性能がさらに向上した。 彼らは、このスケーリングパラメータの特に有用な範囲を実証的に特定したが、関連するパフォーマンス改善とネットワークハイパーパラメータ間の普遍性はまだ理解する必要がある。 フィードフォワードネットワーク(FFNet)では、信号伝搬とハイパーパラメータチューニングに関して有限サイズ理論が重要な洞察を導いている。 ここではResNetsの系統的有限サイズ理論を導出し、信号伝播とその残留分岐のスケーリングへの依存について研究する。 本研究では,入力に対するネットワークの感度の測定値である応答関数の解析式を導出し,深層ネットワークにおいて,最大感度の範囲内にあるスケーリングパラメータの値を示す。 さらに,重み分散などの他のネットワークハイパーパラメータのみに依存する最適スケーリングパラメータの解析式を求め,ハイパーパラメータ間の普遍性を説明する。 全体として、本研究は、resnetにおける理論誘導最適スケーリングの枠組みを提供し、より一般に、有限幅でのresnetの研究のための理論的枠組みを提供する。

Residual networks (ResNets) have significantly better trainability and thus performance than feed-forward networks at large depth. Introducing skip connections facilitates signal propagation to deeper layers. In addition, previous works found that adding a scaling parameter for the residual branch further improves generalization performance. While they empirically identified a particularly beneficial range of values for this scaling parameter, the associated performance improvement and its universality across network hyperparameters yet need to be understood. For feed-forward networks (FFNets), finite-size theories have led to important insights with regard to signal propagation and hyperparameter tuning. We here derive a systematic finite-size theory for ResNets to study signal propagation and its dependence on the scaling for the residual branch. We derive analytical expressions for the response function, a measure for the network's sensitivity to inputs, and show that for deep networks the empirically found values for the scaling parameter lie within the range of maximal sensitivity. Furthermore, we obtain an analytical expression for the optimal scaling parameter that depends only weakly on other network hyperparameters, such as the weight variance, thereby explaining its universality across hyperparameters. Overall, this work provides a framework for theory-guided optimal scaling in ResNets and, more generally, provides the theoretical framework to study ResNets at finite widths.
翻訳日:2023-05-16 20:06:11 公開日:2023-05-12
# ボックスマッチングによるマルチモーダル3次元物体検出

Multi-Modal 3D Object Detection by Box Matching ( http://arxiv.org/abs/2305.07713v1 )

ライセンス: Link先を確認
Zhe Liu, Xiaoqing Ye, Zhikang Zou, Xinwei He, Xiao Tan, Errui Ding, Jingdong Wang, Xiang Bai(参考訳) マルチモーダル3Dオブジェクト検出は、LiDARやカメラなどの様々なセンサーからの情報が相補的であるため、注目を集めている。 3次元検出のためのほとんどの融合法は、3次元点雲とRGB画像の正確なアライメントと校正に依存している。 しかし,このような仮定は,非同期センサや乱れたセンサ配置の影響を受けやすいため,現実の自動運転システムでは信頼性が低い。 B}ox {M}atching (FBMNet) による新規なマルチモーダル3D検出ネットワークを提案する。これは、境界ボックスレベルで対応を学習し、推論中にキャリブレーションの依存性を解放することで、クロスモーダルな特徴アライメントの代替手段を提供する。 3Dオブジェクトと2Dオブジェクトの提案を学習することで、ROI特徴を組み合わせることで、検出のための融合を効果的に行うことができる。 nuScenesデータセットの大規模な実験により,既存の融合法よりも,非同期センサやセンサ配置のずれ,カメラ画像のデジェクトといった課題に対処する上で,我々の手法ははるかに安定であることが示された。 当社のFBMNetが、現実の自動運転シナリオにおいて、これらの困難なケースに対処するための、利用可能なソリューションを提供することを期待しています。 コードはhttps://github.com/happinesslz/fbmnetで公開されている。

Multi-modal 3D object detection has received growing attention as the information from different sensors like LiDAR and cameras are complementary. Most fusion methods for 3D detection rely on an accurate alignment and calibration between 3D point clouds and RGB images. However, such an assumption is not reliable in a real-world self-driving system, as the alignment between different modalities is easily affected by asynchronous sensors and disturbed sensor placement. We propose a novel {F}usion network by {B}ox {M}atching (FBMNet) for multi-modal 3D detection, which provides an alternative way for cross-modal feature alignment by learning the correspondence at the bounding box level to free up the dependency of calibration during inference. With the learned assignments between 3D and 2D object proposals, the fusion for detection can be effectively performed by combing their ROI features. Extensive experiments on the nuScenes dataset demonstrate that our method is much more stable in dealing with challenging cases such as asynchronous sensors, misaligned sensor placement, and degenerated camera images than existing fusion methods. We hope that our FBMNet could provide an available solution to dealing with these challenging cases for safety in real autonomous driving scenarios. Codes will be publicly available at https://github.com/happinesslz/FBMNet.
翻訳日:2023-05-16 20:05:51 公開日:2023-05-12
# AWFSD:ポアソン-ガウスホログラフィー位相検索に先立つスコアベース拡散画像を用いた加速ワイティンガー流れ

AWFSD: Accelerated Wirtinger Flow with Score-based Diffusion Image Prior for Poisson-Gaussian Holographic Phase Retrieval ( http://arxiv.org/abs/2305.07712v1 )

ライセンス: Link先を確認
Zongyu Li, Jason Hu, Xiaojian Xu, Liyue Shen and Jeffrey A. Fessler(参考訳) 位相検索(PR)は多くのコヒーレントイメージングシステムにおいて重要な問題である。 本研究は, ポアソンとガウシアン(pg)の混合ノイズにより測定値が劣化する実世界シナリオにおけるホログラフィック位相検索問題を解くことを目的としている。 そこで,本稿では,生成前処理としてスコアベース拡散モデルを用いた高速化wirtinger flowに基づく新しいアルゴリズムを開発した。 特に、pr問題をデータ忠実性項と正規化項の両方を含む最適化タスクとして構成する。 pg log-likelihood関数とその対応するリプシッツ定数の勾配を導出し、より正確なデータ一貫性項を実用的測定に保証する。 画像の事前分布を(勾配を)捉えるためにスコアベース拡散モデルを用いて、正規化手法の一部として生成前処理を導入する。 提案したAWFSDアルゴリズムの臨界点収束保証を確立する理論解析を行う。 私たちのシミュレーション実験では、 1)PG確率モデルに基づく提案アルゴリズムは,ガウス確率とポアソン確率のみに基づく手法と比較して再構成を促進させる。 2) AWFSDアルゴリズムは,画像の質が質的にも定量的にも向上し,位相検索の最先端手法と比較してノイズレベルの変動に頑健である。

Phase retrieval (PR) is an essential problem in a number of coherent imaging systems. This work aims at resolving the holographic phase retrieval problem in real world scenarios where the measurements are corrupted by a mixture of Poisson and Gaussian (PG) noise that stems from optical imaging systems. To solve this problem, we develop a novel algorithm based on Accelerated Wirtinger Flow that uses Score-based Diffusion models as the generative prior (AWFSD). In particular, we frame the PR problem as an optimization task that involves both a data fidelity term and a regularization term. We derive the gradient of the PG log-likelihood function along with its corresponding Lipschitz constant, ensuring a more accurate data consistency term for practical measurements. We introduce a generative prior as part of our regularization approach by using a score-based diffusion model to capture (the gradient of) the image prior distribution. We provide theoretical analysis that establishes a critical-point convergence guarantee for the proposed AWFSD algorithm. Our simulation experiments demonstrate that: 1) The proposed algorithm based on the PG likelihood model enhances reconstruction compared to that solely based on either Gaussian or Poisson likelihood. 2) The proposed AWFSD algorithm produces reconstructions with higher image quality both qualitatively and quantitatively, and is more robust to variations in noise levels when compared with state-of-the-art methods for phase retrieval.
翻訳日:2023-05-16 20:05:29 公開日:2023-05-12
# nl2tl: 大言語モデルを用いた自然言語から時相論理への変換

NL2TL: Transforming Natural Languages to Temporal Logics using Large Language Models ( http://arxiv.org/abs/2305.07766v1 )

ライセンス: Link先を確認
Yongchao Chen, Rujul Gandhi, Yang Zhang, Chuchu Fan(参考訳) 時相論理(tl)は、多くの工学アプリケーションにおいて複雑な高レベルなシステム仕様を厳密に指定するために用いられる。 自然言語(nl)とtl間の翻訳は、異なるアプリケーションドメインにまたがるデータセットと一般化可能なモデルが欠如しているため、過小評価されている。 本稿では,NLからTLへの英語命令の正確かつ一般化可能な変換フレームワークを提案し,複数の段階におけるLarge Language Models (LLM)の使用について検討する。 私たちの貢献は2倍です。 まず,LLMと人間のアノテーションを組み合わせたNL-TLペアのデータセットを作成するフレームワークを開発する。 28K NL-TLペアのデータセットを公開します。 次に、NLおよびTLの持ち上げバージョン(すなわち、特定の原子配置(AP)が隠されている)上でT5モデルを微調整する。 一般化性の向上は2つの側面から生じる。 1) 昇降NL-TLの使用は、特定のドメインの制約なしに共通の論理構造を特徴付ける。 2) LLMのデータセット作成への応用は, コーパスの豊かさを大幅に向上させる。 5つの異なる領域における訓練モデルの一般化を検証した。 完全NL-TL変換を実現するために、持ち上げモデルとAP認識タスクを組み合わせるか、特定のドメインに対してさらなる微調整を行う。 さらに微調整を行う際,ベースラインシーケンス to sequence (seq2seq) モデルと比較して,10%以上のトレーニングデータのみを用いて高い精度 (>95%) を達成した。

Temporal Logic (TL) can be used to rigorously specify complex high-level specification for systems in many engineering applications. The translation between natural language (NL) and TL has been under-explored due to the lack of dataset and generalizable model across different application domains. In this paper, we propose an accurate and generalizable transformation framework of English instructions from NL to TL, exploring the use of Large Language Models (LLMs) at multiple stages. Our contributions are twofold. First, we develop a framework to create a dataset of NL-TL pairs combining LLMs and human annotation. We publish a dataset with 28K NL-TL pairs. Then, we finetune T5 models on the lifted versions (i.e., the specific Atomic Propositions (AP) are hidden) of the NL and TL. The enhanced generalizability originates from two aspects: 1) Usage of lifted NL-TL characterizes common logical structures, without constraints of specific domains. 2) Application of LLMs in dataset creation largely enhances corpus richness. We test the generalization of trained models on five varied domains. To achieve full NL-TL transformation, we either combine the lifted model with AP recognition task or do the further finetuning on each specific domain. During the further finetuning, our model achieves higher accuracy (>95%) using only <10% training data, compared with the baseline sequence to sequence (Seq2Seq) model.
翻訳日:2023-05-16 19:58:36 公開日:2023-05-12
# ルールとアクションのための知識オーサリング

Knowledge Authoring for Rules and Actions ( http://arxiv.org/abs/2305.07763v1 )

ライセンス: Link先を確認
Yuheng Wang, Paul Fodor, Michael Kifer(参考訳) 知識表現と推論(KRR)システムは、事実と規則の形で複雑な概念と関係を記述し、推論する。 残念ながら、KRRシステムの広範な展開は、ドメインの専門家が自身のドメイン知識の正しい論理的表現を構築するのに非常に苦労している問題に陥る。 知識エンジニアは、この建設プロセスを支援することができるが、そのような専門家の不足がある。 制御自然言語(cnl)に基づく初期の知識オーサリング論理機械(kalm)は、事実や疑問をオーサリングするのに非常に高い精度を持つことが示された。 最近では、KALMの後継であるKALMFLがCNLを事実上の英語に置き換えた。 しかし、KALMFLは、マルチステップ推論のためのルールのオーサリングやタイムスタンプによる行動理解など、特定の種類の知識の表現に制限がある。 これらの制約に対処するため、ルールとアクションのオーサリングを可能にするKALMRAを提案する。 UTI ガイドラインベンチマークを用いて評価したところ,KALMRA はルールオーサリングにおいて高い精度 (100%) を達成することがわかった。 行動のオーサリングと推論に使用されると、KALMRAはbAbIベンチマークで99.3%以上の正当性を達成し、より洗練されたKRRジョブでの有効性を示す。 最後に、最近作られた有名なAIであるChatGPTが直面する問題に注意を向けることで、KALMRAの論理的推論能力を説明する。

Knowledge representation and reasoning (KRR) systems describe and reason with complex concepts and relations in the form of facts and rules. Unfortunately, wide deployment of KRR systems runs into the problem that domain experts have great difficulty constructing correct logical representations of their domain knowledge. Knowledge engineers can help with this construction process, but there is a deficit of such specialists. The earlier Knowledge Authoring Logic Machine (KALM) based on Controlled Natural Language (CNL) was shown to have very high accuracy for authoring facts and questions. More recently, KALMFL, a successor of KALM, replaced CNL with factual English, which is much less restrictive and requires very little training from users. However, KALMFL has limitations in representing certain types of knowledge, such as authoring rules for multi-step reasoning or understanding actions with timestamps. To address these limitations, we propose KALMRA to enable authoring of rules and actions. Our evaluation using the UTI guidelines benchmark shows that KALMRA achieves a high level of correctness (100%) on rule authoring. When used for authoring and reasoning with actions, KALMRA achieves more than 99.3% correctness on the bAbI benchmark, demonstrating its effectiveness in more sophisticated KRR jobs. Finally, we illustrate the logical reasoning capabilities of KALMRA by drawing attention to the problems faced by the recently made famous AI, ChatGPT.
翻訳日:2023-05-16 19:58:12 公開日:2023-05-12
# 異質なプライバシーが人種的・民族的に多様な小学校の育成に及ぼす影響

Impacts of Differential Privacy on Fostering more Racially and Ethnically Diverse Elementary Schools ( http://arxiv.org/abs/2305.07762v1 )

ライセンス: Link先を確認
Keyu Zhu, Nabeel Gillani, Pascal Van Hentenryck(参考訳) データとAIの時代において、ますます厳しいプライバシーの脅威に直面している米国国勢調査局(US Census Bureau)は、2020 Censusリリースの事実上のプライバシー保護標準である差分プライバシーを採用した。 ディファレンシャルプライバシの強化は、リリース前にセンシティブな人口統計情報に注意深く調整されたランダムノイズを追加することを伴う。 この変更は、政府によって公表されたデータセット(国勢調査データなど)に基づいて、巨大な連邦資金と資源が割り当てられていることもあって、政治的再分権などの政策決定に影響を与える可能性がある。 このようなデータの未調査かつ重要な応用の1つは、人口隔離の少ない学校を育むために、学校に通う境界を再描画することである。 本研究では, 偏析, 学生の移動時間, 学校切り替え要求のレベルにおいて, 微分プライバシーが多様性向上のバウンダリにどのように影響するかを問う。 ジョージアの67の地区にまたがる差動プライベートな生徒数を用いて、別の境界をシミュレートすることで、データのプライバシー要件の増大は、別の境界が分離を減少させ、より多様で統合的な学校を育む程度を減少させる。 旅行時間への影響は最小限である。 これらの調査結果は、地方教育政策立案者が今後数年で直面するプライバシーと多様性のトレードオフを示唆している。

In the face of increasingly severe privacy threats in the era of data and AI, the US Census Bureau has recently adopted differential privacy, the de facto standard of privacy protection for the 2020 Census release. Enforcing differential privacy involves adding carefully calibrated random noise to sensitive demographic information prior to its release. This change has the potential to impact policy decisions like political redistricting and other high-stakes practices, partly because tremendous federal funds and resources are allocated according to datasets (like Census data) released by the US government. One under-explored yet important application of such data is the redrawing of school attendance boundaries to foster less demographically segregated schools. In this study, we ask: how differential privacy might impact diversity-promoting boundaries in terms of resulting levels of segregation, student travel times, and school switching requirements? Simulating alternative boundaries using differentially-private student counts across 67 Georgia districts, we find that increasing data privacy requirements decreases the extent to which alternative boundaries might reduce segregation and foster more diverse and integrated schools, largely by reducing the number of students who would switch schools under boundary changes. Impacts on travel times are minimal. These findings point to a privacy-diversity tradeoff local educational policymakers may face in forthcoming years, particularly as computational methods are increasingly poised to facilitate attendance boundary redrawings in the pursuit of less segregated schools.
翻訳日:2023-05-16 19:57:46 公開日:2023-05-12
# 教師なしメロディ付歌詞生成

Unsupervised Melody-Guided Lyrics Generation ( http://arxiv.org/abs/2305.07760v1 )

ライセンス: Link先を確認
Yufei Tian, Anjali Narayan-Chen, Shereen Oraby, Alessandra Cervone, Gunnar Sigurdsson, Chenyang Tao, Wenbo Zhao, Tagyoung Chung, Jing Huang, Nanyun Peng(参考訳) 自動作曲は重要な実用的関心事である。 しかし、その研究は、著作権上の懸念によるトレーニングデータの欠如と、その創造性によって大きく妨げられている。 最も顕著なことに、先行の作品は、限られた並列データのためにメロディと歌詞の相互関係をモデル化するに足りず、歌いにくい歌詞を生成する。 既存の作品にはコンテンツコントロールのための効果的なメカニズムが欠けており、音楽のバックグラウンドが限られている人々のために楽曲制作を民主化するのに非常に望ましい機能である。 本研究では,メロディ・歌詞アライメントデータを学習することなく,快適に聞き取れる歌詞を生成することを提案する。 代わりに、トレーニング(純粋にテキストに基づく)を推論(メロディ誘導テキスト生成)から切り離す階層的な歌詞生成フレームワークを設計する。 推定時に,メロディと歌詞間の重要なアライメントを利用して,与えられたメロディを制約にコンパイルし,生成プロセスを導く。 評価結果から,並列データを含む強いベースラインよりも,歌声,知能,コヒーレント,韻律に優れた高品質な歌詞を生成できることが示唆された。

Automatic song writing is a topic of significant practical interest. However, its research is largely hindered by the lack of training data due to copyright concerns and challenged by its creative nature. Most noticeably, prior works often fall short of modeling the cross-modal correlation between melody and lyrics due to limited parallel data, hence generating lyrics that are less singable. Existing works also lack effective mechanisms for content control, a much desired feature for democratizing song creation for people with limited music background. In this work, we propose to generate pleasantly listenable lyrics without training on melody-lyric aligned data. Instead, we design a hierarchical lyric generation framework that disentangles training (based purely on text) from inference (melody-guided text generation). At inference time, we leverage the crucial alignments between melody and lyrics and compile the given melody into constraints to guide the generation process. Evaluation results show that our model can generate high-quality lyrics that are more singable, intelligible, coherent, and in rhyme than strong baselines including those supervised on parallel data.
翻訳日:2023-05-16 19:57:16 公開日:2023-05-12
# TinyStories: 言語モデルはどんなに小さくてもコヒーレントな英語を話せるか?

TinyStories: How Small Can Language Models Be and Still Speak Coherent English? ( http://arxiv.org/abs/2305.07759v1 )

ライセンス: Link先を確認
Ronen Eldan and Yuanzhi Li(参考訳) 言語モデル(LM)は自然言語処理の強力なツールであるが、小さくて一貫性があり、流動的なテキストを生成するのに苦労することが多い。 gpt-neo (small) や gpt-2 (small) といった125mのパラメータを持つモデルは、広範なトレーニングの後でも、数ワードを超える一貫性のある英語テキストを生成することは滅多にない。 これは、コヒーレントな英語テキストを生成する能力の出現が、より大きなスケール(数億以上のパラメータを持つ)と複雑なアーキテクチャ(多くの世界的注目層を持つ)でのみ起こるのかという疑問を提起する。 本稿では,典型的な3~4歳児が通常理解している単語のみを含む,短い物語の合成データセットであるTinyStoriesを紹介し,GPT-3.5とGPT-4で生成する。 TinyStoriesは、最先端モデル(総パラメータ1000万以下)よりもはるかに小さいLMをトレーニングし、評価したり、よりシンプルなアーキテクチャ(トランスフォーマーブロックは1つだけ)を持つことができるが、多様でほぼ完璧な文法を持つ複数の段落で流動的で一貫性のあるストーリーを生成し、推論能力を示すことができる。 また,言語モデル評価のための新しいパラダイムを提案する。我々は,gpt-4を用いてこれらのモデルによって生成されたコンテンツを,あたかも学生が書き,(人間)教師によって格付けされた物語であるかのように評価するフレームワークを提案する。 この新しいパラダイムは、しばしばモデルの出力が非常に構造的であることを要求する標準ベンチマークの欠陥を克服し、さらに、モデルの多次元スコアを提供し、文法、創造性、一貫性といった様々な機能に対するスコアを提供する。 TinyStoriesは、特に低リソースまたは特殊なドメインにおいて、LMの開発、分析、研究を容易にし、LMにおける言語能力の出現に光を当てることを望む。

Language models (LMs) are powerful tools for natural language processing, but they often struggle to produce coherent and fluent text when they are small. Models with around 125M parameters such as GPT-Neo (small) or GPT-2 (small) can rarely generate coherent and consistent English text beyond a few words even after extensive training. This raises the question of whether the emergence of the ability to produce coherent English text only occurs at larger scales (with hundreds of millions of parameters or more) and complex architectures (with many layers of global attention). In this work, we introduce TinyStories, a synthetic dataset of short stories that only contain words that a typical 3 to 4-year-olds usually understand, generated by GPT-3.5 and GPT-4. We show that TinyStories can be used to train and evaluate LMs that are much smaller than the state-of-the-art models (below 10 million total parameters), or have much simpler architectures (with only one transformer block), yet still produce fluent and consistent stories with several paragraphs that are diverse and have almost perfect grammar, and demonstrate reasoning capabilities. We also introduce a new paradigm for the evaluation of language models: We suggest a framework which uses GPT-4 to grade the content generated by these models as if those were stories written by students and graded by a (human) teacher. This new paradigm overcomes the flaws of standard benchmarks which often requires the model's output to be very structures, and moreover provides a multidimensional score for the model, providing scores for different capabilities such as grammar, creativity and consistency. We hope that TinyStories can facilitate the development, analysis and research of LMs, especially for low-resource or specialized domains, and shed light on the emergence of language capabilities in LMs.
翻訳日:2023-05-16 19:56:53 公開日:2023-05-12
# 非コンパクト検出器-フィールド相互作用における因果性とシグナル伝達

Causality and signalling in non-compact detector-field interactions ( http://arxiv.org/abs/2305.07756v1 )

ライセンス: Link先を確認
Jos\'e de Ram\'on, Maria Papageorgiou and Eduardo Mart\'in-Mart\'inez(参考訳) 本稿では, 量子場理論や相対論的量子情報プロトコルにおいて, 非コンパクトに支持された場-検出器相互作用を考慮すれば, 粒子検出器モデルに現れる「アパレント」スーパールミナルシグナルの問題を解析する。 この目的のために,量子フィッシャー情報の摂動レジームへの適応バージョンに基づく信号推定器を定義する。 これにより、検出器の内部ダイナミクス(例えば、検出器エネルギーレベルの間のギャップ)が、粒子検出器が互いに通信する能力にどのように影響するかを研究できる。 さらに、一般に、空間と時間の無限尾を持つ検出器であっても、仮にテールが指数関数的に崩壊しても、信号が無視できる効果的な光錐を定義することができる。 これは、相対論的量子情報のプロトコルに非コンパクトな(しかし指数関数的に減衰する)検出器を用いたことの具体的な証拠を提供する。

In this paper we analyze the problem of ``apparent'' superluminal signalling and retrocausation that can appear for particle detector models when considering non-compactly supported field-detector interactions in quantum field theory in curved spacetimes and in relativistic quantum information protocols. For this purpose, we define a signalling estimator based on an adapted version of the quantum Fisher information to perturbative regimes. This allows us to study how the internal dynamics of the detectors (for example the gap between the detector energy levels) have an impact on the ability of a particle detectors to communicate with one another. Moreover, we show that, very generally, even for detectors with infinite tails in space and time, if the tails decay exponentially, one can define an effective lightcone, outside of which signalling is negligible. This provides concrete evidence that the use of non-compact (but exponentially decaying) detector smearings in protocols of relativistic quantum information.
翻訳日:2023-05-16 19:56:19 公開日:2023-05-12
# エントロピー推定のためのプライベートおよび通信効率の良いアルゴリズム

Private and Communication-Efficient Algorithms for Entropy Estimation ( http://arxiv.org/abs/2305.07751v1 )

ライセンス: Link先を確認
Gecia Bravo-Hermsdorff, R\'obert Busa-Fekete, Mohammad Ghavamzadeh, Andres Mu\~noz Medina, Umar Syed(参考訳) 現代の統計的推定はしばしば分散環境で行われ、各サンプルは中央サーバとデータを共有している1人のユーザーに属している。 ユーザは一般的に、サンプルのプライバシーを守り、サーバに送信しなければならないデータの量を最小限に抑えることに関心を持っている。 分布のエントロピーの一般的な測度を推定するために、改良されたプライベートおよび通信効率のアルゴリズムを提供する。 全てのアルゴリズムは通信コストが一定であり、局所的な差分プライバシーを満たす。 条件付き独立性が木によって与えられる多くの変数のジョイント分布について,変数数に線形なサンプル数を必要とするシャノンエントロピーを,事前作業の二次的サンプル複雑性と比較して推定するアルゴリズムについて述べる。 また,Giniエントロピーを推定するアルゴリズムについて述べる。このアルゴリズムは,サンプルの複雑さが分布の支持サイズに依存せず,ユーザとサーバ間の同時通信を単一ラウンドで行うことができる。 対照的に、最もよく知られたアルゴリズムは、高い通信コストを持ち、サーバがユーザ間のインタラクションを容易にする必要がある。 最後に,最もよく知られたアルゴリズムをプライベートかつ通信効率の良い設定に一般化した衝突エントロピー推定アルゴリズムについて述べる。

Modern statistical estimation is often performed in a distributed setting where each sample belongs to a single user who shares their data with a central server. Users are typically concerned with preserving the privacy of their samples, and also with minimizing the amount of data they must transmit to the server. We give improved private and communication-efficient algorithms for estimating several popular measures of the entropy of a distribution. All of our algorithms have constant communication cost and satisfy local differential privacy. For a joint distribution over many variables whose conditional independence is given by a tree, we describe algorithms for estimating Shannon entropy that require a number of samples that is linear in the number of variables, compared to the quadratic sample complexity of prior work. We also describe an algorithm for estimating Gini entropy whose sample complexity has no dependence on the support size of the distribution and can be implemented using a single round of concurrent communication between the users and the server. In contrast, the previously best-known algorithm has high communication cost and requires the server to facilitate interaction between the users. Finally, we describe an algorithm for estimating collision entropy that generalizes the best known algorithm to the private and communication-efficient setting.
翻訳日:2023-05-16 19:56:04 公開日:2023-05-12
# 転送または転送しない:統合転送可能性メトリクスと分析

To transfer or not transfer: Unified transferability metric and analysis ( http://arxiv.org/abs/2305.07741v1 )

ライセンス: Link先を確認
Qianshan Zhan and Xiao-Jun Zeng(参考訳) トランスファーラーニングにおいて、トランスファービリティは、任意のトランスファータスクの有効性を評価することを目的とした最も基本的な問題の1つである。 既存の研究は分類タスクに焦点を当て、ドメインやタスクの違いを無視している。 さらに重要なのは、転送するかどうかを決定する研究が不足していることだ。 そこで本稿では,WDJE(Wasserstein Distance Based Joint Estimation)という新たな分析手法を提案する。 wdjeは、ターゲットリスクと転送の有無を比較することにより、転送するか否かの意思決定を促進する。 比較のために,限定された目標ラベルでも動作可能な非対称で理解し易く,かつ計算が容易な目標リスク境界を提案することで,目標転送リスクを近似する。 提案する境界は、wasserstein距離に基づくソースモデルの性能、ドメイン、タスクの違いにターゲットリスクを関連付ける。 また、我々の境界を教師なしの設定に拡張し、有限経験的サンプルから有界な一般化を確立する。 画像分類および残余寿命回帰予測実験は、WDJEが転送するか否かを判断する上での有効性と、目標転送リスクを近似する上での限界を示すものである。

In transfer learning, transferability is one of the most fundamental problems, which aims to evaluate the effectiveness of arbitrary transfer tasks. Existing research focuses on classification tasks and neglects domain or task differences. More importantly, there is a lack of research to determine whether to transfer or not. To address these, we propose a new analytical approach and metric, Wasserstein Distance based Joint Estimation (WDJE), for transferability estimation and determination in a unified setting: classification and regression problems with domain and task differences. The WDJE facilitates decision-making on whether to transfer or not by comparing the target risk with and without transfer. To enable the comparison, we approximate the target transfer risk by proposing a non-symmetric, easy-to-understand and easy-to-calculate target risk bound that is workable even with limited target labels. The proposed bound relates the target risk to source model performance, domain and task differences based on Wasserstein distance. We also extend our bound into unsupervised settings and establish the generalization bound from finite empirical samples. Our experiments in image classification and remaining useful life regression prediction illustrate the effectiveness of the WDJE in determining whether to transfer or not, and the proposed bound in approximating the target transfer risk.
翻訳日:2023-05-16 19:55:45 公開日:2023-05-12
# 野生でのサプライズの測定

Measuring Surprise in the Wild ( http://arxiv.org/abs/2305.07733v1 )

ライセンス: Link先を確認
Azadeh Dinparastdjadid, Isaac Supeene, Johan Engstrom(参考訳) 驚きを体験した際の定量的な測定はほとんど実験室に限られており、自然主義的な設定への拡張は困難である。 ここでは,認知科学と神経科学に根ざしたサプライズモデルと最先端の機械学習生成モデルを組み合わせて,道路交通などの複雑な動的環境における驚きの人間の行動を検出する手法を初めて示す。 交通安全においては、交通紛争の特定、道路利用者の応答時間のモデル化、人間と自律運転者の運転行動評価を支援することができる。 また,サプライズを定量化し,自然主義的な運転シナリオを用いて既存のサプライズ対策に対する多くの利点を示す新しい手法を提案する。 学習した生成モデルを用いた驚くべき行動のモデリングは、交通安全を超えた動的現実環境に一般化できる新しい概念である。

The quantitative measurement of how and when we experience surprise has mostly remained limited to laboratory studies, and its extension to naturalistic settings has been challenging. Here we demonstrate, for the first time, how computational models of surprise rooted in cognitive science and neuroscience combined with state-of-the-art machine learned generative models can be used to detect surprising human behavior in complex, dynamic environments like road traffic. In traffic safety, such models can support the identification of traffic conflicts, modeling of road user response time, and driving behavior evaluation for both human and autonomous drivers. We also present novel approaches to quantify surprise and use naturalistic driving scenarios to demonstrate a number of advantages over existing surprise measures from the literature. Modeling surprising behavior using learned generative models is a novel concept that can be generalized beyond traffic safety to any dynamic real-world environment.
翻訳日:2023-05-16 19:55:25 公開日:2023-05-12
# 複雑な構造を持つ格子磁気光学トラップ

Grating magneto-optical traps with complicated level structures ( http://arxiv.org/abs/2305.07732v1 )

ライセンス: Link先を確認
D. S. Barker, P. K. Elgee, A. Sitaram, E. B. Norrgard, N. N. Klimov, G. K. Campbell, S. Eckel(参考訳) 非自明なレベル構造を持つ遷移で動作する格子状磁気光学トラップ(MOT)内の力と光ポンピングについて検討した。 標準の6ビームmot構成とは対照的に、レート方程式モデリングはグレーティングmotの非対称レーザー形状がスピン偏極原子サンプルを生成すると予測している。 さらに、land\e $g$-factors とtotal angular momenta のトラップ遷移はトラップの閉じ込めと位置の両方に大きな影響を与えている。 速度方程式モデルから得られる直観を用いて、フェルミオン$^{87}$Srの格子MOTを実現し、ボソニック磁場よりもトラップの四重極磁場の中心近くで形成されることを観察する。 また,MOTの分子レーザー冷却への応用についても検討し,その速度方程式から2色動作は必要だが十分ではないことが示唆された。 分子レーザー冷却モデルをテストするために、$D_1$の$^7$Liを用いて格子MOTを作製し、4つの6ビーム偏光構成のうち2つのみが格子幾何学で機能することを確認する。 我々の結果は、時間維持、慣性航法、精密測定のための携帯型原子と分子トラップの開発に役立ちます。

We study the forces and optical pumping within grating magneto-optical traps (MOTs) operating on transitions with non-trivial level structure. In contrast to the standard six-beam MOT configuration, rate equation modelling predicts that the asymmetric laser geometry of a grating MOT will produce spin-polarized atomic samples. Furthermore, the Land\'e $g$-factors and total angular momenta of the trapping transition strongly influence both the confinement and position of the trap. Using the intuition gained from the rate equation model, we realize a grating MOT of fermionic $^{87}$Sr and observe that it forms closer to the center of the trap's quadrupole magnetic field than its bosonic counterpart. We also explore the application of grating MOTs to molecule laser cooling, where the rate equations suggest that two-color operation is necessary, but not sufficient, for stable confinement for type-II level structures. To test our molecule laser cooling models, we create grating MOTs using the $D_1$ line of $^7$Li and see that only two of the four possible six-beam polarization configurations operate in the grating geometry. Our results will aid the development of portable atom and molecule traps for time keeping, inertial navigation, and precision measurement.
翻訳日:2023-05-16 19:55:09 公開日:2023-05-12
# 単語強調検出におけるdeepfake技術の利用

Using Deepfake Technologies for Word Emphasis Detection ( http://arxiv.org/abs/2305.07791v1 )

ライセンス: Link先を確認
Eran Kaufman, Lee-Ad Gottlieb(参考訳) 本研究では,音声言語の自動強調検出の課題について考察する。 この問題は、主題のアクセント、方言、音声など、対象者の発話の特異性に影響されるという点で困難である。 この課題に対処するために,我々はディープフェイク技術を用いて,この話者に強調しない音声を生成することを提案する。 これにより、発声音声のテキストを抽出し、同じ話者から音声サンプルを使用して、このタスクに重点的な無声音声を生成する。 生成した音声を音声と比較することにより、比較的検出が容易な強調パターンを分離することができる。

In this work, we consider the task of automated emphasis detection for spoken language. This problem is challenging in that emphasis is affected by the particularities of speech of the subject, for example the subject accent, dialect or voice. To address this task, we propose to utilize deep fake technology to produce an emphasis devoid speech for this speaker. This requires extracting the text of the spoken voice, and then using a voice sample from the same speaker to produce emphasis devoid speech for this task. By comparing the generated speech with the spoken voice, we are able to isolate patterns of emphasis which are relatively easy to detect.
翻訳日:2023-05-16 19:49:50 公開日:2023-05-12
# 深層学習とマルチモーダル顕微鏡による347hステンレス鋼の自動粒界セグメンテーションとミクロ組織解析

Automated Grain Boundary (GB) Segmentation and Microstructural Analysis in 347H Stainless Steel Using Deep Learning and Multimodal Microscopy ( http://arxiv.org/abs/2305.07790v1 )

ライセンス: Link先を確認
Shoieb Ahmed Chowdhury, M.F.N. Taufique, Jing Wang, Marissa Masden, Madison Wenzlick, Ram Devanathan, Alan L Schemer-Kohrn, Keerti S Kappagantula(参考訳) オーステナイト系347hステンレス鋼は高温などの極端な運転条件において優れた機械的特性と耐食性を提供する。 組成やプロセスの変動による微細構造の変化が材料特性に与える影響が期待される。 粒界などの微細構造の特徴を同定することは, プロセス-ミクロ構造-物性ループにおいて重要な課題となる。 畳み込みニューラルネットワーク(cnn)ベースのディープラーニングモデルを適用することは、材料マイクログラフから特徴を自動的に検出する強力なテクニックである。 セグメンテーションタスクのイメージのマニュアルラベリングは、合理的な時間枠内で信頼できる再現可能な方法でトレーニングデータとラベルを生成する上で、大きなボトルネックとなる。 本研究では,マルチモーダル顕微鏡を用いて,手動ラベルではなくラベルを直接生成することで,このような制限を克服しようとする。 347hステンレス鋼の走査型電子顕微鏡 (sem) 像をトレーニングデータとして, 電子後方散乱回折 (ebsd) マイクログラフをピクセルラベルとして合成し, 粒界検出を意味的セグメンテーションタスクとした。 本手法は,2つの顕微鏡モード間のデータ収集において,手動ラベリングを用いた同様のセグメンテーションタスクと相容れない性能を示す。 さらに,na\"ive pixel-wise segmentationでは,予測された粒界マップのギャップが小さく,境界が欠落していることが判明した。 モデルトレーニング中にトポロジ情報を取り入れることで、粒界ネットワークの接続性とセグメンテーション性能が改善される。 最後に, 微構造的キャラクタリゼーションにおける究極の関心値である粒状形態分布の予測を, 下流課題の正確な計算によって検証する。

Austenitic 347H stainless steel offers superior mechanical properties and corrosion resistance required for extreme operating conditions such as high temperature. The change in microstructure due to composition and process variations is expected to impact material properties. Identifying microstructural features such as grain boundaries thus becomes an important task in the process-microstructure-properties loop. Applying convolutional neural network (CNN) based deep-learning models is a powerful technique to detect features from material micrographs in an automated manner. Manual labeling of the images for the segmentation task poses a major bottleneck for generating training data and labels in a reliable and reproducible way within a reasonable timeframe. In this study, we attempt to overcome such limitations by utilizing multi-modal microscopy to generate labels directly instead of manual labeling. We combine scanning electron microscopy (SEM) images of 347H stainless steel as training data and electron backscatter diffraction (EBSD) micrographs as pixel-wise labels for grain boundary detection as a semantic segmentation task. We demonstrate that despite producing instrumentation drift during data collection between two modes of microscopy, this method performs comparably to similar segmentation tasks that used manual labeling. Additionally, we find that na\"ive pixel-wise segmentation results in small gaps and missing boundaries in the predicted grain boundary map. By incorporating topological information during model training, the connectivity of the grain boundary network and segmentation performance is improved. Finally, our approach is validated by accurate computation on downstream tasks of predicting the underlying grain morphology distributions which are the ultimate quantities of interest for microstructural characterization.
翻訳日:2023-05-16 19:49:40 公開日:2023-05-12
# ハイブリッド質問解析と実行による複雑な質問への回答

Answering Complex Questions over Text by Hybrid Question Parsing and Execution ( http://arxiv.org/abs/2305.07789v1 )

ライセンス: Link先を確認
Ye Liu, Semih Yavuz, Rui Meng, Dragomir Radev, Caiming Xiong, Yingbo Zhou(参考訳) テキスト型質問応答システムの支配的パラダイムは、自然言語質問への応答に優れているが、複雑な問題に乏しいエンドツーエンドニューラルネットワークに基づいている。 これは、自然言語の質問を論理形式に変換し、クエリエンジンで実行する構造化データソース(リレーショナルデータベース、知識グラフなど)に対する意味解析アプローチの広範な適応とは対照的である。 ニューラルネットワークとシンボリック手法の強みを組み合わせるために,テキストQAにおける質問解析と実行の枠組みを提案する。 2つの中心的な柱から成り、(1)複雑性の異なる問題を、プリミティブとして単純な質問とそれらの関係を表す記号操作からなるh表現という中間表現に解析し、(2)結果のh表現を実行するために、決定論的ルールを統合して、各分解された単純な質問に答えるために、シンボル操作をドロップインニューラルネットワークネットワークに翻訳するハイブリッド実行器を設計する。 したがって、提案されたフレームワークは、トップダウンの質問解析、そしてボトムアップの回答バックトラッキングと見なすことができる。 結果として得られるH-表現は実行プロセスを詳しくガイドし、解釈可能性の向上に加えて、プリミティブ要素の解決のためのニューラルリーダーの利点を保っている。 musique, 2wikiqa, hotpotqa, nqに関する広範な実験では,提案するパースおよびハイブリッド実行フレームワークが,教師付き,少数ショット,ゼロショットの設定で既存のアプローチを上回っており,基礎となる推論プロセスも効果的に公開している。

The dominant paradigm of textual question answering systems is based on end-to-end neural networks, which excels at answering natural language questions but falls short on complex ones. This stands in contrast to the broad adaptation of semantic parsing approaches over structured data sources (e.g., relational database, knowledge graphs), that convert natural language questions to logical forms and execute them with query engines. Towards combining the strengths of neural and symbolic methods, we propose a framework of question parsing and execution on textual QA. It comprises two central pillars: (1) We parse the question of varying complexity into an intermediate representation, named H-expression, which is composed of simple questions as the primitives and symbolic operations representing the relationships among them; (2) To execute the resulting H-expressions, we design a hybrid executor, which integrates the deterministic rules to translate the symbolic operations with a drop-in neural reader network to answer each decomposed simple question. Hence, the proposed framework can be viewed as a top-down question parsing followed by a bottom-up answer backtracking. The resulting H-expressions closely guide the execution process, offering higher precision besides better interpretability while still preserving the advantages of the neural readers for resolving its primitive elements. Our extensive experiments on MuSiQue, 2WikiQA, HotpotQA, and NQ show that the proposed parsing and hybrid execution framework outperforms existing approaches in supervised, few-shot, and zero-shot settings, while also effectively exposing its underlying reasoning process.
翻訳日:2023-05-16 19:49:10 公開日:2023-05-12
# 超高速x線磁気法について

On Ultrafast X-ray Methods for Magnetism ( http://arxiv.org/abs/2305.07787v1 )

ライセンス: Link先を確認
Rajan Plumley, Sathya Chitturi, Cheng Peng, Tadesse Assefa, Nicholas Burdet, Lingjia Shen, Alex Reid, Georgi Dakovski, Matthew Seaberg, Frank O'Dowd, Sergio Montoya, Hongwei Chen, Alana Okullo, Sougata Mardanya, Stephen Kevan, Peter Fischer, Eric Fullerton, Sunil Sinha, William Colocho, Alberto Lutman, Franz-Joseph Decker, Sujoy Roy, Jun Fujioka, Yoshinori Tokura, Michael P. Minitti, Jeremy Johnson, Matthias Hoffmann, Michaela Amoo, Adrian Feiguin, Chuck Yoon, Jana Thayer, Yousseff Nashed, Chunjing Jia, Arun Bansil, Sugata Chowdhury, Aaron Lindenberg, Mike Dunne, Elizabeth Blackburn, Joshua Turner(参考訳) 世界中のx線自由電子レーザー光源の導入により、物質を基本長さと時間スケールで可視化するための新しい科学的アプローチが実現されている。 磁気と「磁気タイプ」システムに関連するため、超高速の磁気応答を発生時の時間スケールで研究するための先進的な手法が開発されている。 本稿では,この領域で新しい方向を誘導する可能性を持つ3つの機能について述べる。ポンププローブX線散乱,低エネルギー励起,X線光子揺らぎ分光,超高速拡散X線散乱。 これらの実験手法と高度なモデリングと機械学習を組み合わせることで、これらのドメインの組み合わせが磁性の分野における新たな理解をいかに可能にするかを説明する。 最後に, 今後の調査分野と, 新たに開発された機器について, 今後の展望を述べる。

With the introduction of x-ray free electron laser sources around the world, new scientific approaches for visualizing matter at fundamental length and time-scales have become possible. As it relates to magnetism and "magnetic-type" systems, advanced methods are being developed for studying ultrafast magnetic responses on the time-scales at which they occur. We describe three capabilities which have the potential to seed new directions in this area and present original results from each: pump-probe x-ray scattering with low energy excitation, x-ray photon fluctuation spectroscopy, and ultrafast diffuse x-ray scattering. By combining these experimental techniques with advanced modeling together with machine learning, we describe how the combination of these domains allows for a new understanding in the field of magnetism. Finally, we give an outlook for future areas of investigation and the newly developed instruments which will take us there.
翻訳日:2023-05-16 19:48:01 公開日:2023-05-12
# スイニングトランスを用いたROIに基づく深部画像圧縮

ROI-based Deep Image Compression with Swin Transformers ( http://arxiv.org/abs/2305.07783v1 )

ライセンス: Link先を確認
Binglin Li and Jie Liang and Haisheng Fu and Jingning Han(参考訳) 関心領域(roi)を背景よりも品質良くエンコーディングするには、ビデオ会議システム、ビデオ監視、オブジェクト指向ビジョンタスクなど、多くのアプリケーションがある。 本稿では,自動エンコーダネットワークの主ビルディングブロックとして,Swinトランスフォーマーを用いたROIベースの画像圧縮フレームワークを提案する。 バイナリroiマスクはネットワークの異なる層に統合され、空間情報ガイダンスを提供する。 ROIマスクに基づいて、対応するLagrange乗算器$ \lambda $を異なるリージョンで変更することで、ROIと非ROIの相対的な重要性を制御できます。 実験結果から,本モデルは他の手法よりもROIPSNRが高く,人体評価に適した平均PSNRが得られた。 オリジナルイメージで事前トレーニングされたモデルでテストすると、coco validationデータセット上で優れたオブジェクト検出とインスタンスセグメンテーション性能が得られる。

Encoding the Region Of Interest (ROI) with better quality than the background has many applications including video conferencing systems, video surveillance and object-oriented vision tasks. In this paper, we propose a ROI-based image compression framework with Swin transformers as main building blocks for the autoencoder network. The binary ROI mask is integrated into different layers of the network to provide spatial information guidance. Based on the ROI mask, we can control the relative importance of the ROI and non-ROI by modifying the corresponding Lagrange multiplier $ \lambda $ for different regions. Experimental results show our model achieves higher ROI PSNR than other methods and modest average PSNR for human evaluation. When tested on models pre-trained with original images, it has superior object detection and instance segmentation performance on the COCO validation dataset.
翻訳日:2023-05-16 19:47:47 公開日:2023-05-12
# マッチング追跡の再検討:近似部分モジュラリティを超えて

Revisiting Matching Pursuit: Beyond Approximate Submodularity ( http://arxiv.org/abs/2305.07782v1 )

ライセンス: Link先を確認
Ehsan Tohidi, Mario Coutino, David Gesbert(参考訳) 本研究では,大集合からベクトルの部分集合を選択する問題について検討し,関数群に対する最良の信号表現を得る。 グリード法はこの問題に対処するために広く使われており、その多くが(弱)部分モジュラリティのレンズの下で解析されているが、これらのアルゴリズムはそのような機能的特性を用いて明示的に考案されていない。 本稿では,ベクトル選択問題を再検討し,期待される部分モジュラー関数を導入する。 この関数は、期待するときにグリーディアルゴリズムによってほぼ最適性を保証するだけでなく、よく使われるマッチング追従(MP)アルゴリズムの既存の欠陥を軽減する。 さらに,提案アルゴリズムの単一点推定バージョンとMP変異との関係について述べる。 本研究は,従来のMPアルゴリズムに対して提案手法の利点を実証した,典型的な信号表現課題である到着推定問題の角度に関する数値実験によって支持された。

We study the problem of selecting a subset of vectors from a large set, to obtain the best signal representation over a family of functions. Although greedy methods have been widely used for tackling this problem and many of those have been analyzed under the lens of (weak) submodularity, none of these algorithms are explicitly devised using such a functional property. Here, we revisit the vector-selection problem and introduce a function which is shown to be submodular in expectation. This function does not only guarantee near-optimality through a greedy algorithm in expectation, but also alleviates the existing deficiencies in commonly used matching pursuit (MP) algorithms. We further show the relation between the single-point-estimate version of the proposed greedy algorithm and MP variants. Our theoretical results are supported by numerical experiments for the angle of arrival estimation problem, a typical signal representation task; the experiments demonstrate the benefits of the proposed method with respect to the traditional MP algorithms.
翻訳日:2023-05-16 19:47:34 公開日:2023-05-12
# トランスデューサに基づく音声認識のためのアクセラレータ・アウェアトレーニング

Accelerator-Aware Training for Transducer-Based Speech Recognition ( http://arxiv.org/abs/2305.07778v1 )

ライセンス: Link先を確認
Suhaila M. Shakiah, Rupak Vignesh Swaminathan, Hieu Duy Nguyen, Raviteja Chinta, Tariq Afzal, Nathan Susanj, Athanasios Mouchtaris, Grant P. Strimel, Ariya Rastrow(参考訳) 機械学習モデルの重みとアクティベーションは、トレーニング中に完全な精度で表現される。 これにより、ニューラルネットワークアクセラレータ(NNA)チップにデプロイされた場合、実行時のパフォーマンスが低下する。 本研究では,NNA演算子をトレーニング期間中に再現し,バックプロパゲーションにおけるNNAの低精度推論による劣化を考慮した。 提案手法は,NNA操作を効率よくエミュレートし,量子化エラーが発生しやすいデータをCPU(Central Processing Unit)に転送する必要性を推し進め,最終的にユーザ認識レイテンシ(UPL)を低減させる。 本稿では、オンデバイスストリーミング音声認識タスクの魅力的なアーキテクチャであるRecurrent Neural Network-Transducer (RNN-T) に適用する。 270k時間の英語データのモデルのトレーニングと評価を行い,エンジンのレイテンシを57%向上させるとともに,werの相対的劣化を最大10%削減した。

Machine learning model weights and activations are represented in full-precision during training. This leads to performance degradation in runtime when deployed on neural network accelerator (NNA) chips, which leverage highly parallelized fixed-point arithmetic to improve runtime memory and latency. In this work, we replicate the NNA operators during the training phase, accounting for the degradation due to low-precision inference on the NNA in back-propagation. Our proposed method efficiently emulates NNA operations, thus foregoing the need to transfer quantization error-prone data to the Central Processing Unit (CPU), ultimately reducing the user perceived latency (UPL). We apply our approach to Recurrent Neural Network-Transducer (RNN-T), an attractive architecture for on-device streaming speech recognition tasks. We train and evaluate models on 270K hours of English data and show a 5-7% improvement in engine latency while saving up to 10% relative degradation in WER.
翻訳日:2023-05-16 19:47:19 公開日:2023-05-12
# PanFlowNet: パンシャーピングのためのフローベースのディープネットワーク

PanFlowNet: A Flow-Based Deep Network for Pan-sharpening ( http://arxiv.org/abs/2305.07774v1 )

ライセンス: Link先を確認
Gang Yang, Xiangyong Cao, Wenzhe Xiao, Man Zhou, Aiping Liu, Xun chen, and Deyu Meng(参考訳) パンシャーピングは、低分解能マルチスペクトル(LRMS)画像のスペクトル情報と高分解能パンクロマティック(PAN)画像のテクスチャ詳細を統合することで、高分解能マルチスペクトル(HRMS)画像を生成することを目的としている。 これは本質的には、様々なHRMS画像をLRMS画像に分解できる超解像(SR)タスクの誤った性質を継承する。 しかし、既存のディープラーニングに基づく手法では、決定論的マッピングを用いてLRMS画像とPAN画像から1つのHRMS画像のみを復元し、HRMS画像の多様性を無視している。 本稿では,この問題を軽減するために,決定論的マッピングを学習する代わりに,LRMS画像とPAN画像の条件分布を直接学習するフローベースパン共有ネットワーク(PanFlowNet)を提案する。 具体的には、この未知条件分布を可逆ネットワークによって与えられたガウス分布に変換し、条件分布を明示的に定義することができる。 そこで我々は,CACB(Invertible Conditional Affine Coupling Block)を設計し,一連のCACBを積み重ねてPanFlowNetのアーキテクチャを構築する。 最後に、PanFlowNetはトレーニングセットが与えられた条件分布のログ類似度を最大化してトレーニングされ、さまざまなHRMSイメージの予測に使用できる。 実験により,提案したPanFlowNetは,LRMS画像とPAN画像から様々なHRMS画像を生成することができることを確認した。 さらに,異なる種類の衛星データを用いた実験結果から,パンフローネットが視覚的および定量的に他の最先端手法と比較して優れていることを示した。

Pan-sharpening aims to generate a high-resolution multispectral (HRMS) image by integrating the spectral information of a low-resolution multispectral (LRMS) image with the texture details of a high-resolution panchromatic (PAN) image. It essentially inherits the ill-posed nature of the super-resolution (SR) task that diverse HRMS images can degrade into an LRMS image. However, existing deep learning-based methods recover only one HRMS image from the LRMS image and PAN image using a deterministic mapping, thus ignoring the diversity of the HRMS image. In this paper, to alleviate this ill-posed issue, we propose a flow-based pan-sharpening network (PanFlowNet) to directly learn the conditional distribution of HRMS image given LRMS image and PAN image instead of learning a deterministic mapping. Specifically, we first transform this unknown conditional distribution into a given Gaussian distribution by an invertible network, and the conditional distribution can thus be explicitly defined. Then, we design an invertible Conditional Affine Coupling Block (CACB) and further build the architecture of PanFlowNet by stacking a series of CACBs. Finally, the PanFlowNet is trained by maximizing the log-likelihood of the conditional distribution given a training set and can then be used to predict diverse HRMS images. The experimental results verify that the proposed PanFlowNet can generate various HRMS images given an LRMS image and a PAN image. Additionally, the experimental results on different kinds of satellite datasets also demonstrate the superiority of our PanFlowNet compared with other state-of-the-art methods both visually and quantitatively.
翻訳日:2023-05-16 19:47:02 公開日:2023-05-12
# モバイルデバイス上でのMLモデルの監視と適応

Monitoring and Adapting ML Models on Mobile Devices ( http://arxiv.org/abs/2305.07772v1 )

ライセンス: Link先を確認
Wei Hao, Zixi Wang, Lauren Hong, Lingxiao Li, Nader Karayanni, Chengzhi Mao, Junfeng Yang, and Asaf Cidon(参考訳) MLモデルは、低レイテンシ推論とオフライン操作のために、ますますモバイルデバイスにプッシュされている。 しかし、一度モデルがデプロイされると、MLオペレーターがその正確性を追跡することは難しく、予測不能に低下する(例えば、データドリフトのため)。 ユーザからのフィードバックを必要とせずに,モバイルデバイス上でモデルを継続的に監視および適応するための,初のエンドツーエンドシステムであるnazarを設計した。 私たちのキーとなる観察は、しばしばモデル劣化は特定の根本原因によるもので、大規模なデバイス群に影響を与える可能性があるということです。 そのため、Nazarが多数のデバイスで一貫した劣化を検知すると、根本原因分析を用いて問題の起源を特定し、原因特異的適応を適用する。 2つのコンピュータビジョンデータセット上でnazarを評価し,既存のアプローチと比較して一貫して精度を高めることを示す。 運転中の車から集めた写真を含むデータセットでは、Nazarは平均で15%精度を向上する。

ML models are increasingly being pushed to mobile devices, for low-latency inference and offline operation. However, once the models are deployed, it is hard for ML operators to track their accuracy, which can degrade unpredictably (e.g., due to data drift). We design Nazar, the first end-to-end system for continuously monitoring and adapting models on mobile devices without requiring feedback from users. Our key observation is that often model degradation is due to a specific root cause, which may affect a large group of devices. Therefore, once Nazar detects a consistent degradation across a large number of devices, it employs a root cause analysis to determine the origin of the problem and applies a cause-specific adaptation. We evaluate Nazar on two computer vision datasets, and show it consistently boosts accuracy compared to existing approaches. On a dataset containing photos collected from driving cars, Nazar improves the accuracy on average by 15%.
翻訳日:2023-05-16 19:46:34 公開日:2023-05-12
# 厳密な多様性維持なしに品質の多様性を達成できるのか?

Can the Problem-Solving Benefits of Quality Diversity Be Obtained Without Explicit Diversity Maintenance? ( http://arxiv.org/abs/2305.07767v1 )

ライセンス: Link先を確認
Ryan Boldi and Lee Spector(参考訳) QD(Quality Diversity)最適化を用いてハード探索や偽装探索の問題を解決する場合、多様性は本質的に価値があると仮定する。 これは、多様性は目標に到達するのに役立つが、それ自体は目的ではない、ということを意味します。 これらの領域では、実践者はQDアルゴリズムを単一の目的最適化フレームワークに対してベンチマークすることが多い。 本稿では,emph{multi-objective}最適化フレームワークについて,正しい比較を行うべきであることを論じる。 これは、単一目的最適化フレームワークがサブオブジェクトの集約に依存しているためであり、多様な個体群を自動で維持するために不可欠な情報の減少をもたらす可能性がある。 本稿では,品質の多様性と多目的最適化の公平な比較を容易にするために,個人に対する行動記述子のセットや,個人が解決すべき目的のセットを自動的に決定する次元性低減手法を提案する。 前者は標準品質の多様性最適化技術を用いて解を生成でき、後者は標準の多目的最適化技術を用いて解を生成できる。 これにより、比較を容易にするためにドメインとアルゴリズム固有の修正を必要とせず、これらの2種類のアルゴリズムのレベル比較が可能になる。

When using Quality Diversity (QD) optimization to solve hard exploration or deceptive search problems, we assume that diversity is extrinsically valuable. This means that diversity is important to help us reach an objective, but is not an objective in itself. Often, in these domains, practitioners benchmark their QD algorithms against single objective optimization frameworks. In this paper, we argue that the correct comparison should be made to \emph{multi-objective} optimization frameworks. This is because single objective optimization frameworks rely on the aggregation of sub-objectives, which could result in decreased information that is crucial for maintaining diverse populations automatically. In order to facilitate a fair comparison between quality diversity and multi-objective optimization, we present a method that utilizes dimensionality reduction to automatically determine a set of behavioral descriptors for an individual, as well as a set of objectives for an individual to solve. Using the former, one can generate solutions using standard quality diversity optimization techniques, and using the latter, one can generate solutions using standard multi-objective optimization techniques. This allows for a level comparison between these two classes of algorithms, without requiring domain and algorithm specific modifications to facilitate a comparison.
翻訳日:2023-05-16 19:46:20 公開日:2023-05-12
# LLaMA博士:生成データ拡張によるドメイン特化QAにおける小言語モデルの改善

Dr. LLaMA: Improving Small Language Models in Domain-Specific QA via Generative Data Augmentation ( http://arxiv.org/abs/2305.07804v1 )

ライセンス: Link先を確認
Zhen Guo, Peiqi Wang, Yanwei Wang, Shangdi Yu(参考訳) 大規模言語モデル(llm)は自然言語処理において大きな進歩を遂げてきたが、特にドメイン固有のタスクにおいて、サイズが大きくなるにつれて計算コストと非効率の面での課題に直面している。 一方、Small Language Models (SLM) は、限られた能力と訓練データのために、これらのタスクに苦労することが多い。 本稿では, LLMを用いた生成データ拡張によるSLMの改善手法であるDr. LLaMAを紹介し, 医療質問応答タスクとPubMedQAデータセットに着目した。 その結果,LLMは既存の問合せペアを効果的に洗練・多様化し,微調整後のドメイン固有QAデータセット上でのより小さなモデルの性能を向上させることができた。 本研究は、ドメイン固有の質問応答にLLMを使うことの課題を強調し、これらの制限に対処するための潜在的研究の方向性を提案する。 興味のある研究者にもコードを公開しました

Large Language Models (LLMs) have made significant strides in natural language processing but face challenges in terms of computational expense and inefficiency as they grow in size, especially in domain-specific tasks. Small Language Models (SLMs), on the other hand, often struggle in these tasks due to limited capacity and training data. In this paper, we introduce Dr. LLaMA, a method for improving SLMs through generative data augmentation using LLMs, focusing on medical question-answering tasks and the PubMedQA dataset. Our findings indicate that LLMs effectively refine and diversify existing question-answer pairs, resulting in improved performance of a much smaller model on domain-specific QA datasets after fine-tuning. This study highlights the challenges of using LLMs for domain-specific question answering and suggests potential research directions to address these limitations, ultimately aiming to create more efficient and capable models for specialized applications. We have also made our code available for interested researchers
翻訳日:2023-05-16 19:37:14 公開日:2023-05-12
# 量子学習マシン

Quantum learning machines ( http://arxiv.org/abs/2305.07801v1 )

ライセンス: Link先を確認
G J Milburn(参考訳) 古典的あるいは量子的な物理学習機械は、必ずしも散逸するシステムである。 学習誤差率は熱力学的効率と学習効率のリンクを減少させるため、エネルギー散逸の割合は減少する。 古典的な場合、エネルギーは熱として散逸する。 我々は、エネルギーが自発的放出として散逸する量子光学パーセプトロンに基づく例を示す。 光周波数では、温度は事実上ゼロであるため、このパーセプトロンは可能な限り効率的である。 古典的な学習マシンでは、世界に関する客観的な事実を明らかにするために測定が行われます。 量子学習マシンでは、学習されるものは測定そのものの性質によって定義される。

Physical learning machines, be they classical or quantum, are necessarily dissipative systems. The rate of energy dissipation decreases as the learning error rate decreases linking thermodynamic efficiency and learning efficiency. In the classical case the energy is dissipated as heat. We give an example based on a quantum optical perceptron where the energy is dissipated as spontaneous emission. At optical frequencies the temperature is effectively zero so this perceptron is as efficient as it is possible to get. The example illustrates a general point: In a classical learning machine, measurement is taken to reveal objective facts about the world. In quantum learning machines what is learned is defined by the nature of the measurement itself.
翻訳日:2023-05-16 19:36:55 公開日:2023-05-12
# ACCENT:オープンドメイン対話システムのためのイベントコモンセンス自動評価基準

ACCENT: An Automatic Event Commonsense Evaluation Metric for Open-Domain Dialogue Systems ( http://arxiv.org/abs/2305.07797v1 )

ライセンス: Link先を確認
Sarik Ghazarian, Yijia Shao, Rujun Han, Aram Galstyan, Nanyun Peng(参考訳) 常識推論は人間のコミュニケーションにおいて一様であり、オープンドメイン対話システムにおいて重要な特徴である。 しかし,対話システムにおけるコモンセンスの評価はいまだに難しい課題である。 イベント・コモンセンスとそれらの関係を考察するイベント・コモンセンスに着目し、対話と一般的なコモンセンス推論の両方において重要である。 本稿では,CSKB(Commonsense Knowledge Bases)によるイベントコモンセンス評価尺度であるACCENTを提案する。 ACCENTはまず対話からイベント関連タプルを抽出し、CSKBとの互換性の観点からタプルをスコアリングして応答を評価する。 アクセントを評価するために,オープンドメイン対話のための最初の公開イベントコモンセンス評価データセットを構築する。 実験の結果,ACCENTは事象のコモンセンス評価に有効な指標であり,既存の基準よりも人間の判断との相関性が高いことがわかった。

Commonsense reasoning is omnipresent in human communications and thus is an important feature for open-domain dialogue systems. However, evaluating commonsense in dialogue systems is still an open challenge. We take the first step by focusing on event commonsense that considers events and their relations, and is crucial in both dialogues and general commonsense reasoning. We propose ACCENT, an event commonsense evaluation metric empowered by commonsense knowledge bases (CSKBs). ACCENT first extracts event-relation tuples from a dialogue, and then evaluates the response by scoring the tuples in terms of their compatibility with the CSKB. To evaluate ACCENT, we construct the first public event commonsense evaluation dataset for open-domain dialogues. Our experiments show that ACCENT is an efficient metric for event commonsense evaluation, which achieves higher correlations with human judgments than existing baselines.
翻訳日:2023-05-16 19:36:46 公開日:2023-05-12
# マスキング言語モデルにおける社会的バイアスの包括的尺度の構築

Constructing Holistic Measures for Social Biases in Masked Language Models ( http://arxiv.org/abs/2305.07795v1 )

ライセンス: Link先を確認
Yang Liu and Yuexian Hou(参考訳) Masked Language Models (MLM)は多くの自然言語処理タスクで成功している。 しかし、実世界のステレオタイプバイアスは、大きなテキストコーパスから学んだため、MLMに反映される可能性が高い。 過去に提案された評価指標のほとんどは、MLMのログライクな構造で設計された異なるマスキング戦略を採用している。 ステレオタイプバイアスや反ステレオタイプバイアスサンプルの分散のような全体論的考察が欠けている。 本稿では,MLMが出力するステレオタイプバイアスとアンチステレオタイプバイアスの対数様相をガウス分布とみなす。 mlmsにおける社会的バイアスを評価するために,kullback leibler divergence score (kldivs) と jensen shannon divergence score (jsdivs) という2つの評価指標が提案されている。

Masked Language Models (MLMs) have been successful in many natural language processing tasks. However, real-world stereotype biases are likely to be reflected in MLMs due to their learning from large text corpora. Most of the evaluation metrics proposed in the past adopt different masking strategies, designed with the log-likelihood of MLMs. They lack holistic considerations such as variance for stereotype bias and anti-stereotype bias samples. In this paper, the log-likelihoods of stereotype bias and anti-stereotype bias samples output by MLMs are considered Gaussian distributions. Two evaluation metrics, Kullback Leibler Divergence Score (KLDivS) and Jensen Shannon Divergence Score (JSDivS) are proposed to evaluate social biases in MLMs The experimental results on the public datasets StereoSet and CrowS-Pairs demonstrate that KLDivS and JSDivS are more stable and interpretable compared to the metrics proposed in the past.
翻訳日:2023-05-16 19:36:28 公開日:2023-05-12
# マルチエージェントパラドックスにおける文脈性

Contextuality in multi-agent paradoxes ( http://arxiv.org/abs/2305.07792v1 )

ライセンス: Link先を確認
Sidiney B. Montanhano(参考訳) マルチエージェントシナリオは、非古典形式主義がエージェント間の知識を扱わなければならない場合に矛盾する結果を示す。 このようなパラドックスを観察する興味深い方法は、これらのシナリオをマルチモーダル論理で記述することであり、パラドックスは古典論理における構造の違反を明らかにする。 たとえ知識が信頼の概念と関係性のある方法で扱われているとしても、相反する結果が見出される。 ここでは、知識演算子を用いて、完全なリレーショナル言語におけるシナリオを更に扱います。 信頼は真理公理と同値であり、非文脈性条件を論理形式に書き換えることで、論理的文脈性は相互知識を仮定することで健全性違反と解釈できることを示す。 分散知識を仮定してこの条件をルーズすると、そのような違反は排除されるが、ラムダ依存のコストがかかる。 最後に、マルチエージェントシナリオの主な例は経験的モデル表現に変換され、文脈性はその矛盾した結果の原因として特定される。

Multi-agent scenarios show contradictory results when a non-classical formalism must deal with the knowledge between agents. An interesting way to observe such paradoxes is by describing these scenarios with multi-modal logic, where the paradoxes reveal violations of the structure in classical logic. Even if knowledge is treated in a relational way with the concept of trust, contradictory results can still be found. Here, I take a step further to treat the scenarios in full relational language by using knowledge operators. I show that trust is equivalent to the Truth Axiom and by rewriting the non-contextuality conditions in logical form, I also demonstrate that logical contextuality can be understood as the violation of soundness by supposing mutual knowledge. Loosening this condition by assuming distributed knowledge eliminates such violations but at the cost of lambda dependence. Finally, the main examples of multi-agent scenarios are translated to their empirical model representation, and contextuality is identified as the cause of their contradictory results.
翻訳日:2023-05-16 19:36:12 公開日:2023-05-12
# 勧告基礎モデルの項目IDの索引付け方法

How to Index Item IDs for Recommendation Foundation Models ( http://arxiv.org/abs/2305.06569v2 )

ライセンス: Link先を確認
Wenyue Hua, Shuyuan Xu, Yingqiang Ge, Yongfeng Zhang(参考訳) Recommendation foundation modelは、リコメンデーションタスクを自然言語タスクに変換することで、リコメンデーションのために大きな言語モデル(LLM)を利用する。 従来のレコメンデーションモデルでは、各候補項目と各候補項目のランキングスコアを計算するのではなく、アイテムを直接生成する生成レコメンデーションを可能にし、マルチステージフィルタリングからシングルステージフィルタリングまでのレコメンデーションパイプラインを簡素化する。 推奨項目を決定する際に、過剰に長いテキストを生成するのを避けるために、推奨基礎モデルにはLLM互換アイテムIDを作成することが不可欠である。 本研究では,P5を代表的バックボーンモデルとし,様々なインデクシング手法を用いて結果の再現を行い,推薦基礎モデルの項目インデックス化問題を体系的に検討する。 項目インデクシングの重要性を強調するため,まず,独立したインデクシング,タイトルインデクシング,ランダムインデクシングなど,いくつかの自明な項目インデクシング手法の問題について論じる。 次に,シーケンシャルインデクシング,協調インデクシング,セマンティック(コンテンツベース)インデクシング,ハイブリッドインデクシングという,シンプルかつ効果的な4つのソリューションを提案する。 P5 の再現性調査では,項目インデックス法がモデル性能に与える影響が明らかになり,提案手法の有効性を実世界のデータセットで検証した。

Recommendation foundation model utilizes large language models (LLM) for recommendation by converting recommendation tasks into natural language tasks. It enables generative recommendation which directly generates the item(s) to recommend rather than calculating a ranking score for each and every candidate item in traditional recommendation models, simplifying the recommendation pipeline from multi-stage filtering to single-stage filtering. To avoid generating excessively long text when deciding which item(s) to recommend, creating LLM-compatible item IDs is essential for recommendation foundation models. In this study, we systematically examine the item indexing problem for recommendation foundation models, using P5 as the representative backbone model and replicating its results with various indexing methods. To emphasize the importance of item indexing, we first discuss the issues of several trivial item indexing methods, such as independent indexing, title indexing, and random indexing. We then propose four simple yet effective solutions, including sequential indexing, collaborative indexing, semantic (content-based) indexing, and hybrid indexing. Our reproducibility study of P5 highlights the significant influence of item indexing methods on the model performance, and our results on real-world datasets validate the effectiveness of our proposed solutions.
翻訳日:2023-05-16 11:17:24 公開日:2023-05-12
# 機械学習における交叉的公平性に関する調査--概念,緩和,課題

A Survey on Intersectional Fairness in Machine Learning: Notions, Mitigation, and Challenges ( http://arxiv.org/abs/2305.06969v2 )

ライセンス: Link先を確認
Usman Gohar, Lu Cheng(参考訳) 機械学習システムの普及は、特に刑事判決や銀行ローンといったより決定クリティカルなアプリケーションにおいて、公正性に関する懸念が高まっている。 これらの差別を緩和し、測定するためにアルゴリズムとメトリクスが開発されている。 より最近では、人種や性別といった複数の敏感な属性を包含する交叉バイアスと呼ばれる、より困難なバイアスの形式が特定されている。 本稿では,交差点フェアネスにおける最先端技術について概観する。 公平さと緩和の交叉観念に関する分類を提示する。 最後に、重要な課題を特定し、研究者に今後の方向性に関するガイドラインを提供する。

The widespread adoption of Machine Learning systems, especially in more decision-critical applications such as criminal sentencing and bank loans, has led to increased concerns about fairness implications. Algorithms and metrics have been developed to mitigate and measure these discriminations. More recently, works have identified a more challenging form of bias called intersectional bias, which encompasses multiple sensitive attributes, such as race and gender, together. In this survey, we review the state-of-the-art in intersectional fairness. We present a taxonomy for intersectional notions of fairness and mitigation. Finally, we identify the key challenges and provide researchers with guidelines for future directions.
翻訳日:2023-05-16 11:05:58 公開日:2023-05-12
# 深回帰におけるエラーイン変数モデルのアレエータ的不確かさ

Aleatoric uncertainty for Errors-in-Variables models in deep regression ( http://arxiv.org/abs/2105.09095v3 )

ライセンス: Link先を確認
J\"org Martin and Clemens Elster(参考訳) ディープラーニングのベイズ処理は、ディープニューラルネットワークの予測に関連する不確実性の計算を可能にする。 本稿では,ベイズ深回帰法において,ニューラルネットワークの入力に関する不確実性を説明するために,エラーイン変数の概念をどのように利用するかを示す。 提案されたアプローチは、関連するが概して見落とされ、不確実性の源となり、予測的不確実性の分解を、より完全で、多くの場合、統計的な観点からより一貫したアレタリックな部分へと導く。 本稿では,様々なシミュレーションおよび実例について考察し,エラーイン変数モデルを用いることで,モデルの予測性能を維持しつつ不確実性が高まることを観察する。 既知の回帰関数の例では、この基底的真理が変数内誤差モデルによってかなり良くカバーされていることを観測し、提案手法がより信頼性の高い不確実性推定につながることを示唆する。

A Bayesian treatment of deep learning allows for the computation of uncertainties associated with the predictions of deep neural networks. We show how the concept of Errors-in-Variables can be used in Bayesian deep regression to also account for the uncertainty associated with the input of the employed neural network. The presented approach thereby exploits a relevant, but generally overlooked, source of uncertainty and yields a decomposition of the predictive uncertainty into an aleatoric and epistemic part that is more complete and, in many cases, more consistent from a statistical perspective. We discuss the approach along various simulated and real examples and observe that using an Errors-in-Variables model leads to an increase in the uncertainty while preserving the prediction performance of models without Errors-in-Variables. For examples with known regression function we observe that this ground truth is substantially better covered by the Errors-in-Variables model, indicating that the presented approach leads to a more reliable uncertainty estimation.
翻訳日:2023-05-15 16:58:01 公開日:2023-05-12
# マルチモーダルロボット教育における把持型認識誘導のためのテキスト駆動オブジェクト余裕

Text-driven object affordance for guiding grasp-type recognition in multimodal robot teaching ( http://arxiv.org/abs/2103.00268v2 )

ライセンス: Link先を確認
Naoki Wake, Daichi Saito, Kazuhiro Sasabuchi, Hideki Koike, Katsushi Ikeuchi(参考訳) 本研究は,各物体の把握型に関する事前知識を提供するテキスト駆動型物体余裕が,ロボット教育における画像に基づく把握型認識に与える影響について検討する。 研究者たちは、物体が認識性能に与える影響を調べるために、個人手画像のラベル付きデータセットを作成しました。 視覚的対象情報に制限のある混合現実的教示条件を考慮し,実物と実物を用いたシナリオの評価を行った。 その結果,被写体に対する認識精度が向上し,被写体認識の精度が向上した。 個々の対象に対する特定の把握型に対してより強いバイアスがあったとき、オブジェクトアフォーアンスの有効性はより顕著であった。 これらの知見は,画像に実物が存在するか否かに関わらず,マルチモーダルロボット教育におけるオブジェクト許容度の重要性を浮き彫りにした。 サンプルコードはhttps://github.com/microsoft/arr-grasp-type-recognitionで入手できる。

This study investigates how text-driven object affordance, which provides prior knowledge about grasp types for each object, affects image-based grasp-type recognition in robot teaching. The researchers created labeled datasets of first-person hand images to examine the impact of object affordance on recognition performance. They evaluated scenarios with real and illusory objects, considering mixed reality teaching conditions where visual object information may be limited. The results demonstrate that object affordance improves image-based recognition by filtering out unlikely grasp types and emphasizing likely ones. The effectiveness of object affordance was more pronounced when there was a stronger bias towards specific grasp types for each object. These findings highlight the significance of object affordance in multimodal robot teaching, regardless of whether real objects are present in the images. Sample code is available on https://github.com/microsoft/arr-grasp-type-recognition.
翻訳日:2023-05-15 16:57:28 公開日:2023-05-12
# 不確実性の異なる影響:肯定的行動と肯定的情報

The Disparate Impact of Uncertainty: Affirmative Action vs. Affirmative Information ( http://arxiv.org/abs/2102.10019v3 )

ライセンス: Link先を確認
Claire Lazar Reich(参考訳) ローン承認、医療介入、大学入学などの決定は、不確実性の存在下での予測によって導かれる。 本稿では,不確実性が異なる影響があることを証明する。 平均的な結果の高いグループは通常、偽陽性率が高いグループに割り当てられるが、平均的な結果の低いグループは、偽陰性率が高いグループに割り当てられる。 付加的なデータ取得は、格差を排除し、機会へのアクセスを拡大できることを示す。 私たちがAffirmative Informationと呼ぶこの戦略は、Affirmative Actionの代替となるかもしれません。

Critical decisions like loan approvals, medical interventions, and college admissions are guided by predictions made in the presence of uncertainty. In this paper, we prove that uncertainty has a disparate impact. While it imparts errors across all demographic groups, the types of errors vary systematically: Groups with higher average outcomes are typically assigned higher false positive rates, while those with lower average outcomes are assigned higher false negative rates. We show that additional data acquisition can eliminate the disparity and broaden access to opportunity. The strategy, which we call Affirmative Information, could stand as an alternative to Affirmative Action.
翻訳日:2023-05-15 16:57:10 公開日:2023-05-12
# 3次元タルボットトワイザー格子における単一原子キュービットアレーのスケーラブルな多層構造

Scalable multilayer architecture of assembled single-atom qubit arrays in a three-dimensional Talbot tweezer lattice ( http://arxiv.org/abs/1902.05424v6 )

ライセンス: Link先を確認
Malte Schlosser, Sascha Tichelmann, Dominik Sch\"affner, Daniel Ohl de Mello, Moritz Hambach, Jan Sch\"utz, Gerhard Birkl(参考訳) 本稿では,2次元ツイーザーアレイを3次元に拡張したマイクロレンズ生成Talbot tweezer格子による平面配列の大規模3次元多層構成を実現するための新しいプラットフォームの実現について報告する。 本稿では,整数および分数タルボット平面におけるルビジウム原子のトラップおよびイメージングと,異なる層における欠陥のない原子配列の組み立てについて述べる。 マイクロレンズアレイに対するタルボット自己イメージング効果は、3次元原子配列を有効スケーリング特性で実現するための構造的に堅牢で波長ユニバーサルな方法を構成する。 2D層当たり750 qubitサイト以上を持つこれらのスケーリング特性は、現在の実装ですでに10000 qubitサイトが3Dでアクセス可能であることを示唆している。 トラップトポロジと機能は、マイクロメートル単位で設定可能である。 これを動的位置制御とスピン状態の並列化サブラティスアドレスを持つインターリーブ格子を生成し、量子科学と技術に直ちに応用する。

We report on the realization of a novel platform for the creation of large-scale 3D multilayer configurations of planar arrays of individual neutral-atom qubits: a microlens-generated Talbot tweezer lattice that extends 2D tweezer arrays to the third dimension at no additional costs. We demonstrate the trapping and imaging of rubidium atoms in integer and fractional Talbot planes and the assembly of defect-free atom arrays in different layers. The Talbot self-imaging effect for microlens arrays constitutes a structurally robust and wavelength-universal method for the realization of 3D atom arrays with beneficial scaling properties. With more than 750 qubit sites per 2D layer, these scaling properties imply that 10000 qubit sites are already accessible in 3D in our current implementation. The trap topology and functionality are configurable in the micrometer regime. We use this to generate interleaved lattices with dynamic position control and parallelized sublattice addressing of spin states for immediate application in quantum science and technology.
翻訳日:2023-05-15 16:57:02 公開日:2023-05-12
# リニアリカレントニューラルネットワークのパワー

The Power of Linear Recurrent Neural Networks ( http://arxiv.org/abs/1802.03308v7 )

ライセンス: Link先を確認
Frieder Stolzenburg, Sandra Litz, Olivia Michael, Oliver Obst(参考訳) リカレントニューラルネットワークは、時系列に対処する強力な手段である。 自己回帰線形、すなわち線形活性化リカレントニューラルネットワーク(LRNN)が、関数値によって与えられる任意の時間依存関数 f(t) をいかに近似するかを示す。 近似は線形方程式系を解くだけで効果的に学習でき、バックプロパゲーションや類似の手法は不要である。 さらに、これはおそらくこの記事の主な貢献であり、lrnnのサイズは、ネットワーク遷移行列のスペクトル、すなわち固有値を調べることによって、最も関連する成分のみを取り込むことによって、1ステップで大幅に削減することができる。 したがって、他のアプローチとは対照的に、ネットワークの重みだけでなく、ネットワークアーキテクチャも学習します。 lrnnには興味深い特性があり、長期的には楕円軌道となり、さらなる値や関数のコンパクト表現の予測を可能にする。 実験では,複数重畳発振器(MSO),ロボットサッカー,株価予測などによってこれを実証した。 LRNNは、最小限のユニット数でMSOタスクのこれまでの最先端を上回ります。

Recurrent neural networks are a powerful means to cope with time series. We show how autoregressive linear, i.e., linearly activated recurrent neural networks (LRNNs) can approximate any time-dependent function f(t) given by a number of function values. The approximation can effectively be learned by simply solving a linear equation system; no backpropagation or similar methods are needed. Furthermore, and this is probably the main contribution of this article, the size of an LRNN can be reduced significantly in one step after inspecting the spectrum of the network transition matrix, i.e., its eigenvalues, by taking only the most relevant components. Therefore, in contrast to other approaches, we do not only learn network weights but also the network architecture. LRNNs have interesting properties: They end up in ellipse trajectories in the long run and allow the prediction of further values and compact representations of functions. We demonstrate this by several experiments, among them multiple superimposed oscillators (MSO), robotic soccer, and predicting stock prices. LRNNs outperform the previous state-of-the-art for the MSO task with a minimal number of units.
翻訳日:2023-05-15 16:56:44 公開日:2023-05-12
# 量子力学特異高調波発振器について

On the quantum-mechanical singular harmonic oscillator ( http://arxiv.org/abs/2112.03693v2 )

ライセンス: Link先を確認
Francisco M. Fern\'andez(参考訳) 単調振動子 $V(x)=\alpha/(2x^2)+x^2/2$ の固有値と固有関数は、単純かつ簡単なフロベニウス(パワー列)法を用いて得られる。 原点における固有関数の挙動から、負値$\alpha$ の固有値の2つの分岐を導出する。 我々は、エネルギーの離散的な値にのみ二乗可積分解が存在するというよく知られた事実について論じる。

We obtain the eigenvalues and eigenfunctions of the singular harmonic oscillator $V(x)=\alpha/(2x^2)+x^2/2$ by means of the simple and straightforward Frobenius (power-series) method. From the behaviour of the eigenfunctions at origin we derive two branches for the eigenvalues for negative values of $\alpha$. We discuss the well known fact that there are square-integrable solutions only for some allowed discrete values of the energy.
翻訳日:2023-05-15 16:53:00 公開日:2023-05-12
# 量子ロック: 証明可能な量子通信の利点

Quantum Lock: A Provable Quantum Communication Advantage ( http://arxiv.org/abs/2110.09469v4 )

ライセンス: Link先を確認
Kaushik Chakraborty, Mina Doosti, Yao Ma, Chirag Wadhwa, Myrto Arapinis and Elham Kashefi(参考訳) 物理的非拘束機能(PUF)は、固有の物理的ランダム性を利用して、物理的な実体にユニークな指紋を提供する。 Gao氏らは、マシンラーニングベースの高度な攻撃に対する現在のPUFの脆弱性について論じた。 従来のPUFと既存の量子通信技術を統合することでこの問題に対処する。 具体的には、従来のPUFの安全性を確保するための実用的なソリューションとして、Hybrid lock PUFs(HLPUFs)と呼ばれる、証明可能なセキュアなPUFの汎用設計を提案する。 HLPUFは古典的なPUF(CPUF)を使用し、出力を非直交量子状態に符号化し、基盤となるCPUFの結果を敵から隠蔽する。 ここでは、HLPUFを一般の敵から守るための量子ロックを導入する。 非直交量子状態の識別不可能性は、量子ロックダウン技術とともに、敵がCPUFの結果にアクセスするのを防ぐ。 さらに, 量子状態の非古典的性質を利用することで, hlpufはサーバがさらなるクライアント認証のためにチャレンジ応答ペアを再利用できることを示す。 これにより、PUFベースのクライアント認証を長期にわたって実行し、サーバ側で小規模のチャレンジレスポンスペアデータベースを維持しながら、効率的なソリューションを提供する。 その後、実世界のCPUFを用いてHLPUFの設計をインスタンス化することで、理論的貢献を支援する。 最適な古典的機械学習攻撃を用いてcpufsとhlpufsの両方を鍛造し,実装可能な構築のための数値シミュレーションにおけるセキュリティギャップを検証した。

Physical unclonable functions(PUFs) provide a unique fingerprint to a physical entity by exploiting the inherent physical randomness. Gao et al. discussed the vulnerability of most current-day PUFs to sophisticated machine learning-based attacks. We address this problem by integrating classical PUFs and existing quantum communication technology. Specifically, this paper proposes a generic design of provably secure PUFs, called hybrid locked PUFs(HLPUFs), providing a practical solution for securing classical PUFs. An HLPUF uses a classical PUF(CPUF), and encodes the output into non-orthogonal quantum states to hide the outcomes of the underlying CPUF from any adversary. Here we introduce a quantum lock to protect the HLPUFs from any general adversaries. The indistinguishability property of the non-orthogonal quantum states, together with the quantum lockdown technique prevents the adversary from accessing the outcome of the CPUFs. Moreover, we show that by exploiting non-classical properties of quantum states, the HLPUF allows the server to reuse the challenge-response pairs for further client authentication. This result provides an efficient solution for running PUF-based client authentication for an extended period while maintaining a small-sized challenge-response pairs database on the server side. Later, we support our theoretical contributions by instantiating the HLPUFs design using accessible real-world CPUFs. We use the optimal classical machine-learning attacks to forge both the CPUFs and HLPUFs, and we certify the security gap in our numerical simulation for construction which is ready for implementation.
翻訳日:2023-05-15 16:52:53 公開日:2023-05-12
# 超広角高忠実ホログラフィディスプレイのためのニューラル \'{E}tendue Expander

Neural \'{E}tendue Expander for Ultra-Wide-Angle High-Fidelity Holographic Display ( http://arxiv.org/abs/2109.08123v2 )

ライセンス: Link先を確認
Ethan Tseng, Seung-Hwan Baek, Grace Kuo, Nathan Matsuda, Andrew Maimone, Praneeth Chakravarthula, Qiang Fu, Wolfgang Heidrich, Douglas Lanman, and Felix Heide(参考訳) ホログラフィックディスプレイは、空間光変調器を用いて光のコヒーレントビームの波面を動的に変調することで光場を生成することができる。 しかし、既存の動的空間光変調器の空間分解能は、回折角に強い拘束力を与える。 結果として、現代のホログラフィックディスプレイは、表示領域の積であり、回折光の最大固体角である低い \'{e}tendue を有する。 低い \'{e}tendue は視野(fov)または表示サイズのいずれかの犠牲を強いる。 本研究では,neural \'{e}tendue expanderを提示することで,この制限を解消する。 自然画像データセットから学習されたこの新しい光学素子は、コンパクトなフォームファクターと表示されたコンテンツの忠実さを維持しながら、超広帯域のFOVに対して高い回折角を可能にする。 neural \'{e}tendue expandersでは、網膜解像度画像上で29db以上の再構成品質(psnrで測定)を持つ自然画像の64$\times$ \'{e}tendue展開を達成する。 その結果、64$\times$による拡張係数のアプローチにより、8KピクセルのSLMを用いた自然画像の高忠実な超広角ホログラム投影が可能となり、結果として126$^\circ$ FOVと18.5mmのアイボックスサイズとなり、人間のFOVの85%以上をカバーしている。

Holographic displays can generate light fields by dynamically modulating the wavefront of a coherent beam of light using a spatial light modulator, promising rich virtual and augmented reality applications. However, the limited spatial resolution of existing dynamic spatial light modulators imposes a tight bound on the diffraction angle. As a result, modern holographic displays possess low \'{e}tendue, which is the product of the display area and the maximum solid angle of diffracted light. The low \'{e}tendue forces a sacrifice of either the field of view (FOV) or the display size. In this work, we lift this limitation by presenting neural \'{e}tendue expanders. This new breed of optical elements, which is learned from a natural image dataset, enables higher diffraction angles for ultra-wide FOV while maintaining both a compact form factor and the fidelity of displayed contents to human viewers. With neural \'{e}tendue expanders, we achieve 64$\times$ \'{e}tendue expansion of natural images with reconstruction quality (measured in PSNR) over 29 dB on retinal-resolution images. As a result, the proposed approach with expansion factor 64$\times$ enables high-fidelity ultra-wide-angle holographic projection of natural images using an 8K-pixel SLM, resulting in 126$^\circ$ FOV and an 18.5 mm eyebox size, covering more than 85% of the human FOV.
翻訳日:2023-05-15 16:52:20 公開日:2023-05-12
# 量子ハミルトンシミュレーションベンチマーク

A quantum hamiltonian simulation benchmark ( http://arxiv.org/abs/2108.03747v2 )

ライセンス: Link先を確認
Yulong Dong, K. Birgitta Whaley, Lin Lin(参考訳) ハミルトンシミュレーションは量子計算において最も重要な問題の1つであり、量子特異値変換(qsvt)はハミルトンの一般クラスをシミュレートする効率的な方法である。 しかし、QSVT回路は通常、複数のアンシラ量子ビットとマルチキュービット制御ゲートを含む。 n$-qubitのランダムなハミルトニアンのクラスをシミュレートするために、我々は極小のqsvt回路と呼ばれる単純化された量子回路を提案し、これは1つのアンシラ量子ビットとマルチ量子ビット制御ゲートのみを使用する。 量子ユニタリ進化スコア(quantum Unitary Evolution score, QUES)は、スケーラブルな量子ベンチマークであり、古典計算を必要とせずに検証できる。 グローバル非分極ノイズモデルでは、quesは回路の忠実性や関連する量子回路サンプリング問題の古典的硬さに直接関係していることが示されている。 同じ仮定の下で、理論解析は「最適」シミュレーション時間 $t^{\text{opt}}\approx 4.81$ が存在することを示唆している。

Hamiltonian simulation is one of the most important problems in quantum computation, and quantum singular value transformation (QSVT) is an efficient way to simulate a general class of Hamiltonians. However, the QSVT circuit typically involves multiple ancilla qubits and multi-qubit control gates. In order to simulate a certain class of $n$-qubit random Hamiltonians, we propose a drastically simplified quantum circuit that we refer to as the minimal QSVT circuit, which uses only one ancilla qubit and no multi-qubit controlled gates. We formulate a simple metric called the quantum unitary evolution score (QUES), which is a scalable quantum benchmark and can be verified without any need for classical computation. Under the globally depolarized noise model, we demonstrate that QUES is directly related to the circuit fidelity, and the potential classical hardness of an associated quantum circuit sampling problem. Under the same assumption, theoretical analysis suggests there exists an `optimal' simulation time $t^{\text{opt}}\approx 4.81$, at which even a noisy quantum device may be sufficient to demonstrate the potential classical hardness.
翻訳日:2023-05-15 16:51:31 公開日:2023-05-12
# 一方向古典的および量子的通信複雑性に関する考察

On relating one-way classical and quantum communication complexities ( http://arxiv.org/abs/2107.11623v5 )

ライセンス: Link先を確認
Naresh Goud Boddu, Rahul Jain and Han-Hsuan Lin(参考訳) コミュニケーションの複雑さは、関数入力が複数のパーティに分散されたときに関数を計算するのに必要な通信量である。 最も単純な形式では、Alice と Bob は関数 $f(x,y)$ を計算し、Alice は$x$ を、Bob は$y$ を与えられ、Alice から Bob へのメッセージは 1 つしか許されない。 量子情報における基本的な問題は、一方通行の量子と古典的通信の複雑さの関係である。つまり、アリスがビット文字列ではなく量子状態を送信する場合、メッセージの長さはどのくらい短くなるのか? この質問に対して、下記の結果で若干の進展がある。 f: \mathcal{x} \times \mathcal{y} \rightarrow \mathcal{z} \cup \{\bot\}$ を部分関数とし、$\mu$ は$f^{-1}(\mathcal{z})$ に含まれるサポートを持つ分布とする。 d=|\mathcal{z}|$ と書く。 $\mathsf{R}^{1,\mu}_\epsilon(f)$を$f$の古典的一方向通信複雑性、$\mathsf{Q}^{1,\mu}_\epsilon(f)$を$f$の量子一方向通信複雑性、$\mathsf{Q}^{1,\mu, *}_\epsilon(f)$を$fのエンタングルメント支援量子一方向通信複雑性、それぞれが$\epsilon$の分布誤差(平均誤差は$\mu$)を持つ。 1)$\mu$ が積分布であれば、$\eta > 0$ と $0 \leq \epsilon \leq 1-1/d$ であるなら、$$\mathsf{R}^{1,\mu}_{2\epsilon -d\epsilon^2/(d-1)+ \eta}(f) \leq 2\mathsf{Q}^{1,\mu, *}_{\epsilon}(f) + O(\log\log (1/\eta))\enspace である。 $$ 2 if $\mu$ is a non-product distribution and $\mathcal{Z}=\{ 0,1\}$, $\forall \epsilon, \eta > 0$ {\displaystyle $\epsilon/\eta + \eta < 0.5$, $$\mathsf{R}^{1,\mu}_{3\eta}(f) = O(\mathsf{Q}^{1,\mu}_{{\epsilon}}(f) \cdot \mathsf{CS}(f)/\eta^3)\enspace,$$} ここで \[\mathsf{CS}(f) = \max_{y} \min_{z\in \vert{0,\in \vert{0,\end{x~x\y}=\vert \vert{z} \vert \vert{z} となる。 \]

Communication complexity is the amount of communication needed to compute a function when the function inputs are distributed over multiple parties. In its simplest form, one-way communication complexity, Alice and Bob compute a function $f(x,y)$, where $x$ is given to Alice and $y$ is given to Bob, and only one message from Alice to Bob is allowed. A fundamental question in quantum information is the relationship between one-way quantum and classical communication complexities, i.e., how much shorter the message can be if Alice is sending a quantum state instead of bit strings? We make some progress towards this question with the following results. Let $f: \mathcal{X} \times \mathcal{Y} \rightarrow \mathcal{Z} \cup \{\bot\}$ be a partial function and $\mu$ be a distribution with support contained in $f^{-1}(\mathcal{Z})$. Denote $d=|\mathcal{Z}|$. Let $\mathsf{R}^{1,\mu}_\epsilon(f)$ be the classical one-way communication complexity of $f$; $\mathsf{Q}^{1,\mu}_\epsilon(f)$ be the quantum one-way communication complexity of $f$ and $\mathsf{Q}^{1,\mu, *}_\epsilon(f)$ be the entanglement-assisted quantum one-way communication complexity of $f$, each with distributional error (average error over $\mu$) at most $\epsilon$. We show: 1) If $\mu$ is a product distribution, $\eta > 0$ and $0 \leq \epsilon \leq 1-1/d$, then, $$\mathsf{R}^{1,\mu}_{2\epsilon -d\epsilon^2/(d-1)+ \eta}(f) \leq 2\mathsf{Q}^{1,\mu, *}_{\epsilon}(f) + O(\log\log (1/\eta))\enspace.$$ 2)If $\mu$ is a non-product distribution and $\mathcal{Z}=\{ 0,1\}$, then $\forall \epsilon, \eta > 0$ such that $\epsilon/\eta + \eta < 0.5$, $$\mathsf{R}^{1,\mu}_{3\eta}(f) = O(\mathsf{Q}^{1,\mu}_{{\epsilon}}(f) \cdot \mathsf{CS}(f)/\eta^3)\enspace,$$ where \[\mathsf{CS}(f) = \max_{y} \min_{z\in\{0,1\}} \vert \{x~|~f(x,y)=z\} \vert \enspace.\]
翻訳日:2023-05-15 16:51:10 公開日:2023-05-12
# スケーラブル顔画像検索のための正規化製品量子化ネットワーク

Orthonormal Product Quantization Network for Scalable Face Image Retrieval ( http://arxiv.org/abs/2107.00327v4 )

ライセンス: Link先を確認
Ming Zhang, Xuefei Zhe, Hong Yan(参考訳) 既存の深部量子化手法は大規模画像検索の効率的な解法となった。 しかし、ポーズ、照明、表情などのクラス内の重要なバリエーションは、依然として顔画像の検索に挑戦している。 これを踏まえて、顔画像検索は、現在の深層量子化作業に欠けている十分な強力な学習指標を必要とする。 さらに,検索段階における未知のアイデンティティの増大に対処するために,顔画像検索は,一般的な画像検索タスクよりも,モデル一般化やシステムのスケーラビリティに対する要求が高まる。 本稿では,製品量子化と正規直交制約とをエンドツーエンドのディープラーニングフレームワークに統合し,効果的に顔画像を取り出す。 具体的には,事前定義された正規直交ベクトルを符号語として用いる新しいスキームを提案し,量子化情報性を高め,符号語の冗長性を低減する。 追尾損失関数は、量子化部分空間における各量子化部分空間の識別性を、量子化と元の両方の特徴に対して最大化する。 量子化誤差を低減するためにエントロピーベースの正則化項が課される。 4つの顔データセットに対して、目視と目視の両方で実験を行う。 提案手法は,両設定で比較した深部ハッシュ/量子化状態よりも優れる。 提案した正規正規コードワードの有効性は,モデルの標準検索性能と一般化能力の向上に有効である。 2つの一般的な画像データセットに関するさらなる実験を組み合わせることで,スケーラブルな画像検索手法の広範な優位性を実証する。

Existing deep quantization methods provided an efficient solution for large-scale image retrieval. However, the significant intra-class variations like pose, illumination, and expressions in face images, still pose a challenge for face image retrieval. In light of this, face image retrieval requires sufficiently powerful learning metrics, which are absent in current deep quantization works. Moreover, to tackle the growing unseen identities in the query stage, face image retrieval drives more demands regarding model generalization and system scalability than general image retrieval tasks. This paper integrates product quantization with orthonormal constraints into an end-to-end deep learning framework to effectively retrieve face images. Specifically, a novel scheme that uses predefined orthonormal vectors as codewords is proposed to enhance the quantization informativeness and reduce codewords' redundancy. A tailored loss function maximizes discriminability among identities in each quantization subspace for both the quantized and original features. An entropy-based regularization term is imposed to reduce the quantization error. Experiments are conducted on four commonly-used face datasets under both seen and unseen identities retrieval settings. Our method outperforms all the compared deep hashing/quantization state-of-the-arts under both settings. Results validate the effectiveness of the proposed orthonormal codewords in improving models' standard retrieval performance and generalization ability. Combing with further experiments on two general image datasets, it demonstrates the broad superiority of our method for scalable image retrieval.
翻訳日:2023-05-15 16:49:27 公開日:2023-05-12
# 無訓練DARTにおける接続感性項目:アーキテクチャレベルスコーリングから運用レベル感度分析へ

Connection Sensitivity Matters for Training-free DARTS: From Architecture-Level Scoring to Operation-Level Sensitivity Analysis ( http://arxiv.org/abs/2106.11542v4 )

ライセンス: Link先を確認
Miao Zhang, Wei Huang, Li Wang(参考訳) 最近提案されたトレーニングフリーnas法は、トレーニングフェーズを放棄し、優れたアーキテクチャを特定するためのスコアとして様々なゼロコストプロキシを設計し、ニューラルネットワークの検索に極端な計算効率をもたらす。 本稿では, DARTSにおける操作重要度を, パラメータ集中バイアスを回避して, トレーニング不要な方法で適切に測定できるか, という問題を提起する。 本稿では、エッジ接続のレンズを用いてこの問題を調査し、接続概念であるZERoコスト操作感性(ZEROS)を定義し、初期化時のDARTSにおける候補操作の重要性を評価することにより、肯定的な回答を提供する。 NASのためにZEROSを利用するための反復的かつデータに依存しない手法を考案することにより、我々の新しい試行は自由微分アーキテクチャサーチ(FreeDARTS)と呼ばれるフレームワークに繋がる。 ニューラル・タンジェント・カーネル(ntk)の理論に基づき,勾配降下訓練における収束後のダーツ・スーパーネットの一般化限界と負の相関関係を示した。 さらに、ZEROSがアーキテクチャ選択においてパラメータ集約バイアスを暗黙的に回避する方法を理論的に説明し、FreeDARTSによる探索アーキテクチャが同等の大きさであることを示す。 一連の探索空間で大規模な実験が行われ、その結果、FreeDARTSはニューラルネットワーク探索の信頼性と効率的なベースラインであることが示されている。

The recently proposed training-free NAS methods abandon the training phase and design various zero-cost proxies as scores to identify excellent architectures, arousing extreme computational efficiency for neural architecture search. In this paper, we raise an interesting problem: can we properly measure the operation importance in DARTS through a training-free way, with avoiding the parameter-intensive bias? We investigate this question through the lens of edge connectivity, and provide an affirmative answer by defining a connectivity concept, ZERo-cost Operation Sensitivity (ZEROS), to score the importance of candidate operations in DARTS at initialization. By devising an iterative and data-agnostic manner in utilizing ZEROS for NAS, our novel trial leads to a framework called training free differentiable architecture search (FreeDARTS). Based on the theory of Neural Tangent Kernel (NTK), we show the proposed connectivity score provably negatively correlated with the generalization bound of DARTS supernet after convergence under gradient descent training. In addition, we theoretically explain how ZEROS implicitly avoids parameter-intensive bias in selecting architectures, and empirically show the searched architectures by FreeDARTS are of comparable size. Extensive experiments have been conducted on a series of search spaces, and results have demonstrated that FreeDARTS is a reliable and efficient baseline for neural architecture search.
翻訳日:2023-05-15 16:49:07 公開日:2023-05-12
# 無限不均衡下における線形分類器

Linear Classifiers Under Infinite Imbalance ( http://arxiv.org/abs/2106.05797v2 )

ライセンス: Link先を確認
Paul Glasserman, Mike Li(参考訳) 無限不均衡極限における二項分類における線形判別関数の挙動について検討し,一方のクラスのサンプルサイズは拘束されずに増大し,他方のサンプルサイズは固定されたままである。 分類器の係数は、重み関数によって指定された経験損失を最小限にする。 広いクラスの重み関数に対して、インターセプトは分岐するが、係数ベクトルの残りの部分は無限の不均衡の下でほぼ確実に有限の極限を持ち、ロジスティック回帰に関する先行研究を延長することを示す。 この限界は、重み関数の左尾成長速度に依存するが、これは部分指数と指数の2つのケースを区別する。 制限係数ベクトルは、ある最悪の選択肢に対して最適化されるという意味で、ロバスト性や保守性を反映する。 部分指数の場合、この極限は少数類に対するアップサンプリング分布の暗黙の選択と等価である。 我々はこれらのアイデアを信用リスク設定に適用し、特に高感度および高特異性領域のパフォーマンスに重点を置いている。

We study the behavior of linear discriminant functions for binary classification in the infinite-imbalance limit, where the sample size of one class grows without bound while the sample size of the other remains fixed. The coefficients of the classifier minimize an empirical loss specified through a weight function. We show that for a broad class of weight functions, the intercept diverges but the rest of the coefficient vector has a finite almost sure limit under infinite imbalance, extending prior work on logistic regression. The limit depends on the left-tail growth rate of the weight function, for which we distinguish two cases: subexponential and exponential. The limiting coefficient vectors reflect robustness or conservatism properties in the sense that they optimize against certain worst-case alternatives. In the subexponential case, the limit is equivalent to an implicit choice of upsampling distribution for the minority class. We apply these ideas in a credit risk setting, with particular emphasis on performance in the high-sensitivity and high-specificity regions.
翻訳日:2023-05-15 16:48:40 公開日:2023-05-12
# ヒューリスティックな弱めの3D人物推定

Heuristic Weakly Supervised 3D Human Pose Estimation ( http://arxiv.org/abs/2105.10996v3 )

ライセンス: Link先を確認
Shuangjun Liu, Michael Wan, and Sarah Ostadabbas(参考訳) 近年,RGB画像からの単眼的3次元ポーズ推定が注目されている。 しかし、近年のモデルは、3Dポーズの真理データや、対象ドメインの既知のポーズ先行データによる教師付きトレーニングに依存している。 3Dポーズデータは一般的にモーションキャプチャ装置で収集され、適用性が著しく制限される。 本稿では、3Dポーズデータがない場合に3Dポーズを推定するために、ヒューリスティックな弱教師付き3Dヒューマンポーズ(HW-HuP)ソリューションを提案する。 HW-HuPは、3D人間のポーズデータセットから部分的なポーズ先行を学習し、ターゲットドメインから容易にアクセス可能な観察を使用して、最適化と回帰サイクルで3D人間のポーズと形状を推定する。 訓練中の弱い監督のために奥行きデータを用いるが、推論は行わない。 HW-HuPは,ヒトのベッドでのポーズと野生での幼児のポーズという,3次元のポーズデータが得られにくい2つの実践的な環境で,最先端のモデルにおいて有意義に改善されていることを示す。 さらに,HW-HuPは3次元ポーズデータでトレーニングした場合でも,公開ベンチマーク上での最先端モデルに匹敵する性能を保っていることを示す。

Monocular 3D human pose estimation from RGB images has attracted significant attention in recent years. However, recent models depend on supervised training with 3D pose ground truth data or known pose priors for their target domains. 3D pose data is typically collected with motion capture devices, severely limiting their applicability. In this paper, we present a heuristic weakly supervised 3D human pose (HW-HuP) solution to estimate 3D poses in when no ground truth 3D pose data is available. HW-HuP learns partial pose priors from 3D human pose datasets and uses easy-to-access observations from the target domain to estimate 3D human pose and shape in an optimization and regression cycle. We employ depth data for weak supervision during training, but not inference. We show that HW-HuP meaningfully improves upon state-of-the-art models in two practical settings where 3D pose data can hardly be obtained: human poses in bed, and infant poses in the wild. Furthermore, we show that HW-HuP retains comparable performance to cutting-edge models on public benchmarks, even when such models train on 3D pose data.
翻訳日:2023-05-15 16:48:26 公開日:2023-05-12
# マルチタスク学習によるエンジニアリングフリート間の知識伝達のための階層ベイズモデル

Hierarchical Bayesian Modelling for Knowledge Transfer Across Engineering Fleets via Multitask Learning ( http://arxiv.org/abs/2204.12404v4 )

ライセンス: Link先を確認
L.A. Bull, D. Di Francesco, M. Dhada, O. Steinert, T. Lindgren, A.K. Parlikad, A.B. Duncan, M. Girolami(参考訳) エンジニアリングインフラストラクチャーの予測モデルを構築する際に,データの分散性に対処する集団レベルの分析を提案する。 解釈可能な階層的ベイズ的アプローチと運用艦隊データを利用することで、ドメインの専門知識は異なるサブグループ間で自然に符号化され、適切に共有される。 (i) use-type (ii)コンポーネント、または (iii)手術条件 具体的には、ドメインの専門知識を利用して、仮定(および以前の分布)を通じてモデルを制約し、方法論が類似した資産間で情報を自動的に共有できるようにし、トラックの生存分析を改善し、風力発電所で電力予測を行う。 各資産管理の例では、関連する関数の集合が、組み合わせた推論で、船上で学習され、人口モデルが学習される。 階層の異なるレベルで相関情報を共有することでパラメータ推定が改善される。 逆に、不完全データを持つグループは、データ豊富なグループから統計的な強度を自動で借用する。 統計的相関はベイズ移動学習による知識伝達を可能にし、どの資産がどの効果(すなわちパラメータ)を持つかを知るために相関を検査することができる。 どちらのケーススタディも、異なる実例の解釈可能なフリートモデル間でのアプローチが自然に適応するため、実用的なインフラストラクチャモニタリングに適用可能であることを示している。

A population-level analysis is proposed to address data sparsity when building predictive models for engineering infrastructure. Utilising an interpretable hierarchical Bayesian approach and operational fleet data, domain expertise is naturally encoded (and appropriately shared) between different sub-groups, representing (i) use-type, (ii) component, or (iii) operating condition. Specifically, domain expertise is exploited to constrain the model via assumptions (and prior distributions) allowing the methodology to automatically share information between similar assets, improving the survival analysis of a truck fleet and power prediction in a wind farm. In each asset management example, a set of correlated functions is learnt over the fleet, in a combined inference, to learn a population model. Parameter estimation is improved when sub-fleets share correlated information at different levels of the hierarchy. In turn, groups with incomplete data automatically borrow statistical strength from those that are data-rich. The statistical correlations enable knowledge transfer via Bayesian transfer learning, and the correlations can be inspected to inform which assets share information for which effect (i.e. parameter). Both case studies demonstrate the wide applicability to practical infrastructure monitoring, since the approach is naturally adapted between interpretable fleet models of different in situ examples.
翻訳日:2023-05-15 16:42:59 公開日:2023-05-12
# 弾性・高能率視覚質問応答のための両側スリム化トランス

Bilaterally Slimmable Transformer for Elastic and Efficient Visual Question Answering ( http://arxiv.org/abs/2203.12814v2 )

ライセンス: Link先を確認
Zhou Yu, Zitian Jin, Jun Yu, Mingliang Xu, Hongbo Wang, Jianping Fan(参考訳) トランスフォーマーアーキテクチャの最近の進歩[1]は視覚的質問応答(VQA)に顕著な改善をもたらした。 それにもかかわらず、TransformerベースのVQAモデルは通常、優れたパフォーマンスを保証するために深く幅が広いため、強力なGPUサーバ上でのみ動作でき、携帯電話のような容量制限のあるプラットフォーム上では動作できない。 したがって、異なるプラットフォームの効率制約を満たすために、実行時に適応的なプルーニングをサポートする弾性VQAモデルを学習することが望ましい。 この目的のために、任意のTransformerベースのVQAモデルにシームレスに統合し、1つのモデルをトレーニングし、異なる幅と深さの様々なスリム化サブモデルを得ることのできる、両側スリム化可能なTransformer (BST) を提案する。 本手法の有効性と汎用性を検証するため,提案手法のBSTフレームワークを,MCAN [2], UNITER [3], CLIP-ViL [4] の3つの典型的なトランスフォーマーベースのVQAアプローチと統合し,2つの一般的なベンチマークデータセットに対して広範な実験を行う。 特に、1つのスリム化MCAN-BSTサブモデルはVQA-v2で同等の精度を達成し、モデルサイズは0.38倍小さく、参照MCANモデルよりも0.27倍小さいFLOPを持つ。 最小のMCAN-BSTサブモデルは、推論中に9Mパラメータと0.16GのFLOPしか持たないため、60ミリ秒未満のレイテンシでモバイルデバイスにデプロイできる。

Recent advances in Transformer architectures [1] have brought remarkable improvements to visual question answering (VQA). Nevertheless, Transformer-based VQA models are usually deep and wide to guarantee good performance, so they can only run on powerful GPU servers and cannot run on capacity-restricted platforms such as mobile phones. Therefore, it is desirable to learn an elastic VQA model that supports adaptive pruning at runtime to meet the efficiency constraints of different platforms. To this end, we present the bilaterally slimmable Transformer (BST), a general framework that can be seamlessly integrated into arbitrary Transformer-based VQA models to train a single model once and obtain various slimmed submodels of different widths and depths. To verify the effectiveness and generality of this method, we integrate the proposed BST framework with three typical Transformer-based VQA approaches, namely MCAN [2], UNITER [3], and CLIP-ViL [4], and conduct extensive experiments on two commonly-used benchmark datasets. In particular, one slimmed MCAN-BST submodel achieves comparable accuracy on VQA-v2, while being 0.38x smaller in model size and having 0.27x fewer FLOPs than the reference MCAN model. The smallest MCAN-BST submodel only has 9M parameters and 0.16G FLOPs during inference, making it possible to deploy it on a mobile device with less than 60 ms latency.
翻訳日:2023-05-15 16:42:30 公開日:2023-05-12
# Al-AlOx-Alコンデンサを用いた小型超伝導マイクロ波共振器

Compact superconducting microwave resonators based on Al-AlOx-Al capacitor ( http://arxiv.org/abs/2203.09592v2 )

ライセンス: Link先を確認
Julia Zotova, Rui Wang, Alexander Semenov, Yu Zhou, Ivan Khrapach, Akiyoshi Tomonaga, Oleg Astafiev and Jaw-Shen Tsai(参考訳) アルミニウム-酸化アルミニウム-アルミニウム-(\mathrm{Al/AlO_x/Al}$)パラレルプレートコンデンサの代替製法に基づくラム素子共振器を用いた超伝導量子回路のスケールアップ問題に対処する。 共振器のサイズは0.04〜$\mathrm{mm^2}$であり、これはコプラナー共振器の典型的なサイズ(1〜$$\mathrm{mm^2}$)よりも1桁小さい。 開発した製造法は, 標準的な超伝導量子ビット製造プロセスに容易に適合する。 14~ff/$\mathrm{\mu m^2}$と内部品質係数$\mathrm{1\times 10^3 - 8\times 10^3}$を単光子レベルで求めた。 その結果,$\mathrm{al/alo_x/al}$コンデンサに基づくデバイスは,共振器,フィルタ,増幅器,マイクロ波メタマテリアル,および0-\pi$ qubitなどの革新的なタイプの量子ビットの読み出し方式にもさらに適用できることがわかった。

We address the scaling-up problem for superconducting quantum circuits by using lumped-element resonators based on an alternative fabrication method of aluminum -- aluminum oxide -- aluminum ($\mathrm{Al/AlO_x/Al}$) parallel-plate capacitors. The size of the resonators is only 0.04~$\mathrm{mm^2}$, which is more than one order smaller than the typical size of coplanar resonators (1~$\mathrm{mm^2}$). The fabrication method we developed easily fits into the standard superconducting qubits fabrication process. We have obtained capacitance per area 14~fF/$\mathrm{\mu m^2}$ and the internal quality factor $\mathrm{1\times 10^3 - 8\times 10^3}$ at the single-photon level. Our results show that such devices based on $\mathrm{Al/AlO_x/Al}$ capacitors could be further applied to the qubit readout scheme, including resonators, filters, amplifiers, as well as microwave metamaterials and innovative types of qubits, such as $0-\pi$ qubit.
翻訳日:2023-05-15 16:42:01 公開日:2023-05-12
# 量子資源を含まない非最大エンタングルチャネルを用いた非古典的決定論的遠隔状態生成

Nontraditional Deterministic Remote State Preparation Using a Non-Maximally Entangled Channel without Additional Quantum Resources ( http://arxiv.org/abs/2203.08474v3 )

ライセンス: Link先を確認
Xuanxuan Xin and Yongxing Li and Shiwen He and Chong Li(参考訳) 本稿では、確率的量子通信プロトコルを再検討し、非最大エンタングルチャネルを用いて、量子状態に符号化された情報を決定的に転送する非伝統的な遠隔状態準備プロトコルを開発した。 補助粒子及び簡易な測定方法により、絡み合い浄化等の量子チャネルを改善するために、追加の量子リソースを使わずにd次元量子状態を作成する成功確率を1に増加させる。 さらに,偏光符号化された光子を一般化された絡み合い状態を用いてある位置から別の場所に輸送する決定論的パラダイムを実証するために,実現可能な実験手法を考案した。 このアプローチは、実際の量子通信におけるデコヒーレンスと環境ノイズに対処する実用的な方法を提供する。

In this paper, we have reinvestigated probabilistic quantum communication protocols and developed a nontraditional remote state preparation protocol that allows for deterministically transferring information encoded in quantum states using a non-maximally entangled channel. With an auxiliary particle and a simple measurement method, the success probability of preparing a d-dimensional quantum state is increased to 1 without spending additional quantum resources in advance to improve quantum channels, such as entanglement purification. Furthermore, we have designed a feasible experimental scheme to demonstrate the deterministic paradigm of transporting a polarization-encoded photon from one location to another using a generalized entangled state. This approach provides a practical method to address decoherence and environmental noises in actual quantum communication.
翻訳日:2023-05-15 16:41:39 公開日:2023-05-12
# BoMD: ノイズの多い胸部X線分類のためのマルチラベルディスクリプタのバグ

BoMD: Bag of Multi-label Descriptors for Noisy Chest X-ray Classification ( http://arxiv.org/abs/2203.01937v3 )

ライセンス: Link先を確認
Yuanhong Chen, Fengbei Liu, Hu Wang, Chong Wang, Yu Tian, Yuyuan Liu, Gustavo Carneiro(参考訳) 深層学習法は、医用画像問題において顕著な分類精度を示しており、これは主に、クリーンラベルを手動でアノテートした大規模なデータセットが利用可能であることに起因する。 しかし, 手動注記のコストが高いことから, 新たな医用画像分類問題は, 放射線報告書から抽出された機械生成雑音ラベルに依存する必要があると考えられる。 実際、多くのチェストX線分類器(CXR)はすでにノイズラベルを持つデータセットからモデル化されているが、その訓練手順は一般にノイズラベルサンプルに対して堅牢ではないため、準最適モデルにつながる。 さらに、CXRデータセットは主にマルチラベルであるため、現在のマルチクラス問題用に設計されたノイズラベル学習手法は容易に適応できない。 本稿では,データセットからサンプルを検出・スムースにラベル付けし,一般的なマルチラベル分類器の訓練に使用する,ノイズの多いマルチラベルcxr学習のための新しい手法を提案する。 提案手法は,マルチラベル画像アノテーションからBERTモデルによって生成された意味記述子と類似性を促進するために,複数ラベル記述子の袋を最適化する。 ノイズの多いマルチラベルトレーニングセットとクリーンなテストセットに関する実験では、多くのcxrマルチラベル分類ベンチマークにおいて、最先端の精度と堅牢性が得られた。

Deep learning methods have shown outstanding classification accuracy in medical imaging problems, which is largely attributed to the availability of large-scale datasets manually annotated with clean labels. However, given the high cost of such manual annotation, new medical imaging classification problems may need to rely on machine-generated noisy labels extracted from radiology reports. Indeed, many Chest X-ray (CXR) classifiers have already been modelled from datasets with noisy labels, but their training procedure is in general not robust to noisy-label samples, leading to sub-optimal models. Furthermore, CXR datasets are mostly multi-label, so current noisy-label learning methods designed for multi-class problems cannot be easily adapted. In this paper, we propose a new method designed for the noisy multi-label CXR learning, which detects and smoothly re-labels samples from the dataset, which is then used to train common multi-label classifiers. The proposed method optimises a bag of multi-label descriptors (BoMD) to promote their similarity with the semantic descriptors produced by BERT models from the multi-label image annotation. Our experiments on diverse noisy multi-label training sets and clean testing sets show that our model has state-of-the-art accuracy and robustness in many CXR multi-label classification benchmarks.
翻訳日:2023-05-15 16:41:24 公開日:2023-05-12
# グラフ上での情報伝達モデル

Models for information propagation on graphs ( http://arxiv.org/abs/2201.07577v3 )

ライセンス: Link先を確認
Oliver R. A. Dunbar, Charles M. Elliott and Lisa Maria Kreusser(参考訳) 本稿では,グラフ上の情報伝達のための異なるモデルのクラスを提案し,統一する。 第1のクラスでは、情報波フロントの到着時刻によって決定された順序で、最初の時点で既知のノードの集合から後で他のすべての未知のノードへと伝播する波としてモデル化される。 モデルの第2のクラスは、ノード間の経路に沿った移動時間の概念に基づいている。 初期既知のノードからノードへの情報伝達時間は、全ての許容パスのサブセットに対する一般化された旅行時間の最小値として定義される。 最終クラスは、既知のノードの境界条件を持つ未知の各ノードに固有形式の局所方程式を付与することによって与えられる。 ノードの局所方程式の解値は、隣接するノードの解値よりも低い値と結合される。 モデルクラスの正確な定式化を提供し、それらの間の等価性を証明する。 連続体設定における第一到達時間モデルと固有方程式の関係に動機づけられ、格子細分化下のユークリッド空間の一様格子に基づくグラフの形式的極限を導出する。 特定のパラメータの設定では、グリッド上の解がユークリッド距離に近いことを証明し、ネットワークと半教師付き学習を信頼するためにグラフの前方伝播の利用を例示する。

We propose and unify classes of different models for information propagation over graphs. In a first class, propagation is modelled as a wave which emanates from a set of known nodes at an initial time, to all other unknown nodes at later times with an ordering determined by the arrival time of the information wave front. A second class of models is based on the notion of a travel time along paths between nodes. The time of information propagation from an initial known set of nodes to a node is defined as the minimum of a generalised travel time over subsets of all admissible paths. A final class is given by imposing a local equation of an eikonal form at each unknown node, with boundary conditions at the known nodes. The solution value of the local equation at a node is coupled to those of neighbouring nodes with lower values. We provide precise formulations of the model classes and prove equivalences between them. Motivated by the connection between first arrival time model and the eikonal equation in the continuum setting, we derive formal limits for graphs based on uniform grids in Euclidean space under grid refinement. For a specific parameter setting, we demonstrate that the solution on the grid approximates the Euclidean distance, and illustrate the use of front propagation on graphs to trust networks and semi-supervised learning.
翻訳日:2023-05-15 16:40:20 公開日:2023-05-12
# 文化から文化への画像翻訳とユーザ評価

Culture-to-Culture Image Translation and User Evaluation ( http://arxiv.org/abs/2201.01565v6 )

ライセンス: Link先を確認
Giulia Zaino, Carmine Tommaso Recchiuto, and Antonio Sgorbissa(参考訳) 本稿では,画像の「文化化」という概念を紹介し,その機能を維持しつつ,ある文化に属すると認識される物体を「文化的特徴のブラッシュストローク」に変更するプロセスとして定義する。 まず,オブジェクトのイメージをソースからターゲットの文化ドメインに翻訳するパイプラインを,最先端の生成型広告ネットワークに基づいて定義した。 次に,オンラインアンケートを通じて,異なる文化圏に属する画像がイタリア人参加者に与える影響に関する4つの仮説を検証した。 予想通り、結果は個人の好みや好みに依存しますが、知的システムとのインタラクション中に、文化的な背景に合わせて修正された画像を提示する人もいます。 その研究には2つの大きな限界がある。 まず,完ぺきなシーンではなく,個々の物体の培養に焦点をあてた。 しかし、物体は文化的な意味を伝える上で重要な役割を担い、特定の文化的な文脈において像がどのように認識されるかに強く影響を与える。 オブジェクトレベルの翻訳の理解と対処は、将来の研究においてより包括的なシーンレベルの翻訳を実現するための重要なステップである。 第2に,イタリアの参加者のみで実験を行った。 イタリア文化には、イメージ・カルチュアライゼーションの影響を探求するための興味深いケーススタディとして、ユニークな側面があると考えています。 イタリアは非常に文化的に保守的な社会であり、イタリア人は文化的アイデンティティと伝統の正確な表現に関して、特定の感覚と期待を持っている。 その結果, 画像品種化の予備的調査に理想的な候補であると考えられた。

The article introduces the concept of image "culturization," which we define as the process of altering the ``brushstroke of cultural features" that make objects perceived as belonging to a given culture while preserving their functionalities. First, we defined a pipeline for translating objects' images from a source to a target cultural domain based on state-of-the-art Generative Adversarial Networks. Then, we gathered data through an online questionnaire to test four hypotheses concerning the impact of images belonging to different cultural domains on Italian participants. As expected, results depend on individual tastes and preferences: however, they align with our conjecture that some people, during the interaction with an intelligent system, will prefer to be shown images modified to match their cultural background. The study has two main limitations. First, we focussed on the culturization of individual objects instead of complete scenes. However, objects play a crucial role in conveying cultural meanings and can strongly influence how an image is perceived within a specific cultural context. Understanding and addressing object-level translation is a vital step toward achieving more comprehensive scene-level translation in future research. Second, we performed experiments with Italian participants only. We think that there are unique aspects of Italian culture that make it an interesting and relevant case study for exploring the impact of image culturization. Italy is a very culturally conservative society, and Italians have specific sensitivities and expectations regarding the accurate representation of their cultural identity and traditions, which can shape individuals' preferences and inclinations toward certain visual styles, aesthetics, and design choices. As a consequence, we think they are an ideal candidate for a preliminary investigation of image culturization.
翻訳日:2023-05-15 16:40:01 公開日:2023-05-12
# ディープフィードフォワードReLUニューラルネットワークのパラメータ同定可能性

Parameter identifiability of a deep feedforward ReLU neural network ( http://arxiv.org/abs/2112.12982v2 )

ライセンス: Link先を確認
Joachim Bona-Pellissier (IMT), Fran\c{c}ois Bachoc (IMT), Fran\c{c}ois Malgouyres (IMT)(参考訳) 入力空間のサブセットにおける関数の知識のおかげで、ニューラルネットワークのパラメータ重みとバイアスを回復する可能性は、状況、呪い、祝福によっても可能となる。 一方、パラメータを復元することで、より良い敵攻撃が可能になり、ネットワーク構築に使用されるデータセットから機密情報を開示することもできる。 一方、ネットワークのパラメータが復元可能であれば、潜在空間の特徴を解釈できることをユーザに保証する。 また、ネットワークの性能に関する正式な保証を得るための基盤も提供する。 したがって、パラメータを識別できるネットワークとパラメータを識別できないネットワークを特徴付けることが重要である。 本稿では、入力空間のサブセットに実装する関数から、ネットワークのパラメータが一意に同定されたモジュロ置換と正の再スケーリングを持つディープ完全接続フィードフォワードReLUニューラルネットワークに条件セットを提供する。

The possibility for one to recover the parameters-weights and biases-of a neural network thanks to the knowledge of its function on a subset of the input space can be, depending on the situation, a curse or a blessing. On one hand, recovering the parameters allows for better adversarial attacks and could also disclose sensitive information from the dataset used to construct the network. On the other hand, if the parameters of a network can be recovered, it guarantees the user that the features in the latent spaces can be interpreted. It also provides foundations to obtain formal guarantees on the performances of the network. It is therefore important to characterize the networks whose parameters can be identified and those whose parameters cannot. In this article, we provide a set of conditions on a deep fully-connected feedforward ReLU neural network under which the parameters of the network are uniquely identified-modulo permutation and positive rescaling-from the function it implements on a subset of the input space.
翻訳日:2023-05-15 16:39:33 公開日:2023-05-12
# 純、コヒーレント、点滅のない単一光子放射を持つ表面量子ドット

Surface quantum dots with pure, coherent, and blinking-free single photon emission ( http://arxiv.org/abs/2207.13387v2 )

ライセンス: Link先を確認
Xin Cao, Jingzhong Yang, Pengji Li, Tom Fandrich, Eddy P. Rugeramigabo, Vlastimil K\v{r}\'apek, Chenxi Ma, Frederik Benthin, Robert Keil, Benedikt Brechtken, Rolf J. Haug, Michael Oestreich, Yiteng Zhang, Constantin Schmidt, Zhao An, Michael Zopf, Fei Ding(参考訳) 半導体ナノ構造の表面は、電子的および光学的性質に大きな影響を与える。 表面層の障害と欠陥は典型的には荷電担体輸送の劣化と放射的再結合のダイナミクスを引き起こす。 しかし、多くのスケーラブルなナノ光学応用では表面近傍は避けられない。 エピタキシャル成長した量子ドットは、高性能な単一光子放出の最適候補であり、量子技術に大きな可能性を示す。 しかし、これらのエミッタは半導体ホストに深く埋め込まれている場合のみ、優れた性質を示す。 今日まで、表面に近い量子ドットは弱い、広く、不安定な放出をもたらす。 ここでは半導体表面上で直接成長した量子ドットから光学特性の完全な復元を示す。 as-grownサンプルからの消光発光は、硫黄のパッシベーション後に明るく、超安定で、コヒーレントで、瞬きのない単一光子に変化する。 準共鳴励起下では、単一光子は98.8%の純度、77%の識別不能、ライン幅は4ドルの\mu$ev、99.69%の持続性を持つ。 発光は2年後にも安定であり、ナノ製造プロセスの対象となる。 これにより、表面優位の量子ドットの長いブロックが取り除かれ、量子通信やセンシングにおけるハイブリッドナノデバイスや応用への新たな可能性が明らかにされる。

The surface of semiconductor nanostructures has a major impact on their electronic and optical properties. Disorder and defects in the surface layer typically cause degradation of charge carrier transport and radiative recombination dynamics. However, surface vicinity is inevitable for many scalable nano-optical applications. Epitaxially grown quantum dots are the best candidate for high-performance single photon emission and show great potential for quantum technologies. Yet, these emitters only reveal their excellent properties if they are deeply embedded in a semiconductor host. Until today, quantum dots close to surfaces yield weak, broad, and unstable emissions. Here, we show the complete restoration of optical properties from quantum dots grown directly on a semiconductor surface. The vanishing luminescence from the as-grown sample turns into bright, ultra-stable, coherent and blinking-free single photon emission after sulphur passivation. Under quasi-resonant excitation, single photons are generated with 98.8% purity, 77% indistinguishability, linewidths down to 4 $\mu$eV and 99.69% persistency across 11 orders of magnitude in time. The emission is stable even after two years and when being subjected to nanomanufacturing processes. Some long-standing stumbling blocks for surface-dominated quantum dots are thereby removed, unveiling new possibilities for hybrid nano-devices and applications in quantum communication or sensing.
翻訳日:2023-05-15 16:32:32 公開日:2023-05-12
# 銀行のストレステストは公平か?

Should Bank Stress Tests Be Fair? ( http://arxiv.org/abs/2207.13319v2 )

ライセンス: Link先を確認
Paul Glasserman and Mike Li(参考訳) 規制ストレステストは、米国最大の銀行で資本要件を設定する主要なツールの一つとなっている。 連邦準備制度理事会(FRB)は秘密モデルを用いて、銀行固有のポートフォリオを共有ストレスシナリオで評価する。 政策面では、金融機関間でかなりの異質性があるにもかかわらず、全ての銀行で同じモデルが使われているが、個々の銀行は、いくつかのモデルが事業に適さないと主張している。 この議論に動機づけられて、私たちは、個別に調整されたモデルのフェアアグリゲーションを共通のモデルにしたものは何でしょうか? 銀行にまたがるデータのプールは、銀行を平等に扱うが、2つの欠陥がある: 正当なポートフォリオ機能の影響を歪め、銀行のアイデンティティを推測するために正当な情報の暗黙の誤った指示に弱い。 予測精度と等価処理の両面から、回帰公正性の様々な概念を比較し、これらの欠陥に対処する。 線形モデルの設定においては、銀行間の差異を単に無視するよりも、中心となる固定効果を推定・破棄することが望ましいと論じる。 我々は、全体的な影響が物質的であることを示す。 非線形モデルの拡張についても論じる。

Regulatory stress tests have become one of the main tools for setting capital requirements at the largest U.S. banks. The Federal Reserve uses confidential models to evaluate bank-specific outcomes for bank-specific portfolios in shared stress scenarios. As a matter of policy, the same models are used for all banks, despite considerable heterogeneity across institutions; individual banks have contended that some models are not suited to their businesses. Motivated by this debate, we ask, what is a fair aggregation of individually tailored models into a common model? We argue that simply pooling data across banks treats banks equally but is subject to two deficiencies: it may distort the impact of legitimate portfolio features, and it is vulnerable to implicit misdirection of legitimate information to infer bank identity. We compare various notions of regression fairness to address these deficiencies, considering both forecast accuracy and equal treatment. In the setting of linear models, we argue for estimating and then discarding centered bank fixed effects as preferable to simply ignoring differences across banks. We present evidence that the overall impact can be material. We also discuss extensions to nonlinear models.
翻訳日:2023-05-15 16:32:13 公開日:2023-05-12
# 概念に基づく説明における見過ごされた要因:データセットの選択、概念学習性、人間の能力

Overlooked factors in concept-based explanations: Dataset choice, concept learnability, and human capability ( http://arxiv.org/abs/2207.09615v2 )

ライセンス: Link先を確認
Vikram V. Ramaswamy, Sunnie S. Y. Kim, Ruth Fong and Olga Russakovsky(参考訳) 概念に基づく解釈可能性手法は、事前定義された概念セットを用いた深層ニューラルネットワークモデルの予測を説明することを目的としている。 データセット上でトレーニングされたモデルを評価し、そのデータセットにラベル付けされたビジュアル概念とモデル予測を関連付ける。 その人気にもかかわらず、文学によってよく理解され、表現されていない制限に苦しむ。 本研究では,概念に基づく説明において見過ごされている3つの要因を分析した。 まず、プローブデータセットの選択は、生成された説明に大きな影響を与える。 分析の結果、異なるプローブデータセットが全く異なる説明につながる可能性があり、その説明はプローブデータセットの外部では一般化できないことが示唆された。 第二に、プローブデータセットの概念は、説明の正しさを疑問視しながら、彼らが説明を主張するクラスよりも、より正確で学習しにくいことが多い。 視覚的に健全な概念のみが概念に基づく説明に使用されるべきだと我々は主張する。 最後に、既存の手法では何百、何千もの概念が使われていますが、人間の研究では、32以上の概念のより厳密な上限が示されています。 概念に基づく解釈可能性手法の今後の発展と分析について提案する。 分析とユーザインターフェースのコードは \url{https://github.com/princetonvisualai/overlookedfactors} で確認できます。

Concept-based interpretability methods aim to explain deep neural network model predictions using a predefined set of semantic concepts. These methods evaluate a trained model on a new, "probe" dataset and correlate model predictions with the visual concepts labeled in that dataset. Despite their popularity, they suffer from limitations that are not well-understood and articulated by the literature. In this work, we analyze three commonly overlooked factors in concept-based explanations. First, the choice of the probe dataset has a profound impact on the generated explanations. Our analysis reveals that different probe datasets may lead to very different explanations, and suggests that the explanations are not generalizable outside the probe dataset. Second, we find that concepts in the probe dataset are often less salient and harder to learn than the classes they claim to explain, calling into question the correctness of the explanations. We argue that only visually salient concepts should be used in concept-based explanations. Finally, while existing methods use hundreds or even thousands of concepts, our human studies reveal a much stricter upper bound of 32 concepts or less, beyond which the explanations are much less practically useful. We make suggestions for future development and analysis of concept-based interpretability methods. Code for our analysis and user interface can be found at \url{https://github.com/princetonvisualai/OverlookedFactors}
翻訳日:2023-05-15 16:31:52 公開日:2023-05-12
# オンライン分極の原動力:データに適合するモデル

The drivers of online polarization: fitting models to data ( http://arxiv.org/abs/2205.15958v3 )

ライセンス: Link先を確認
Carlo Michele Valensise, Matteo Cinelli, Walter Quattrociocchi(参考訳) オンラインのユーザーは、同じ考えを持つ仲間の分断グループと共有ナラティブの周りで参加し、エコーチャンバーを形成する傾向がある。 エコーチャンバー効果と意見分極は、情報消費における人間のバイアスやフィードアルゴリズムによって生成されたパーソナライズドレコメンデーションなど、いくつかの要因によって引き起こされる可能性がある。 これまでは主に意見力学モデルを用いて、分極とエコーチャンバーの出現の背後にあるメカニズムを探索してきた。 目的は、これらの現象に寄与する重要な要因を特定し、それらの相互作用を特定することである。 しかし、経験的データによるモデル予測の検証には、体系性の欠如と定性的分析の2つの大きな欠点が残っている。 本研究は,シミュレーションから得られた意見分布とソーシャルメディアで測定した意見分布を数値的に比較する方法を提供することにより,このギャップを埋める。 この手法を検証するために,人間とアルゴリズムの相互作用を考慮した評価動的モデルを開発した。 我々は、さまざまなソーシャルメディアプラットフォームからのデータを用いて実験的なテストを行い、2つの最先端モデルと比較した。 さらに,ソーシャルメディアプラットフォームの理解を深めるために,モデルのパラメータ空間の観点から,それらの特徴を合成的に記述する。 この表現はフィードアルゴリズムの洗練を促進する可能性があり、オンラインの会話における極性分極の有害な効果を緩和する。

Users online tend to join polarized groups of like-minded peers around shared narratives, forming echo chambers. The echo chamber effect and opinion polarization may be driven by several factors including human biases in information consumption and personalized recommendations produced by feed algorithms. Until now, studies have mainly used opinion dynamic models to explore the mechanisms behind the emergence of polarization and echo chambers. The objective was to determine the key factors contributing to these phenomena and identify their interplay. However, the validation of model predictions with empirical data still displays two main drawbacks: lack of systematicity and qualitative analysis. In our work, we bridge this gap by providing a method to numerically compare the opinion distributions obtained from simulations with those measured on social media. To validate this procedure, we develop an opinion dynamic model that takes into account the interplay between human and algorithmic factors. We subject our model to empirical testing with data from diverse social media platforms and benchmark it against two state-of-the-art models. To further enhance our understanding of social media platforms, we provide a synthetic description of their characteristics in terms of the model's parameter space. This representation has the potential to facilitate the refinement of feed algorithms, thus mitigating the detrimental effects of extreme polarization on online discourse.
翻訳日:2023-05-15 16:30:52 公開日:2023-05-12
# スピン光子界面を用いたエネルギー効率の量子非破壊測定

Energy-efficient quantum non-demolition measurement with a spin-photon interface ( http://arxiv.org/abs/2205.09623v2 )

ライセンス: Link先を確認
Maria Maffei, Bruno O. Goes, Stephen C. Wein, Andrew N. Jordan, Lo\"ic Lanco and Alexia Auff\`eves(参考訳) スピン光子インタフェース (SPI) は量子技術の鍵となる装置であり、スピン量子ビットと偏光の伝播パルスの間で量子情報をコヒーレントに伝達することを目的としている。 スピン状態の量子非分解(QND)測定のためのSPIの可能性について検討する。 SPIによって初期化され散乱された後、光パルスの状態はスピン状態に依存する。 したがって、光の時間的および分極的な自由度で符号化される情報であるポインター状態の役割を担っている。 スピン光力学の完全なハミルトン分解に基づいて、ゼロおよび単一光子状態の量子重ね合わせが光のコヒーレントパルスよりも優れており、同じ光子予算でより区別可能なポインター状態を生成することを示す。 スピン状態に関する情報を古典レベルで抽出し、光パルスの投影計測を行うことで、コヒーレントなパルスよりも量子パルスによるエネルギー的優位性を維持する。 提案手法は, 半導電デバイスにおける不完全性に対して頑健である。

Spin-photon interfaces (SPIs) are key devices of quantum technologies, aimed at coherently transferring quantum information between spin qubits and propagating pulses of polarized light. We study the potential of a SPI for quantum non demolition (QND) measurements of a spin state. After being initialized and scattered by the SPI, the state of a light pulse depends on the spin state. It thus plays the role of a pointer state, information being encoded in the light's temporal and polarization degrees of freedom. Building on the fully Hamiltonian resolution of the spin-light dynamics, we show that quantum superpositions of zero and single photon states outperform coherent pulses of light, producing pointer states which are more distinguishable with the same photon budget. The energetic advantage provided by quantum pulses over coherent ones is maintained when information on the spin state is extracted at the classical level by performing projective measurements on the light pulses. The proposed schemes are robust against imperfections in state of the art semi-conducting devices.
翻訳日:2023-05-15 16:30:33 公開日:2023-05-12
# 電力市場における強化学習の応用:総括的考察

Applications of Reinforcement Learning in Deregulated Power Market: A Comprehensive Review ( http://arxiv.org/abs/2205.08369v2 )

ライセンス: Link先を確認
Ziqing Zhu, Ze Hu, Ka Wing Chan, Siqi Bu, Bin Zhou, Shiwei Xia(参考訳) 再生可能世代の増加と電力産業の規制緩和と市場化により、電力市場運営パラダイムの転換が促進される。 これらの新たなパラダイムの下での最適入札戦略とディスパッチ手法は、不確実な特性、計算効率、および超最適意思決定の要求といった障害を伴う、市場参加者と電力系統運用者の両方にとって優先的な関心事である。 これらの問題に対処するため、従来の最適化ツールと比較して優位性を持つ機械学習技術である強化学習(RL)は、アカデミックと産業の両方において、ますます重要な役割を担っている。 本稿では,150以上の慎重に選択された文献に基づいて,入札およびディスパッチ戦略最適化を含む電力市場デリゲーテッド運用におけるrl応用について概観する。 各アプリケーションについて、一般化された方法論のパラダイム的な要約とは別に、RL技術の展開中の適用性と障害に関する詳細な議論も提供する。 最後に,入札問題やディスパッチ問題に展開する可能性の高いrl手法を推奨し,議論する。

The increasing penetration of renewable generations, along with the deregulation and marketization of power industry, promotes the transformation of power market operation paradigms. The optimal bidding strategy and dispatching methodology under these new paradigms are prioritized concerns for both market participants and power system operators, with obstacles of uncertain characteristics, computational efficiency, as well as requirements of hyperopic decision-making. To tackle these problems, the Reinforcement Learning (RL), as an emerging machine learning technique with advantages compared with conventional optimization tools, is playing an increasingly significant role in both academia and industry. This paper presents a comprehensive review of RL applications in deregulated power market operation including bidding and dispatching strategy optimization, based on more than 150 carefully selected literatures. For each application, apart from a paradigmatic summary of generalized methodology, in-depth discussions of applicability and obstacles while deploying RL techniques are also provided. Finally, some RL techniques that have great potentiality to be deployed in bidding and dispatching problems are recommended and discussed.
翻訳日:2023-05-15 16:30:16 公開日:2023-05-12
# データセットシフト診断のための統一フレームワーク

A unified framework for dataset shift diagnostics ( http://arxiv.org/abs/2205.08340v3 )

ライセンス: Link先を確認
Felipe Maia Polo, Rafael Izbicki, Evanildo Gomes Lacerda Jr, Juan Pablo Ibieta-Jimenez, Renato Vicente(参考訳) 多くの教師付き学習手法では、訓練段階で使用されるデータは対象集団に由来すると仮定している。 しかし実際には、適切に考慮しなければ予測器の性能を低下させるようなデータセットシフトに直面していることが多い。 本研究では,様々な種類のデータセットシフトの定量化とテストを可能にする,新しい柔軟なフレームワークである detectionshift を提案し,その内容は$(x,y)$,$x$,$y$,$x|y$,$y|x$ の分布の変化を含む。 detectionshiftは、データの変更に関する洞察を実践者に提供し、ソースとターゲットのデータを活用して、予測器の再トレーニングや適応を可能にする。 これは、ターゲットドメインからのラベル付きサンプルが不足しているシナリオで特に有用です。 このフレームワークは同じ性質でテスト統計を利用し、様々なシフトの大きさを定量化し、その結果をより解釈可能である。 さらに、回帰タスクと分類タスクの両方に適用できるだけでなく、表やテキスト、画像データなど、さまざまなタイプのデータにも適用することができる。 実験結果は,高次元においてもデータセットシフト検出における検出シフトの有効性を示す。 DetectShiftの実装はhttps://github.com/felipemaiapolo/detectshiftで確認できます。

Most supervised learning methods assume that the data used in the training phase comes from the target population. However, in practice, one often faces dataset shift, which, if not adequately taken into account, may decrease the performance of their predictors. In this work, we propose a novel and flexible framework called DetectShift that enables quantification and testing of various types of dataset shifts, including shifts in the distributions of $(X, Y)$, $X$, $Y$, $X|Y$, and $Y|X$. DetectShift provides practitioners with insights about changes in their data, allowing them to leverage source and target data to retrain or adapt their predictors. That is particularly valuable in scenarios where labeled samples from the target domain are scarce. The framework utilizes test statistics with the same nature to quantify the magnitude of the various shifts, making results more interpretable. Moreover, it can be applied in both regression and classification tasks, as well as to different types of data such as tabular, text, and image data. Experimental results demonstrate the effectiveness of DetectShift in detecting dataset shifts even in higher dimensions. Our implementation for DetectShift can be found in https://github.com/felipemaiapolo/detectshift.
翻訳日:2023-05-15 16:29:57 公開日:2023-05-12
# 深層ニューラルネットワークのモデル量子化に関する包括的調査

A Comprehensive Survey on Model Quantization for Deep Neural Networks ( http://arxiv.org/abs/2205.07877v2 )

ライセンス: Link先を確認
Babak Rokh, Ali Azarpeyvand, Alireza Khanteymoori(参考訳) ディープニューラルネットワークによる機械学習の最近の進歩は重要である。 しかし、これらのネットワークを使用すると、ストレージと計算のための膨大なパラメータが伴うため、ハードウェアコストが増加し、問題が発生します。 そのため,効率的な加速器設計のための圧縮手法が提案されている。 ディープニューラルネットワーク圧縮の1つの重要なアプローチは、完全精度の値を低ビット幅に格納する量子化である。 このようにして、メモリの節約に加えて、操作は低コストで単純な操作に置き換えられる。 近年,効率的なハードウェア設計における柔軟性と影響から,多くの手法が提案されている。 したがって、統合レポートは、より理解し、分析し、比較するために不可欠である。 本稿では,包括的調査を行う。 量子化の概念を説明し、異なる観点からメソッドを分類する。 本稿では,量子化レベルと全精度値の分布との一致をスケールファクターを用いて検討し,クラスタリングに基づく手法について述べる。 量子化されたディープニューラルネットワークのトレーニングを初めてレビューし、ストレートスルー推定器を包括的に活用した。 また、量子化深部畳み込みニューラルネットワークにおける演算の単純さを説明し、量子化における異なる層の感度を説明する。 最後に,CIFAR-10 と大規模データセット ImageNet の重み付けとアクティベーションのために,従来の手法と各種ビット幅を比較し,量子化手法の評価を行った。

Recent advances in machine learning by deep neural networks are significant. But using these networks has been accompanied by a huge number of parameters for storage and computations that leads to an increase in the hardware cost and posing challenges. Therefore, compression approaches have been proposed to design efficient accelerators. One important approach for deep neural network compression is quantization that full-precision values are stored in low bit-width. In this way, in addition to memory saving, the operations will be replaced by simple ones with low cost. Many methods are suggested for DNNs Quantization in recent years, because of flexibility and influence in designing efficient hardware. Therefore, an integrated report is essential for better understanding, analysis, and comparison. In this paper, we provide a comprehensive survey. We describe the quantization concepts and categorize the methods from different perspectives. We discuss using the scale factor to match the quantization levels with the distribution of the full-precision values and describe the clustering-based methods. For the first time, we review the training of a quantized deep neural network and using Straight-Through Estimator comprehensively. Also, we describe the simplicity of operations in quantized deep convolutional neural networks and explain the sensitivity of the different layers in quantization. Finally, we discuss the evaluation of the quantization methods and compare the accuracy of previous methods with various bit-width for weights and activations on CIFAR-10 and the large-scale dataset, ImageNet.
翻訳日:2023-05-15 16:29:36 公開日:2023-05-12
# 移動行列例外点からのバンドエッジにおける普遍的劣微分挙動

Universal subdiffusive behavior at band edges from transfer matrix exceptional points ( http://arxiv.org/abs/2205.02214v2 )

ライセンス: Link先を確認
Madhumita Saha, Bijay Kumar Agarwalla, Manas Kulkarni, Archak Purkayastha(参考訳) 2端の開放系において、パリティ時間(pt)対称光学系と1次元フェルミオン鎖の量子輸送との間の深い関係を見いだす。 周期的オンサイトポテンシャルを持つ一次元強結合鎖のスペクトルは、この問題を2ドル2ドル移動行列でキャストすることで得られる。 これらの非エルミート行列は、平衡利得損失光学系のPT対称性と全く同じ対称性を持ち、したがって例外点をまたいだ類似の遷移を示す。 単位セルの移動行列の例外点がスペクトルのバンドエッジに対応することを示す。 2つのゼロ温度浴に2つの端で接続すると、バスの化学的ポテンシャルがバンドエッジと等しければ、2ドル(約2,500円)の指数で、システムサイズと導電率の半拡散スケーリングが生じる。 さらに、化学ポテンシャルが任意のバンドエッジにわたって調整されるときに、散逸性量子相転移の存在を実証する。 注目すべきことに、この特徴は準周期系のモビリティエッジを横断する遷移と類似している。 この挙動は、基礎となる格子の周期ポテンシャルとバンド数の詳細に関係なく普遍的である。 しかし、浴槽の無いところには類似性はない。

We discover a deep connection between parity-time (PT) symmetric optical systems and quantum transport in one-dimensional fermionic chains in a two-terminal open system setting. The spectrum of one dimensional tight-binding chain with periodic on-site potential can be obtained by casting the problem in terms of $2 \times 2$ transfer matrices. We find that these non-Hermitian matrices have a symmetry exactly analogous to the PT-symmetry of balanced-gain-loss optical systems, and hence show analogous transitions across exceptional points. We show that the exceptional points of the transfer matrix of a unit cell correspond to the band edges of the spectrum. When connected to two zero temperature baths at two ends, this consequently leads to subdiffusive scaling of conductance with system size, with an exponent $2$, if the chemical potential of the baths are equal to the band edges. We further demonstrate the existence of a dissipative quantum phase transition as the chemical potential is tuned across any band edge. Remarkably, this feature is analogous to transition across a mobility edge in quasiperiodic systems. This behavior is universal, irrespective of the details of the periodic potential and the number of bands of the underlying lattice. It, however, has no analog in absence of the baths.
翻訳日:2023-05-15 16:29:17 公開日:2023-05-12
# 境界状態からの準Normalモード:数値的アプローチ

Quasi-Normal Modes from Bound States: The Numerical Approach ( http://arxiv.org/abs/2210.02069v2 )

ライセンス: Link先を確認
Sebastian H. V\"olkel(参考訳) ポテンシャル障壁の準正規モードのスペクトルは対応するポテンシャル井戸の束縛状態のスペクトルと関係していることが知られている。 この性質はブラックホール準正規モードの計算に広く用いられているが、特定の変換特性を持ついくつかの「近似」ポテンシャルに限られており、そこでは境界状態のスペクトルを解析的に知る必要がある。 本研究では、同様の変換特性を持つポテンシャルを利用できるが、境界状態のスペクトルを数値的に計算できるアプローチを提案することにより、この制限を回避する。 境界状態の数値計算は通常、対応する準正規モードの直接計算よりも安定であるため、新しい手法は技術的な観点からも興味深い。 本手法は,すべてのステップを解析的に理解できるp\"oschl-teller電位や,解析結果を認識せず,比較のために独立した数値結果を与えるポテンシャルなど,異なるポテンシャルに適用する。 正準試験として、すべてのポテンシャルはシュワルツシルトブラックホールの軸摂動のレジ・ウィーラーポテンシャルと一致するように選択される。 新しい近似ポテンシャルは、p\"oschl-tellerポテンシャル、特に最初のオーバートーンよりも正確な準正規モードを近似するのに適している。 この研究が準正規モードの計算の新しい視点を開き、将来さらなる改善と一般化が期待できる。

It is known that the spectrum of quasi-normal modes of potential barriers is related to the spectrum of bound states of the corresponding potential wells. This property has been widely used to compute black hole quasi-normal modes, but it is limited to a few "approximate" potentials with certain transformation properties for which the spectrum of bound states must be known analytically. In this work we circumvent this limitation by proposing an approach that allows one to make use of potentials with similar transformation properties, but where the spectrum of bound states can also be computed numerically. Because the numerical calculation of bound states is usually more stable than the direct computation of the corresponding quasi-normal modes, the new approach is also interesting from a technical point of view. We apply the method to different potentials, including the P\"oschl-Teller potential for which all steps can be understood analytically, as well as potentials for which we are not aware of analytic results but provide independent numerical results for comparison. As a canonical test, all potentials are chosen to match the Regge-Wheeler potential of axial perturbations of the Schwarzschild black hole. We find that the new approximate potentials are more suitable to approximate the exact quasi-normal modes than the P\"oschl-Teller potential, particularly for the first overtone. We hope this work opens new perspectives to the computation of quasi-normal modes and finds further improvements and generalizations in the future.
翻訳日:2023-05-15 16:23:38 公開日:2023-05-12
# 有限群の量子表現

Quantum representation of finite groups ( http://arxiv.org/abs/2209.15025v4 )

ライセンス: Link先を確認
Ruge Lin(参考訳) 有限群の量子表現の概念はかなり長い間量子コンピューティングの基本的な側面であり、素数量子論理ゲートから有名なショアとグローバーのアルゴリズムまであらゆる分野において重要な役割を果たしてきた。 本稿では、この概念を群論と微分幾何学の両方を用いて形式的に定義する。 本研究は、任意の有限群に対する量子表現の存在を証明し、ユニタリ行列のゲート分解と変分量子アルゴリズムを利用して群の各生成元を量子回路に変換する2つの方法を概説する。 さらに,オープンアクセスプラットフォーム上での明示的な例の数値シミュレーションを行う。 最後に、隠れた部分群問題を解くアルゴリズムのゲートレベル実装におけるその役割を示すことによって、有限群の量子表現の有用性とポテンシャルを示す。

The concept of quantum representation of finite groups has been a fundamental aspect of quantum computing for quite some time, playing a role in every corner, from elementary quantum logic gates to the famous Shor's and Grover's algorithms. In this article, we provide a formal definition of this concept using both group theory and differential geometry. Our work proves the existence of a quantum representation for any finite group and outlines two methods for translating each generator of the group into a quantum circuit, utilizing gate decomposition of unitary matrices and variational quantum algorithms. Additionally, we provide numerical simulations of an explicit example on an open-access platform. Finally, we demonstrate the usefulness and potential of the quantum representation of finite groups by showing its role in the gate-level implementation of the algorithm that solves the hidden subgroup problem.
翻訳日:2023-05-15 16:23:14 公開日:2023-05-12
# 量子理論はフラウチャー=レンナーのゲダンケン実験において自分自身の使用を一貫して記述することができる

Quantum theory can consistently describe the use of itself in Frauchiger-Renner's Gedankenexperiment ( http://arxiv.org/abs/2209.08968v3 )

ライセンス: Link先を確認
Ehsan Erfani Maharati, Mohsen Sarbishaei, Ali Ahanj(参考訳) 理論物理学は量子力学の出現以来多くの課題に直面してきた。 近年、フラウチャーとレンナーはノーゴー定理を提唱し、量子力学をより議論を呼んでいる。 しかし、我々の視点では、証明のプロセスは疑わしいように見える。 そこで本稿では,その証明手法の有効性について論じる。 本稿では,Frauchiger や Renner の Gedankenexperiment のような問題において,属性量子状態がいかに正しく記述できるかを明らかにするための簡単な思考実験を提案する。 次のステップでは、量子状態の正しい形の助けを借りて、no-go定理の証明に誤りが生じていることが示される。 最終的に、ハーディのパラドックスから助けを得て、ノーゴー定理の妥当性を貸すために証明を変更するアプローチがあるかどうかを調査する。

Theoretical physics has faced many challenges since the advent of quantum mechanics. Recently, Frauchiger and Renner have presented a no-go theorem, which makes quantum mechanics more controversial. However, from our perspective, the process of proving appears questionable. Therefore, we discuss the validity of their proof approach in this letter. Here, we propose a simple thought experiment that clarifies how correctly the attributed quantum state can be written in problems similar to Frauchiger and Renner's Gedankenexperiment. In the next step, with the help of the correct form of the quantum state, it is demonstrated that a fallacy occurred in the proof of the no-go theorem, which means it cannot be valid because of the wrong proof. Ultimately, getting help from Hardy's paradox, we investigate whether there is an approach to modify their proof in order to lend the no-go theorem validity.
翻訳日:2023-05-15 16:22:40 公開日:2023-05-12
# ネットワークフローのグラフニューラルモデリング

Graph Neural Modeling of Network Flows ( http://arxiv.org/abs/2209.05208v2 )

ライセンス: Link先を確認
Victor-Alexandru Darvariu, Stephen Hailes, Mirco Musolesi(参考訳) ネットワーク上のトラフィックを分散して基盤となるインフラを効果的に利用するネットワークフロー問題は、輸送や物流においてユビキタスである。 その中でも、複数のソースとシンク間の異なるサイズの複数のフローの分散を懸念しつつ、リンクの有効利用を実現しているため、MCNF(Multi-Commodity Network Flow)問題は一般的な関心事である。 データ駆動最適化の魅力により、これらの問題はグラフ学習法を用いてますますアプローチされている。 本稿では,Per-Edge Weights (PEW) と呼ばれるネットワークフロー問題に対する新しいグラフ学習アーキテクチャを提案する。 この方法はグラフアテンションネットワーク上に構築され、各リンクに沿って明確にパラメトリケートされたメッセージ関数を使用する。 我々は17ドルのサービスプロバイダトポロジと2ドルのルーティングスキームを使用して、インターネットフロールーティングケーススタディを通じて提案ソリューションを広範囲に評価した。 本稿では,グローバルメッセージ関数がルーティングを不必要に制約するアーキテクチャに対して,PEWが大幅に向上することを示す。 MLPが他の標準アーキテクチャと競合していることもわかっています。 さらに,グラフ構造とデータ駆動型フロールーティングの予測性能との関係について考察した。

Network flow problems, which involve distributing traffic over a network such that the underlying infrastructure is used effectively, are ubiquitous in transportation and logistics. Among them, the Multi-Commodity Network Flow (MCNF) problem is of general interest, as it concerns the distribution of multiple flows of different sizes between several sources and sinks, while achieving effective utilization of the links. Due to the appeal of data-driven optimization, these problems have increasingly been approached using graph learning methods. In this paper, we propose a novel graph learning architecture for network flow problems called Per-Edge Weights (PEW). This method builds on a Graph Attention Network and uses distinctly parametrized message functions along each link. We extensively evaluate the proposed solution through an Internet flow routing case study using $17$ Service Provider topologies and $2$ routing schemes. We show that PEW yields substantial gains over architectures whose global message function constrains the routing unnecessarily. We also find that an MLP is competitive with other standard architectures. Furthermore, we shed some light on the relationship between graph structure and predictive performance for data-driven routing of flows, an aspect that has not been considered by existing work in the area.
翻訳日:2023-05-15 16:22:24 公開日:2023-05-12
# 準二次クロネッカー回帰とテンソル分解への応用

Subquadratic Kronecker Regression with Applications to Tensor Decomposition ( http://arxiv.org/abs/2209.04876v2 )

ライセンス: Link先を確認
Matthew Fahrbach, Thomas Fu, Mehrdad Ghadiri(参考訳) クロネッカー回帰 (kronecker regression) は、高度に構造化された最小二乗問題 $\min_{\mathbf{x}} \lvert \mathbf{k}\mathbf{x} - \mathbf{b} \rvert_{2}^2}\, ここで設計行列 $\mathbf{k} = \mathbf{a}^{(1)} \otimes \cdots \otimes \mathbf{a}^{(n)}$ は因子行列のクロネッカー積である。 この回帰問題は、テンソルのタッカー分解を計算するために広く使用される交代最小二乗アルゴリズム(ALS)の各ステップで生じる。 我々は、Kronecker回帰を1+\varepsilon)$-approximationに解くための最初の準四進時間アルゴリズムを、実行時の指数項$O(\varepsilon^{-N})$を避けるために提示する。 スコアサンプリングと反復的手法を併用した手法である。 1つのブロックがクロネッカー積であるブロック設計行列へのアプローチを拡張することにより、(1)クロネッカーリッジ回帰と(2)純粋なクロネッカー回帰問題ではないalsにおけるタッカー分解の因子行列を更新することで、タッカーalsのすべてのステップの実行時間を改善することができる。 本研究では,合成データと実世界画像テンソルを用いて,このクロネッカー回帰アルゴリズムの速度と精度を示す。

Kronecker regression is a highly-structured least squares problem $\min_{\mathbf{x}} \lVert \mathbf{K}\mathbf{x} - \mathbf{b} \rVert_{2}^2$, where the design matrix $\mathbf{K} = \mathbf{A}^{(1)} \otimes \cdots \otimes \mathbf{A}^{(N)}$ is a Kronecker product of factor matrices. This regression problem arises in each step of the widely-used alternating least squares (ALS) algorithm for computing the Tucker decomposition of a tensor. We present the first subquadratic-time algorithm for solving Kronecker regression to a $(1+\varepsilon)$-approximation that avoids the exponential term $O(\varepsilon^{-N})$ in the running time. Our techniques combine leverage score sampling and iterative methods. By extending our approach to block-design matrices where one block is a Kronecker product, we also achieve subquadratic-time algorithms for (1) Kronecker ridge regression and (2) updating the factor matrices of a Tucker decomposition in ALS, which is not a pure Kronecker regression problem, thereby improving the running time of all steps of Tucker ALS. We demonstrate the speed and accuracy of this Kronecker regression algorithm on synthetic data and real-world image tensors.
翻訳日:2023-05-15 16:22:05 公開日:2023-05-12
# 累積単語時間における音韻変動による書籍構造の分解

A decomposition of book structure through ousiometric fluctuations in cumulative word-time ( http://arxiv.org/abs/2208.09496v4 )

ライセンス: Link先を確認
Mikaela Irene Fudolig, Thayer Alshaabi, Kathryn Cramer, Christopher M. Danforth, Peter Sheridan Dodds(参考訳) 書籍における単語使用量の変化を定量的に調べる手法が用いられてきたが、本の長さに依存しない物語の形など全般的な傾向に焦点が当てられている。 代わりに、ある特定の時点で完結した本の分数ではなく、単語の数の関数として、書籍の途中で単語がどのように変化するかに注目し、この尺度を「累積ワードタイム」と定義する。 意味的微分から得られる意味の原子価-覚醒-支配の枠組みを再解釈する ousiometrics を用いて,テキストを累積単語時間におけるパワーと危険スコアの時系列に変換する。 各時系列は経験的モード分解を用いて構成振動モードと非振動トレンドの合計に分解される。 原典のパワーと危険時刻の分解をシャッフルテキストから導出したものと比較することにより、短い本は一般的な傾向を示すだけであり、長い本は一般的な傾向に加えて変動があることがわかった。 これらの変動は通常、本の長さや図書館の分類コードに関わらず数千語という期間を持つが、本の内容や構造によって異なる。 以上の結果から,長書は短書の拡張版ではなく,短書の結合構造に類似していることが示唆された。 さらに、より長いテキストを章などのセクションに分割する必要がある編集慣行とも一致している。 提案手法は,様々な長さのテキストに対して,特に短いテキストに対して,不注意に関連情報を取り除くような大きなウィンドウサイズを用いる従来の手法とは対照的に,データ駆動分別手法も提供する。 これらの結果は、将来の計算的文学的分析、特に物語の基本単位の測定への道を開く。

While quantitative methods have been used to examine changes in word usage in books, studies have focused on overall trends, such as the shapes of narratives, which are independent of book length. We instead look at how words change over the course of a book as a function of the number of words, rather than the fraction of the book, completed at any given point; we define this measure as "cumulative word-time". Using ousiometrics, a reinterpretation of the valence-arousal-dominance framework of meaning obtained from semantic differentials, we convert text into time series of power and danger scores in cumulative word-time. Each time series is then decomposed using empirical mode decomposition into a sum of constituent oscillatory modes and a non-oscillatory trend. By comparing the decomposition of the original power and danger time series with those derived from shuffled text, we find that shorter books exhibit only a general trend, while longer books have fluctuations in addition to the general trend. These fluctuations typically have a period of a few thousand words regardless of the book length or library classification code, but vary depending on the content and structure of the book. Our findings suggest that, in the ousiometric sense, longer books are not expanded versions of shorter books, but are more similar in structure to a concatenation of shorter texts. Further, they are consistent with editorial practices that require longer texts to be broken down into sections, such as chapters. Our method also provides a data-driven denoising approach that works for texts of various lengths, in contrast to the more traditional approach of using large window sizes that may inadvertently smooth out relevant information, especially for shorter texts. These results open up avenues for future work in computational literary analysis, particularly the measurement of a basic unit of narrative.
翻訳日:2023-05-15 16:21:04 公開日:2023-05-12
# 消費者選択のモデル化のための辺縁付き非パラメトリックアプローチ

A Nonparametric Approach with Marginals for Modeling Consumer Choice ( http://arxiv.org/abs/2208.06115v2 )

ライセンス: Link先を確認
Yanqiu Ruan, Xiaobo Li, Karthyek Murthy, Karthik Natarajan(参考訳) 異なる種類の消費者が選択したデータを考えると、重要な課題は消費者の選択行動を記述し予測する擬似モデルを開発することである。 そのような選択モデルの一つは、選択データを説明するために選択肢のランダムユーティリティの限界分布の仕様のみを必要とする限界分布モデルである。 本稿では,選択確率の集合の正確なキャラクタリゼーションを考案し,各集合の集合の辺縁分布モデルにより一貫した表現が可能となる。 それらのユーティリティの限界分布に基づいて、代替案をグループ化できる可能性を示す。 (a) このモデルによる選択確率データの整合性検証は多項式時間で可能であり、 (b)最も近いフィットを見つけることは、混合整数凸プログラムを解くことにつながる。 その結果,辺縁分布モデルは,多項ロジットと比較してはるかに優れた表現力を提供し,ランダムユーティリティモデルに比べて計算性能が向上した。

Given data on choices made by consumers for different assortments, a key challenge is to develop parsimonious models that describe and predict consumer choice behavior. One such choice model is the marginal distribution model which requires only the specification of the marginal distributions of the random utilities of the alternatives to explain choice data. In this paper, we develop an exact characterisation of the set of choice probabilities which are representable by the marginal distribution model consistently across any collection of assortments. Allowing for the possibility of alternatives to be grouped based on the marginal distribution of their utilities, we show (a) verifying consistency of choice probability data with this model is possible in polynomial time and (b) finding the closest fit reduces to solving a mixed integer convex program. Our results show that the marginal distribution model provides much better representational power as compared to multinomial logit and much better computational performance as compared to the random utility model.
翻訳日:2023-05-15 16:20:33 公開日:2023-05-12
# 将来のレプトン衝突器における$H \to \tau^+ \tau^-$の量子情報とCP測定

Quantum information and CP measurement in $H \to \tau^+ \tau^-$ at future lepton colliders ( http://arxiv.org/abs/2211.10513v2 )

ライセンス: Link先を確認
Mohammad Mahdi Altakach, Priyanka Lamba, Fabio Maltoni, Kentarou Mawatari and Kazuki Sakurai(参考訳) そこで本研究では,将来のレプトン衝突器における$H \to \tau^+ \tau^-$崩壊におけるタウレプトン対の量子特性の測定可能性について検討する。 特に,ICCおよびFCC-eeにおいて,ベルの不平等の絡み合い,操舵性,違反の観察を行った。 量子相関の検出は, タウレプトンレストフレームの正確な再構築に大きく依存しており, 衝突ビームと検出器の有限エネルギー分解能のため, 単純な運動学再構成では不十分であることがわかった。 エネルギーの誤測定を補正するために,タウレプトン崩壊の衝撃パラメータの情報を取り入れたログライク化法を開発した。 この方法で量子特性の正確な測定が可能であることを実証する。 副産物として、CP違反の新たなモデル非依存テストが実施でき、ICCおよびFCC-eeにおいて、それぞれ7.9^{\circ}$および5.4^{\circ}$の専用分析に匹敵する精度で、$H \tau \tau$インタラクションのCP相が制約されることを示す。

We introduce a methodology and investigate the feasibility of measuring quantum properties of tau lepton pairs in the $H \to \tau^+ \tau^-$ decay at future lepton colliders. In particular, observation of entanglement, steerability and violation of Bell inequalities are examined for the ILC and FCC-ee. We find that detecting quantum correlation crucially relies on precise reconstruction of the tau lepton rest frame and a simple kinematics reconstruction does not suffice due to the finite energy resolution of the colliding beams and detectors. To correct for energy mismeasurements, a log-likelihood method is developed that incorporates the information of impact parameters of tau lepton decays. We demonstrate that an accurate measurement of quantum properties is possible with this method. As a by-product, we show that a novel model-independent test of CP violation can be performed and the CP-phase of $H \tau \tau$ interaction can be constrained with an accuracy comparable to dedicated analyses, i.e., up to $7.9^{\circ}$ and $5.4^{\circ}$ at ILC and FCC-ee, respectively.
翻訳日:2023-05-15 16:13:32 公開日:2023-05-12
# GLUE-X:分布外一般化の観点からの自然言語理解モデルの評価

GLUE-X: Evaluating Natural Language Understanding Models from an Out-of-distribution Generalization Perspective ( http://arxiv.org/abs/2211.08073v3 )

ライセンス: Link先を確認
Linyi Yang, Shuibai Zhang, Libo Qin, Yafu Li, Yidong Wang, Hanmeng Liu, Jindong Wang, Xing Xie, Yue Zhang(参考訳) プレトレーニング言語モデル(PLM)は,事前学習期間中に大量のデータを活用することにより,自然言語理解モデルの一般化性能を向上させることが知られている。 しかし、多くのNLPタスクにおいて、OOD(out-of-distriion)の一般化問題は依然として課題であり、これらのメソッドの実際の展開を制限している。 本稿では,NLPモデルにおけるOODロバスト性の評価と,OODロバスト性の重要性を強調し,モデルのロバスト性の測定方法とそれを改善する方法についての知見を提供する。 ベンチマークには、OODテスト用の13の公開データセットが含まれており、GPT-3やGPT-3.5を含む21以上の広く使用されているPLMの8つの古典的NLPタスクで評価が行われている。 その結果,NLPタスクにおけるOOD精度の改善の必要性が確認された。

Pre-trained language models (PLMs) are known to improve the generalization performance of natural language understanding models by leveraging large amounts of data during the pre-training phase. However, the out-of-distribution (OOD) generalization problem remains a challenge in many NLP tasks, limiting the real-world deployment of these methods. This paper presents the first attempt at creating a unified benchmark named \method for evaluating OOD robustness in NLP models, highlighting the importance of OOD robustness and providing insights on how to measure the robustness of a model and how to improve it. The benchmark includes 13 publicly available datasets for OOD testing, and evaluations are conducted on 8 classic NLP tasks over 21 popularly used PLMs, including GPT-3 and GPT-3.5. Our findings confirm the need for improved OOD accuracy in NLP tasks, as significant performance degradation was observed in all settings compared to in-distribution (ID) accuracy.
翻訳日:2023-05-15 16:12:19 公開日:2023-05-12
# ニュースと歴史:ウィキペディアにおける集合的注意のネットワークトピックの特定

Between News and History: Identifying Networked Topics of Collective Attention on Wikipedia ( http://arxiv.org/abs/2211.07616v2 )

ライセンス: Link先を確認
Patrick Gildersleve, Renaud Lambiotte, Taha Yasseri(参考訳) デジタル情報ランドスケープは、私たちが新しい情報にどのように反応し、社会レベルで保存するかを理解するための新しい次元を導入しました。 これはウィキペディアのようなプラットフォームが出現すると共に、現在の出来事と出来事の歴史的記述との関係に関する伝統的な見解に挑戦し、「新しい」と「歴史」の分裂が絶え間ない。 ウィキペディアはインターネットの主要な参考文献であり、伝統的な百科事典の知識と重要なニュース記事の両方をいかに表現しているかという疑問を提起している。 言い換えれば、ウィキペディアの既存の話題構造に現在の出来事に関する情報と注意が組み込まれているのか。 そこで本稿では,注目の短期的ダイナミクスと長期的記事ネットワーク構造を考慮に入れた,話題検出のための時間的コミュニティ検出手法を開発する。 本手法を,ページビュー時系列相関や静的ネットワーク構造からのみ見出されるものと異なるクラスタを特定するために,ウィキペディア上の1年間の現在のイベントのデータセットに適用する。 我々は、集合的注意力とリンク構造との相対的な重要性によって、現在の出来事とより確立された知識を強く反映するトピックを解決することができる。 また,wikipediaの創発的な話題を識別し,記述することで,重要な進展を提供する。 この研究は、これらの情報と注意クラスタがウィキペディアの百科事典的な知識と現在の出来事の双子の顔とどのように関連しているかを区別する手段を提供する。

The digital information landscape has introduced a new dimension to understanding how we collectively react to new information and preserve it at the societal level. This, together with the emergence of platforms such as Wikipedia, has challenged traditional views on the relationship between current events and historical accounts of events, with an ever-shrinking divide between "news" and "history". Wikipedia's place as the Internet's primary reference work thus poses the question of how it represents both traditional encyclopaedic knowledge and evolving important news stories. In other words, how is information on and attention towards current events integrated into the existing topical structures of Wikipedia? To address this we develop a temporal community detection approach towards topic detection that takes into account both short term dynamics of attention as well as long term article network structures. We apply this method to a dataset of one year of current events on Wikipedia to identify clusters distinct from those that would be found solely from page view time series correlations or static network structure. We are able to resolve the topics that more strongly reflect unfolding current events vs more established knowledge by the relative importance of collective attention dynamics vs link structures. We also offer important developments by identifying and describing the emergent topics on Wikipedia. This work provides a means of distinguishing how these information and attention clusters are related to Wikipedia's twin faces of encyclopaedic knowledge and current events -- crucial to understanding the production and consumption of knowledge in the digital age.
翻訳日:2023-05-15 16:11:59 公開日:2023-05-12
# 変数共効率$\ell_1$ペナルティによるスパースベイズラッソ

Sparse Bayesian Lasso via a Variable-Coefficient $\ell_1$ Penalty ( http://arxiv.org/abs/2211.05089v3 )

ライセンス: Link先を確認
Nathan Wycoff, Ali Arab, Katharine M. Donato and Lisa O. Singh(参考訳) 現代の統計学習アルゴリズムは驚くほど柔軟性があるが、解釈に苦慮している。 多くのパラメータが同一に 0 と推定されるように推論すると、$\ell_1$ のペナルティのような非滑らかな刑罰が課せられる。 しかし、$\ell_1$ のペナルティは高いスパーシティが要求されるときに大きなバイアスをもたらす。 この記事では、$\ell_1$のペナルティを保ちながら、学習可能なペナルティ重みを$\lambda_p$と定義します。 この記事は、これが引き起こす最適化問題を調査し、$\ell_1$ノルムに関連付けられた近位演算子を開発することから始める。 次に,この変数共効率な$\ell_1$ペナルティの理論的性質をペナルティ化確率の文脈で研究する。 次に,このペナルティを変分ベイズに適用し,ラッソ回帰(lasso regression)のように定性的な振る舞いを任意の変分モデルに適用できる疎ベイズラッソ(sparse bayesian lasso)と呼ばれるモデルを開発した。 シミュレーション研究において、シミュレーションに基づくアプローチにおける不確かさの定量化と低バイアス特性を、桁違いに少ない計算で実現する。 最後に,2013-2017年のイラク内戦中に発生した内部変位のベイズラグ時空間回帰モデルに適用する。

Modern statistical learning algorithms are capable of amazing flexibility, but struggle with interpretability. One possible solution is sparsity: making inference such that many of the parameters are estimated as being identically 0, which may be imposed through the use of nonsmooth penalties such as the $\ell_1$ penalty. However, the $\ell_1$ penalty introduces significant bias when high sparsity is desired. In this article, we retain the $\ell_1$ penalty, but define learnable penalty weights $\lambda_p$ endowed with hyperpriors. We start the article by investigating the optimization problem this poses, developing a proximal operator associated with the $\ell_1$ norm. We then study the theoretical properties of this variable-coefficient $\ell_1$ penalty in the context of penalized likelihood. Next, we investigate application of this penalty to Variational Bayes, developing a model we call the Sparse Bayesian Lasso which allows for behavior qualitatively like Lasso regression to be applied to arbitrary variational models. In simulation studies, this gives us the Uncertainty Quantification and low bias properties of simulation-based approaches with an order of magnitude less computation. Finally, we apply our methodology to a Bayesian lagged spatiotemporal regression model of internal displacement that occurred during the Iraqi Civil War of 2013-2017.
翻訳日:2023-05-15 16:11:35 公開日:2023-05-12
# Astronomia ex machina:天文学におけるニューラルネットワークの歴史,プライマー,展望

Astronomia ex machina: a history, primer, and outlook on neural networks in astronomy ( http://arxiv.org/abs/2211.03796v2 )

ライセンス: Link先を確認
Michael J. Smith (Hertfordshire), James E. Geach (Hertfordshire)(参考訳) 本稿では,天文学における人工知能(AI)と深層学習の歴史的発展と将来展望について考察する。 天文学におけるコネクショナリズムの進化は、多層パーセプトロンの初期の使用から、畳み込みと繰り返しのニューラルネットワークの台頭、そして最後に教師なしおよび生成的深層学習法の現在の時代まで、その3つの波を通して遡る。 天文学データの指数関数的な成長により、ディープラーニング技術は、貴重な洞察を解明し、それまで難解だった問題に取り組む前例のない機会を提供する。 天文接続の予測4波に入ると、天文学的な応用のために微調整されたGPTライクな基礎モデルの採用を論じる。 このようなモデルは、高品質でマルチモーダルな天文学的なデータを多用し、最先端の下流のタスクに役立てることができる。 ビッグデータが推進する進歩に追随するため、我々は天文学コミュニティ内でこれらの基礎モデルを開発・維持するための協調的オープンソースアプローチを提案し、両方の分野のユニークな強みを生かしたAIと天文学の共生関係を育む。

In this review, we explore the historical development and future prospects of artificial intelligence (AI) and deep learning in astronomy. We trace the evolution of connectionism in astronomy through its three waves, from the early use of multilayer perceptrons, to the rise of convolutional and recurrent neural networks, and finally to the current era of unsupervised and generative deep learning methods. With the exponential growth of astronomical data, deep learning techniques offer an unprecedented opportunity to uncover valuable insights and tackle previously intractable problems. As we enter the anticipated fourth wave of astronomical connectionism, we argue for the adoption of GPT-like foundation models fine-tuned for astronomical applications. Such models could harness the wealth of high-quality, multimodal astronomical data to serve state-of-the-art downstream tasks. To keep pace with advancements driven by Big Tech, we propose a collaborative, open-source approach within the astronomy community to develop and maintain these foundation models, fostering a symbiotic relationship between AI and astronomy that capitalizes on the unique strengths of both fields.
翻訳日:2023-05-15 16:11:14 公開日:2023-05-12
# 強化Few-Shot学習のためのトレーニングデータジェネレータとしての言語モデル

Tuning Language Models as Training Data Generators for Augmentation-Enhanced Few-Shot Learning ( http://arxiv.org/abs/2211.03044v2 )

ライセンス: Link先を確認
Yu Meng, Martin Michalski, Jiaxin Huang, Yu Zhang, Tarek Abdelzaher, Jiawei Han(参考訳) 最近の研究は、事前訓練された言語モデル(PLM)の興味深い数発の学習能力を明らかにしている: タスク固有のアノテーションを必要とせず、プロンプトとして表現された少量のラベル付きデータに微調整を施すと、新しいタスクに迅速に適応できる。 有望なパフォーマンスにもかかわらず、小さなトレーニングセットからしか学ばない既存の数発のアプローチは、非自明なマージンによる完全な教師付きトレーニングをまだ下回っている。 本研究は, PLMを用いた数ショット学習について, 異なる視点から検討する: まず, 数ショットサンプルに自己回帰型PLMをチューニングし, 生成体として使用して, 元のトレーニングセットを増強する大量の新規トレーニングサンプルを合成する。 ラベル識別サンプルの作成を促すため,各トークンの重みが識別メタ学習目標に基づいて自動的に調整される重み付き最大度を用いて学習する。 分類PLMは、より高度な一般化と安定性のために、数ショットと合成サンプルの両方で微調整することができる。 提案手法は,従来手法に比べて7つの分類タスクにまたがる総合的な結果を達成し,無示板法を5以上の平均点で改善し,加算法を3以上の平均点で上回った。

Recent studies have revealed the intriguing few-shot learning ability of pretrained language models (PLMs): They can quickly adapt to a new task when fine-tuned on a small amount of labeled data formulated as prompts, without requiring abundant task-specific annotations. Despite their promising performance, most existing few-shot approaches that only learn from the small training set still underperform fully supervised training by nontrivial margins. In this work, we study few-shot learning with PLMs from a different perspective: We first tune an autoregressive PLM on the few-shot samples and then use it as a generator to synthesize a large amount of novel training samples which augment the original training set. To encourage the generator to produce label-discriminative samples, we train it via weighted maximum likelihood where the weight of each token is automatically adjusted based on a discriminative meta-learning objective. A classification PLM can then be fine-tuned on both the few-shot and the synthetic samples with regularization for better generalization and stability. Our approach FewGen achieves an overall better result across seven classification tasks of the GLUE benchmark than existing few-shot learning methods, improving no-augmentation methods by 5+ average points, and outperforming augmentation methods by 3+ average points.
翻訳日:2023-05-15 16:10:52 公開日:2023-05-12
# V$_2$O$_3$における絶縁体-金属モット遷移を駆動する軌道占有のコヒーレント制御

Coherent control of the orbital occupation driving the insulator-to-metal Mott transition in V$_2$O$_3$ ( http://arxiv.org/abs/2211.01735v2 )

ライセンス: Link先を確認
Paolo Franceschini, Veronica R.Policht, Alessandra Milloch, Andrea Ronchi, Selene Mor, Simon Mellaerts, Wei-Fan Hsu, Stefania Pagliara, Gabriele Ferrini, Francesco Banfi, Michele Fabrizio, Mariela Menghini, Jean-Pierre Locquet, Stefano Dal Conte, Giulio Cerullo, and Claudio Giannetti(参考訳) 電子コヒーレンス損失よりも早い時間スケールでの光間相互作用の管理は、固相変換における最終生成物の完全な量子制御を達成するための鍵である。 本研究では,原型mott絶縁体v$_2$o$_3$における光誘起絶縁体-金属転移のコヒーレント電子制御を示す。 2つの位相同期光パルスによる特定のバンド間遷移の選択的励起は、状態の光誘起重ね合わせのコヒーレントな進化に依存する方法で相関バンドの軌道占有を制御する。 実験結果と光学ブロッホ方程式の数値解の比較により、5fsの電子コヒーレンス時間が得られる。 温度依存性実験により,絶縁体-金属間遷移臨界温度付近で電子コヒーレンス時間が向上し,電子コヒーレンス決定における揺らぎの役割が強調された。 これらの結果は、量子材料の機能性を選択的に切り替え、固体電子変換をコヒーレントに制御する新しい経路を開く。

Managing light-matter interactions on timescales faster than the loss of electronic coherence is key for achieving full quantum control of the final products in solid-solid transformations. In this work, we demonstrate coherent electronic control of the photoinduced insulator-to-metal transition in the prototypical Mott insulator V$_2$O$_3$. Selective excitation of a specific interband transition with two phase-locked light pulses manipulates the orbital occupation of the correlated bands in a way that depends on the coherent evolution of the photoinduced superposition of states. A comparison between experimental results and numerical solutions of the optical Bloch equations provides an electronic coherence time on the order of 5 fs. Temperature-dependent experiments suggest that the electronic coherence time is enhanced in the vicinity of the insulator-to-metal transition critical temperature, thus highlighting the role of fluctuations in determining the electronic coherence. These results open new routes to selectively switch the functionalities of quantum materials and coherently control solid-solid electronic transformations.
翻訳日:2023-05-15 16:10:28 公開日:2023-05-12
# 質問と回答による談話分析:議論中の質問の係り受け構造の解析

Discourse Analysis via Questions and Answers: Parsing Dependency Structures of Questions Under Discussion ( http://arxiv.org/abs/2210.05905v2 )

ライセンス: Link先を確認
Wei-Jen Ko, Yating Wu, Cutter Dalton, Dananjay Srinivas, Greg Durrett, Junyi Jessy Li(参考訳) 現在の談話形式は、談話関係の大規模な分類を含む非常に要求の厳しいアノテーションタスクを生じさせ、注釈を付けることができない。 この研究は、談話分析の言語的枠組みであるQUDを採用し、QUD構造を自動的に導き出そうとしている。 QUDは、各文を、先行文脈で引き起こされた質問に対する答えとみなし、文間の関係を、徹底的なきめ細かい分類学とは対照的に、自由形式の質問として特徴づける。 本研究では,大規模クラウドソース型質問応答データセットDCQA(Ko et al., 2022)を用いて,全文書に対する質問の依存関係構造を導出するQUDパーサを開発した。 このクラウドソースで一般化可能なアノテーションスキームで訓練された言語モデルに対して,人間の評価結果からQUD依存性解析が可能であることが示唆された。 本稿では,我々のQUD構造がRTT木とどのように異なるかを説明し,文書単純化の文脈におけるQUD解析の有用性を示す。 以上の結果から,QUD解析は自動談話処理の魅力的な代替手段であることがわかった。

Automatic discourse processing is bottlenecked by data: current discourse formalisms pose highly demanding annotation tasks involving large taxonomies of discourse relations, making them inaccessible to lay annotators. This work instead adopts the linguistic framework of Questions Under Discussion (QUD) for discourse analysis and seeks to derive QUD structures automatically. QUD views each sentence as an answer to a question triggered in prior context; thus, we characterize relationships between sentences as free-form questions, in contrast to exhaustive fine-grained taxonomies. We develop the first-of-its-kind QUD parser that derives a dependency structure of questions over full documents, trained using a large, crowdsourced question-answering dataset DCQA (Ko et al., 2022). Human evaluation results show that QUD dependency parsing is possible for language models trained with this crowdsourced, generalizable annotation scheme. We illustrate how our QUD structure is distinct from RST trees, and demonstrate the utility of QUD analysis in the context of document simplification. Our findings show that QUD parsing is an appealing alternative for automatic discourse processing.
翻訳日:2023-05-15 16:09:51 公開日:2023-05-12
# 局所プローブによる量子場の絡み合い構造

Entanglement structure of quantum fields through local probes ( http://arxiv.org/abs/2301.08775v2 )

ライセンス: Link先を確認
Bruno de S. L. Torres, Kelly Wurtz, Jos\'e Polo-G\'omez, Eduardo Mart\'in-Mart\'inez(参考訳) 本稿では、相対論的量子情報における粒子検出器の形式性に着想を得た量子場理論の絡み合い構造を研究する枠組みを提案する。 この枠組みは原則として、UVの発散に遭遇することなく、時空の任意の形の領域間のQFTの絡み合いを忠実に捉え、他のアプローチでよく見られる多くの問題を回避することができる。 また, エンタングルメント収穫の効率の限界も確立し, フィールド理論における時空部分領域間のエンタングルメントの操作的定義の動機付けにも利用することができる。

We present a framework to study the entanglement structure of a quantum field theory inspired by the formalism of particle detectors in relativistic quantum information. This framework can in principle be used to faithfully capture entanglement in a QFT between arbitrary-shaped regions of spacetime without encountering UV divergences, bypassing many of the issues typically present in other approaches. Our results also establish the limits of the efficiency of entanglement harvesting, and may also be used to motivate an operational definition of entanglement between spacetime subregions in field theory.
翻訳日:2023-05-15 16:03:30 公開日:2023-05-12
# 相互作用するボース-ボース混合系の量子カオス

Quantum chaos in interacting Bose-Bose mixtures ( http://arxiv.org/abs/2301.04818v2 )

ライセンス: Link先を確認
Tran Duong Anh-Tai and Mathias Mikkelsen and Thomas Busch and Thom\'as Fogarty(参考訳) カオス量子力学の出現は系の対称性に大きく依存し、低温原子系ではこれらの多くを実験的に制御することができる。 本研究では,粒子-粒子相互作用を調整し,一次元の調和に閉じ込められたボース-ボース混合体を記述する最小系の量子カオスの出現を系統的に研究する。 高精度な対角化手法を用いて、成分間相互作用が弱から強に変化するとき、積分性からカオスへの遷移を検討する。 本研究は, 固有状態熱化仮説とそれらのダイナミクスの観点から, 観測可能物質の濃度間隔分布と行列要素の分布の解析に基づく。 我々は,成分間相互作用強度を高め,成分間相互作用の対称性を破ることで,カオスの強いシグネチャを得ることができることを示す。

The appearance of chaotic quantum dynamics significantly depends on the symmetry properties of the system, and in cold atomic systems many of these can be experimentally controlled. In this work, we systematically study the emergence of quantum chaos in a minimal system describing one-dimensional harmonically trapped Bose-Bose mixtures by tuning the particle-particle interactions. Using an advanced exact diagonalization scheme, we examine the transition from integrability to chaos when the inter-component interaction changes from weak to strong. Our study is based on the analysis of the level spacing distribution and the distribution of the matrix elements of observables in terms of the eigenstate thermalization hypothesis and their dynamics. We show that one can obtain strong signatures of chaos by increasing the inter-component interaction strength and breaking the symmetry of intra-component interactions.
翻訳日:2023-05-15 16:03:19 公開日:2023-05-12
# 量子カオス指標としての時間外相関子の相対的漸近振動

Relative asymptotic oscillations of the out-of-time-ordered correlator as a quantum chaos indicator ( http://arxiv.org/abs/2301.02456v2 )

ライセンス: Link先を確認
Jakub Novotn\'y, Pavel Str\'ansk\'y(参考訳) 詳細な数値研究により、時間外整列コリレータの標準偏差-平均比の漸近値がシステムの量子カオス性の尺度として有効であることが判明した。 自由度が2つの有限サイズの完全連結量子系、すなわち代数的u(3)モデルを採用し、相関子の相対振動と、系の古典的極限における位相空間体積のカオス的部分の比との明確な対応を示す。 また、相対振動がシステムサイズとどのようにスケールするかを示し、スケーリング指数が堅牢なカオス指標としても機能することを示す。

A detailed numerical study reveals that the asymptotic values of the standard deviation-to-mean ratio of the out-of-time-ordered correlator can be successfully used as a measure of the quantum chaoticity of the system. We employ a finite-size fully connected quantum system with two degrees of freedom, namely the algebraic u(3) model, and demonstrate a clear correspondence between the relative oscillations of the correlators and the ratio of the chaotic part of the volume of phase space in the classical limit of the system. We also show how the relative oscillations scale with the system size and conjecture that the scaling exponent can also serve as a robust chaos indicator.
翻訳日:2023-05-15 16:03:06 公開日:2023-05-12
# 非マルコフ環境における量子電池の充電-衝突モデルによるアプローチ

Charging a quantum battery in a non-Markovian environment: a collisional model approach ( http://arxiv.org/abs/2212.13488v2 )

ライセンス: Link先を確認
Daniele Morrone, Matteo A. C. Rossi, Andrea Smirne, Marco G. Genoni(参考訳) オープンシステム量子電池の充電過程における非マルコビアン性の影響について検討する。 我々は衝突モデルフレームワークを用いて,環境を離散的なシステム群で記述し,これらのアンシラを相互作用させることで,ダイナミクスにおけるメモリ効果を導入することができる。 本研究では,定常エルゴトロピーの挙動と,システムへの情報バックフローが充電過程を特徴付ける異なる特徴に与える影響について詳細に検討する。 この値は記憶のない環境が存在する場合にのみ得られるが、[d. farina et al., phys. rev. b 99, 035421 (2019)] で導かれるような大きな損失限度においてのみ得られる。 一般に、メモリを持つ環境の存在により、パラメータ空間のより広い領域に対して最大値に近い定常エルゴトロピーを生成でき、その結果、より短い時間で実現可能であることを示す。 非マルコフ性に関する幾何学的尺度に依拠して、バッテリのダイナミクスの非マルコフ性がゼロである場合、または、バッテリに接続された環境と充電器によって引き起こされるメモリ効果の非自明な相互作用の結果、記憶の有無と無記憶の場合の両方においてエルゴトロピー最大値が得られることを示す。

We study the effect of non-Markovianity in the charging process of an open-system quantum battery. We employ a collisional model framework, where the environment is described by a discrete set of ancillary systems and memory effects in the dynamics can be introduced by allowing these ancillas to interact. We study in detail the behaviour of the steady-state ergotropy and the impact of the information backflow to the system on the different features characterizing the charging process. Remarkably, we find that there is a maximum value of the ergotropy achievable: this value can be obtained either in the presence of memoryless environment, but only in the large-loss limit, as derived in [D. Farina et al., Phys. Rev. B 99, 035421 (2019)], or in the presence of an environment with memory also beyond the large-loss limit. In general, we show that the presence of an environment with memory allows us to generate steady-state ergotropy near to its maximum value for a much larger region in the parameter space and thus potentially in a shorter time. Relying on the geometrical measure of non-Markovianity, we show that in both the cases of an environment with and without memory the ergotropy maximum is obtained when the non-Markovianity of the dynamics of the battery is zero, possibly as the result of a non-trivial interplay between the memory effects induced by, respectively, the environment and the charger connected to the battery.
翻訳日:2023-05-15 16:02:55 公開日:2023-05-12
# 多層標本の量子強化プローブ

Quantum enhanced probing of multilayered-samples ( http://arxiv.org/abs/2212.12960v2 )

ライセンス: Link先を確認
Mayte Y. Li-Gomez, Pablo D. Yepiz-Graciano, Taras Hrushevskyi, Omar Calderon-Losada, Erhan Saglamyurek, Dorilian Lopez-Mago, Vahid Salari, Trong Ngo, Alfred B. U'Ren, and Shabir Barzanjeh(参考訳) 量子センシングは量子現象を利用して、物理系や生物の古典的パラメータの検出と推定を強化し、特にその古典的パラメータの非効率を克服する。 量子センシングにおける特に有望なアプローチは、多層材料の内部構造を再構築するために非古典的な光源に依存する量子光コヒーレンストモグラフィである。 従来の古典的プローブと比較すると、量子光学コヒーレンストモグラフィは高分解能の画像を提供し、偶数次分散に影響されない。 この技術の主な限界の1つは、アーティファクトやエコーの出現、すなわち、偶然の干渉図に現れる偽の構造物の出現であり、トモグラフィースキャンに必要な情報の検索を妨げている。 そこで,全理論モデルと高速遺伝的アルゴリズムを組み合わせることで,複雑な多層試料の形態を抽出し,実際の界面,アーティファクト,エコーを徹底的に識別することに成功した。 このモデルとアルゴリズムの有効性を, ポンプの波長変化の制御により, 実験的に生成したインターフェログラムと比較した。 本研究は, 生体画像・センシング, 臨床応用, 材料科学において, 複雑な構造の高分解能探査と光分解性材料の非侵襲走査の開発につながる可能性がある。

Quantum sensing exploits quantum phenomena to enhance the detection and estimation of classical parameters of physical systems and biological entities, particularly so as to overcome the inefficiencies of its classical counterparts. A particularly promising approach within quantum sensing is Quantum Optical Coherence Tomography which relies on non-classical light sources to reconstruct the internal structure of multilayered materials. Compared to traditional classical probing, Quantum Optical Coherence Tomography provides enhanced-resolution images and is unaffected by even-order dispersion. One of the main limitations of this technique lies in the appearance of artifacts and echoes, i.e. fake structures that appear in the coincidence interferogram, which hinder the retrieval of information required for tomography scans. Here, by utilizing a full theoretical model, in combination with a fast genetic algorithm to post-process the data, we successfully extract the morphology of complex multilayered samples and thoroughly distinguish real interfaces, artifacts, and echoes. We test the effectiveness of the model and algorithm by comparing its predictions to experimentally-generated interferograms through the controlled variation of the pump wavelength. Our results could potentially lead to the development of practical high-resolution probing of complex structures and non-invasive scanning of photo-degradable materials for biomedical imaging/sensing, clinical applications, and materials science.
翻訳日:2023-05-15 16:02:29 公開日:2023-05-12
# PLUE:英語のプライバシーポリシーのための言語理解評価ベンチマーク

PLUE: Language Understanding Evaluation Benchmark for Privacy Policies in English ( http://arxiv.org/abs/2212.10011v2 )

ライセンス: Link先を確認
Jianfeng Chi, Wasi Uddin Ahmad, Yuan Tian, Kai-Wei Chang(参考訳) プライバシーポリシーは、個人に自分の権利と個人情報の扱い方に関する情報を提供する。 自然言語理解(NLU)技術は、個人や実践者が長く複雑なドキュメントに記述されたより良いプライバシープラクティスを理解するのを支援することができる。 しかしながら、NLU技術を使用する既存の取り組みは、特定のプライバシープラクティスに焦点を当てた単一のタスクに限定して言語を処理することで制限されている。 そこで本研究では,プライバシポリシ言語理解度評価のためのマルチタスクベンチマークであるprivacy policy language understanding evaluation(plue)ベンチマークを紹介する。 また,プライバシポリシのドメイン固有言語モデル事前トレーニングを可能にするために,プライバシポリシの大規模なコーパスも収集しています。 我々は,いくつかの言語モデルの評価を行い,収集したコーパス上で事前学習を継続する。 ドメイン固有の連続的な事前トレーニングは、すべてのタスクに対してパフォーマンス改善を提供します。

Privacy policies provide individuals with information about their rights and how their personal information is handled. Natural language understanding (NLU) technologies can support individuals and practitioners to understand better privacy practices described in lengthy and complex documents. However, existing efforts that use NLU technologies are limited by processing the language in a way exclusive to a single task focusing on certain privacy practices. To this end, we introduce the Privacy Policy Language Understanding Evaluation (PLUE) benchmark, a multi-task benchmark for evaluating the privacy policy language understanding across various tasks. We also collect a large corpus of privacy policies to enable privacy policy domain-specific language model pre-training. We evaluate several generic pre-trained language models and continue pre-training them on the collected corpus. We demonstrate that domain-specific continual pre-training offers performance improvements across all tasks.
翻訳日:2023-05-15 16:02:05 公開日:2023-05-12
# 電気回路における一般エネルギー分配

Generalised energy equipartition in electrical circuits ( http://arxiv.org/abs/2212.07024v2 )

ライセンス: Link先を確認
Aritra Ghosh(参考訳) 本稿では,johnson-nyquist (thermal) ノイズを持つ一般電気回路に対する一般化エネルギー同分定理を示す。 量子力学的考察から、熱モードはプランクの法則によって決定されるエネルギー分布を持つ。 あるインダクタンスを持つ抵抗回路では、アドミタンスの実部は、フーリエスペクトルの様々な周波数からのシステムの平均エネルギーへの寄与を変調する確率分布関数に比例していることが示されている。 さらに,インダクタと抵抗器で直列に接続されたキャパシタを用いてケース解析を行う。 結果は超統計学、すなわち2つの統計の重ね合わせに似ており、エネルギー表現で再構成することができる。 正しい古典的極限は$\hbar \rightarrow 0$として得られる。

In this brief note, we demonstrate a generalised energy equipartition theorem for a generic electrical circuit with Johnson-Nyquist (thermal) noise. From quantum mechanical considerations, the thermal modes have an energy distribution dictated by Planck's law. For a resistive circuit with some inductance, it is shown that the real part of the admittance is proportional to a probability distribution function which modulates the contributions to the system's mean energy from various frequencies of the Fourier spectrum. Further, we analyse the case with a capacitor connected in series with an inductor and a resistor. The results resemble superstatistics, i.e. a superposition of two statistics and can be reformulated in the energy representation. The correct classical limit is obtained as $\hbar \rightarrow 0$.
翻訳日:2023-05-15 16:01:52 公開日:2023-05-12
# rho (\rho$):知識基盤を持つオープンドメイン対話における幻覚の軽減

RHO ($\rho$): Reducing Hallucination in Open-domain Dialogues with Knowledge Grounding ( http://arxiv.org/abs/2212.01588v2 )

ライセンス: Link先を確認
Ziwei Ji, Zihan Liu, Nayeon Lee, Tiezheng Yu, Bryan Wilie, Min Zeng, Pascale Fung(参考訳) 対話システムは、大きな事前学習された言語モデルと知識を活用し、滑らかで情報に富んだ応答を生成することができる。 しかし、これらのモデルはまだ入力元がサポートしていない幻覚反応を生じやすいため、その応用は著しく阻害される。 外部知識と対話コンテキストの異質性は学習とソース統合を表現し、さらに不信感に寄与する。 この課題に対処し、より忠実な応答を生成するために、知識グラフ(KG)からリンクされたエンティティと関係述語を表現したRHO(\rho$)を提示する。 本稿では,(1)テキスト埋め込みと対応するKG埋め込みを組み合わせるための局所知識基盤,(2)注目機構を介してRHOにマルチホップ推論能力を持たせるためのグローバル知識基盤を提案する。 さらに,KGサブグラフのウォーキングに基づく応答再分類手法を考案し,会話推論の精度向上を図る。 OpenDialKGによる実験結果から,特に幻覚減少(17.54%)において,我々のアプローチは,自動評価と人的評価の両方において,最先端の手法を著しく上回っていることが明らかとなった。

Dialogue systems can leverage large pre-trained language models and knowledge to generate fluent and informative responses. However, these models are still prone to produce hallucinated responses not supported by the input source, which greatly hinders their application. The heterogeneity between external knowledge and dialogue context challenges representation learning and source integration, and further contributes to unfaithfulness. To handle this challenge and generate more faithful responses, this paper presents RHO ($\rho$) utilizing the representations of linked entities and relation predicates from a knowledge graph (KG). We propose (1) local knowledge grounding to combine textual embeddings with the corresponding KG embeddings; and (2) global knowledge grounding to equip RHO with multi-hop reasoning abilities via the attention mechanism. In addition, we devise a response re-ranking technique based on walks over KG sub-graphs for better conversational reasoning. Experimental results on OpenDialKG show that our approach significantly outperforms state-of-the-art methods on both automatic and human evaluation by a large margin, especially in hallucination reduction (17.54% in FeQA).
翻訳日:2023-05-15 16:01:41 公開日:2023-05-12
# 弱連結ネットワークシステムにおけるコヒーレントクラスタの学習

Learning Coherent Clusters in Weakly-Connected Network Systems ( http://arxiv.org/abs/2211.15301v2 )

ライセンス: Link先を確認
Hancheng Min and Enrique Mallada(参考訳) 本稿では,密結合コンポーネントを用いた大規模動的ネットワークのための構造保存モデル還元手法を提案する。 まず、コヒーレント群は、ネットワークフィードバックをモデル化したグラフラプラシア行列上のスペクトルクラスタリングアルゴリズムによって同定される。 次に、各ノードが各コヒーレントグループの集合ダイナミクスを表すように縮小されたネットワークを構築し、還元されたネットワークがグループ間の動的結合をキャプチャする。 重み付き確率ブロックモデルからネットワークグラフをランダムに生成する場合、近似誤差の上限を与える。 最後に, 数値実験は理論的な知見と一致し, 検証する。

We propose a structure-preserving model-reduction methodology for large-scale dynamic networks with tightly-connected components. First, the coherent groups are identified by a spectral clustering algorithm on the graph Laplacian matrix that models the network feedback. Then, a reduced network is built, where each node represents the aggregate dynamics of each coherent group, and the reduced network captures the dynamic coupling between the groups. We provide an upper bound on the approximation error when the network graph is randomly generated from a weight stochastic block model. Finally, numerical experiments align with and validate our theoretical findings.
翻訳日:2023-05-15 16:00:46 公開日:2023-05-12
# 少ない被写体検出に有効なクロップペーストパイプライン

An Effective Crop-Paste Pipeline for Few-shot Object Detection ( http://arxiv.org/abs/2302.14452v2 )

ライセンス: Link先を確認
Shaobo Lin, Kun Wang, Xingyu Zeng, Rui Zhao(参考訳) Few-shot Object Detection (FSOD) は、トレーニングのいくつかの例に限って、新しいカテゴリのオブジェクト検出器を拡張することを目的としている。 しかし、少数のサンプルしか持たない新しいカテゴリの検出は、通常、誤分類の問題につながる。 FSODでは,新規カテゴリーの偽陽性(FP)が顕著であり,基本カテゴリーは新規カテゴリーと認識されることが多い。 この問題に対処するために, cnpbと呼ばれる, 新規インスタンスを抽出し, 選択したベースイメージにペーストする新しいデータ拡張パイプラインを提案する。 1) 有用なベースイメージをどのように選択するか? そして(2)新しいデータとベースデータを組み合わせるには? 有用なベースデータを見つけるために,多段階選択戦略を設計する。 具体的には、まず、新しいカテゴリのFPを含むベースイメージを発見し、そのベースと新しいカテゴリのバランスのために、一定の量のサンプルを選択する。 そして、CLIPを使用して、未ラベルの基底画像や容易に混乱したベースインスタンスなどの悪いケースを除去する。 最後に、n の FP の基底画像上に、n の新規なインスタンスをペーストする同じカテゴリ戦略が採用されている。 組み合わせの間、新規インスタンスをトリミングしてランダムにダウンサイズし、選択されたベース画像内のランダムに生成された候補から割り当てられた最適な位置にペーストする。 本手法は単純かつ効果的であり,既存のfsodメソッドへの接続が容易であり,有用性が示唆される。 PASCAL VOCおよびMS COCOの大規模実験により,本法の有効性が検証された。

Few-shot object detection (FSOD) aims to expand an object detector for novel categories given only a few instances for training. However, detecting novel categories with only a few samples usually leads to the problem of misclassification. In FSOD, we notice the false positive (FP) of novel categories is prominent, in which the base categories are often recognized as novel ones. To address this issue, a novel data augmentation pipeline that Crops the Novel instances and Pastes them on the selected Base images, called CNPB, is proposed. There are two key questions to be answered: (1) How to select useful base images? and (2) How to combine novel and base data? We design a multi-step selection strategy to find useful base data. Specifically, we first discover the base images which contain the FP of novel categories and select a certain amount of samples from them for the base and novel categories balance. Then the bad cases, such as the base images that have unlabeled ground truth or easily confused base instances, are removed by using CLIP. Finally, the same category strategy is adopted, in which a novel instance with category n is pasted on the base image with the FP of n. During combination, a novel instance is cropped and randomly down-sized, and thus pasted at the assigned optimal location from the randomly generated candidates in a selected base image. Our method is simple yet effective and can be easy to plug into existing FSOD methods, demonstrating significant potential for use. Extensive experiments on PASCAL VOC and MS COCO validate the effectiveness of our method.
翻訳日:2023-05-15 15:54:20 公開日:2023-05-12
# エージェントアルゴリズムの高度化によるハーム

Harms from Increasingly Agentic Algorithmic Systems ( http://arxiv.org/abs/2302.10329v2 )

ライセンス: Link先を確認
Alan Chan, Rebecca Salganik, Alva Markelius, Chris Pang, Nitarshan Rajkumar, Dmitrii Krasheninnikov, Lauro Langosco, Zhonghao He, Yawen Duan, Micah Carroll, Michelle Lin, Alex Mayhew, Katherine Collins, Maryam Molamohammadi, John Burden, Wanru Zhao, Shalaleh Rismani, Konstantinos Voudouris, Umang Bhatt, Adrian Weller, David Krueger, Tegan Maharaj(参考訳) FATE(Research in Fairness, Accountability, Transparency, and Ethics)は、医療、金融、警察、レコメンデーションといった様々な分野において、アルゴリズムによる害の源泉と形態を確立している。 これらのシステムの深刻な被害を緩和するために多くの作業が継続され、特に周辺地域社会に不釣り合いに影響を及ぼしている。 これらの継続的な害にもかかわらず、同じ害の永続性と新しい害の創出を脅かす新しいシステムが開発され、展開されている。 これに対し、FATEコミュニティは害を予想することの重要性を強調している。 我々の研究は、ますますエージェントシステムからの危害の予測に焦点を当てている。 二元性としてエージェンシーの定義を提供する代わりに、特に組み合わせて、特定のアルゴリズムシステムのエージェンシーを増加させる傾向がある4つの重要な特徴を識別する: 下位特定、影響の直接性、目標指向性、長期計画である。 我々はまた、機関の増加によって生じる重要な危害についても論じる -- 特に、システム的および/または長距離的影響、しばしば限界化されたステークホルダーへの影響を含む。 我々は、アルゴリズムシステムの認識機関が、アルゴリズムの害に対する人間の責任を解消またはシフトしないことを強調した。 むしろ、私たちはこの用語を使って、MLシステムが完全に人間のコントロール下にないという、ますます明白な事実を強調しています。 本研究は,3つの部分のエージェント型アルゴリズムシステムについて検討する。 まず,アルゴリズムシステムにおけるエージェントの増加という概念を,分野横断のエージェントに対する多様な視点の文脈で説明する。 第2に,エージェントシステムの増加に伴う被害を予測する必要性について論じる。 第3に,エージェントシステムの増加に伴う重要な害とその対処方法について議論する。 我々は,新興システムからのアルゴリズム的害を予想する作業の意義を反映して結論付ける。

Research in Fairness, Accountability, Transparency, and Ethics (FATE) has established many sources and forms of algorithmic harm, in domains as diverse as health care, finance, policing, and recommendations. Much work remains to be done to mitigate the serious harms of these systems, particularly those disproportionately affecting marginalized communities. Despite these ongoing harms, new systems are being developed and deployed which threaten the perpetuation of the same harms and the creation of novel ones. In response, the FATE community has emphasized the importance of anticipating harms. Our work focuses on the anticipation of harms from increasingly agentic systems. Rather than providing a definition of agency as a binary property, we identify 4 key characteristics which, particularly in combination, tend to increase the agency of a given algorithmic system: underspecification, directness of impact, goal-directedness, and long-term planning. We also discuss important harms which arise from increasing agency -- notably, these include systemic and/or long-range impacts, often on marginalized stakeholders. We emphasize that recognizing agency of algorithmic systems does not absolve or shift the human responsibility for algorithmic harms. Rather, we use the term agency to highlight the increasingly evident fact that ML systems are not fully under human control. Our work explores increasingly agentic algorithmic systems in three parts. First, we explain the notion of an increase in agency for algorithmic systems in the context of diverse perspectives on agency across disciplines. Second, we argue for the need to anticipate harms from increasingly agentic systems. Third, we discuss important harms from increasingly agentic systems and ways forward for addressing them. We conclude by reflecting on implications of our work for anticipating algorithmic harms from emerging systems.
翻訳日:2023-05-15 15:53:55 公開日:2023-05-12
# 因果効果推定のための局所因果発見

Local Causal Discovery for Estimating Causal Effects ( http://arxiv.org/abs/2302.08070v3 )

ライセンス: Link先を確認
Shantanu Gupta, David Childers, Zachary C. Lipton(参考訳) 我々のデータに基づく因果グラフが未知であっても、平均処理効果(ATE)が得る可能性のある値を、(1)マルコフ同値クラスまで同定し、(2)クラス内の各グラフに対してATEを推定することで、観測データを用いて絞り込むことができる。 PCアルゴリズムは強い忠実性の仮定の下でこのクラスを識別できるが、計算的に禁止することができる。 幸いなことに、処理の周りの局所グラフ構造のみが、可能なate値のセットを特定するために必要であり、これは計算効率を改善するために局所探索アルゴリズムによって利用される。 本稿では,従来の方法と異なり,非シールド型衝突器を利用した局所因果探索アルゴリズムであるEager Collider Checks (LDECC) を用いた局所発見について紹介する。 LDECCが既存の局所探索アルゴリズムを指数関数的に上回るグラフが存在することを示す。 さらに, LDECC と既存のアルゴリズムは異なる信頼度仮定に依存しており, この知見を活用して ATE 値の集合を同定する仮定を弱めていることを示す。

Even when the causal graph underlying our data is unknown, we can use observational data to narrow down the possible values that an average treatment effect (ATE) can take by (1) identifying the graph up to a Markov equivalence class; and (2) estimating that ATE for each graph in the class. While the PC algorithm can identify this class under strong faithfulness assumptions, it can be computationally prohibitive. Fortunately, only the local graph structure around the treatment is required to identify the set of possible ATE values, a fact exploited by local discovery algorithms to improve computational efficiency. In this paper, we introduce Local Discovery using Eager Collider Checks (LDECC), a new local causal discovery algorithm that leverages unshielded colliders to orient the treatment's parents differently from existing methods. We show that there exist graphs where LDECC exponentially outperforms existing local discovery algorithms and vice versa. Moreover, we show that LDECC and existing algorithms rely on different faithfulness assumptions, leveraging this insight to weaken the assumptions for identifying the set of possible ATE values.
翻訳日:2023-05-15 15:53:29 公開日:2023-05-12
# ランダム事前ネットワークを用いた高次元出力によるスケーラブルベイズ最適化

Scalable Bayesian optimization with high-dimensional outputs using randomized prior networks ( http://arxiv.org/abs/2302.07260v4 )

ライセンス: Link先を確認
Mohamed Aziz Bhouri and Michael Joly and Robert Yu and Soumalya Sarkar and Paris Perdikaris(参考訳) 科学と工学におけるいくつかの基本的な問題は、制御可能な変数の集合を高価な実験の結果にマッピングする未知の高次元(ブラックボックス)関数を含む大域的な最適化タスクである。 ベイズ最適化(BO)技術は、相対的に少数の目的関数評価を用いて大域的最適化問題に取り組むのに有効であることが知られているが、その性能は高次元出力を扱う際に損なわれる。 本稿では、次元性の大きな課題を克服するために、BOのためのディープラーニングフレームワークと、ランダム化前のニューラルネットワークの自己ストラップ型アンサンブルに基づくシーケンシャル意思決定を提案する。 適切なアーキテクチャの選択を用いて,提案手法は,高次元ベクトル空間や無限次元関数空間の値を取る場合であっても,設計変数と関心量の関数関係を近似できることを示した。 BOの文脈では,マルチポイント(並列)取得関数の再パラメータ化モンテカルロ近似と,ブラックボックス制約やマルチファイダリティ情報ソースを調節するための方法論拡張を用いて,確率的サロゲートを提案する。 提案手法をBOの最先端手法に対して検証し,ターボ機械におけるローターブレードの形状最適化を伴う制約付き多面的最適化タスクを含む,高次元出力の課題に対して優れた性能を示す。

Several fundamental problems in science and engineering consist of global optimization tasks involving unknown high-dimensional (black-box) functions that map a set of controllable variables to the outcomes of an expensive experiment. Bayesian Optimization (BO) techniques are known to be effective in tackling global optimization problems using a relatively small number objective function evaluations, but their performance suffers when dealing with high-dimensional outputs. To overcome the major challenge of dimensionality, here we propose a deep learning framework for BO and sequential decision making based on bootstrapped ensembles of neural architectures with randomized priors. Using appropriate architecture choices, we show that the proposed framework can approximate functional relationships between design variables and quantities of interest, even in cases where the latter take values in high-dimensional vector spaces or even infinite-dimensional function spaces. In the context of BO, we augmented the proposed probabilistic surrogates with re-parameterized Monte Carlo approximations of multiple-point (parallel) acquisition functions, as well as methodological extensions for accommodating black-box constraints and multi-fidelity information sources. We test the proposed framework against state-of-the-art methods for BO and demonstrate superior performance across several challenging tasks with high-dimensional outputs, including a constrained multi-fidelity optimization task involving shape optimization of rotor blades in turbo-machinery.
翻訳日:2023-05-15 15:53:10 公開日:2023-05-12
# ロバストかつスケーラブルなベイズオンライン変更点検出

Robust and Scalable Bayesian Online Changepoint Detection ( http://arxiv.org/abs/2302.04759v2 )

ライセンス: Link先を確認
Matias Altamirano, Fran\c{c}ois-Xavier Briol, Jeremias Knoblauch(参考訳) 本稿では,オンラインかつ実現可能なロバストでスケーラブルな変更点検出手法を提案する。 このアルゴリズムは、一般化されたベイズ的視点を利用して証明可能な堅牢性を提供し、また、以前の試みのスケーラビリティ問題にも対処する。 具体的には、提案する一般化ベイズ形式は拡散スコアマッチングを活用し、パラメータが閉じた形で利用可能となる共役後続性をもたらす。 結果のアルゴリズムは正確で、単純な代数で更新でき、最も近い競合より10倍以上高速である。

This paper proposes an online, provably robust, and scalable Bayesian approach for changepoint detection. The resulting algorithm has key advantages over previous work: it provides provable robustness by leveraging the generalised Bayesian perspective, and also addresses the scalability issues of previous attempts. Specifically, the proposed generalised Bayesian formalism leads to conjugate posteriors whose parameters are available in closed form by leveraging diffusion score matching. The resulting algorithm is exact, can be updated through simple algebra, and is more than 10 times faster than its closest competitor.
翻訳日:2023-05-15 15:52:22 公開日:2023-05-12
# GPS++:分子特性予測のためのメッセージパッシングの復活

GPS++: Reviving the Art of Message Passing for Molecular Property Prediction ( http://arxiv.org/abs/2302.02947v2 )

ライセンス: Link先を確認
Dominic Masters, Josef Dean, Kerstin Klaser, Zhiyi Li, Sam Maddrell-Mander, Adam Sanders, Hatem Helal, Deniz Beker, Andrew Fitzgibbon, Shenyang Huang, Ladislav Ramp\'a\v{s}ek, Dominique Beaini(参考訳) 分子特性予測のためのハイブリッドメッセージパッシングニューラルネットワーク/グラフトランスモデルであるGPS++を提案する。 本モデルでは,よく調整された局所的メッセージパッシング成分と,先行文献から得られた他の重要な概念を偏り,大規模分子データセットpcqm4mv2で最新の結果を得る。 徹底的なアブレーション研究を通じて、個々のコンポーネントが与える影響を強調し、モデルのパフォーマンスのほとんどが、グローバル・セルフ・アテンションを使わずに維持可能であることを見出し、最近グラフトランスフォーマーが優勢であるにもかかわらず、メッセージパッシングは依然として3d分子特性予測の競争的アプローチであることを示した。 また, 3次元位置情報が得られない場合, 先行技術よりもはるかに精度が高いことが判明した。

We present GPS++, a hybrid Message Passing Neural Network / Graph Transformer model for molecular property prediction. Our model integrates a well-tuned local message passing component and biased global attention with other key ideas from prior literature to achieve state-of-the-art results on large-scale molecular dataset PCQM4Mv2. Through a thorough ablation study we highlight the impact of individual components and find that nearly all of the model's performance can be maintained without any use of global self-attention, showing that message passing is still a competitive approach for 3D molecular property prediction despite the recent dominance of graph transformers. We also find that our approach is significantly more accurate than prior art when 3D positional information is not available.
翻訳日:2023-05-15 15:52:13 公開日:2023-05-12
# オンライン強化学習による対話環境における大規模言語モデルの構築

Grounding Large Language Models in Interactive Environments with Online Reinforcement Learning ( http://arxiv.org/abs/2302.02662v2 )

ライセンス: Link先を確認
Thomas Carta, Cl\'ement Romac, Thomas Wolf, Sylvain Lamprier, Olivier Sigaud, Pierre-Yves Oudeyer(参考訳) 最近の研究は、大言語モデル(llm)の能力を利用して、世界の物理学に関する抽象的な知識を捉え、意思決定問題を解決することに成功した。 しかし、LLMの知識と環境との整合性は誤りであり、基盤の欠如により機能的能力を制限する。 本稿では,LLMを用いたエージェントを,エージェントが環境と対話する際に段階的に更新されるポリシーとして検討し,オンライン強化学習を活用して,目標を達成するための性能向上を図る。 高レベルな機能的接地と空間的およびナビゲーション的タスクのセットを研究するために設計されたインタラクティブなテキスト環境を用いて、いくつかの科学的疑問を考察する。 1)LLMは様々なRLタスクのオンライン学習のサンプル効率を高めることができるか? 2) 一般化の異なる形態をどのように促進するか。 3) オンライン学習の影響はどのようなものか? FLAN-T5 のいくつかの変種 (サイズ, 構造) を機能的基盤として検討する。

Recent works successfully leveraged Large Language Models' (LLM) abilities to capture abstract knowledge about world's physics to solve decision-making problems. Yet, the alignment between LLMs' knowledge and the environment can be wrong and limit functional competence due to lack of grounding. In this paper, we study an approach (named GLAM) to achieve this alignment through functional grounding: we consider an agent using an LLM as a policy that is progressively updated as the agent interacts with the environment, leveraging online Reinforcement Learning to improve its performance to solve goals. Using an interactive textual environment designed to study higher-level forms of functional grounding, and a set of spatial and navigation tasks, we study several scientific questions: 1) Can LLMs boost sample efficiency for online learning of various RL tasks? 2) How can it boost different forms of generalization? 3) What is the impact of online learning? We study these questions by functionally grounding several variants (size, architecture) of FLAN-T5.
翻訳日:2023-05-15 15:52:00 公開日:2023-05-12
# ChatGPTとその他の大規模生成AIモデルの制御

Regulating ChatGPT and other Large Generative AI Models ( http://arxiv.org/abs/2302.02337v8 )

ライセンス: Link先を確認
Philipp Hacker, Andreas Engel, Marco Mauer(参考訳) ChatGPT、GPT-4、あるいはStable Diffusionのような大規模な生成AIモデル(LGAIM)は、私たちのコミュニケーションの方法、図示、作成を急速に変えています。 しかし、EUなどでは、AI規制は主にLGAIMではなく、従来のAIモデルに焦点を当てている。 本稿では、信頼に値するAI規制に関する現在の議論の中で、これらの新しい生成モデルについて検討し、その能力にどのように適合するかを問う。 技術基盤を整備した後は、(1)直接規制、(2)データ保護、(3)コンテンツモデレーション、(4)政策提案の4段階に進む。 これは、LGAIMの開発者、デプロイ者、プロフェッショナルおよび非プロフェッショナルのユーザ、およびLGAIMのアウトプットを区別することで、LGAIM設定でAIバリューチェーンをキャプチャする新しい用語を提案する。 我々は、これらの異なるアクターに対する規制業務をバリューチェーンに沿って調整し、LGAIMが社会全体の利益のために信頼でき、デプロイされることを保証するための戦略を提案する。 ai法やその他の直接規制の規則は、事前訓練されたモデルの特異性に合致しなければならない。 論文では、LGAIM(すべてのLGAIMの最小基準、リスクの高いユースケースのリスクの高い義務、AIバリューチェーンに沿ったコラボレーション)に関する3つの義務について論じている。 一般的に、規制は、訓練済みのモデル自体ではなく、具体的な高リスクアプリケーションに焦点を当てるべきであり、含めるべきである。 一 透明性に関する義務及び義務 (ii)リスク管理。 非差別規定 しかし、(iii)LGAIM開発者には適用できる。 最後に (4) DSA コンテンツモデレーションルールの中核は LGAIM をカバーするように拡張されるべきである。 これには通知とアクションのメカニズム、信頼できるフラグガーが含まれる。 あらゆる分野において、規制当局や議員はチャットgptなどのダイナミクスを追跡するために迅速に行動する必要がある。

Large generative AI models (LGAIMs), such as ChatGPT, GPT-4 or Stable Diffusion, are rapidly transforming the way we communicate, illustrate, and create. However, AI regulation, in the EU and beyond, has primarily focused on conventional AI models, not LGAIMs. This paper will situate these new generative models in the current debate on trustworthy AI regulation, and ask how the law can be tailored to their capabilities. After laying technical foundations, the legal part of the paper proceeds in four steps, covering (1) direct regulation, (2) data protection, (3) content moderation, and (4) policy proposals. It suggests a novel terminology to capture the AI value chain in LGAIM settings by differentiating between LGAIM developers, deployers, professional and non-professional users, as well as recipients of LGAIM output. We tailor regulatory duties to these different actors along the value chain and suggest strategies to ensure that LGAIMs are trustworthy and deployed for the benefit of society at large. Rules in the AI Act and other direct regulation must match the specificities of pre-trained models. The paper argues for three layers of obligations concerning LGAIMs (minimum standards for all LGAIMs; high-risk obligations for high-risk use cases; collaborations along the AI value chain). In general, regulation should focus on concrete high-risk applications, and not the pre-trained model itself, and should include (i) obligations regarding transparency and (ii) risk management. Non-discrimination provisions (iii) may, however, apply to LGAIM developers. Lastly, (iv) the core of the DSA content moderation rules should be expanded to cover LGAIMs. This includes notice and action mechanisms, and trusted flaggers. In all areas, regulators and lawmakers need to act fast to keep track with the dynamics of ChatGPT et al.
翻訳日:2023-05-15 15:51:44 公開日:2023-05-12
# AdaptDiffuser: 適応的自己進化プランナーとしての拡散モデル

AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners ( http://arxiv.org/abs/2302.01877v2 )

ライセンス: Link先を確認
Zhixuan Liang, Yao Mu, Mingyu Ding, Fei Ni, Masayoshi Tomizuka, Ping Luo(参考訳) 拡散モデルは多くのタスクにおいて強力な生成能力を示しており、オフライン強化学習のパラダイムとして機能する可能性がある。 しかし, 拡散モデルの品質は, 学習データの多様性の不足によって制限され, 計画性能やタスクの一般化の妨げとなる。 本稿では,拡散モデルを改善するために自己展開可能な拡散を伴う進化的計画手法であるAdaptDiffuserを紹介する。 adaptdiffuserは、報酬勾配からのガイダンスを使用して、目標条件タスク用のリッチな合成エキスパートデータを生成することができる。 そして、識別器を介して高品質なデータを選択して拡散モデルを微調整し、タスクを検知しない一般化能力を向上させる。 KUKA産業用ロボットアームとMaze2D環境における2つのベンチマーク環境と2つの未確認タスクに関する実証実験は、AdaptDiffuserの有効性を実証している。 例えば、adaptdiffuserはmaze2dで20.8%、mujoco locomotionで7.5%、新たなタスク、例えばkuka pick-and-placeに27.9%、エキスパートデータなしで適応する。 さらなる視覚化結果とデモビデオは、プロジェクトのページにある。

Diffusion models have demonstrated their powerful generative capability in many tasks, with great potential to serve as a paradigm for offline reinforcement learning. However, the quality of the diffusion model is limited by the insufficient diversity of training data, which hinders the performance of planning and the generalizability to new tasks. This paper introduces AdaptDiffuser, an evolutionary planning method with diffusion that can self-evolve to improve the diffusion model hence a better planner, not only for seen tasks but can also adapt to unseen tasks. AdaptDiffuser enables the generation of rich synthetic expert data for goal-conditioned tasks using guidance from reward gradients. It then selects high-quality data via a discriminator to finetune the diffusion model, which improves the generalization ability to unseen tasks. Empirical experiments on two benchmark environments and two carefully designed unseen tasks in KUKA industrial robot arm and Maze2D environments demonstrate the effectiveness of AdaptDiffuser. For example, AdaptDiffuser not only outperforms the previous art Diffuser by 20.8% on Maze2D and 7.5% on MuJoCo locomotion, but also adapts better to new tasks, e.g., KUKA pick-and-place, by 27.9% without requiring additional expert data. More visualization results and demo videos could be found on our project page.
翻訳日:2023-05-15 15:51:15 公開日:2023-05-12
# ラムゼー干渉法による低温原子イメージングのためのレーザー強度の直接校正

Direct Calibration of Laser Intensity via Ramsey Interferometry for Cold Atom Imaging ( http://arxiv.org/abs/2304.00656v2 )

ライセンス: Link先を確認
Emine Altuntas and Ian B. Spielman(参考訳) 極低温原子実験の大部分は共鳴吸収イメージング技術を用いて原子密度を得る。 十分に制御された定量的測定を行うには、プローブビームの光学強度を原子飽和強度${I_{\rm sat}}$の単位で正確に調整する必要がある。 量子ガス実験では、原子サンプルは超高真空システムに閉じ込められ、光学的アクセスの損失と制限が生じる。 ここでは、量子コヒーレンスを用いて、ラムゼー干渉法による${I_{\rm sat}}$の単位のプローブビーム強度を測定する堅牢な手法を作成する。 本手法は、外共振プローブビームによる原子レベルのアクスタークシフトを特徴付ける。 さらに、この技術は、原子雲の位置におけるプローブ強度の空間的変動へのアクセスを与える。 また、撮像センサの直前のプローブ強度を直接測定することにより、センサの量子効率だけでなく、撮像システム損失の直接校正も得られる。

A majority of ultracold atom experiments utilize resonant absorption imaging techniques to obtain the atomic density. To make well-controlled quantitative measurements, the optical intensity of the probe beam must be precisely calibrated in units of the atomic saturation intensity ${I_{\rm sat}}$. In quantum gas experiments, the atomic sample is enclosed in an ultra-high vacuum system that introduces loss and limits optical access; this precludes a direct determination of the intensity. Here, we use quantum coherence to create a robust technique for measuring the probe beam intensity in units of ${I_{\rm sat}}$ via Ramsey interferometry. Our technique characterizes the ac Stark shift of the atomic levels due to an off-resonant probe beam. Furthermore, this technique gives access to the spatial variation of the probe intensity at the location of the atomic cloud. By directly measuring the probe intensity just before the imaging sensor our method in addition yields a direct calibration of imaging system losses as well as the quantum efficiency of the sensor.
翻訳日:2023-05-15 15:45:41 公開日:2023-05-12
# 軽量ビジョントランスにおける局所認識の再考

Rethinking Local Perception in Lightweight Vision Transformer ( http://arxiv.org/abs/2303.17803v4 )

ライセンス: Link先を確認
Qihang Fan, Huaibo Huang, Jiyang Guan, Ran He(参考訳) 視覚変換器(ViT)は様々な視覚タスクに有効であることが示されている。 しかし、それらをモバイルフレンドリーなサイズにリサイズすると、パフォーマンスが大幅に低下する。 そのため、軽量な視覚トランスフォーマーの開発は重要な研究分野となっている。 本稿では,コンテキスト対応の局所拡張を利用した軽量視覚トランスフォーマであるcloformerを紹介する。 cloformerは、バニラ畳み込み演算子でよく使われるグローバルな共有重みと注意を向けるトークン固有のコンテキスト認識重みの関係を探求し、高頻度の局所情報をキャプチャする効果的で簡単なモジュールを提案する。 CloFormerでは、注意スタイルの畳み込み演算子であるAttnConvを紹介します。 提案するattnconvは、共有重みを使ってローカル情報を集約し、注意深く設計されたコンテキストアウェア重みを配置し、ローカル機能を強化する。 CloFormerのFLOPを減らすためにプールを使用するAttnConvとバニラアテンションを組み合わせることで、モデルは高周波と低周波の情報を認識することができる。 画像分類,物体検出,意味セグメンテーションなどの広範な実験を行い,cloformerの優位性を実証した。 コードは \url{https://github.com/qhfan/cloformer} で入手できる。

Vision Transformers (ViTs) have been shown to be effective in various vision tasks. However, resizing them to a mobile-friendly size leads to significant performance degradation. Therefore, developing lightweight vision transformers has become a crucial area of research. This paper introduces CloFormer, a lightweight vision transformer that leverages context-aware local enhancement. CloFormer explores the relationship between globally shared weights often used in vanilla convolutional operators and token-specific context-aware weights appearing in attention, then proposes an effective and straightforward module to capture high-frequency local information. In CloFormer, we introduce AttnConv, a convolution operator in attention's style. The proposed AttnConv uses shared weights to aggregate local information and deploys carefully designed context-aware weights to enhance local features. The combination of the AttnConv and vanilla attention which uses pooling to reduce FLOPs in CloFormer enables the model to perceive high-frequency and low-frequency information. Extensive experiments were conducted in image classification, object detection, and semantic segmentation, demonstrating the superiority of CloFormer. The code is available at \url{https://github.com/qhfan/CloFormer}.
翻訳日:2023-05-15 15:45:25 公開日:2023-05-12
# 絡み合い軌道とその境界

Entanglement Trajectory and its Boundary ( http://arxiv.org/abs/2303.13587v2 )

ライセンス: Link先を確認
Ruge Lin(参考訳) 本稿では,量子コンピューティングから生じる絡み合いを調べるための新しいアプローチを提案する。 量子アルゴリズムの実行中に様々な点における還元密度行列を解析し、グラフ上の支配的固有値とフォン・ノイマンエントロピーを表現し、「絡み合い軌道」を形成する。 軌道の限界を確立するために、ランダム行列理論を用いる。 量子断熱計算(quantum adiabatic computation)、グローバーアルゴリズム(grover algorithm)、ショアアルゴリズム(shor algorithm)といった例を通じて、エンタングルメント軌道が確立した境界内でどのように残っているかを実証し、それぞれの例にユニークな特徴を与える。 さらに、これらの境界と特徴を、他の絡み合い測度によって定義される軌跡にまで拡張できることを実証する。 数値シミュレーションはオープンアクセスで利用できる。

In this article, we offer a novel approach to examining the entanglement that arises from quantum computing. We analyze the reduced density matrices at various points during the execution of a quantum algorithm and represent the dominant eigenvalue and von Neumann entropy on a graph to form an "entanglement trajectory." To establish the trajectory's limits, we employ random matrix theory. Through examples such as quantum adiabatic computation, the Grover algorithm, and the Shor algorithm, we demonstrate how the entanglement trajectory remains within the boundaries that we have established, generating a unique feature for each example. Furthermore, we demonstrate that these boundaries and features can be extended to trajectories defined by other measures of entanglement. Numerical simulations are available through open access.
翻訳日:2023-05-15 15:44:44 公開日:2023-05-12
# Few-shot Object Detection における合成データのパワーの探索

Explore the Power of Synthetic Data on Few-shot Object Detection ( http://arxiv.org/abs/2303.13221v2 )

ライセンス: Link先を確認
Shaobo Lin, Kun Wang, Xingyu Zeng, Rui Zhao(参考訳) Few-shot Object Detection (FSOD) は、トレーニングのいくつかの例に限って、新しいカテゴリのオブジェクト検出器を拡張することを目的としている。 少数のトレーニングサンプルではFSODモデルの性能が制限されている。 近年のテキスト・画像生成モデルは,高品質な画像を生成する上で有望な結果を示している。 これらの合成画像がいかにfsodタスクに適用可能かはまだ未調査のままである。 この研究は、最先端のテキスト対画像生成装置から生成された合成画像がfsodタスクにどのように役立つかを広範囲に研究している。 我々は,(1)fsodのための合成データの使い方という2つの視点に注目した。 2)大規模合成データセットから代表サンプルを見つける方法 合成データを使用するためのコピーペーストベースのパイプラインを設計する。 具体的には、元の生成した画像に塩分オブジェクト検出を施し、塩分マップに基づいて主オブジェクトの切り取りに最小の封止ボックスを使用する。 その後、切り取られたオブジェクトは、ベースデータセットからのイメージにランダムにペーストされる。 また,テキスト対画像生成装置の入力テキストと使用する合成画像数の影響について検討した。 代表的な合成訓練データセットを構築するために,サンプルベースおよびクラスタベースによる選択画像の多様性を最大化する。 しかし, FSODにおける新規カテゴリーの偽陽性率(FP)の深刻な問題は, 合成データを用いては解決できない。 ゼロショット認識モデルであるCLIPをFSODパイプラインに統合し、検出したオブジェクトと予測されたカテゴリのテキストの類似度スコアのしきい値を定義することにより、FPの90%をフィルタすることができる。 PASCAL VOC と MS COCO の大規模実験により,本手法の有効性が検証された。

Few-shot object detection (FSOD) aims to expand an object detector for novel categories given only a few instances for training. The few training samples restrict the performance of FSOD model. Recent text-to-image generation models have shown promising results in generating high-quality images. How applicable these synthetic images are for FSOD tasks remains under-explored. This work extensively studies how synthetic images generated from state-of-the-art text-to-image generators benefit FSOD tasks. We focus on two perspectives: (1) How to use synthetic data for FSOD? (2) How to find representative samples from the large-scale synthetic dataset? We design a copy-paste-based pipeline for using synthetic data. Specifically, saliency object detection is applied to the original generated image, and the minimum enclosing box is used for cropping the main object based on the saliency map. After that, the cropped object is randomly pasted on the image, which comes from the base dataset. We also study the influence of the input text of text-to-image generator and the number of synthetic images used. To construct a representative synthetic training dataset, we maximize the diversity of the selected images via a sample-based and cluster-based method. However, the severe problem of high false positives (FP) ratio of novel categories in FSOD can not be solved by using synthetic data. We propose integrating CLIP, a zero-shot recognition model, into the FSOD pipeline, which can filter 90% of FP by defining a threshold for the similarity score between the detected object and the text of the predicted category. Extensive experiments on PASCAL VOC and MS COCO validate the effectiveness of our method, in which performance gain is up to 21.9% compared to the few-shot baseline.
翻訳日:2023-05-15 15:44:29 公開日:2023-05-12
# デコヒーレンスが平衡への道筋に及ぼす影響

Impact of decoherence on the route to equilibrium ( http://arxiv.org/abs/2303.11870v2 )

ライセンス: Link先を確認
Jiaozi Wang, Jochen Gemmer(参考訳) 本研究では,浴槽と接触する単一キュービットの時間発展を投影演算子法の枠組みの中で検討する。 エネルギー保存相互作用を非摂動的に扱ういわゆる修正レッドフィールド理論を応用し、通常のアプローチの範囲を超えた状態を研究することができる。 量子ビットの運動量の減少方程式は、バスとシステム-バスの相互作用がガウス分布のランダム行列によってモデル化される理想主義系で導出される。 強脱コヒーレンス系では, エネルギー保存相互作用によって引き起こされる脱コヒーレンス過程と浴の相関関数の単純な関係がみられた。 これは、相互作用を保存するエネルギーが緩和過程を遅くし、十分に強いとゼノが凍ることを意味する。 さらに, 数値シミュレーションでも実験結果が確認された。

We study the time evolution of a single qubit in contact with a bath, within the framework of projection operator methods. Employing the so-called modified Redfield theory which also treats energy conserving interactions non-perturbatively, we are able to study the regime beyond the scope of the ordinary approach. Reduced equations of motion for the qubit are derived in a idealistic system where both the bath and system-bath interactions are modeled by Gaussian distributed random matrices. In the strong decoherence regime, a simple relation between the bath correlation function and the decoherence process induced by the energy conserving interaction is found. It implies that energy conserving interactions slow down the relaxation process, which leads to a zeno freezing if they are sufficiently strong. Furthermore, our results are also confirmed in numerical simulations.
翻訳日:2023-05-15 15:44:04 公開日:2023-05-12
# $\text{MOD}_m^n$ と $\text{EXACT}_{k,l}^n$ の正確な量子クエリ複雑性について

On the exact quantum query complexity of $\text{MOD}_m^n$ and $\text{EXACT}_{k,l}^n$ ( http://arxiv.org/abs/2303.10935v4 )

ライセンス: Link先を確認
Zekun Ye(参考訳) このクエリモデルは、古典的および量子コンピューティングのコミュニティに大きな関心を集めている。 通常、量子の利点は、従来のアルゴリズムに比べてクエリーの複雑さが良い量子アルゴリズムを示すことによって示される。 量子クエリーアルゴリズムは、量子アルゴリズムの開発において重要な役割を果たす。 例えば、deutsch-jozsaアルゴリズムは古典的決定論的アルゴリズムよりも指数関数的な量子効果を示した。 重要な複雑性尺度として、厳密な量子クエリ複雑性は、量子アルゴリズムを用いて特定の問題を解決するのに必要なクエリの最小数を記述する。 本稿では、以下の2つの$n$-bit対称関数 $\text{MOD}_m^n:\{0,1\}^n \rightarrow \{0,...,m-1\}$と$\text{EXACT}_{k,l}^n:\{0,1\}^n \rightarrow \{0,1\}$の正確な量子クエリ複雑性を、$\text{MOD}_m^n(x) = |x| \bmod m$と$ \text{EXACT}_{k,l}^n(x) = 1$ iff $|x| \in \{k,l\}$と定義する。 結果は以下の通りである。 i)$\text{mod}_m^n$を計算するための最適な量子アルゴリズムを示し、$\lceil n(1-\frac{1}{m}) \rceil$を1 < m \le n$とする。 これは、cornelissen, mande, ozols and de wolf (2021) によって提案された予想を定めている。 このアルゴリズムに基づいて、$\{0,1\}^n$ から有限集合 $x$ への写像が $n$ 以下であるような対称関数の幅広いクラスにおける正確な量子クエリの複雑さを示す。 ii) $l-k \ge 2$ の場合、$k=0$ または $k=1,l=n-1$ に対して$\text{exact}_{k,l}^n$ を計算する最適な量子クエリアルゴリズムを与える。 ambainis, iraids, nagaj (2017) によって提案された予想を部分的に解決する。

The query model has generated considerable interest in both classical and quantum computing communities. Typically, quantum advantages are demonstrated by showcasing a quantum algorithm with a better query complexity compared to its classical counterpart. Exact quantum query algorithms play a pivotal role in developing quantum algorithms. For example, the Deutsch-Jozsa algorithm demonstrated exponential quantum advantages over classical deterministic algorithms. As an important complexity measure, exact quantum query complexity describes the minimum number of queries required to solve a specific problem exactly using a quantum algorithm. In this paper, we consider the exact quantum query complexity of the following two $n$-bit symmetric functions $\text{MOD}_m^n:\{0,1\}^n \rightarrow \{0,...,m-1\}$ and $\text{EXACT}_{k,l}^n:\{0,1\}^n \rightarrow \{0,1\}$, which are defined as $\text{MOD}_m^n(x) = |x| \bmod m$ and $ \text{EXACT}_{k,l}^n(x) = 1$ iff $|x| \in \{k,l\}$, where $|x|$ is the number of $1$'s in $x$. Our results are as follows: i) We present an optimal quantum algorithm for computing $\text{MOD}_m^n$, achieving a query complexity of $\lceil n(1-\frac{1}{m}) \rceil$ for $1 < m \le n$. This settles a conjecture proposed by Cornelissen, Mande, Ozols and de Wolf (2021). Based on this algorithm, we show the exact quantum query complexity of a broad class of symmetric functions that map $\{0,1\}^n$ to a finite set $X$ is less than $n$. ii) When $l-k \ge 2$, we give an optimal exact quantum query algorithm to compute $\text{EXACT}_{k,l}^n$ for the case $k=0$ or $k=1,l=n-1$. This resolves the conjecture proposed by Ambainis, Iraids and Nagaj (2017) partially.
翻訳日:2023-05-15 15:43:50 公開日:2023-05-12
# 高表現類似度モデルを用いたマカクとマウスの視覚経路を有するディープスパイキングニューラルネットワーク

Deep Spiking Neural Networks with High Representation Similarity Model Visual Pathways of Macaque and Mouse ( http://arxiv.org/abs/2303.06060v4 )

ライセンス: Link先を確認
Liwei Huang, Zhengyu Ma, Liutao Yu, Huihui Zhou, Yonghong Tian(参考訳) 深層人工神経ネットワーク(ANN)は霊長類とネズミの視覚経路をモデル化する上で重要な役割を果たしている。 しかし、ニューロンの計算特性を生物学的に比較すると非常に単純化する。 スパイキングニューラルネットワーク(SNN)は、スパイキングニューロンが生物学的ニューロンと同じようにスパイクの時系列で情報をエンコードするので、生物学的にもっとも有効なモデルだ。 しかし、深部snsモデルを用いた視覚経路の研究が不足している。 本研究では,視覚野を初めて深部snsでモデル化し,それに加えて,最先端の深部cnnとvitsの比較を行った。 3つの類似度指標を用いて、2つの種から収集された3つの神経データセットを3種類の刺激で神経表現類似度実験を行う。 広範な類似性分析に基づき,本研究は種間の機能的階層と機構についてさらに検討する。 SNNのほぼ全ての類似度スコアは、平均6.6%のCNNよりも高い。 最も類似度が高い層の深さは、マウスの皮質領域ではほとんど差がないが、マカク領域ではかなり異なるため、マウスの視覚処理構造はマカクより局所的に均質であることが示唆された。 さらに、マウス上層脳のようなニューラルネットワークで観察されるマルチブランチ構造は、マウスにおける並列処理ストリームの計算的証拠を提供し、異なる刺激下でのマカク神経表現の適合性は、マカクにおける情報処理の機能的特殊化を示す。 本研究は,SNNが視覚系の機能的階層と機構をモデル化し,説明するための有望な候補として機能することを示す。

Deep artificial neural networks (ANNs) play a major role in modeling the visual pathways of primate and rodent. However, they highly simplify the computational properties of neurons compared to their biological counterparts. Instead, Spiking Neural Networks (SNNs) are more biologically plausible models since spiking neurons encode information with time sequences of spikes, just like biological neurons do. However, there is a lack of studies on visual pathways with deep SNNs models. In this study, we model the visual cortex with deep SNNs for the first time, and also with a wide range of state-of-the-art deep CNNs and ViTs for comparison. Using three similarity metrics, we conduct neural representation similarity experiments on three neural datasets collected from two species under three types of stimuli. Based on extensive similarity analyses, we further investigate the functional hierarchy and mechanisms across species. Almost all similarity scores of SNNs are higher than their counterparts of CNNs with an average of 6.6%. Depths of the layers with the highest similarity scores exhibit little differences across mouse cortical regions, but vary significantly across macaque regions, suggesting that the visual processing structure of mice is more regionally homogeneous than that of macaques. Besides, the multi-branch structures observed in some top mouse brain-like neural networks provide computational evidence of parallel processing streams in mice, and the different performance in fitting macaque neural representations under different stimuli exhibits the functional specialization of information processing in macaques. Taken together, our study demonstrates that SNNs could serve as promising candidates to better model and explain the functional hierarchy and mechanisms of the visual system.
翻訳日:2023-05-15 15:42:49 公開日:2023-05-12
# 拒絶を伴う層状対向ロバスト性

Stratified Adversarial Robustness with Rejection ( http://arxiv.org/abs/2305.01139v2 )

ライセンス: Link先を確認
Jiefeng Chen, Jayaram Raghuram, Jihye Choi, Xi Wu, Yingyu Liang, Somesh Jha(参考訳) 近年, 対人ロバスト性を高めるために, 拒否オプション(選択分類器としても知られる)で分類器を訓練することへの関心が高まっている。 拒絶は多くのアプリケーションでコストを発生させるが、既存の研究は通常、ゼロコストと摂動入力の拒絶を関連付けている。 本研究は, 階層化拒絶条件において, 相対的ロバスト分類を行い, 差分損失関数を単調に非増加化させることにより, 拒絶コストをモデル化するものである。 階層化拒絶設定を理論的に解析し,ロバストな選択的分類器を構築するための新しい防御法であるconsistance prediction-based reject (cpr)を提案する。 画像データセット実験により,提案手法は適応攻撃の強い既存手法よりも有意に優れていた。 例えば、CIFAR-10では、CPRは(異なる拒絶損失に対して)総ロバスト損失を少なくとも7.3%削減する。

Recently, there is an emerging interest in adversarially training a classifier with a rejection option (also known as a selective classifier) for boosting adversarial robustness. While rejection can incur a cost in many applications, existing studies typically associate zero cost with rejecting perturbed inputs, which can result in the rejection of numerous slightly-perturbed inputs that could be correctly classified. In this work, we study adversarially-robust classification with rejection in the stratified rejection setting, where the rejection cost is modeled by rejection loss functions monotonically non-increasing in the perturbation magnitude. We theoretically analyze the stratified rejection setting and propose a novel defense method -- Adversarial Training with Consistent Prediction-based Rejection (CPR) -- for building a robust selective classifier. Experiments on image datasets demonstrate that the proposed method significantly outperforms existing methods under strong adaptive attacks. For instance, on CIFAR-10, CPR reduces the total robust loss (for different rejection losses) by at least 7.3% under both seen and unseen attacks.
翻訳日:2023-05-15 15:34:58 公開日:2023-05-12
# GPT-NER:大規模言語モデルによるエンティティ認識

GPT-NER: Named Entity Recognition via Large Language Models ( http://arxiv.org/abs/2304.10428v3 )

ライセンス: Link先を確認
Shuhe Wang, Xiaofei Sun, Xiaoya Li, Rongbin Ouyang, Fei Wu, Tianwei Zhang, Jiwei Li, Guoyin Wang(参考訳) 大規模言語モデル(LLM)が様々なNLPタスクでSOTAのパフォーマンスを達成したにもかかわらず、NERの性能は教師付きベースラインよりもはるかに低い。 これは NER と LLM の2つのタスクの間にギャップがあるためである: 前者はシーケンシャルラベリングタスクであり、後者はテキスト生成モデルである。 本稿では,この問題を解決するため,GPT-NERを提案する。 gpt-nerは、シーケンスラベリングタスクをllmで容易に適応可能な生成タスクに変換することで、ギャップを橋渡しする。例えば、入力テキスト"columbus is a city"にある場所エンティティを見つけるタスクを変換して、"@@columbus# is a city"というテキストシーケンスを生成し、特別なトークン@@##が抽出するエンティティをマークする。 LLMがNULL入力をエンティティとして過剰にラベル付けする強い傾向を持つLLMの「ハロシン化」問題に効率よく対処するため、抽出されたエンティティがラベル付きエンティティタグに属しているかどうかを問うことで自己検証戦略を提案する。 我々は広く採用されている5つのNERデータセットで実験を行い、GPT-NERは完全に教師付きベースラインに匹敵する性能を達成しています。 さらに重要なことに、gpt-nerは低リソースと少数ショットのセットアップにおいて、トレーニングデータの量が極めて少ない場合、教師付きモデルよりもはるかに優れたパフォーマンスを示すことが分かりました。 これは、ラベル付きサンプルの数が限られている実世界のNERアプリケーションにおけるGPT-NERの機能を示す。

Despite the fact that large-scale Language Models (LLM) have achieved SOTA performances on a variety of NLP tasks, its performance on NER is still significantly below supervised baselines. This is due to the gap between the two tasks the NER and LLMs: the former is a sequence labeling task in nature while the latter is a text-generation model. In this paper, we propose GPT-NER to resolve this issue. GPT-NER bridges the gap by transforming the sequence labeling task to a generation task that can be easily adapted by LLMs e.g., the task of finding location entities in the input text "Columbus is a city" is transformed to generate the text sequence "@@Columbus## is a city", where special tokens @@## marks the entity to extract. To efficiently address the "hallucination" issue of LLMs, where LLMs have a strong inclination to over-confidently label NULL inputs as entities, we propose a self-verification strategy by prompting LLMs to ask itself whether the extracted entities belong to a labeled entity tag. We conduct experiments on five widely adopted NER datasets, and GPT-NER achieves comparable performances to fully supervised baselines, which is the first time as far as we are concerned. More importantly, we find that GPT-NER exhibits a greater ability in the low-resource and few-shot setups, when the amount of training data is extremely scarce, GPT-NER performs significantly better than supervised models. This demonstrates the capabilities of GPT-NER in real-world NER applications where the number of labeled examples is limited.
翻訳日:2023-05-15 15:33:59 公開日:2023-05-12
# ビデオコピー検出のための機能互換プログレッシブラーニング

Feature-compatible Progressive Learning for Video Copy Detection ( http://arxiv.org/abs/2304.10305v2 )

ライセンス: Link先を確認
Wenhao Wang, Yifan Sun, Yi Yang(参考訳) ビデオコピー検出(VCD)は、未承認または複製されたビデオコンテンツのインスタンスを特定するために開発された。 本稿では,meta ai video similarity challenge (vsc22) の2位であるcvpr 2023について述べる。 この課題に対抗すべく,VCDのためのFCPL(Feature-Compatible Progressive Learning)を提案する。 FCPLは相互に互換性のある特徴を生成する様々なモデルを訓練しており、複数の異なるモデルから派生した特徴を直接比較することができる。 この相互互換性は機能アンサンブルを可能にする。 プログレッシブラーニングを実装し,ラベル付き真実ペアを活用することで,性能を効果的に向上する。 FCPLが他の競合相手よりも優れていることを示す実験結果が得られた。 私たちのコードはhttps://github.com/WangWenhao0716/VSC-DescriptorTrack-Submissionとhttps://github.com/WangWenhao0716/VSC-MatchingTrack-Submissionで利用可能です。

Video Copy Detection (VCD) has been developed to identify instances of unauthorized or duplicated video content. This paper presents our second place solutions to the Meta AI Video Similarity Challenge (VSC22), CVPR 2023. In order to compete in this challenge, we propose Feature-Compatible Progressive Learning (FCPL) for VCD. FCPL trains various models that produce mutually-compatible features, meaning that the features derived from multiple distinct models can be directly compared with one another. We find this mutual compatibility enables feature ensemble. By implementing progressive learning and utilizing labeled ground truth pairs, we effectively gradually enhance performance. Experimental results demonstrate the superiority of the proposed FCPL over other competitors. Our code is available at https://github.com/WangWenhao0716/VSC-DescriptorTrack-Submission and https://github.com/WangWenhao0716/VSC-MatchingTrack-Submission.
翻訳日:2023-05-15 15:33:30 公開日:2023-05-12
# PaTeCon:知識グラフを用いた競合検出のためのパターンベース時間制約マイニング手法

PaTeCon: A Pattern-Based Temporal Constraint Mining Method for Conflict Detection on Knowledge Graphs ( http://arxiv.org/abs/2304.09015v3 )

ライセンス: Link先を確認
Jianhao Chen, Junyang Ren, Wentao Ding, Yuzhong Qu(参考訳) 特定の期間に開催される出来事を特徴づける事実である時間的事実は、知識グラフ(KG)研究コミュニティで注目を集めている。 品質管理の観点からは、時間制限の導入は、KGの時間的一貫性を維持し、潜在的な時間的矛盾を検出するための新たな課題をもたらす。 従来の研究は、労働集約的で粒度の問題のある紛争を検出するために、手動で列挙された時間的制約に依存していた。 本稿では,時間的事実と制約の共通パターンから始め,パターンに基づく時間的制約マイニング手法PaTeConを提案する。 PaTeConは、人間の専門家ではなく、与えられたKG上で自動的に決定されたグラフパターンとその関連する統計情報を使用して時間制約を生成する。 具体的には,PaTeConをWikidataとFreebaseの2つの大規模データセット上で評価する。 実験結果から,パターンに基づく自動制約マイニングは時間的制約を発生させる上で強力であることがわかった。

Temporal facts, the facts for characterizing events that hold in specific time periods, are attracting rising attention in the knowledge graph (KG) research communities. In terms of quality management, the introduction of time restrictions brings new challenges to maintaining the temporal consistency of KGs and detecting potential temporal conflicts. Previous studies rely on manually enumerated temporal constraints to detect conflicts, which are labor-intensive and may have granularity issues. We start from the common pattern of temporal facts and constraints and propose a pattern-based temporal constraint mining method, PaTeCon. PaTeCon uses automatically determined graph patterns and their relevant statistical information over the given KG instead of human experts to generate time constraints. Specifically, PaTeCon dynamically attaches class restriction to candidate constraints according to their measuring scores.We evaluate PaTeCon on two large-scale datasets based on Wikidata and Freebase respectively. The experimental results show that pattern-based automatic constraint mining is powerful in generating valuable temporal constraints.
翻訳日:2023-05-15 15:33:13 公開日:2023-05-12
# 神経崩壊現象の研究:グラスマンフレーム、対称性および一般化

A Study of Neural Collapse Phenomenon: Grassmannian Frame, Symmetry and Generalization ( http://arxiv.org/abs/2304.08914v2 )

ライセンス: Link先を確認
Peifeng Gao, Qianqian Xu, Peisong Wen, Huiyang Shao, Zhiyong Yang, Qingming Huang(参考訳) 本稿では,一般化ニューラル崩壊仮説の証明により,元のニューラル崩壊現象を拡張した。 分類の最適化と一般化からグラスマンフレーム構造を得る。 この構造は球面上の各2つのクラスの特徴を極大に分離し、クラスの数よりも大きな特徴次元を必要としない。 グラスマンフレームの対称性に関する好奇心から、異なるグラスマンフレームを持つモデルが異なる性能を持つかどうかを調べる実験を行う。 その結果,対称性一般化現象が発見された。 置換の対称性一般化を説明する定理を提供する。 しかし、なぜ特徴の異なる方向がそのような一般化に繋がるかという問題は、今後の研究のためには未解決である。

In this paper, we extend original Neural Collapse Phenomenon by proving Generalized Neural Collapse hypothesis. We obtain Grassmannian Frame structure from the optimization and generalization of classification. This structure maximally separates features of every two classes on a sphere and does not require a larger feature dimension than the number of classes. Out of curiosity about the symmetry of Grassmannian Frame, we conduct experiments to explore if models with different Grassmannian Frames have different performance. As a result, we discover the Symmetric Generalization phenomenon. We provide a theorem to explain Symmetric Generalization of permutation. However, the question of why different directions of features can lead to such different generalization is still open for future investigation.
翻訳日:2023-05-15 15:32:56 公開日:2023-05-12
# 虚時間進化のための非単体トロッター回路

Non-unitary Trotter circuits for imaginary time evolution ( http://arxiv.org/abs/2304.07917v2 )

ライセンス: Link先を確認
Chiara Leadbeater, Nathan Fitzpatrick, David Mu\~noz Ramo and Alex J. W. Thom(参考訳) トロッター分解型リアルタイム進化のための定評あるパウリガジェットプリミティブと同等の想像時間を提案する。 仮想時間発展(ite)は、古典的ハードウェア上のシステムの基底状態を得るために広く使われている。 量子ハードウェアの短期実装はヒューリスティックスに依存し、その精度を損なう。 その結果、よりネイティブな量子アルゴリズムの開発への関心が高まっている。 非単体ゲートを決定論的に実装することは不可能であるため、ITE演算子のブロック符号化をシミュレーションするユニタリ量子回路に依存する確率的想像時間進化(PITE)アルゴリズムの実装を利用する。 このスキームは、横イジングモデルとフェルミオンハバードモデルでテストされ、システムの基底状態に収束することが示されている。

We propose an imaginary time equivalent of the well-established Pauli gadget primitive for Trotter-decomposed real time evolution. Imaginary time evolution (ITE) is widely used for obtaining the ground state of a system on classical hardware. Near-term implementations on quantum hardware rely on heuristics, compromising their accuracy. As a result, there is a growing interest in the development of more natively quantum algorithms. Since it is not possible to implement a non-unitary gate deterministically, we resort to the implementation of probabilistic imaginary time evolution (PITE) algorithms, which rely on a unitary quantum circuit to simulate a block encoding of the ITE operator - that is, they rely on successful ancillary measurements to evolve the system non-unitarily. This scheme was tested on the transverse Ising model and the fermionic Hubbard model and is demonstrated to converge to the ground state of the system.
翻訳日:2023-05-15 15:32:45 公開日:2023-05-12
# 説明不変性と等分散による解釈可能性法のロバスト性評価

Evaluating the Robustness of Interpretability Methods through Explanation Invariance and Equivariance ( http://arxiv.org/abs/2304.06715v2 )

ライセンス: Link先を確認
Jonathan Crabb\'e, Mihaela van der Schaar(参考訳) 解釈可能性の手法は、説明が説明されたモデルを忠実に記述している場合にのみ有用である。 本研究では,特定の対称性群の下での予測が不変であるニューラルネットワークについて考察する。 これには畳み込みからグラフニューラルネットワークまで、一般的なアーキテクチャが含まれている。 この種のモデルを忠実に説明する説明は、この不変性と一致する必要がある。 我々は,幾何学的深層学習の形式化を活かし,説明不変性と等分散の概念を通して,この直観を定式化する。 この厳密な形式主義を通じて、(1)モデル対称性群に関する任意の解釈可能性法のロバスト性を測定するための2つの指標、(2)一般的な解釈可能性法の理論的堅牢性を保証すること、(3)対称性群に関する任意の解釈可能性法の不変性を高めるための体系的なアプローチを導出する。 様々なモダリティや対称性グループに関連するモデルの説明のためのメトリクスを実証的に測定することにより、ユーザと開発者が堅牢な説明を作成できる5つのガイドラインを導出する。

Interpretability methods are valuable only if their explanations faithfully describe the explained model. In this work, we consider neural networks whose predictions are invariant under a specific symmetry group. This includes popular architectures, ranging from convolutional to graph neural networks. Any explanation that faithfully explains this type of model needs to be in agreement with this invariance property. We formalize this intuition through the notion of explanation invariance and equivariance by leveraging the formalism from geometric deep learning. Through this rigorous formalism, we derive (1) two metrics to measure the robustness of any interpretability method with respect to the model symmetry group; (2) theoretical robustness guarantees for some popular interpretability methods and (3) a systematic approach to increase the invariance of any interpretability method with respect to a symmetry group. By empirically measuring our metrics for explanations of models associated with various modalities and symmetry groups, we derive a set of 5 guidelines to allow users and developers of interpretability methods to produce robust explanations.
翻訳日:2023-05-15 15:32:29 公開日:2023-05-12
# 深い知覚の類似性は曖昧な文脈に適応できる

Deep Perceptual Similarity is Adaptable to Ambiguous Contexts ( http://arxiv.org/abs/2304.02265v2 )

ライセンス: Link先を確認
Gustav Grund Pihlgren, Fredrik Sandin, Marcus Liwicki(参考訳) 画像類似性の概念は曖昧であり、画像はある文脈で類似しており、他の文脈では類似しない。 この曖昧さは、特定のコンテキストに対するメトリクスの作成を動機付ける。 この研究は、所定の文脈に適応するdps(deep perceptual similarity)メトリクスの能力を探求する。 DPSメトリクスは、画像の比較にニューラルネットワークの深い特徴を使用する。 これらの指標は、限られた設定で平均的な人間の知覚を活用するデータセット上で成功している。 しかし問題は、それらが特定の類似性コンテキストに適応できるかどうかだ。 以前のルールベースのメトリクスは、新しいコンテキストのために書き直すのに労働集約的です。 一方、DPSメトリクスは、各コンテキストで再トレーニングされる可能性のあるニューラルネットワークを使用する。 しかし、再トレーニングネットワークはリソースを消費し、以前のタスクのパフォーマンスを損なう可能性がある。 本研究は,imagenet 事前学習した cnn を訓練し,与えられた文脈に応じて類似度を測定することで dps メトリクスの適応性を検討する。 コンテキストは、6つの画像歪みをランダムにランク付けすることで生成される。 後のランキングでの歪みは、その文脈のイメージに適用した場合、類似性よりも破壊的と考えられる。 これはまた、事前訓練された機能が異なる類似性コンテキストをキャプチャするかどうかの洞察を与える。 適応されたメトリクスは知覚的類似性データセットで評価され、ランキングへの適応が以前のパフォーマンスに影響するかどうかを評価する。 その結果, dpsメトリクスは高性能に適応できることがわかった。 適応されたメトリクスはベースラインと同じコンテキストで難しいが、パフォーマンスは99%のケースで改善されている。 最後に, 適応が知覚的類似性に対する先行性能に悪影響を及ぼさないことを示す。 この実装は、https://github.com/ltu-machine-learning/ analysis-of-deep-perceptual-loss-networksで利用可能である。

The concept of image similarity is ambiguous, and images can be similar in one context and not in another. This ambiguity motivates the creation of metrics for specific contexts. This work explores the ability of deep perceptual similarity (DPS) metrics to adapt to a given context. DPS metrics use the deep features of neural networks for comparing images. These metrics have been successful on datasets that leverage the average human perception in limited settings. But the question remains if they could be adapted to specific similarity contexts. No single metric can suit all similarity contexts, and previous rule-based metrics are labor-intensive to rewrite for new contexts. On the other hand, DPS metrics use neural networks that might be retrained for each context. However, retraining networks takes resources and might ruin performance on previous tasks. This work examines the adaptability of DPS metrics by training ImageNet pretrained CNNs to measure similarity according to given contexts. Contexts are created by randomly ranking six image distortions. Distortions later in the ranking are considered more disruptive to similarity when applied to an image for that context. This also gives insight into whether the pretrained features capture different similarity contexts. The adapted metrics are evaluated on a perceptual similarity dataset to evaluate if adapting to a ranking affects their prior performance. The findings show that DPS metrics can be adapted with high performance. While the adapted metrics have difficulties with the same contexts as baselines, performance is improved in 99% of cases. Finally, it is shown that the adaption is not significantly detrimental to prior performance on perceptual similarity. The implementation of this work is available online: https://github.com/LTU-Machine-Learning/Analysis-of-Deep-Perceptual-Loss-Networks
翻訳日:2023-05-15 15:32:12 公開日:2023-05-12
# 量子臨界状態における量子クエンチの熱バス効果

Thermal-bath effects in quantum quenches within quantum critical regimes ( http://arxiv.org/abs/2305.05494v2 )

ライセンス: Link先を確認
Francesco Tarantelli and Ettore Vicari(参考訳) 量子クエンチ(qq)プロトコル(ハミルトニアンパラメータの偶発的変化)から生じる平衡外ダイナミクスを、その量子臨界領域内の多体系および熱浴と等しく結合した系で解決する。 QQプロトコルのクラスを2つ検討する。 そのうちの1つは、最初のギブス状態の準備に熱浴を使用し、その後、クエンチした後、熱浴を除去し、システムのダイナミクスは一元的である。 また, 熱浴が加熱処理後に除去されないQQプロトコルにも対処し, 量子進化は, 系の密度行列に対する適切なマスター方程式によって記述され, さらに関連する時間スケール, あるいは逆減衰速度がシステムバス結合を特徴づける。 これらのQQプロトコルの下で、臨界系は、熱浴に関連する温度と崩壊率に比例したさらなるスケーリング変数を導入することにより、これらの分岐した臨界系を拡張する平衡外スケーリング挙動を発達させる。 これらの非平衡なスケーリング挙動は、フェルミオン系北エフ線のQQプロトコル、または等価量子イジング鎖を分析し、オープン系の力学に対するリンドブラッドマスター方程式内の漸近熱化を保証する熱浴の特定のモデル化を補足することで確認される。

We address the out-of-equilibrium dynamics arising from quantum-quench (QQ) protocols (instantaneous changes of the Hamiltonian parameters) in many-body systems within their quantum critical regime and in contact with thermal baths, homogeneously coupled to the systems. We consider two classes of QQ protocols. One of them uses the thermal bath to prepare the initial Gibbs state; then, after quenching, the thermal bath is removed and the dynamics of the system is unitary. Wealso address a more complex QQ protocol where the thermal bath is not removed after quenching, thus the quantum evolution is also driven by the interaction with the bath, which may be described by appropriate master equations for the density matrix of the system, where a further relevant time scale, or inverse decay rate, characterizes the system-bath coupling. Under these QQ protocols, the critical system develops out-of-equilibrium scaling behaviors, which extend those forisolated critical systems, by introducing further scaling variables proportional to the temperature and the decay rate associated with the thermal baths. These out-of-equilibrium scaling behaviors are checked by analyzing QQ protocols within fermionic Kitaev wires, or equivalently quantum Ising chains, supplemented with a particular modelization of thermal bath that guarantees the asymptotic thermalization within the Lindblad master equation for the dynamics of open systems.
翻訳日:2023-05-15 15:26:32 公開日:2023-05-12
# SUR-adapter: 大規模言語モデルを用いたテキスト・画像間の事前学習拡散モデルの実現

SUR-adapter: Enhancing Text-to-Image Pre-trained Diffusion Models with Large Language Models ( http://arxiv.org/abs/2305.05189v2 )

ライセンス: Link先を確認
Shanshan Zhong, Zhongzhan Huang, Wushao Wen, Jinghui Qin, Liang Lin(参考訳) 拡散モデルは、テキスト対画像生成モデルとして人気を博し、テキストプロンプトによって導かれる高品質でコンテンツに富んだ画像を生成することができる。 しかし、入力プロンプトが簡潔なナラティブである場合、既存のモデルでは意味理解と常識推論に制限があり、結果として低品質の画像を生成する。 物語のプロンプトのキャパシティを向上させるために,事前学習した拡散モデルに対するセマンティック・アダプタ (SUR-adapter) と呼ばれる単純なパラメータ効率の良い微調整手法を提案する。 この目標を達成するために、まず57,000以上の意味的に修正されたマルチモーダルサンプルからなる新しいデータセットSURDを収集、注釈付けします。 各サンプルには単純なナラティブプロンプト、複雑なキーワードベースのプロンプト、高品質の画像が含まれている。 次に, 物語プロンプトの意味表現を複雑なプロンプトに整合させ, 大規模言語モデル(llm)の知識を知識蒸留により超適応者に伝達することで, テキストから画像への高品質な意味表現を構築するための強力な意味理解と推論能力を得る。 画像品質の劣化を伴わない簡潔な自然言語の理解と推論を可能にするために,複数のLLMと一般的な事前学習拡散モデルを統合する実験を行った。 提案手法は,ユーザフレンドリーなテキスト・ツー・イメージ生成モデルの開発を,単純な物語のプロンプトと複雑なキーワードベースのプロンプトのセマンティックギャップを埋めることによって促進する可能性を示した。 コードはhttps://github.com/qrange-group/sur-adapterでリリースされる。

Diffusion models, which have emerged to become popular text-to-image generation models, can produce high-quality and content-rich images guided by textual prompts. However, there are limitations to semantic understanding and commonsense reasoning in existing models when the input prompts are concise narrative, resulting in low-quality image generation. To improve the capacities for narrative prompts, we propose a simple-yet-effective parameter-efficient fine-tuning approach called the Semantic Understanding and Reasoning adapter (SUR-adapter) for pre-trained diffusion models. To reach this goal, we first collect and annotate a new dataset SURD which consists of more than 57,000 semantically corrected multi-modal samples. Each sample contains a simple narrative prompt, a complex keyword-based prompt, and a high-quality image. Then, we align the semantic representation of narrative prompts to the complex prompts and transfer knowledge of large language models (LLMs) to our SUR-adapter via knowledge distillation so that it can acquire the powerful semantic understanding and reasoning capabilities to build a high-quality textual semantic representation for text-to-image generation. We conduct experiments by integrating multiple LLMs and popular pre-trained diffusion models to show the effectiveness of our approach in enabling diffusion models to understand and reason concise natural language without image quality degradation. Our approach can make text-to-image diffusion models easier to use with better user experience, which demonstrates our approach has the potential for further advancing the development of user-friendly text-to-image generation models by bridging the semantic gap between simple narrative prompts and complex keyword-based prompts. The code is released at https://github.com/Qrange-group/SUR-adapter.
翻訳日:2023-05-15 15:26:04 公開日:2023-05-12
# MGR:マルチジェネレータに基づく合理化

MGR: Multi-generator based Rationalization ( http://arxiv.org/abs/2305.04492v2 )

ライセンス: Link先を確認
Wei Liu, Haozhao Wang, Jun Wang, Ruixuan Li, Xinyang Li, Yuankai Zhang, Yang Qiu(参考訳) 合理化は、ジェネレータと予測器を用いて、ジェネレータが入力テキストの人間の知性の部分集合を次の予測器に選択する自己説明型NLPモデルを構築することである。 しかし、合理化には2つの重要な課題、すなわち、スプリアス相関とデジェネレーションがあり、予測器は、未熟な訓練済みジェネレータによって選択されたスプリアスまたは無意味なピースを過剰に適合させ、ジェネレータを劣化させる。 2つの課題に対処するために多くの研究が提案されているが、通常は個別に設計されており、どちらも考慮していない。 本稿では,この2つの問題を同時に解くために,MGRというシンプルな手法を提案する。 MGRの鍵となる考え方は、実際の部品の発生安定性を改善し、より有意義な部品を予測者に届けるように複数の発電機を採用することである。 実験により,MGRは最先端手法と比較してF1スコアを最大20.9%改善することがわかった。 コードはhttps://github.com/jugechengzi/Rationalization-MGRで公開されている。

Rationalization is to employ a generator and a predictor to construct a self-explaining NLP model in which the generator selects a subset of human-intelligible pieces of the input text to the following predictor. However, rationalization suffers from two key challenges, i.e., spurious correlation and degeneration, where the predictor overfits the spurious or meaningless pieces solely selected by the not-yet well-trained generator and in turn deteriorates the generator. Although many studies have been proposed to address the two challenges, they are usually designed separately and do not take both of them into account. In this paper, we propose a simple yet effective method named MGR to simultaneously solve the two problems. The key idea of MGR is to employ multiple generators such that the occurrence stability of real pieces is improved and more meaningful pieces are delivered to the predictor. Empirically, we show that MGR improves the F1 score by up to 20.9% as compared to state-of-the-art methods. Codes are available at https://github.com/jugechengzi/Rationalization-MGR .
翻訳日:2023-05-15 15:25:28 公開日:2023-05-12
# カーネルグラディエントDescent Learningにおけるランダムな平滑化

Random Smoothing Regularization in Kernel Gradient Descent Learning ( http://arxiv.org/abs/2305.03531v2 )

ライセンス: Link先を確認
Liang Ding, Tianyang Hu, Jiahang Jiang, Donghao Li, Wenjia Wang, Yuan Yao(参考訳) ランダムスムーズなデータ拡張は、入力データにノイズを導入することで過度な適合を防止し、より一般化された特徴を学ぶようモデルに促す、ユニークな形式である。 様々な応用で成功したにもかかわらず、ランダムな平滑化の正則化能力に関する体系的な研究は乏しい。 本稿では,古典ソボレフ空間に属する幅広い基底真理関数を適応的かつ効果的に学習できるランダム平滑化正規化の枠組みを提案することにより,このギャップを埋めることを目的とする。 具体的には、D$次元ユークリッド空間のソボレフ空間や、特別の場合の低次元部分多様体のソボレフ空間を含む低内在次元のソボレフ空間と、テンソル構造を持つ混合滑らかなソボレフ空間である。 ランダムな平滑化正規化を新しい畳み込みに基づく平滑化カーネルとして使用することにより、早期停止または重み劣化を伴うカーネル勾配勾配アルゴリズムを用いて、これらの場合の最適収束率を得ることができる。 我々の推定器は、基礎となるデータの構造的仮定に適応し、次元の呪いを避けることができる。 これは、ガウス、ラプラス、一般多項式ノイズなどの様々なノイズ分布の注入によって達成され、上記のデータの構造的仮定に広く適応することができる。 収束速度は有効次元のみに依存し、実際のデータ次元よりもかなり小さい可能性がある。 シミュレーションデータの数値実験を行い,理論結果の検証を行った。

Random smoothing data augmentation is a unique form of regularization that can prevent overfitting by introducing noise to the input data, encouraging the model to learn more generalized features. Despite its success in various applications, there has been a lack of systematic study on the regularization ability of random smoothing. In this paper, we aim to bridge this gap by presenting a framework for random smoothing regularization that can adaptively and effectively learn a wide range of ground truth functions belonging to the classical Sobolev spaces. Specifically, we investigate two underlying function spaces: the Sobolev space of low intrinsic dimension, which includes the Sobolev space in $D$-dimensional Euclidean space or low-dimensional sub-manifolds as special cases, and the mixed smooth Sobolev space with a tensor structure. By using random smoothing regularization as novel convolution-based smoothing kernels, we can attain optimal convergence rates in these cases using a kernel gradient descent algorithm, either with early stopping or weight decay. It is noteworthy that our estimator can adapt to the structural assumptions of the underlying data and avoid the curse of dimensionality. This is achieved through various choices of injected noise distributions such as Gaussian, Laplace, or general polynomial noises, allowing for broad adaptation to the aforementioned structural assumptions of the underlying data. The convergence rate depends only on the effective dimension, which may be significantly smaller than the actual data dimension. We conduct numerical experiments on simulated data to validate our theoretical results.
翻訳日:2023-05-15 15:25:09 公開日:2023-05-12
# HAISTA-NET: 注意によるヒューマンアシストインスタンスセグメンテーション

HAISTA-NET: Human Assisted Instance Segmentation Through Attention ( http://arxiv.org/abs/2305.03105v2 )

ライセンス: Link先を確認
Muhammed Korkmaz, Tolga Buyukyazi, T. Metin Sezgin(参考訳) インスタンスセグメンテーション(英: instance segmentation)は、オブジェクトの精細化、医用画像分析、画像/ビデオ編集などの応用範囲を持つ画像検出の一形態であり、いずれも高い精度を必要とする。 しかし、この精度は、最先端の完全に自動化されたインスタンスセグメンテーションアルゴリズムが提供できる範囲を超えていることが多い。 パフォーマンスギャップは、特に小さくて複雑なオブジェクトでは禁止される。 通常、実践者は完全な手動のアノテーションを使うが、これは面倒な作業である。 そこで本研究では,高曲率,複雑,小型のオブジェクトに対して,より正確な予測を可能にし,高品質なセグメンテーションマスクを生成する新しい手法を提案する。 我々の人間支援セグメンテーションモデルHAISTA-NETは、既存のStrong Mask R-CNNネットワークを拡張し、人間の特定部分境界を組み込む。 また,手書き部分的オブジェクト境界のデータセットも提示し,これを人間の注意マップと呼ぶ。 さらに、部分スケッチオブジェクト境界(PSOB)データセットには、いくつかのピクセルを持つオブジェクトの接地真理マスクの曲率を表す手書き部分オブジェクト境界が含まれている。 PSOBデータセットを用いた広範な評価により、HAISTA-NETはMask R-CNN、Strong Mask R-CNN、Mask2Formerといった最先端の手法より優れており、これらの3つのモデルのAP-Maskメトリクスにおいて、+36.7、+29.6、+26.5ポイントの増加が達成されている。 完全に自動化されたインスタンスセグメンテーションアーキテクチャとインタラクティブなインスタンスセグメンテーションアーキテクチャを組み合わせることで、将来の人間支援深層学習モデルのベースラインとなることを願っています。

Instance segmentation is a form of image detection which has a range of applications, such as object refinement, medical image analysis, and image/video editing, all of which demand a high degree of accuracy. However, this precision is often beyond the reach of what even state-of-the-art, fully automated instance segmentation algorithms can deliver. The performance gap becomes particularly prohibitive for small and complex objects. Practitioners typically resort to fully manual annotation, which can be a laborious process. In order to overcome this problem, we propose a novel approach to enable more precise predictions and generate higher-quality segmentation masks for high-curvature, complex and small-scale objects. Our human-assisted segmentation model, HAISTA-NET, augments the existing Strong Mask R-CNN network to incorporate human-specified partial boundaries. We also present a dataset of hand-drawn partial object boundaries, which we refer to as human attention maps. In addition, the Partial Sketch Object Boundaries (PSOB) dataset contains hand-drawn partial object boundaries which represent curvatures of an object's ground truth mask with several pixels. Through extensive evaluation using the PSOB dataset, we show that HAISTA-NET outperforms state-of-the art methods such as Mask R-CNN, Strong Mask R-CNN, and Mask2Former, achieving respective increases of +36.7, +29.6, and +26.5 points in AP-Mask metrics for these three models. We hope that our novel approach will set a baseline for future human-aided deep learning models by combining fully automated and interactive instance segmentation architectures.
翻訳日:2023-05-15 15:24:23 公開日:2023-05-12
# 今後の電力市場設計に強化学習をどう活用するか 第1部 パラダイム理論

How to Use Reinforcement Learning to Facilitate Future Electricity Market Design? Part 1: A Paradigmatic Theory ( http://arxiv.org/abs/2305.02485v2 )

ライセンス: Link先を確認
Ziqing Zhu, Siqi Bu, Ka Wing Chan, Bin Zhou, Shiwei Xia(参考訳) 電力部門における脱炭の必要性が強まる中、再生可能世代への高浸透に対処し、電力系統の安全、経済効率、環境に優しくするためのマルコレベルのアプローチとして、電力市場の再設計が必要である。 しかし、既存の市場設計手法は、エナジースポット市場(ESM)、アシラリーサービス市場(ASM)、金融市場(FM)、すなわち「ジョイント市場」と信頼性のあるシミュレーションベースの検証の欠如に悩まされている。 これらの欠点に対処するため,本論文では,強化学習(rl)に基づくシミュレーションを用いた共同市場設計のパラダイム理論と詳細な手法について述べる。 パート1では、この新しい市場デザイン哲学の理論と枠組みが提案されている。 まず、共同市場を設計する際の市場デザインオプションについて、対象とする研究課題として要約する。 第2に,市場設計の選択肢を取り入れた共同市場における入札ゲームを記述するために,マルコフゲームモデルを開発した。 第3に、市場モデルをシミュレートする複数のタイプのRLアルゴリズムをデプロイするフレームワークを開発する。 最後に、シミュレーション結果に基づいて市場設計を検証するために、いくつかの市場操作性能指標を提案する。

In face of the pressing need of decarbonization in the power sector, the re-design of electricity market is necessary as a Marco-level approach to accommodate the high penetration of renewable generations, and to achieve power system operation security, economic efficiency, and environmental friendliness. However, existing market design methodologies suffer from the lack of coordination among energy spot market (ESM), ancillary service market (ASM) and financial market (FM), i.e., the "joint market", and the lack of reliable simulation-based verification. To tackle these deficiencies, this two-part paper develops a paradigmatic theory and detailed methods of the joint market design using reinforcement-learning (RL)-based simulation. In Part 1, the theory and framework of this novel market design philosophy are proposed. First, the controversial market design options while designing the joint market are summarized as the targeted research questions. Second, the Markov game model is developed to describe the bidding game in the joint market, incorporating the market design options to be determined. Third, a framework of deploying multiple types of RL algorithms to simulate the market model is developed. Finally, several market operation performance indicators are proposed to validate the market design based on the simulation results.
翻訳日:2023-05-15 15:23:50 公開日:2023-05-12
# GAMIVAL:モバイルクラウドゲームコンテンツにおけるビデオ品質予測

GAMIVAL: Video Quality Prediction on Mobile Cloud Gaming Content ( http://arxiv.org/abs/2305.02422v2 )

ライセンス: Link先を確認
Yu-Chih Chen, Avinab Saha, Chase Davis, Bo Qiu, Xiaoming Wang, Rahul Gowda, Ioannis Katsavounidis, Alan C. Bovik(参考訳) モバイルのクラウドゲーム産業はこの10年間で急速に成長している。 ストリーミングゲームビデオがクラウドサーバから顧客のクライアントデバイスに送信される場合、参照ビデオなしで歪んだビデオ品質をモニタできるアルゴリズムが望ましいツールである。 しかし、コンピュータグラフィックスエンジンでレンダリングされたストリーミングゲームビデオの品質を正確に予測できるNo-Reference Video Quality Assessment (NR VQA)モデルを作成することは難しい問題である。 最近まで、モバイルゲームコンテンツの主観的品質データベースが不十分なため、この問題はさらに複雑だった。 我々はゲーム専用nr vqaモデルであるgameing video quality evaluator(gamival)を作成し、空間的および時間的ゲーム歪曲されたシーン統計モデル、ニューラルノイズモデル、深い意味的特徴の利点を活用した。 サポートベクタ回帰(SVR)を回帰器として使用するGAMIVALは,新たなLIVE-Meta Mobile Cloud Gaming(LIVE-Meta MCG)ビデオ品質データベースにおいて,優れたパフォーマンスを実現する。

The mobile cloud gaming industry has been rapidly growing over the last decade. When streaming gaming videos are transmitted to customers' client devices from cloud servers, algorithms that can monitor distorted video quality without having any reference video available are desirable tools. However, creating No-Reference Video Quality Assessment (NR VQA) models that can accurately predict the quality of streaming gaming videos rendered by computer graphics engines is a challenging problem, since gaming content generally differs statistically from naturalistic videos, often lacks detail, and contains many smooth regions. Until recently, the problem has been further complicated by the lack of adequate subjective quality databases of mobile gaming content. We have created a new gaming-specific NR VQA model called the Gaming Video Quality Evaluator (GAMIVAL), which combines and leverages the advantages of spatial and temporal gaming distorted scene statistics models, a neural noise model, and deep semantic features. Using a support vector regression (SVR) as a regressor, GAMIVAL achieves superior performance on the new LIVE-Meta Mobile Cloud Gaming (LIVE-Meta MCG) video quality database.
翻訳日:2023-05-15 15:23:29 公開日:2023-05-12
# マニフォールドフラット化と再構成による表現学習

Representation Learning via Manifold Flattening and Reconstruction ( http://arxiv.org/abs/2305.01777v3 )

ライセンス: Link先を確認
Michael Psenka, Druv Pai, Vishal Raman, Shankar Sastry, Yi Ma(参考訳) 本研究は,この多様体の有限サンプルから埋め込み部分多様体を線形化し再構成する一対のニューラルネットワークを明示的に構築するアルゴリズムを提案する。 我々の生成したニューラルネットワークはFlatNetと呼ばれ、理論的に解釈可能であり、大規模に計算可能であり、データをテストするためにうまく一般化されている。 合成高次元多様体データと2次元画像データにおける実験結果と他のモデルとの比較を行った。 私たちのコードは公開されています。

This work proposes an algorithm for explicitly constructing a pair of neural networks that linearize and reconstruct an embedded submanifold, from finite samples of this manifold. Our such-generated neural networks, called Flattening Networks (FlatNet), are theoretically interpretable, computationally feasible at scale, and generalize well to test data, a balance not typically found in manifold-based learning methods. We present empirical results and comparisons to other models on synthetic high-dimensional manifold data and 2D image data. Our code is publicly available.
翻訳日:2023-05-15 15:23:07 公開日:2023-05-12
# 今後の電力市場設計に強化学習をどう活用するか 第2部:方法と応用

How to Use Reinforcement Learning to Facilitate Future Electricity Market Design? Part 2: Method and Applications ( http://arxiv.org/abs/2305.06921v2 )

ライセンス: Link先を確認
Ziqing Zhu, Siqi Bu, Ka Wing Chan, Bin Zhou, Shiwei Xia(参考訳) 本稿では, 強化学習(RL)に基づくシミュレーションを用いて, 共同電力市場設計のパラダイム理論と詳細な手法を開発する。 パート2では、電気スポット市場(ESM)を設計するための詳細な手法と、アシラリーサービス市場(ASM)における予約容量製品(RC)と、金融市場(FM)における仮想入札(VB)製品とを併用して、この理論をさらに実証している。 第1部で提案された理論に従い、まず、共同市場における市場設計の選択肢を特定する。 次に,市場設計の選択肢と不確実なリスクをモデル定式化に組み込む方法を示すマルコフゲームモデルを開発した。 第1部で開発された一般化市場シミュレーション手法の実践的実装として,マルチエージェントポリシ近位最適化(MAPPO)アルゴリズムについて述べる。 最後に,本研究では,mappoアルゴリズムを実装したシミュレーション結果に基づいて,第1部で提案する市場運用性能指標を用いて,最適な市場設計オプションを選択する方法を示す。 市場参加者の入札戦略選好に異なる市場デザインオプションが与える影響についても論じる。

This two-part paper develops a paradigmatic theory and detailed methods of the joint electricity market design using reinforcement-learning (RL)-based simulation. In Part 2, this theory is further demonstrated by elaborating detailed methods of designing an electricity spot market (ESM), together with a reserved capacity product (RC) in the ancillary service market (ASM) and a virtual bidding (VB) product in the financial market (FM). Following the theory proposed in Part 1, firstly, market design options in the joint market are specified. Then, the Markov game model is developed, in which we show how to incorporate market design options and uncertain risks in model formulation. A multi-agent policy proximal optimization (MAPPO) algorithm is elaborated, as a practical implementation of the generalized market simulation method developed in Part 1. Finally, the case study demonstrates how to pick the best market design options by using some of the market operation performance indicators proposed in Part 1, based on the simulation results generated by implementing the MAPPO algorithm. The impacts of different market design options on market participants' bidding strategy preference are also discussed.
翻訳日:2023-05-15 15:16:27 公開日:2023-05-12
# SAMは超解像を加速できるか?

Can SAM Boost Video Super-Resolution? ( http://arxiv.org/abs/2305.06524v2 )

ライセンス: Link先を確認
Zhihe Lu, Zeyu Xiao, Jiawang Bai, Zhiwei Xiong, Xinchao Wang(参考訳) ビデオ超解像(VSR)の主な課題は、入力フレーム内の大きな動きを扱うことであり、複数のフレームから情報を正確に集約することは困難である。 既存の作品は変形可能な畳み込みを採用するか、または光学フローを事前に推定し、効果的なアライメントと融合のためのフレーム間の対応を確立する。 フローベースの手法はフロー推定モデルの精度に大きく依存しており、2つの低解像度フレームの正確な流れを提供しない可能性がある。 本稿では,画像劣化の影響を受けにくい強力な基盤モデルであるSegment Anything Model (SAM) を用いて,VSRの強化に先立って,より堅牢でセマンティックな手法を検討する。 samベースのプリエントを使用するために,単純な効果的なモジュールであるsam-guidedfinement module (seem)を提案する。 この軽量プラグインモジュールは、セマンティックアウェア機能の生成に注意機構を活用するだけでなく、既存のメソッドに簡単かつシームレスに統合できるように設計されている。 具体的には、このSEEMをEDVRとBasicVSRの2つの代表的手法に適用し、Vimeo-90K, REDS, Vid4の3つの広く使われているVSRデータセットに対して、最小限の実装労力で継続的に性能を改善した。 さらに重要なことは,提案したSEEMが既存の手法を効率的なチューニング方式で進めることによって,性能とトレーニングパラメータ数のバランスを調整する柔軟性が向上することである。 コードは近くオープンソースになる。

The primary challenge in video super-resolution (VSR) is to handle large motions in the input frames, which makes it difficult to accurately aggregate information from multiple frames. Existing works either adopt deformable convolutions or estimate optical flow as a prior to establish correspondences between frames for the effective alignment and fusion. However, they fail to take into account the valuable semantic information that can greatly enhance it; and flow-based methods heavily rely on the accuracy of a flow estimate model, which may not provide precise flows given two low-resolution frames. In this paper, we investigate a more robust and semantic-aware prior for enhanced VSR by utilizing the Segment Anything Model (SAM), a powerful foundational model that is less susceptible to image degradation. To use the SAM-based prior, we propose a simple yet effective module -- SAM-guidEd refinEment Module (SEEM), which can enhance both alignment and fusion procedures by the utilization of semantic information. This light-weight plug-in module is specifically designed to not only leverage the attention mechanism for the generation of semantic-aware feature but also be easily and seamlessly integrated into existing methods. Concretely, we apply our SEEM to two representative methods, EDVR and BasicVSR, resulting in consistently improved performance with minimal implementation effort, on three widely used VSR datasets: Vimeo-90K, REDS and Vid4. More importantly, we found that the proposed SEEM can advance the existing methods in an efficient tuning manner, providing increased flexibility in adjusting the balance between performance and the number of training parameters. Code will be open-source soon.
翻訳日:2023-05-15 15:16:07 公開日:2023-05-12
# 診断・健康管理のためのChatGPTのような大規模基礎モデル:調査とロードマップ

ChatGPT-Like Large-Scale Foundation Models for Prognostics and Health Management: A Survey and Roadmaps ( http://arxiv.org/abs/2305.06472v2 )

ライセンス: Link先を確認
Yan-Fu Li, Huan Wang, Muxia Sun(参考訳) phm(prognostics and health management)技術は、機器の故障や損傷を識別し予測することにより、生産コストとダウンタイムを低減しつつ機器の寿命と信頼性を向上させるために必要な保守措置を講じることにより、産業生産と機器のメンテナンスにおいて重要な役割を果たす。 近年,人工知能(AI)に基づくPHM技術は産業用IoTやビッグデータの文脈において顕著な成果を上げており,鉄道,エネルギー,航空などの様々な産業で状況監視,故障予測,健康管理に広く利用されている。 chatgptやdalle-eのような大規模基礎モデル(lsf-models)の出現は、ai-1.0からai-2.0の新しい時代へのaiの参入を意味し、深層モデルは、シングルモーダル、シングルタスク、限定データの研究パラダイムから、マルチモーダル、マルチタスク、大規模データ、超大規模モデルパラダイムへと急速に進化してきた。 ChatGPTは、この研究パラダイムにおける画期的な成果であり、その高度にインテリジェントな自然言語理解能力のために、汎用人工知能への希望を提供する。 しかし、PHM分野には、このAI分野の重大な変化に対応する方法に関するコンセンサスがなく、今後の開発方向性を解明するためには、体系的なレビューとロードマップが必要である。 このギャップを埋めるために,本稿では,LSFモデルの主要なコンポーネントと最新の開発状況を体系的に解説する。 そこで我々は,PHM タスクに適用可能な LSF-Model の構築方法について体系的に回答し,この研究パラダイムの課題と今後の開発ロードマップを概説した。

Prognostics and health management (PHM) technology plays a critical role in industrial production and equipment maintenance by identifying and predicting possible equipment failures and damages, thereby allowing necessary maintenance measures to be taken to enhance equipment service life and reliability while reducing production costs and downtime. In recent years, PHM technology based on artificial intelligence (AI) has made remarkable achievements in the context of the industrial IoT and big data, and it is widely used in various industries, such as railway, energy, and aviation, for condition monitoring, fault prediction, and health management. The emergence of large-scale foundation models (LSF-Models) such as ChatGPT and DALLE-E marks the entry of AI into a new era of AI-2.0 from AI-1.0, where deep models have rapidly evolved from a research paradigm of single-modal, single-task, and limited-data to a multi-modal, multi-task, massive data, and super-large model paradigm. ChatGPT represents a landmark achievement in this research paradigm, offering hope for general artificial intelligence due to its highly intelligent natural language understanding ability. However, the PHM field lacks a consensus on how to respond to this significant change in the AI field, and a systematic review and roadmap is required to elucidate future development directions. To fill this gap, this paper systematically expounds on the key components and latest developments of LSF-Models. Then, we systematically answered how to build the LSF-Model applicable to PHM tasks and outlined the challenges and future development roadmaps for this research paradigm.
翻訳日:2023-05-15 15:15:36 公開日:2023-05-12
# 協調型マルチエージェント強化学習:非同期通信と線形関数近似

Cooperative Multi-Agent Reinforcement Learning: Asynchronous Communication and Linear Function Approximation ( http://arxiv.org/abs/2305.06446v2 )

ライセンス: Link先を確認
Yifei Min, Jiafan He, Tianhao Wang, Quanquan Gu(参考訳) 本研究では,複数のエージェントが中央サーバを介して通信を介して協調するエピソディックマルコフ決定プロセスの設定において,マルチエージェント強化学習について検討する。 本稿では,低通信オーバヘッドによる協調の利点を確保しつつ,非同期通信を可能にする価値反復に基づく効率の良いアルゴリズムを提案する。 線形関数近似により、このアルゴリズムが$\tilde{\mathcal{o}}(d^{3/2}h^2\sqrt{k})$ regret with $\tilde{\mathcal{o}}(dhm^2)$ 通信複雑性を享受できることが証明される。 また、最小の$\Omega(dM)$通信の複雑さがコラボレーションによるパフォーマンス向上に必要であることを示す低いバウンダリも提供します。

We study multi-agent reinforcement learning in the setting of episodic Markov decision processes, where multiple agents cooperate via communication through a central server. We propose a provably efficient algorithm based on value iteration that enable asynchronous communication while ensuring the advantage of cooperation with low communication overhead. With linear function approximation, we prove that our algorithm enjoys an $\tilde{\mathcal{O}}(d^{3/2}H^2\sqrt{K})$ regret with $\tilde{\mathcal{O}}(dHM^2)$ communication complexity, where $d$ is the feature dimension, $H$ is the horizon length, $M$ is the total number of agents, and $K$ is the total number of episodes. We also provide a lower bound showing that a minimal $\Omega(dM)$ communication complexity is required to improve the performance through collaboration.
翻訳日:2023-05-15 15:15:05 公開日:2023-05-12
# 自動倉庫のマルチロボットコーディネーションとレイアウト設計

Multi-Robot Coordination and Layout Design for Automated Warehousing ( http://arxiv.org/abs/2305.06436v2 )

ライセンス: Link先を確認
Yulun Zhang, Matthew C. Fontaine, Varun Bhatt, Stefanos Nikolaidis, Jiaoyang Li(参考訳) MAPF(Multi-Agent Path Finding)の急速な進歩により、大規模な自動倉庫で何百ものロボットを協調させるMAPFアルゴリズムをどのように展開するかが研究されている。 ほとんどの研究はMAPFアルゴリズムを改良して倉庫のスループットを向上させるが、倉庫のレイアウトを最適化することでスループットを改善することに重点を置いている。 最先端のMAPFアルゴリズムであっても、人間設計のレイアウトは、多数のロボットを持つ倉庫の混雑を招き、スケーラビリティが制限されることが示されている。 我々は,既存の自動シナリオ生成手法を拡張し,倉庫レイアウトを最適化する。 その結果,(1)交通渋滞を低減しスループットを向上させること,(2)ロボット数を2倍にすることで自動倉庫のスケーラビリティを向上させること,(3)ユーザが特定した多様性対策でレイアウトを生成できることがわかった。 https://github.com/lunjohnzhang/warehouse_env_gen_public

With the rapid progress in Multi-Agent Path Finding (MAPF), researchers have studied how MAPF algorithms can be deployed to coordinate hundreds of robots in large automated warehouses. While most works try to improve the throughput of such warehouses by developing better MAPF algorithms, we focus on improving the throughput by optimizing the warehouse layout. We show that, even with state-of-the-art MAPF algorithms, commonly used human-designed layouts can lead to congestion for warehouses with large numbers of robots and thus have limited scalability. We extend existing automatic scenario generation methods to optimize warehouse layouts. Results show that our optimized warehouse layouts (1) reduce traffic congestion and thus improve throughput, (2) improve the scalability of the automated warehouses by doubling the number of robots in some cases, and (3) are capable of generating layouts with user-specified diversity measures. We include the source code at: https://github.com/lunjohnzhang/warehouse_env_gen_public
翻訳日:2023-05-15 15:14:41 公開日:2023-05-12
# 疎密ニューラルネットワークにおけるミニバッチサイズの相転移

Phase transitions in the mini-batch size for sparse and dense neural networks ( http://arxiv.org/abs/2305.06435v2 )

ライセンス: Link先を確認
Raffaele Marino and Federico Ricci-Tersenghi(参考訳) ニューラルネットワークのトレーニングにおけるデータのミニバッチの使用は、現在非常に一般的である。 広く使われているにもかかわらず、最適なミニバッチサイズがどの程度大きいか小さいかを定量的に説明する理論は欠落している。 本研究は,二層ニューラルネットワークの学習におけるミニバッチサイズの役割を体系的に理解する試みである。 教師-学生のシナリオで、スパース教師と働き、異なる複雑さのタスクに焦点を当て、ミニバッチサイズを$m$で変更する効果を定量化する。 学生の一般化性能は、しばしば$m$に強く依存しており、臨界値$m_c$に対して$m<m_c$が失敗し、$m>m_c$が完全に学習するか、非常によく一般化されるような急激な位相遷移を行う可能性がある。 相転移は、最初に統計力学で発見され、後に科学の多くの分野で観測された集団現象によって引き起こされる。 ミニバッチサイズを変化させる相転移を見つけることは、これまで見過ごされてきたハイパーパラメータの役割に関するいくつかの重要な疑問を引き起こす。

The use of mini-batches of data in training artificial neural networks is nowadays very common. Despite its broad usage, theories explaining quantitatively how large or small the optimal mini-batch size should be are missing. This work presents a systematic attempt at understanding the role of the mini-batch size in training two-layer neural networks. Working in the teacher-student scenario, with a sparse teacher, and focusing on tasks of different complexity, we quantify the effects of changing the mini-batch size $m$. We find that often the generalization performances of the student strongly depend on $m$ and may undergo sharp phase transitions at a critical value $m_c$, such that for $m<m_c$ the training process fails, while for $m>m_c$ the student learns perfectly or generalizes very well the teacher. Phase transitions are induced by collective phenomena firstly discovered in statistical mechanics and later observed in many fields of science. Finding a phase transition varying the mini-batch size raises several important questions on the role of a hyperparameter which have been somehow overlooked until now.
翻訳日:2023-05-15 15:14:23 公開日:2023-05-12
# 大規模言語モデルを用いたテキストモーダル記述に基づく解釈可能なマルチモーダル感情分析

Interpretable multimodal sentiment analysis based on textual modality descriptions by using large-scale language models ( http://arxiv.org/abs/2305.06162v3 )

ライセンス: Link先を確認
Sixia Li and Shogo Okada(参考訳) マルチモーダル感情分析は、ユーザの内部状態を理解する上で重要な領域である。 深層学習の手法は有効であるが, 難解な解釈の問題は徐々に注目されてきている。 従来の研究は、注意重みやベクトル分布を使って解釈性を提供しようと試みてきた。 しかし、それらの説明は直感的ではなく、異なる訓練されたモデルの影響を受けやすい。 本研究では,非言語的モダリティをテキスト記述に変換し,感情予測のための大規模言語モデルを用いて解釈可能性を提供する新しい手法を提案する。 これは、入力テキストからの意思決定に関してモデルが依存するものを直接解釈する直感的なアプローチを提供し、解釈可能性を大幅に改善する。 具体的には、音声モダリティのための2つの特徴パターンと、顔モダリティのための離散アクションユニットに基づいて記述を変換する。 2つの感情分析タスクの実験結果から,従来の特徴を用いたベースラインに比べて,感情分析の有効性が向上し,F1スコアの2.49%が向上した。 また, マルチモーダル記述は, 従来の核融合法と同様のモーダル性を持つことを示した。 その結果,提案手法はマルチモーダル感情分析に有効であることが示唆された。

Multimodal sentiment analysis is an important area for understanding the user's internal states. Deep learning methods were effective, but the problem of poor interpretability has gradually gained attention. Previous works have attempted to use attention weights or vector distributions to provide interpretability. However, their explanations were not intuitive and can be influenced by different trained models. This study proposed a novel approach to provide interpretability by converting nonverbal modalities into text descriptions and by using large-scale language models for sentiment predictions. This provides an intuitive approach to directly interpret what models depend on with respect to making decisions from input texts, thus significantly improving interpretability. Specifically, we convert descriptions based on two feature patterns for the audio modality and discrete action units for the facial modality. Experimental results on two sentiment analysis tasks demonstrated that the proposed approach maintained, or even improved effectiveness for sentiment analysis compared to baselines using conventional features, with the highest improvement of 2.49% on the F1 score. The results also showed that multimodal descriptions have similar characteristics on fusing modalities as those of conventional fusion methods. The results demonstrated that the proposed approach is interpretable and effective for multimodal sentiment analysis.
翻訳日:2023-05-15 15:14:03 公開日:2023-05-12
# グラフニューラル埋め込みを用いたアクティブセマンティック定位

Active Semantic Localization with Graph Neural Embedding ( http://arxiv.org/abs/2305.06141v2 )

ライセンス: Link先を確認
Mitsuki Yoshida, Kanji Tanaka, Ryogo Yamamoto, and Daiki Iwata(参考訳) セマンティックローカライゼーション(セマンティックローカライゼーション)、すなわち、セマンティックイメージのモダリティを備えたロボットの自己ローカライゼーションは、ポイントゴールナビゲーション、オブジェクトゴールナビゲーション、ビジョン言語ナビゲーションといった近年出現するAIアプリケーションにおいて重要である。 しかしながら、セマンティックローカライゼーションに関する既存の研究のほとんどは、視点計画なしで受動的視覚タスクに焦点を当てたり、追加の豊富なモダリティ(深さ測定など)に依存している。 したがって、問題はほとんど解決されていない。 本研究では, 軽量で完全cpuベースの, ドメイン適応型セマンティックローカライズフレームワークであるgraph neural localizerについて検討する。このアプローチは, (1) 局地的特徴とグローバル特徴の視点的, 外観的不変性を組み合わせたシーングラフ, (2) グラフデータの直接学習/認識を可能にするgraph neural network (非ベクトルデータ) という,最近の2つの技術から着想を得たものである。 具体的には、グラフ畳み込みニューラルネットワークを受動視覚のためのシーングラフ分類器として訓練し、その知識を能動視覚のための強化学習プランナーに伝達する。 フォトリアリスティック・ハビタットシミュレータを用いて、自己教師あり学習と教師なしドメイン適応の2つのシナリオの実験を行い、提案手法の有効性を検証した。

Semantic localization, i.e., robot self-localization with semantic image modality, is critical in recently emerging embodied AI applications such as point-goal navigation, object-goal navigation and vision language navigation. However, most existing works on semantic localization focus on passive vision tasks without viewpoint planning, or rely on additional rich modalities (e.g., depth measurements). Thus, the problem is largely unsolved. In this work, we explore a lightweight, entirely CPU-based, domain-adaptive semantic localization framework, called graph neural localizer.Our approach is inspired by two recently emerging technologies: (1) Scene graph, which combines the viewpoint- and appearance- invariance of local and global features; (2) Graph neural network, which enables direct learning/recognition of graph data (i.e., non-vector data). Specifically, a graph convolutional neural network is first trained as a scene graph classifier for passive vision, and then its knowledge is transferred to a reinforcement-learning planner for active vision. Experiments on two scenarios, self-supervised learning and unsupervised domain adaptation, using a photo-realistic Habitat simulator validate the effectiveness of the proposed method.
翻訳日:2023-05-15 15:13:42 公開日:2023-05-12
# UGLE真理の探索:教師なしGNN学習環境の検討

Search for the UGLE Truth: An Investigation into Unsupervised GNN Learning Environments ( http://arxiv.org/abs/2305.06026v2 )

ライセンス: Link先を確認
Will Leeney, Ryan McConville(参考訳) グラフニューラルネットワーク(GNN)は、強力な表現力のあるデータ表現であるグラフ構造上の関数を学習する能力のため、あらゆる機械学習タスクに有効なツールである。 コミュニティの検出や教師なしのタスクは、GNNでますます行われている。 グラフの接続を伴う多次元ノード特徴を用いたグラフ内のノードのクラスタリングは、ソーシャルネットワークからゲノムまで、現実世界のタスクに多くの応用をもたらす。 残念ながら、GNNベースのコミュニティ検出を公平かつ厳格に評価するための十分なベンチマーク環境が確立されていない文献にはギャップがあり、この初期段階の分野での進歩を妨げる可能性がある。 この設定で特に難しいのは、あいまいなハイパーパラメータチューニング環境と、パフォーマンスと評価データセットの矛盾するメトリクスの組み合わせである。 本稿では,GNNを用いたコミュニティ検出アルゴリズムの一貫した比較のためのフレームワークを提案し,評価する。 これにより,gnnの使用やタスクの教師なしの性質といった要因によって悪化する実験環境へのパフォーマンスの強い依存が示され,現場における合同研究を促進するためのフレームワークの使用の動機が明確になる。

Graph Neural Networks (GNNs) are a pertinent tool for any machine learning task due to their ability to learn functions over graph structures, a powerful and expressive data representation. The detection of communities, an unsupervised task has increasingly been performed with GNNs. Clustering nodes in a graph using the multi-dimensionality of node features with the connectivity of the graph has many applications to real world tasks from social networks to genomics. Unfortunately, there is currently a gap in the literature with no established sufficient benchmarking environment for fairly and rigorously evaluating GNN based community detection, thereby potentially impeding progress in this nascent field. We observe the particular difficulties in this setting is the ambiguous hyperparameter tuning environments combined with conflicting metrics of performance and evaluation datasets. In this work, we propose and evaluate frameworks for the consistent comparisons of community detection algorithms using GNNs. With this, we show the strong dependence of the performance to the experimental settings, exacerbated by factors such as the use of GNNs and the unsupervised nature of the task, providing clear motivation for the use of a framework to facilitate congruent research in the field.
翻訳日:2023-05-15 15:13:14 公開日:2023-05-12
# ポスト量子化超解像ネットワークのための分布フレキシブルサブセット量子化

Distribution-Flexible Subset Quantization for Post-Quantizing Super-Resolution Networks ( http://arxiv.org/abs/2305.05888v2 )

ライセンス: Link先を確認
Yunshan Zhong, Mingbao Lin, Jingjing Xie, Yuxin Zhang, Fei Chao, Rongrong Ji(参考訳) 本稿では,超高分解能ネットワークのためのポストトレーニング量子化手法であるDFSQを提案する。 DFSQを開発する動機は、サンプルやチャネル間で大きなばらつきを示す現在の超解像モデルの特異な活性化分布に基づいている。 この問題に対処するため、DFSQは活性化のチャネルワイド正規化を行い、分散フレキシブルなサブセット量子化(SQ)を適用する。 SQにおける量子化点の選択を高速化するために,K平均クラスタリングを用いた高速量子化点選択戦略を提案する。 一般的な反復的網羅的探索アルゴリズムと比較して、我々の戦略は普遍集合におけるすべての組み合わせの列挙を回避し、時間複雑性を指数関数から線形に減らす。 したがって、普遍集合の大きさに対する時間コストの制約は大幅に緩和される。 様々な超解像モデルに対する広範囲な評価は、DFSQが微調整をせずに効果的に性能を維持することを示す。 例えば、UrbanベンチマークでEDSRx2の量子化を行う場合、DFSQは6ビットと8ビットの量子化で完全精度の量子化に匹敵する性能を達成し、4ビットの量子化では0.1dBのPSNR低下しか発生しない。 コードは \url{https://github.com/zysxmu/dfsq}

This paper introduces Distribution-Flexible Subset Quantization (DFSQ), a post-training quantization method for super-resolution networks. Our motivation for developing DFSQ is based on the distinctive activation distributions of current super-resolution models, which exhibit significant variance across samples and channels. To address this issue, DFSQ conducts channel-wise normalization of the activations and applies distribution-flexible subset quantization (SQ), wherein the quantization points are selected from a universal set consisting of multi-word additive log-scale values. To expedite the selection of quantization points in SQ, we propose a fast quantization points selection strategy that uses K-means clustering to select the quantization points closest to the centroids. Compared to the common iterative exhaustive search algorithm, our strategy avoids the enumeration of all possible combinations in the universal set, reducing the time complexity from exponential to linear. Consequently, the constraint of time costs on the size of the universal set is greatly relaxed. Extensive evaluations of various super-resolution models show that DFSQ effectively retains performance even without fine-tuning. For example, when quantizing EDSRx2 on the Urban benchmark, DFSQ achieves comparable performance to full-precision counterparts on 6- and 8-bit quantization, and incurs only a 0.1 dB PSNR drop on 4-bit quantization. Code is at \url{https://github.com/zysxmu/DFSQ}
翻訳日:2023-05-15 15:12:57 公開日:2023-05-12
# 大きな言語モデルを使って、槍フィッシングキャンペーンを効果的にスケールできる

Large Language Models Can Be Used To Effectively Scale Spear Phishing Campaigns ( http://arxiv.org/abs/2305.06972v2 )

ライセンス: Link先を確認
Julian Hazell(参考訳) 人工知能(AI)の最近の進歩、特に大規模言語モデル(LLM)の領域は、強力で汎用的なデュアルユースシステムを生み出している。 実際、認知は様々なタスクに向けられ、そのうちのいくつかは害をもたらす可能性がある。 本研究は,標的を操り,機密情報を漏洩させるサイバー犯罪の一形態であるスピアフィッシングに,llmをいかに利用できるかを検討する。 まず,先進的なLLMがサイバー犯罪の効率を向上させることができることを確認し,この段階では,スピアフィッシング攻撃の偵察およびメッセージ生成を支援できるLLMの能力について検討する。 次に,OpenAI の GPT-3.5 および GPT-4 モデルを用いて,600 名以上の英国議会議員に対して,LLM が槍フィッシングキャンペーンの規模を拡大する方法について検討する。 私の調査結果は、これらのメッセージは現実的なだけでなく、コスト効率も高く、それぞれのメールが生成するのにわずか1セントしかかからないことを示しています。 次に,人間フィードバックの微調整プロセスからの強化学習により,llmに設置された安全対策を回避し,悪用防止を目的としたより堅牢なガバナンス介入の必要性を浮き彫りにする。 この進化するリスクに対処するために、アプリケーションプログラミングインタフェースのような構造化アクセススキームとLLMベースの防御システムという2つの潜在的解決策を提案する。

Recent progress in artificial intelligence (AI), particularly in the domain of large language models (LLMs), has resulted in powerful and versatile dual-use systems. Indeed, cognition can be put towards a wide variety of tasks, some of which can result in harm. This study investigates how LLMs can be used for spear phishing, a form of cybercrime that involves manipulating targets into divulging sensitive information. I first explore LLMs' ability to assist with the reconnaissance and message generation stages of a successful spear phishing attack, where I find that advanced LLMs are capable of improving cybercriminals' efficiency during these stages. To explore how LLMs can be used to scale spear phishing campaigns, I then create unique spear phishing messages for over 600 British Members of Parliament using OpenAI's GPT-3.5 and GPT-4 models. My findings reveal that these messages are not only realistic but also cost-effective, with each email costing only a fraction of a cent to generate. Next, I demonstrate how basic prompt engineering can circumvent safeguards installed in LLMs by the reinforcement learning from human feedback fine-tuning process, highlighting the need for more robust governance interventions aimed at preventing misuse. To address these evolving risks, I propose two potential solutions: structured access schemes, such as application programming interfaces, and LLM-based defensive systems.
翻訳日:2023-05-15 15:04:35 公開日:2023-05-12
# ベイジアンナッシュ平衡推定のための模擬学習に基づく近代電力市場における事前知識伝達を実現するアルゴリズム

An Imitation Learning Based Algorithm Enabling Priori Knowledge Transfer in Modern Electricity Markets for Bayesian Nash Equilibrium Estimation ( http://arxiv.org/abs/2305.06924v2 )

ライセンス: Link先を確認
Ziqing Zhu, Ka Wing Chan, Siqi Bu, Ze Hu, Shiwei Xia(参考訳) 電力市場の入札ゲームにおけるNash Equilibrium(NE)推定は、入札戦略最適化のための世代企業(GENCO)と市場監視のための独立系オペレータ(ISO)の両方にとって重要な関心事である。 しかし,近年の電力市場(FEM)におけるNE推定手法は,需要変動やネットワーク混雑,市場設計の変更など,環境変化前の入札戦略の事前知識が十分に活用されていないため,不正確かつ非効率である。 そこで本稿では,FEM (BAMDP-FEM) におけるベイズ適応マルコフ決定プロセスを開発し,事前知識を考慮した提案手法をモデル化する。 次に, 先行知識と環境変化との相互作用から, GENCOを同時に学習可能にするために, 新たなMulti-Agent Generative Adversarial Imitation Learningアルゴリズム(MAGAIL-FEM)を提案する。 得られたNEはベイズナッシュ平衡(BNE)であり、事前知識は以前の環境から伝達される。 本研究では,従来の手法と比較して収束速度の面でのアルゴリズムの優位性を検証した。 得られたbneにおける最適入札戦略は,事前知識からの効果的な学習により,常にneよりも多くの利益を得られると結論づけた。 また、BNEは現実世界市場の状況とより正確で整合性がある。

The Nash Equilibrium (NE) estimation in bidding games of electricity markets is the key concern of both generation companies (GENCOs) for bidding strategy optimization and the Independent System Operator (ISO) for market surveillance. However, existing methods for NE estimation in emerging modern electricity markets (FEM) are inaccurate and inefficient because the priori knowledge of bidding strategies before any environment changes, such as load demand variations, network congestion, and modifications of market design, is not fully utilized. In this paper, a Bayes-adaptive Markov Decision Process in FEM (BAMDP-FEM) is therefore developed to model the GENCOs' bidding strategy optimization considering the priori knowledge. A novel Multi-Agent Generative Adversarial Imitation Learning algorithm (MAGAIL-FEM) is then proposed to enable GENCOs to learn simultaneously from priori knowledge and interactions with changing environments. The obtained NE is a Bayesian Nash Equilibrium (BNE) with priori knowledge transferred from the previous environment. In the case study, the superiority of this proposed algorithm in terms of convergence speed compared with conventional methods is verified. It is concluded that the optimal bidding strategies in the obtained BNE can always lead to more profits than NE due to the effective learning from the priori knowledge. Also, BNE is more accurate and consistent with situations in real-world markets.
翻訳日:2023-05-15 15:04:11 公開日:2023-05-12
# 協調型マルチエージェント強化学習のための単位ウェイズ注意状態表現による値分解の促進

Boosting Value Decomposition via Unit-Wise Attentive State Representation for Cooperative Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2305.07182v1 )

ライセンス: Link先を確認
Qingpeng Zhao, Yuanyang Zhu, Zichuan Liu, Zhi Wang and Chunlin Chen(参考訳) 協調型マルチエージェント強化学習(MARL)では, エージェント数が増えると, 環境確率性と不確実性が指数関数的に増加し, 部分的な観察からコンパクトな潜伏表現を導き, 値分解を促進させる。 これらの課題に対処するため,UNSR(UNit-wise Attentive State Representation)を導入して,部分観測可能性の緩和と協調の効率化を図る,シンプルかつ強力な手法を提案する。 UNSRでは、各エージェントは変換器ブロックから出力されるコンパクトで不整合な単位状態表現を学び、その局所的なアクション値関数を生成する。 提案するUNSRは, 個別値関数と結合値関数の効率的な推論経路を提供する混合ネットワークにおいて, 効率的なクレジット割当を生成するマルチヘッドアテンション機構を用いて, 値分解の促進に使用される。 実験により,本手法はStarCraft IIマイクロマネジメントチャレンジのベースラインよりも優れた性能とデータ効率を実現することが示された。 さらなるアブレーション実験は、UNSRの性能に寄与する重要な要因を特定するのに役立つ。

In cooperative multi-agent reinforcement learning (MARL), the environmental stochasticity and uncertainties will increase exponentially when the number of agents increases, which puts hard pressure on how to come up with a compact latent representation from partial observation for boosting value decomposition. To tackle these issues, we propose a simple yet powerful method that alleviates partial observability and efficiently promotes coordination by introducing the UNit-wise attentive State Representation (UNSR). In UNSR, each agent learns a compact and disentangled unit-wise state representation outputted from transformer blocks, and produces its local action-value function. The proposed UNSR is used to boost the value decomposition with a multi-head attention mechanism for producing efficient credit assignment in the mixing network, providing an efficient reasoning path between the individual value function and joint value function. Experimental results demonstrate that our method achieves superior performance and data efficiency compared to solid baselines on the StarCraft II micromanagement challenge. Additional ablation experiments also help identify the key factors contributing to the performance of UNSR.
翻訳日:2023-05-15 14:28:02 公開日:2023-05-12
# ファウショットきめ細かな視覚認識のためのサリエンシ誘導型相互学習ネットワーク

Saliency-Guided Mutual Learning Network for Few-shot Fine-grained Visual Recognition ( http://arxiv.org/abs/2305.07180v1 )

ライセンス: Link先を確認
Haiqi Liu, C. L. Philip Chen, Xinrong Gong and Tong Zhang(参考訳) サンプルが少ない新しいサブカテゴリを認識することは、コンピュータビジョンにおいて不可欠で挑戦的な研究課題である。 既存の文献は、グローバルベースまたはローカルベースの表現アプローチを通じてこの問題に対処することに焦点を当てている。 前者はグローバルな特徴表現を認識に用いており、微細な情報を欠いている可能性がある。 後者は複雑な構造との局所的な関係を捉え、おそらく高いモデルの複雑さをもたらす。 上記の課題に対処するため,本稿では,数発のきめ細かい視覚認識のためのSGML-Netという新しいフレームワークを提案する。 sgml-netは、saliency detectionによる補助情報を組み込んで識別表現学習を指導し、高性能かつ低モデルの複雑さを達成する。 具体的には、SGML-Netは、サリエンシ検出モデルを用いて、各サブカテゴリの重要領域を強調する。 SGML-Netは、2つの独立したブランチを相互学習パラダイムで前もって転送する。 効率的な転送を実現するため、SGML-Netは異なる領域間の関係を利用して表現をより情報的にし、より良いガイダンスを提供する。 補助ブランチは転送完了時に除外され、デプロイにおけるモデルの複雑さが低下する。 提案手法は, 広く使用されている3つのベンチマークで実証的に評価され, 優れた性能を示す。

Recognizing novel sub-categories with scarce samples is an essential and challenging research topic in computer vision. Existing literature focus on addressing this challenge through global-based or local-based representation approaches. The former employs global feature representations for recognization, which may lack fine-grained information. The latter captures local relationships with complex structures, possibly leading to high model complexity. To address the above challenges, this article proposes a novel framework called SGML-Net for few-shot fine-grained visual recognition. SGML-Net incorporates auxiliary information via saliency detection to guide discriminative representation learning, achieving high performance and low model complexity. Specifically, SGML-Net utilizes the saliency detection model to emphasize the key regions of each sub-category, providing a strong prior for representation learning. SGML-Net transfers such prior with two independent branches in a mutual learning paradigm. To achieve effective transfer, SGML-Net leverages the relationships among different regions, making the representation more informative and thus providing better guidance. The auxiliary branch is excluded upon the transfer's completion, ensuring low model complexity in deployment. The proposed approach is empirically evaluated on three widely-used benchmarks, demonstrating its superior performance.
翻訳日:2023-05-15 14:27:39 公開日:2023-05-12
# モデル予測を解釈するための非対称特徴間相互作用

Asymmetric feature interaction for interpreting model predictions ( http://arxiv.org/abs/2305.07224v1 )

ライセンス: Link先を確認
Xiaolei Lu, Jianghong Ma, Haode Zhang(参考訳) 自然言語処理(NLP)では、ディープニューラルネットワーク(DNN)はコンテキスト間の複雑な相互作用をモデル化することができ、様々なNLPタスクにおいて印象的な結果が得られる。 先行研究は、主に、モデル予測に寄与する非対称的な影響を捉えるのに失敗する、一組の単語の付加的な影響のみを説明する対称的相互作用の研究に焦点を当てている。 本研究では,ニューラルNLPモデルの推論における非対称な高次特徴相互作用の探索を目的とした,非対称な特徴相互作用帰属説明モデルを提案する。 有向相互作用グラフを用いて説明を表現することにより、非対称な特徴相互作用を発見するためのグラフの解釈可能性について実験的に示す。 2つの感情分類データセットにおける実験結果は,モデル予測に影響を及ぼす特徴の同定において,最先端の特徴間相互作用の帰属法に対して,モデルの優越性を示す。 私たちのコードはhttps://github.com/stilllu/asivで利用可能です。

In natural language processing (NLP), deep neural networks (DNNs) could model complex interactions between context and have achieved impressive results on a range of NLP tasks. Prior works on feature interaction attribution mainly focus on studying symmetric interaction that only explains the additional influence of a set of words in combination, which fails to capture asymmetric influence that contributes to model prediction. In this work, we propose an asymmetric feature interaction attribution explanation model that aims to explore asymmetric higher-order feature interactions in the inference of deep neural NLP models. By representing our explanation with an directed interaction graph, we experimentally demonstrate interpretability of the graph to discover asymmetric feature interactions. Experimental results on two sentiment classification datasets show the superiority of our model against the state-of-the-art feature interaction attribution methods in identifying influential features for model predictions. Our code is available at https://github.com/StillLu/ASIV.
翻訳日:2023-05-15 14:18:44 公開日:2023-05-12
# hear to segment: セマンティクスのセグメンテーションを導くためにオーディオをアンミックスする

Hear to Segment: Unmixing the Audio to Guide the Semantic Segmentation ( http://arxiv.org/abs/2305.07223v1 )

ライセンス: Link先を確認
Yuhang Ling, Yuxi Li, Zhenye Gan, Jiangning Zhang, Mingmin Chi, Yabiao Wang(参考訳) 本稿では,オーディオストリームと画像画素の微妙な対応性を確立するために,AVS (Audio-Visual Segmentation) という新しい課題に焦点をあてる。 しかし、そのような対応を学習することは、2つの重要な課題に直面している:(1)複数のオブジェクトが生成する音声が同じオーディオストリーム内で絡み合うように、本質的に高い情報密度を示す、(2)同じカテゴリのオブジェクトからの音声信号の頻度は似ている傾向にあり、対象オブジェクトの区別を阻害し、結果としてあいまいなセグメンテーション結果をもたらす。 この目的のために,複雑な音声信号のアンミックスと類似音の識別を促進するAUS(Audio Unmixing and Semantic Segmentation Network)を提案する。 技術的には、AUSSは音声信号を一連の音声クエリにアンミックスし、マスキングアテンション機構によって視覚的特徴と相互作用する。 これらの音声クエリーをオーディオ内に埋め込まれた特徴を捉えるよう奨励するため、クラスレベルとマスクレベルの追加監視として2つの自己監督的損失も導入されている。 AVSBenchベンチマークの大規模な実験結果から、AUSSは単一ソースとマルチソースのサブセットの両方に新しい最先端技術を設定し、オーディオとヴィジュアルのギャップを埋める上でのAUSSの有効性を実証した。

In this paper, we focus on a recently proposed novel task called Audio-Visual Segmentation (AVS), where the fine-grained correspondence between audio stream and image pixels is required to be established. However, learning such correspondence faces two key challenges: (1) audio signals inherently exhibit a high degree of information density, as sounds produced by multiple objects are entangled within the same audio stream; (2) the frequency of audio signals from objects with the same category tends to be similar, which hampers the distinction of target object and consequently leads to ambiguous segmentation results. Toward this end, we propose an Audio Unmixing and Semantic Segmentation Network (AUSS), which encourages unmixing complicated audio signals and distinguishing similar sounds. Technically, our AUSS unmixs the audio signals into a set of audio queries, and interacts them with visual features by masked attention mechanisms. To encourage these audio queries to capture distinctive features embedded within the audio, two self-supervised losses are also introduced as additional supervision at both class and mask levels. Extensive experimental results on the AVSBench benchmark show that our AUSS sets a new state-of-the-art in both single-source and multi-source subsets, demonstrating the effectiveness of our AUSS in bridging the gap between audio and vision modalities.
翻訳日:2023-05-15 14:18:16 公開日:2023-05-12
# 感情回帰・分類課題における単一・多様処理のための多彩な音声・視覚学習

Versatile Audio-Visual Learning for Handling Single and Multi Modalities in Emotion Regression and Classification Tasks ( http://arxiv.org/abs/2305.07216v1 )

ライセンス: Link先を確認
Lucas Goncalves, Seong-Gyun Leem, Wei-Cheng Lin, Berrak Sisman, Carlos Busso(参考訳) 現在の音声と視覚の感情認識モデルのほとんどは、実用的なアプリケーションへのデプロイに必要な柔軟性を欠いている。 1つのモダリティのみが利用可能であっても機能し、感情的属性の予測やカテゴリー的感情の認識に相互に実装できるマルチモーダルシステムを構想する。 マルチモーダル感情認識システムにおけるこのような柔軟性の実現は、さまざまなデータソースの正確な解釈と統合が難しいため、難しい。 また、回帰タスクと分類タスクを直接切り替えることなく、欠落や部分的な情報を堅牢に扱うことも課題である。 本研究では,感情回帰と感情分類タスクのための一様・多様システムを扱うためのvavl(\emph{versatile audio-visual learning})フレームワークを提案する。 我々は、トレーニングセットの一部(オーディオのみ、またはビデオのみ)で、オーディオと視覚のペアリングデータが利用できない場合でも、トレーニング可能なオーディオ視覚フレームワークを実装した。 我々は,この効果的な表現学習を,視聴覚的共有層,共有層上の残差接続,ユニモーダル再構築タスクを用いて達成する。 我々のアーキテクチャは, CREMA-DとMSP-IMPROVコーパスの両方において, 強いベースラインを著しく上回っていることが明らかとなった。 特に、VAVLは、MSP-IMPROVコーパスの感情属性予測タスクにおいて、新しい最先端性能を得る。 コード提供: https://github.com/ilucasgoncalves/vavl

Most current audio-visual emotion recognition models lack the flexibility needed for deployment in practical applications. We envision a multimodal system that works even when only one modality is available and can be implemented interchangeably for either predicting emotional attributes or recognizing categorical emotions. Achieving such flexibility in a multimodal emotion recognition system is difficult due to the inherent challenges in accurately interpreting and integrating varied data sources. It is also a challenge to robustly handle missing or partial information while allowing direct switch between regression and classification tasks. This study proposes a \emph{versatile audio-visual learning} (VAVL) framework for handling unimodal and multimodal systems for emotion regression and emotion classification tasks. We implement an audio-visual framework that can be trained even when audio and visual paired data is not available for part of the training set (i.e., audio only or only video is present). We achieve this effective representation learning with audio-visual shared layers, residual connections over shared layers, and a unimodal reconstruction task. Our experimental results reveal that our architecture significantly outperforms strong baselines on both the CREMA-D and MSP-IMPROV corpora. Notably, VAVL attains a new state-of-the-art performance in the emotional attribute prediction task on the MSP-IMPROV corpus. Code available at: https://github.com/ilucasgoncalves/VAVL
翻訳日:2023-05-15 14:17:29 公開日:2023-05-12
# MMG-Ego4D:エゴセントリック行動認識におけるマルチモーダル一般化

MMG-Ego4D: Multi-Modal Generalization in Egocentric Action Recognition ( http://arxiv.org/abs/2305.07214v1 )

ライセンス: Link先を確認
Xinyu Gong, Sreyas Mohan, Naina Dhingra, Jean-Charles Bazin, Yilei Li, Zhangyang Wang, Rakesh Ranjan(参考訳) 本稿では,エゴセントリックな行動認識における新しい問題について検討し,これをMMG(Multimodal Generalization)と呼ぶ。 MMGは、特定のモダリティからのデータに制限がある場合、あるいは完全に欠落した場合、システムがどのように一般化できるかを研究することを目的としている。 新しいアクションカテゴリを学習するための、標準教師付きアクション認識とより挑戦的なマイナショット設定のコンテキストにおいて、mmgを徹底的に検討する。 MMGは, 実世界の応用において, 安全性と効率性を考慮した2つの新しいシナリオで構成されている。(1) 推論時間中に列車時間中に存在したモダリティが欠落しているモダリティ一般化と, (2) 推論時間中に存在するモダリティとトレーニング時間の間に発生するモダリティが不一致しているモダリティ一般化である。 そこで本研究では,ビデオ,音声,慣性運動センサ(IMU)を用いたデータポイントを含む新しいデータセットMMG-Ego4Dを構築した。 我々のデータセットは、Ego4Dデータセットから派生したものですが、MMG問題の研究を促進するために、人間の専門家によって処理され、完全に再注釈されています。 mmg-ego4dの多様なモデルを評価し,一般化能力を向上させる新しい手法を提案する。 特に,モーダリティ・ドロップアウト・トレーニング,コントラストベースアライメントトレーニング,新しいクロスモーダル・プロトティピカルロスを組み込んだ新しい融合モジュールを導入し,低ショット性能を向上した。 この研究がベンチマークとなり、マルチモーダル一般化問題における今後の研究のガイドとなることを願っている。 ベンチマークとコードはhttps://github.com/facebookresearch/MMG_Ego4Dで公開される。

In this paper, we study a novel problem in egocentric action recognition, which we term as "Multimodal Generalization" (MMG). MMG aims to study how systems can generalize when data from certain modalities is limited or even completely missing. We thoroughly investigate MMG in the context of standard supervised action recognition and the more challenging few-shot setting for learning new action categories. MMG consists of two novel scenarios, designed to support security, and efficiency considerations in real-world applications: (1) missing modality generalization where some modalities that were present during the train time are missing during the inference time, and (2) cross-modal zero-shot generalization, where the modalities present during the inference time and the training time are disjoint. To enable this investigation, we construct a new dataset MMG-Ego4D containing data points with video, audio, and inertial motion sensor (IMU) modalities. Our dataset is derived from Ego4D dataset, but processed and thoroughly re-annotated by human experts to facilitate research in the MMG problem. We evaluate a diverse array of models on MMG-Ego4D and propose new methods with improved generalization ability. In particular, we introduce a new fusion module with modality dropout training, contrastive-based alignment training, and a novel cross-modal prototypical loss for better few-shot performance. We hope this study will serve as a benchmark and guide future research in multimodal generalization problems. The benchmark and code will be available at https://github.com/facebookresearch/MMG_Ego4D.
翻訳日:2023-05-15 14:16:49 公開日:2023-05-12
# 多様体学習の観点からのk-平均の再考

Rethinking k-means from manifold learning perspective ( http://arxiv.org/abs/2305.07213v1 )

ライセンス: Link先を確認
Quanxue Gao, Qianqian Wang, Han Lu, Wei Xia, Xinbo Gao(参考訳) 多くのクラスタリングアルゴリズムが開発されているが、既存の多くの手法はk-means技術を使ってデータポイントのクラスターを検出する。 しかし、k平均の性能はクラスターの中心の推定に大きく依存しており、最適解を得るのは非常に困難である。 もうひとつの大きな欠点は、ノイズや異常データに敏感であることだ。 本稿では,数式学習の観点からk-meansを再考し,平均推定なしにデータのクラスタを直接検出するクラスタリングアルゴリズムを提案する。 具体的には、同一クラスタ内の任意の2つのデータポイント間の距離が小さい定数に等しいように、異なるクラスタからの他のデータペア間の距離を増加させながら、butterworthフィルタによるデータポイント間の距離行列を構築する。 異なるビューに埋め込まれた補完的情報をうまく活用するために、異なるビューの指標行列からなる3階テンソル上のテンソルシャッテンp-ノルム正則化を利用する。 最後に、モデル最適化のために効率的な交互アルゴリズムが導出される。 構成配列は静止KKT点に収束することが証明された。 実験結果から,提案手法の優位性が示唆された。

Although numerous clustering algorithms have been developed, many existing methods still leverage k-means technique to detect clusters of data points. However, the performance of k-means heavily depends on the estimation of centers of clusters, which is very difficult to achieve an optimal solution. Another major drawback is that it is sensitive to noise and outlier data. In this paper, from manifold learning perspective, we rethink k-means and present a new clustering algorithm which directly detects clusters of data without mean estimation. Specifically, we construct distance matrix between data points by Butterworth filter such that distance between any two data points in the same clusters equals to a small constant, while increasing the distance between other data pairs from different clusters. To well exploit the complementary information embedded in different views, we leverage the tensor Schatten p-norm regularization on the 3rd-order tensor which consists of indicator matrices of different views. Finally, an efficient alternating algorithm is derived to optimize our model. The constructed sequence was proved to converge to the stationary KKT point. Extensive experimental results indicate the superiority of our proposed method.
翻訳日:2023-05-15 14:16:17 公開日:2023-05-12
# 準二次元量子異常に対する着飾った分子理論

The dressed molecules theory for the quasi-two-dimensional quantum anomaly ( http://arxiv.org/abs/2305.07210v1 )

ライセンス: Link先を確認
Fan Wu, Jian-shen Hu and Lianyi He(参考訳) この研究において、服を着た分子理論は、最近の実験系における呼吸モードの2次元量子異常を記述するために用いられる。 平均場、ガウス対ゆらぎ理論の助けを借りて、我々は、アキシャル励起状態とフェシュバッハ分子状態を特徴づけるために服を着た分子状態を使用し、完全な低エネルギー効果理論を提案する。 バーディーン=クーパー=シュリーファー(BCS)超流動からボース=アインシュタイン凝縮体(BEC)へのクロスオーバー全体において、我々は低エネルギー領域における2次元実験系を正確に記述できることを示した。 呼吸モードの周波数が期待より小さくなる実験結果について, 完璧に解説する。 擬似低次元量子系における共形異常を理解するためには、2次元フェルミオンの着衣分子理論の確立が不可欠である。

In this work, the dressed molecules theory is used to describe the two-dimensional quantum anomaly of breathing mode in the recent experimental system\cite{Holten2018,Peppler2018}. With the aid of a beyond mean-field, Gaussian pair fluctuation theory, we employ the dressed molecules states to characterize the axial excited states and the Feshbach molecular states, and propose a complete low energy effective theory. We show that, in the whole crossover from a Bardeen-Cooper-Schrieffer (BCS) superfluid to a Bose-Einstein condensate (BEC), our theory can describe the two-dimensional experimental systems precisely in low energe region. We explain the the puzzling experimental observations of the smaller than expected breathing mode frequency perfectly. Our establishment of the dressed molecules theory for 2D fermions is crucial to understand the conformal anomaly in the quasi low-dimensional quantum systems.
翻訳日:2023-05-15 14:16:01 公開日:2023-05-12
# 国勢調査データユーザのための差別化プライバシ作業

Making Differential Privacy Work for Census Data Users ( http://arxiv.org/abs/2305.07208v1 )

ライセンス: Link先を確認
Cory McCartan, Tyler Simko, and Kosuke Imai(参考訳) アメリカ合衆国国勢調査局は、研究者や政策立案者が多用しているアメリカ人に関する詳細な統計データを収集し、公表している。 局は最近、個々の国勢調査回答の機密性を改善するために、差分プライバシーの枠組みを採用した。 このプライバシ保護システムの重要な出力はノイズ計測ファイル(NMF)であり、これは集計された統計にランダムノイズを加えることで生成される。 NMFは、データのバイアスを理解し、公表された国勢調査データに対して有効な統計的推測を行うために重要である。 残念なことに、現在のNMFのリリースフォーマットはアクセスと操作が難しい。 我々は、NMFを使用可能なフォーマットに変換するために使用するプロセスを説明し、NMFの今後のバージョンをどうリリースするかを局に推奨する。 これらの変更は、プライバシー対策の透明性と国勢調査データに基づく科学的研究の再現性を確保するために不可欠である。

The U.S. Census Bureau collects and publishes detailed demographic data about Americans which are heavily used by researchers and policymakers. The Bureau has recently adopted the framework of differential privacy in an effort to improve confidentiality of individual census responses. A key output of this privacy protection system is the Noisy Measurement File (NMF), which is produced by adding random noise to tabulated statistics. The NMF is critical to understanding any biases in the data, and performing valid statistical inference on published census data. Unfortunately, the current release format of the NMF is difficult to access and work with. We describe the process we use to transform the NMF into a usable format, and provide recommendations to the Bureau for how to release future versions of the NMF. These changes are essential for ensuring transparency of privacy measures and reproducibility of scientific research built on census data.
翻訳日:2023-05-15 14:15:43 公開日:2023-05-12
# Mem-Rec:代替表現を用いたメモリ効率の良いレコメンデーションシステム

Mem-Rec: Memory Efficient Recommendation System using Alternative Representation ( http://arxiv.org/abs/2305.07205v1 )

ライセンス: Link先を確認
Gopu Krishna Jha, Anthony Thomas, Nilesh Jain, Sameh Gobriel, Tajana Rosing, Ravi Iyer(参考訳) ディープラーニングベースのレコメンデーションシステム(DLRMなど)は、高品質なパーソナライズされたレコメンデーションを提供するために広く使われているAIモデルである。 現代のレコメンデーションシステムで使用されるトレーニングデータには、考えられる数万の異なる値を扱う分類的特徴が含まれている。 これらの分類トークンは通常、100GBの順序で大きな埋め込みテーブルに格納される学習されたベクトル表現に割り当てられる。 これらのテーブルの保存とアクセスは、商業展開においてかなりの負担となる。 本稿では,テーブルを埋め込む新しい代替表現手法であるMEM-RECを提案する。 MEM-RECは2つのキャッシュフレンドリーな埋め込みテーブルを使用して分類機能をエンコードするために、ブルームフィルタとハッシュ法を利用する。 第1のテーブル(トーケン埋め込み)は生の埋め込み(すなわち学習ベクトル表現)を含み、第2のテーブル(重み込み)は、より小さく、これらの生の埋め込みをスケールして各データポイントにより良い識別能力を与える重みを含む。 我々は,MEM-RECの最先端技術と比較して,精度と計算要求のトレードオフに対処するアーキテクチャ,設計,分析を行う。 本稿では,MEM-RECが推奨品質を維持するだけでなく,商業規模のレコメンデーションモデルのメモリフットプリントを大幅に削減できるだけでなく,埋め込み遅延を改善することができることを示す。 特に,MEM-RECはMLPerf CriteoTBベンチマークのDLRMモデルサイズを2900倍に圧縮し,最大3.4倍高速な埋め込みを行うとともに,完全非圧縮モデルと同じAUCを実現する。

Deep learning-based recommendation systems (e.g., DLRMs) are widely used AI models to provide high-quality personalized recommendations. Training data used for modern recommendation systems commonly includes categorical features taking on tens-of-millions of possible distinct values. These categorical tokens are typically assigned learned vector representations, that are stored in large embedding tables, on the order of 100s of GB. Storing and accessing these tables represent a substantial burden in commercial deployments. Our work proposes MEM-REC, a novel alternative representation approach for embedding tables. MEM-REC leverages bloom filters and hashing methods to encode categorical features using two cache-friendly embedding tables. The first table (token embedding) contains raw embeddings (i.e. learned vector representation), and the second table (weight embedding), which is much smaller, contains weights to scale these raw embeddings to provide better discriminative capability to each data point. We provide a detailed architecture, design and analysis of MEM-REC addressing trade-offs in accuracy and computation requirements, in comparison with state-of-the-art techniques. We show that MEM-REC can not only maintain the recommendation quality and significantly reduce the memory footprint for commercial scale recommendation models but can also improve the embedding latency. In particular, based on our results, MEM-REC compresses the MLPerf CriteoTB benchmark DLRM model size by 2900x and performs up to 3.4x faster embeddings while achieving the same AUC as that of the full uncompressed model.
翻訳日:2023-05-15 14:15:30 公開日:2023-05-12
# 量子干渉効果が文脈現実を決定する

Quantum interference effects determine contextual realities ( http://arxiv.org/abs/2305.07194v1 )

ライセンス: Link先を確認
Holger F. Hofmann(参考訳) 量子力学は、ポテンシャル測定結果の重ね合わせの観点から異なる測定コンテキスト間の関係を記述する。 この測定コンテキスト間の関係は、文脈に依存しない現実を決定できない。 本稿では, 3つの箱型パラドックスを実装した3つの経路干渉を用いて, 中間経路の重ね合わせとしての最終的な測定結果の表現が, 一見空の経路間のよく定義されたコヒーレンスを記述することを示す。

Quantum mechanics describes the relation between different measurement contexts in terms of superpositions of the potential measurement outcomes. This relation between measurement contexts makes it impossible to determine context independent realities. Here, I illustrate the problem using three path interferences that implement the three box paradox and show that the representation of the final measurement outcome as a superposition of intermediate paths describes well-defined coherences between seemingly empty paths.
翻訳日:2023-05-15 14:15:00 公開日:2023-05-12
# MEGABYTE:マルチスケールトランスフォーマーによる数百万バイトシーケンスの予測

MEGABYTE: Predicting Million-byte Sequences with Multiscale Transformers ( http://arxiv.org/abs/2305.07185v1 )

ライセンス: Link先を確認
Lili Yu, D\'aniel Simig, Colin Flaherty, Armen Aghajanyan, Luke Zettlemoyer, Mike Lewis(参考訳) オートレグレッシブトランスフォーマーは短いシーケンスの素晴らしいモデルだが、高解像度画像、ポッドキャスト、コード、本といった長いシーケンスにはほとんどスケールしない。 我々は100万バイト以上のシーケンスのエンドツーエンドの微分可能モデリングを可能にするマルチスケールデコーダアーキテクチャであるmegabyteを提案した。 Megabyteはパッチにシーケンスを分割し、パッチ内のローカルサブモデルとパッチ間のグローバルモデルを使用する。 これにより、サブクアクラティックな自己アテンション、同じ計算のためのはるかに大きなフィードフォワード層、デコード時の並列性の改善 -- トレーニングと生成の両方のコスト削減によるパフォーマンス向上が可能になる。 大規模な実験により、Megabyteはバイトレベルモデルと長文言語モデリングのサブワードモデルとの競合、ImageNetの最先端密度推定、生ファイルからのオーディオのモデル化を可能にしている。 これらの結果は、トークン化のない自己回帰配列モデリングを大規模に実現する。

Autoregressive transformers are spectacular models for short sequences but scale poorly to long sequences such as high-resolution images, podcasts, code, or books. We proposed Megabyte, a multi-scale decoder architecture that enables end-to-end differentiable modeling of sequences of over one million bytes. Megabyte segments sequences into patches and uses a local submodel within patches and a global model between patches. This enables sub-quadratic self-attention, much larger feedforward layers for the same compute, and improved parallelism during decoding -- unlocking better performance at reduced cost for both training and generation. Extensive experiments show that Megabyte allows byte-level models to perform competitively with subword models on long context language modeling, achieve state-of-the-art density estimation on ImageNet, and model audio from raw files. Together, these results establish the viability of tokenization-free autoregressive sequence modeling at scale.
翻訳日:2023-05-15 14:14:52 公開日:2023-05-12
# ヒューリスティックレス表面再構成が可能な機械学習加速シミュレーション

Machine-learning-accelerated simulations enable heuristic-free surface reconstruction ( http://arxiv.org/abs/2305.07251v1 )

ライセンス: Link先を確認
Xiaochen Du, James K. Damewood, Jaclyn R. Lunger, Reisel Millan, Bilge Yildiz, Lin Li and Rafael G\'omez-Bombarelli(参考訳) 材料表面と界面を理解することは、触媒や電子工学のような応用において不可欠である。 ab initioシミュレーションは、電子構造からエネルギーを統計力学と組み合わせることで、熱力学的変数の関数として物質表面の構造を予測することができる。 しかし、正確なエネルギーシミュレーションは、統計的にサンプリングしなければならない広大な位相空間と結合する場合は禁じられる。 本稿では,エネルギースコアリング法と統計的サンプリング法の両方を高速化する多成分材料の表面位相図を予測するための二面計算ループを提案する。 高速でスケーラブルでデータ効率のよい機械学習間ポテンシャルは、クローズドループアクティブラーニングによる高スループット密度関数型理論計算に基づいて訓練される。 半粒状正準アンサンブル中のマルコフ鎖モンテカルロサンプリングは仮想表面サイトを用いて可能となる。 GaN(0001) と SrTiO3(001) の予測曲面は過去の研究と一致しており、提案手法は複雑な物質表面をモデル化し、以前に報告されていない表面の項を見つけることができることを示唆している。

Understanding material surfaces and interfaces is vital in applications like catalysis or electronics. Ab initio simulations, combining energies from electronic structure with statistical mechanics, can, in principle, predict the structure of material surfaces as a function of thermodynamic variables. However, accurate energy simulations are prohibitive when coupled to the vast phase space that must be statistically sampled. Here, we present a bi-faceted computational loop to predict surface phase diagrams of multi-component materials that accelerates both the energy scoring and statistical sampling methods. Fast, scalable, and data-efficient machine learning interatomic potentials are trained on high-throughput density-functional theory calculations through closed-loop active learning. Markov-chain Monte Carlo sampling in the semi-grand canonical ensemble is enabled by using virtual surface sites. The predicted surfaces for GaN(0001) and SrTiO3(001) are in agreement with past work and suggest that the proposed strategy can model complex material surfaces and discover previously unreported surface terminations.
翻訳日:2023-05-15 14:08:46 公開日:2023-05-12
# 2時間ポリシー勾配アルゴリズムを用いた量子ベース深層強化学習

Quantile-Based Deep Reinforcement Learning using Two-Timescale Policy Gradient Algorithms ( http://arxiv.org/abs/2305.07248v1 )

ライセンス: Link先を確認
Jinyang Jiang, Jiaqiao Hu, and Yijie Peng(参考訳) 古典強化学習(rl)は、期待累積報酬を最適化することを目的としている。 本研究では,累積報酬の質的最適化を目標とする rl 設定について考察する。 本稿では,ニューラルネットワークによるポリシー制御動作のパラメータ化を行い,qpo(quantile-based policy optimization)と呼ばれる新しいポリシー勾配アルゴリズムと,その変種であるquantile-based proximal policy optimization(qppo)を提案する。 QPPOはQPOの非政治バージョンで、1回のシミュレーションエピソード中にパラメータを複数更新できるため、アルゴリズムの効率が向上する。 数値計算の結果,提案アルゴリズムは量子的基準の下で既存のベースラインアルゴリズムより優れていることが示された。

Classical reinforcement learning (RL) aims to optimize the expected cumulative reward. In this work, we consider the RL setting where the goal is to optimize the quantile of the cumulative reward. We parameterize the policy controlling actions by neural networks, and propose a novel policy gradient algorithm called Quantile-Based Policy Optimization (QPO) and its variant Quantile-Based Proximal Policy Optimization (QPPO) for solving deep RL problems with quantile objectives. QPO uses two coupled iterations running at different timescales for simultaneously updating quantiles and policy parameters, whereas QPPO is an off-policy version of QPO that allows multiple updates of parameters during one simulation episode, leading to improved algorithm efficiency. Our numerical results indicate that the proposed algorithms outperform the existing baseline algorithms under the quantile criterion.
翻訳日:2023-05-15 14:08:28 公開日:2023-05-12
# 確率的時系列インプテーションへの応用による有理収束型schr\"odinger橋

Provably Convergent Schr\"odinger Bridge with Applications to Probabilistic Time Series Imputation ( http://arxiv.org/abs/2305.07247v1 )

ライセンス: Link先を確認
Yu Chen and Wei Deng and Shikai Fang and Fengpei Li and Nicole Tianjiao Yang and Yikai Zhang and Kashif Rasul and Shandian Zhe and Anderson Schneider and Yuriy Nevmyvaka(参考訳) Schr\"odinger bridge problem (SBP) は、スコアベース生成モデル (SGM) と比較して、生成モデルにおいて注目され、有望な可能性を示している。 SBPはエントロピー規則化された最適輸送問題と解釈され、他のすべての辺縁への射影を交互に行う。 しかし、実際には近似射影のみがアクセス可能であり、それらの収束はよく理解されていない。 このギャップを埋めるために、近似射影に基づくSchr\"odinger Bridgeアルゴリズムの第一収束解析を提案する。 実例として,観測データに条件付き欠落値を生成することにより,確率的時系列計算にSBPを適用した。 トランスポートコストの最適化は性能を向上し,提案手法は医療データと環境データにおいて最先端の成果を達成し,確率的時系列インプテーションにおける時間的・特徴的パターンを探索する利点を示す。

The Schr\"odinger bridge problem (SBP) is gaining increasing attention in generative modeling and showing promising potential even in comparison with the score-based generative models (SGMs). SBP can be interpreted as an entropy-regularized optimal transport problem, which conducts projections onto every other marginal alternatingly. However, in practice, only approximated projections are accessible and their convergence is not well understood. To fill this gap, we present a first convergence analysis of the Schr\"odinger bridge algorithm based on approximated projections. As for its practical applications, we apply SBP to probabilistic time series imputation by generating missing values conditioned on observed data. We show that optimizing the transport cost improves the performance and the proposed algorithm achieves the state-of-the-art result in healthcare and environmental data while exhibiting the advantage of exploring both temporal and feature patterns in probabilistic time series imputation.
翻訳日:2023-05-15 14:08:12 公開日:2023-05-12
# 閉じ込められたヘリウム原子;情報的アプローチ

The confined helium atom; an Informational approach ( http://arxiv.org/abs/2305.07246v1 )

ライセンス: Link先を確認
C. R. Esta\~n\'on, H. E. Montgomery Jr, J. C. Angulo, N. Aquino(参考訳) 本研究では, 球状不透過性キャビティに閉じ込められたヘリウム原子を情報エントロピーを用いて研究する。 本手法を用いて, 閉じ込められたヘリウム原子のエネルギーと波動関数を空洞半径$r_0$の関数として求める。 実験波動関数としては、1つの非相関関数と4つの電子相関関数を用いる。 シャノンエントロピー,フィッシャー情報,kullback-leibler entropy,disequilibrium,tsallis entropy,fisher-shannon complexityをボックス半径$r_0$の関数として計算した。 これらのエントロピー測度は電子相関に敏感であり,測定に使用できることがわかった。 これらのエントロピー測度は強い閉じ込め状態(r_0<1$ a.u.)の電子相関に敏感ではない。

In this work we study the helium atom confined in a spherical impenetrable cavity by using informational entropies. We use the variational method to obtain the energies and wave functions of the confined helium atom as a function of the cavity radius $r_0$. As trial wave functions we use one uncorrelated function and four functions with different degrees of electronic correlation. We computed the Shannon entropy, Fisher information, Kullback--Leibler entropy, Disequilibrium, Tsallis entropy and Fisher--Shannon complexity, as a function of the box radius $r_0$. We found that these entropic measures are sensitive to electronic correlation and can be used to measure it. These entropic measures are less sensitive to electron correlation in the strong confinement regime ($r_0<1$ a.u.).
翻訳日:2023-05-15 14:07:53 公開日:2023-05-12
# スケーリングによる音声合成の改善

Better speech synthesis through scaling ( http://arxiv.org/abs/2305.07243v1 )

ライセンス: Link先を確認
James Betker(参考訳) 近年、自己回帰変換器とDDPMの応用によって画像生成の分野が革新されている。 これらのアプローチは、ステップワイズ確率過程として画像生成のプロセスをモデル化し、大量の計算とデータを活用して画像分布を学習する。 パフォーマンスを改善するこの手法は、イメージに限定される必要はない。 本稿では,画像生成領域の進歩を音声合成に応用する方法について述べる。 結果としてTorToiseは、表現力のあるマルチボイス音声合成システムになった。 すべてのモデルコードとトレーニングされたウェイトがhttps://github.com/neonbjb/tortoise-ttsでオープンソース化された。

In recent years, the field of image generation has been revolutionized by the application of autoregressive transformers and DDPMs. These approaches model the process of image generation as a step-wise probabilistic processes and leverage large amounts of compute and data to learn the image distribution. This methodology of improving performance need not be confined to images. This paper describes a way to apply advances in the image generative domain to speech synthesis. The result is TorToise -- an expressive, multi-voice text-to-speech system. All model code and trained weights have been open-sourced at https://github.com/neonbjb/tortoise-tts.
翻訳日:2023-05-15 14:07:41 公開日:2023-05-12
# 誤特定核リッジ回帰の最適性について

On the Optimality of Misspecified Kernel Ridge Regression ( http://arxiv.org/abs/2305.07241v1 )

ライセンス: Link先を確認
Haobo Zhang, Yicheng Li, Weihao Lu, Qian Lin(参考訳) 誤って特定されたカーネルリッジ回帰問題では、研究者は通常、ある$s\in (0,1)$に対して、再生されたカーネルヒルベルト空間(RKHS)のより滑らかな補間空間である地下真の函数 $f_{\rho}^{*} \in [\mathcal{H}]^{s}$ を仮定する。 既存の minimax の最適結果は $\|f_{\rho}^{*}\|_{L^{\infty}}<\infty$ が暗黙的に$s > \alpha_{0}$ ここで $\alpha_{0}\in (0,1)$ は埋め込みインデックスであり、$\mathcal{H}$ に依存する定数である。 KRRがすべての$s\in (0,1)$に対して最適であるかどうかは、何年も続く際立った問題である。 本稿では、KRR が任意の $s\in (0,1)$ に対して、$\mathcal{H}$ が Sobolev RKHS であるとき、最小値であることを示す。

In the misspecified kernel ridge regression problem, researchers usually assume the underground true function $f_{\rho}^{*} \in [\mathcal{H}]^{s}$, a less-smooth interpolation space of a reproducing kernel Hilbert space (RKHS) $\mathcal{H}$ for some $s\in (0,1)$. The existing minimax optimal results require $\|f_{\rho}^{*}\|_{L^{\infty}}<\infty$ which implicitly requires $s > \alpha_{0}$ where $\alpha_{0}\in (0,1)$ is the embedding index, a constant depending on $\mathcal{H}$. Whether the KRR is optimal for all $s\in (0,1)$ is an outstanding problem lasting for years. In this paper, we show that KRR is minimax optimal for any $s\in (0,1)$ when the $\mathcal{H}$ is a Sobolev RKHS.
翻訳日:2023-05-15 14:07:32 公開日:2023-05-12
# 均一電子ガスのためのメッセージパージング型ニューラル量子状態

Message-Passing Neural Quantum States for the Homogeneous Electron Gas ( http://arxiv.org/abs/2305.07240v1 )

ライセンス: Link先を確認
Gabriel Pescia, Jannes Nys, Jane Kim, Alessandro Lovato, Giuseppe Carleo(参考訳) 連続空間における強相互作用フェルミオンを正確にシミュレートするニューラルネットワークに基づく波動関数Ansatzを導入する。 変動状態は、置換同変メッセージパッシングニューラルネットワークを介してパラメータ化され、単粒子座標を高度に相関した準粒子座標に変換する。 異質な電子気体の基底状態を密度と系の大きさの異なる3次元でシミュレートすることにより,このアンサッツの汎用性と精度を示す。 我々のモデルは、連続変換対称性のようなハミルトニアンの基本対称性を尊重する。 我々は,現在のニューラルネットワーク波動関数と比較して,小さなベンチマークシステムにおいて,変動パラメータや最適化ステップを桁違いに減らし,より優れた,あるいは同等の基底状態エネルギーを示す。 これらの貯蓄により、それまで連続空間のニューラルネットワーク波動関数に到達できなかったN=128$電子のシステムサイズまでスケールでき、熱力学限界に対する有限サイズの外挿の研究の扉を開くことができる。 特定の相に対して構造バイアスを課すことなく、異なる相を識別・表現するアンサッツの能力について検討する。

We introduce a neural-network-based wave function Ansatz to accurately simulate extended, strongly interacting fermions in continuous space. The variational state is parameterized via permutation-equivariant message-passing neural networks to transform single-particle coordinates into highly correlated quasi-particle coordinates. We show the versatility and accuracy of this Ansatz by simulating the ground state of the homogeneous electron gas in three spatial dimensions at different densities and system sizes. Our model respects the fundamental symmetries of the Hamiltonian, such as continuous translation symmetries. We show better or comparable ground-state energies on small benchmark systems, compared to current state-of-the-art neural-network wave functions, using orders of magnitudes less variational parameters and optimization steps. These savings allow us to scale up to system sizes of $N=128$ electrons, previously inaccessible to neural-network wave functions in continuous space, opening the door for future work on finite-size extrapolations to the thermodynamic limit. We investigate the Ansatz's capability of identifying and representing different phases of matter without imposing any structural bias toward a given phase.
翻訳日:2023-05-15 14:07:06 公開日:2023-05-12
# t-former:画像インペインティングのための効率的なトランスフォーマー

T-former: An Efficient Transformer for Image Inpainting ( http://arxiv.org/abs/2305.07239v1 )

ライセンス: Link先を確認
Ye Deng, Siqi Hui, Sanping Zhou, Deyu Meng, Jinjun Wang(参考訳) 強力な畳み込みニューラルネットワーク(cnns)の恩恵を受け、学習に基づくイメージインペインティング手法は、長年にわたって大きなブレークスルーを遂げてきた。 しかし、CNNのいくつかの性質(例えば、局所的な事前、空間的に共有されたパラメータ)は、多様で複雑な画像の面における性能を制限している。 近年,自然言語処理や高レベル視覚タスクにおいて,注目度に基づくネットワークアーキテクチャのクラスであるTransformerが注目されている。 CNNと比較して、アテンション演算子は長距離モデリングに優れ、動的重みを持つが、その計算複雑性は空間分解能において二次的であり、画像のインペイントのような高解像度画像を含むアプリケーションには適さない。 本稿では,テイラー展開による分解能に関連する新しい注意を線形に設計する。 この点を踏まえると、$T$-formerと呼ばれるネットワークは画像のインペイント用に設計されている。 いくつかのベンチマークデータセットの実験により,提案手法は比較的少ないパラメータ数と計算複雑性を維持しつつ,最先端の精度を達成できることが示されている。 コードは \href{https://github.com/dengyecode/T-former_image_inpainting}{github.com/dengyecode/T-former\_image\_inpainting} で見ることができる。

Benefiting from powerful convolutional neural networks (CNNs), learning-based image inpainting methods have made significant breakthroughs over the years. However, some nature of CNNs (e.g. local prior, spatially shared parameters) limit the performance in the face of broken images with diverse and complex forms. Recently, a class of attention-based network architectures, called transformer, has shown significant performance on natural language processing fields and high-level vision tasks. Compared with CNNs, attention operators are better at long-range modeling and have dynamic weights, but their computational complexity is quadratic in spatial resolution, and thus less suitable for applications involving higher resolution images, such as image inpainting. In this paper, we design a novel attention linearly related to the resolution according to Taylor expansion. And based on this attention, a network called $T$-former is designed for image inpainting. Experiments on several benchmark datasets demonstrate that our proposed method achieves state-of-the-art accuracy while maintaining a relatively low number of parameters and computational complexity. The code can be found at \href{https://github.com/dengyecode/T-former_image_inpainting}{github.com/dengyecode/T-former\_image\_inpainting}
翻訳日:2023-05-15 14:06:47 公開日:2023-05-12
# 最弱十分かつ最強条件の文脈における双対可換作用素

Dual Forgetting Operators in the Context of Weakest Sufficient and Strongest Necessary Conditions ( http://arxiv.org/abs/2305.07233v1 )

ライセンス: Link先を確認
Patrick Doherty and Andrzej Szalas(参考訳) 知識表現と自動推論における重要な概念であり、様々な分野にわたって広く応用されている。 モデル理論のセマンティクスの観点から[Lin and Reiter'94]を特徴とする標準忘れ子演算子は、主に命題のケースに焦点を当て、新しい研究サブ領域を開いた。 本稿では、弱忘れという、標準忘れと双対な新しい演算子を導入し、両者を合わせて、一般の演算子に対するより均一な視点を提供する。 弱と標準の忘れる演算子は、モデル理論的な意味論ではなく、補足と推論の観点で特徴づけられる。 これは自然に、量子化子除去とアッカーマンの補題とその固定点一般化に基づく有用なアルゴリズム的視点をもたらす。 標準の忘れ方と最強の必要条件と弱い忘れ方と最も弱い十分条件との間の強い形式的関係もまた、必然的にエンテーメントに基づく推論的視点によって特徴づけられる。 双対忘れ演算子を特徴づけるために使われるフレームワークは、一階のケースに一般化され、特別なケースで一階忘れ演算子を計算するための有用なアルゴリズムを含んでいる。 モデリングと表現における弱さと標準性の両方の重要性を示すために、実用的な例も含まれている。

Forgetting is an important concept in knowledge representation and automated reasoning with widespread applications across a number of disciplines. A standard forgetting operator, characterized in [Lin and Reiter'94] in terms of model-theoretic semantics and primarily focusing on the propositional case, opened up a new research subarea. In this paper, a new operator called weak forgetting, dual to standard forgetting, is introduced and both together are shown to offer a new more uniform perspective on forgetting operators in general. Both the weak and standard forgetting operators are characterized in terms of entailment and inference, rather than a model theoretic semantics. This naturally leads to a useful algorithmic perspective based on quantifier elimination and the use of Ackermman's Lemma and its fixpoint generalization. The strong formal relationship between standard forgetting and strongest necessary conditions and weak forgetting and weakest sufficient conditions is also characterized quite naturally through the entailment-based, inferential perspective used. The framework used to characterize the dual forgetting operators is also generalized to the first-order case and includes useful algorithms for computing first-order forgetting operators in special cases. Practical examples are also included to show the importance of both weak and standard forgetting in modeling and representation.
翻訳日:2023-05-15 14:06:26 公開日:2023-05-12
# 巨大言語の頭脳が十分ではないとき! 知識スパークルダストを持つドメインピザズ

When Giant Language Brains Just Aren't Enough! Domain Pizzazz with Knowledge Sparkle Dust ( http://arxiv.org/abs/2305.07230v1 )

ライセンス: Link先を確認
Minh-Tien Nguyen, Duy-Hung Nguyen, Shahab Sabahi, Hung Le, Jeff Yang, Hajime Hotta(参考訳) 大規模言語モデル(llm)は自然言語処理の分野を大幅に進歩させ、gptモデルが最前線にある。 その顕著なパフォーマンスはさまざまなタスクにまたがるが、実際のビジネスシナリオにllmを適用することは、さらなる調査を必要とする課題である。 本稿では, LLM の実用化におけるギャップを埋めることを目的とした実証分析を行った。 そこで本研究では, 推論の課題によるケーススタディとして, 保険の質問応答(QA)タスクを選択する。 本課題に基づいて,保険政策ルールブックから抽出したドメイン固有の知識を活かした LLM に依存した新しいモデルを設計する。 ドメイン固有の知識は、LLMがドメイン適応のための保険の新しい概念を理解するのに役立つ。 実際のqaペアの予備的な結果は、ポリシールールブックからの知識の強化が50.4%のgpt-3.5の推論能力を大幅に改善していることを示している。 この分析は、DBPediaのような既存の公共知識基盤が知識の強化に有用であることを示している。 ビジネスシナリオの本質的な複雑さは、効果的な問題解決のためにドメイン固有の知識と外部リソースを組み込む必要があることが判明した。

Large language models (LLMs) have significantly advanced the field of natural language processing, with GPT models at the forefront. While their remarkable performance spans a range of tasks, adapting LLMs for real-world business scenarios still poses challenges warranting further investigation. This paper presents an empirical analysis aimed at bridging the gap in adapting LLMs to practical use cases. To do that, we select the question answering (QA) task of insurance as a case study due to its challenge of reasoning. Based on the task we design a new model relied on LLMs which are empowered by domain-specific knowledge extracted from insurance policy rulebooks. The domain-specific knowledge helps LLMs to understand new concepts of insurance for domain adaptation. Preliminary results on real QA pairs show that knowledge enhancement from policy rulebooks significantly improves the reasoning ability of GPT-3.5 of 50.4% in terms of accuracy. The analysis also indicates that existing public knowledge bases, e.g., DBPedia is beneficial for knowledge enhancement. Our findings reveal that the inherent complexity of business scenarios often necessitates the incorporation of domain-specific knowledge and external resources for effective problem-solving.
翻訳日:2023-05-15 14:06:02 公開日:2023-05-12
# Open-WikiTable: テーブル上の複雑な推論を伴うオープンドメイン質問回答データセット

Open-WikiTable: Dataset for Open Domain Question Answering with Complex Reasoning over Table ( http://arxiv.org/abs/2305.07288v1 )

ライセンス: Link先を確認
Sunjun Kweon, Yeonsu Kwon, Seonhee Cho, Yohan Jo, Edward Choi(参考訳) テーブル上でのオープンドメイン質問応答(ODQA)に対する近年の関心にもかかわらず、テーブルの構造的性質の活用に関してタスクに真に最適でないデータセットに依存している研究は多い。 これらのデータセットは、回答が単一のセル値として存在すると仮定し、アグリゲーション、比較、ソートなどの複数のセルを探索する必要がない。 そこで我々は,テーブル上の複雑な推論を必要とする最初のODQAデータセットであるOpen-WikiTableをリリースした。 Open-WikiTableはWikiSQLとWikiTableQuestions上に構築されており、オープンドメイン設定に適用できる。 各質問はテキストの回答とSQLクエリの両方と結合されているため、Open-WikiTableは、読者とパーサの両方のメソッドを適用することができるため、将来の研究に幅広い可能性を開く。 データセットとコードは公開されている。

Despite recent interest in open domain question answering (ODQA) over tables, many studies still rely on datasets that are not truly optimal for the task with respect to utilizing structural nature of table. These datasets assume answers reside as a single cell value and do not necessitate exploring over multiple cells such as aggregation, comparison, and sorting. Thus, we release Open-WikiTable, the first ODQA dataset that requires complex reasoning over tables. Open-WikiTable is built upon WikiSQL and WikiTableQuestions to be applicable in the open-domain setting. As each question is coupled with both textual answers and SQL queries, Open-WikiTable opens up a wide range of possibilities for future research, as both reader and parser methods can be applied. The dataset and code are publicly available.
翻訳日:2023-05-15 13:57:55 公開日:2023-05-12
# 高エネルギー物理シミュレーションのための完全量子生成逆ネットワークモデル

A Full Quantum Generative Adversarial Network Model for High Energy Physics Simulations ( http://arxiv.org/abs/2305.07284v1 )

ライセンス: Link先を確認
Florian Rehm, Sofia Vallecorsa, Michele Grossi, Kerstin Borras, Dirk Kr\"ucker(参考訳) 古典計算と比較して指数関数的なスピードアップが期待できる量子コンピューティングの見通しは、将来の高エネルギー物理学(HEP)シミュレーション手法の探索において有望な方法であると認識している。 CERNの大型ハドロン衝突型加速器(Large Hadron Collider)で採用されているHEPシミュレーションは極めて複雑であり、ハードウェアと時間に膨大な計算資源を必要とする。 一部のhepシミュレーションでは、古典的な機械学習モデルがすでに開発とテストに成功しており、数桁のスピードアップを実現している。 本研究は、量子コンピューティングが十分な精度とさらなる改善をもたらすかどうかを探求し、今後の研究のエキサイティングな方向として提案するものである。 小型のプロトタイプモデルを用いて,8ピクセルの小型キャラクタリメータシャワー画像を生成するための完全量子生成適応ネットワーク(GAN)モデルを実証した。 従来の量子モデルの利点は、テストサンプル上で平均化された単純な確率分布の代わりに、ピクセルエネルギー値を含む実際の個々の画像を生成することである。 この図を完成させるために、古典的判別器ニューラルネットワークを用いて、完全な量子GANモデルの結果をハイブリッド量子古典モデルと比較する。

The prospect of quantum computing with a potential exponential speed-up compared to classical computing identifies it as a promising method in the search for alternative future High Energy Physics (HEP) simulation approaches. HEP simulations, such as employed at the Large Hadron Collider at CERN, are extraordinarily complex and require an immense amount of computing resources in hardware and time. For some HEP simulations, classical machine learning models have already been successfully developed and tested, resulting in several orders of magnitude speed-up. In this research, we proceed to the next step and explore whether quantum computing can provide sufficient accuracy, and further improvements, suggesting it as an exciting direction of future investigations. With a small prototype model, we demonstrate a full quantum Generative Adversarial Network (GAN) model for generating downsized eight-pixel calorimeter shower images. The advantage over previous quantum models is that the model generates real individual images containing pixel energy values instead of simple probability distributions averaged over a test sample. To complete the picture, the results of the full quantum GAN model are compared to hybrid quantum-classical models using a classical discriminator neural network.
翻訳日:2023-05-15 13:57:42 公開日:2023-05-12
# Few-Shot Semantic Segmentationのための4次相関学習

Quaternion-valued Correlation Learning for Few-Shot Semantic Segmentation ( http://arxiv.org/abs/2305.07283v1 )

ライセンス: Link先を確認
Zewen Zheng, Guoheng Huang, Xiaochen Yuan, Chi-Man Pun, Hongrui Liu, and Wing-Kuen Ling(参考訳) Few-shot segmentation (FSS) は、いくつかの注釈付きサンプルのみを与えられた未確認クラスをセグメントすることを目的としている。 ベースクラスから学んだセマンティックな特徴を、新しいクラスを表現するのに十分なトレーニングサンプルで活用することで、FSSの進歩を加速させた。 相関に基づく手法は、実数値化された2次元畳み込みの性質から、2つの部分空間マッチングスコアの相互作用を考慮できない。 本稿では,相関学習に関する四元数視点を提案し,高次元相関テンソルの計算負担を軽減し,確立された四元数代数によって定義された演算を活用して,クエリとサポート画像間の内部潜在相互作用を探索することを目的とした,新しい四元数値相関学習ネットワーク(qclnet)を提案する。 具体的には、qclnetは超複素値ネットワークとして定式化され、四元数領域における相関テンソルを表し、四元数値畳み込みを用いて四元数空間における支援部分次元の隠れた関係を考える際にクエリ部分空間の外部関係を探索する。 PASCAL-5i と COCO-20i データセットの大規模な実験により,本手法が既存の最先端手法を効果的に上回ることを示す。 私たちのコードはhttps://github.com/zwzheng98/QCLNetで利用可能です。

Few-shot segmentation (FSS) aims to segment unseen classes given only a few annotated samples. Encouraging progress has been made for FSS by leveraging semantic features learned from base classes with sufficient training samples to represent novel classes. The correlation-based methods lack the ability to consider interaction of the two subspace matching scores due to the inherent nature of the real-valued 2D convolutions. In this paper, we introduce a quaternion perspective on correlation learning and propose a novel Quaternion-valued Correlation Learning Network (QCLNet), with the aim to alleviate the computational burden of high-dimensional correlation tensor and explore internal latent interaction between query and support images by leveraging operations defined by the established quaternion algebra. Specifically, our QCLNet is formulated as a hyper-complex valued network and represents correlation tensors in the quaternion domain, which uses quaternion-valued convolution to explore the external relations of query subspace when considering the hidden relationship of the support sub-dimension in the quaternion space. Extensive experiments on the PASCAL-5i and COCO-20i datasets demonstrate that our method outperforms the existing state-of-the-art methods effectively. Our code is available at https://github.com/zwzheng98/QCLNet
翻訳日:2023-05-15 13:57:25 公開日:2023-05-12
# 大規模言語モデルからのイベントスキーマのハーベスティング

Harvesting Event Schemas from Large Language Models ( http://arxiv.org/abs/2305.07280v1 )

ライセンス: Link先を確認
Jialong Tang, Hongyu Lin, Zhuoqun Li, Yaojie Lu, Xianpei Han and Le Sun(参考訳) イベントスキーマは、イベントを表現し、世界イベントの知識をモデル化するための概念的、構造的、フォーマルな言語を提供する。 残念ながら、現実世界のイベントのオープンな性質、イベント表現の多様性、イベント知識の多様性により、高品質で高カバレッジなイベントスキーマを自動生成することは難しい。 本稿では, PLM からイベントスキーマを発見し, 概念化し, 構造化することで, 上記の課題を効果的に解決できる, 大規模事前学習型言語モデルからの知識獲得のための新しいパラダイムを提案する。 Event Schema Harvester(ESHer)は、インコンテキスト生成に基づく概念化、信頼性を考慮したスキーマ構造化、グラフベースのスキーマアグリゲーションを通じて、高品質なイベントスキーマを自動生成するように設計されている。 実証的な結果から、ESHerはさまざまなドメインで高品質で高カバレッジなイベントスキーマを生成できることが示された。

Event schema provides a conceptual, structural and formal language to represent events and model the world event knowledge. Unfortunately, it is challenging to automatically induce high-quality and high-coverage event schemas due to the open nature of real-world events, the diversity of event expressions, and the sparsity of event knowledge. In this paper, we propose a new paradigm for event schema induction -- knowledge harvesting from large-scale pre-trained language models, which can effectively resolve the above challenges by discovering, conceptualizing and structuralizing event schemas from PLMs. And an Event Schema Harvester (ESHer) is designed to automatically induce high-quality event schemas via in-context generation-based conceptualization, confidence-aware schema structuralization and graph-based schema aggregation. Empirical results show that ESHer can induce high-quality and high-coverage event schemas on varying domains.
翻訳日:2023-05-15 13:57:04 公開日:2023-05-12
# 三部系における絡み合いのモノガミー

Monogamy of entanglement for tripartite systems ( http://arxiv.org/abs/2305.07279v1 )

ライセンス: Link先を確認
Xue-Na Zhu and Gui Bao and Zhi-Xiang Jin and Shao-Ming Fei(参考訳) 任意の量子エンタングルメント測度のモノガミーを三部分量子系に対して$E$で研究する。 E$ の$\alpha$th のパワーの点において、$E$ の十分かつ必要な条件は、明示的に導出される。 絡み合い測度$E$のそのようなモノガミーは、ある方程式の解集合の有界性にのみ依存することが示されている。 さらに、与えられた量子相関に対する量子状態の特定の部分集合に関して、モノガミー条件も得られている。 結果を説明するための詳細な例を挙げる。

We study the monogamy of arbitrary quantum entanglement measures $E$ for tripartite quantum systems. Both sufficient and necessary conditions for $E$ to be monogamous in terms of the $\alpha$th power of $E$ are explicitly derived. It is shown that such monogamy of a entanglement measure $E$ only depends on the boundedness of the solution set of certain equations. Moreover, the monogamy conditions have been also obtained with respect to certain subsets of quantum states for a given quantum correlation. Detailed examples are given to illustrate our results.
翻訳日:2023-05-15 13:56:46 公開日:2023-05-12
# SSD-MonoDTR:モノクロ3次元物体検出のためのスケール制限変形可能な変圧器

SSD-MonoDTR: Supervised Scale-constrained Deformable Transformer for Monocular 3D Object Detection ( http://arxiv.org/abs/2305.07270v1 )

ライセンス: Link先を確認
Xuan He, Fan Yang, Jiacheng Lin, Haolong Fu, Jin Yuan, Kailun Yang, Zhiyong Li(参考訳) トランスフォーマーに基づく手法は,近年,単一2次元画像から3次元特性を予測するモノクロ3次元物体検出において,優れた性能を示している。 既存のトランスフォーマティブベースの手法の多くは、オブジェクトの貴重なクエリポイントを探索するために視覚的および奥行き表現を利用し、学習されたクエリの品質は検出精度に大きな影響を与えます。 残念なことに、トランスフォーマーの既存の監視されていないアテンションメカニズムは、特にハードオブジェクトにおいて不正確な受信フィールドによって、低品質のクエリ機能を生成する傾向にある。 そこで本研究では,モノクロ3次元物体検出のための"Supervised Scale-Constrained Deformable Attention' (SSDA)"を提案する。 具体的には、SSDAは複数のマスクを異なるスケールでプリセットし、深さと視覚的特徴を使用して各クエリのローカル機能を予測する。 スケール制約を導入することで、SSDAはクエリの正確な受容領域を予測し、堅牢なクエリ機能生成をサポートする。 さらに、SSDAは、監視されていない注意機構と比較してより確実な結果を示すスケール予測を監督するために、軽量スケールマッチング(WSM)損失を割り当てる。 KITTI'の広範囲な実験により、SSDAは特に中等度および硬度物体における検出精度を著しく向上し、既存のアプローチと比較してSOTA性能が向上することが示された。 コードはhttps://github.com/mikasa3lili/SSD-MonoDETRで公開される。

Transformer-based methods have demonstrated superior performance for monocular 3D object detection recently, which predicts 3D attributes from a single 2D image. Most existing transformer-based methods leverage visual and depth representations to explore valuable query points on objects, and the quality of the learned queries has a great impact on detection accuracy. Unfortunately, existing unsupervised attention mechanisms in transformer are prone to generate low-quality query features due to inaccurate receptive fields, especially on hard objects. To tackle this problem, this paper proposes a novel ``Supervised Scale-constrained Deformable Attention'' (SSDA) for monocular 3D object detection. Specifically, SSDA presets several masks with different scales and utilizes depth and visual features to predict the local feature for each query. Imposing the scale constraint, SSDA could well predict the accurate receptive field of a query to support robust query feature generation. What is more, SSDA is assigned with a Weighted Scale Matching (WSM) loss to supervise scale prediction, which presents more confident results as compared to the unsupervised attention mechanisms. Extensive experiments on ``KITTI'' demonstrate that SSDA significantly improves the detection accuracy especially on moderate and hard objects, yielding SOTA performance as compared to the existing approaches. Code will be publicly available at https://github.com/mikasa3lili/SSD-MonoDETR.
翻訳日:2023-05-15 13:56:38 公開日:2023-05-12
# 単一画像深度予測における高次モデル一般化のためのメタ最適化

Meta-Optimization for Higher Model Generalizability in Single-Image Depth Prediction ( http://arxiv.org/abs/2305.07269v1 )

ライセンス: Link先を確認
Cho-Ying Wu, Yiqi Zhong, Junying Wang, Ulrich Neumann(参考訳) 室内での単一画像深度予測において,非表示データセットに対するモデル一般化可能性について検討した。 我々は,ゼロショットクロスデータセット推論の一般化性を高めるために,勾配に基づくメタ学習を利用する。 メタラーニングで最も研究されている画像分類とは異なり、深度はピクセルレベルの連続範囲値であり、各画像から深度へのマッピングは環境によって大きく異なる。 したがって、明確なタスク境界は存在しない。 代わりに、メタ最適化において各RGB-Dペアをタスクとして扱う、きめ細かいタスクを提案する。 まず、制限されたデータに対するメタ学習により、より優れた事前学習(max +29.4\%)がもたらされることを示す。 メタ学習重みを教師付き学習の初期化として使用し、余分なデータや情報を含まないまま、その手法なしでベースラインを一貫して上回る。 単一のデータセットでのみトレーニング/テストを行う屋内深層手法と比較し,ゼロショットクロスデータセットプロトコルを提案し,ロバスト性を評価し,メタ初期化による高い一般化性と正確性を示す。 深度とメタラーニングの交差点での作業は、両方の研究の流れを実用に近づける可能性がある。

Model generalizability to unseen datasets, concerned with in-the-wild robustness, is less studied for indoor single-image depth prediction. We leverage gradient-based meta-learning for higher generalizability on zero-shot cross-dataset inference. Unlike the most-studied image classification in meta-learning, depth is pixel-level continuous range values, and mappings from each image to depth vary widely across environments. Thus no explicit task boundaries exist. We instead propose fine-grained task that treats each RGB-D pair as a task in our meta-optimization. We first show meta-learning on limited data induces much better prior (max +29.4\%). Using meta-learned weights as initialization for following supervised learning, without involving extra data or information, it consistently outperforms baselines without the method. Compared to most indoor-depth methods that only train/ test on a single dataset, we propose zero-shot cross-dataset protocols, closely evaluate robustness, and show consistently higher generalizability and accuracy by our meta-initialization. The work at the intersection of depth and meta-learning potentially drives both research streams to step closer to practical use.
翻訳日:2023-05-15 13:56:12 公開日:2023-05-12
# ネスト付きエンティティ認識のためのgaussian prior reinforcement learning

Gaussian Prior Reinforcement Learning for Nested Named Entity Recognition ( http://arxiv.org/abs/2305.07266v1 )

ライセンス: Link先を確認
Yawen Yang, Xuming Hu, Fukun Ma, Shu'ang Li, Aiwei Liu, Lijie Wen, Philip S. Yu(参考訳) 名前付きエンティティ認識(NER)は自然言語処理においてよく研究されているタスクである。 近年、ネストされたNERは実用性や難しさから注目を集めている。 ネストされたNERの既存の作業は、ネストされたエンティティの認識順序と境界位置関係を無視している。 そこで我々は,ネストしたnerタスクをエンティティトリプレットシーケンス生成プロセスとして定式化する新しいseq2seqモデルgprlを提案する。 GPRLは、金ラベルでエンティティオーダを分離するエンティティトリプレットを生成するための強化学習法を採用し、試行錯誤を通じてエンティティの適切な認識オーダを学習することを期待している。 ネストされたエンティティの境界距離の統計に基づいて、gprlはネストされたエンティティ間の境界距離分布を表す前にガウスを設計、ネストされた境界トークンの出力確率分布を調整する。 3つのネストされたNERデータセットの実験は、GPRLが以前のネストされたNERモデルより優れていることを示した。

Named Entity Recognition (NER) is a well and widely studied task in natural language processing. Recently, the nested NER has attracted more attention since its practicality and difficulty. Existing works for nested NER ignore the recognition order and boundary position relation of nested entities. To address these issues, we propose a novel seq2seq model named GPRL, which formulates the nested NER task as an entity triplet sequence generation process. GPRL adopts the reinforcement learning method to generate entity triplets decoupling the entity order in gold labels and expects to learn a reasonable recognition order of entities via trial and error. Based on statistics of boundary distance for nested entities, GPRL designs a Gaussian prior to represent the boundary distance distribution between nested entities and adjust the output probability distribution of nested boundary tokens. Experiments on three nested NER datasets demonstrate that GPRL outperforms previous nested NER models.
翻訳日:2023-05-15 13:55:52 公開日:2023-05-12
# ポテンシャルインバージョン理論

The Potential Inversion Theorem ( http://arxiv.org/abs/2305.07260v1 )

ライセンス: Link先を確認
Alec Shelley, Henry Hunt(参考訳) 近接する強結合モデルにおけるポテンシャルエネルギーが反転した場合、初期条件が格子サイトや奇格子サイトのみを占有し、大域的な位相まで達する限り、波動関数確率の時間進化は保存されることを示す。 つまり、正のポテンシャルは負のポテンシャルと同様に粒子を捕捉する。 このポテンシャル反転定理の一般化を議論し、全ての奇距離ホッピング項または全ての偶距離ホッピング項の符号を反転させる変換に対して、これらの初期条件に対して波動関数確率の進化が保存されていることを見出した。 これは電子対の時間はポジトロニウムのように進化し、したがって結合状態を形成すると予測する。 任意の格子スピンモデルの格子ホッピングモデルへの写像を示し、ポテンシャル反転定理を用いてこれらのスピンモデルの一般対称性を議論する。

If the potential energy in a nearest neighbor tight binding model is flipped, we show that the time evolution of the wavefunction probability is conserved as long as the initial conditions only occupy even lattice sites or odd lattice sites and are real up to a global phase. This means that positive potentials trap particles just as well as negative potentials. Generalizations of this potential inversion theorem are discussed, and it is found that wavefunction probability evolution is conserved for these initial conditions for any transformation which flips the sign of all odd-distance hopping terms or all even-distance hopping terms. This predicts that electron pairs time evolve like positronium and therefore form bound states. We show a mapping of any lattice spin model onto a lattice hopping model and discuss general symmetries of these spin models using the potential inversion theorem.
翻訳日:2023-05-15 13:55:35 公開日:2023-05-12
# 自発的食事介入のための中央アジア食品データセット,extended abstract

A Central Asian Food Dataset for Personalized Dietary Interventions, Extended Abstract ( http://arxiv.org/abs/2305.07257v1 )

ライセンス: Link先を確認
Aknur Karabay, Arman Bolatov, Huseyin Atakan Varol, and Mei-Yen Chan(参考訳) 今日では、食事や飲み物、スナック、食事の写真を撮ってソーシャルメディアのプラットフォームに投稿することが一般的である。 これらの社会的傾向を活用し、リアルタイムの食品認識と、捕食された食品画像の信頼性の高い分類は、食品日記の退屈な記録とコーディングを置き換え、個人化された食事介入を可能にするのに役立つ可能性がある。 中央アジアの料理は文化的にも歴史的にも異なるが、この地域の人々の食事や食生活に関するデータはほとんど公開されていない。 このギャップを埋めるために、公共消費者と研究者の両方に容易にアクセス可能な地域食品の信頼性の高いデータセットを作成することを目指している。 私たちの知る限りでは、これは中央アジア食品データセット(CAFD)を作成するための最初の作業です。 最終データセットには42の食品カテゴリーと16,000以上の国産料理の画像が含まれている。 我々は,ResNet152ニューラルネットワークモデルを用いて,CAFDの分類精度88.70\%(42クラス)を達成した。 CAFDで訓練された食品認識モデルは、コンピュータビジョンの有効性と食事評価の精度を示す。

Nowadays, it is common for people to take photographs of every beverage, snack, or meal they eat and then post these photographs on social media platforms. Leveraging these social trends, real-time food recognition and reliable classification of these captured food images can potentially help replace some of the tedious recording and coding of food diaries to enable personalized dietary interventions. Although Central Asian cuisine is culturally and historically distinct, there has been little published data on the food and dietary habits of people in this region. To fill this gap, we aim to create a reliable dataset of regional foods that is easily accessible to both public consumers and researchers. To the best of our knowledge, this is the first work on creating a Central Asian Food Dataset (CAFD). The final dataset contains 42 food categories and over 16,000 images of national dishes unique to this region. We achieved a classification accuracy of 88.70\% (42 classes) on the CAFD using the ResNet152 neural network model. The food recognition models trained on the CAFD demonstrate computer vision's effectiveness and high accuracy for dietary assessment.
翻訳日:2023-05-15 13:55:20 公開日:2023-05-12
# $\partial\mathbb{B}$ nets:勾配降下による離散関数の学習

$\partial\mathbb{B}$ nets: learning discrete functions by gradient descent ( http://arxiv.org/abs/2305.07315v1 )

ライセンス: Link先を確認
Ian Wright(参考訳) $\partial\mathbb{B}$ netsは、勾配降下によって離散ブール値関数を学習する微分可能なニューラルネットワークである。 $\partial\mathbb{B}$ nets は2つの意味論的等価な側面を持つ: 実重みを持つ微分可能なソフトネットと、ブール重みを持つ微分不可能なハードネットである。 バックプロパゲーションによりソフトネットをトレーニングし、学習したウェイトを'ハード'してハードネットに結合するブールウェイトを生成する。 結果は学習された離散関数である。 ニューラルネットワークのバイナライゼーションに対する既存のアプローチとは異なり、‘Hardening’は精度の低下を伴わない。 予備実験では、$\partial\mathbb{b}$ nets が標準的な機械学習問題で同等のパフォーマンスを達成しているが、(1ビットの重みによる)コンパクトで解釈可能である(学習関数の論理的性質により)。

$\partial\mathbb{B}$ nets are differentiable neural networks that learn discrete boolean-valued functions by gradient descent. $\partial\mathbb{B}$ nets have two semantically equivalent aspects: a differentiable soft-net, with real weights, and a non-differentiable hard-net, with boolean weights. We train the soft-net by backpropagation and then `harden' the learned weights to yield boolean weights that bind with the hard-net. The result is a learned discrete function. `Hardening' involves no loss of accuracy, unlike existing approaches to neural network binarization. Preliminary experiments demonstrate that $\partial\mathbb{B}$ nets achieve comparable performance on standard machine learning problems yet are compact (due to 1-bit weights) and interpretable (due to the logical nature of the learnt functions).
翻訳日:2023-05-15 13:49:22 公開日:2023-05-12
# 言語間整合規則化の活用によるゼロショット多言語ニューラルマシン翻訳の改善

Improving Zero-shot Multilingual Neural Machine Translation by Leveraging Cross-lingual Consistency Regularization ( http://arxiv.org/abs/2305.07310v1 )

ライセンス: Link先を確認
Pengzhi Gao, Liwen Zhang, Zhongjun He, Hua Wu, Haifeng Wang(参考訳) マルチリンガルニューラルネットワーク翻訳(NMT)モデルはゼロショット翻訳の有望な能力を持ち、トレーニング中に見つからない言語ペア間で直接翻訳することができる。 教師付き方向からゼロショット方向への良好な転送性能を得るために、多言語NMTモデルは異なる言語間の普遍表現を学習することが期待される。 本稿では,言語間一貫性の規則化であるCrossConSTを導入し,異なる言語間の表現ギャップを埋め,ゼロショット翻訳性能を向上する。 理論解析の結果,クロスコンストはゼロショット翻訳の確率分布を暗黙的に最大化し,低リソースベンチマークと高リソースベンチマークの両方で実験結果から,クロスコンストの翻訳性能が一貫して向上することが示された。 実験分析により、CrossConSTは文表現ギャップを閉じ、表現空間をより良く整合させることができることが示された。 CrossConSTの普遍性と単純性を考えると、将来の多言語NMT研究の強力なベースラインとなると信じている。

The multilingual neural machine translation (NMT) model has a promising capability of zero-shot translation, where it could directly translate between language pairs unseen during training. For good transfer performance from supervised directions to zero-shot directions, the multilingual NMT model is expected to learn universal representations across different languages. This paper introduces a cross-lingual consistency regularization, CrossConST, to bridge the representation gap among different languages and boost zero-shot translation performance. The theoretical analysis shows that CrossConST implicitly maximizes the probability distribution for zero-shot translation, and the experimental results on both low-resource and high-resource benchmarks show that CrossConST consistently improves the translation performance. The experimental analysis also proves that CrossConST could close the sentence representation gap and better align the representation space. Given the universality and simplicity of CrossConST, we believe it can serve as a strong baseline for future multilingual NMT research.
翻訳日:2023-05-15 13:49:06 公開日:2023-05-12
# 多元性評価による包括的ロバストニューラルネットワークの効率的な探索

Efficient Search of Comprehensively Robust Neural Architectures via Multi-fidelity Evaluation ( http://arxiv.org/abs/2305.07308v1 )

ライセンス: Link先を確認
Jialiang Sun, Wen Yao, Tingsong Jiang, Xiaoqian Chen(参考訳) ニューラルネットワーク探索(NAS)は、堅牢なディープニューラルネットワーク(DNN)アーキテクチャを見つける方法として成功している。 しかし、NASの既存のロバスト性評価は、$l_{\infty}=ノルムベース対向雑音しか考慮していない。 複数種類の雑音に対するDNNモデルのロバスト性を改善するためには,NASにおけるロバストアーキテクチャに対する包括的評価を検討する必要がある。 しかし、ロバスト性評価のタイプが増えるにつれて、包括的にロバストなアーキテクチャを見つけるのに時間がかかります。 この問題を軽減するために,多面体評価(ES-CRNA-ME)による包括的堅牢なニューラルネットワークアーキテクチャの探索を提案する。 具体的には,様々な$l_{p}$ノルム攻撃,意味敵攻撃,複合敵攻撃を含む,重み付けに基づくnas法を用いて,多種類の評価の下で包括的にロバストなアーキテクチャを探索する。 さらに, 相関解析によりロバスト性評価の回数を削減し, 同様の評価を取り入れ, 評価コストを削減できる。 最後に,検索コストをさらに削減するために,最適化中の多元性オンラインサロゲートを提案する。 低忠実度データにより構築されたサロゲートに基づいて、オンライン高忠実度データを用いてサロゲートを微調整する。 cifar10とcifar100データセットの実験では,提案手法の有効性を示す。

Neural architecture search (NAS) has emerged as one successful technique to find robust deep neural network (DNN) architectures. However, most existing robustness evaluations in NAS only consider $l_{\infty}$ norm-based adversarial noises. In order to improve the robustness of DNN models against multiple types of noises, it is necessary to consider a comprehensive evaluation in NAS for robust architectures. But with the increasing number of types of robustness evaluations, it also becomes more time-consuming to find comprehensively robust architectures. To alleviate this problem, we propose a novel efficient search of comprehensively robust neural architectures via multi-fidelity evaluation (ES-CRNA-ME). Specifically, we first search for comprehensively robust architectures under multiple types of evaluations using the weight-sharing-based NAS method, including different $l_{p}$ norm attacks, semantic adversarial attacks, and composite adversarial attacks. In addition, we reduce the number of robustness evaluations by the correlation analysis, which can incorporate similar evaluations and decrease the evaluation cost. Finally, we propose a multi-fidelity online surrogate during optimization to further decrease the search cost. On the basis of the surrogate constructed by low-fidelity data, the online high-fidelity data is utilized to finetune the surrogate. Experiments on CIFAR10 and CIFAR100 datasets show the effectiveness of our proposed method.
翻訳日:2023-05-15 13:48:48 公開日:2023-05-12
# 自己学習型対称多視点確率クラスタリング

Self-Learning Symmetric Multi-view Probabilistic Clustering ( http://arxiv.org/abs/2305.07307v1 )

ライセンス: Link先を確認
Junjie Liu, Junlong Liu, Rongxin Jiang, Xuesong Liu, Boxuan Gu, Yaowu Chen, Chen Shen, Jieping Ye(参考訳) マルチビュークラスタリング(MVC)は、複数の視点から知識を学ぶための多くの取り組みによって、大きな進歩を遂げている。 しかし、既存のほとんどのメソッドは適用できないか、不完全なマルチビュークラスタリングのための追加ステップを必要とする。 このような制限は、低品質のクラスタリング性能と低品質のビュー適応をもたらす。 さらに、ノイズやアウトレイラはクラスタリング全体のパフォーマンスを著しく低下させる可能性があるが、既存のほとんどのメソッドではうまく処理できない。 さらに,クラスタリング性能に大きな影響を及ぼす既存手法では,カテゴリ情報が必要である。 本稿では,SLS-MPC(Self-learning symmetric multi-view probabilistic clustering)という,不完全かつ完全なMVCのための新しい統合フレームワークを提案する。 SLS-MPCは、新しい対称な多視点確率推定を提案し、同値に、多視点のペアワイドな後続マッチング確率を、各ビューの個々の分布の構成に変換する。 そこで,SLS-MPCは,一視点,クロスビュー,マルチビューの整合性の観点から各ビューの個別分布を学習するために,事前知識やハイパーパラメータを含まない新しい自己学習確率関数を提案する。 次に、経路伝搬と隣り合う伝播を併用したグラフコンテキスト対応改良法を用いて、雑音や外周の影響を緩和する。 最後に、SLS-MPCは、カテゴリ情報が不要な結合確率を反復的に最大化し、クラスタリングの割り当てを調整する確率的クラスタリングアルゴリズムを提案する。 不完全なMVCと完全なMVCのための複数のベンチマークの大規模な実験は、SLS-MPCが従来の最先端手法よりも大幅に優れていることを示している。

Multi-view Clustering (MVC) has achieved significant progress, with many efforts dedicated to learn knowledge from multiple views. However, most existing methods are either not applicable or require additional steps for incomplete multi-view clustering. Such a limitation results in poor-quality clustering performance and poor missing view adaptation. Besides, noise or outliers might significantly degrade the overall clustering performance, which are not handled well by most existing methods. Moreover, category information is required in most existing methods, which severely affects the clustering performance. In this paper, we propose a novel unified framework for incomplete and complete MVC named self-learning symmetric multi-view probabilistic clustering (SLS-MPC). SLS-MPC proposes a novel symmetric multi-view probability estimation and equivalently transforms multi-view pairwise posterior matching probability into composition of each view's individual distribution, which tolerates data missing and might extend to any number of views. Then, SLS-MPC proposes a novel self-learning probability function without any prior knowledge and hyper-parameters to learn each view's individual distribution from the aspect of consistency in single-view, cross-view and multi-view. Next, graph-context-aware refinement with path propagation and co-neighbor propagation is used to refine pairwise probability, which alleviates the impact of noise and outliers. Finally, SLS-MPC proposes a probabilistic clustering algorithm to adjust clustering assignments by maximizing the joint probability iteratively, in which category information is not required. Extensive experiments on multiple benchmarks for incomplete and complete MVC show that SLS-MPC significantly outperforms previous state-of-the-art methods.
翻訳日:2023-05-15 13:48:25 公開日:2023-05-12
# CLIP-Count: テキストガイドによるゼロショットオブジェクトカウントを目指す

CLIP-Count: Towards Text-Guided Zero-Shot Object Counting ( http://arxiv.org/abs/2305.07304v1 )

ライセンス: Link先を確認
Ruixiang Jiang, Lingbo Liu, Changwen Chen(参考訳) 近年の視覚言語モデルの進歩は、オブジェクト検出やセグメンテーションなどの下流タスクに転送可能な、顕著なゼロショットテキストイメージマッチング能力を示している。 しかし、画像内のオブジェクトの数を推定するオブジェクトカウントにこれらのモデルを適用することは、依然として大きな課題である。 本研究では,クラス非依存オブジェクトカウントのための視覚言語モデルの転送を初めて行う。 具体的には、特定のオブジェクトクラスを微調整することなく、ゼロショットでテキストガイダンスでオープン語彙オブジェクトの密度マップを推定する新しいパイプラインであるCLIP-Countを提案する。 テキスト埋め込みを高精細な画像特徴と整合させるために,モデルが高精細な予測のために有益なパッチレベルイメージ表現を学ぶための,パッチテキストコントラストロスを導入する。 さらに,画像特徴の異なる解像度レベルにまたがる意味情報を伝達する階層的なパッチテキストインタラクションモジュールを設計した。 事前学習されたビジュアル言語モデルのリッチな画像テキストアライメント知識をフル活用することで,目的物に対する高品質な密度マップを効果的に生成する。 FSC-147, CARPK, 上海技術クラウドカウントデータセットの大規模実験により, 提案手法がゼロショットオブジェクトカウントにおける最先端の精度と一般化性を実現することを示す。 プロジェクトページ: https://github.com/songrise/clip-count

Recent advances in visual-language models have shown remarkable zero-shot text-image matching ability that is transferable to down-stream tasks such as object detection and segmentation. However, adapting these models for object counting, which involves estimating the number of objects in an image, remains a formidable challenge. In this study, we conduct the first exploration of transferring visual-language models for class-agnostic object counting. Specifically, we propose CLIP-Count, a novel pipeline that estimates density maps for open-vocabulary objects with text guidance in a zero-shot manner, without requiring any finetuning on specific object classes. To align the text embedding with dense image features, we introduce a patch-text contrastive loss that guides the model to learn informative patch-level image representations for dense prediction. Moreover, we design a hierarchical patch-text interaction module that propagates semantic information across different resolution levels of image features. Benefiting from the full exploitation of the rich image-text alignment knowledge of pretrained visual-language models, our method effectively generates high-quality density maps for objects-of-interest. Extensive experiments on FSC-147, CARPK, and ShanghaiTech crowd counting datasets demonstrate that our proposed method achieves state-of-the-art accuracy and generalizability for zero-shot object counting. Project page at https://github.com/songrise/CLIP-Count
翻訳日:2023-05-15 13:47:59 公開日:2023-05-12
# 自然言語定義からの多関係双曲語埋め込み

Multi-Relational Hyperbolic Word Embeddings from Natural Language Definitions ( http://arxiv.org/abs/2305.07303v1 )

ライセンス: Link先を確認
Marco Valentino, Danilo S. Carvalho, Andr\'e Freitas(参考訳) 分散情報のみを用いたニューラルネットワークによる単語埋め込みは、下流タスクに有用な意味表現を一貫して作り出している。 しかし、既存のアプローチはしばしば解釈や制御が難しい表現をもたらす。 一方、自然言語の定義は再帰的で自己説明的な意味構造を持ち、ベクトル空間における明示的な概念的関係と制約を保存できる新しい表現学習パラダイムをサポートすることができる。 本稿では,言語定義からのみ単語の埋め込みを学習する,ニューロシンボリック・マルチリレーショナルなフレームワークを提案する。 定義コーパスから自動的に関係を抽出し,翻訳目的によって学習問題を定式化することにより,定義によって引き起こされる階層構造とマルチレゾリューション構造を捉えるために,双曲空間の枠組みを専門化する。 広範な経験的分析により、フレームワークは、制御可能で解釈可能なセマンティックナビゲーションに必要なマッピングを保持しながら、望ましい構造的制約を課すのに役立つことが示される。 さらに, この実験により, ユークリッド語に対する双曲語埋め込みの優位性が明らかになり, 多関係フレームワークは, 最先端のニューラルネットワーク(トランスフォーマーを含む)と比較して, より効率的かつ本質的に解釈可能な利点を享受できることを示した。

Neural-based word embeddings using solely distributional information have consistently produced useful meaning representations for downstream tasks. However, existing approaches often result in representations that are hard to interpret and control. Natural language definitions, on the other side, possess a recursive, self-explanatory semantic structure that can support novel representation learning paradigms able to preserve explicit conceptual relations and constraints in the vector space. This paper proposes a neuro-symbolic, multi-relational framework to learn word embeddings exclusively from natural language definitions by jointly mapping defined and defining terms along with their corresponding semantic relations. By automatically extracting the relations from definitions corpora and formalising the learning problem via a translational objective, we specialise the framework in hyperbolic space to capture the hierarchical and multi-resolution structure induced by the definitions. An extensive empirical analysis demonstrates that the framework can help impose the desired structural constraints while preserving the mapping required for controllable and interpretable semantic navigation. Moreover, the experiments reveal the superiority of the hyperbolic word embeddings over the euclidean counterparts and demonstrate that the multi-relational framework can obtain competitive results when compared to state-of-the-art neural approaches (including Transformers), with the advantage of being significantly more efficient and intrinsically interpretable.
翻訳日:2023-05-15 13:47:37 公開日:2023-05-12
# 関連付け、マッピング、ハイレベルタスクのためのオブジェクトslamフレームワーク

An Object SLAM Framework for Association, Mapping, and High-Level Tasks ( http://arxiv.org/abs/2305.07299v1 )

ライセンス: Link先を確認
Yanmin Wu, Yunzhou Zhang, Delong Zhu, Zhiqiang Deng, Wenkai Sun, Xin Chen, Jian Zhang(参考訳) オブジェクトSLAMはロボットのハイレベルな認識と意思決定においてますます重要であると考えられている。 既存の研究は、データアソシエーション、オブジェクト表現、セマンティックマッピングの観点では不足しており、しばしば追加の仮定に依存し、パフォーマンスを制限します。 本稿では,オブジェクト指向認識とオブジェクト指向ロボットタスクに焦点をあてた包括的オブジェクトSLAMフレームワークを提案する。 まず,パラメトリックおよび非パラメトリック統計テストを導入することで,複雑な条件下でオブジェクトを関連付けるアンサンブルデータアソシエーション手法を提案する。 さらに,iforest と line のアライメントに基づいて,オブジェクトをモデル化するための外乱遠心・スケール推定アルゴリズムを提案する。 そして、軽量でオブジェクト指向の地図を推定対象モデルで表現する。 オブジェクトの意味的不変性を考慮して、オブジェクトマップをトポロジカルマップに変換し、マルチマップマッチングを可能にするセマンティックディスクリプタを提供する。 最後に,把握シナリオにおいて自律的マッピングを実現するためのオブジェクト駆動能動的探索戦略を提案する。 マッピングや拡張現実,シーンマッチング,再ローカライゼーション,ロボット操作など,さまざまな公開データセットや実世界の成果を用いて,提案したオブジェクトSLAMフレームワークを効率よく評価している。

Object SLAM is considered increasingly significant for robot high-level perception and decision-making. Existing studies fall short in terms of data association, object representation, and semantic mapping and frequently rely on additional assumptions, limiting their performance. In this paper, we present a comprehensive object SLAM framework that focuses on object-based perception and object-oriented robot tasks. First, we propose an ensemble data association approach for associating objects in complicated conditions by incorporating parametric and nonparametric statistic testing. In addition, we suggest an outlier-robust centroid and scale estimation algorithm for modeling objects based on the iForest and line alignment. Then a lightweight and object-oriented map is represented by estimated general object models. Taking into consideration the semantic invariance of objects, we convert the object map to a topological map to provide semantic descriptors to enable multi-map matching. Finally, we suggest an object-driven active exploration strategy to achieve autonomous mapping in the grasping scenario. A range of public datasets and real-world results in mapping, augmented reality, scene matching, relocalization, and robotic manipulation have been used to evaluate the proposed object SLAM framework for its efficient performance.
翻訳日:2023-05-15 13:47:13 公開日:2023-05-12
# 振動ポラリトン化学における共鳴挙動の量子化

How Quantum is the Resonance Behavior in Vibrational Polariton Chemistry? ( http://arxiv.org/abs/2305.07296v1 )

ライセンス: Link先を確認
Marit R. Fiechter, Johan E. Runeson, Joseph E. Lawrence, Jeremy O. Richardson(参考訳) ポラリトン化学における最近の実験では、光キャビティモードへの振動の強い結合によって反応速度が変化できることが示されている。 重要なのは、この修飾はキャビティモードの周波数が分子振動周波数と密接に一致するように調整された場合にのみ起こる。 この鋭い共鳴挙動は理論的に捉えにくいことが証明された。 最近になってlindoyらは、正確な量子力学を用いたモデルシステムでシミュレーションされたキャビティ修飾率の鋭い共鳴効果の最初の例を報告した。 量子統計を取り込みながら古典力学を扱ったリングポリマー分子動力学(rpmd)という異なる手法を用いて,同じモデル系について検討した。 RPMDは、この鋭い共鳴特性を井戸周波数で再現していないことが分かり、この発見が振動偏光子化学における将来の研究に与える影響について論じる。

Recent experiments in polariton chemistry have demonstrated that reaction rates can be modified by vibrational strong coupling to an optical cavity mode. Importantly, this modification only occurs when the frequency of the cavity mode is tuned to closely match a molecular vibrational frequency. This sharp resonance behavior has proved difficult to capture theoretically. Only recently, Lindoy et al. reported the first instance of a sharp resonant effect in the cavity-modified rate simulated in a model system using exact quantum dynamics. We investigate the same model system with a different method, ring-polymer molecular dynamics (RPMD), which captures quantum statistics but treats dynamics classically. We find that RPMD does not reproduce this sharp resonant feature at the well frequency, and we discuss the implications of this finding for future studies in vibrational polariton chemistry.
翻訳日:2023-05-15 13:46:55 公開日:2023-05-12
# 第3回反UAVワークショップ・チャレンジ:方法と成果

The 3rd Anti-UAV Workshop & Challenge: Methods and Results ( http://arxiv.org/abs/2305.07290v1 )

ライセンス: Link先を確認
Jian Zhao, Jianan Li, Lei Jin, Jiaming Chu, Zhihao Zhang, Jun Wang, Jiangqiang Xia, Kai Wang, Yang Liu, Sadaf Gulshad, Jiaojiao Zhao, Tianyang Xu, Xuefeng Zhu, Shihan Liu, Zheng Zhu, Guibo Zhu, Zechao Li, Zheng Wang, Baigui Sun, Yandong Guo, Shin ichi Satoh, Junliang Xing, Jane Shen Shengmei(参考訳) 第3回対uavワークショップ&チャレンジは,マルチスケールオブジェクトトラッキングのための新規かつ正確な手法の開発研究を促進することを目的とする。 反UAVチャレンジで使用される反UAVデータセットが公開された。 今年の大会と前の2つの競技の間には2つの大きな違いがある。 まず、既存のデータセットを拡張し、初めてトレーニングセットをリリースして、参加者がモデルの改善に集中できるようにしました。 第2に、初めて2つのトラック、すなわち、アンチUAVトラッキングとアンチUAV検出とトラッキングをセットアップしました。 世界から76チームが参加し、第3回対uavチャレンジに出場した。 本稿では,第3回反UAVワークショップ・チャレンジの概要を紹介するとともに,各トラックの上位3つの手法について紹介する。 提案のリーダーボードは、反uavチャレンジに興味がある研究者のために再オープンされる。 ベンチマークデータセットとその他の情報は、https://anti-uav.github.io/で見ることができる。

The 3rd Anti-UAV Workshop & Challenge aims to encourage research in developing novel and accurate methods for multi-scale object tracking. The Anti-UAV dataset used for the Anti-UAV Challenge has been publicly released. There are two main differences between this year's competition and the previous two. First, we have expanded the existing dataset, and for the first time, released a training set so that participants can focus on improving their models. Second, we set up two tracks for the first time, i.e., Anti-UAV Tracking and Anti-UAV Detection & Tracking. Around 76 participating teams from the globe competed in the 3rd Anti-UAV Challenge. In this paper, we provide a brief summary of the 3rd Anti-UAV Workshop & Challenge including brief introductions to the top three methods in each track. The submission leaderboard will be reopened for researchers that are interested in the Anti-UAV challenge. The benchmark dataset and other information can be found at: https://anti-uav.github.io/.
翻訳日:2023-05-15 13:46:41 公開日:2023-05-12
# RepCL:連続テキスト分類のための効果的な表現を探る

RepCL: Exploring Effective Representation for Continual Text Classification ( http://arxiv.org/abs/2305.07289v1 )

ライセンス: Link先を確認
Yifan Song, Peiyi Wang, Dawei Zhu, Tianyu Liu, Zhifang Sui, Sujian Li(参考訳) 継続学習(CL)は、古いタスクを忘れないようにしながら、時間とともに新しい知識を常に学習することを目的としている。 本研究は,クラスインクリメンタルな設定下での連続的なテキスト分類に焦点をあてる。 最近のCL研究では、あるタスクで学習した表現は他のタスク、すなわち表現バイアス問題に有効でない可能性がある。 情報ボトルネックの観点から表現バイアスを形式的に分析し,より類型的情報を用いた表現の活用がバイアスの軽減につながることを示唆した。 そこで本研究では,リプレイに基づく連続テキスト分類手法RepCLを提案する。 本手法は,コントラスト表現学習目標と生成表現学習目標を用いて,よりクラス関係の特徴を捉える。 さらに、RepCLはリプレイの過度な問題を軽減するために、対戦型リプレイ戦略を導入する。 実験により、RepCLは3つのテキスト分類タスクにおける忘れを効果的に軽減し、最先端のパフォーマンスを達成する。

Continual learning (CL) aims to constantly learn new knowledge over time while avoiding catastrophic forgetting on old tasks. In this work, we focus on continual text classification under the class-incremental setting. Recent CL studies find that the representations learned in one task may not be effective for other tasks, namely representation bias problem. For the first time we formally analyze representation bias from an information bottleneck perspective and suggest that exploiting representations with more class-relevant information could alleviate the bias. To this end, we propose a novel replay-based continual text classification method, RepCL. Our approach utilizes contrastive and generative representation learning objectives to capture more class-relevant features. In addition, RepCL introduces an adversarial replay strategy to alleviate the overfitting problem of replay. Experiments demonstrate that RepCL effectively alleviates forgetting and achieves state-of-the-art performance on three text classification tasks.
翻訳日:2023-05-15 13:46:30 公開日:2023-05-12
# BundleRecon:光束ベース3Dニューラルリコン

BundleRecon: Ray Bundle-Based 3D Neural Reconstruction ( http://arxiv.org/abs/2305.07342v1 )

ライセンス: Link先を確認
Weikun Zhang, Jianke Zhu(参考訳) ニューラルレンダリングの人気が高まっているため、ニューラル暗黙のマルチビュー再構成手法が増えている。 多くのモデルが位置符号化、サンプリング、レンダリングなどの面で改良され、復元品質が向上しているが、現在の手法では、復元過程において隣り合うピクセル間の情報を十分に活用していない。 この問題に対処するため、BundleReconと呼ばれる拡張モデルを提案する。 既存のアプローチでは、サンプリングは単一のピクセルに対応する単一の光線によって行われる。 対照的に、我々のモデルは、隣接するピクセルの情報を含む光束を用いてピクセルのパッチをサンプリングする。 さらに,バンドルベースの制約を設計して,再構築品質をさらに向上する。 実験の結果, BundleReconは既存のニューラル暗黙的多視点再構成法と互換性があり,再現性の向上が期待できることがわかった。

With the growing popularity of neural rendering, there has been an increasing number of neural implicit multi-view reconstruction methods. While many models have been enhanced in terms of positional encoding, sampling, rendering, and other aspects to improve the reconstruction quality, current methods do not fully leverage the information among neighboring pixels during the reconstruction process. To address this issue, we propose an enhanced model called BundleRecon. In the existing approaches, sampling is performed by a single ray that corresponds to a single pixel. In contrast, our model samples a patch of pixels using a bundle of rays, which incorporates information from neighboring pixels. Furthermore, we design bundle-based constraints to further improve the reconstruction quality. Experimental results demonstrate that BundleRecon is compatible with the existing neural implicit multi-view reconstruction methods and can improve their reconstruction quality.
翻訳日:2023-05-15 13:39:36 公開日:2023-05-12
# モデルに基づくプログラミング: ディープラーニング時代のプログラミングの原子単位を再定義する

Model-based Programming: Redefining the Atomic Unit of Programming for the Deep Learning Era ( http://arxiv.org/abs/2305.07341v1 )

ライセンス: Link先を確認
Meng Zheng(参考訳) 本稿では,ディープラーニングモデルを現実世界のアプリケーションに適用する際の課題に対処するために設計された,新しいプログラミングパラダイムであるモデルベースプログラミングを紹介し,検討する。 さまざまなタスクにわたるディープラーニングモデルの成功にもかかわらず、実際のビジネスシナリオへのデプロイには、複雑なモデルトレーニング、大規模な計算リソース要件、既存のプログラミング言語との統合の問題などといった困難が伴う。 これらの課題を改善するため,我々は「モデルベースプログラミング」の概念を提案し,モデル中心型プログラミングパラダイムに合わせた新しいプログラミング言語「m言語」を提案する。 M言語はモデルを基本的な計算単位として扱い、開発者はモデルローディング、微調整、評価、デプロイメントといった重要なタスクに集中でき、それによってディープラーニングアプリケーションを作成する効率が向上する。 この革新的なプログラミングパラダイムは、ディープラーニング技術の広範な適用と進歩を刺激し、モデル駆動型未来のための堅牢な基盤を提供すると仮定する。

This paper introduces and explores a new programming paradigm, Model-based Programming, designed to address the challenges inherent in applying deep learning models to real-world applications. Despite recent significant successes of deep learning models across a range of tasks, their deployment in real business scenarios remains fraught with difficulties, such as complex model training, large computational resource requirements, and integration issues with existing programming languages. To ameliorate these challenges, we propose the concept of 'Model-based Programming' and present a novel programming language - M Language, tailored to a prospective model-centered programming paradigm. M Language treats models as basic computational units, enabling developers to concentrate more on crucial tasks such as model loading, fine-tuning, evaluation, and deployment, thereby enhancing the efficiency of creating deep learning applications. We posit that this innovative programming paradigm will stimulate the extensive application and advancement of deep learning technology and provide a robust foundation for a model-driven future.
翻訳日:2023-05-15 13:39:23 公開日:2023-05-12
# MedGPTEval:医学における大規模言語モデルの応答評価のためのデータセットとベンチマーク

MedGPTEval: A Dataset and Benchmark to Evaluate Responses of Large Language Models in Medicine ( http://arxiv.org/abs/2305.07340v1 )

ライセンス: Link先を確認
Jie Xu, Lu Lu, Sen Yang, Bilin Liang, Xinwei Peng, Jiali Pang, Jinru Ding, Xiaoming Shi, Lingrui Yang, Huan Song, Kang Li, Xin Sun, Shaoting Zhang(参考訳) Methods: まず、総合的な文献レビューに基づいて評価基準のセットを設計する。 第2に, 医学・工学の専門家5名によるdelphi法の使用について, 既存の候補基準を最適化した。 第3に、3人の臨床専門家がLSMと相互作用する医療データセットを設計する。 最後に、データセット上でベンチマーク実験を行う。 LLMに基づいてチャットボットが生成した応答は、5人の医療専門家による盲点評価のために記録される。 結果: 評価基準は, 医療専門家の能力, 社会的包括的能力, 文脈的能力, 計算的ロバスト性, 16項目の詳細な指標をカバーした。 医療データセットには、27の医療対話と7つのケースレポートが含まれている。 3つのチャットボット、openaiのchatgpt、baiduのernie bot、上海人工知能研究所のdr. pujiang(pj)が評価されている。 実験の結果,PJはマルチターン医療対話と事例報告のシナリオにおいて,ChatGPTとERNIEボットよりも優れていた。

METHODS: First, a set of evaluation criteria is designed based on a comprehensive literature review. Second, existing candidate criteria are optimized for using a Delphi method by five experts in medicine and engineering. Third, three clinical experts design a set of medical datasets to interact with LLMs. Finally, benchmarking experiments are conducted on the datasets. The responses generated by chatbots based on LLMs are recorded for blind evaluations by five licensed medical experts. RESULTS: The obtained evaluation criteria cover medical professional capabilities, social comprehensive capabilities, contextual capabilities, and computational robustness, with sixteen detailed indicators. The medical datasets include twenty-seven medical dialogues and seven case reports in Chinese. Three chatbots are evaluated, ChatGPT by OpenAI, ERNIE Bot by Baidu Inc., and Doctor PuJiang (Dr. PJ) by Shanghai Artificial Intelligence Laboratory. Experimental results show that Dr. PJ outperforms ChatGPT and ERNIE Bot in both multiple-turn medical dialogue and case report scenarios.
翻訳日:2023-05-15 13:39:07 公開日:2023-05-12
# MotionBEV:Bird's Eye View を用いた意識認識型オンラインLiDAR移動物体セグメンテーション

MotionBEV: Attention-Aware Online LiDAR Moving Object Segmentation with Bird's Eye View based Appearance and Motion Features ( http://arxiv.org/abs/2305.07336v1 )

ライセンス: Link先を確認
Bo Zhou, Jiapeng Xie, Yan Pan, Jiajie Wu, and Chuanzhao Lu(参考訳) 移動物体を特定することは自律システムにとって必須の機能であり、ポーズ推定、ナビゲーション、衝突回避、静的マップ構築のための重要な情報を提供する。 本稿では,鳥の視線(BEV)領域における移動物体の出現・運動特徴をセグメント化するLiDAR移動物体セグメンテーションの高速かつ高精度なフレームワークであるMotionBEVを提案する。 提案手法は,3次元LiDARスキャンを2次元極性BEV表現に変換し,リアルタイムな性能を実現する。 具体的には、極性BEV座標系における垂直列上に投影される点雲の連続的なフレームの高さ差によって、簡易なポイントネットを用いて外観特徴を学習する。 外観・運動協調モジュール (amcm) で橋渡しされたデュアルブランチネットワークを用いて, 時空間情報を出現・運動の特徴から順応的に分離する。 RTX 3090 GPU上での平均推定時間は23msであるSemanticKITTI-MOSベンチマークの最先端性能を実現する。 さらに,本手法の実用性を示すために,非繰り返し走査パターンと小さな視野を特徴とする,固体ライダーで記録されたlidar-mosデータセットを提供する。

Identifying moving objects is an essential capability for autonomous systems, as it provides critical information for pose estimation, navigation, collision avoidance and static map construction. In this paper, we present MotionBEV, a fast and accurate framework for LiDAR moving object segmentation, which segments moving objects with appearance and motion features in bird's eye view (BEV) domain. Our approach converts 3D LiDAR scans into 2D polar BEV representation to achieve real-time performance. Specifically, we learn appearance features with a simplified PointNet, and compute motion features through the height differences of consecutive frames of point clouds projected onto vertical columns in the polar BEV coordinate system. We employ a dual-branch network bridged by the Appearance-Motion Co-attention Module (AMCM) to adaptively fuse the spatio-temporal information from appearance and motion features. Our approach achieves state-of-the-art performance on the SemanticKITTI-MOS benchmark, with an average inference time of 23ms on an RTX 3090 GPU. Furthermore, to demonstrate the practical effectiveness of our method, we provide a LiDAR-MOS dataset recorded by a solid-state LiDAR, which features non-repetitive scanning patterns and small field of view.
翻訳日:2023-05-15 13:38:50 公開日:2023-05-12
# ロックとクイック:ログプールと重ね合わせによるベイズモデルの積み重ね予測

Locking and Quacking: Stacking Bayesian model predictions by log-pooling and superposition ( http://arxiv.org/abs/2305.07334v1 )

ライセンス: Link先を確認
Yuling Yao, Luiz Max Carvalho, Diego Mesquita, Yann McLatchie(参考訳) 異なるモデルからの予測を組み合わせることは、ベイズ推論と機械学習においてより広範な問題である。 現在、これらの予測分布は、ほとんどがベイズモデル平均化、ベイズ積み重ね、専門家の混合のような線形混合体を用いている。 このような線形混合は、多重モダリティのようないくつかのアプリケーションでは望ましくない慣用的条件を課す。 代替戦略(幾何学的ブリッジや重ね合わせなど)はあるが、パラメータの最適化は通常、難解な正規化定数の計算を繰り返す。 我々は2つの新しいベイズモデル組み合わせツールを提案する。 これらはモデル積み重ねの一般化であるが、対数線形プール(ロック)と量子重ね合わせ(クェック)によって後続密度を結合する。 正規化定数の負担を回避しつつ,モデルの重み付けを最適化するために,複合後続予測のヒヴァリネンスコアを調査した。 実例でロックを実演し,その実践的応用を重要サンプリングで論じる。

Combining predictions from different models is a central problem in Bayesian inference and machine learning more broadly. Currently, these predictive distributions are almost exclusively combined using linear mixtures such as Bayesian model averaging, Bayesian stacking, and mixture of experts. Such linear mixtures impose idiosyncrasies that might be undesirable for some applications, such as multi-modality. While there exist alternative strategies (e.g. geometric bridge or superposition), optimising their parameters usually involves computing an intractable normalising constant repeatedly. We present two novel Bayesian model combination tools. These are generalisations of model stacking, but combine posterior densities by log-linear pooling (locking) and quantum superposition (quacking). To optimise model weights while avoiding the burden of normalising constants, we investigate the Hyvarinen score of the combined posterior predictions. We demonstrate locking with an illustrative example and discuss its practical application with importance sampling.
翻訳日:2023-05-15 13:38:26 公開日:2023-05-12
# フレキシブルビデオ異常検出のための空間時空間階層解析

Configurable Spatial-Temporal Hierarchical Analysis for Flexible Video Anomaly Detection ( http://arxiv.org/abs/2305.07328v1 )

ライセンス: Link先を確認
Kai Cheng, Xinhua Zeng, Yang Liu, Tian Wang, Chengxin Pang, Jing Teng, Zhaoyang Xia, and Jing Liu(参考訳) ビデオ異常検出(VAD)は、産業監視、セキュリティシステム、交通制御において非常に実践的な課題である。 異なる検出要求を考慮せずに正規性を学習するための固定構造を採用する従来の教師なしVAD手法とは異なり、異なる異常度を柔軟に検出する構成可能なアーキテクチャとして時空間階層アーキテクチャ(STHA)を設計する。 STHAの包括的な構造は、以下の階層(ストリームレベル、スタックレベル、ブロックレベル)を含む三部構造階層に分類される。 具体的には、通常のパターンを抽出するための様々な容量を持つオートエンコーダベースのブロックを設計する。 そして、スタック内およびスタック間残差リンクの複雑さ度に応じてブロックを積み重ね、階層的正規性を徐々に学習する。 ビデオのマルチソース知識を考慮し、スタックからなる2つの並列ストリームを設計することにより、ビデオフレームの空間的正規性とRGB差の時間的正規性をモデル化する。 これにより、STHAは階層的に拡張または縮小することで様々な表現学習能力を提供し、異なる次数の異常を検出することができる。 異常セットは複雑で無拘束であるため、STHAは人間の検出要求に適応する検出能力と、シーンの歴史の中で発生した異常の複雑さの度合いを調整することができる。 3つのベンチマークで実験を行い,広範な解析を行い,本手法が最先端手法に匹敵する性能を示す。 さらに,異なる検出要求に適応する学習能力のバランスが向上することを示すために,おもちゃのデータセットを設計する。

Video anomaly detection (VAD) is a vital task with great practical applications in industrial surveillance, security system, and traffic control. Unlike previous unsupervised VAD methods that adopt a fixed structure to learn normality without considering different detection demands, we design a spatial-temporal hierarchical architecture (STHA) as a configurable architecture to flexibly detect different degrees of anomaly. The comprehensive structure of the STHA is delineated into a tripartite hierarchy, encompassing the following tiers: the stream level, the stack level, and the block level. Specifically, we design several auto-encoder-based blocks that possess varying capacities for extracting normal patterns. Then, we stack blocks according to the complexity degrees with both intra-stack and inter-stack residual links to learn hierarchical normality gradually. Considering the multisource knowledge of videos, we also model the spatial normality of video frames and temporal normality of RGB difference by designing two parallel streams consisting of stacks. Thus, STHA can provide various representation learning abilities by expanding or contracting hierarchically to detect anomalies of different degrees. Since the anomaly set is complicated and unbounded, our STHA can adjust its detection ability to adapt to the human detection demands and the complexity degree of anomaly that happened in the history of a scene. We conduct experiments on three benchmarks and perform extensive analysis, and the results demonstrate that our method performs comparablely to the state-of-the-art methods. In addition, we design a toy dataset to prove that our model can better balance the learning ability to adapt to different detection demands.
翻訳日:2023-05-15 13:38:08 公開日:2023-05-12
# lindbladの非平衡エントロピーの展望

A perspective on Lindblad's Non-Equilibrium Entropy ( http://arxiv.org/abs/2305.07326v1 )

ライセンス: Link先を確認
Erik Aurell and Ryoichi Kawai(参考訳) G\"oran Lindblad"は1983年に非平衡熱力学に関するモノグラフを出版した。 本稿では,本書の内容を要約し,統計物理学と量子物理学の今後の展開との関連について考察する。 私たちは2つの面を照らします。 1つ目は、全てのユニタリは原則として許容できるが、異なる理論は実世界でどのユニタリ進化が実現されるかという制限から生じるという考えである。 第二に、lindbladによる熱力学的エントロピー(情報理論エントロピーとは対照的に)の提案は、いくつかの分野における現在の研究の焦点である最適な量子輸送に関するより最近の研究を予見している。

G\"oran Lindblad in 1983 published a monograph on non-equilibrium thermodynamics. We here summarize the contents of this book, and provide a perspective on its relation to later developments in statistical physics and quantum physics. We high-light two aspects. The first is the idea that while all unitaries can be allowed in principle, different theories result from limiting which unitary evolutions are realized in the real world. The second is that Lindblad's proposal for thermodynamic entropy (as opposed to information-theoretic entropy) foreshadows much more recent investigations into optimal quantum transport which is a current research focus in several fields.
翻訳日:2023-05-15 13:37:44 公開日:2023-05-12
# 量子アルゴリズムの最適化問題に対する実践者ガイド

A Practitioner's Guide to Quantum Algorithms for Optimisation Problems ( http://arxiv.org/abs/2305.07323v1 )

ライセンス: Link先を確認
Benjamin C. B. Symons, David Galvin, Emre Sahin, Vassil Alexandrov, Stefano Mensa(参考訳) 量子コンピューティングは、古典的コンピュータでは難解と見なされる長年の計算問題を解決する可能性から、幅広い科学分野で人気を集めている。 量子コンピューティングが潜在する有望な分野の1つは、物流や金融といった産業分野でよく見られるNPハード最適化問題のスピードアップである。 量子コンピューティングの分野への新参者は、この技術を使って最適化問題を解決することに興味があるが、量子コンピュータやアルゴリズムの現在の能力に関する情報の入手が容易ではない。 本稿では,量子最適化技術の理論の包括的概要と,その実用的応用をめざして,雑音中規模量子デバイスへの短期的可能性について述べる。 量子ハードウェアの主なパラダイムは、量子アニールとゲートベースの量子コンピューティングである。 量子アニールはいくつかの最適化問題に有効であるが、制限があり、普遍的な量子計算には使用できない。 対照的に、ゲートベースの量子コンピュータは普遍的な量子計算の可能性を提供するが、ハードウェアの限界と正確なゲート実装の課題に直面している。 この論文は、この分野の主要な作品に関する詳細な数学的議論と、関連する例とのより実用的な議論を提供する。 ゲート型量子コンピュータにおける量子最適化の最も一般的な手法である量子近似最適化 (qao) アルゴリズムと量子交代演算子 ansatz (qaoa) フレームワークについて詳細に論じる。 この論文は、量子最適化技術に直面する課題と、量子優位性を達成するための新しい効果的な方法を特定するためのさらなる研究と開発の必要性を議論して締めくくっている。

Quantum computing is gaining popularity across a wide range of scientific disciplines due to its potential to solve long-standing computational problems that are considered intractable with classical computers. One promising area where quantum computing has potential is in the speed-up of NP-hard optimisation problems that are common in industrial areas such as logistics and finance. Newcomers to the field of quantum computing who are interested in using this technology to solve optimisation problems do not have an easily accessible source of information on the current capabilities of quantum computers and algorithms. This paper aims to provide a comprehensive overview of the theory of quantum optimisation techniques and their practical application, focusing on their near-term potential for noisy intermediate scale quantum devices. Two main paradigms for quantum hardware are then discussed: quantum annealing and gate-based quantum computing. While quantum annealers are effective for some optimisation problems, they have limitations and cannot be used for universal quantum computation. In contrast, gate-based quantum computers offer the potential for universal quantum computation, but they face challenges with hardware limitations and accurate gate implementation. The paper provides a detailed mathematical discussion with references to key works in the field, as well as a more practical discussion with relevant examples. The most popular techniques for quantum optimisation on gate-based quantum computers, the quantum approximate optimisation (QAO) algorithm and the quantum alternating operator ansatz (QAOA) framework, are discussed in detail. The paper concludes with a discussion of the challenges facing quantum optimisation techniques and the need for further research and development to identify new, effective methods for achieving quantum advantage.
翻訳日:2023-05-15 13:37:34 公開日:2023-05-12
# ActUp: tSNE と UMAP の分析と統合

ActUp: Analyzing and Consolidating tSNE and UMAP ( http://arxiv.org/abs/2305.07320v1 )

ライセンス: Link先を確認
Andrew Draganov, Jakob R{\o}dsgaard J{\o}rgensen, Katrine Scheel Nellemann, Davide Mottin, Ira Assent, Tyrus Berry, Cigdem Aslay(参考訳) tSNEとUMAPは、その速度と解釈可能な低次元埋め込みのため、一般的な次元削減アルゴリズムである。 しかし、その人気にもかかわらず、その大きな違いを研究するための研究はほとんど行われていない。 tsne と umap のパラメータ空間を理論的に実験的に評価し、1つのパラメータ -- 正規化 -- がそれらの切り替えの責任を負っていることを観察する。 これは、アルゴリズム上の差異の大部分を、埋め込みに影響を与えることなくトグルできることを意味する。 UMAPの背後にあるいくつかの理論的主張と既存のtSNE解釈との整合性について論じる。 そこで本研究では,tsne と umap の従来と互換性のない手法を組み合わせた手法 (\ourmethod) を提案し,両アルゴリズムの結果を再現する手法を提案する。 これにより, いずれの手法の出力も, UMAPよりも高速に得られる加速度など, さらなる改善が図られる。 従来のライブラリと完全にプラグイン&プレイ可能な tSNE, UMAP, \ourmethod のバージョンを https://github.com/Andrew-Draganov/GiDR-DUN でリリースしています。

tSNE and UMAP are popular dimensionality reduction algorithms due to their speed and interpretable low-dimensional embeddings. Despite their popularity, however, little work has been done to study their full span of differences. We theoretically and experimentally evaluate the space of parameters in both tSNE and UMAP and observe that a single one -- the normalization -- is responsible for switching between them. This, in turn, implies that a majority of the algorithmic differences can be toggled without affecting the embeddings. We discuss the implications this has on several theoretic claims behind UMAP, as well as how to reconcile them with existing tSNE interpretations. Based on our analysis, we provide a method (\ourmethod) that combines previously incompatible techniques from tSNE and UMAP and can replicate the results of either algorithm. This allows our method to incorporate further improvements, such as an acceleration that obtains either method's outputs faster than UMAP. We release improved versions of tSNE, UMAP, and \ourmethod that are fully plug-and-play with the traditional libraries at https://github.com/Andrew-Draganov/GiDR-DUN
翻訳日:2023-05-15 13:37:08 公開日:2023-05-12
# 離散幾何学空間におけるロバストクラスタリングのパラメータ近似

Parameterized Approximation for Robust Clustering in Discrete Geometric Spaces ( http://arxiv.org/abs/2305.07316v1 )

ライセンス: Link先を確認
Fateme Abbasi, Sandip Banerjee, Jaros{\l}aw Byrka, Parinya Chalermsook, Ameet Gadekar, Kamyar Khodamoradi, D\'aniel Marx, Roohani Sharma, and Joachim Spoerhase(参考訳) 我々は、古典的な$k$-Median, $k$-Means, $k$-Center問題を一般化する、よく研究されたRobust $(k, z)$-Clustering問題を考える。 定数 $z\ge 1$ が与えられたとき、Robust $(k, z)$-Clustering への入力は、計量空間 $(M,\delta)$ における集合 $P$ of $n$ 重み付き点と正の整数 $k$ である。 さらに、各点は、多くの異なる群$S_1,S_2,\ldots,S_m$の1つ(またはそれ以上)に属する。 我々の目標は、$\max_{i \in [m]} \sum_{p \in s_i} w(p) \delta(p,x)^z$ が最小となるような、$k$ 中心のセット x$ を見つけることである。 この問題はロバスト最適化の領域(Anthony, Goyal, Gupta, Nagarajan, Math. Oper. Res. 2010)とアルゴリズムフェアネスの領域で発生する。 多項式時間計算の場合、$O(\log m/\log\log)の近似係数 m)$は[Makarychev, Vakilian, COLT 2021$]として知られています。 FPT時間には$(3^z+\epsilon)$-approximationアルゴリズムがあり、GAP-ETH(Goyal, Jaiswal, Inf. Proc. Letters, 2023)の下で厳密である。 一般的な離散的測度に対する厳密な下界によって動機付けられ、(離散的な)高次元ユークリッドの設定や低倍次元の測度など、データ解析の応用において重要な役割を担っている。 まず、普遍定数 $\eta_0 >0.0006$ に対して、離散高次元ユークリッド空間に対する3^z(1-\eta_{0})$-factor FPT近似アルゴリズムを考案し、一般計量に対する下界をバイパスする。 この結果を補うために、次元 $\theta(\log) における $k$-center の特別な場合でさえも n)$ は fpt アルゴリズムに対して近似するために $(\sqrt{3/2}- o(1))$-hard である。 最後に, 部分対数二重化次元の計量に対する fpt $(1+\epsilon)$-approximation scheme (epas) を設計することにより, fpt近似のランドスケープを完成させる。

We consider the well-studied Robust $(k, z)$-Clustering problem, which generalizes the classic $k$-Median, $k$-Means, and $k$-Center problems. Given a constant $z\ge 1$, the input to Robust $(k, z)$-Clustering is a set $P$ of $n$ weighted points in a metric space $(M,\delta)$ and a positive integer $k$. Further, each point belongs to one (or more) of the $m$ many different groups $S_1,S_2,\ldots,S_m$. Our goal is to find a set $X$ of $k$ centers such that $\max_{i \in [m]} \sum_{p \in S_i} w(p) \delta(p,X)^z$ is minimized. This problem arises in the domains of robust optimization [Anthony, Goyal, Gupta, Nagarajan, Math. Oper. Res. 2010] and in algorithmic fairness. For polynomial time computation, an approximation factor of $O(\log m/\log\log m)$ is known [Makarychev, Vakilian, COLT $2021$], which is tight under a plausible complexity assumption even in the line metrics. For FPT time, there is a $(3^z+\epsilon)$-approximation algorithm, which is tight under GAP-ETH [Goyal, Jaiswal, Inf. Proc. Letters, 2023]. Motivated by the tight lower bounds for general discrete metrics, we focus on \emph{geometric} spaces such as the (discrete) high-dimensional Euclidean setting and metrics of low doubling dimension, which play an important role in data analysis applications. First, for a universal constant $\eta_0 >0.0006$, we devise a $3^z(1-\eta_{0})$-factor FPT approximation algorithm for discrete high-dimensional Euclidean spaces thereby bypassing the lower bound for general metrics. We complement this result by showing that even the special case of $k$-Center in dimension $\Theta(\log n)$ is $(\sqrt{3/2}- o(1))$-hard to approximate for FPT algorithms. Finally, we complete the FPT approximation landscape by designing an FPT $(1+\epsilon)$-approximation scheme (EPAS) for the metric of sub-logarithmic doubling dimension.
翻訳日:2023-05-15 13:36:46 公開日:2023-05-12
# 無線ネットワーク上の分散学習 : ランダムアクセスによる放送の効果

Decentralized Learning over Wireless Networks: The Effect of Broadcast with Random Access ( http://arxiv.org/abs/2305.07368v1 )

ライセンス: Link先を確認
Zheng Chen, Martin Dahl, and Erik G. Larsson(参考訳) 本研究では、分散データ上での分散確率勾配勾配(D-SGD)を用いて、共有機械学習モデルを訓練する複数のエージェントを含む分散学習のコミュニケーション側面に焦点を当てる。 特に,無線チャネルの放送特性と通信トポロジーにおけるリンクダイナミクスを考慮して,d-sgdの収束性能に及ぼすブロードキャスト伝送と確率的ランダムアクセスポリシーの影響について検討した。 その結果,成功リンク数を最大化するためにアクセス確率を最適化することは,システム収束を加速するための非常に効果的な戦略であることがわかった。

In this work, we focus on the communication aspect of decentralized learning, which involves multiple agents training a shared machine learning model using decentralized stochastic gradient descent (D-SGD) over distributed data. In particular, we investigate the impact of broadcast transmission and probabilistic random access policy on the convergence performance of D-SGD, considering the broadcast nature of wireless channels and the link dynamics in the communication topology. Our results demonstrate that optimizing the access probability to maximize the expected number of successful links is a highly effective strategy for accelerating the system convergence.
翻訳日:2023-05-15 13:30:44 公開日:2023-05-12
# S-ReINFORCE: 解釈型強化学習のための神経・シンボリック政策勾配アプローチ

S-REINFORCE: A Neuro-Symbolic Policy Gradient Approach for Interpretable Reinforcement Learning ( http://arxiv.org/abs/2305.07367v1 )

ライセンス: Link先を確認
Rajdeep Dutta, Qincheng Wang, Ankur Singh, Dhruv Kumarjiguda, Li Xiaoli, Senthilnath Jayavelu(参考訳) 本稿では,動的意思決定タスクの解釈可能なポリシを生成するための新しいRLアルゴリズムであるS-REINFORCEを提案する。 提案アルゴリズムは,ニューラルネットワーク (NN) とシンボル回帰器 (SR) の2種類の関数近似器を用いて,それぞれ数値とシンボルのポリシーを生成する。 NNコンポーネントは、ポリシー勾配を用いて可能な動作に関する数値確率分布を生成することを学習し、SRコンポーネントは、関連する状態とアクション確率を関連付ける機能形式をキャプチャする。 SR生成ポリシー表現は、重要サンプリングを通じて利用され、学習プロセス中に得られる報酬を改善する。 我々は,S-REINFORCEアルゴリズムを低次元および高次元の動作空間における様々な動的決定問題に対して検証し,その解の有効性と効果を実証した。 S-REINFORCE は NN と SR の長所を活用することで,優れた性能を持つだけでなく解釈も容易なポリシを生成し,透明性と因果性が不可欠である実世界のアプリケーションにとって理想的な選択肢である。

This paper presents a novel RL algorithm, S-REINFORCE, which is designed to generate interpretable policies for dynamic decision-making tasks. The proposed algorithm leverages two types of function approximators, namely Neural Network (NN) and Symbolic Regressor (SR), to produce numerical and symbolic policies, respectively. The NN component learns to generate a numerical probability distribution over the possible actions using a policy gradient, while the SR component captures the functional form that relates the associated states with the action probabilities. The SR-generated policy expressions are then utilized through importance sampling to improve the rewards received during the learning process. We have tested the proposed S-REINFORCE algorithm on various dynamic decision-making problems with low and high dimensional action spaces, and the results demonstrate its effectiveness and impact in achieving interpretable solutions. By leveraging the strengths of both NN and SR, S-REINFORCE produces policies that are not only well-performing but also easy to interpret, making it an ideal choice for real-world applications where transparency and causality are crucial.
翻訳日:2023-05-15 13:30:33 公開日:2023-05-12
# 規範的マルチエージェントシステムにおける多値アライメント:進化的最適化アプローチ

Multi-Value Alignment in Normative Multi-Agent System: Evolutionary Optimisation Approach ( http://arxiv.org/abs/2305.07366v1 )

ライセンス: Link先を確認
Maha Riad, Vinicius Renan de Carvalho and Fatemeh Golpayegani(参考訳) 規範的マルチエージェントシステムにおけるバリューアライメントは、特定の価値を促進し、人間の価値を持つ自律的インテリジェントシステムにおけるエージェントの一貫性のある振る舞いを保証するために使用される。 しかし、現在の文献は、エージェントの不均一性や複数の値の同時進行とアライメントの要件を考慮せずに、単一値アライメントの効果的な規範を組み込むことに限られている。 本研究では、多目的進化アルゴリズムを用いて、異種エージェントとシステムの複数同時値に整合した最適パラメトリックなノルムセットを生成する多値促進モデルを提案する。 この複雑な問題の様々な側面を理解するために、2と5の値を持つ2つのおもちゃ税シナリオを考慮して最適化された規範パラメータのセットを見つけるために、いくつかの進化的アルゴリズムが用いられた。 結果は異なる視点から分析され、選択された進化アルゴリズムが解に与える影響と、それらの優先順位付け時の値間の関係を理解することの重要性を示す。

Value-alignment in normative multi-agent systems is used to promote a certain value and to ensure the consistent behavior of agents in autonomous intelligent systems with human values. However, the current literature is limited to incorporation of effective norms for single value alignment with no consideration of agents' heterogeneity and the requirement of simultaneous promotion and alignment of multiple values. This research proposes a multi-value promotion model that uses multi-objective evolutionary algorithms to produce the optimum parametric set of norms that is aligned with multiple simultaneous values of heterogeneous agents and the system. To understand various aspects of this complex problem, several evolutionary algorithms were used to find a set of optimised norm parameters considering two toy tax scenarios with two and five values are considered. The results are analysed from different perspectives to show the impact of a selected evolutionary algorithm on the solution, and the importance of understanding the relation between values when prioritising them.
翻訳日:2023-05-15 13:30:11 公開日:2023-05-12
# デヴァナガリからペルソ・アラビアへのシンディー文字の音訳に向けて

Towards Transliteration between Sindhi Scripts from Devanagari to Perso-Arabic ( http://arxiv.org/abs/2305.07365v1 )

ライセンス: Link先を確認
Shivani Singh Rathore, Bharti Nathani, Nisheeth Joshi, Pragya Katyayan, Chander Prakash Dadlani(参考訳) 本稿では,デバナガリ文字のシンディー文字をペルソ・アラビア文字に変換するスクリプト変換(文字変換)手法について述べる。 そこで本研究では,テキストの一部が規則ベースで変換され,曖昧性が生じた場合,確率モデルを用いてそれを解決する手法を提案する。 このアプローチにより、システム全体の精度は99.64%となった。

In this paper, we have shown a script conversion (transliteration) technique that converts Sindhi text in the Devanagari script to the Perso-Arabic script. We showed this by incorporating a hybrid approach where some part of the text is converted using a rule base and in case an ambiguity arises then a probabilistic model is used to resolve the same. Using this approach, the system achieved an overall accuracy of 99.64%.
翻訳日:2023-05-15 13:29:54 公開日:2023-05-12
# ネームエンティティの適切な翻訳によるニューラルマシン翻訳の品質向上

Improving the Quality of Neural Machine Translation Through Proper Translation of Name Entities ( http://arxiv.org/abs/2305.07360v1 )

ライセンス: Link先を確認
Radhika Sharma, Pragya Katyayan, Nisheeth Joshi(参考訳) 本稿では,前処理ステップとして名前エンティティを翻訳・翻訳することで,ニューラルネットワーク翻訳の品質を向上させる方法を示す。 実験により,システムの性能向上を示すことができた。 評価のために,vizの人物名,地名,組織名は3種類検討した。 システムは、ほとんどの名前のエンティティを正しく翻訳することができた。 人物名では99.86%、地名では99.63%、組織名では99.05%である。 システム全体の精度は99.52%でした

In this paper, we have shown a method of improving the quality of neural machine translation by translating/transliterating name entities as a preprocessing step. Through experiments we have shown the performance gain of our system. For evaluation we considered three types of name entities viz person names, location names and organization names. The system was able to correctly translate mostly all the name entities. For person names the accuracy was 99.86%, for location names the accuracy was 99.63% and for organization names the accuracy was 99.05%. Overall, the accuracy of the system was 99.52%
翻訳日:2023-05-15 13:29:47 公開日:2023-05-12
# クロスモーダルアダプタを用いた事前学習言語モデルへの汎用性と効率的な視覚知識注入

Towards Versatile and Efficient Visual Knowledge Injection into Pre-trained Language Models with Cross-Modal Adapters ( http://arxiv.org/abs/2305.07358v1 )

ライセンス: Link先を確認
Xinyun Zhang, Haochen Tan, Han Wu, Mingjie Zhan, Ding Liang, Bei Yu(参考訳) 人間はマルチモーダル知識を通じて言語を学ぶ。 しかし、テキストのみの事前学習方式のため、既存の事前学習言語モデル(PLM)のほとんどはマルチモーダル情報から妨げられている。 PLMに視覚的知識を注入するために、既存の手法では、視覚言語モデル(VLM)のテキストまたはイメージエンコーダを組み込んで視覚情報を符号化し、知識融合のためにPLMのオリジナルのパラメータをすべて更新する。 本稿では,事前学習したvlmで学習した視覚とテキストの知識を柔軟に活用し,plmに効率的に注入する新しいプラグアンドプレイモジュールであるx-adapterを提案する。 具体的には、PLMにX適応器を挿入し、追加パラメータのみを適応中に更新する。 VLMのポテンシャルをフル活用するために、X-アダプタはV-expertとT-expertの2つのサブモジュールから構成され、それぞれVLMの画像とテキスト表現を融合する。 下流のタスクによって異なるサブモジュールを活性化することも可能です。 実験の結果,plmベースラインと比較して,オブジェクトカラー推論と自然言語理解(nlu)タスクの性能が有意に向上することがわかった。

Humans learn language via multi-modal knowledge. However, due to the text-only pre-training scheme, most existing pre-trained language models (PLMs) are hindered from the multi-modal information. To inject visual knowledge into PLMs, existing methods incorporate either the text or image encoder of vision-language models (VLMs) to encode the visual information and update all the original parameters of PLMs for knowledge fusion. In this paper, we propose a new plug-and-play module, X-adapter, to flexibly leverage the aligned visual and textual knowledge learned in pre-trained VLMs and efficiently inject them into PLMs. Specifically, we insert X-adapters into PLMs, and only the added parameters are updated during adaptation. To fully exploit the potential in VLMs, X-adapters consist of two sub-modules, V-expert and T-expert, to fuse VLMs' image and text representations, respectively. We can opt for activating different sub-modules depending on the downstream tasks. Experimental results show that our method can significantly improve the performance on object-color reasoning and natural language understanding (NLU) tasks compared with PLM baselines.
翻訳日:2023-05-15 13:29:39 公開日:2023-05-12
# ZARA: 小型言語モデルのためのFew-Shot Self-Rationalizationの改善

ZARA: Improving Few-Shot Self-Rationalization for Small Language Models ( http://arxiv.org/abs/2305.07355v1 )

ライセンス: Link先を確認
Wei-Lin Chen, An-Zi Yen, Hen-Hsen Huang, Cheng-Kuang Wu, Hsin-Hsi Chen(参考訳) エンドタスクの回答と自由テキストの有理性を生成する言語モデル(LM)は、自己有理化モデルとして知られている。 近年の成果は, 有理拡張例によるLMの自己合理化による性能向上を示すものである。 しかし、説明の恩恵を受ける能力は、アクセシビリティの低い大規模LMでのみ現れる。 そこで本研究では,少人数の自己分類を改善するために,小人数のLMに対する説明の活用という,研究の少ない設定について検討する。 まず、理性と答えの関係を再考する。 人間が説明をどう評価するかという暗黙の精神的プロセスに触発されて、我々は、自己学習のための擬似並列データを自動的に構築するZARA(Zero-shot Augmentation of Rationale-Answer pairs)を提案する。 実験結果から,ZARAはタスク精度と説明基準の両方において,FEBベンチマーク上でSOTA性能を達成できた。 さらに,推定可能かつ正確な合理化・解答ペアを自動的に識別するzaraの能力を検証する,人間的かつ定量的な評価を行う。

Language models (LMs) that jointly generate end-task answers as well as free-text rationales are known as self-rationalization models. Recent works demonstrate great performance gain for self-rationalization by few-shot prompting LMs with rationale-augmented exemplars. However, the ability to benefit from explanations only emerges with large-scale LMs, which have poor accessibility. In this work, we explore the less-studied setting of leveraging explanations for small LMs to improve few-shot self-rationalization. We first revisit the relationship between rationales and answers. Inspired by the implicit mental process of how human beings assess explanations, we present a novel approach, Zero-shot Augmentation of Rationale-Answer pairs (ZARA), to automatically construct pseudo-parallel data for self-training by reducing the problem of plausibility judgement to natural language inference. Experimental results show ZARA achieves SOTA performance on the FEB benchmark, for both the task accuracy and the explanation metric. In addition, we conduct human and quantitative evaluation validating ZARA's ability to automatically identify plausible and accurate rationale-answer pairs.
翻訳日:2023-05-15 13:29:16 公開日:2023-05-12
# ソーシャルメディア上での協調的不正確な行動の検出--概念の証明

Detecting Coordinated Inauthentic Behavior in Likes on Social Media: Proof of Concept ( http://arxiv.org/abs/2305.07350v1 )

ライセンス: Link先を確認
Laura Jahn, Rasmus K. Rendsvig, Jacob St{\ae}rk-{\O}stergaard(参考訳) 協調的不正確な行動は、例えば*likes*または同様の反応を通じて、体系的なエンゲージメントを用いてトピックを上昇または抑制することによって、世論を形作るソーシャルメディアのツールとして使用される。 正直な世界では、何に注意を向けるかを選択するとき、リアクションはユーザに情報を提供するかもしれない: 群衆の知恵を通じて、要約リアクションは、関連性の高い高品質なコンテンツを特定するのに役立つかもしれない。 これは、調整された慣性好きによって無効化される。 したがって、知恵を回復するためには、知恵的なエージェントを賢者の集団から切り離して、ポストの関連性に基づいて投票用*判断用*として使うことが望ましい。 この目的のために、エージェントを不正に分類する2つの*判断手順*(JSPs)を設計する。 マシンラーニングのテクニックを使用すると、どちらもバイナリ投票データ(Gaussian Mixture Model(GMM JSP)とk-meansアルゴリズム(KM JSP)、ロジスティック回帰によるラベルエージェントを使用する)をクラスタ化する。 我々はエージェントベースモデルを用いて陪審選考手続きを評価し,GMM JSPがより多くの不正なエージェントを検知することを示した。 この概念実証は、オンライン誤報との戦いにおける直接のユースケースを通じて、ソーシャルメディアプラットフォームから反応データを公開するための議論を提供する。

Coordinated inauthentic behavior is used as a tool on social media to shape public opinion by elevating or suppressing topics using systematic engagements -- e.g. through *likes* or similar reactions. In an honest world, reactions may be informative to users when selecting on what to spend their attention: through the wisdom of crowds, summed reactions may help identifying relevant and high-quality content. This is nullified by coordinated inauthentic liking. To restore wisdom-of-crowds effects, it is therefore desirable to separate the inauthentic agents from the wise crowd, and use only the latter as a voting *jury* on the relevance of a post. To this end, we design two *jury selection procedures* (JSPs) that discard agents classified as inauthentic. Using machine learning techniques, both cluster on binary vote data -- one using a Gaussian Mixture Model (GMM JSP), one the k-means algorithm (KM JSP) -- and label agents by logistic regression. We evaluate the jury selection procedures with an agent-based model, and show that the GMM JSP detects more inauthentic agents, but both JSPs select juries with vastly increased correctness of vote by majority. This proof of concept provides an argument for the release of reactions data from social media platforms through a direct use-case in the fight against online misinformation.
翻訳日:2023-05-15 13:28:41 公開日:2023-05-12
# 深層学習に基づく単分子宇宙空間の推定に関する調査:現状,限界,展望

A Survey on Deep Learning-Based Monocular Spacecraft Pose Estimation: Current State, Limitations and Prospects ( http://arxiv.org/abs/2305.07348v1 )

ライセンス: Link先を確認
Leo Pauly, Wassim Rharbaoui, Carl Shneider, Arunkumar Rathinam, Vincent Gaudilliere, Djamila Aouada(参考訳) 非協力的な宇宙船の姿勢を推定することは、軌道上への自動ビジョンベースのシステムの導入を可能にする重要なコンピュータビジョンの問題である。 コンピュータビジョンの一般的な傾向に続き、この問題を解決するためにディープラーニング(DL)手法を活用する研究がますます増えている。 しかし、有望な研究段階の結果にもかかわらず、そのような方法が現実のミッションで使われるのを防ぐ大きな課題が今も残っている。 特に、そのような計算集約アルゴリズムの展開はまだ検討されていないが、実際の画像の合成とテストのトレーニングではパフォーマンスが低下している。 本調査の主な目的は、現在のDLベースの宇宙船のポーズ推定手法を包括的に記述することである。 第二の目標は、信頼性の高い自律視覚ベースのアプリケーションに対して、DLベースの宇宙船の効果的な配置に対する制限を定義することである。 この目的のために、調査はまず、ハイブリッドなモジュラーパイプラインとエンドツーエンドの直接回帰メソッドという2つのアプローチに従って、既存のアルゴリズムをまとめる。 アルゴリズムの比較は、ポーズの精度だけでなく、ネットワークアーキテクチャやモデルのサイズにも焦点をあてることで、潜在的な展開を念頭に置いている。 次に、現在の単分子宇宙船がこれらの手法を訓練・試験するために使用する推定データセットについて述べる。 データ生成方法:シミュレータとテストベッド、ドメインギャップ、合成生成画像とラボ/スペース収集画像と潜在的なソリューション間のパフォーマンス低下についても論じる。 最後に、この分野におけるオープンな研究課題と今後の方向性を提示し、他のコンピュータビジョンアプリケーションと平行に描画する。

Estimating the pose of an uncooperative spacecraft is an important computer vision problem for enabling the deployment of automatic vision-based systems in orbit, with applications ranging from on-orbit servicing to space debris removal. Following the general trend in computer vision, more and more works have been focusing on leveraging Deep Learning (DL) methods to address this problem. However and despite promising research-stage results, major challenges preventing the use of such methods in real-life missions still stand in the way. In particular, the deployment of such computation-intensive algorithms is still under-investigated, while the performance drop when training on synthetic and testing on real images remains to mitigate. The primary goal of this survey is to describe the current DL-based methods for spacecraft pose estimation in a comprehensive manner. The secondary goal is to help define the limitations towards the effective deployment of DL-based spacecraft pose estimation solutions for reliable autonomous vision-based applications. To this end, the survey first summarises the existing algorithms according to two approaches: hybrid modular pipelines and direct end-to-end regression methods. A comparison of algorithms is presented not only in terms of pose accuracy but also with a focus on network architectures and models' sizes keeping potential deployment in mind. Then, current monocular spacecraft pose estimation datasets used to train and test these methods are discussed. The data generation methods: simulators and testbeds, the domain gap and the performance drop between synthetically generated and lab/space collected images and the potential solutions are also discussed. Finally, the paper presents open research questions and future directions in the field, drawing parallels with other computer vision applications.
翻訳日:2023-05-15 13:27:59 公開日:2023-05-12
# 相対的事実の一貫性について

On the consistency of relative facts ( http://arxiv.org/abs/2305.07343v1 )

ライセンス: Link先を確認
Eric G. Cavalcanti, Andrea Di Biagio, Carlo Rovelli(参考訳) ローレンスらは「相対的な事実は存在しない」ことを示し、従って「関係量子力学は量子力学とは相容れない」という議論を提示した。 この議論は、拡張されたウィグナーの友人シナリオにおける測定結果によって満足される制約間のGHZのような矛盾に基づいている。 ここでは議論の強化版を示し、ローレンスらの主張とは対照的に、これらの主張が相対的事実の理論の一貫性に矛盾しない理由を示す。 むしろ、この議論を考えることは、RQMのような相対的な事実の理論をどう考えるべきかを明確にする助けとなる。

Lawrence et al. have presented an argument purporting to show that ``relative facts do not exist'' and, consequently, ``Relational Quantum Mechanics is incompatible with quantum mechanics''. The argument is based on a GHZ-like contradiction between constraints satisfied by measurement outcomes in an extended Wigner's friend scenario. Here we present a strengthened version of the argument, and show why, contrary to the claim by Lawrence et al., these arguments do not contradict the consistency of a theory of relative facts. Rather, considering this argument helps clarify how one should not think about a theory of relative facts, like RQM.
翻訳日:2023-05-15 13:27:14 公開日:2023-05-12
# L2英語における音声変化に対する音声認識システムの感度の検討

Investigating the Sensitivity of Automatic Speech Recognition Systems to Phonetic Variation in L2 Englishes ( http://arxiv.org/abs/2305.07389v1 )

ライセンス: Link先を確認
Emma O'Neill and Julie Carson-Berndsen(参考訳) 自動音声認識(ASR)システムは、訓練された音声と類似した音声上での最高の性能を示す。 このように、地域方言、少数話者、低リソース言語などの表現の少ない品種は、"prestigious"、"mainstream"、"standard"と見られる品種よりもはるかに高い単語誤り率(WER)を示す。 これは、誤った自動転写のマニュアル修正は、手書きの書き起こしと同じくらい時間とリソースを消費できるため、大規模な言語研究のためのアノテーションプロセスにASR技術を組み込むことの障壁となる。 ASRシステムの振る舞いをより深く理解することは、音声技術の観点からも、ASR精度の向上の観点からも有益であり、アノテーションの観点からも、ASRシステムによる潜在的なエラーを知ることは、この手作業による修正に役立つ。 この研究は、複数のL2英語で音声変化を処理する方法を見つけるために、ASRシステムを探索する方法を示す。 具体的には、システムのトレーニングデータに稀あるいは欠落した特定の音素認識が、音素レベルの誤認識を引き起こし、より高いWERに寄与する可能性がある。 ASRの動作は、類似の話し言葉(この場合、L1)を持つ話者間で体系的に一貫性があり、音素置換誤差は典型的には人間のアノテーションと一致している。 問題のあるプロダクションを特定することで、トレーニングと微調整のためのそのような実現をソーシングすることで、特定の弱点に対処することができる。

Automatic Speech Recognition (ASR) systems exhibit the best performance on speech that is similar to that on which it was trained. As such, underrepresented varieties including regional dialects, minority-speakers, and low-resource languages, see much higher word error rates (WERs) than those varieties seen as 'prestigious', 'mainstream', or 'standard'. This can act as a barrier to incorporating ASR technology into the annotation process for large-scale linguistic research since the manual correction of the erroneous automated transcripts can be just as time and resource consuming as manual transcriptions. A deeper understanding of the behaviour of an ASR system is thus beneficial from a speech technology standpoint, in terms of improving ASR accuracy, and from an annotation standpoint, where knowing the likely errors made by an ASR system can aid in this manual correction. This work demonstrates a method of probing an ASR system to discover how it handles phonetic variation across a number of L2 Englishes. Specifically, how particular phonetic realisations which were rare or absent in the system's training data can lead to phoneme level misrecognitions and contribute to higher WERs. It is demonstrated that the behaviour of the ASR is systematic and consistent across speakers with similar spoken varieties (in this case the same L1) and phoneme substitution errors are typically in agreement with human annotators. By identifying problematic productions specific weaknesses can be addressed by sourcing such realisations for training and fine-tuning thus making the system more robust to pronunciation variation.
翻訳日:2023-05-15 13:19:55 公開日:2023-05-12
# 一段階二部グラフカット:正規化された定式化とスケーラブルな部分空間クラスタリングへの応用

One-step Bipartite Graph Cut: A Normalized Formulation and Its Application to Scalable Subspace Clustering ( http://arxiv.org/abs/2305.07386v1 )

ライセンス: Link先を確認
Si-Guo Fang, Dong Huang, Chang-Dong Wang, Jian-Huang Lai(参考訳) 2部グラフ構造は,大規模データセットのサブスペースクラスタリングとスペクトルクラスタリングアルゴリズムの容易化に有望な能力を示している。 二部グラフ分割中のk-平均による後処理を避けるために、制限されたラプラシア階数(CLR)は二部グラフ内の連結成分(すなわちクラスタ)の数を制限するためにしばしば使用されるが、これらの連結成分の分布(あるいは正規化)を無視し、不均衡や不規則なクラスターにつながる可能性がある。 一般グラフにおける正規化カット(Ncut)の顕著な成功にもかかわらず、特に線形時間複雑性のある二部グラフに対して一段階正規化カットを強制する方法は驚くほどオープンな問題である。 本稿では,まず,正規化制約のある新しい一段階二分グラフカット(obcut)基準を特徴付け,その等価性をトレース最大化問題に理論的に証明する。 次に、このカット基準をスケーラブルな部分空間クラスタリングアプローチに拡張し、適応型アンカー学習、二部グラフ学習、一段階正規化二部グラフ分割を統一目的関数で同時にモデル化し、線形時間で解くために交互最適化アルゴリズムを更に設計する。 様々な一般および大規模データセットの実験は、我々のアプローチの有効性とスケーラビリティを実証している。

The bipartite graph structure has shown its promising ability in facilitating the subspace clustering and spectral clustering algorithms for large-scale datasets. To avoid the post-processing via k-means during the bipartite graph partitioning, the constrained Laplacian rank (CLR) is often utilized for constraining the number of connected components (i.e., clusters) in the bipartite graph, which, however, neglects the distribution (or normalization) of these connected components and may lead to imbalanced or even ill clusters. Despite the significant success of normalized cut (Ncut) in general graphs, it remains surprisingly an open problem how to enforce a one-step normalized cut for bipartite graphs, especially with linear-time complexity. In this paper, we first characterize a novel one-step bipartite graph cut (OBCut) criterion with normalized constraints, and theoretically prove its equivalence to a trace maximization problem. Then we extend this cut criterion to a scalable subspace clustering approach, where adaptive anchor learning, bipartite graph learning, and one-step normalized bipartite graph partitioning are simultaneously modeled in a unified objective function, and an alternating optimization algorithm is further designed to solve it in linear time. Experiments on a variety of general and large-scale datasets demonstrate the effectiveness and scalability of our approach.
翻訳日:2023-05-15 13:19:26 公開日:2023-05-12
# d-wave 2000qの量子ビット特性とシミュレーション量子ビットネットワークの空間相関

Spatial correlations in the qubit properties of D-Wave 2000Q measured and simulated qubit networks ( http://arxiv.org/abs/2305.07385v1 )

ライセンス: Link先を確認
Jessica Park, Susan Stepney, Irene D'Amico(参考訳) D-Wave 2000Q量子アニールチップの量子ビットに強い正の空間相関を示す。 スピンネットワークのダイナミクスをシミュレートすることにより,ノード間の相関が多数の要因に影響されていることを示す。 ネットワーク内のキュービットの異なる接続性は、全てのキュービット-キュービット結合が等しい重み付けであっても、情報転送が簡単ではないことを意味する。 連結ノード間の類似性はさらに変化し、結合の強さは接続の物理的長さに応じてスケールされる(これは双極子-双極子相互作用をシミュレートする)。 これは、同じ量子ビットとチップ全体のカップリングの理想化されたモデルから量子システムのパフォーマンスを逸脱させる可能性のある、アーキテクチャ的特徴とプログラムされていないインタラクション/接続を理解することの重要性を強調している。

We show strong positive spatial correlations in the qubits of a D-Wave 2000Q quantum annealing chip that are connected to qubits outside their own unit cell. By simulating the dynamics of spin networks, we then show that correlation between nodes is affected by a number of factors. The different connectivity of qubits within the network means that information transfer is not straightforward even when all the qubit-qubit couplings have equal weighting. The similarity between connected nodes is further changed when the couplings' strength is scaled according to the physical length of the connections (here to simulate dipole-dipole interactions). This highlights the importance of understanding the architectural features and potentially unprogrammed interactions/connections that can divert the performance of a quantum system away from the idealised model of identical qubits and couplings across the chip.
翻訳日:2023-05-15 13:18:58 公開日:2023-05-12
# twitter likesデータにおける不正なコーディネーション検出に向けて

Towards Detecting Inauthentic Coordination in Twitter Likes Data ( http://arxiv.org/abs/2305.07384v1 )

ライセンス: Link先を確認
Laura Jahn and Rasmus K. Rendsvig(参考訳) ソーシャルメディアのフィードは通常、ユーザーのエンゲージメントに応じて投稿を好む。 最もユビキタスなタイプのエンゲージメント(そして私たちが調査したタイプ)は*likes*です。 ユーザは、品質と権威の中立的なプロキシとしてlikesのようなエンゲージメントメトリクスを、慣例的に受け取っています。 これは*コーディネートされた不真理な行動*(cib)を通じて世論に影響を与えるような操作にインセンティブを与えます。 likesをターゲットにしたcibは、ユーザーの好みに関する適切なデータを集めることは自明ではない。 本稿は,Twitterから適切な嗜好データを収集するスクリプトアルゴリズムと,デンマークの政治ツイッタースフィア#dkpolから収集した30日間のデータセットに寄与し,スクリプトのパフォーマンスを解析する。 ユーザのバイナリマトリックスと彼らが好んだつぶやきのみを使用して、完全に相関したユーザの大きなクラスタを特定し、cibに関する調査結果を議論します。

Social media feeds typically favor posts according to user engagement. The most ubiquitous type of engagement (and the type we study) is *likes*. Users customarily take engagement metrics such as likes as a neutral proxy for quality and authority. This incentivizes like manipulation to influence public opinion through *coordinated inauthentic behavior* (CIB). CIB targeted at likes is largely unstudied as collecting suitable data about users' liking behavior is non-trivial. This paper contributes a scripted algorithm to collect suitable liking data from Twitter and a collected 30 day dataset of liking data from the Danish political Twittersphere #dkpol, over which we analyze the script's performance. Using only the binary matrix of users and the tweets they liked, we identify large clusters of perfectly correlated users, and discuss our findings in relation to CIB.
翻訳日:2023-05-15 13:18:45 公開日:2023-05-12
# エネルギーギャップ評価のための資源効率のよい量子古典ハイブリッドアルゴリズム

A resource-efficient quantum-classical hybrid algorithm for energy gap evaluation ( http://arxiv.org/abs/2305.07382v1 )

ライセンス: Link先を確認
Yongdan Yang, Ying Li, Xiaosi Xu, Xiao Yuan(参考訳) ハミルトン h の固有値やエネルギーギャップの推定は、量子多体系の研究に不可欠である。 特に、量子化学、凝縮物質物理学、核物理学における多くの問題は、2つの固有状態の間のエネルギーギャップを研究する。 したがって、エネルギーギャップを効率的に解く方法は、新しい量子アルゴリズムを研究する上で重要な動機となる。 本研究では,モンテカルロ法と実時間ハミルトンシミュレーションを用いて,一般量子多体系のエネルギーギャップを評価するハイブリッドな非偏差量子アルゴリズムを提案する。 従来の手法と比較して,本アルゴリズムはリアルタイム進化の制御を必要とせず,実装を実験的にフレンドリにする。 我々のアルゴリズムは変分的ではないため、「不規則な高原」問題も含まない。 アルゴリズムの効率性を検証するため,古典的エミュレータ上でハイゼンベルクモデルと分子系の数値シミュレーションを行う。

Estimating the eigenvalue or energy gap of a Hamiltonian H is vital for studying quantum many-body systems. Particularly, many of the problems in quantum chemistry, condensed matter physics, and nuclear physics investigate the energy gap between two eigenstates. Hence, how to efficiently solve the energy gap becomes an important motive for researching new quantum algorithms. In this work, we propose a hybrid non-variational quantum algorithm that uses the Monte Carlo method and real-time Hamiltonian simulation to evaluate the energy gap of a general quantum many-body system. Compared to conventional approaches, our algorithm does not require controlled real-time evolution, thus making its implementation much more experimental-friendly. Since our algorithm is non-variational, it is also free from the "barren plateaus" problem. To verify the efficiency of our algorithm, we conduct numerical simulations for the Heisenberg model and molecule systems on a classical emulator.
翻訳日:2023-05-15 13:18:31 公開日:2023-05-12
# コントラスト入力復号を用いた大規模言語モデルにおける上位バイアス

Surfacing Biases in Large Language Models using Contrastive Input Decoding ( http://arxiv.org/abs/2305.07378v1 )

ライセンス: Link先を確認
Gal Yona, Or Honovich, Itay Laish, Roee Aharoni(参考訳) 大きな言語モデル(LM)が公平で堅牢で有用であることを保証するためには、入力に対する異なる変更がモデルの振る舞いに与える影響を理解する必要がある。 しかし、オープンテキスト生成タスクの文脈では、そのような評価は自明ではない。 例えば、入力テキストと摂動型(contrastive)のモデルを導入する場合、次の予測における意味的な違いは、標準のデコード戦略では明らかにされない。 このモチベーションを念頭に置いて,2つの入力が与えられたテキストを生成するデコードアルゴリズムであるコントラスト型入力復号 (cid) を提案する。 このようにして、対照的な世代は、シンプルで解釈可能な方法で2つの入力に対してLM出力がどのように異なるかという点において、潜在的に微妙な違いを強調することができる。 我々はCIDを用いて、標準的なデコード戦略で検出し難いコンテキスト固有のバイアスを強調し、異なる入力摂動の影響を定量化する。

Ensuring that large language models (LMs) are fair, robust and useful requires an understanding of how different modifications to their inputs impact the model's behaviour. In the context of open-text generation tasks, however, such an evaluation is not trivial. For example, when introducing a model with an input text and a perturbed, "contrastive" version of it, meaningful differences in the next-token predictions may not be revealed with standard decoding strategies. With this motivation in mind, we propose Contrastive Input Decoding (CID): a decoding algorithm to generate text given two inputs, where the generated text is likely given one input but unlikely given the other. In this way, the contrastive generations can highlight potentially subtle differences in how the LM output differs for the two inputs in a simple and interpretable manner. We use CID to highlight context-specific biases that are hard to detect with standard decoding strategies and quantify the effect of different input perturbations.
翻訳日:2023-05-15 13:18:18 公開日:2023-05-12
# DAISM:DNNトレーニングと推論のためのデジタル近似In-SRAM乗算器ベースの加速器

DAISM: Digital Approximate In-SRAM Multiplier-based Accelerator for DNN Training and Inference ( http://arxiv.org/abs/2305.07376v1 )

ライセンス: Link先を確認
Lorenzo Sonnino, Shaswot Shresthamali, Yuan He and Masaaki Kondo(参考訳) DNNは、最も広く使われているディープラーニングモデルの1つである。 DNNの行列乗算演算は計算コストが大きく、メモリと処理要素間のデータ移動によってボトルネックとなる。 多くの特別な加速器が行列乗算演算を最適化するために提案されている。 一般的なアイデアの1つは、メモリストレージ要素によって計算が行われる処理インメモリを使用することで、プロセッサとメモリ間のデータ移動のオーバーヘッドを低減できる。 しかし、ほとんどのPIMソリューションは、まだ成熟していない新しいメモリ技術か、パフォーマンス上のオーバーヘッドとスケーラビリティの問題のあるビットシリアル計算に依存している。 本研究では, GEMMをメモリ上で動作させるが, ビットシリアル計算の欠点を伴わない従来のSRAMのみを用いることで, 両世界を最大限に活用する。 これにより、ユーザは、ほとんど修正することなく、既存の技術を使用して、大幅なパフォーマンス向上を持つシステムを設計することができる。 我々はまず,SRAMにおける複数のワードラインアクティベーションを活用することで,ビットワイズOR演算と乗算を近似する新しいビット並列乗算器を設計する。 次に,新しい乗算器に基づいて,畳み込みニューラルネットワークの加速器であるデジタル近似インスラム乗算器アーキテクチャであるdaismを提案する。 これに続いて、領域、正確性、パフォーマンスのトレードオフを包括的に分析する。 同様の設計制約下では, DAISM はエネルギー消費量を 25 % 削減し, サイクル数を 43 % 削減する。

DNNs are one of the most widely used Deep Learning models. The matrix multiplication operations for DNNs incur significant computational costs and are bottlenecked by data movement between the memory and the processing elements. Many specialized accelerators have been proposed to optimize matrix multiplication operations. One popular idea is to use Processing-in-Memory where computations are performed by the memory storage element, thereby reducing the overhead of data movement between processor and memory. However, most PIM solutions rely either on novel memory technologies that have yet to mature or bit-serial computations which have significant performance overhead and scalability issues. In this work, an in-SRAM digital multiplier is proposed to take the best of both worlds, i.e. performing GEMM in memory but using only conventional SRAMs without the drawbacks of bit-serial computations. This allows the user to design systems with significant performance gains using existing technologies with little to no modifications. We first design a novel approximate bit-parallel multiplier that approximates multiplications with bitwise OR operations by leveraging multiple wordlines activation in the SRAM. We then propose DAISM - Digital Approximate In-SRAM Multiplier architecture, an accelerator for convolutional neural networks, based on our novel multiplier. This is followed by a comprehensive analysis of trade-offs in area, accuracy, and performance. We show that under similar design constraints, DAISM reduces energy consumption by 25\% and the number of cycles by 43\% compared to state-of-the-art baselines.
翻訳日:2023-05-15 13:18:00 公開日:2023-05-12
# ChatGPTは良い因果共振器か? 総合評価

Is ChatGPT a Good Causal Reasoner? A Comprehensive Evaluation ( http://arxiv.org/abs/2305.07375v1 )

ライセンス: Link先を確認
Jinglong Gao, Xiao Ding, Bing Qin, Ting Liu(参考訳) 因果推論能力は多くのNLPアプリケーションに不可欠である。 様々なNLPタスクにおけるChatGPTの顕著な出現能力にもかかわらず、ChatGPTが因果推論においてどの程度優れているかは明らかでない。 本稿では,chatgptの因果推論能力について,最初の包括的評価を行う。 実験の結果,ChatGPTは因果的推論に優れず,因果的解釈に優れていた。 加えて、ChatGPTは因果推論に深刻な幻覚を持っているが、それはおそらく、自然言語における因果関係と非因果関係のバイアスの報告と、RLHFのようなChatGPTのアップグレードプロセスによるものである。 In-Context Learning (ICL) と Chain-of-Though (COT) の技術は、このような因果幻覚をさらに悪化させる可能性がある。 さらに、ChatGPTの因果推論能力は、因果概念をプロンプトで表現するために使われる単語に敏感であり、クローズドプロンプトはオープンエンドプロンプトよりも優れている。 文中のイベントに対して、chatgptは暗黙の因果関係よりも明示的な因果関係を捉えるのに優れており、イベント密度が低く、イベント間の語彙距離が小さい文ではよりよく機能する。

Causal reasoning ability is crucial for numerous NLP applications. Despite the impressive emerging ability of ChatGPT in various NLP tasks, it is unclear how well ChatGPT performs in causal reasoning. In this paper, we conduct the first comprehensive evaluation of the ChatGPT's causal reasoning capabilities. Experiments show that ChatGPT is not a good causal reasoner, but a good causal interpreter. Besides, ChatGPT has a serious hallucination on causal reasoning, possibly due to the reporting biases between causal and non-causal relationships in natural language, as well as ChatGPT's upgrading processes, such as RLHF. The In-Context Learning (ICL) and Chain-of-Though (COT) techniques can further exacerbate such causal hallucination. Additionally, the causal reasoning ability of ChatGPT is sensitive to the words used to express the causal concept in prompts, and close-ended prompts perform better than open-ended prompts. For events in sentences, ChatGPT excels at capturing explicit causality rather than implicit causality, and performs better in sentences with lower event density and smaller lexical distance between events.
翻訳日:2023-05-15 13:17:37 公開日:2023-05-12
# 量子質問応答の品質向上における深い回路の影響

Implications of Deep Circuits in Improving Quality of Quantum Question Answering ( http://arxiv.org/abs/2305.07374v1 )

ライセンス: Link先を確認
Pragya Katyayan, Nisheeth Joshi(参考訳) 質問応答 (QA) は自然言語処理 (NLP) と人工知能 (AI) の分野において困難な課題であることが証明されている。 QAシステムのための完全なソリューションを開発し、またQAシステムの重要なサブモジュールを改善して、時間経過とともに全体的なパフォーマンスを改善するために、多くの試みがなされている。 質問はQAの最も重要な部分であり、質問を知ることは、答えとして数えられるものを知ることと等価である(Harrah in Philos Sci, 1961 [1])。 本研究では,量子機械学習(QML)を用いて質問をよりよく理解しようと試みている。 量子コンピューティング(QC)の特性は、古典的に難解なデータ処理を可能にした。 そこで本稿では,Python 用 Qiskit (Quantum Information Science ToolKIT) の量子ベース分類器アルゴリズム-量子支援ベクトルマシン (QSVM) と変分量子分類器 (VQC) を用いて,SelQA (Selection-based Question Answering) データセットから質問に対する質問分類を行った。 両分類器をほぼ類似した環境で分類し,回路深度の影響を両分類器の結果と比較しながら検討する。 また、これらの分類結果をルールベースのQAシステムで利用し、大幅な性能向上を観察する。 したがって、この実験はQAの質を全般的に向上させるのに役立っている。

Question Answering (QA) has proved to be an arduous challenge in the area of natural language processing (NLP) and artificial intelligence (AI). Many attempts have been made to develop complete solutions for QA as well as improving significant sub-modules of the QA systems to improve the overall performance through the course of time. Questions are the most important piece of QA, because knowing the question is equivalent to knowing what counts as an answer (Harrah in Philos Sci, 1961 [1]). In this work, we have attempted to understand questions in a better way by using Quantum Machine Learning (QML). The properties of Quantum Computing (QC) have enabled classically intractable data processing. So, in this paper, we have performed question classification on questions from two classes of SelQA (Selection-based Question Answering) dataset using quantum-based classifier algorithms-quantum support vector machine (QSVM) and variational quantum classifier (VQC) from Qiskit (Quantum Information Science toolKIT) for Python. We perform classification with both classifiers in almost similar environments and study the effects of circuit depths while comparing the results of both classifiers. We also use these classification results with our own rule-based QA system and observe significant performance improvement. Hence, this experiment has helped in improving the quality of QA in general.
翻訳日:2023-05-15 13:17:09 公開日:2023-05-12
# 編集可能なステップバイステップ記述によるインタラクティブテキスト間SQL生成

Interactive Text-to-SQL Generation via Editable Step-by-Step Explanations ( http://arxiv.org/abs/2305.07372v1 )

ライセンス: Link先を確認
Yuan Tian, Toby Jia-Jun Li, Jonathan K. Kummerfeld, and Tianyi Zhang(参考訳) 関係データベースは、このビッグデータ時代において重要な役割を果たす。 しかし、SQLのようなデータベース言語に慣れていないため、非専門家がリレーショナルデータベースの分析能力を完全に解き放つことは困難である。 自然言語からSQLを自動的に生成する多くのテクニックが提案されているが、それらは2つの問題に悩まされている。(1) 依然として多くのミス、特に複雑なクエリ、(2) 非専門家のユーザが不正クエリを検証、洗練するための柔軟な方法を提供していない。 これらの問題に対処するために、ユーザがSQLエラーを修正するために、間違ったSQLのステップバイステップ説明を直接編集できる新しいインタラクションメカニズムを導入する。 スパイダーベンチマークの実験では、我々の手法は3つのSOTAアプローチを少なくとも31.6%上回っている。 24人の参加者によるユーザスタディでは、私たちのアプローチによって、より少ない時間と高い信頼性で、はるかに多くのSQLタスクを解決できることが示されています。

Relational databases play an important role in this Big Data era. However, it is challenging for non-experts to fully unleash the analytical power of relational databases, since they are not familiar with database languages such as SQL. Many techniques have been proposed to automatically generate SQL from natural language, but they suffer from two issues: (1) they still make many mistakes, particularly for complex queries, and (2) they do not provide a flexible way for non-expert users to validate and refine the incorrect queries. To address these issues, we introduce a new interaction mechanism that allows users directly edit a step-by-step explanation of an incorrect SQL to fix SQL errors. Experiments on the Spider benchmark show that our approach outperforms three SOTA approaches by at least 31.6% in terms of execution accuracy. A user study with 24 participants further shows that our approach helped users solve significantly more SQL tasks with less time and higher confidence, demonstrating its potential to expand access to databases, particularly for non-experts.
翻訳日:2023-05-15 13:16:42 公開日:2023-05-12
# 匿名化データと異なる手法を用いた機械学習モデルの比較

Comparison of machine learning models applied on anonymized data with different techniques ( http://arxiv.org/abs/2305.07415v1 )

ライセンス: Link先を確認
Judith S\'ainz-Pardo D\'iaz and \'Alvaro L\'opez Garc\'ia(参考訳) 値一般化階層による準識別器の難読化に基づく匿名化手法は,プライバシの事前設定レベルを達成するために広く用いられている。 データベースのプライバシーに対するさまざまな種類の攻撃を防止するには、古典的なk匿名性や$\ell$-diversity以上の匿名化技術を適用する必要がある。 しかし,これらの手法の応用は,予測・意思決定タスクにおける有用性の低減と直接的に結びついている。 本研究では,4つの古典的機械学習手法を分類目的に用いて,匿名化手法の関数として結果を解析し,それぞれが選択したパラメータについて検討する。 これらのモデルの性能は、k匿名性のk値を変更する際に研究され、有名な成人データセット上には、$\ell$-diversity、t-closeness、$\delta$-disclosure privacyなどの追加ツールもデプロイされる。

Anonymization techniques based on obfuscating the quasi-identifiers by means of value generalization hierarchies are widely used to achieve preset levels of privacy. To prevent different types of attacks against database privacy it is necessary to apply several anonymization techniques beyond the classical k-anonymity or $\ell$-diversity. However, the application of these methods is directly connected to a reduction of their utility in prediction and decision making tasks. In this work we study four classical machine learning methods currently used for classification purposes in order to analyze the results as a function of the anonymization techniques applied and the parameters selected for each of them. The performance of these models is studied when varying the value of k for k-anonymity and additional tools such as $\ell$-diversity, t-closeness and $\delta$-disclosure privacy are also deployed on the well-known adult dataset.
翻訳日:2023-05-15 13:10:52 公開日:2023-05-12
# 低温原子量子シミュレータにおける高次元絡み検出

Detecting high-dimensional entanglement in cold-atom quantum simulators ( http://arxiv.org/abs/2305.07413v1 )

ライセンス: Link先を確認
Niklas Euler and Martin G\"arttner(参考訳) 量子絡み合いは、トポロジカル位相や多体局在のような凝縮物質系における多くの興味深い現象の根底にある重要な概念として認識されている。 近年、絡み合いエントロピーのような絡み合いの単なる量子化子を考える代わりに、絡み合いスペクトルの観点からの絡み合い構造の研究は、分数量子ホール状態やトポロジカル絶縁体への新たな洞察へと焦点を移している。 残る課題は、量子系のそのような微細な性質を実験的に検出することである。 量子シミュレーションの主要なプラットフォームの一つである寒冷原子系における絡み合いスペクトルの特徴を検出するプロトコルの開発は、非常に望ましいものであり、量子多体物理学を実験的に探究するための新しい道を開くだろう。 本稿では, 格子ジオメトリーにおける寒冷原子のエンタングルメントスペクトル, エンタングルメント次元の幅を, 実験可能な2つのベースでのみ測定し, 弾道的飛行時間(tof)展開を利用する方法を提案する。 光子対の絡み合い認定に関する以前の提案に基づき、まず異なる原子種の2つの原子間の絡み合いを考察し、後に種ごとの原子数を増加させ、多種多様高次元絡み合いを示す多種構成を一般化する。 数値シミュレーションにより,本手法は典型的な実験ノイズ効果に対して頑健であり,現在利用可能な実験手法を用いて,最大8原子のシステムにおいて高次元の絡み合い認証が可能となることを示す。

Quantum entanglement has been identified as a crucial concept underlying many intriguing phenomena in condensed matter systems such as topological phases or many-body localization. Recently, instead of considering mere quantifiers of entanglement like entanglement entropy, the study of entanglement structure in terms of the entanglement spectrum has shifted into the focus leading to new insights into fractional quantum Hall states and topological insulators, among others. What remains a challenge is the experimental detection of such fine-grained properties of quantum systems. The development of protocols for detecting features of the entanglement spectrum in cold atom systems, which are one of the leading platforms for quantum simulation, is thus highly desirable and will open up new avenues for experimentally exploring quantum many-body physics. Here we present a method to bound the width of the entanglement spectrum, or entanglement dimension, of cold atoms in lattice geometries, requiring only measurements in two experimentally accessible bases and utilizing ballistic time-of-flight (ToF) expansion. Building on previous proposals for entanglement certification for photon pairs, we first consider entanglement between two atoms of different atomic species and later generalize to higher numbers of atoms per species and multispecies configurations showing multipartite high-dimensional entanglement. Through numerical simulations we show that our method is robust against typical experimental noise effects and thus will enable high-dimensional entanglement certification in systems of up to 8 atoms using currently available experimental techniques.
翻訳日:2023-05-15 13:10:36 公開日:2023-05-12
# 機能学習のための分散勾配降下

Distributed Gradient Descent for Functional Learning ( http://arxiv.org/abs/2305.07408v1 )

ライセンス: Link先を確認
Zhan Yu, Jun Fan, Ding-Xuan Zhou(参考訳) 近年,大規模データ情報を扱う上での強みとして,分散学習方式が注目されている。 情報化時代において,近年,関数型データ解析に端を発するビッグデータ問題に直面するために,カーネルヒルベルト空間を再現する枠組みにおいて,多数のローカルマシン(プロセッサ)にまたがる機能的データに取り組むための分散勾配降下関数学習(dgdfl)アルゴリズムを提案する。 積分作用素のアプローチに基づいて、DGDFLアルゴリズムの文献における多くの異なる側面における最初の理論的理解を提供する。 dgdflの理解について,まず,単機モデルに付随するデータベース勾配降下関数学習(gdfl)アルゴリズムを提案し,包括的に検討した。 軽度条件下では,DGDFLの信頼度に基づく最適学習速度は,従来の機能回帰における正則性指数の飽和境界なしに得られる。 さらに、ローカルマシンの最大数の制限を弱め、最適なレートを確保するための半教師付きDGDFLアプローチを提供する。 最高の知識のために、dgdflは、関数学習に最初の分散反復トレーニングアプローチを提供し、関数データ分析のステージを強化します。

In recent years, different types of distributed learning schemes have received increasing attention for their strong advantages in handling large-scale data information. In the information era, to face the big data challenges which stem from functional data analysis very recently, we propose a novel distributed gradient descent functional learning (DGDFL) algorithm to tackle functional data across numerous local machines (processors) in the framework of reproducing kernel Hilbert space. Based on integral operator approaches, we provide the first theoretical understanding of the DGDFL algorithm in many different aspects in the literature. On the way of understanding DGDFL, firstly, a data-based gradient descent functional learning (GDFL) algorithm associated with a single-machine model is proposed and comprehensively studied. Under mild conditions, confidence-based optimal learning rates of DGDFL are obtained without the saturation boundary on the regularity index suffered in previous works in functional regression. We further provide a semi-supervised DGDFL approach to weaken the restriction on the maximal number of local machines to ensure optimal rates. To our best knowledge, the DGDFL provides the first distributed iterative training approach to functional learning and enriches the stage of functional data analysis.
翻訳日:2023-05-15 13:10:07 公開日:2023-05-12
# 2対1:テキスト生成モデルに対するハイジャック攻撃モデル

Two-in-One: A Model Hijacking Attack Against Text Generation Models ( http://arxiv.org/abs/2305.07406v1 )

ライセンス: Link先を確認
Wai Man Si and Michael Backes and Yang Zhang and Ahmed Salem(参考訳) 機械学習は、顔認識からテキスト生成まで、さまざまなアプリケーションで大きく進歩している。 しかし、その成功には様々な攻撃が伴った。 最近では、説明責任と寄生的コンピューティングのリスク、すなわちモデルハイジャック攻撃を引き起こす新たな攻撃が提案されている。 しかし、この攻撃は画像分類にのみ焦点が当てられている。 本研究では,この攻撃の範囲を広げ,テキスト生成と分類モデルを含めることにより,その幅広い適用性を示す。 より具体的には、異なるテキスト分類タスクを複数の世代(例えば、言語翻訳、テキスト要約、言語モデリング)にハイジャックできる新しいモデルハイジャック攻撃であるdittoを提案する。 私たちは、sst-2、tweeteval、agnews、qnli、imdbなどのテキストベンチマークデータセットを使用して、攻撃のパフォーマンスを評価しました。 この結果から,Dittoを用いることで,テキスト生成モデルのハイジャックを回避できることがわかった。

Machine learning has progressed significantly in various applications ranging from face recognition to text generation. However, its success has been accompanied by different attacks. Recently a new attack has been proposed which raises both accountability and parasitic computing risks, namely the model hijacking attack. Nevertheless, this attack has only focused on image classification tasks. In this work, we broaden the scope of this attack to include text generation and classification models, hence showing its broader applicability. More concretely, we propose a new model hijacking attack, Ditto, that can hijack different text classification tasks into multiple generation ones, e.g., language translation, text summarization, and language modeling. We use a range of text benchmark datasets such as SST-2, TweetEval, AGnews, QNLI, and IMDB to evaluate the performance of our attacks. Our results show that by using Ditto, an adversary can successfully hijack text generation models without jeopardizing their utility.
翻訳日:2023-05-15 13:09:47 公開日:2023-05-12
# HER2組織像における領域適応へのカラーデコンボリューションの適用

Color Deconvolution applied to Domain Adaptation in HER2 histopathological images ( http://arxiv.org/abs/2305.07404v1 )

ライセンス: Link先を確認
David Anglada-Rotger, Ferran Marqu\'es, Montse Pard\`as(参考訳) 乳癌の早期発見は患者の予後を改善する上で重要である。 Institut Catal\`a de la Salut (ICS)は、がんの診断を支援する人工知能アルゴリズムを開発し、実装するためのDigiPatICSプロジェクトを立ち上げた。 本稿では,her2染色した乳癌組織の病理組織像におけるカラーノーマライズ問題に対する新しいアプローチを提案する。 カラーデコンボリューション技術とpix2pix ganネットワークを組み合わせることで,異なるher2染色ブランド間の色変化を補正する新しい手法を提案する。 本手法は,HER2解析において重要な変換画像中の細胞のHER2スコアの維持に焦点を当てる。 以上の結果から,我々の最終モデルは,変換された画像中のセルクラスを維持する上で,最先端のイメージスタイル転送手法よりも優れており,現実的な画像を生成する上で同等に有効であることが示された。

Breast cancer early detection is crucial for improving patient outcomes. The Institut Catal\`a de la Salut (ICS) has launched the DigiPatICS project to develop and implement artificial intelligence algorithms to assist with the diagnosis of cancer. In this paper, we propose a new approach for facing the color normalization problem in HER2-stained histopathological images of breast cancer tissue, posed as an style transfer problem. We combine the Color Deconvolution technique with the Pix2Pix GAN network to present a novel approach to correct the color variations between different HER2 stain brands. Our approach focuses on maintaining the HER2 score of the cells in the transformed images, which is crucial for the HER2 analysis. Results demonstrate that our final model outperforms the state-of-the-art image style transfer methods in maintaining the cell classes in the transformed images and is as effective as them in generating realistic images.
翻訳日:2023-05-15 13:09:30 公開日:2023-05-12
# 検索エンジンと大規模言語モデル間の相互作用による知識のリファインメント

Knowledge Refinement via Interaction Between Search Engines and Large Language Models ( http://arxiv.org/abs/2305.07402v1 )

ライセンス: Link先を確認
Jiazhan Feng, Chongyang Tao, Xiubo Geng, Tao Shen, Can Xu, Guodong Long, Dongyan Zhao, Daxin Jiang(参考訳) 情報検索(IR)は大量のデータから関連資源を抽出する上で重要な役割を担い、その応用は従来の知識ベースから現代の検索エンジン(SE)へと進化してきた。 大規模言語モデル(llms)の出現は、ユーザーが自然言語で検索システムと対話できるようにすることで、この分野をさらに変革させた。 本稿では,LLMとSEの長所と短所を考察し,ユーザ発行クエリの理解と最新情報検索におけるそれぞれの強みを強調した。 制約を回避しつつ両方のパラダイムの利点を活用するために,SEとLLMの相互作用を通じて知識の洗練を促進する新しいフレームワークであるInteRを提案する。 InteRは、SEがLLM生成したサマリを使用してクエリの知識を洗練し、SE検索されたドキュメントを使用したプロンプトの強化を可能にする。 この反復的精錬プロセスはSEとLSMの入力を増大させ、より正確な検索につながる。 2つの大規模検索ベンチマークによる実験結果から,InteRは関連性判定によらず,最先端の手法よりも優れたゼロショット文書検索性能が得られることが示された。

Information retrieval (IR) plays a crucial role in locating relevant resources from vast amounts of data, and its applications have evolved from traditional knowledge bases to modern search engines (SEs). The emergence of large language models (LLMs) has further revolutionized the field by enabling users to interact with search systems in natural language. In this paper, we explore the advantages and disadvantages of LLMs and SEs, highlighting their respective strengths in understanding user-issued queries and retrieving up-to-date information. To leverage the benefits of both paradigms while circumventing their limitations, we propose InteR, a novel framework that facilitates knowledge refinement through interaction between SEs and LLMs. InteR allows SEs to refine knowledge in query using LLM-generated summaries and enables LLMs to enhance prompts using SE-retrieved documents. This iterative refinement process augments the inputs of SEs and LLMs, leading to more accurate retrieval. Experimental evaluations on two large-scale retrieval benchmarks demonstrate that InteR achieves superior zero-shot document retrieval performance compared to state-of-the-art methods, regardless of the use of relevance judgement.
翻訳日:2023-05-15 13:09:07 公開日:2023-05-12
# クラウドコンピューティングリソース取引のための多面的プラットフォームの概念化

Conceptualizing A Multi-Sided Platform For Cloud Computing Resource Trading ( http://arxiv.org/abs/2305.07399v1 )

ライセンス: Link先を確認
Franziska Haller, Max Schemmer, Niklas K\"uhl, Carsten Holtmann(参考訳) クラウドコンピューティングリソース(ccr)の費用対効果と責任は、多くの企業のビジネス課題にある。 この戦略的目標にもかかわらず、2つの地政学的戦略決定は、ヨーロッパの一般データ保護規制と米国のクラウド法という、大容量の継続的な存在に影響を与える。 状況を考えると、典型的なデータセンターは年間約30%の容量を生産している。 この過剰な能力は厳しい環境と経済的な影響をもたらす。 我々の研究は、CCRトレーディングのための多面的なプラットフォームを提案することで、この過剰な能力に対処しています。 我々は,CCRトレーディングにおけるプラットフォーム設計知識の欠如を示す既存の知識体系を探るため,文献レビューを実施して研究を開始する。 設計要件と設計原則を導出することで、この研究ギャップに対処する。 各プラットフォームフレームワークにおける設計知識のインスタンス化と評価を行う。 そこで我々は,設計知識の導出と評価とプラットフォームフレームワークの提案により,研究と実践に寄与する。

Cost-effective and responsible use of cloud computing resources (CCR) is on the business agenda of many companies. Despite this strategic goal, two geopolitical strategy decisions mainly influence the continuous existence of overcapacity: Europe's General Data Protection Regulation and the US's Cloud Act. Given the circumstances, a typical data center produces approximately 30% overcapacity annually. This overcapacity has severe environmental and economic consequences. Our work addresses this overcapacity by proposing a multi-sided platform for CCR trading. We initiate our research by conducting a literature review to explore the existing body of knowledge which indicates a lack of recent and evaluated platform design knowledge for CCR trading. We address this research gap by deriving design requirements and design principles. We instantiate and evaluate the design knowledge in a respective platform framework. Thus, we contribute to research and practice by deriving and evaluating design knowledge and proposing a platform framework.
翻訳日:2023-05-15 13:08:46 公開日:2023-05-12
# 文脈認識型時間注意による動的環境における単眼深度学習

Learning Monocular Depth in Dynamic Environment via Context-aware Temporal Attention ( http://arxiv.org/abs/2305.07397v1 )

ライセンス: Link先を確認
Zizhang Wu, Zhuozheng Li, Zhi-Gang Fan, Yunzhe Wu, Yuanzhu Gan, Jian Pu, Xianzhi Li(参考訳) 単眼深度推定タスクは近年,特に自律運転タスクにおいて,有望な見通しを明らかにしている。 2次元単眼画像から3次元幾何学的推論の誤った問題に取り組むために,時系列フレームからの遠近相関情報を活用するために多次元単眼法を開発した。 しかし、車や電車などの移動物体は、通常静的なシーンの仮定に反し、特徴的不整合と不整合のコスト値につながり、最適化アルゴリズムを誤解させる。 本稿では,マルチフレーム単眼深度推定のための文脈認識型時空間注意誘導ネットワークであるcta-depthを提案する。 具体的には,まずマルチレベルアテンションエンハンスメントモジュールを適用し,マルチレベル画像機能を統合し,初期深度とポーズ推定を行う。 次に,提案したCTA-Refinerを用いて奥行きとポーズを最適化する。 改良過程では, 時間的時間的注意(CTA)が発達し, 時間的相関関係を捉え, 移動物体の特徴の整合性と推定の整合性を維持する。 特に,長範囲の時間的幾何を生成するために,LGEモジュールを提案する。 提案手法は,3つのベンチマークデータセットに対する最先端アプローチよりも大幅に改善されている。

The monocular depth estimation task has recently revealed encouraging prospects, especially for the autonomous driving task. To tackle the ill-posed problem of 3D geometric reasoning from 2D monocular images, multi-frame monocular methods are developed to leverage the perspective correlation information from sequential temporal frames. However, moving objects such as cars and trains usually violate the static scene assumption, leading to feature inconsistency deviation and misaligned cost values, which would mislead the optimization algorithm. In this work, we present CTA-Depth, a Context-aware Temporal Attention guided network for multi-frame monocular Depth estimation. Specifically, we first apply a multi-level attention enhancement module to integrate multi-level image features to obtain an initial depth and pose estimation. Then the proposed CTA-Refiner is adopted to alternatively optimize the depth and pose. During the refinement process, context-aware temporal attention (CTA) is developed to capture the global temporal-context correlations to maintain the feature consistency and estimation integrity of moving objects. In particular, we propose a long-range geometry embedding (LGE) module to produce a long-range temporal geometry prior. Our approach achieves significant improvements over state-of-the-art approaches on three benchmark datasets.
翻訳日:2023-05-15 13:08:32 公開日:2023-05-12
# 開領域対話生成のための言語間移動におけるカタストロフィック・フォーミングの促進のためのプロンプト学習

Prompt Learning to Mitigate Catastrophic Forgetting in Cross-lingual Transfer for Open-domain Dialogue Generation ( http://arxiv.org/abs/2305.07393v1 )

ライセンス: Link先を確認
Lei Liu, Jimmy Xiangji Huang(参考訳) 非英語言語のための対話システムは、長い間検討されていない。 本稿では,データ制限のある非英語言語におけるオープンドメイン対話生成の文脈において,多言語間転送学習(fs-xlt)とマルチタスク学習(mtl)について検討する。 予備実験では,FS-XLT と MTL の両言語で破滅的忘れを観察した。 この問題を軽減するため,FS-XLT と MTL の多言語事前学習言語モデル (mPLM) の多言語性を維持するための簡易かつ効果的なプロンプト学習手法を提案する。 自動評価と人的評価の両方の観点から,全6言語に対する実験結果から,提案手法の有効性が示された。 私たちのコードはhttps://github.com/jeremyleiliu/xlingudialで利用可能です。

Dialogue systems for non-English languages have long been under-explored. In this paper, we take the first step to investigate few-shot cross-lingual transfer learning (FS-XLT) and multitask learning (MTL) in the context of open-domain dialogue generation for non-English languages with limited data. We observed catastrophic forgetting in both FS-XLT and MTL for all 6 languages in our preliminary experiments. To mitigate the issue, we propose a simple yet effective prompt learning approach that can preserve the multilinguality of multilingual pre-trained language model (mPLM) in FS-XLT and MTL by bridging the gap between pre-training and fine-tuning with Fixed-prompt LM Tuning and our hand-crafted prompts. Experimental results on all 6 languages in terms of both automatic and human evaluations demonstrate the effectiveness of our approach. Our code is available at https://github.com/JeremyLeiLiu/XLinguDial.
翻訳日:2023-05-15 13:08:12 公開日:2023-05-12
# ゲームにおけるAIの倫理

The Ethics of AI in Games ( http://arxiv.org/abs/2305.07392v1 )

ライセンス: Link先を確認
David Melhart, Julian Togelius, Benedikte Mikkelsen, Christoffer Holmg{\aa}rd, Georgios N. Yannakakis(参考訳) ビデオゲームは、人間とコンピュータの相互作用の最も豊かで人気のある形態の1つであり、その役割は、人間の行動や影響を大規模に理解する上で非常に重要である。 人工知能(AI)ツールがゲーム業界に徐々に採用されるにつれて、一連の倫理的懸念が生じる。 しかし、そのような懸念はビデオゲームの文脈では広く議論されていない。 ゲームに応用されたAIの倫理に関する包括的なレビューが欠如していることから,本領域における芸術の現状を調査し,情緒ループの全体論的観点から,これらのシステムの倫理的考察について議論する。 このループの構成要素を通じて,ゲーム開発においてAIが直面する倫理的課題を研究する。 感覚はプライバシと安全なゲーム空間の間のトレードオフを示し、ゲーム内適応時に使用される検出は、透明性とオーナシップに課題を提起する。 本稿では,今日のゲームと未来の仮想空間に対するオープン対話とアクションについて述べる。 適切なフレームワークを設定することで、ユーザを保護し、より安全で優れたエクスペリエンスを顧客に提供することを目標としています。

Video games are one of the richest and most popular forms of human-computer interaction and, hence, their role is critical for our understanding of human behaviour and affect at a large scale. As artificial intelligence (AI) tools are gradually adopted by the game industry a series of ethical concerns arise. Such concerns, however, have so far not been extensively discussed in a video game context. Motivated by the lack of a comprehensive review of the ethics of AI as applied to games, we survey the current state of the art in this area and discuss ethical considerations of these systems from the holistic perspective of the affective loop. Through the components of this loop, we study the ethical challenges that AI faces in video game development. Elicitation highlights the ethical boundaries of artificially induced emotions; sensing showcases the trade-off between privacy and safe gaming spaces; and detection, as utilised during in-game adaptation, poses challenges to transparency and ownership. This paper calls for an open dialogue and action for the games of today and the virtual spaces of the future. By setting an appropriate framework we aim to protect users and to guide developers towards safer and better experiences for their customers.
翻訳日:2023-05-15 13:07:53 公開日:2023-05-12
# 逆翻訳によるカスケード非教師音声翻訳の改善

Improving Cascaded Unsupervised Speech Translation with Denoising Back-translation ( http://arxiv.org/abs/2305.07455v1 )

ライセンス: Link先を確認
Yu-Kuan Fu, Liang-Hsuan Tseng, Jiatong Shi, Chen-An Li, Tsu-Yuan Hsu, Shinji Watanabe, Hung-yi Lee(参考訳) 音声翻訳モデルのほとんどは並列データに大きく依存しており、特に低リソース言語では収集が困難である。 この問題に対処するために,任意のペアデータを活用することなく,ケースケード音声翻訳システムを構築することを提案する。 教師なしのシステムをトレーニングし、CoVoST 2 と CVSS で結果を評価するために、完全にペア化されたデータを使用します。 その結果,本研究は,一部の言語ペアにおける早期指導手法と同等であることがわかった。 カスケードシステムは、常に深刻なエラー伝播問題に悩まされているが、我々は、堅牢で教師なしのニューラルネットワーク翻訳(UNMT)を構築するための新しいアプローチである、逆翻訳(DBT)について提案した。 DBTは3つの翻訳方向のBLEUスコアを0.7--0.9に向上させた。 さらに,推定遅延を低減するためにカスケードシステムのパイプラインを簡略化し,作業のすべての部分を総合的に解析した。 また,確立したウェブサイト上で,教師なし音声翻訳の結果を実証した。

Most of the speech translation models heavily rely on parallel data, which is hard to collect especially for low-resource languages. To tackle this issue, we propose to build a cascaded speech translation system without leveraging any kind of paired data. We use fully unpaired data to train our unsupervised systems and evaluate our results on CoVoST 2 and CVSS. The results show that our work is comparable with some other early supervised methods in some language pairs. While cascaded systems always suffer from severe error propagation problems, we proposed denoising back-translation (DBT), a novel approach to building robust unsupervised neural machine translation (UNMT). DBT successfully increases the BLEU score by 0.7--0.9 in all three translation directions. Moreover, we simplified the pipeline of our cascaded system to reduce inference latency and conducted a comprehensive analysis of every part of our work. We also demonstrate our unsupervised speech translation results on the established website.
翻訳日:2023-05-15 13:00:03 公開日:2023-05-12
# チャネル知識を持たないエンドツーエンド通信システムのための深い決定論的ポリシー勾配

Deep Deterministic Policy Gradient for End-to-End Communication Systems without Prior Channel Knowledge ( http://arxiv.org/abs/2305.07448v1 )

ライセンス: Link先を確認
Bolun Zhang and Nguyen Van Huynh(参考訳) E2E(End-to-End)学習に基づく概念は,無線通信システムにおいて送信機と受信機を協調的に最適化するために最近導入された。 残念なことに、このE2E学習アーキテクチャは、トランスシーバーでディープニューラルネットワーク(DNN)を共同でトレーニングするために、事前に異なるチャネルモデルを必要とする。 本稿では,Deep Deterministic Policy gradient(DDPG)ベースのフレームワークを開発することにより,この問題を解決することを目的とする。 特に、提案手法では、受信機DNNの損失値を用いて送信機DNNを訓練する。 シミュレーションの結果,提案手法は先行チャネルモデルを必要とせず,送信機と受信機を協調的に訓練できることがわかった。 さらに,提案したDDPGベースのソリューションは,最先端のソリューションよりも優れた検出性能が得られることを示す。

End-to-End (E2E) learning-based concept has been recently introduced to jointly optimize both the transmitter and the receiver in wireless communication systems. Unfortunately, this E2E learning architecture requires a prior differentiable channel model to jointly train the deep neural networks (DNNs) at the transceivers, which is hardly obtained in practice. This paper aims to solve this issue by developing a deep deterministic policy gradient (DDPG)-based framework. In particular, the proposed solution uses the loss value of the receiver DNN as the reward to train the transmitter DNN. The simulation results then show that our proposed solution can jointly train the transmitter and the receiver without requiring the prior channel model. In addition, we demonstrate that the proposed DDPG-based solution can achieve better detection performance compared to the state-of-the-art solutions.
翻訳日:2023-05-15 12:59:47 公開日:2023-05-12
# eegに基づくクロスサブジェクト感情認識のための知識蒸留に基づく軽量ドメイン逆ニューラルネットワーク

A Lightweight Domain Adversarial Neural Network Based on Knowledge Distillation for EEG-based Cross-subject Emotion Recognition ( http://arxiv.org/abs/2305.07446v1 )

ライセンス: Link先を確認
Zhe Wang, Yongxiong Wang, Jiapeng Zhang, Yiheng Tang, Zhiqun Pan(参考訳) 脳波の個人差(eeg)はドメインシフトを引き起こし、クロスサブジェクト戦略の性能を著しく低下させる可能性がある。 分類損失とドメイン損失が特徴抽出器のパラメータを共同で更新するドメイン逆ニューラルネットワーク(DANN)を採用し、ドメインシフトに対処する。 しかし,脳波データ量の制限と個体差の強いダンは,異常な特徴抽出器を用いた場合の課題である。 本研究では,知識蒸留(KD)に基づく軽量DANNを提案する。 具体的には,eegの複雑な時間的ダイナミクスと空間相関を学習するために,強い文脈学習能力を持つ教師モデルを用い,教師モデルにより頑健な軽量学生モデルを指導し,より難しいドメイン不変特徴を学習する。 機能ベースのkdフレームワークでは、トランスフォーマティブベースの階層型時空間学習モデルが教師モデルとして機能する。 Bi-LSTMユニットで構成される学生モデルは、教師モデルの軽量版である。 したがって、教師モデルの頑健な特徴表現を模倣するために、補完的な潜時的特徴と空間的特徴を利用することができる。 DANNを用いたクロスオブジェクト感情認識では,得られた学生モデルと,特徴抽出器として時間空間間相互作用モジュールを組み合わせる。 そして、特徴集約は、ドメイン不変の特徴学習のための感情分類器とドメイン分類器に供給される。 提案手法の有効性を検証するために,公的なデータセットdaapにおける被験者非依存実験を行い,覚醒度と原子価の分類を行った。 潜在特徴の優れた性能とt-sne可視化は,提案手法の利点と有効性を検証する。

Individual differences of Electroencephalogram (EEG) could cause the domain shift which would significantly degrade the performance of cross-subject strategy. The domain adversarial neural networks (DANN), where the classification loss and domain loss jointly update the parameters of feature extractor, are adopted to deal with the domain shift. However, limited EEG data quantity and strong individual difference are challenges for the DANN with cumbersome feature extractor. In this work, we propose knowledge distillation (KD) based lightweight DANN to enhance cross-subject EEG-based emotion recognition. Specifically, the teacher model with strong context learning ability is utilized to learn complex temporal dynamics and spatial correlations of EEG, and robust lightweight student model is guided by the teacher model to learn more difficult domain-invariant features. In the feature-based KD framework, a transformer-based hierarchical temporalspatial learning model is served as the teacher model. The student model, which is composed of Bi-LSTM units, is a lightweight version of the teacher model. Hence, the student model could be supervised to mimic the robust feature representations of teacher model by leveraging complementary latent temporal features and spatial features. In the DANN-based cross-subject emotion recognition, we combine the obtained student model and a lightweight temporal-spatial feature interaction module as the feature extractor. And the feature aggregation is fed to the emotion classifier and domain classifier for domain-invariant feature learning. To verify the effectiveness of the proposed method, we conduct the subject-independent experiments on the public dataset DEAP with arousal and valence classification. The outstanding performance and t-SNE visualization of latent features verify the advantage and effectiveness of the proposed method.
翻訳日:2023-05-15 12:59:33 公開日:2023-05-12
# 雑音ラベル付き回帰モデルのエキスパートベース重み付け

Expertise-based Weighting for Regression Models with Noisy Labels ( http://arxiv.org/abs/2305.07430v1 )

ライセンス: Link先を確認
Milene Regina dos Santos and Rafael Izbicki(参考訳) 回帰法は、正確なラベルがトレーニングに利用できると仮定する。 しかし、あるシナリオでは正確なラベルを得ることは不可能であり、異なる意見を持つ複数の専門家に頼る必要がある。 ノイズラベルに対処する既存のアプローチは回帰関数に制限的な仮定を課すことが多い。 対照的に,本稿では,新しい柔軟なアプローチを提案する。 本手法は,各ラベルの専門知識を推定し,学習重量を用いて意見を組み合わせる2つのステップから構成される。 次に、入力特徴に対して重み付き平均を回帰して予測モデルを構築します。 提案手法は, シミュレーションおよび実データにおいて, 既存の手法よりも優れていることを示す。 さらに、柔軟性により、両方のステップで任意の機械学習テクニックを利用できるようになる。 要約すると、この手法は、様々な専門家の意見から派生したノイズラベルを持つ回帰モデルをトレーニングするための、シンプルで高速で効果的なソリューションを提供する。

Regression methods assume that accurate labels are available for training. However, in certain scenarios, obtaining accurate labels may not be feasible, and relying on multiple specialists with differing opinions becomes necessary. Existing approaches addressing noisy labels often impose restrictive assumptions on the regression function. In contrast, this paper presents a novel, more flexible approach. Our method consists of two steps: estimating each labeler's expertise and combining their opinions using learned weights. We then regress the weighted average against the input features to build the prediction model. The proposed method is formally justified and empirically demonstrated to outperform existing techniques on simulated and real data. Furthermore, its flexibility enables the utilization of any machine learning technique in both steps. In summary, this method offers a simple, fast, and effective solution for training regression models with noisy labels derived from diverse expert opinions.
翻訳日:2023-05-15 12:58:27 公開日:2023-05-12
# ChatGPTのインテリジェント診断による医用画像のロック解除の可能性

Unlocking the Potential of Medical Imaging with ChatGPT's Intelligent Diagnostics ( http://arxiv.org/abs/2305.07429v1 )

ライセンス: Link先を確認
Ayyub Alzahem, Shahid Latif, Wadii Boulila, Anis Koubaa(参考訳) 医療画像は様々な疾患や病態の診断に欠かせないツールである。 しかし、医療画像の分析は専門知識と経験を必要とする複雑で時間を要する作業である。 医療提供者や患者の健康状態の診断、治療、管理に関する意思決定を支援する意思決定支援システムをデザインすることを目的としている。 提案アーキテクチャには3つの段階がある。 1) データ収集とラベル付け 2)モデルトレーニング、及び 3)診断報告書の作成。 鍵となるアイデアは、深層学習モデルを医療画像データセットでトレーニングし、画像スキャンの種類、身体部分、テストイメージ、結果の4種類の情報を抽出することだ。 この情報はChatGPTに入力され、自動診断が生成される。 提案システムには,意思決定の強化,コスト削減,医療提供者の能力向上が期待できる。 提案システムの有効性は,大規模医用画像データセットを用いた広範囲な実験によって解析される。 その結果, 医用画像による自動診断に有望な成績を示した。

Medical imaging is an essential tool for diagnosing various healthcare diseases and conditions. However, analyzing medical images is a complex and time-consuming task that requires expertise and experience. This article aims to design a decision support system to assist healthcare providers and patients in making decisions about diagnosing, treating, and managing health conditions. The proposed architecture contains three stages: 1) data collection and labeling, 2) model training, and 3) diagnosis report generation. The key idea is to train a deep learning model on a medical image dataset to extract four types of information: the type of image scan, the body part, the test image, and the results. This information is then fed into ChatGPT to generate automatic diagnostics. The proposed system has the potential to enhance decision-making, reduce costs, and improve the capabilities of healthcare providers. The efficacy of the proposed system is analyzed by conducting extensive experiments on a large medical image dataset. The experimental outcomes exhibited promising performance for automatic diagnosis through medical images.
翻訳日:2023-05-15 12:58:14 公開日:2023-05-12
# 教師なし文埋め込みのためのインスタンス平滑化コントラスト学習

Instance Smoothed Contrastive Learning for Unsupervised Sentence Embedding ( http://arxiv.org/abs/2305.07424v1 )

ライセンス: Link先を確認
Hongliang He, Junlei zhang, Zhenzhong Lan, Yue Zhang(参考訳) Unsup-SimCSEのような対照的な学習法は、教師なし文の埋め込みを学習する際に最先端(SOTA)のパフォーマンスを達成した。 しかし,従来の研究では,コントラスト学習に用いられた組込みは1文のインスタンスからのみ派生しており,これらの組込みをインスタンスレベルの組込みと呼ぶ。 言い換えれば、各埋め込みは独自の独自のクラスと見なされ、一般化性能を損なう可能性がある。 本研究では,特徴空間における埋め込みの境界を平滑化するために,is-cse(instance smoothing contrastive sentence embedded)を提案する。 具体的には、動的メモリバッファからセマンティックな類似性に応じて埋め込みを検索し、正の埋め込みグループを得る。 次に、グループ内の埋め込みを自己注意操作で集約し、スムーズなインスタンス埋め込みを生成し、さらなる分析を行う。 我々は,標準意味テキスト類似度(STS)タスクについて,平均78.30%,79.47%,77.73%,および79.42%のSpearmanのBERTベース,BERTベース,RoBERTaベース,RoBERTa-largeに対する相関を,Unsup-SimCSEと比較して2.05%,1.06%,1.16%,0.52%改善した。

Contrastive learning-based methods, such as unsup-SimCSE, have achieved state-of-the-art (SOTA) performances in learning unsupervised sentence embeddings. However, in previous studies, each embedding used for contrastive learning only derived from one sentence instance, and we call these embeddings instance-level embeddings. In other words, each embedding is regarded as a unique class of its own, whichmay hurt the generalization performance. In this study, we propose IS-CSE (instance smoothing contrastive sentence embedding) to smooth the boundaries of embeddings in the feature space. Specifically, we retrieve embeddings from a dynamic memory buffer according to the semantic similarity to get a positive embedding group. Then embeddings in the group are aggregated by a self-attention operation to produce a smoothed instance embedding for further analysis. We evaluate our method on standard semantic text similarity (STS) tasks and achieve an average of 78.30%, 79.47%, 77.73%, and 79.42% Spearman's correlation on the base of BERT-base, BERT-large, RoBERTa-base, and RoBERTa-large respectively, a 2.05%, 1.06%, 1.16% and 0.52% improvement compared to unsup-SimCSE.
翻訳日:2023-05-15 12:57:58 公開日:2023-05-12
# 報酬関数の類似性に基づく選択的模倣

Selective imitation on the basis of reward function similarity ( http://arxiv.org/abs/2305.07421v1 )

ライセンス: Link先を確認
Max Taylor-Davies, Stephanie Droop, Christopher G. Lucas(参考訳) イミテーションは人間の社会的行動の重要な要素であり、不確実または不慣れな状況をナビゲートする方法として、子供と大人の両方で広く利用されている。 しかし、異なる目標や目的を追求する複数の異種エージェントが居住している環境では、無差別な模倣は効果的な戦略とはならない。 これらの判断に影響を及ぼす要因は、おそらく、情報のコンテキストや可用性に依存する。 本稿では,これらの決定が他のエージェントの報酬機能に関する推論を伴うという仮説を考察する。 我々は、自分に類似した報酬機能を持つと考える他人の行動を、人々が優先的に模倣することを提案する。 さらに、これらの推論は、類似の報酬関数を持つ人の異なる \textit{groups} や \textit{types} の存在を仮定する帰納的バイアスを生かし、学習者がアライメントの直接的な証拠なしに模倣対象を選択することによって、非常にスパースまたは間接的なデータに基づいて行うことができると論じる。

Imitation is a key component of human social behavior, and is widely used by both children and adults as a way to navigate uncertain or unfamiliar situations. But in an environment populated by multiple heterogeneous agents pursuing different goals or objectives, indiscriminate imitation is unlikely to be an effective strategy -- the imitator must instead determine who is most useful to copy. There are likely many factors that play into these judgements, depending on context and availability of information. Here we investigate the hypothesis that these decisions involve inferences about other agents' reward functions. We suggest that people preferentially imitate the behavior of others they deem to have similar reward functions to their own. We further argue that these inferences can be made on the basis of very sparse or indirect data, by leveraging an inductive bias toward positing the existence of different \textit{groups} or \textit{types} of people with similar reward functions, allowing learners to select imitation targets without direct evidence of alignment.
翻訳日:2023-05-15 12:57:31 公開日:2023-05-12
# 車両軌道予測のための多次元グラフフーリエ変換ニューラルネットワーク

A Multidimensional Graph Fourier Transformation Neural Network for Vehicle Trajectory Prediction ( http://arxiv.org/abs/2305.07416v1 )

ライセンス: Link先を確認
Marion Neumeier, Andreas Tollk\"uhn, Michael Botsch, Wolfgang Utschick(参考訳) 本研究は,高速道路における長期軌跡予測のための多次元グラフフーリエ変換ニューラルネットワーク(GFTNN)を提案する。 グラフニューラルネットワーク(GNN)と同様に、GFTNNはグラフ構造で動作する新しいネットワークアーキテクチャである。 いくつかのGNNは、最適でないアグリゲーションスキームによって識別力を持たないが、提案モデルは、多次元グラフフーリエ変換(GFT)という強力な演算によってシナリオ特性を集約する。 シナリオの時空間車両間相互作用グラフをGFTを用いたスペクトルシナリオ表現に変換する。 この有益な表現は、ニューラルネットワークと記述型デコーダからなる予測フレームワークに入力される。 提案したGFTNNには再帰的な要素は含まれていないが、高速道路軌道予測のタスクにおいて最先端のモデルよりも優れている。 実験と評価には, 公開データセット HighD と NGSIM が使用される

This work introduces the multidimensional Graph Fourier Transformation Neural Network (GFTNN) for long-term trajectory predictions on highways. Similar to Graph Neural Networks (GNNs), the GFTNN is a novel network architecture that operates on graph structures. While several GNNs lack discriminative power due to suboptimal aggregation schemes, the proposed model aggregates scenario properties through a powerful operation: the multidimensional Graph Fourier Transformation (GFT). The spatio-temporal vehicle interaction graph of a scenario is converted into a spectral scenario representation using the GFT. This beneficial representation is input to the prediction framework composed of a neural network and a descriptive decoder. Even though the proposed GFTNN does not include any recurrent element, it outperforms state-of-the-art models in the task of highway trajectory prediction. For experiments and evaluation, the publicly available datasets highD and NGSIM are used
翻訳日:2023-05-15 12:57:13 公開日:2023-05-12
# アダプタ効率の包括的解析

A Comprehensive Analysis of Adapter Efficiency ( http://arxiv.org/abs/2305.07491v1 )

ライセンス: Link先を確認
Nandini Mundra, Sumanth Doddapaneni, Raj Dabre, Anoop Kunchukuttan, Ratish Puduppully, Mitesh M. Khapra(参考訳) アダプタはパラメータ効率のよい微調整(peft)アプローチとして位置づけられており、モデルに最小限のパラメータを追加して微調整する。 しかし、PEFTがトレーニング/デプロイ効率と保守性/拡張性の向上に寄与するかどうかを理解するために、アダプタは十分に分析されていない。 教師付きおよび言語間ゼロショット設定における多くのアダプタ,タスク,言語に関する広範な実験を通じて,自然言語理解(NLU)タスクにおいて,アダプタのパラメータ効率が,モデル全体の微調整に比べて効率向上に寄与しないことを示す。 より正確には、アダプタはトレーニングに比較的高価で、デプロイメントのレイテンシがわずかに高い。 さらに、アダプタの保守性と拡張性の利点は、完全な微調整によるマルチタスクトレーニングのような、よりシンプルなアプローチで実現できる。 したがって、NLUタスクの適度なサイズのモデルでは、アダプタを使うのではなく、完全な微調整やマルチタスクのトレーニングに頼るべきである。 私たちのコードはhttps://github.com/ai4bharat/adapter-efficiencyで利用可能です。

Adapters have been positioned as a parameter-efficient fine-tuning (PEFT) approach, whereby a minimal number of parameters are added to the model and fine-tuned. However, adapters have not been sufficiently analyzed to understand if PEFT translates to benefits in training/deployment efficiency and maintainability/extensibility. Through extensive experiments on many adapters, tasks, and languages in supervised and cross-lingual zero-shot settings, we clearly show that for Natural Language Understanding (NLU) tasks, the parameter efficiency in adapters does not translate to efficiency gains compared to full fine-tuning of models. More precisely, adapters are relatively expensive to train and have slightly higher deployment latency. Furthermore, the maintainability/extensibility benefits of adapters can be achieved with simpler approaches like multi-task training via full fine-tuning, which also provide relatively faster training times. We, therefore, recommend that for moderately sized models for NLU tasks, practitioners should rely on full fine-tuning or multi-task training rather than using adapters. Our code is available at https://github.com/AI4Bharat/adapter-efficiency.
翻訳日:2023-05-15 12:51:31 公開日:2023-05-12
# artgpt-4:アダプタを付加したminigpt-4による視覚言語理解

ArtGPT-4: Artistic Vision-Language Understanding with Adapter-enhanced MiniGPT-4 ( http://arxiv.org/abs/2305.07490v1 )

ライセンス: Link先を確認
Zhengqing Yuan, Huiwen Xue, Xinyi Wang, Yongming Liu, Zhuanzhe Zhao, Kun Wang(参考訳) 近年、大規模言語モデル (LLM) は自然言語処理 (NLP) において顕著な進歩を遂げており、ChatGPT や GPT-4 のようなモデルが様々な言語タスクにおいて顕著な能力を発揮している。 しかし、そのような大規模なモデルのトレーニングは困難であり、モデルのスケールにマッチするデータセットを見つけることはしばしば困難である。 これらの課題を克服するための有望なアプローチとして,新しい手法を用いたパラメータの少ない微調整とトレーニングモデルが登場している。 そのようなモデルの一つがMiniGPT-4であり、新しい事前学習モデルと革新的なトレーニング戦略を活用することで、GPT-4に匹敵する視覚言語理解を実現する。 しかし、このモデルはまだ画像理解、特に芸術的絵画におけるいくつかの課題に直面している。 ArtGPT-4と呼ばれる新しいマルチモーダルモデルが提案されている。 ArtGPT-4は、わずか2時間でTesla A100デバイスを使用して、200GBのデータのみを使用して画像テキストペアで訓練された。 このモデルは、芸術的なフレアで画像を描き、美的なHTML/CSSのWebページを含む視覚的なコードを生成することができる。 さらに,視覚言語モデルの性能評価のための新しいベンチマークを提案する。 続く評価手法では、artgpt-4は現在の \textbf{state-of-the-art}モデルよりも1ポイント以上高く、6ポイントスケールでアーティストよりもわずか0.25ポイント低い。 我々のコードと事前訓練されたモデルは、 \url{https://huggingface.co/Tyrannosaurus/ArtGPT-4}で利用可能です。

In recent years, large language models (LLMs) have made significant progress in natural language processing (NLP), with models like ChatGPT and GPT-4 achieving impressive capabilities in various linguistic tasks. However, training models on such a large scale is challenging, and finding datasets that match the model's scale is often difficult. Fine-tuning and training models with fewer parameters using novel methods have emerged as promising approaches to overcome these challenges. One such model is MiniGPT-4, which achieves comparable vision-language understanding to GPT-4 by leveraging novel pre-training models and innovative training strategies. However, the model still faces some challenges in image understanding, particularly in artistic pictures. A novel multimodal model called ArtGPT-4 has been proposed to address these limitations. ArtGPT-4 was trained on image-text pairs using a Tesla A100 device in just 2 hours, using only about 200 GB of data. The model can depict images with an artistic flair and generate visual code, including aesthetically pleasing HTML/CSS web pages. Furthermore, the article proposes novel benchmarks for evaluating the performance of vision-language models. In the subsequent evaluation methods, ArtGPT-4 scored more than 1 point higher than the current \textbf{state-of-the-art} model and was only 0.25 points lower than artists on a 6-point scale. Our code and pre-trained model are available at \url{https://huggingface.co/Tyrannosaurus/ArtGPT-4}.
翻訳日:2023-05-15 12:51:11 公開日:2023-05-12
# サウンドデミックスタスクのためのベンチマークとリーダーボード

Benchmarks and leaderboards for sound demixing tasks ( http://arxiv.org/abs/2305.07489v1 )

ライセンス: Link先を確認
Roman Solovyev, Alexander Stempkovskiy, Tatiana Habruseva(参考訳) 音楽のデミックスは、与えられた単一のオーディオ信号から、ドラム、ベース、ボーカルといったコンポーネントに、他の伴奏から異なるトラックを分離するタスクである。 情報源の分離はエンターテイメントや補聴器など様々な分野で有用である。 本稿では、音源分離タスクのための2つの新しいベンチマークを導入し、これらのベンチマークで一般的な音源分離モデルとそれらのアンサンブルを比較した。 モデルの評価については、https://mvsep.com/quality_checker/でリーダボードを提供し、さまざまなモデルの比較を行います。 新しいベンチマークデータセットはダウンロード可能だ。 また,特定の茎に最適な異なるモデルのアンサンブルに基づく,音声分離のための新しいアプローチも開発している。 提案手法は,音楽デミックス課題2023の文脈で評価され,課題の異なるトラックでトップ結果を得た。 コードとアプローチはgithubで公開されている。

Music demixing is the task of separating different tracks from the given single audio signal into components, such as drums, bass, and vocals from the rest of the accompaniment. Separation of sources is useful for a range of areas, including entertainment and hearing aids. In this paper, we introduce two new benchmarks for the sound source separation tasks and compare popular models for sound demixing, as well as their ensembles, on these benchmarks. For the models' assessments, we provide the leaderboard at https://mvsep.com/quality_checker/, giving a comparison for a range of models. The new benchmark datasets are available for download. We also develop a novel approach for audio separation, based on the ensembling of different models that are suited best for the particular stem. The proposed solution was evaluated in the context of the Music Demixing Challenge 2023 and achieved top results in different tracks of the challenge. The code and the approach are open-sourced on GitHub.
翻訳日:2023-05-15 12:50:44 公開日:2023-05-12
# 自律運転における強化学習の不確かさの特定・推定・検証

Identify, Estimate and Bound the Uncertainty of Reinforcement Learning for Autonomous Driving ( http://arxiv.org/abs/2305.07487v1 )

ライセンス: Link先を確認
Weitao Zhou, Zhong Cao, Nanshan Deng, Kun Jiang, Diange Yang(参考訳) 深層強化学習(DRL)は、よりインテリジェントな自動運転車(AV)を開発するための有望なアプローチとして登場した。 AVs上の典型的なDRLアプリケーションは、ニューラルネットワークベースの運転ポリシーのトレーニングである。 しかし、ニューラルネットワークのブラックボックスの性質は予測不能な決定失敗を生じさせ、そのようなavは信頼できない。 そこで本研究では,DRL運転方針の信頼できない決定を識別し,保護する手法を提案する。 基本的な考え方は、トレーニングデータ不足やネットワーク適合エラーによる潜在的なパフォーマンス低下を定量化するポリシーのパフォーマンスの不確実性を見積もって制約することである。 不確実性を制約することにより、DRLモデルの性能は基準方針よりも常に大きい。 データ不足による不確実性をブートストラップ法により推定する。 そして、アンサンブルネットワークを用いて、ネットワーク嵌合誤差に起因する不確実性を推定する。 最後に、潜在的な決定失敗を避けるために、パフォーマンスの下限としてベースラインポリシーが追加される。 全体的な枠組みは不確実性強化学習(UBRL)と呼ばれる。 提案したUBRLは、異なる量のトレーニングデータを用いてDRLポリシーに基づいて評価され、保護されていない左折駆動ケースを例に挙げる。 その結果、UBRL法はDRLポリシーの潜在的信頼できない決定を特定できることを示した。 UBRLは、DRLポリシーが十分に訓練されておらず、不確実性が高い場合でも、基本方針を上回ることを保証している。 一方、UBRLの性能は、より多くのトレーニングデータによって改善される。 このような方法は、リアルタイム運転におけるDRLアプリケーションに有用であり、DRLポリシーを評価するための指標を提供する。

Deep reinforcement learning (DRL) has emerged as a promising approach for developing more intelligent autonomous vehicles (AVs). A typical DRL application on AVs is to train a neural network-based driving policy. However, the black-box nature of neural networks can result in unpredictable decision failures, making such AVs unreliable. To this end, this work proposes a method to identify and protect unreliable decisions of a DRL driving policy. The basic idea is to estimate and constrain the policy's performance uncertainty, which quantifies potential performance drop due to insufficient training data or network fitting errors. By constraining the uncertainty, the DRL model's performance is always greater than that of a baseline policy. The uncertainty caused by insufficient data is estimated by the bootstrapped method. Then, the uncertainty caused by the network fitting error is estimated using an ensemble network. Finally, a baseline policy is added as the performance lower bound to avoid potential decision failures. The overall framework is called uncertainty-bound reinforcement learning (UBRL). The proposed UBRL is evaluated on DRL policies with different amounts of training data, taking an unprotected left-turn driving case as an example. The result shows that the UBRL method can identify potentially unreliable decisions of DRL policy. The UBRL guarantees to outperform baseline policy even when the DRL policy is not well-trained and has high uncertainty. Meanwhile, the performance of UBRL improves with more training data. Such a method is valuable for the DRL application on real-road driving and provides a metric to evaluate a DRL policy.
翻訳日:2023-05-15 12:50:28 公開日:2023-05-12
# ラベルの複雑さを減らした$\ell_2$回帰

Reduced Label Complexity For Tight $\ell_2$ Regression ( http://arxiv.org/abs/2305.07486v1 )

ライセンス: Link先を確認
Alex Gittens and Malik Magdon-Ismail(参考訳) データ ${\rm x}\in\mathbb{r}^{n\times d}$ とラベル $\mathbf{y}\in\mathbb{r}^{n}$ が与えられたとき、目標は$\mathbf{w}\in\mathbb{r}^d$ で$\vert{\rm x}\mathbf{w}-\mathbf{y}\vert^2$ を最小化することである。 我々は、$\mathbf{y}$} に \emph{oblivious, $n/(d+\sqrt{n})$ データポイントをスローアウトし、期待値に最適な$(1+d/n)$-approximation を与える多項式アルゴリズムを与える。 モチベーションはラベルの複雑さを減らした(ラベルの数)厳密な近似である。 ラベルの複雑さを$\Omega(\sqrt{n})$で減らします。 オープンな質問:ラベルの複雑さを1+d/n)$-approximationで$\Omega(n)$に縮めることができるか?

Given data ${\rm X}\in\mathbb{R}^{n\times d}$ and labels $\mathbf{y}\in\mathbb{R}^{n}$ the goal is find $\mathbf{w}\in\mathbb{R}^d$ to minimize $\Vert{\rm X}\mathbf{w}-\mathbf{y}\Vert^2$. We give a polynomial algorithm that, \emph{oblivious to $\mathbf{y}$}, throws out $n/(d+\sqrt{n})$ data points and is a $(1+d/n)$-approximation to optimal in expectation. The motivation is tight approximation with reduced label complexity (number of labels revealed). We reduce label complexity by $\Omega(\sqrt{n})$. Open question: Can label complexity be reduced by $\Omega(n)$ with tight $(1+d/n)$-approximation?
翻訳日:2023-05-15 12:50:05 公開日:2023-05-12
# 確率近似フレームワークによるオンライン学習

Online Learning Under A Separable Stochastic Approximation Framework ( http://arxiv.org/abs/2305.07484v1 )

ライセンス: Link先を確認
Min Gan, Xiang-xiang Su, Guang-yong Chen(参考訳) 確率近似フレームワークを用いて,機械学習モデルのクラスに対するオンライン学習アルゴリズムを提案する。 私たちの考えの本質は、モデル内の特定のパラメータが他のパラメータよりも最適化しやすいという観察にある。 本稿では、いくつかのパラメータが線形性を持つモデルに注目し、機械学習でよく見られるモデルについて述べる。 提案アルゴリズムの1つのルーチンでは、線形パラメータは確率ニュートン法に相当する再帰最小二乗法(recursive least squares,rls)アルゴリズムによって更新され、更新された線形パラメータに基づいて、非線形パラメータは確率勾配法(sgd)によって更新される。 提案アルゴリズムは,パラメータの一方を2次SGD法で更新し,他方を1次SGD法で更新するブロック座標勾配勾配の確率近似版として理解することができる。 非凸ケースに対する提案したオンラインアルゴリズムのグローバル収束は、一階最適条件の予測違反の観点から確立される。 数値実験により,提案手法は収束を著しく加速し,他の一般的な学習アルゴリズムと比較して,より堅牢なトレーニングとテスト性能が得られることが示された。 さらに,本アルゴリズムは学習速度に敏感で,最近提案したslimTrainアルゴリズムよりも優れている。 バリデーションのため、コードはgithubにアップロードされた。

We propose an online learning algorithm for a class of machine learning models under a separable stochastic approximation framework. The essence of our idea lies in the observation that certain parameters in the models are easier to optimize than others. In this paper, we focus on models where some parameters have a linear nature, which is common in machine learning. In one routine of the proposed algorithm, the linear parameters are updated by the recursive least squares (RLS) algorithm, which is equivalent to a stochastic Newton method; then, based on the updated linear parameters, the nonlinear parameters are updated by the stochastic gradient method (SGD). The proposed algorithm can be understood as a stochastic approximation version of block coordinate gradient descent approach in which one part of the parameters is updated by a second-order SGD method while the other part is updated by a first-order SGD. Global convergence of the proposed online algorithm for non-convex cases is established in terms of the expected violation of a first-order optimality condition. Numerical experiments have shown that the proposed method accelerates convergence significantly and produces more robust training and test performance when compared to other popular learning algorithms. Moreover, our algorithm is less sensitive to the learning rate and outperforms the recently proposed slimTrain algorithm. The code has been uploaded to GitHub for validation.
翻訳日:2023-05-15 12:49:46 公開日:2023-05-12
# 設計によるプロフェッショナル倫理: 計算実践のための行動規範の作成

Professional Ethics by Design: Co-creating Codes of Conduct for Computational Practice ( http://arxiv.org/abs/2305.07478v1 )

ライセンス: Link先を確認
Samuel Danzon-Chambaud and Marguerite Foissac(参考訳) 本稿は、ジャーナリスト、医師、弁護士、その他の専門職など、計算の際の倫理的問題に直面する実践者のための行動規範を開発することの重要性について論じる。 同時に、法と技術の発展は、欧州連合と米国が幅広い人工知能システムを規制し、それらをニューラルネットワークと組み合わせたハイブリッドフォーマットである「ニューロシンボリック」aiによるルールベースのモデルの復活に向けた取り組みで示されるように、そのようなガイドラインの確立を要求している。 このような背景から,プロフェッショナル倫理を計算形式に符号化する際の設計に着想を得たアプローチを論じ,幅広い分野にわたる計算実践のための行動規範を共同作成する。

This paper deals with the importance of developing codes of conduct for practitioners--be it journalists, doctors, attorneys, or other professions--that are encountering ethical issues when using computation, but do not have access to any framework of reference as to how to address those. At the same time, legal and technological developments are calling for establishing such guidelines, as shown in the European Union's and the United States' efforts in regulating a wide array of artificial intelligence systems, and in the resurgence of rule-based models through 'neurosymbolic' AI, a hybrid format that combines them with neural methods. Against this backdrop, we argue for taking a design-inspired approach when encoding professional ethics into a computational form, so as to co-create codes of conduct for computational practice across a wide range of fields.
翻訳日:2023-05-15 12:49:25 公開日:2023-05-12
# テーブル・アンド・テキストハイブリッド型数値推論のための総合的学習プログラム

Comprehensive Solution Program Centric Pretraining for Table-and-Text Hybrid Numerical Reasoning ( http://arxiv.org/abs/2305.07475v1 )

ライセンス: Link先を確認
Qianying Liu, Dongsheng Yang, Wenjie Zhong, Fei Cheng, Sadao Kurohashi(参考訳) 財務報告のような表とテキストのハイブリッドパスに対する数値推論は、重大な課題を提起し、多くの潜在的な応用がある。 モデル入力におけるノイズと無関係変数は、その性能の障害となっている。 さらに、全解プログラムの粗い粒度の監督は、基礎となる数値推論過程を学習するモデルの能力を妨げる。 本稿では,プログラム全体およびサブプログラムレベルで動作するプリトレーニングタスクとして,有用な変数にモデルを集中させる変数整合性ランキング,監督を細粒度単一演算子予測に分解する変数演算子予測,サブプログラムが導出する重要な証拠をモデルが識別することを奨励する変数キーフレーズマスキングの3つを提案する。 提案手法がトランスフォーマーモデルベースラインを上回って有効性を示す実験結果が得られた。

Numerical reasoning over table-and-text hybrid passages, such as financial reports, poses significant challenges and has numerous potential applications. Noise and irrelevant variables in the model input have been a hindrance to its performance. Additionally, coarse-grained supervision of the whole solution program has impeded the model's ability to learn the underlying numerical reasoning process. In this paper, we propose three pretraining tasks that operate at both the whole program and sub-program level: Variable Integrity Ranking, which guides the model to focus on useful variables; Variable Operator Prediction, which decomposes the supervision into fine-grained single operator prediction; and Variable Keyphrase Masking, which encourages the model to identify key evidence that sub-programs are derived from. Experimental results demonstrate the effectiveness of our proposed methods, surpassing transformer-based model baselines.
翻訳日:2023-05-15 12:49:09 公開日:2023-05-12
# ベル状態の絡み合いに基づく半量子プライベート比較の可能性

A Feasible Semi-quantum Private Comparison Based on Entanglement Swapping of Bell States ( http://arxiv.org/abs/2305.07467v1 )

ライセンス: Link先を確認
Chong-Qiang Ye, Jian Li, Xiu-Bo Chen, Yanyan Hou(参考訳) SQPC(Semi-quantum private comparison)は、量子能力に制限のある2人の古典的ユーザに対して、秘密情報の比較を可能にする。 しかし、従来提案されていたSQPCプロトコルにおける量子力学の重要な性質として、絡み合い交換は無視されることが多い。 本稿では,ベル状態の絡み換えに基づく新しいSQPCプロトコルを提案する。 セキュリティ分析は、我々のプロトコルが外部攻撃と内部攻撃の両方に耐性があることを示しています。 提案プロトコルの有効性と妥当性を検証するため,IBM Qiskitを用いて対応する量子回路の設計とシミュレーションを行う。 最後に,提案プロトコルを従来と類似した手法で比較検討する。 その結果,このプロトコルは絡み合いスワップを用いた場合でも高い量子ビット効率を維持していることがわかった。 その結果,提案プロトコルは半量子環境においてより広い適用性を持つ可能性がある。

Semi-quantum private comparison (SQPC) enables two classical users with limited quantum capabilities to compare confidential information using a semi-honest third party (TP) with full quantum power. However, entanglement swapping, as an important property of quantum mechanics in previously proposed SQPC protocols is usually neglected. In this paper, we propose a novel SQPC protocol based on the entanglement swapping of Bell states, where two classical users do not require additional implementation of the semi-quantum key distribution protocol to ensure the security of their private data. Security analysis shows that our protocol is resilient to both external and internal attacks. To verify the feasibility and correctness of the proposed SQPC protocol, we design and simulate the corresponding quantum circuits using IBM Qiskit. Finally, we compare and discuss the proposed protocol with previous similar work. The results reveal that our protocol maintains high qubit efficiency, even when entanglement swapping is employed. Consequently, our proposed protocol may have broader applicability in semi-quantum environments.
翻訳日:2023-05-15 12:48:53 公開日:2023-05-12
# 摂動に基づくQE:ブラックボックス機械翻訳のための説明不可能な単語レベル品質推定手法

Perturbation-based QE: An Explainable, Unsupervised Word-level Quality Estimation Method for Blackbox Machine Translation ( http://arxiv.org/abs/2305.07457v1 )

ライセンス: Link先を確認
Tu Anh Dinh, Jan Niehues(参考訳) QE(Quality Estimation)は、機械翻訳(MT)システム出力の品質をゴールドスタンダードの翻訳基準を使わずに予測するタスクである。 最新のQEモデルは、トレーニングのためにいくつかのデータセットで出力されるMTシステムの品質を人間にラベル付けする必要があるため、ドメインに依存し、MTシステムに依存している。 MTシステムへのガラスボックスアクセスや、QEモデルをトレーニングするための合成誤差を生成するための並列MTデータを必要とする教師なしQEの研究がある。 本稿では,摂動に基づく品質評価手法である摂動に基づくQEを提案する。 我々のアプローチは教師なし、説明可能であり、現在目立った大型言語モデル(llms)を含むあらゆる種類のブラックボックスmtシステムを不透明な内部プロセスで評価することができる。 ラベル付きQEデータを持たない言語方向については、WMT21共有タスクにおけるゼロショット教師付きアプローチと同等か、あるいは優れている。 我々のアプローチは、教師付きQEよりも、翻訳における性別バイアスや単語センスの曖昧さの誤りを検知し、ドメイン外使用に対する堅牢性を示す。 提案手法は, MT方式の異なるシステムに対してより一般化可能であることを示すため, 従来の翻訳プロンプティング LLM の誤差を検出する場合には, 性能ギャップが大きくなる。 提案手法では,特定のmt出力語に対してどの入力源語が影響を与えるかを示す。

Quality Estimation (QE) is the task of predicting the quality of Machine Translation (MT) system output, without using any gold-standard translation references. State-of-the-art QE models are supervised: they require human-labeled quality of some MT system output on some datasets for training, making them domain-dependent and MT-system-dependent. There has been research on unsupervised QE, which requires glass-box access to the MT systems, or parallel MT data to generate synthetic errors for training QE models. In this paper, we present Perturbation-based QE - a word-level Quality Estimation approach that works simply by analyzing MT system output on perturbed input source sentences. Our approach is unsupervised, explainable, and can evaluate any type of blackbox MT systems, including the currently prominent large language models (LLMs) with opaque internal processes. For language directions with no labeled QE data, our approach has similar or better performance than the zero-shot supervised approach on the WMT21 shared task. Our approach is better at detecting gender bias and word-sense-disambiguation errors in translation than supervised QE, indicating its robustness to out-of-domain usage. The performance gap is larger when detecting errors on a nontraditional translation-prompting LLM, indicating that our approach is more generalizable to different MT systems. We give examples demonstrating our approach's explainability power, where it shows which input source words have influence on a certain MT output word.
翻訳日:2023-05-15 12:48:37 公開日:2023-05-12
# lexfiles と legallama: 英語の多国間法的言語モデル開発を促進する

LeXFiles and LegalLAMA: Facilitating English Multinational Legal Language Model Development ( http://arxiv.org/abs/2305.07507v1 )

ライセンス: Link先を確認
Ilias Chalkidis, Nicolas Garneau, Catalina Goanta, Daniel Martin Katz, Anders S{\o}gaard(参考訳) 本研究では,法律指向型事前学習言語モデル(PLM)の性能に関する詳細な分析を行う。 本研究は, 従来の目的, 獲得した知識, および上流, 探索, 下流のパフォーマンスと定義する法的言語理解能力の相互作用について検討する。 我々は,モデルのサイズだけでなく,学習前のコーパスも重要な次元として捉えている。 この目的のために,多国籍英語法定コーパス (lexfiles) と法知識調査ベンチマーク (legallama) をリリースし,法指向plmの訓練と詳細な分析を容易にする。 我々は、LeXFilesで訓練された2つの新しい法的PLMをリリースし、LegalLAMAとLexGLUEでそれらを評価した。 関連する法的トピックにおける上流のパフォーマンスと相関性が強いことが判明した。 一方、下流のパフォーマンスは、主にモデルのサイズと、上流と調査のパフォーマンスによって推定できる事前の法的知識によって駆動される。 これらの結果から,ドメイン固有のPLMの開発に両次元が重要であると結論付けることができる。

In this work, we conduct a detailed analysis on the performance of legal-oriented pre-trained language models (PLMs). We examine the interplay between their original objective, acquired knowledge, and legal language understanding capacities which we define as the upstream, probing, and downstream performance, respectively. We consider not only the models' size but also the pre-training corpora used as important dimensions in our study. To this end, we release a multinational English legal corpus (LeXFiles) and a legal knowledge probing benchmark (LegalLAMA) to facilitate training and detailed analysis of legal-oriented PLMs. We release two new legal PLMs trained on LeXFiles and evaluate them alongside others on LegalLAMA and LexGLUE. We find that probing performance strongly correlates with upstream performance in related legal topics. On the other hand, downstream performance is mainly driven by the model's size and prior legal knowledge which can be estimated by upstream and probing performance. Based on these findings, we can conclude that both dimensions are important for those seeking the development of domain-specific PLMs.
翻訳日:2023-05-15 12:41:33 公開日:2023-05-12
# 異なるランダム性をもつスパースランダム行列とガウスアンサンブル

Sparse random matrices and Gaussian ensembles with varying randomness ( http://arxiv.org/abs/2305.07505v1 )

ライセンス: Link先を確認
Takanori Anegawa, Norihiro Iizuka, Arkaprava Mukherjee, Sunil Kumar Sake, Sandip P. Trivedi(参考訳) ガウス分布からの結合定数を様々な方法で描画して得られるランダムハミルトニアンを用いて,n$ qubits の系を最大$n$ で研究した。 この結果、GUEと固定$q$SYK理論を含む豊富な系のクラスが得られる。 gue から始めて,ランダム性が低下するにつれて生じる行動について検討する。 一般に、ランダム性が低下するにつれて、システムはカオスからより順序づけられるようになるが、状態の密度、スペクトル形状係数、レベル統計、時間外相関器などの様々な特性の変化は興味深いパターンを明らかにする。 主に数値的な解析の限界について、ハミルトニアンにおける非ゼロ独立項の数が指数関数的に$N$であるときに、その振る舞いが突然に変化するという証拠がいくつか見つかる。 また,sykモデルの局所バージョンでは,結合数をn$で線形にスケールし,その挙動を特徴付けるような非ランダム性の逆極限についても検討した。 我々の調査は、このタイプのシステムのより完全な理論解析は、かなり価値があることを示唆している。

We study a system of $N$ qubits, at large $N$, with a random Hamiltonian obtained by drawing coupling constants from Gaussian distributions in various ways. This results in a rich class of systems which include the GUE and the fixed $q$ SYK theories. Starting with the GUE, we study the resulting behaviour as the randomness is decreased. While in general the system goes from being chaotic to being more ordered as the randomness is decreased, the changes in various properties, including the density of states, the spectral form factor, the level statistics and out-of-time-ordered correlators, reveal interesting patterns. Subject to the limitations of our analysis which is mainly numerical, we find some evidence that the behaviour changes in an abrupt manner when the number of non-zero independent terms in the Hamiltonian is exponentially large in $N$. We also study the opposite limit of much reduced randomness obtained in a local version of the SYK model where the number of couplings scales linearly in $N$, and characterise its behaviour. Our investigation suggests that a more complete theoretical analysis of this class of systems will prove quite worthwhile.
翻訳日:2023-05-15 12:41:16 公開日:2023-05-12
# 校正アウェアベイズ学習

Calibration-Aware Bayesian Learning ( http://arxiv.org/abs/2305.07504v1 )

ライセンス: Link先を確認
Jiayi Huang, Sangwoo Park, and Osvaldo Simeone(参考訳) 大規模言語モデルのような近代的なシステムを含むディープラーニングモデルは、彼らの決定の不確実性に対する信頼できない見積もりを提供することでよく知られている。 モデルのキャリブレーションとして知られる信頼性レベルの品質を改善するために、一般的なアプローチでは、トレーニング損失にデータ依存またはデータ非依存の正規化項を追加する必要がある。 データ依存型正規化器は、信頼度と精度のずれを罰する従来の頻繁な学習の文脈で最近導入された。 対照的に、データ非依存の正規化器はベイズ学習の核であり、モデルパラメータ空間における変動分布を先行密度に順守する。 前者のアプローチではてんかんの不確かさを定量化できないが、後者はモデルの誤特定によって大きく影響を受ける。 両手法の限界に照らして,本論文では,両正規化器を併用し,ベイズ学習のように変分分布を最適化するキャリブレーションアウェアベイズニューラルネットワーク (ca-bnns) と呼ばれる統合フレームワークを提案する。 予測キャリブレーション誤差(ECE)と信頼性図を用いて,提案手法の利点を検証した。

Deep learning models, including modern systems like large language models, are well known to offer unreliable estimates of the uncertainty of their decisions. In order to improve the quality of the confidence levels, also known as calibration, of a model, common approaches entail the addition of either data-dependent or data-independent regularization terms to the training loss. Data-dependent regularizers have been recently introduced in the context of conventional frequentist learning to penalize deviations between confidence and accuracy. In contrast, data-independent regularizers are at the core of Bayesian learning, enforcing adherence of the variational distribution in the model parameter space to a prior density. The former approach is unable to quantify epistemic uncertainty, while the latter is severely affected by model misspecification. In light of the limitations of both methods, this paper proposes an integrated framework, referred to as calibration-aware Bayesian neural networks (CA-BNNs), that applies both regularizers while optimizing over a variational distribution as in Bayesian learning. Numerical results validate the advantages of the proposed approach in terms of expected calibration error (ECE) and reliability diagrams.
翻訳日:2023-05-15 12:40:56 公開日:2023-05-12
# 不変表現学習を超えて:効率的な閉形式領域適応のための線形整列潜在空間

Beyond invariant representation learning: linearly alignable latent spaces for efficient closed-form domain adaptation ( http://arxiv.org/abs/2305.07500v1 )

ライセンス: Link先を確認
Oliver Struckmeier, Ievgen Redko, Anton Mallasto, Karol Arndt, Markus Heinonen, Ville Kyrki(参考訳) 最適輸送(OT)は、最小の努力原理に従って確率測度を比較し調整するために使用される強力な幾何学的ツールである。 機械学習(ML)におけるOTの多くの成功例の中で、ドメイン適応(DA)は、あるラベル付きドメインから別の類似の異なるラベル付きドメインに分類器を移すことを目標とする研究分野であり、歴史的に最も調査された分野の1つである。 この成功は、2つのドメインの分布の類似性を評価する意味のある相違度尺度と、ソースドメインデータを対象のドメインに投影できるマッピングの両方を提供することができるためである。 本稿では,アフィンマッピングによって与えられるOT問題の閉形式解を用いて,この解が最適で計算量的に少ない埋め込み空間を学習する,DAに適用される新しいOTベースのアプローチを提案する。 提案手法は、同種および異種DA設定と性能の両方で機能するか、あるいは従来の OT と OT の両方を非可逆空間で用いた他の有名なベースラインと同等であることを示す。 さらに,提案手法は計算量を大幅に削減することを示した。

Optimal transport (OT) is a powerful geometric tool used to compare and align probability measures following the least effort principle. Among many successful applications of OT in machine learning (ML), domain adaptation (DA) -- a field of study where the goal is to transfer a classifier from one labelled domain to another similar, yet different unlabelled or scarcely labelled domain -- has been historically among the most investigated ones. This success is due to the ability of OT to provide both a meaningful discrepancy measure to assess the similarity of two domains' distributions and a mapping that can project source domain data onto the target one. In this paper, we propose a principally new OT-based approach applied to DA that uses the closed-form solution of the OT problem given by an affine mapping and learns an embedding space for which this solution is optimal and computationally less complex. We show that our approach works in both homogeneous and heterogeneous DA settings and outperforms or is on par with other famous baselines based on both traditional OT and OT in incomparable spaces. Furthermore, we show that our proposed method vastly reduces computational complexity.
翻訳日:2023-05-15 12:40:38 公開日:2023-05-12
# インパルス応答強化によるデバイスロバスト音響シーン分類

Device-Robust Acoustic Scene Classification via Impulse Response Augmentation ( http://arxiv.org/abs/2305.07499v1 )

ライセンス: Link先を確認
Tobias Morocutti, Florian Schmid, Khaled Koutini, Gerhard Widmer(参考訳) 幅広い記録装置に一般化できる能力は、オーディオ分類モデルにとって重要な性能要因である。 異なるタイプのマイクロホンの特性は、周波数応答の変化によるディジタル化音声信号の分布変化をもたらす。 このドメインシフトがトレーニング中に考慮されない場合、未知のデバイスによって記録された信号に適用された場合、モデルの性能は著しく低下する可能性がある。 特に、少数の異なるマイクで記録された音声信号のモデルを訓練することは、見えないデバイスへの一般化を難しくする。 この問題に対処するために,事前記録されたデバイスインパルス応答(dirs)をトレーニングセットに音声信号を畳み込み,録音装置の多様性を人工的に向上させる。 CNNと音響スペクトログラム変換器を用いた音響シーン分類におけるDIR増強の効果を系統的に検討する。 その結果、DIRの分離による拡張は、最先端のFreq-MixStyleと同様の動作を示した。 しかし,dir拡張とfreq-mixstyleは相補的であり,訓練中は検出されない信号に対して新たな最先端性能を実現する。

The ability to generalize to a wide range of recording devices is a crucial performance factor for audio classification models. The characteristics of different types of microphones introduce distributional shifts in the digitized audio signals due to their varying frequency responses. If this domain shift is not taken into account during training, the model's performance could degrade severely when it is applied to signals recorded by unseen devices. In particular, training a model on audio signals recorded with a small number of different microphones can make generalization to unseen devices difficult. To tackle this problem, we convolve audio signals in the training set with pre-recorded device impulse responses (DIRs) to artificially increase the diversity of recording devices. We systematically study the effect of DIR augmentation on the task of Acoustic Scene Classification using CNNs and Audio Spectrogram Transformers. The results show that DIR augmentation in isolation performs similarly to the state-of-the-art method Freq-MixStyle. However, we also show that DIR augmentation and Freq-MixStyle are complementary, achieving a new state-of-the-art performance on signals recorded by devices unseen during training.
翻訳日:2023-05-15 12:40:15 公開日:2023-05-12
# 野生の視覚情報抽出:実用的なデータセットとエンドツーエンドソリューション

Visual Information Extraction in the Wild: Practical Dataset and End-to-end Solution ( http://arxiv.org/abs/2305.07498v1 )

ライセンス: Link先を確認
Jianfeng Kuang, Wei Hua, Dingkang Liang, Mingkun Yang, Deqiang Jiang, Bo Ren, Yu Zhou, and Xiang Bai(参考訳) 統一的な枠組みでocrと情報抽出を同時に行うことを目的とした視覚情報抽出(vie)は,レシートや商品,交通標識の理解など,さまざまなアプリケーションにおいて重要な役割を担っているため,注目を集めている。 しかしながら、vieの既存のベンチマークデータセットは、レイアウト構造、背景障害、エンティティカテゴリの十分な多様性のないドキュメントイメージで構成されているため、実世界のアプリケーションの課題を完全に明らかにすることはできない。 本稿では,レイアウトや背景,フォントのばらつきだけでなく,より多くの種類のエンティティを含むvie用カメラ画像からなる大規模データセットを提案する。 さらに、OCRの段階と情報抽出をエンドツーエンド学習方式で組み合わせた、エンドツーエンドVIEのための新しいフレームワークを提案する。 情報抽出モジュールの入力としてOCR機能を直接採用する従来のエンドツーエンドアプローチとは違って,OCRのタスクと情報抽出の差による意味的ギャップを狭めるために,コントラスト学習を用いることを提案する。 提案したデータセット上で,既存のVIEのエンドツーエンド手法を評価し,これらの手法の性能がSROIE(広く使用されている英語データセット)から提案データセットへの差が大きいことを観察した。 これらの結果は,先進的vieアルゴリズムの推進において,データセットがより実用的であることを示す。 さらに,提案するvie法が,提案およびsroieデータセットの明らかな性能向上を一貫して達成していることを示す実験を行った。

Visual information extraction (VIE), which aims to simultaneously perform OCR and information extraction in a unified framework, has drawn increasing attention due to its essential role in various applications like understanding receipts, goods, and traffic signs. However, as existing benchmark datasets for VIE mainly consist of document images without the adequate diversity of layout structures, background disturbs, and entity categories, they cannot fully reveal the challenges of real-world applications. In this paper, we propose a large-scale dataset consisting of camera images for VIE, which contains not only the larger variance of layout, backgrounds, and fonts but also much more types of entities. Besides, we propose a novel framework for end-to-end VIE that combines the stages of OCR and information extraction in an end-to-end learning fashion. Different from the previous end-to-end approaches that directly adopt OCR features as the input of an information extraction module, we propose to use contrastive learning to narrow the semantic gap caused by the difference between the tasks of OCR and information extraction. We evaluate the existing end-to-end methods for VIE on the proposed dataset and observe that the performance of these methods has a distinguishable drop from SROIE (a widely used English dataset) to our proposed dataset due to the larger variance of layout and entities. These results demonstrate our dataset is more practical for promoting advanced VIE algorithms. In addition, experiments demonstrate that the proposed VIE method consistently achieves the obvious performance gains on the proposed and SROIE datasets.
翻訳日:2023-05-15 12:39:55 公開日:2023-05-12
# 長距離ケースの動的保守的自動運転プランナー

Dynamically Conservative Self-Driving Planner for Long-Tail Cases ( http://arxiv.org/abs/2305.07497v1 )

ライセンス: Link先を確認
Weitao Zhou, Zhong Cao, Nanshan Deng, Xiaoyu Liu, Kun Jiang, Diange Yang(参考訳) 自動運転車(sdvs)は現実のものになりつつあるが、それでも自然運転中に"ロングテール"な課題に苦しんでいる。 一部の安全保証プランナーは、あらゆるケースで保守的であり、運転モビリティに大きな影響を与える可能性がある。 そこで本研究では,各ケースの長テール率に応じて,動的保守プランナー(dcp)と呼ばれる保守レベルを自動的に調整する手法を提案する。 まず「ロングテール」率を、駆動ケースを通過させるSDVの信頼度として定義する。 このレートは、安全クリティカルな事象の確率を示し、履歴データを持つ統計ブートストラップ法を用いて推定される。 そして、強化学習ベースのプランナーは、異なる保守レベルの候補ポリシーを含むように設計されている。 最終方針は、推定された「ロングテール」レートに基づいて最適化される。 このようにして、dcpは低信頼の"ロングテール"ケースでより保守的になるように自動的に調整されるように設計されている。 CARLAシミュレータでは「ロングテール」分散トレーニングデータを用いた運転事例を用いてDCPを評価する。 その結果,dcpはリスクを識別するために「ロングテール」率を正確に推定できることがわかった。 この速度に基づいて、DCPは保守的な決定を用いて「ロングテール」のケースの衝突の可能性を自動的に回避するが、他の典型的なケースでは平均速度には影響しない。 従って、DCPは、常に保守的なプランナーのような固定された保守レベルを持つベースラインよりも安全で効率的である。 この研究は、グローバルな保守的な設定に頼らずに、予期せぬ運転場面におけるSDVの性能を保証する技術を提供し、「ロングテール」問題を現実的に解決することに寄与する。

Self-driving vehicles (SDVs) are becoming reality but still suffer from "long-tail" challenges during natural driving: the SDVs will continually encounter rare, safety-critical cases that may not be included in the dataset they were trained. Some safety-assurance planners solve this problem by being conservative in all possible cases, which may significantly affect driving mobility. To this end, this work proposes a method to automatically adjust the conservative level according to each case's "long-tail" rate, named dynamically conservative planner (DCP). We first define the "long-tail" rate as an SDV's confidence to pass a driving case. The rate indicates the probability of safe-critical events and is estimated using the statistics bootstrapped method with historical data. Then, a reinforcement learning-based planner is designed to contain candidate policies with different conservative levels. The final policy is optimized based on the estimated "long-tail" rate. In this way, the DCP is designed to automatically adjust to be more conservative in low-confidence "long-tail" cases while keeping efficient otherwise. The DCP is evaluated in the CARLA simulator using driving cases with "long-tail" distributed training data. The results show that the DCP can accurately estimate the "long-tail" rate to identify potential risks. Based on the rate, the DCP automatically avoids potential collisions in "long-tail" cases using conservative decisions while not affecting the average velocity in other typical cases. Thus, the DCP is safer and more efficient than the baselines with fixed conservative levels, e.g., an always conservative planner. This work provides a technique to guarantee SDV's performance in unexpected driving cases without resorting to a global conservative setting, which contributes to solving the "long-tail" problem practically.
翻訳日:2023-05-15 12:39:28 公開日:2023-05-12
# ロバストかつ高速な顔識別のためのギャラリーサンプリング

Gallery Sampling for Robust and Fast Face Identification ( http://arxiv.org/abs/2305.07495v1 )

ライセンス: Link先を確認
Myung-cheol Roh, Pyoung-gang Lim, and Jongju Shin(参考訳) ディープラーニングの手法は、顔認識で素晴らしい成果を上げています。 パフォーマンスを改善するための重要なタスクの1つは、画像の収集とラベル付けを可能な限り行うことです。 しかし,大容量画像データのラベル付けや品質確認は困難であり,大容量データの処理において誤りを回避できない。 これまでの研究は、トレーニングドメインでのみこの問題に対処しようと試みてきたが、失敗が顔識別のギャラリーデータにある場合、重大な問題を引き起こす可能性がある。 誤ラベル付き,低品質,低インフォーマティブな画像を含む外れ値に対して堅牢なギャラリーデータサンプリング手法を提案し,検索時間を短縮した。 提案手法は,セレブのweb画像データセット5.4mにおいて,顔識別性能を大幅に向上させた。 提案法はFPIR=0.01で0.0975,従来の0.3891であった。 個々のギャラリーごとの特徴ベクトルの平均数は115.9から17.1に減らされ、より高速な検索が可能になる。 CASIA-WebFace と MS1MV2 で FPIR=0.01 で 0.1314 と 0.0668 FNIR を達成し,対流法は 0.5446 と 0.1327 である。

Deep learning methods have been achieved brilliant results in face recognition. One of the important tasks to improve the performance is to collect and label images as many as possible. However, labeling identities and checking qualities of large image data are difficult task and mistakes cannot be avoided in processing large data. Previous works have been trying to deal with the problem only in training domain, however it can cause much serious problem if the mistakes are in gallery data of face identification. We proposed gallery data sampling methods which are robust to outliers including wrong labeled, low quality, and less-informative images and reduce searching time. The proposed sampling-by-pruning and sampling-by-generating methods significantly improved face identification performance on our 5.4M web image dataset of celebrities. The proposed method achieved 0.0975 in terms of FNIR at FPIR=0.01, while conventional method showed 0.3891. The average number of feature vectors for each individual gallery was reduced to 17.1 from 115.9 and it can provide much faster search. We also made experiments on public datasets and our method achieved 0.1314 and 0.0668 FNIRs at FPIR=0.01 on the CASIA-WebFace and MS1MV2, while the convectional method did 0.5446, and 0.1327, respectively.
翻訳日:2023-05-15 12:38:50 公開日:2023-05-12
# 時間ネットワーク創造ゲーム

Temporal Network Creation Games ( http://arxiv.org/abs/2305.07494v1 )

ライセンス: Link先を確認
Davide Bil\`o, Sarel Cohen, Tobias Friedrich, Hans Gawendowicz, Nicolas Klodt, Pascal Lenzner, George Skretas(参考訳) ほとんどのネットワークは静的オブジェクトではなく、時間とともに変化する。 この観測は、過去数年間に時間グラフに関する厳密な研究を引き起こした。 時間グラフではノードの固定セットがあり、それらの間の接続は特定の時間ステップでのみ利用可能である。 このことは、時間的スパンナーを見つけるという問題、すなわち時間的パスを通じて全てのペアが到達可能であることを保証する部分グラフの計算など、このようなグラフ上のアルゴリズム上の多くの問題を引き起こす。 我々の知る限りでは、この問題の解決のための集中的なアプローチのみが知られている。 しかし、多くの現実世界のネットワークは中心的なデザイナーによって形成されず、代わりに多くの戦略エージェントの相互作用によって出現し進化する。 この観測は、ゲーム理論ネットワーク形成モデルに関する最近の集中的な研究の原動力である。 本研究は、時間グラフとゲーム理論ネットワーク形成という2つの最近の研究方向をまとめる。 この新たな領域への第一歩として、完全なテンポラリホストグラフが与えられ、そのノードに対応するエージェントが自発的にインシデントエッジを生成して、生成されたネットワーク内のテンポラリパスを介して、他のすべてのノードに到達できるようにします。 これは時間的スパンナーをゲームの平衡として生み出す。 我々は,均衡ネットワークへの収束と存在,最良のエージェント戦略の発見の複雑さ,および平衡の質についての結果を示す。 これらの最初の重要なステップを踏むことで、戦略エージェントによる時間グラフの作成を深く探究することを要求する、挑戦的なオープンな問題を明らかにする。

Most networks are not static objects, but instead they change over time. This observation has sparked rigorous research on temporal graphs within the last years. In temporal graphs, we have a fixed set of nodes and the connections between them are only available at certain time steps. This gives rise to a plethora of algorithmic problems on such graphs, most prominently the problem of finding temporal spanners, i.e., the computation of subgraphs that guarantee all pairs reachability via temporal paths. To the best of our knowledge, only centralized approaches for the solution of this problem are known. However, many real-world networks are not shaped by a central designer but instead they emerge and evolve by the interaction of many strategic agents. This observation is the driving force of the recent intensive research on game-theoretic network formation models. In this work we bring together these two recent research directions: temporal graphs and game-theoretic network formation. As a first step into this new realm, we focus on a simplified setting where a complete temporal host graph is given and the agents, corresponding to its nodes, selfishly create incident edges to ensure that they can reach all other nodes via temporal paths in the created network. This yields temporal spanners as equilibria of our game. We prove results on the convergence to and the existence of equilibrium networks, on the complexity of finding best agent strategies, and on the quality of the equilibria. By taking these first important steps, we uncover challenging open problems that call for an in-depth exploration of the creation of temporal graphs by strategic agents.
翻訳日:2023-05-15 12:38:11 公開日:2023-05-12
# 飽和非単調活性化関数

Saturated Non-Monotonic Activation Functions ( http://arxiv.org/abs/2305.07537v1 )

ライセンス: Link先を確認
Junjia Chen and Zhibin Pan(参考訳) アクティベーション機能はディープラーニングネットワークに不可欠である。 一般的な多用途アクティベーション関数はほとんど単調関数であり、いくつかの非単調アクティベーション関数は探索され、有望な性能を示す。 しかし、非単調性を導入することで正の入力も変化し、これはReLUとその変種の成功によって不要であることが証明される。 本稿では,非単調活性化関数の展開を2倍にし,reluと非単調活性化関数の特性を組み合わせることにより,飽和ガウス誤差線形単位を提案する。 提案手法では,ゲル,シル,ミッシュの負の部分からなるsgelu,ssilu,smishの3つの新しい活性化関数とreluの陽性部分を提案する。 CIFAR-100における画像分類実験の結果,提案するアクティベーション関数は,複数のディープラーニングアーキテクチャにおいて,高い効率で,最先端のベースラインよりも優れていた。

Activation functions are essential to deep learning networks. Popular and versatile activation functions are mostly monotonic functions, some non-monotonic activation functions are being explored and show promising performance. But by introducing non-monotonicity, they also alter the positive input, which is proved to be unnecessary by the success of ReLU and its variants. In this paper, we double down on the non-monotonic activation functions' development and propose the Saturated Gaussian Error Linear Units by combining the characteristics of ReLU and non-monotonic activation functions. We present three new activation functions built with our proposed method: SGELU, SSiLU, and SMish, which are composed of the negative portion of GELU, SiLU, and Mish, respectively, and ReLU's positive portion. The results of image classification experiments on CIFAR-100 indicate that our proposed activation functions are highly effective and outperform state-of-the-art baselines across multiple deep learning architectures.
翻訳日:2023-05-15 12:32:04 公開日:2023-05-12
# WEDGE: 生成視覚言語モデルを用いた多天候自律走行データセット

WEDGE: A multi-weather autonomous driving dataset built from generative vision-language models ( http://arxiv.org/abs/2305.07528v1 )

ライセンス: Link先を確認
Aboli Marathe, Deva Ramanan, Rahee Walambe, Ketan Kotecha(参考訳) 開けた道路は、極端な気象条件からの視界の低下など、自律的な認識に多くの課題をもたらす。 good-weatherデータセットでトレーニングされたモデルは、これらの分散設定ではしばしば検出に失敗する。 本稿では,視覚言語生成モデルを用いてプロンプトによって生成された合成データセットであるwedge (weather images by dall-e generation)を提案する。 WEDGEは16の極端気象条件で3360枚の画像で構成され、16513個の境界ボックスを手動でアノテートし、気象分類と2D物体検出のタスクの研究を支援する。 我々はWEDGEを研究の立場から分析し、超ウェザー自律認識の有効性を検証する。 53.87%のテスト精度と45.41マップによる分類と検出のベースライン性能を確立した。 最も重要な点として、WEDGEは最先端の検出器の微調整に使用でき、実際の気象指標(DAWNなど)のSOTA性能を4.48 APで改善している。 WEDGEはOpenAIのライセンスで収集され、CC BY-NC-SA 4.0ライセンスの下で一般公開されている。 この作業とデータセットのリポジトリはhttps://infernolia.github.io/WEDGEで公開されている。

The open road poses many challenges to autonomous perception, including poor visibility from extreme weather conditions. Models trained on good-weather datasets frequently fail at detection in these out-of-distribution settings. To aid adversarial robustness in perception, we introduce WEDGE (WEather images by DALL-E GEneration): a synthetic dataset generated with a vision-language generative model via prompting. WEDGE consists of 3360 images in 16 extreme weather conditions manually annotated with 16513 bounding boxes, supporting research in the tasks of weather classification and 2D object detection. We have analyzed WEDGE from research standpoints, verifying its effectiveness for extreme-weather autonomous perception. We establish baseline performance for classification and detection with 53.87% test accuracy and 45.41 mAP. Most importantly, WEDGE can be used to fine-tune state-of-the-art detectors, improving SOTA performance on real-world weather benchmarks (such as DAWN) by 4.48 AP for well-generated classes like trucks. WEDGE has been collected under OpenAI's terms of use and is released for public use under the CC BY-NC-SA 4.0 license. The repository for this work and dataset is available at https://infernolia.github.io/WEDGE.
翻訳日:2023-05-15 12:31:46 公開日:2023-05-12
# スピンエコーMRI超解像のための結合MRシーケンス最適化は純粋ニューラルネットワークアプローチに勝る

Joint MR sequence optimization beats pure neural network approaches for spin-echo MRI super-resolution ( http://arxiv.org/abs/2305.07524v1 )

ライセンス: Link先を確認
Hoai Nam Dang, Vladimir Golkov, Thomas Wimmer, Daniel Cremers, Andreas Maier and Moritz Zaiss(参考訳) 現在のMRI超解像法(SR)は、ニューラルネットワーク(NN)の入力として典型的な臨床シーケンスから得られた既存のコントラストのみを使用する。 ターボスピンエコーシークエンス(TSE)では、シーケンスパラメータは取得した画像の実際の解像度に強い影響を与え、NNの性能に考慮すべき影響を及ぼす。 SR-TSEのためのMRシークエンスとニューラルネットワークパラメータのエンドツーエンド最適化を実現するための既知の演算子学習手法を提案する。 プロトン密度−(PD−)およびT2重み付きTSEの高周波パルス列と、その後に応用された畳み込みニューラルネットワークとを共同で最適化し、対応するPDwおよびT2w超解像TSE画像を予測する。 検出された高周波パルストレインの設計は、SRタスクを実行するためにNNに最適な信号を生成する。 本手法はシミュレーションに基づくオプティミゼーションから生体内計測へ一般化し,取得した物理形sr画像は,純粋なネットワークトレーニング手法と比較して,時間消費セグメント化高分解能tseシーケンスと高い相関を示す。

Current MRI super-resolution (SR) methods only use existing contrasts acquired from typical clinical sequences as input for the neural network (NN). In turbo spin echo sequences (TSE) the sequence parameters can have a strong influence on the actual resolution of the acquired image and have consequently a considera-ble impact on the performance of the NN. We propose a known-operator learning approach to perform an end-to-end optimization of MR sequence and neural net-work parameters for SR-TSE. This MR-physics-informed training procedure jointly optimizes the radiofrequency pulse train of a proton density- (PD-) and T2-weighted TSE and a subsequently applied convolutional neural network to predict the corresponding PDw and T2w super-resolution TSE images. The found radiofrequency pulse train designs generate an optimal signal for the NN to perform the SR task. Our method generalizes from the simulation-based optimi-zation to in vivo measurements and the acquired physics-informed SR images show higher correlation with a time-consuming segmented high-resolution TSE sequence compared to a pure network training approach.
翻訳日:2023-05-15 12:31:27 公開日:2023-05-12
# pillaracc: エッジデバイス上のリアルタイムポイントクラウド3dオブジェクト検出のためのスパースポイントピラーズアクセラレータ

PillarAcc: Sparse PointPillars Accelerator for Real-Time Point Cloud 3D Object Detection on Edge Devices ( http://arxiv.org/abs/2305.07522v1 )

ライセンス: Link先を確認
Minjae Lee, Hyungmin Kim, Seongmin Park, Minyong Yoon, Janghwan Lee, Junwon Choi, Mingu Kang, Jungwook Choi(参考訳) ポイントクラウド(PC)データを用いた3Dオブジェクト検出は、効率的な符号化が厳しいリソースとレイテンシ要求を満たすための鍵となる、自律運転認識パイプラインにとって不可欠である。 広く採用されている鳥眼ビュー(BEV)エンコーディングであるPointPillarsは、高精度な3Dオブジェクト検出のために、3Dポイントクラウドデータを2Dピラーに集約する。 しかし、ポイントピラーを用いた最先端の手法の多くは、柱エンコードの本質的なスパースを見落としており、重要な計算量削減の機会を欠いている。 本研究では,分散畳み込み処理を高速化し,柱型3次元物体検出ネットワークにおけるスパース性利用を最大化する,画期的なアルゴリズム・ハードウエア協調設計を提案する。 精度とスパーシティの最適バランスを達成するために,高度なピラープルーニング法を用いてスパーシフィケーションの機会を調査した。 我々は,線形複雑入出力マッピング生成とコンフリクトフリーの集束メモリアクセスを通じてスパース柱の畳み込みを促進する,最先端のスパーシティ支援機構であるPillarAccを紹介する。 さらに,多種多様な操作下での最適ハードウェア利用のための柱処理スケジュールを動的に調整するデータフロー最適化手法を提案する。 我々はPillarAccを様々な最先端3Dオブジェクト検出ネットワークとベンチマークで評価し、代表的エッジプラットフォームと比較して顕著なスピードアップと省エネを実現し、極小精度で500FPSのポイントピラース速度を記録破りで実証した。

3D object detection using point cloud (PC) data is vital for autonomous driving perception pipelines, where efficient encoding is key to meeting stringent resource and latency requirements. PointPillars, a widely adopted bird's-eye view (BEV) encoding, aggregates 3D point cloud data into 2D pillars for high-accuracy 3D object detection. However, most state-of-the-art methods employing PointPillar overlook the inherent sparsity of pillar encoding, missing opportunities for significant computational reduction. In this study, we propose a groundbreaking algorithm-hardware co-design that accelerates sparse convolution processing and maximizes sparsity utilization in pillar-based 3D object detection networks. We investigate sparsification opportunities using an advanced pillar-pruning method, achieving an optimal balance between accuracy and sparsity. We introduce PillarAcc, a state-of-the-art sparsity support mechanism that enhances sparse pillar convolution through linear complexity input-output mapping generation and conflict-free gather-scatter memory access. Additionally, we propose dataflow optimization techniques, dynamically adjusting the pillar processing schedule for optimal hardware utilization under diverse sparsity operations. We evaluate PillarAcc on various cutting-edge 3D object detection networks and benchmarks, achieving remarkable speedup and energy savings compared to representative edge platforms, demonstrating record-breaking PointPillars speed of 500FPS with minimal compromise in accuracy.
翻訳日:2023-05-15 12:31:07 公開日:2023-05-12
# AGFormer: Anchor-Graph Transformerを使った効率的なグラフ表現

AGFormer: Efficient Graph Representation with Anchor-Graph Transformer ( http://arxiv.org/abs/2305.07521v1 )

ライセンス: Link先を確認
Bo Jiang, Fei Xu, Ziyan Zhang, Jin Tang and Feiping Nie(参考訳) GCNの局所受容問題を緩和するため、Transformerはグラフデータ表現と学習のためのノードの長距離依存をキャプチャするために利用される。 しかし、既存のグラフトランスフォーマーは、ノード対ノードのメッセージパッシングに通常の自己アテンションモジュールを使用し、全てのノード対間の親和性や関係性を学習する必要があるため、計算コストが高くなる。 また、通常はグラフノイズに敏感である。 この問題を解決するために,アンカーグラフモデルを利用した新しいグラフトランスフォーマーアーキテクチャ,Anchor Graph Transformer (AGFormer)を提案する。 具体的には、agformerはまずいくつかの代表的アンカーを取得し、次にnode-to-nodeメッセージパッシングをanchorおよびanchor-to-nodeメッセージパッシングプロセスに変換する。 したがって、AGFormerは通常のノード間変換よりも効率的で堅牢である。 いくつかのベンチマークデータセットに対する大規模な実験は、提案されたAGFormerの有効性とメリットを示している。

To alleviate the local receptive issue of GCN, Transformers have been exploited to capture the long range dependences of nodes for graph data representation and learning. However, existing graph Transformers generally employ regular self-attention module for all node-to-node message passing which needs to learn the affinities/relationships between all node's pairs, leading to high computational cost issue. Also, they are usually sensitive to graph noises. To overcome this issue, we propose a novel graph Transformer architecture, termed Anchor Graph Transformer (AGFormer), by leveraging an anchor graph model. To be specific, AGFormer first obtains some representative anchors and then converts node-to-node message passing into anchor-to-anchor and anchor-to-node message passing process. Thus, AGFormer performs much more efficiently and also robustly than regular node-to-node Transformers. Extensive experiments on several benchmark datasets demonstrate the effectiveness and benefits of proposed AGFormer.
翻訳日:2023-05-15 12:30:38 公開日:2023-05-12
# HFLIC:強化された変換による人間フレンドリーな学習画像圧縮

HFLIC: Human Friendly Perceptual Learned Image Compression with Reinforced Transform ( http://arxiv.org/abs/2305.07519v1 )

ライセンス: Link先を確認
Peirong Ning, Wei Jiang, Ronggang Wang(参考訳) 近年,低ビットレートでも細部を細部まで保持し,レート分散知覚圧縮を優先する学習画像圧縮技術が急速に進歩している。 しかし、現在の学習に基づく画像圧縮手法は、しばしば人間にやさしい圧縮を犠牲にし、長い復号時間を必要とする。 本稿では、既存の画像圧縮モデルのバックボーンネットワークとロス関数の強化を提案し、人間の知覚と効率の改善に焦点をあてる。 提案手法は,復号時間が少なく,人間に優しい圧縮を提供するとともに,最先端の学習画像圧縮手法や古典的手法と比較して,競合する主観的な結果が得られる。 経験的評価により,提案手法の有効性を実証し,25%以上のビットレートを同じ主観的品質で節約できることを示した。

In recent years, there has been rapid development in learned image compression techniques that prioritize ratedistortion-perceptual compression, preserving fine details even at lower bit-rates. However, current learning-based image compression methods often sacrifice human-friendly compression and require long decoding times. In this paper, we propose enhancements to the backbone network and loss function of existing image compression model, focusing on improving human perception and efficiency. Our proposed approach achieves competitive subjective results compared to state-of-the-art end-to-end learned image compression methods and classic methods, while requiring less decoding time and offering human-friendly compression. Through empirical evaluation, we demonstrate the effectiveness of our proposed method in achieving outstanding performance, with more than 25% bit-rate saving at the same subjective quality.
翻訳日:2023-05-15 12:30:19 公開日:2023-05-12
# BlendFields: 実例駆動の顔モデリング

BlendFields: Few-Shot Example-Driven Facial Modeling ( http://arxiv.org/abs/2305.07514v1 )

ライセンス: Link先を確認
Kacper Kania, Stephan J. Garbin, Andrea Tagliasacchi, Virginia Estellers, Kwang Moo Yi, Julien Valentin, Tomasz Trzci\'nski, Marek Kowalski(参考訳) 人間の顔の忠実な視覚化を生成するには、顔の形状と外観の粗い部分と細かい部分の両方をキャプチャする必要がある。 既存の方法は、データ駆動であり、研究コミュニティに公開されていない広範なデータコーパスを必要とするか、あるいは、粗い顔形状のみをモデル化するために設計されたメッシュの離散化と線形変形でテクスチャのきめ細かい詳細を表現できない幾何学的顔モデルに依存しているため、詳細を捉えることができない。 従来のコンピュータグラフィックス技術からインスピレーションを得て,このギャップを橋渡しする手法を提案する。 見えない表現は、極端なポーズのスパースセットからの外観をブレンドすることによってモデル化される。 このブレンドは、これらの表現の局所的な体積変化を測定し、テスト時に同様の表現を行うたびに、その外観を局所的に再現する。 本手法は, 顔の滑らかな体積変形の上に細粒度の効果を付加し, 顔以外の表現を一般化する方法を示す。

Generating faithful visualizations of human faces requires capturing both coarse and fine-level details of the face geometry and appearance. Existing methods are either data-driven, requiring an extensive corpus of data not publicly accessible to the research community, or fail to capture fine details because they rely on geometric face models that cannot represent fine-grained details in texture with a mesh discretization and linear deformation designed to model only a coarse face geometry. We introduce a method that bridges this gap by drawing inspiration from traditional computer graphics techniques. Unseen expressions are modeled by blending appearance from a sparse set of extreme poses. This blending is performed by measuring local volumetric changes in those expressions and locally reproducing their appearance whenever a similar expression is performed at test time. We show that our method generalizes to unseen expressions, adding fine-grained effects on top of smooth volumetric deformations of a face, and demonstrate how it generalizes beyond faces.
翻訳日:2023-05-15 12:30:01 公開日:2023-05-12
# 連続可変量子メモリの検証

Verification of Continuous-Variable Quantum Memories ( http://arxiv.org/abs/2305.07513v1 )

ライセンス: Link先を確認
Paolo Abiuso(参考訳) 適切な量子メモリは、測定の後に古典的情報ストレージと最終的な状態準備、すなわち絡み合い破壊(eb)チャネルでシミュレートできない量子チャネルを構成すると議論される。 量子メモリ(非EBチャネル)の検証は、誠実なユーザが信頼できないリモートプロバイダの量子メモリをテストしようとするタスクである。 このタスクは本質的に、信頼できる量子入力を持つプロトコルのクラスに適しており、しばしば測定デバイス非依存(MDI)プロトコルと呼ばれる。 本稿では,連続可変(CV)システムにおける非EBチャネルのMDI認証について検討する。 敵対的metrologyに基づく単純な証人を提供し、すべての非ガウス的非互換性破壊量子記憶の検証に使用できる実験的にフレンドリーなプロトコルを記述する。 我々の結果は現在の技術でテストでき、CV量子トランスデューサや伝送線路などの非EBチャネルを生じる他のデバイスをテストするために応用できる。

A proper quantum memory is argued to consist in a quantum channel which cannot be simulated with a measurement followed by classical information storage and a final state preparation, i.e. an entanglement breaking (EB) channel. The verification of quantum memories (non-EB channels) is a task in which an honest user wants to test the quantum memory of an untrusted, remote provider. This task is inherently suited for the class of protocols with trusted quantum inputs, sometimes called measurement-device-independent (MDI) protocols. Here, we study the MDI certification of non-EB channels in continuous variable (CV) systems. We provide a simple witness based on adversarial metrology, and describe an experimentally friendly protocol that can be used to verify all non Gaussian incompatibility breaking quantum memories. Our results can be tested with current technology and can be applied to test other devices resulting in non-EB channels, such as CV quantum transducers and transmission lines.
翻訳日:2023-05-15 12:29:39 公開日:2023-05-12
# unlearnを学ぶ: 機械学習に関する調査

Learn to Unlearn: A Survey on Machine Unlearning ( http://arxiv.org/abs/2305.07512v1 )

ライセンス: Link先を確認
Youyang Qu, Xin Yuan, Ming Ding, Wei Ni, Thierry Rakotoarivelo, David Smith(参考訳) 機械学習(ML)モデルはプライベート情報を含み、忘れられる権利を実装することは、多くのデータアプリケーションにおいて難しいプライバシー問題である。 トレーニングされたモデルからセンシティブなデータを除去する代替手段として機械学習が登場したが、完全に再トレーニングされたMLモデルは実現不可能なことが多い。 この調査は、正確な方法と近似方法、可能性攻撃、検証アプローチの両方を含む、機械学習技術の簡潔な評価を提供する。 この調査は、各メソッドのメリットと制限を比較し、deltagrad exact machine unlearning法を用いたパフォーマンス評価を行う。 この調査はまた、公平な問題を緩和するために非iid削除のための堅牢なモデルの必要性の高まりのような課題も強調している。 全体として、この調査は機械学習技術とアプリケーションの完全なシナプスを提供し、この進化する分野における今後の研究の方向性を指摘している。 この調査は、MLシステムにおけるプライバシとエクイティの提供を目指す研究者や実践者にとって、貴重なリソースになることを目指している。

Machine Learning (ML) models contain private information, and implementing the right to be forgotten is a challenging privacy issue in many data applications. Machine unlearning has emerged as an alternative to remove sensitive data from a trained model, but completely retraining ML models is often not feasible. This survey provides a concise appraisal of Machine Unlearning techniques, encompassing both exact and approximate methods, probable attacks, and verification approaches. The survey compares the merits and limitations each method and evaluates their performance using the Deltagrad exact machine unlearning method. The survey also highlights challenges like the pressing need for a robust model for non-IID deletion to mitigate fairness issues. Overall, the survey provides a thorough synopsis of machine unlearning techniques and applications, noting future research directions in this evolving field. The survey aims to be a valuable resource for researchers and practitioners seeking to provide privacy and equity in ML systems.
翻訳日:2023-05-15 12:29:23 公開日:2023-05-12
# 医療画像における説明可能な人工知能:調査

eXplainable Artificial Intelligence on Medical Images: A Survey ( http://arxiv.org/abs/2305.07511v1 )

ライセンス: Link先を確認
Matteus Vargas Sim\~ao da Silva, Rodrigo Reis Arrais, Jhessica Victoria Santos da Silva, Felipe Souza T\^anios, Mateus Antonio Chinelatto, Natalia Backhaus Pereira, Renata De Paris, Lucas Cesar Ferreira Domingos, Rodrigo D\'oria Villa\c{c}a, Vitor Lopes Fabris, Nayara Rossi Brito da Silva, Ana Claudia Akemi Matsuki de Faria, Jose Victor Nogueira Alves da Silva, Fabiana Cristina Queiroz de Oliveira Marucci, Francisco Alves de Souza Neto, Danilo Xavier Silva, Vitor Yukio Kondo, Claudio Filipi Gon\c{c}alves dos Santos(参考訳) ここ数年、医学分野に適用される深層学習に関する著作が急増している。 これらのモデルの厳密な評価の必要性は、これらの結果を医療試験関係者全員に説明するために必要である。 機械学習分野の最近の分野は、XAIとしても知られる説明可能な人工知能であり、望まれる評価を許容するために、このようなブラックボックスモデルの結果を説明することを目的としている。 本研究は、XAI分野における最近のいくつかの研究を医学的診断研究に適用し、機械学習の結果ががんやCOVID-19などいくつかの異なる疾患で説明可能であることを分析した。

Over the last few years, the number of works about deep learning applied to the medical field has increased enormously. The necessity of a rigorous assessment of these models is required to explain these results to all people involved in medical exams. A recent field in the machine learning area is explainable artificial intelligence, also known as XAI, which targets to explain the results of such black box models to permit the desired assessment. This survey analyses several recent studies in the XAI field applied to medical diagnosis research, allowing some explainability of the machine learning results in several different diseases, such as cancers and COVID-19.
翻訳日:2023-05-15 12:29:08 公開日:2023-05-12
# MoMo:適応学習率のためのモーメントモデル

MoMo: Momentum Models for Adaptive Learning Rates ( http://arxiv.org/abs/2305.07583v1 )

ライセンス: Link先を確認
Fabian Schaipp and Ruben Ohana and Michael Eickenberg and Aaron Defazio and Robert M. Gower(参考訳) 我々は任意の運動量法で利用できる新しい適応学習率を提案する。 新たな学習率を示すために,運動量を持つSGD(SGDM)であるMoMoとMoMo-Adamを開発した。 提案手法はモデルに基づく確率的最適化によって動機付けされ,各イテレーションでサンプリングされたバッチ損失と勾配のモーメント推定を用いて損失関数のモデルを構築する。 また, このモデルでは, トランケーションを用いて, 損失関数の既知の下限も利用している。 実際、ほとんどの損失は0以下である。 次に、このモデルを各イテレーションでほぼ最小化し、次のステップを計算します。 未知の下界を持つ損失に対して、我々はモデルで使用する下界の新しいオンザフライ推定を開発する。 数値実験により, mnist, cifar10, cifar100, imagenet32, dlrm, criteoデータセット上の画像分類器, 変換タスクiwslt14上のトランスフォーマーモデルにおけるハイパーパラメータチューニングの精度と頑健性の観点から, sgdmおよびadamよりもmomo法が改善することを示した。

We present new adaptive learning rates that can be used with any momentum method. To showcase our new learning rates we develop MoMo and MoMo-Adam, which are SGD with momentum (SGDM) and Adam together with our new adaptive learning rates. Our MoMo methods are motivated through model-based stochastic optimization, wherein we use momentum estimates of the batch losses and gradients sampled at each iteration to build a model of the loss function. Our model also makes use of any known lower bound of the loss function by using truncation. Indeed most losses are bounded below by zero. We then approximately minimize this model at each iteration to compute the next step. For losses with unknown lower bounds, we develop new on-the-fly estimates of the lower bound that we use in our model. Numerical experiments show that our MoMo methods improve over SGDM and Adam in terms of accuracy and robustness to hyperparameter tuning for training image classifiers on MNIST, CIFAR10, CIFAR100, Imagenet32, DLRM on the Criteo dataset, and a transformer model on the translation task IWSLT14.
翻訳日:2023-05-15 12:21:50 公開日:2023-05-12
# ノードとグラフ学習のためのフィッシャー情報埋め込み

Fisher Information Embedding for Node and Graph Learning ( http://arxiv.org/abs/2305.07580v1 )

ライセンス: Link先を確認
Dexiong Chen, Paolo Pellizzoni, Karsten Borgwardt(参考訳) グラフアテンションネットワーク(GAT)のような注意に基づくグラフニューラルネットワーク(GNN)は、グラフ構造化データや学習ノードの埋め込みを処理するニューラルネットワークとして人気がある。 実験的な成功にもかかわらず、これらのモデルはラベル付きデータに依存しており、これらのモデルの理論的性質はまだ完全には理解されていない。 本稿では,グラフに対する注意に基づく新しいノード埋め込みフレームワークを提案する。 我々のフレームワークはノード周辺の部分グラフの多重集合(例えば近傍)のための階層的カーネル上に構築され、各カーネルは滑らかな統計多様体の幾何学を利用して多重集合のペアを比較する。 ノード埋め込みをガウス混合多様体で明示的に計算することにより,近傍集合に対する新しい注意の機構が導かれる。 埋め込みの創発性と表現性に関する理論的知見を提供し、注意に基づくGNNのより深い理解に寄与する。 ラベル付きデータを必要としない非教師付き手法を用いて,効率的な非教師付き・教師付き手法を提案する。 いくつかのノード分類ベンチマークの実験を通して,提案手法がGATなどの既存の注目グラフモデルより優れていることを示す。 私たちのコードはhttps://github.com/borgwardtlab/fisher_information_embeddingで利用可能です。

Attention-based graph neural networks (GNNs), such as graph attention networks (GATs), have become popular neural architectures for processing graph-structured data and learning node embeddings. Despite their empirical success, these models rely on labeled data and the theoretical properties of these models have yet to be fully understood. In this work, we propose a novel attention-based node embedding framework for graphs. Our framework builds upon a hierarchical kernel for multisets of subgraphs around nodes (e.g. neighborhoods) and each kernel leverages the geometry of a smooth statistical manifold to compare pairs of multisets, by "projecting" the multisets onto the manifold. By explicitly computing node embeddings with a manifold of Gaussian mixtures, our method leads to a new attention mechanism for neighborhood aggregation. We provide theoretical insights into genralizability and expressivity of our embeddings, contributing to a deeper understanding of attention-based GNNs. We propose efficient unsupervised and supervised methods for learning the embeddings, with the unsupervised method not requiring any labeled data. Through experiments on several node classification benchmarks, we demonstrate that our proposed method outperforms existing attention-based graph models like GATs. Our code is available at https://github.com/BorgwardtLab/fisher_information_embedding.
翻訳日:2023-05-15 12:21:26 公開日:2023-05-12
# 刑事司法制度における格差の進展--差別強化とリスクアセスメント・インスツルメンツ

The Progression of Disparities within the Criminal Justice System: Differential Enforcement and Risk Assessment Instruments ( http://arxiv.org/abs/2305.07575v1 )

ライセンス: Link先を確認
Miri Zilka, Riccardo Fogliato, Jiri Hron, Bradley Butcher, Carolyn Ashurst, and Adrian Weller(参考訳) アルゴリズム的リスク評価器(RAI)は刑事司法における意思決定をますます通知する。 raisは、主に犯罪の代理として逮捕記録に頼っている。 問題として、逮捕者が全体的な犯罪を反映する程度は、その人の特性によって異なる可能性がある。 犯罪と逮捕率の切り離しがraisに与える影響とその評価について検討する。 我々の主な貢献は、特定の人口統計に関連付けられた未観測犯罪の量を推定することで、このバイアスを定量化する手法である。 これらの無防備な犯罪は、現実の逮捕記録を増強し、一部、一部、合成犯罪記録を作成するために使用される。 このデータを用いて、現在デプロイされているraiの4つのポイントは、同様の記録を持つ白人よりも黒人に0.5~2.8ポイント高いリスクスコアを割り当てるが、セミシンセティックな\emph{crime}レコードとマッチすると、ギャップは4.5~11.0ポイントに増加すると推定する。 我々は、raisの使用に関する潜在的なリスクについて議論し、刑事司法制度の根本的な相違が考慮されていない場合、既存の不平等をいかに悪化させるかを強調した。 この結果を踏まえ,これらのツールの開発と評価を改善するためのレコメンデーションを提供する。

Algorithmic risk assessment instruments (RAIs) increasingly inform decision-making in criminal justice. RAIs largely rely on arrest records as a proxy for underlying crime. Problematically, the extent to which arrests reflect overall offending can vary with the person's characteristics. We examine how the disconnect between crime and arrest rates impacts RAIs and their evaluation. Our main contribution is a method for quantifying this bias via estimation of the amount of unobserved offenses associated with particular demographics. These unobserved offenses are then used to augment real-world arrest records to create part real, part synthetic crime records. Using this data, we estimate that four currently deployed RAIs assign 0.5--2.8 percentage points higher risk scores to Black individuals than to White individuals with a similar \emph{arrest} record, but the gap grows to 4.5--11.0 percentage points when we match on the semi-synthetic \emph{crime} record. We conclude by discussing the potential risks around the use of RAIs, highlighting how they may exacerbate existing inequalities if the underlying disparities of the criminal justice system are not taken into account. In light of our findings, we provide recommendations to improve the development and evaluation of such tools.
翻訳日:2023-05-15 12:21:05 公開日:2023-05-12
# 専門家のガウスゲート混合におけるパラメータ推定の収束率に向けて

Towards Convergence Rates for Parameter Estimation in Gaussian-gated Mixture of Experts ( http://arxiv.org/abs/2305.07572v1 )

ライセンス: Link先を確認
Huy Nguyen, TrungTin Nguyen, Khai Nguyen, Nhat Ho(参考訳) 当初、アンサンブル学習のためのニューラルネットワークとして導入されたmixed of experts(moe)は、機械学習、統計学、バイオインフォマティクス、経済学、医学など、いくつかの応用において、異種データ分析のための高度に成功した現代のディープニューラルネットワークの基本構成要素となっている。 実際にはその人気にもかかわらず、ガウシアンによるmoeパラメータ推定の収束挙動の十分な理解レベルは完成にはほど遠い。 この挑戦の根底にある理由は、ガウスゲーティングとエキスパートネットワークに共変量を含めることであり、これはそれらのパラメータに関して偏微分方程式を通して本質的に複雑な相互作用をもたらす。 本稿では,このモデルにおけるパラメータ推定を解くために,mle(maximum likelihood estimator)における不均一性を正確に把握するために,新しいボロノイ損失関数を設計することで,これらの問題に対処する。 第1の設定はガウスゲーティングのすべての位置パラメータがゼロでない場合であり,第2の設定は少なくとも1つのゼロ値位置パラメータが存在する場合である。 特に、これらの挙動は多項式方程式の2つの異なる系の可解性によって特徴づけられる。 最後に,理論結果を検証するためにシミュレーション研究を行う。

Originally introduced as a neural network for ensemble learning, mixture of experts (MoE) has recently become a fundamental building block of highly successful modern deep neural networks for heterogeneous data analysis in several applications, including those in machine learning, statistics, bioinformatics, economics, and medicine. Despite its popularity in practice, a satisfactory level of understanding of the convergence behavior of Gaussian-gated MoE parameter estimation is far from complete. The underlying reason for this challenge is the inclusion of covariates in the Gaussian gating and expert networks, which leads to their intrinsically complex interactions via partial differential equations with respect to their parameters. We address these issues by designing novel Voronoi loss functions to accurately capture heterogeneity in the maximum likelihood estimator (MLE) for resolving parameter estimation in these models. Our results reveal distinct behaviors of the MLE under two settings: the first setting is when all the location parameters in the Gaussian gating are non-zeros while the second setting is when there exists at least one zero-valued location parameter. Notably, these behaviors can be characterized by the solvability of two different systems of polynomial equations. Finally, we conduct a simulation study to verify our theoretical results.
翻訳日:2023-05-15 12:20:42 公開日:2023-05-12
# リハーサルとコリファレンス情報の予測によるストリーミングデータからの質問応答のためのメモリモデル

A Memory Model for Question Answering from Streaming Data Supported by Rehearsal and Anticipation of Coreference Information ( http://arxiv.org/abs/2305.07565v1 )

ライセンス: Link先を確認
Vladimir Araujo, Alvaro Soto, Marie-Francine Moens(参考訳) 既存の質問応答方法は、入力内容(例えば文書やビデオ)が常にそのタスクを解決するためにアクセス可能であると仮定することが多い。 あるいは、固定容量メモリにおける情報のインクリメンタルな理解と圧縮の人間のプロセスを模倣するために、メモリネットワークが導入された。 しかし、これらのモデルは、ネットワーク全体を通して解答の誤りをバックプロパゲーションすることで、メモリの維持方法のみを学習する。 その代わり、人間はリハーサルや期待などの記憶能力を高める効果的なメカニズムを持っていることが示唆されている。 これらからインスピレーションを得たメモリモデルを提案し,入力を処理しながらリハーサルと予測を行い,ストリーミングデータから質問応答タスクを解くための重要な情報を記憶する。 提案手法は,コア参照情報に着目したマスク付きモデリングタスクを通じて,学習中に自己管理される。 babi(short-sequence)データセットと大文字テキスト(narrativeqa)とビデオ(activitynet-qa)の質問応答データセットで検証し、従来のメモリネットワークアプローチよりも大幅に改善しました。 さらに,本研究ではメモリモデルにおいて提案するメカニズムの重要性を確認した。

Existing question answering methods often assume that the input content (e.g., documents or videos) is always accessible to solve the task. Alternatively, memory networks were introduced to mimic the human process of incremental comprehension and compression of the information in a fixed-capacity memory. However, these models only learn how to maintain memory by backpropagating errors in the answers through the entire network. Instead, it has been suggested that humans have effective mechanisms to boost their memorization capacities, such as rehearsal and anticipation. Drawing inspiration from these, we propose a memory model that performs rehearsal and anticipation while processing inputs to memorize important information for solving question answering tasks from streaming data. The proposed mechanisms are applied self-supervised during training through masked modeling tasks focused on coreference information. We validate our model on a short-sequence (bAbI) dataset as well as large-sequence textual (NarrativeQA) and video (ActivityNet-QA) question answering datasets, where it achieves substantial improvements over previous memory network approaches. Furthermore, our ablation study confirms the proposed mechanisms' importance for memory models.
翻訳日:2023-05-15 12:20:02 公開日:2023-05-12
# きめ細かい視覚・言語理解の進歩の計測

Measuring Progress in Fine-grained Vision-and-Language Understanding ( http://arxiv.org/abs/2305.07558v1 )

ライセンス: Link先を確認
Emanuele Bugliarello, Laurent Sartran, Aishwarya Agrawal, Lisa Anne Hendricks, Aida Nematzadeh(参考訳) Webからの大規模画像テキストデータの事前学習は、多くの視覚・言語(V&L)タスクの急速な進歩を促す一方で、最近の研究は、事前学習されたモデルには、関係性、動詞、画像中の数字を認識できる機能など、"きめ細かい"理解が欠けていることを示した。 この結果、コミュニティは新しいベンチマークを開発するか、そのような機能のためのモデルを開発することへの関心が高まった。 この方向の進捗をよりよく理解し、定量化するために、4つの詳細なベンチマークで4つの競合V&Lモデルを検証した。 分析を通じて、x-vlm(zeng et al., 2022)は他のベースラインよりも一貫して優れており、webデータのスケーリングよりもパフォーマンスにモデルイノベーションが影響する可能性があることが分かりました。 X-VLMのより深い研究を通じて、我々は、きめ細かいスキルを学ぶために、新しい損失と豊富なデータソースの両方の重要性を強調した。 最後に、トレーニングダイナミクスを検査し、いくつかのタスクでは、トレーニングの早い段階でパフォーマンスがピークに達するか、あるいは著しく変動し、決して収束しないことを発見します。

While pretraining on large-scale image-text data from the Web has facilitated rapid progress on many vision-and-language (V&L) tasks, recent work has demonstrated that pretrained models lack "fine-grained" understanding, such as the ability to recognise relationships, verbs, and numbers in images. This has resulted in an increased interest in the community to either develop new benchmarks or models for such capabilities. To better understand and quantify progress in this direction, we investigate four competitive V&L models on four fine-grained benchmarks. Through our analysis, we find that X-VLM (Zeng et al., 2022) consistently outperforms other baselines, and that modelling innovations can impact performance more than scaling Web data, which even degrades performance sometimes. Through a deeper investigation of X-VLM, we highlight the importance of both novel losses and rich data sources for learning fine-grained skills. Finally, we inspect training dynamics, and discover that for some tasks, performance peaks early in training or significantly fluctuates, never converging.
翻訳日:2023-05-15 12:19:41 公開日:2023-05-12
# 食品プラッターにおけるダイシュ検出:自動ダイエットロギングと栄養管理のための枠組み

Dish detection in food platters: A framework for automated diet logging and nutrition management ( http://arxiv.org/abs/2305.07552v1 )

ライセンス: Link先を確認
Mansi Goel, Shashank Dargar, Shounak Ghatak, Nidhi Verma, Pratik Chauhan, Anushka Gupta, Nikhila Vishnumolakala, Hareesh Amuru, Ekta Gambhir, Ronak Chhajed, Meenal Jain, Astha Jain, Samiksha Garg, Nitesh Narwade, Nikhilesh Verhwani, Abhuday Tiwari, Kirti Vashishtha and Ganesh Bagler(参考訳) 食生活は生活習慣病の流行の中心である。 正確な食事記録は、効果的な食事管理とカロリー制限の重要なボトルネックの1つである。 食品プラッターからのディッシュ検出は、視覚的に複雑な食品レイアウトのために難しい問題である。 本稿では,データコンパイル,アノテーション,最先端モデル同定からモバイルアプリ実装まで,ダイエット管理のためのエンドツーエンド計算フレームワークを提案する。 ケーススタディとして,インド料理の自動検出の課題となる複雑なプレゼンテーションで知られているインド料理の皿の文脈で,この枠組みを実装した。 61のインド料理を皮切りに、ディープラーニングに基づくオブジェクト検出アーキテクチャの比較分析により最先端のモデルを同定する。 68,005枚のプラッター画像と134,814個の手動料理アノテーションを巧妙にまとめて,まず,マルチラベル分類のための10のアーキテクチャを比較し,ResNet152(mAP=84.51%)を最良のモデルとして同定する。 YOLOv8x (mAP=87.70%) は、徹底的な性能評価を経て実装された8つのディープラーニングモデルの中で、料理検出のための最良のモデルアーキテクチャとして登場した。 IndianFood10データセットの最先端モデルと比較することにより、このサブセットに対するYOLOv8xの優れたオブジェクト検出性能を示し、Resnet152をマルチラベル分類の最高のアーキテクチャとして確立する。 このように、豊富な注釈データに基づいて訓練されたモデルは、グローバル料理全体からの料理を含むように拡張することができる。 提案手法は, ダイエットログ, 食品レコメンデーションシステム, 栄養介入, ライフスタイル障害の緩和など, 多様な応用をともなう概念実証モバイルアプリケーションを通じて実証された。

Diet is central to the epidemic of lifestyle disorders. Accurate and effortless diet logging is one of the significant bottlenecks for effective diet management and calorie restriction. Dish detection from food platters is a challenging problem due to a visually complex food layout. We present an end-to-end computational framework for diet management, from data compilation, annotation, and state-of-the-art model identification to its mobile app implementation. As a case study, we implement the framework in the context of Indian food platters known for their complex presentation that poses a challenge for the automated detection of dishes. Starting with the 61 most popular Indian dishes, we identify the state-of-the-art model through a comparative analysis of deep-learning-based object detection architectures. Rooted in a meticulous compilation of 68,005 platter images with 134,814 manual dish annotations, we first compare ten architectures for multi-label classification to identify ResNet152 (mAP=84.51%) as the best model. YOLOv8x (mAP=87.70%) emerged as the best model architecture for dish detection among the eight deep-learning models implemented after a thorough performance evaluation. By comparing with the state-of-the-art model for the IndianFood10 dataset, we demonstrate the superior object detection performance of YOLOv8x for this subset and establish Resnet152 as the best architecture for multi-label classification. The models thus trained on richly annotated data can be extended to include dishes from across global cuisines. The proposed framework is demonstrated through a proof-of-concept mobile application with diverse applications for diet logging, food recommendation systems, nutritional interventions, and mitigation of lifestyle disorders.
翻訳日:2023-05-15 12:19:17 公開日:2023-05-12
# 自動微分落としの理解

Understanding Automatic Differentiation Pitfalls ( http://arxiv.org/abs/2305.07546v1 )

ライセンス: Link先を確認
Jan H\"uckelheim, Harshitha Menon, William Moses, Bruce Christianson, Paul Hovland, Laurent Hasco\"et(参考訳) 自動微分(automatic differentiation)またはバックプロパゲーション(backpropagation)、アド(ad)、オートディフ(autodiff)、アルゴリズム的微分( algorithmic differentiation)は、コンピュータプログラムの微分を正確かつ効率的に計算するための一般的な手法である。 しかし、ADによって計算された微分は誤って解釈されることがある。 これらの落とし穴は、ツールやアプローチで体系的に発生します。 本稿では,adの問題点を広く分類し,カオス,時間平均振動,離散化,固定点ループ,ルックアップテーブル,線形解法といった各カテゴリを例示する。 また,これらの状況におけるデバッグ手法とその有効性についても検討する。 この記事では、読者が予期せぬ行動を回避し、発生した問題をより容易に検出し、ADツールからより現実的な期待を得ることを望んでいる。

Automatic differentiation, also known as backpropagation, AD, autodiff, or algorithmic differentiation, is a popular technique for computing derivatives of computer programs accurately and efficiently. Sometimes, however, the derivatives computed by AD could be interpreted as incorrect. These pitfalls occur systematically across tools and approaches. In this paper we broadly categorize problematic usages of AD and illustrate each category with examples such as chaos, time-averaged oscillations, discretizations, fixed-point loops, lookup tables, and linear solvers. We also review debugging techniques and their effectiveness in these situations. With this article we hope to help readers avoid unexpected behavior, detect problems more easily when they occur, and have more realistic expectations from AD tools.
翻訳日:2023-05-15 12:18:48 公開日:2023-05-12
# 局所ヒストグラムを用いた内容に基づく宝石品検索

Content-based jewellery item retrieval using the local region-based histograms ( http://arxiv.org/abs/2305.07540v1 )

ライセンス: Link先を確認
Amin Muhammad Shoib, Summaira Jabeen, Changbo Wang, Tassawar Ali(参考訳) Jewelleryアイテム検索は、サンプルクエリ参照イメージを使用して、オンラインマーケットプレースで何を望むかを見つけるために定期的に使用される。 近年の進展を踏まえると、様々な宝石品の同時性、画像やビジュアルストリームにおける各種宝石品の排他的排除、形状変形、コンテンツベースのジュエリーアイテム検索(CBJIR)は、現実の世界におけるビジュアル検索に関連する限りの限界がある。 本稿では,HSV色空間における局所的地域ヒストグラムを用いたコンテンツベースジュエリーアイテム検索手法を提案する。 5つの局所領域を用いて,クエリ画像から特徴ベクトルを抽出した新しいジュエリー分類モジュールを開発した。 また、宝石分類モジュールを宝石データベースに適用して特徴ベクトルを抽出する。 最後に、データベース間の類似度スコアを照合し、クエリ特徴ベクトルを用いてデータベースからジュエリーアイテムを取得する。 提案手法は,利用可能なジュエリーアイテム検索データセット,すなわち ringFIR および Fashion Product Images データセットで検証される。 実験の結果, 提案手法は, 所望のジュエリー製品を取り出すためのベースライン法よりも優位であることがわかった。

Jewellery item retrieval is regularly used to find what people want on online marketplaces using a sample query reference image. Considering recent developments, due to the simultaneous nature of various jewelry items, various jewelry goods' occlusion in images or visual streams, as well as shape deformation, content-based jewellery item retrieval (CBJIR) still has limitations whenever it pertains to visual searching in the actual world. This article proposed a content-based jewellery item retrieval method using the local region-based histograms in HSV color space. Using five local regions, our novel jewellery classification module extracts the specific feature vectors from the query image. The jewellery classification module is also applied to the jewellery database to extract feature vectors. Finally, the similarity score is matched between the database and query features vectors to retrieve the jewellery items from the database. The proposed method performance is tested on publicly available jewellery item retrieval datasets, i.e. ringFIR and Fashion Product Images dataset. The experimental results demonstrate the dominance of the proposed method over the baseline methods for retrieving desired jewellery products.
翻訳日:2023-05-15 12:18:33 公開日:2023-05-12
# マルチモーダル感情分析:調査

Multimodal Sentiment Analysis: A Survey ( http://arxiv.org/abs/2305.07611v1 )

ライセンス: Link先を確認
Songning Lai, Haoxuan Xu, Xifeng Hu, Zhaoxia Ren and Zhi Liu(参考訳) マルチモーダル感情分析は人工知能の分野で重要な研究領域となっている。 ディープラーニングの最新技術により、この技術は新たな高度に達した。 応用と研究の両方に大きな可能性を秘めており、人気のある研究テーマとなっている。 本稿では,マルチモーダル感情分析の定義,背景,開発の概要について述べる。 また、最近のデータセットと高度なモデルもカバーし、この技術の課題と今後の展望を強調している。 最後に、今後の研究の方向性を推し進める。 このレビューは、有望な研究の方向性と、この分野の研究者に役立つマルチモーダル感情分析モデルの構築のための建設的な提案を提供していることに注意すべきである。

Multimodal sentiment analysis has become an important research area in the field of artificial intelligence. With the latest advances in deep learning, this technology has reached new heights. It has great potential for both application and research, making it a popular research topic. This review provides an overview of the definition, background, and development of multimodal sentiment analysis. It also covers recent datasets and advanced models, emphasizing the challenges and future prospects of this technology. Finally, it looks ahead to future research directions. It should be noted that this review provides constructive suggestions for promising research directions and building better performing multimodal sentiment analysis models, which can help researchers in this field.
翻訳日:2023-05-15 12:12:27 公開日:2023-05-12
# ChatGPTは推奨に値するか? 大規模言語モデル推薦における公平性の評価

Is ChatGPT Fair for Recommendation? Evaluating Fairness in Large Language Model Recommendation ( http://arxiv.org/abs/2305.07609v1 )

ライセンス: Link先を確認
Jizhi Zhang, Keqin Bao, Yang Zhang, Wenjie Wang, Fuli Feng, Xiangnan He(参考訳) LLM(Large Language Models)の顕著な成果は、新しいレコメンデーションパラダイム -- LLM (RecLLM)によるレコメンデーション -- の出現につながった。 それにもかかわらず、LLMは社会的偏見を含む可能性があるため、RecLLMによる勧告の公正性はさらなる調査が必要であることに注意する必要がある。 RecLLMの潜在的なリスクを避けるため、ユーザ側の様々な機密属性に対して、RecLLMの公平性を評価することが不可欠である。 RecLLMパラダイムと従来のレコメンデーションパラダイムの違いから、従来のレコメンデーションの公平性ベンチマークを直接使用するのは問題である。 このジレンマに対処するために,LLM (FaiRLLM) を用いたFairness of Recommendationと呼ばれる新しいベンチマークを提案する。 このベンチマークは、慎重に作成されたメトリクスと、音楽と映画という2つの推奨シナリオで8つのセンシティブな属性1を占めるデータセットで構成されている。 FaiRLLMベンチマークを用いて、ChatGPTの評価を行い、レコメンデーションを生成する際には、いくつかの機密属性に対して不公平であることがわかった。 コードとデータセットはhttps://github.com/jizhi-zhang/FaiRLLM.comで確認できます。

The remarkable achievements of Large Language Models (LLMs) have led to the emergence of a novel recommendation paradigm -- Recommendation via LLM (RecLLM). Nevertheless, it is important to note that LLMs may contain social prejudices, and therefore, the fairness of recommendations made by RecLLM requires further investigation. To avoid the potential risks of RecLLM, it is imperative to evaluate the fairness of RecLLM with respect to various sensitive attributes on the user side. Due to the differences between the RecLLM paradigm and the traditional recommendation paradigm, it is problematic to directly use the fairness benchmark of traditional recommendation. To address the dilemma, we propose a novel benchmark called Fairness of Recommendation via LLM (FaiRLLM). This benchmark comprises carefully crafted metrics and a dataset that accounts for eight sensitive attributes1 in two recommendation scenarios: music and movies. By utilizing our FaiRLLM benchmark, we conducted an evaluation of ChatGPT and discovered that it still exhibits unfairness to some sensitive attributes when generating recommendations. Our code and dataset can be found at https://github.com/jizhi-zhang/FaiRLLM.
翻訳日:2023-05-15 12:12:16 公開日:2023-05-12
# ジェネレーティブAI:教育における意味と応用

Generative AI: Implications and Applications for Education ( http://arxiv.org/abs/2305.07605v1 )

ライセンス: Link先を確認
Anastasia Olga (Olnancy) Tzirides, Akash Saini, Gabriela Zapata, Duane Searsmith, Bill Cope, Mary Kalantzis, Vania Castro, Theodora Kourkoulou, John Jones, Rodrigo Abrantes da Silva, Jen Whiting, Nikoleta Polyxeni Kastani(参考訳) 2022年11月のChatGPTの打ち上げは、一部の教育者の間でパニックを巻き起こし、他者からの資格ある熱意を喚起した。 Generative AIという抽象用語の下では、ChatGPTはコンピュータ生成テキスト、画像、その他のデジタルメディアを配信するための様々な技術の例である。 本稿では,1つの生成AI技術,大規模言語モデルから応答するチャットボット,C-LLMの教育効果について検討する。 複雑な学生作業のAIレビューと評価へのC-LLMの適用について報告する。 結論として,本論文では,言語コーパスに拘束される生成AIの本質的な限界と,二項表記によるテキスト表現について考察する。 これらの限界の中では、教育におけるジェネレーティブAIの出現と潜在的な応用の範囲を提案する。

The launch of ChatGPT in November 2022 precipitated a panic among some educators while prompting qualified enthusiasm from others. Under the umbrella term Generative AI, ChatGPT is an example of a range of technologies for the delivery of computer-generated text, image, and other digitized media. This paper examines the implications for education of one generative AI technology, chatbots responding from large language models, or C-LLM. It reports on an application of a C-LLM to AI review and assessment of complex student work. In a concluding discussion, the paper explores the intrinsic limits of generative AI, bound as it is to language corpora and their textual representation through binary notation. Within these limits, we suggest the range of emerging and potential applications of Generative AI in education.
翻訳日:2023-05-15 12:11:54 公開日:2023-05-12
# ViT Unified:ジョイントフィンガープリント認識とプレゼンテーションアタック検出

ViT Unified: Joint Fingerprint Recognition and Presentation Attack Detection ( http://arxiv.org/abs/2305.07602v1 )

ライセンス: Link先を確認
Steven A. Grosz, Kanishka P. Wijewardena, and Anil K. Jain(参考訳) セキュアな指紋認証システムは、悪意のあるユーザによる望ましくないアクセスからユーザを保護するために、プレゼンテーションアタック(spoof)検出と認識モジュールの両方を含む必要がある。 伝統的に、これらのタスクは2つの独立したシステムによって実行されるが、最近の研究では、高い精度を維持しつつ、システムの計算負荷を軽減するために、1つの統合システムアーキテクチャを持つ可能性を実証している。 本研究では,協調スプーフ検出およびマッチングのための視覚トランスフォーマーアーキテクチャを活用し,逐次システム(2つのVTモデルが独立に動作)と統合アーキテクチャ(両方のタスクに対して単一のVTモデル)の最先端(SOTA)モデルと競合する結果を報告する。 ViTモデルはこのタスクに特に適しており、ViTのグローバルな埋め込みエンコーディングは認識に有用な機能であるが、個々のローカル埋め込みはスプーフ検出に有用である。 我々は、livdet 2013 と 2015 年のクロスマッチセンサにおいて、平均統合マッチング(im)精度98.87%を達成するための統一モデルの能力を示す。 これは、シーケンシャルなデュアルViTシステムの98.95%のIM精度に匹敵するが、パラメータの約50%とレイテンシの約58%を持つ。

A secure fingerprint recognition system must contain both a presentation attack (i.e., spoof) detection and recognition module in order to protect users against unwanted access by malicious users. Traditionally, these tasks would be carried out by two independent systems; however, recent studies have demonstrated the potential to have one unified system architecture in order to reduce the computational burdens on the system, while maintaining high accuracy. In this work, we leverage a vision transformer architecture for joint spoof detection and matching and report competitive results with state-of-the-art (SOTA) models for both a sequential system (two ViT models operating independently) and a unified architecture (a single ViT model for both tasks). ViT models are particularly well suited for this task as the ViT's global embedding encodes features useful for recognition, whereas the individual, local embeddings are useful for spoof detection. We demonstrate the capability of our unified model to achieve an average integrated matching (IM) accuracy of 98.87% across LivDet 2013 and 2015 CrossMatch sensors. This is comparable to IM accuracy of 98.95% of our sequential dual-ViT system, but with ~50% of the parameters and ~58% of the latency.
翻訳日:2023-05-15 12:11:42 公開日:2023-05-12
# 静電場による極低温CaF分子の遮蔽衝突

Shielding collisions of ultracold CaF molecules with static electric fields ( http://arxiv.org/abs/2305.07600v1 )

ライセンス: Link先を確認
Bijit Mukherjee, Matthew D. Frye, C. Ruth Le Sueur, Michael R. Tarbutt and Jeremy M. Hutson(参考訳) 強静電場における極低温CaF分子の衝突について検討する。 このような磁場は相互作用ポテンシャルにおける長距離障壁の生成を可能にし、非弾性やその他の損失過程が生じる可能性のある短距離領域に分子が到達することを防ぐ。 弾性散乱と損失に対するレート係数の結合チャネル計算を行う。 本稿では,Van Vleck変換を用いて,エネルギー的によく分離されたロータ関数をベースとした効率的なプロシージャを開発する。 遮蔽はCaFにおいて特に効率的であり,23kV/cmのフィールドにおいて,2体損失過程の速度を10^7$以上削減できることを示す。 損失率は、かなりの範囲の分野において低いままである。 電子スピンと核スピンは、いくつかの小さな領域で強い損失をもたらすが、他の領域では効果がほとんどない。 結果は、CaFの蒸発冷却を量子縮退に向ける道を開いた。

We study collisions of ultracold CaF molecules in strong static electric fields. Such fields allow the creation of long-range barriers in the interaction potential, which prevent the molecules reaching the short-range region where inelastic and other loss processes are likely to occur. We carry out coupled-channel calculations of rate coefficients for elastic scattering and loss. We develop an efficient procedure for including energetically well-separated rotor functions in the basis set via a Van Vleck transformation. We show that shielding is particularly efficient for CaF and allows the rate of 2-body loss processes to be reduced by a factor of $10^7$ or more at a field of 23 kV/cm. The loss rates remain low over a substantial range of fields. Electron and nuclear spins cause strong additional loss in some small ranges of field, but have little effect elsewhere. The results pave the way for evaporative cooling of CaF towards quantum degeneracy.
翻訳日:2023-05-15 12:11:19 公開日:2023-05-12
# RHINO: ハンガリーマッチングによる動的デノーミングによる回転DETRによるオブジェクト指向物体検出

RHINO: Rotated DETR with Dynamic Denoising via Hungarian Matching for Oriented Object Detection ( http://arxiv.org/abs/2305.07598v1 )

ライセンス: Link先を確認
Hakjin Lee, Minki Song, Jamyoung Koo, Junghoon Seo(参考訳) Detection Transformer (DETR) の変種である DINO の公開により,検出トランスフォーマーは,エンドツーエンドの設計とスケーラビリティのメリットによって,オブジェクト検出ベンチマークにおける記録を破っている。 しかし、detrのオブジェクト指向オブジェクト検出への拡張は十分に研究されていないが、nmsの除去やアンカー関連コストといったエンドツーエンドアーキテクチャの利点が期待されている。 本稿では,指向オブジェクト検出のための最初の強 dino ベースラインを提案する。 指向オブジェクト検出のためのdetrの直接的採用は非重複予測を保証せず、これを緩和するための簡単なコストを提案している。 さらに,ハンガリーマッチングを用いて冗長なノイズクエリとクエリアライメントをフィルタリングし,トランスフォーマティブデコーダ層間の一貫性を保持できる新しいデノイジング戦略を提案する。 提案手法は, DOTA-v1.0/v1.5/v2.0 および DIOR-R ベンチマークにおいて, 先行する DETR などの性能より優れていた。

With the publication of DINO, a variant of the Detection Transformer (DETR), Detection Transformers are breaking the record in the object detection benchmark with the merits of their end-to-end design and scalability. However, the extension of DETR to oriented object detection has not been thoroughly studied although more benefits from its end-to-end architecture are expected such as removing NMS and anchor-related costs. In this paper, we propose a first strong DINO-based baseline for oriented object detection. We found that straightforward employment of DETRs for oriented object detection does not guarantee non-duplicate prediction, and propose a simple cost to mitigate this. Furthermore, we introduce a novel denoising strategy that uses Hungarian matching to filter redundant noised queries and query alignment to preserve matching consistency between Transformer decoder layers. Our proposed model outperforms previous rotated DETRs and other counterparts, achieving state-of-the-art performance in DOTA-v1.0/v1.5/v2.0, and DIOR-R benchmarks.
翻訳日:2023-05-15 12:11:08 公開日:2023-05-12
# 混合状態の局所幾何学と量子幾何学テンソル

Local geometry and quantum geometric tensor of mixed states ( http://arxiv.org/abs/2305.07597v1 )

ライセンス: Link先を確認
Xu-Yang Hou, Zheng Zhou, Xin Wang, Hao Guo, Chih-Chun Chien(参考訳) 量子幾何学テンソル(QGT)は、量子状態の局所幾何学を特徴づける基本的な概念である。 純量子状態の幾何学を鋳造し、QGTを抽出した後、密度行列とその精製を通じて混合量子状態に一般化する。 混合状態の唯一のゲージ不変QGTが導出され、その実部はビュール計量であり、その虚部はウルマン形式である。 ベリー曲率に比例する純粋状態 QGT の虚部とは対照的に、ウルマン形式は通常の物理過程に対して同一に消える。 さらに、異なる局所距離を結び、基礎となるフィブレーションを反映するピタゴラス型方程式が存在する。 ビューズ計量は、密度行列の固有値がプロセス中に変化しない場合、温度がゼロに近づくとフビニ・スタディ計量に還元され、純粋な状態と混合状態の距離の対応が確立される。 混合状態の幾何と qgt の包括的ビューを完結させるために、局所幾何学の異なる側面を対比する2つの例を示す。

The quantum geometric tensor (QGT) is a fundamental concept for characterizing the local geometry of quantum states. After casting the geometry of pure quantum states and extracting the QGT, we generalize the geometry to mixed quantum states via the density matrix and its purification. The unique gauge-invariant QGT of mixed states is derived, whose real part is the Bures metric and its imaginary part is the Uhlmann form. In contrast to the imaginary part of the pure-state QGT that is proportional to the Berry curvature, the Uhlmann form vanishes identically for ordinary physical processes. Moreover, there exists a Pythagorean-like equation that links different local distances, reflecting the underlying fibration. The Bures metric reduces to the Fubini-Study metric as temperature approaches zero if the eigenvalues of the density matrix do not change during the process, establishing a correspondence between the distances of pure and mixed states. To complete the comprehensive view of the geometry and QGT of mixed states, we present two examples contrasting different aspects of their local geometries.
翻訳日:2023-05-15 12:10:48 公開日:2023-05-12
# マルチキュービットシステムにおける絡み合い・測定・ユニタリ操作の可視化

Visualizing Entanglement, Measurements and Unitary Operations in multi-Qubit Systems ( http://arxiv.org/abs/2305.07596v1 )

ライセンス: Link先を確認
Jonas Bley, Eva Rexigel, Alda Arias, Nikolas Longen, Lars Krupp, Maximilian Kiefer-Emmanouilidis, Paul Lukowicz, Anna Donhauser, Stefan K\"uchemann, Jochen Kuhn, and Artur Widera(参考訳) 量子情報科学とテクノロジーの分野では、量子状態とプロセスの表現と視覚化は研究と教育の両方に不可欠である。 この文脈では、特に数量子ビットのアンサンブルに焦点を当てる。 悪名高いブロッホ球のような単一量子ビットのイラストには強力な表現が存在するが、量子相関や少数体の絡み合いを直感的に理解するための類似した視覚化は少ない。 ここでは、そのようなアンサンブルの表現として次元円記法を示し、いわゆる量子ビットの円記法を適用する。 n$-粒子系は$n$-次元空間で表現され、分離性の数学的条件は量子状態の対称性条件を可視化する。 この表記は、少数の量子ビット系における絡み合い、測定、ユニタリ演算などの非自明な量子的性質や過程を広い聴衆に伝達する大きな可能性を約束し、直感的な量子洞察と形式的な数学的記述の間の橋渡しとして教育を超えてこれらの概念の理解を高めることができる。

In the field of quantum information science and technology, the representation and visualization of quantum states and processes are essential for both research and education. In this context, a focus especially lies on ensembles of few qubits. While powerful representations exist for single-qubit illustrations, such as the infamous Bloch sphere, similar visualizations to intuitively understand quantum correlations or few-body entanglement are scarce. Here, we present the dimensional circle notation as a representation of such ensembles, adapting the so-called circle notation of qubits. The $n$-particle system is represented in an $n$-dimensional space, and the mathematical conditions for separability lead to symmetry conditions of the quantum state visualized. This notation promises significant potential for conveying nontrivial quantum properties and processes such as entanglement, measurements and unitary operations in few-qubit systems to a broader audience, and it could enhance understanding of these concepts beyond education as a bridge between intuitive quantum insight and formal mathematical descriptions.
翻訳日:2023-05-15 12:10:28 公開日:2023-05-12
# Opti Code Pro: コードリファクタリングに対するヒューリスティックな検索ベースのアプローチ

Opti Code Pro: A Heuristic Search-based Approach to Code Refactoring ( http://arxiv.org/abs/2305.07594v1 )

ライセンス: Link先を確認
Sourena Khanzadeh, Samad Alias Nyein Chan, Richard Valenzano and Manar Alalfi(参考訳) 本稿では,コードリファクタリングにおける最良検索手法の評価手法を提案する。 コードリファクタリングの動機は、機能を変更することなく、既存のプログラムの設計、構造、実装を改善することである。 結合と凝集の非常に特異な問題を解くため, 完全リファクタリング問題の近似にヒューリスティック検索に基づく手法を用いて, 結合性が高く, 結合性が低い解へリファクタリングプロセスを導くことを提案する。 我々は,ランダム状態問題に対するこの手法の有効性の実証例を提供し,javaプロジェクトでアルゴリズムを実装するためのツールを開発した。

This paper presents an approach that evaluates best-first search methods to code refactoring. The motivation for code refactoring could be to improve the design, structure, or implementation of an existing program without changing its functionality. To solve a very specific problem of coupling and cohesion, we propose using heuristic search-based techniques on an approximation of the full code refactoring problem, to guide the refactoring process toward solutions that have high cohesion and low coupling. We evaluated our approach by providing demonstrative examples of the effectiveness of this approach on random state problems and created a tool to implement the algorithm on Java projects.
翻訳日:2023-05-15 12:10:07 公開日:2023-05-12
# 惑星地質図作成のためのSegment Anything(SAM)モデルによる知識蒸留

Knowledge distillation with Segment Anything (SAM) model for Planetary Geological Mapping ( http://arxiv.org/abs/2305.07586v1 )

ライセンス: Link先を確認
Sahib Julka and Michael Granitzer(参考訳) 惑星科学の研究は膨大な量のリモートセンシングデータを分析し、それらはしばしば注釈や処理に費用がかかり、時間がかかる。 この分野で重要なタスクの1つは地質図で、地質学的特徴や地形を含む惑星画像に対する関心領域を特定し、概説する必要がある。 しかし、これらのイメージを手動でラベル付けするのは、相当な専門知識と努力を要する複雑で困難な作業である。 この取り組みを迅速化するために,最近導入された近縁セグメンテーション(SAM)モデルを用いた知識蒸留法を提案する。 本稿では, この素早いアノテーションと迅速な適応性のためのプロンプトベース基礎モデルの有効性を, 惑星の天空をマッピングする場合に示す。 私たちの研究は、モデルから適切なプロンプトで得られたアノテーションの小さなセットと、その後に専門化されたドメインデコーダをトレーニングすることで、このタスクで十分なセマンティックセグメンテーションを実現できることを示しています。 主な結果は, 知識蒸留の利用により, 手動アノテーションの分野の専門家が必要とする労力を大幅に削減し, 画像分割作業の効率化が期待できることを示している。 このアプローチは、火星の地形を自動的に検出し分割することで、地球外発見を加速する可能性がある。

Planetary science research involves analysing vast amounts of remote sensing data, which are often costly and time-consuming to annotate and process. One of the essential tasks in this field is geological mapping, which requires identifying and outlining regions of interest in planetary images, including geological features and landforms. However, manually labelling these images is a complex and challenging task that requires significant domain expertise and effort. To expedite this endeavour, we propose the use of knowledge distillation using the recently introduced cutting-edge Segment Anything (SAM) model. We demonstrate the effectiveness of this prompt-based foundation model for rapid annotation and quick adaptability to a prime use case of mapping planetary skylights. Our work reveals that with a small set of annotations obtained with the right prompts from the model and subsequently training a specialised domain decoder, we can achieve satisfactory semantic segmentation on this task. Key results indicate that the use of knowledge distillation can significantly reduce the effort required by domain experts for manual annotation and improve the efficiency of image segmentation tasks. This approach has the potential to accelerate extra-terrestrial discovery by automatically detecting and segmenting Martian landforms.
翻訳日:2023-05-15 12:09:57 公開日:2023-05-12
# 運動後のリハビリテーション運動の監視・指導を行う対話型パーソナル化社会ロボットの設計・開発・評価

Design, Development, and Evaluation of an Interactive Personalized Social Robot to Monitor and Coach Post-Stroke Rehabilitation Exercises ( http://arxiv.org/abs/2305.07632v1 )

ライセンス: Link先を確認
Min Hun Lee, Daniel P. Siewiorek, Asim Smailagic, Alexandre Bernardino, Sergi Berm\'udez i Badia(参考訳) 社会的支援型ロボットは、高齢者や健康や健康関連の運動に障害を持つ人々のエンゲージメントを改善するためにますます研究されている。 しかし, 身体的条件が多様であっても, 社会ロボット運動指導システムにおける先行研究の多くは, 汎用的, 事前定義されたフィードバックを活用している。 これらのシステムの展開は依然として課題である。 本稿では,リハビリテーションのためのソーシャルロボットのエクササイズ・コーチング・システムの設計,開発,評価を行うために,反復的に関与するセラピストとストローク後の生存者の作業について述べる。 セラピストとのインタビューを通じて,このシステムとユーザとのインタラクションをデザインし,対話型ソーシャルロボットエクササイズコーチングシステムを開発した。 このシステムは、ニューラルネットワークモデルとルールベースのモデルを統合し、患者のリハビリテーション運動を自動的に監視し、評価し、個々の患者のデータと調整することで、改善のためのリアルタイムでパーソナライズされた修正フィードバックを生成する。 ストローク後の15例のリハビリテーション・エクササイズのデータセットを用いて,保留患者のデータと調和しながら患者のエクササイズを評価するシステムの性能を著しく向上させた。 さらに,本システムでは,新たな参加者に適応し,専門家の合意レベルに匹敵するエクササイズを評価するための平均パフォーマンス0.81を達成できることを示した。 さらに,システムの潜在的なメリットと限界についても論じる。

Socially assistive robots are increasingly being explored to improve the engagement of older adults and people with disability in health and well-being-related exercises. However, even if people have various physical conditions, most prior work on social robot exercise coaching systems has utilized generic, predefined feedback. The deployment of these systems still remains a challenge. In this paper, we present our work of iteratively engaging therapists and post-stroke survivors to design, develop, and evaluate a social robot exercise coaching system for personalized rehabilitation. Through interviews with therapists, we designed how this system interacts with the user and then developed an interactive social robot exercise coaching system. This system integrates a neural network model with a rule-based model to automatically monitor and assess patients' rehabilitation exercises and can be tuned with individual patient's data to generate real-time, personalized corrective feedback for improvement. With the dataset of rehabilitation exercises from 15 post-stroke survivors, we demonstrated our system significantly improves its performance to assess patients' exercises while tuning with held-out patient's data. In addition, our real-world evaluation study showed that our system can adapt to new participants and achieved 0.81 average performance to assess their exercises, which is comparable to the experts' agreement level. We further discuss the potential benefits and limitations of our system in practice.
翻訳日:2023-05-15 12:02:56 公開日:2023-05-12
# Meta Omnium: 汎用学習学習ベンチマーク

Meta Omnium: A Benchmark for General-Purpose Learning-to-Learn ( http://arxiv.org/abs/2305.07625v1 )

ライセンス: Link先を確認
Ondrej Bohdal, Yinbing Tian, Yongshuo Zong, Ruchika Chavhan, Da Li, Henry Gouk, Li Guo, Timothy Hospedales(参考訳) メタラーニングや他の少数ショット学習へのアプローチは画像認識のために広く研究されており、ポーズ推定や密集した予測といった他の視覚タスクにもますます適用されている。 これは自然に、これらの多様なタスクタイプにまたがって一般化できる数少ないメタラーニングアルゴリズムが存在するかどうかという疑問を提起する。 この質問に答えるコミュニティを支援するために、認識、キーポイントのローカライゼーション、セマンティックセグメンテーション、レグレッションを含む複数の視覚タスクにまたがるデータセットであるMeta Omniumを紹介する。 我々は、人気のある数ショットのメタ学習ベースラインを実験し、タスクを一般化し、それらの間の知識を伝達する能力を分析する。 meta omniumは、メタラーニング研究者が、これまでよりもずっと広い範囲のタスクへのモデルの一般化を評価することを可能にし、幅広いビジョンアプリケーションにわたって一貫した方法でメタリーナーを評価するための単一のフレームワークを提供する。

Meta-learning and other approaches to few-shot learning are widely studied for image recognition, and are increasingly applied to other vision tasks such as pose estimation and dense prediction. This naturally raises the question of whether there is any few-shot meta-learning algorithm capable of generalizing across these diverse task types? To support the community in answering this question, we introduce Meta Omnium, a dataset-of-datasets spanning multiple vision tasks including recognition, keypoint localization, semantic segmentation and regression. We experiment with popular few-shot meta-learning baselines and analyze their ability to generalize across tasks and to transfer knowledge between them. Meta Omnium enables meta-learning researchers to evaluate model generalization to a much wider array of tasks than previously possible, and provides a single framework for evaluating meta-learners across a wide suite of vision applications in a consistent manner.
翻訳日:2023-05-15 12:02:33 公開日:2023-05-12
# 静電容量センシングデバイスのためのアジャイルジェスチャー認識--オンザジョブへの適応

Agile gesture recognition for capacitive sensing devices: adapting on-the-job ( http://arxiv.org/abs/2305.07624v1 )

ライセンス: Link先を確認
Ying Liu, Liucheng Guo, Valeri A. Makarov, Yuxiang Huang, Alexander Gorban, Evgeny Mirkes, Ivan Y. Tyukin(参考訳) 自動手ジェスチャー認識は、数十年にわたりAIコミュニティの焦点となっている。 伝統的に、このドメインでの作業は、ユーザー手の画像の流れが利用できると仮定して、主にシナリオに関するものだった。 これは、カメラベースのデバイスの普及と、画像データの広範囲な利用が原因である。 しかし,手動画像のような高次元入力ではなく,限られたセンサデータを用いて低消費電力デバイスに実装できるジェスチャー認識技術への需要が高まっている。 本研究では,eteeハンドコントローラに内蔵された静電容量センサからの信号を用いたハンドジェスチャ認識システムと手法を提案する。 コントローラは、装着者各5本の指からリアルタイム信号を生成する。 時系列信号を解析し,500ms以内で5本の指を表現できる3つの特徴を識別する機械学習手法を用いて,主成分分析による次元縮小とk近傍の分類を含む2段階のトレーニング戦略から分析を行った。 注目すべきことに、この組み合わせは、教師付き変分オートエンコーダのようなより高度な手法に匹敵する性能を示した。 ベースシステムは、追加の適応的エラー補正機構を提供することで、時折エラーから学習する能力も備えることができる。 その結果, 誤り訂正器は性能を損なうことなく, ベースシステムの分類性能を向上させることがわかった。 このシステムは入力サンプルあたり1ミリ秒以上の計算時間を必要とし、ディープニューラルネットワークよりも小さく、この技術に基づいたアジャイルなジェスチャー認識システムの実現可能性を示している。

Automated hand gesture recognition has been a focus of the AI community for decades. Traditionally, work in this domain revolved largely around scenarios assuming the availability of the flow of images of the user hands. This has partly been due to the prevalence of camera-based devices and the wide availability of image data. However, there is growing demand for gesture recognition technology that can be implemented on low-power devices using limited sensor data instead of high-dimensional inputs like hand images. In this work, we demonstrate a hand gesture recognition system and method that uses signals from capacitive sensors embedded into the etee hand controller. The controller generates real-time signals from each of the wearer five fingers. We use a machine learning technique to analyse the time series signals and identify three features that can represent 5 fingers within 500 ms. The analysis is composed of a two stage training strategy, including dimension reduction through principal component analysis and classification with K nearest neighbour. Remarkably, we found that this combination showed a level of performance which was comparable to more advanced methods such as supervised variational autoencoder. The base system can also be equipped with the capability to learn from occasional errors by providing it with an additional adaptive error correction mechanism. The results showed that the error corrector improve the classification performance in the base system without compromising its performance. The system requires no more than 1 ms of computing time per input sample, and is smaller than deep neural networks, demonstrating the feasibility of agile gesture recognition systems based on this technology.
翻訳日:2023-05-15 12:02:14 公開日:2023-05-12
# PALR:レコメンデーションのためのLLMを意識したパーソナライズ

PALR: Personalization Aware LLMs for Recommendation ( http://arxiv.org/abs/2305.07622v1 )

ライセンス: Link先を確認
Zheng Chen(参考訳) 大規模言語モデル(llm)は、最近、その例外的な能力で大きな注目を集めている。 様々な自然言語処理(NLP)タスクに利用できる汎用LLMの開発に多大な努力を払っているが、レコメンデーターシステムにおけるその可能性を探る研究は少ない。 本稿では,ユーザ履歴行動(クリック,購入,評価など)をLCMと組み合わせ,ユーザが好む項目を生成することを目的とした,PALRという新しいフレームワークを提案する。 具体的には,まずユーザ/イテムインタラクションを候補検索のガイダンスとして利用する。 次に、LLMに基づくランキングモデルを用いて推奨項目を生成する。 通常、ゼロ/ファウショットのレコメンデーションテストや、LLMの推論能力を完全に引き出すことができず、リッチアイテムサイドのパラメトリック知識を活用する小さな言語モデル(10億のパラメータ未満)のトレーニングに汎用LLMを採用する既存のアプローチとは異なり、ランク付け目的にLLMを微調整する。 このモデルは自然言語形式の検索候補を入力とし、推論中に入力候補から結果を明示的に選択するように指示する。 実験の結果,提案手法は逐次レコメンデーションタスクにおいて最先端モデルを上回ることがわかった。

Large language models (LLMs) have recently received significant attention for their exceptional capabilities. Despite extensive efforts in developing general-purpose LLMs that can be utilized in various natural language processing (NLP) tasks, there has been less research exploring their potential in recommender systems. In this paper, we propose a novel framework, named PALR, which aiming to combine user history behaviors (such as clicks, purchases, ratings, etc.) with LLMs to generate user preferred items. Specifically, we first use user/item interactions as guidance for candidate retrieval. Then we adopt a LLM-based ranking model to generate recommended items. Unlike existing approaches that typically adopt general-purpose LLMs for zero/few-shot recommendation testing or training on small-sized language models (with less than 1 billion parameters), which cannot fully elicit LLMs' reasoning abilities and leverage rich item side parametric knowledge, we fine-tune a 7 billion parameters LLM for the ranking purpose. This model takes retrieval candidates in natural language format as input, with instruction which explicitly asking to select results from input candidates during inference. Our experimental results demonstrate that our solution outperforms state-of-the-art models on various sequential recommendation tasks.
翻訳日:2023-05-15 12:01:50 公開日:2023-05-12
# 局所リプシッツ距離を用いた深層学習画像再構成の不確かさ推定

Uncertainty Estimation for Deep Learning Image Reconstruction using a Local Lipschitz Metric ( http://arxiv.org/abs/2305.07618v1 )

ライセンス: Link先を確認
Danyal F. Bhutto, Bo Zhu, Jeremiah Z. Liu, Neha Koonjoo, Bruce R. Rosen, Matthew S. Rosen(参考訳) 画像再構成における深層学習のアプローチは、放射線学、特に画像の逆問題を解決するアプローチにおいて、現代の関心を集めている。 デプロイメントでは、これらのモデルは、データのバイアスやドリフトのために、トレーニングデータから広く移行した入力分布に晒される可能性がある。 画像再構成のためのモデル不確実性を推定するために,1つのトレーニングモデルから決定される局所リプシッツに基づく計量を提案する。 局所リプシッツ値と平均絶対誤差のモノトニック関係を示し,与えられたdl再構成アプローチがタスクに適したかどうかを判定するしきい値を与えるためにこの手法が有効であることを示す。 我々の不確実性推定法は, 分布外試験サンプルの同定, てんかん不確実性に関する情報の関連, 適切なデータ拡張の導出に利用できる。 学習した再構成アプローチの不確実性の定量化は、再構成された画像が診断的に正確でなければならない医療領域に特に関係している。

The use of deep learning approaches for image reconstruction is of contemporary interest in radiology, especially for approaches that solve inverse problems associated with imaging. In deployment, these models may be exposed to input distributions that are widely shifted from training data, due in part to data biases or drifts. We propose a metric based on local Lipschitz determined from a single trained model that can be used to estimate the model uncertainty for image reconstructions. We demonstrate a monotonic relationship between the local Lipschitz value and Mean Absolute Error and show that this method can be used to provide a threshold that determines whether a given DL reconstruction approach was well suited to the task. Our uncertainty estimation method can be used to identify out-of-distribution test samples, relate information regarding epistemic uncertainties, and guide proper data augmentation. Quantifying uncertainty of learned reconstruction approaches is especially pertinent to the medical domain where reconstructed images must remain diagnostically accurate.
翻訳日:2023-05-15 12:01:27 公開日:2023-05-12
# 論理推論によるディープラーニングのスケーラブルな結合

Scalable Coupling of Deep Learning with Logical Reasoning ( http://arxiv.org/abs/2305.07617v1 )

ライセンス: Link先を確認
Marianne Defresne, Sophie Barbe, Thomas Schiex(参考訳) 離散的推論とニューラルネットのハイブリッド化を推し進めている中で、離散的推論の解法や最適化問題を自然な入力から学べるニューラルネットワークへの関心が高まっている。 本稿では,離散図形モデルとして表現されるNPハード推論問題の制約と基準を学習するために,スケーラブルなニューラルアーキテクチャと損失関数を導入する。 我々の損失関数は、Besagの擬似対数関係の主な制限の1つを解き、高エネルギーの学習を可能にする。 本研究では, タンパク質設計問題のエネルギー最適化の定式化や, データ効率, 解釈可能性, 予測に対するtextit{a reari}制御など, 自然の入力からNPハード推論問題の解法を効果的に学習できることを実証的に示す。

In the ongoing quest for hybridizing discrete reasoning with neural nets, there is an increasing interest in neural architectures that can learn how to solve discrete reasoning or optimization problems from natural inputs. In this paper, we introduce a scalable neural architecture and loss function dedicated to learning the constraints and criteria of NP-hard reasoning problems expressed as discrete Graphical Models. Our loss function solves one of the main limitations of Besag's pseudo-loglikelihood, enabling learning of high energies. We empirically show it is able to efficiently learn how to solve NP-hard reasoning problems from natural inputs as the symbolic, visual or many-solutions Sudoku problems as well as the energy optimization formulation of the protein design problem, providing data efficiency, interpretability, and \textit{a posteriori} control over predictions.
翻訳日:2023-05-15 12:01:08 公開日:2023-05-12
# キャリブレーションセットの望ましい特性は何か? 長文科学要約における相関関係の同定

What are the Desired Characteristics of Calibration Sets? Identifying Correlates on Long Form Scientific Summarization ( http://arxiv.org/abs/2305.07615v1 )

ライセンス: Link先を確認
Griffin Adams, Bichlien H Nguyen, Jake Smith, Yingce Xia, Shufang Xie, Anna Ostropolets, Budhaditya Deb, Yuan-Jyue Chen, Tristan Naumann, No\'emie Elhadad(参考訳) 要約モデルは、単一の参照(MLE)の可能性を最大化するように訓練されているため、品質指標に不適格なテキストを生成することが多い。 この問題に対処するため、最近の研究はキャリブレーションのステップを追加し、関係性を改善するためにモデルを公開するか、あるいは別の作業ラインで、正と負のセットを対比して忠実性を改善する。 効果的ではあるが、この作業の多くはこれらのセットの生成と最適化に重点を置いている。 セットアップが他のセットアップよりも効果的である理由については、あまり知られていない。 本研究では,有効集合の根本特性を明らかにする。 各トレーニングインスタンスに対して、大きな多様な候補のプールを形成し、キャリブレーションの微調整に使用するサブセットを体系的に変更する。 各選択戦略は、語彙の多様性や正と負のギャップの大きさなど、集合の異なる側面をターゲットにしている。 3つの科学的長方形の要約データセット(生体医学、臨床、化学領域をまたがる)について、特に、負のセットが抽出され、生成されやすい場合に忠実性校正が最適であるのに対し、適合性校正のためには、候補間のメートル法マージンを最大化し、驚きとして、モデルとメートル法で定義された候補ランキングの間の不一致を最小化すべきである。 キャリブレーションセットの作成、選択、最適化のためのコードはhttps://github.com/griff4692/calibrating-summariesで公開されている。

Summarization models often generate text that is poorly calibrated to quality metrics because they are trained to maximize the likelihood of a single reference (MLE). To address this, recent work has added a calibration step, which exposes a model to its own ranked outputs to improve relevance or, in a separate line of work, contrasts positive and negative sets to improve faithfulness. While effective, much of this work has focused on how to generate and optimize these sets. Less is known about why one setup is more effective than another. In this work, we uncover the underlying characteristics of effective sets. For each training instance, we form a large, diverse pool of candidates and systematically vary the subsets used for calibration fine-tuning. Each selection strategy targets distinct aspects of the sets, such as lexical diversity or the size of the gap between positive and negatives. On three diverse scientific long-form summarization datasets (spanning biomedical, clinical, and chemical domains), we find, among others, that faithfulness calibration is optimal when the negative sets are extractive and more likely to be generated, whereas for relevance calibration, the metric margin between candidates should be maximized and surprise--the disagreement between model and metric defined candidate rankings--minimized. Code to create, select, and optimize calibration sets is available at https://github.com/griff4692/calibrating-summaries
翻訳日:2023-05-15 12:00:50 公開日:2023-05-12
# NevIR: ニューラル情報検索における否定

NevIR: Negation in Neural Information Retrieval ( http://arxiv.org/abs/2305.07614v1 )

ライセンス: Link先を確認
Orion Weller, Dawn Lawrie, Benjamin Van Durme(参考訳) 否定は日常的な現象であり、言語モデル(LM)の弱点の一貫した領域である。 Information Retrieval (IR)コミュニティは、現代のIRアーキテクチャのバックボーンとしてLMを採用するが、ネゲーションがニューラルIRに与える影響を理解する研究はほとんど行われていない。 そこで我々は,irモデルに対して,否定によってのみ異なる2つの文書のランク付けを求めるという,このテーマに対する直接的なベンチマークを構築した。 クロスエンコーダは最もパフォーマンスが良く、後続の相互作用モデルが続き、最後の場所はバイエンコーダとスパースニューラルネットワークアーキテクチャである。 その結果,現在の情報検索モデルの多くは否定を考慮せず,無作為にランク付けするよりも性能が良くないことがわかった。 否定を含む対照的な文書のデータセットを微調整を続けるという明らかなアプローチは、(モデルのサイズと同様に)性能を高めるが、マシンと人間のパフォーマンスの間には大きなギャップがある。

Negation is a common everyday phenomena and has been a consistent area of weakness for language models (LMs). Although the Information Retrieval (IR) community has adopted LMs as the backbone of modern IR architectures, there has been little to no research in understanding how negation impacts neural IR. We therefore construct a straightforward benchmark on this theme: asking IR models to rank two documents that differ only by negation. We show that the results vary widely according to the type of IR architecture: cross-encoders perform best, followed by late-interaction models, and in last place are bi-encoder and sparse neural architectures. We find that most current information retrieval models do not consider negation, performing similarly or worse than randomly ranking. We show that although the obvious approach of continued fine-tuning on a dataset of contrastive documents containing negations increases performance (as does model size), there is still a large gap between machine and human performance.
翻訳日:2023-05-15 12:00:22 公開日:2023-05-12
# spider gan: フレンドリーな隣人を活用したganトレーニングの促進

Spider GAN: Leveraging Friendly Neighbors to Accelerate GAN Training ( http://arxiv.org/abs/2305.07613v1 )

ライセンス: Link先を確認
Siddarth Asokan and Chandra Sekhar Seelamantula(参考訳) GAN(Generative Adversarial Network)を安定的に訓練することは難しい課題である。 GANのジェネレータは、通常ガウス分布のノイズベクトルを画像のような現実的なデータに変換する。 本稿では,イメージを入力としてganを訓練する新しい手法を提案する。 直感的には、画像はノイズよりも構造的であり、ジェネレータはより堅牢な変換を学ぶことができる。 このプロセスは、密接な関連するデータセット、あるいはターゲットの分布の‘フレンドリーな近所’を識別することで効率よく行なえる。 データセット間の近接を利用したフレンドリーな近傍を定義するために,多調和核に触発されたsigned inception distance (sid) と呼ばれる新しい手法を提案する。 我々は、例えばTiny-ImageNetとCelebAの顔の間で、一見無関係なデータセットの間でも対応を見出すことができるので、Spider GANの定式化がより高速に収束することを示す。 さらに、事前学習したgan生成器からの出力分布を次のネットワークへの入力として使用するcascading spider ganを実演する。 効果的に、ターゲットが学習されるまでカスケードされた方法で、あるディストリビューションを別のディストリビューションに転送する。 我々は,DCGAN,条件GAN,PGGAN,StyleGAN2およびStyleGAN3に対するスパイダーアプローチの有効性を示した。 提案手法は,metfaces,浮世絵,afhq-catsなどの高分解能小型データセットのベースラインと比較し,トレーニングイテレーションの5分の1で,最先端のフレシェット開始距離(fid)値を達成する。

Training Generative adversarial networks (GANs) stably is a challenging task. The generator in GANs transform noise vectors, typically Gaussian distributed, into realistic data such as images. In this paper, we propose a novel approach for training GANs with images as inputs, but without enforcing any pairwise constraints. The intuition is that images are more structured than noise, which the generator can leverage to learn a more robust transformation. The process can be made efficient by identifying closely related datasets, or a ``friendly neighborhood'' of the target distribution, inspiring the moniker, Spider GAN. To define friendly neighborhoods leveraging proximity between datasets, we propose a new measure called the signed inception distance (SID), inspired by the polyharmonic kernel. We show that the Spider GAN formulation results in faster convergence, as the generator can discover correspondence even between seemingly unrelated datasets, for instance, between Tiny-ImageNet and CelebA faces. Further, we demonstrate cascading Spider GAN, where the output distribution from a pre-trained GAN generator is used as the input to the subsequent network. Effectively, transporting one distribution to another in a cascaded fashion until the target is learnt -- a new flavor of transfer learning. We demonstrate the efficacy of the Spider approach on DCGAN, conditional GAN, PGGAN, StyleGAN2 and StyleGAN3. The proposed approach achieves state-of-the-art Frechet inception distance (FID) values, with one-fifth of the training iterations, in comparison to their baseline counterparts on high-resolution small datasets such as MetFaces, Ukiyo-E Faces and AFHQ-Cats.
翻訳日:2023-05-15 12:00:05 公開日:2023-05-12
# 通信圧縮を用いた分散確率最適化における下限と高速化アルゴリズム

Lower Bounds and Accelerated Algorithms in Distributed Stochastic Optimization with Communication Compression ( http://arxiv.org/abs/2305.07612v1 )

ライセンス: Link先を確認
Yutong He, Xinmeng Huang, Yiming Chen, Wotao Yin, Kun Yuan(参考訳) 通信圧縮は,大規模分散確率最適化において,計算ノード間で交換される情報の量を削減し,通信オーバーヘッドを軽減するための重要な戦略である。 収束保証付きアルゴリズムが多数得られたが、通信圧縮時の最適性能限界は未定である。 本稿では,通信圧縮を用いた分散確率最適化アルゴリズムの性能限界について検討する。 圧縮機は非バイアスと収縮の2種類の圧縮機に焦点を合わせ, 圧縮機で得られる最良の収束率に対処する。 分散確率最適化の収束率の下位境界を6つの異なる設定で定め, 強凸, 一般凸, 非凸関数を非バイアス圧縮器型と組み合わせた。 低境界と既存のアルゴリズムの速度のギャップを埋めるため、軽度条件下で確立された下界から対数的要因までを圧縮するほぼ最適なアルゴリズムNEOLITHICを提案する。 広範な実験結果が我々の理論的知見を支持している。 この研究は、既存の圧縮機の理論的限界に対する洞察を与え、基本的な新しい圧縮機特性に関するさらなる研究を動機付ける。

Communication compression is an essential strategy for alleviating communication overhead by reducing the volume of information exchanged between computing nodes in large-scale distributed stochastic optimization. Although numerous algorithms with convergence guarantees have been obtained, the optimal performance limit under communication compression remains unclear. In this paper, we investigate the performance limit of distributed stochastic optimization algorithms employing communication compression. We focus on two main types of compressors, unbiased and contractive, and address the best-possible convergence rates one can obtain with these compressors. We establish the lower bounds for the convergence rates of distributed stochastic optimization in six different settings, combining strongly-convex, generally-convex, or non-convex functions with unbiased or contractive compressor types. To bridge the gap between lower bounds and existing algorithms' rates, we propose NEOLITHIC, a nearly optimal algorithm with compression that achieves the established lower bounds up to logarithmic factors under mild conditions. Extensive experimental results support our theoretical findings. This work provides insights into the theoretical limitations of existing compressors and motivates further research into fundamentally new compressor properties.
翻訳日:2023-05-15 11:59:30 公開日:2023-05-12
# 量子シミュレータを用いた量子多体系のスペクトル特性の探索

Probing spectral features of quantum many-body systems with quantum simulators ( http://arxiv.org/abs/2305.07649v1 )

ライセンス: Link先を確認
Jinzhao Sun, Lucia Vilchez-Estevez, Vlatko Vedral, Andrew T. Boothroyd, and M. S. Kim(参考訳) 量子多体系のスペクトル特性の効率的な検出は、量子物質の構造とダイナミクスを特徴づけ、理解するために重要である。 本研究では,量子シミュレータを用いた量子多体系の励起スペクトルを探索する枠組みを確立する。 本手法は,ハミルトニアンがアンシラを使わずにネイティブな時間発展のみを必要とする,定義された確率分布から引き出された時間間隔で観測可能時間のダイナミクスを処理することにより,スペクトル検出器を効果的に実現する。 本手法の重要要素は、励起スペクトルをプローブできる周波数共鳴の創発である。 過渡エネルギー推定の時間複雑性はシミュレーション精度に依存することを示し,スペクトル法における雑音eのロバスト性について考察した。 我々は、量子スピン、フェルミオン、ボーソンを含む典型的な量子系のスペクトル特性のシミュレーション結果を示す。 スピン格子モデルの分光特性をIBM量子デバイスで探索する方法を実験的に実証した。

The efficient probing of spectral features of quantum many-body systems is important for characterising and understanding the structure and dynamics of quantum materials. In this work, we establish a framework for probing the excitation spectrum of quantum many-body systems with quantum simulators. Our approach effectively realises a spectral detector by processing the dynamics of observables with time intervals drawn from a defined probability distribution, which only requires native time evolution governed by the Hamiltonian without any ancilla. The critical element of our method is the engineered emergence of frequency resonance such that the excitation spectrum can be probed. We show that the time complexity for transition energy estimation has a logarithmic dependence on simulation accuracy, and discuss the noise e robustness of our spectroscopic method. We present simulation results for the spectral features of typical quantum systems, including quantum spins, fermions and bosons. We experimentally demonstrate how spectroscopic features of spin lattice models can be probed with IBM quantum devices.
翻訳日:2023-05-15 11:53:51 公開日:2023-05-12
# 環境相違下における視覚に基づく長期変動予測の批判的視点

A Critical View Of Vision-Based Long-Term Dynamics Prediction Under Environment Misalignment ( http://arxiv.org/abs/2305.07648v1 )

ライセンス: Link先を確認
Hanchen Xie, Jiageng Zhu, Mahyar Khayatkhoei, Jiazhi Li, Mohamed E. Hussein, Wael AbdAlmgaeed(参考訳) 現在およびそれ以前の状態に基づいてシーンオブジェクトの将来の状態を予測する問題であるダイナミクス予測は、物理学習の例として注目されている。 この問題を解決するために,視覚モデルである地域提案畳み込みインタラクションネットワーク(rpcin)を提案し,長期予測において最先端の性能を達成した。 RPCINは、各オブジェクトのバウンディングボックスやセグメンテーションマスクなど、生の画像と単純なオブジェクト記述のみを入力として取ります。 しかし、その成功にもかかわらず、モデルの性能は環境不整合の条件下で損なわれる可能性がある。 本稿では,これらの課題に対して,SimB-Border,SimB-Split,BlenB-Border,BlenB-Splitの4つのデータセットを提案することで,環境不整合に関する2つの課題について検討する。 データセットは2つのドメインと2つのコンテキストをカバーする。 RPCINをプローブとして、提案したデータセットの組み合わせによる実験により、視覚に基づく長期力学予測モデルの潜在的な弱点が明らかになった。 さらに,提案するデータに対する課題を劇的な緩和として,クロスドメインの課題を軽減し,その方向性を裏付ける具体的な証拠を提供する有望な方向性を提案する。

Dynamics prediction, which is the problem of predicting future states of scene objects based on current and prior states, is drawing increasing attention as an instance of learning physics. To solve this problem, Region Proposal Convolutional Interaction Network (RPCIN), a vision-based model, was proposed and achieved state-of-the-art performance in long-term prediction. RPCIN only takes raw images and simple object descriptions, such as the bounding box and segmentation mask of each object, as input. However, despite its success, the model's capability can be compromised under conditions of environment misalignment. In this paper, we investigate two challenging conditions for environment misalignment: Cross-Domain and Cross-Context by proposing four datasets that are designed for these challenges: SimB-Border, SimB-Split, BlenB-Border, and BlenB-Split. The datasets cover two domains and two contexts. Using RPCIN as a probe, experiments conducted on the combinations of the proposed datasets reveal potential weaknesses of the vision-based long-term dynamics prediction model. Furthermore, we propose a promising direction to mitigate the Cross-Domain challenge and provide concrete evidence supporting such a direction, which provides dramatic alleviation of the challenge on the proposed datasets.
翻訳日:2023-05-15 11:53:35 公開日:2023-05-12
# Foliage Partition: グラフ状態に対する簡単な計算LC-不変式

The Foliage Partition: An Easy-to-Compute LC-Invariant for Graph States ( http://arxiv.org/abs/2305.07645v1 )

ライセンス: Link先を確認
Adam Burchardt, Frederik Hahn(参考訳) 本稿では,グラフ状態に対する計算容易なLC不変量である葉分を,量子ビット数で計算複雑性$\mathcal{O}(n^3)$で紹介する。 グラフの葉にインスパイアされた我々の不変量は、葉、軸、双子という観点から自然な図形表現を持つ。 グラフの接続構造と、関連するグラフ状態の2ドルボディの限界特性の両方をキャプチャする。 葉分断をLC軌道のサイズに関連付け、それをグラフのLC自己同型数に限定する。 また,重み付きグラフとquditグラフに一般化した場合の葉分断の不変性を示す。

This paper introduces the foliage partition, an easy-to-compute LC-invariant for graph states, of computational complexity $\mathcal{O}(n^3)$ in the number of qubits. Inspired by the foliage of a graph, our invariant has a natural graphical representation in terms of leaves, axils, and twins. It captures both, the connection structure of a graph and the $2$-body marginal properties of the associated graph state. We relate the foliage partition to the size of LC-orbits and use it to bound the number of LC-automorphisms of graphs. We also show the invariance of the foliage partition when generalized to weighted graphs and qudit graph states.
翻訳日:2023-05-15 11:53:10 公開日:2023-05-12
# 医用画像合成のための拡散モデルへの注意 ---脳腫瘍画像の記憶におけるgansとの比較-

Beware of diffusion models for synthesizing medical images -- A comparison with GANs in terms of memorizing brain tumor images ( http://arxiv.org/abs/2305.07644v1 )

ライセンス: Link先を確認
Muhammad Usman Akbar, Wuhao Wang, Anders Eklund(参考訳) 拡散モデルは当初テキスト・画像生成のために開発され、現在では高品質な合成画像の生成に利用されている。 GANが先行する拡散モデルでは,様々な評価指標を用いて顕著な結果が得られた。 しかし、fidなどの一般的なメトリクスは、拡散モデルが単にトレーニングイメージを再現しているかどうかを決定するのに適していない。 ここではbrats20とbrats21データセットを用いたスタイルガンと拡散モデルを訓練し、脳腫瘍画像の合成を行い、合成画像とすべてのトレーニング画像との相関を計測する。 以上の結果から,拡散モデルの方がトレーニング画像,特に小さなデータセットを記憶しやすいことが示唆された。 研究者は、医療画像の拡散モデルを使用する場合、最終目標は合成画像を共有することである。

Diffusion models were initially developed for text-to-image generation and are now being utilized to generate high quality synthetic images. Preceded by GANs, diffusion models have shown impressive results using various evaluation metrics. However, commonly used metrics such as FID and IS are not suitable for determining whether diffusion models are simply reproducing the training images. Here we train StyleGAN and diffusion models, using BRATS20 and BRATS21 datasets, to synthesize brain tumor images, and measure the correlation between the synthetic images and all training images. Our results show that diffusion models are much more likely to memorize the training images, especially for small datasets. Researchers should be careful when using diffusion models for medical imaging, if the final goal is to share the synthetic images.
翻訳日:2023-05-15 11:52:58 公開日:2023-05-12
# ASNR-MICCAI Brain tumor Segmentation (BraTS) Challenge 2023: Intracranial Meningioma

The ASNR-MICCAI Brain Tumor Segmentation (BraTS) Challenge 2023: Intracranial Meningioma ( http://arxiv.org/abs/2305.07642v1 )

ライセンス: Link先を確認
Dominic LaBella, Maruf Adewole, Michelle Alonso-Basanta, Talissa Altes, Syed Muhammad Anwar, Ujjwal Baid, Timothy Bergquist, Radhika Bhalerao, Sully Chen, Verena Chung, Gian-Marco Conte, Farouk Dako, James Eddy, Ivan Ezhov, Devon Godfrey, Fathi Hilal, Ariana Familiar, Keyvan Farahani, Juan Eugenio Iglesias, Zhifan Jiang, Elaine Johanson, Anahita Fathi Kazerooni, Collin Kent, John Kirkpatrick, Florian Kofler, Koen Van Leemput, Hongwei Bran Li, Xinyang Liu, Aria Mahtabfar, Shan McBurney-Lin, Ryan McLean, Zeke Meier, Ahmed W Moawad, John Mongan, Pierre Nedelec, Maxence Pajot, Marie Piraud, Arif Rashid, Zachary Reitman, Russell Takeshi Shinohara, Yury Velichko, Chunhao Wang, Pranav Warman, Walter Wiggins, Mariam Aboian, Jake Albrecht, Udunna Anazodo, Spyridon Bakas, Adam Flanders, Anastasia Janas, Goldey Khanna, Marius George Linguraru, Bjoern Menze, Ayman Nada, Andreas M Rauschecker, Jeff Rudie, Nourel Hoda Tahon, Javier Villanueva-Meyer, Benedikt Wiestler, Evan Calabrese(参考訳) 髄膜腫は成人で最も一般的な頭蓋内腫瘍であり、致死率と死亡率に関連がある。 放射線医、神経外科医、神経腫瘍医、放射線腫瘍医は、診断、治療計画、縦断的治療監視にマルチパラメトリックMRI(mpMRI)を頼っているが、mpMRI上における髄膜腫の非侵襲的評価のための自動化、客観的、定量的ツールが欠如している。 BraTS Meningioma 2023 チャレンジは、現在最先端の自動頭蓋内髄膜腫セグメンテーションモデルのためのコミュニティ標準とベンチマークを提供する。 競合他社は、MRI上の3つの異なる髄膜腫の亜領域を予測する自動セグメンテーションモデルを開発し、腫瘍の増強、非エンハンスな腫瘍コア、周囲の非エンハンスなT2/FLAIRハイパーインテンシティを予測する。 モデルは、dice類似度係数とハウスドルフ距離を含む、brats 2023シリーズで使用される標準メトリクスを使用して、別々の検証および保持テストデータセットで評価される。 この課題の過程で開発されたモデルは、自動髄膜腫MRIセグメンテーションを臨床に組み込むことに役立ち、最終的には髄膜腫患者のケアを改善する。

Meningiomas are the most common primary intracranial tumor in adults and can be associated with significant morbidity and mortality. Radiologists, neurosurgeons, neuro-oncologists, and radiation oncologists rely on multiparametric MRI (mpMRI) for diagnosis, treatment planning, and longitudinal treatment monitoring; yet automated, objective, and quantitative tools for non-invasive assessment of meningiomas on mpMRI are lacking. The BraTS meningioma 2023 challenge will provide a community standard and benchmark for state-of-the-art automated intracranial meningioma segmentation models based on the largest expert annotated multilabel meningioma mpMRI dataset to date. Challenge competitors will develop automated segmentation models to predict three distinct meningioma sub-regions on MRI including enhancing tumor, non-enhancing tumor core, and surrounding nonenhancing T2/FLAIR hyperintensity. Models will be evaluated on separate validation and held-out test datasets using standardized metrics utilized across the BraTS 2023 series of challenges including the Dice similarity coefficient and Hausdorff distance. The models developed during the course of this challenge will aid in incorporation of automated meningioma MRI segmentation into clinical practice, which will ultimately improve care of patients with meningioma.
翻訳日:2023-05-15 11:52:44 公開日:2023-05-12
# 開幾何2次元チャーン絶縁体における量子化縦コンダクタンスとエッジ状態

Quantized longitudinal conductance and edge states in an open geometry 2-dimensional Chern insulator ( http://arxiv.org/abs/2305.07640v1 )

ライセンス: Link先を確認
Junaid Majeed Bhat, R. Shankar and Abhishek Dhar(参考訳) 非自明なトポロジーを持つ絶縁体はサンプルの境界に局在したミッドギャップモードをサポートする。 スピンレスBernevig-Hughes-Zhangモデル(SBHZ)はチャーン絶縁体の最も単純なモデルの一つであり、その反対側の外部貯留層(金属鉛)と接触する。 非平衡グリーン関数 (NEGF) を用いたこれらのエッジモードによって形成される散乱状態について検討する。 これらの特殊状態は、ある鉛から別の鉛への完全な伝達を引き起こし、量子化された2端子コンダクタンスへと繋がる。 これらのモードに関連付けられた電荷と電流密度のプロファイルを絶縁体やリードで調べます。 予想通り、絶縁体内部の電流は試料の端に沿って局在している。 驚くべきことに、鉛でさえ、現在の密度は局所化され、興味深いジグザグパターンが示される。 また, 量子化された2端子コンダクタンスに対する有限サイズ効果とその系-保存結合依存性についても考察した。

Insulators with non-trivial topology support mid-gap modes localized at the boundaries of the sample. We consider the spinless Bernevig-Hughes-Zhang (SBHZ) model, one of the simplest models of a Chern insulator, in contact with external reservoirs (metallic leads) at its opposite ends. We study scattering states formed by these edge modes using the non-equilibrium Green's function (NEGF) formalism. These special states give rise to perfect transmission from one lead to another, leading to quantized two-terminal conductance. We look at the charge and current density profiles, associated to these modes, in the insulator as well as in the leads. As expected, we find that the current inside the insulator is localized along the edges of the sample. Surprisingly, we find that even in the leads, the current density is localized and shows an interesting zigzag pattern. We also look at finite-size effects on the quantized two-terminal conductance and its dependence on system-reservoir coupling.
翻訳日:2023-05-15 11:52:25 公開日:2023-05-12
# 圧縮センシングとグループテストを用いた画像モデレーションのためのニューラルネットワークによる効率的な分類と外乱検出

Efficient Neural Network based Classification and Outlier Detection for Image Moderation using Compressed Sensing and Group Testing ( http://arxiv.org/abs/2305.07639v1 )

ライセンス: Link先を確認
Sabyasachi Ghosh, Sanyam Saxena, Ajit Rajwade(参考訳) 人気のあるソーシャルメディアプラットフォームは、ニューラルネットワークベースの画像モデレーションエンジンを使用して、アップロードされた画像を潜在的に不快なコンテンツとして分類している。 このようなモデレーションエンジンは、大容量の計算コストで大量のクエリに答えなければならない。 ニューラルグループテストに関する最近の研究に触発され、この事実を利用して圧縮センシング(cs)技術を用いて、これらのエンジンの全体的な計算コストを削減する手法を提案する。 本稿では,入力$n$画像から$m<n$の画像から$r$画像を選択するために,$m <n$の画像に対して$m <n$の2値プーリング行列と$m \times n$の2値プーリング行列を列に示す定量的行列プールニューラルネットワーク(QMPNN)を提案する。 QMPNNは、各画像が好ましくないか否かを示す未知のスパースバイナリベクトルを用いて、この行列の積を効率よく出力する。 適切な行列に対して、これはCS復号アルゴリズムを用いてデコードされ、どの画像が好ましくないかを予測する。 QMPNNとCSアルゴリズムの実行の計算コストは、各画像に同じ数のパラメータを持つニューラルネットワークを用いて画像を分類するコストよりも大幅に低い。 本手法は,QMPNNの予測における中程度の誤差に対して本質的に耐性がある。 さらに,対象画像が予め定義されたクラスの集合に属さない場合に,CSおよびグループテスト技術による深部外乱検出を行うためのプール付き深部外乱検出手法を提案する。 この技術は、特定の単一クラスの画像を共有することに特化したトピックフォーラムで共有されるオフトピー画像の効率的な自動モデレーションを可能にする。

Popular social media platforms employ neural network based image moderation engines to classify images uploaded on them as having potentially objectionable content. Such moderation engines must answer a large number of queries with heavy computational cost, even though the actual number of images with objectionable content is usually a tiny fraction. Inspired by recent work on Neural Group Testing, we propose an approach which exploits this fact to reduce the overall computational cost of such engines using the technique of Compressed Sensing (CS). We present the quantitative matrix-pooled neural network (QMPNN), which takes as input $n$ images, and a $m \times n$ binary pooling matrix with $m < n$, whose rows indicate $m$ pools of images i.e. selections of $r$ images out of $n$. The QMPNN efficiently outputs the product of this matrix with the unknown sparse binary vector indicating whether each image is objectionable or not, i.e. it outputs the number of objectionable images in each pool. For suitable matrices, this is decoded using CS decoding algorithms to predict which images were objectionable. The computational cost of running the QMPNN and the CS algorithms is significantly lower than the cost of using a neural network with the same number of parameters separately on each image to classify the images, which we demonstrate via extensive experiments. Our technique is inherently resilient to moderate levels of errors in the prediction from the QMPNN. Furthermore, we present pooled deep outlier detection, which brings CS and group testing techniques to deep outlier detection, to provide for the case when the objectionable images do not belong to a set of pre-defined classes. This technique enables efficient automated moderation of off-topic images shared on topical forums dedicated to sharing images of a certain single class, many of which are currently human-moderated.
翻訳日:2023-05-15 11:52:07 公開日:2023-05-12
# 低ランクスペクトル最適化のための部分凸化について:ランク境界とアルゴリズム

On the Partial Convexification for Low-Rank Spectral Optimization: Rank Bounds and Algorithms ( http://arxiv.org/abs/2305.07638v1 )

ライセンス: Link先を確認
Yongchun Li and Weijun Xie(参考訳) 低ランクスペクトル最適化問題(lsop)は、低ランクおよびスペクトル制約領域集合と交わる複数の2面線型行列不等式に対する線形目的対象を最小化する。 LSOPを解くことは一般にNPハードであるが、その部分凸化(すなわち、凸包で設定された領域をLSOP-Rと置き換える)は、しばしば取り外し可能であり、高品質な解が得られる。 これはLSOP-Rの強さを研究する動機となる。 具体的には、LSOP-R の可能な集合の任意の極点に対する階数境界を導出し、異なる行列空間を持つ領域集合に対するそれらの厳密性を証明する。 提案したランク境界は,文献中の2つのよく知られた結果を新しい角度から回収し,緩和LSOP-Rが元のLSOPと同値である十分な条件を導出することを可能にする。 LSOP-Rを効果的に解くために,ベクトルベースの凸価格オラクルを用いた列生成アルゴリズムとランク推論アルゴリズムを併用し,出力解が理論的なランク境界を満たすことを保証する。 最後に,LSOP-Rの強度と提案アルゴリズムの有効性を数値的に検証する。

A Low-rank Spectral Optimization Problem (LSOP) minimizes a linear objective subject to multiple two-sided linear matrix inequalities intersected with a low-rank and spectral constrained domain set. Although solving LSOP is, in general, NP-hard, its partial convexification (i.e., replacing the domain set by its convex hull) termed "LSOP-R," is often tractable and yields a high-quality solution. This motivates us to study the strength of LSOP-R. Specifically, we derive rank bounds for any extreme point of the feasible set of LSOP-R and prove their tightness for the domain sets with different matrix spaces. The proposed rank bounds recover two well-known results in the literature from a fresh angle and also allow us to derive sufficient conditions under which the relaxation LSOP-R is equivalent to the original LSOP. To effectively solve LSOP-R, we develop a column generation algorithm with a vector-based convex pricing oracle, coupled with a rank-reduction algorithm, which ensures the output solution satisfies the theoretical rank bound. Finally, we numerically verify the strength of the LSOP-R and the efficacy of the proposed algorithms.
翻訳日:2023-05-15 11:51:33 公開日:2023-05-12
# Text2Cohort: 自然言語コホート発見によるNCIイメージングデータ共有の民主化

Text2Cohort: Democratizing the NCI Imaging Data Commons with Natural Language Cohort Discovery ( http://arxiv.org/abs/2305.07637v1 )

ライセンス: Link先を確認
Pranav Kulkarni, Adway Kanhere, Paul H. Yi, Vishwa S. Parekh(参考訳) imaging data commons (idc) はクラウドベースのデータベースで、がん画像データと分析ツールへのオープンアクセスを提供し、医療画像研究におけるコラボレーションを促進することを目的としている。 しかしながら、idcデータベースにコホートの発見と画像データへのアクセスを問い合わせることは、その複雑で技術的な性質から、研究者にとって重要な学習曲線となる。 ユーザ入力をidcデータベースクエリに変換し,クエリの応答をユーザに返すことにより,自然言語コホート検出を容易にするための,大規模言語モデル(llm)ベースのツールキットであるtext2cohortを開発した。 さらに、解釈と修正のためにエラーをモデルに返してクエリの構文と意味的エラーを解決するために自動修正が実装されている。 情報抽出からコホート発見まで,50の自然言語入力に対するtext2cohortの評価を行った。 結果のクエリと出力は、2人のコンピュータ科学者によって検証され、Text2Cohortの精度とF1スコアが測定された。 Text2Cohortは88%の精度でクエリとそのレスポンスを生成し、F1スコアは0.94である。 しかし、構文とセマンティックエラーのため、6つのユーザ入力に対するクエリ生成に失敗した。 結果から,Text2Cohortは正しい応答でクエリを生成することに成功したが,データスキーマの理解が不十分なため,時折失敗したことが示唆された。 これらの欠点にもかかわらず、Text2Cohortは、研究者がIDCにホストされたデータを使用して、自然言語をより直感的でユーザフレンドリな方法で、驚くべき精度でコホートを発見し、キュレートするためのLLMの有用性を実証している。

The Imaging Data Commons (IDC) is a cloud-based database that provides researchers with open access to cancer imaging data and tools for analysis, with the goal of facilitating collaboration in medical imaging research. However, querying the IDC database for cohort discovery and access to imaging data has a significant learning curve for researchers due to its complex and technical nature. We developed Text2Cohort, a large language model (LLM) based toolkit to facilitate natural language cohort discovery by translating user input into IDC database queries through prompt engineering and returning the query's response to the user. Furthermore, autocorrection is implemented to resolve syntax and semantic errors in queries by passing the errors back to the model for interpretation and correction. We evaluate Text2Cohort on 50 natural language user inputs ranging from information extraction to cohort discovery. The resulting queries and outputs were verified by two computer scientists to measure Text2Cohort's accuracy and F1 score. Text2Cohort successfully generated queries and their responses with an 88% accuracy and F1 score of 0.94. However, it failed to generate queries for six user inputs due to syntax and semantic errors. Our results indicate that Text2Cohort succeeded at generating queries with correct responses, but occasionally failed due to a poor understanding of the data schema. Despite these shortcomings, Text2Cohort demonstrates the utility of LLMs to enable researchers to discover and curate cohorts using data hosted on IDC with incredible accuracy using natural language in a more intuitive and user-friendly way, thus democratizing access to the IDC.
翻訳日:2023-05-15 11:51:12 公開日:2023-05-12
# マルチタスク製品知識グラフによるゼロショット項目ベース推薦

Zero-shot Item-based Recommendation via Multi-task Product Knowledge Graph Pre-Training ( http://arxiv.org/abs/2305.07633v1 )

ライセンス: Link先を確認
Ziwei Fan, Zhiwei Liu, Shelby Heinecke, Jianguo Zhang, Huan Wang, Caiming Xiong, and Philip S. Yu(参考訳) 既存のレコメンデーターシステムは、ゼロショットアイテム、すなわちトレーニング段階でユーザーと歴史的に相互作用のないアイテムで困難に直面している。 最近の研究は、事前学習言語モデル(PLM)を通して普遍的な項目表現を抽出しているが、それらは重要な項目関係を無視している。 本稿では、製品知識グラフ(PKG)のモデルを事前学習し、PLMからアイテムの特徴を洗練させるZero-Shot Item-based Recommendation(ZSIR)タスクの新しいパラダイムを提案する。 我々は,PKGにおける多型関係,アイテムジェネリック情報と関係のセマンティックな相違,PKGから下流ZSIRタスクへのドメイン差といった,PKG事前学習の課題を3つ挙げる。 課題は4つの事前学習タスクと新しいタスク指向適応(toa)レイヤを提案することで解決する。 さらに,ToA層がZSIRタスクに適合するように,新しいレコメンデーションタスクでモデルを微調整する方法についても論じる。 18の市場データセットに関する包括的実験を行い、知識予測とzsirタスクの両方における提案モデルの有効性を検証する。

Existing recommender systems face difficulties with zero-shot items, i.e. items that have no historical interactions with users during the training stage. Though recent works extract universal item representation via pre-trained language models (PLMs), they ignore the crucial item relationships. This paper presents a novel paradigm for the Zero-Shot Item-based Recommendation (ZSIR) task, which pre-trains a model on product knowledge graph (PKG) to refine the item features from PLMs. We identify three challenges for pre-training PKG, which are multi-type relations in PKG, semantic divergence between item generic information and relations and domain discrepancy from PKG to downstream ZSIR task. We address the challenges by proposing four pre-training tasks and novel task-oriented adaptation (ToA) layers. Moreover, this paper discusses how to fine-tune the model on new recommendation task such that the ToA layers are adapted to ZSIR task. Comprehensive experiments on 18 markets dataset are conducted to verify the effectiveness of the proposed model in both knowledge prediction and ZSIR task.
翻訳日:2023-05-15 11:50:43 公開日:2023-05-12