このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230502となっている論文です。

PDF登録状況(公開日: 20230502)

TitleAuthorsAbstract論文公表日・翻訳日
# オンラインソフトウェアエンジニアリングコミュニティにおけるソーシャルインクルージョンの障壁 - Gitterプロジェクトにおける攻撃的言語使用の検討

Barriers for Social Inclusion in Online Software Engineering Communities -- A Study of Offensive Language Use in Gitter Projects ( http://arxiv.org/abs/2305.01273v1 )

ライセンス: Link先を確認
Bastin Tony Roy Savarimuthu, Zoofishan Zareen, Jithin Cheriyan, Muhammad Yasir, Matthias Galster(参考訳) 社会包含は繁栄する社会の基本的な特徴である。 本稿では,まず,オンラインソフトウェア工学 (se) コミュニティにおける社会的包摂の障壁を,11の属性のセットを特定し,分類法として整理することによって検討する。 第2に、189 gitterプロジェクトのメンバーが投稿したコメント(300万以上のコメントを含む)に使用される分類と分析言語を適用することで、社会的排除の問題の証拠を示す。 この目的のためにキーワードベースの検索アプローチを採用している。 第3に、SEコミュニティにおける社会的包摂性を改善するためのフレームワークを提供する。

Social inclusion is a fundamental feature of thriving societies. This paper first investigates barriers for social inclusion in online Software Engineering (SE) communities, by identifying a set of 11 attributes and organising them as a taxonomy. Second, by applying the taxonomy and analysing language used in the comments posted by members in 189 Gitter projects (with > 3 million comments), it presents the evidence for the social exclusion problem. It employs a keyword-based search approach for this purpose. Third, it presents a framework for improving social inclusion in SE communities.
翻訳日:2023-10-24 12:27:22 公開日:2023-05-02
# クリティカルなオープンソースソフトウェアデータベースを目指して

Towards a Critical Open-Source Software Database ( http://arxiv.org/abs/2305.01311v1 )

ライセンス: Link先を確認
Tobias Dam and Lukas Daniel Klausner and Sebastian Neumaier(参考訳) オープンソースソフトウェア(OSS)は、現代のソフトウェアエコシステムにおいて重要な役割を果たす。 しかし、OSSプロジェクトのメンテナンスと持続性は困難である。 本稿では,OSSプロジェクトのデータベースを構築し,現在のプロジェクト「健康」状態を測定することを目的としたCrOSSDプロジェクトを紹介する。 プロジェクトでは、OSSプロジェクトの健全性を評価するために、量的および質的な指標の両方を使用します。 定量的なメトリクスは、コントリビュータの数、コミット数、コード行数などのメタデータの自動クロールによって収集される。 質的なメトリクスは、手作業の分析や自動化ツールを通じて、サステナビリティ、資金提供、コミュニティの関与、セキュリティポリシーの遵守といった側面を通じて収集される。 分析の結果はユーザフレンドリーなWebプラットフォームで発表され、個々のOSSプロジェクトの健全性とOSSエコシステム全体の健全性を確認することができる。 このアプローチにより、CrOSSDプロジェクトはOSSプロジェクトの健全性に関する包括的で最新のビューを提供し、開発者、メンテナ、その他のステークホルダがOSSプロジェクトの健全性を理解し、その使用とメンテナンスに関する情報的な決定をしやすくなる。

Open-source software (OSS) plays a vital role in the modern software ecosystem. However, the maintenance and sustainability of OSS projects can be challenging. In this paper, we present the CrOSSD project, which aims to build a database of OSS projects and measure their current project "health" status. In the project, we will use both quantitative and qualitative metrics to evaluate the health of OSS projects. The quantitative metrics will be gathered through automated crawling of meta information such as the number of contributors, commits and lines of code. Qualitative metrics will be gathered for selected "critical" projects through manual analysis and automated tools, including aspects such as sustainability, funding, community engagement and adherence to security policies. The results of the analysis will be presented on a user-friendly web platform, which will allow users to view the health of individual OSS projects as well as the overall health of the OSS ecosystem. With this approach, the CrOSSD project provides a comprehensive and up-to-date view of the health of OSS projects, making it easier for developers, maintainers and other stakeholders to understand the health of OSS projects and make informed decisions about their use and maintenance.
翻訳日:2023-10-24 12:12:13 公開日:2023-05-02
# mAedesID:畳み込みニューラルネットワークを用いた昆虫種同定のためのAndroidアプリケーション

mAedesID: Android Application for Aedes Mosquito Species Identification using Convolutional Neural Network ( http://arxiv.org/abs/2305.07664v1 )

ライセンス: Link先を確認
G. Jeyakodi, Trisha Agarwal, P. Shanthi Bala(参考訳) ベクター・ボーン病(英: vector-borne disease、vbd)は、蚊が媒介する感染症である。 Aedes 蚊ベクターの拡散を減らしてデング病を抑えることが重要である。 コミュニティの意識は、エイデスのプログラムを確実に制御し、コミュニティに活発な参加を促すために、厳しい役割を担っている。 蚊の種を特定することは、地域の蚊の密度を認識し、特定の地域で蚊の防除活動を強化するのに役立つ。 これは、住宅地周辺のエーズ繁殖地を避け、成虫の蚊を減らすのに役立つ。 この目的を達成するために、コミュニティが蚊のコントロールイベントに貢献するのに役立つAedes種を特定するアンドロイドアプリケーションを開発した。 いくつかのAndroidアプリケーションは、鳥類、植物種、およびアノフェレス蚊種などの種を特定するために開発されている。 本研究では,種画像分類に適した深層学習畳み込みニューラルネットワーク(cnn)アルゴリズムを用いて,aedesモスキート種を識別するためのユーザフレンドリーなモバイルアプリケーションmaedesidを開発した。 モバイルアプリはURLhttps://tinyurl.com/mAedesIDからダウンロードできる。

Vector-Borne Disease (VBD) is an infectious disease transmitted through the pathogenic female Aedes mosquito to humans and animals. It is important to control dengue disease by reducing the spread of Aedes mosquito vectors. Community awareness plays acrucial role to ensure Aedes control programmes and encourages the communities to involve active participation. Identifying the species of mosquito will help to recognize the mosquito density in the locality and intensifying mosquito control efforts in particular areas. This willhelp in avoiding Aedes breeding sites around residential areas and reduce adult mosquitoes. To serve this purpose, an android application are developed to identify Aedes species that help the community to contribute in mosquito control events. Several Android applications have been developed to identify species like birds, plant species, and Anopheles mosquito species. In this work, a user-friendly mobile application mAedesID is developed for identifying the Aedes mosquito species using a deep learning Convolutional Neural Network (CNN) algorithm which is best suited for species image classification and achieves better accuracy for voluminous images. The mobile application can be downloaded from the URLhttps://tinyurl.com/mAedesID.
翻訳日:2023-05-21 11:14:49 公開日:2023-05-02
# 非自己回帰型ニューラルマシン翻訳における両言語間の共有潜在空間

Shared Latent Space by Both Languages in Non-Autoregressive Neural Machine Translation ( http://arxiv.org/abs/2305.03511v1 )

ライセンス: Link先を確認
DongNyeong Heo and Heeyoul Choi(参考訳) 非自己回帰型ニューラルマシン翻訳(nat)における潜在変数モデリングは、マルチモダリティ問題を緩和するための有望なアプローチである。 先行研究では、原文と対象文に条件づけられた潜在変数の後方分布を推定するための補助モデルを追加した。 しかし、潜在変数における冗長な情報抽出、パラメータの増加、入力からの情報の一部を無視する傾向など、いくつかの欠点が生じる。 本稿では,2つの再構成視点と高度な階層型潜在モデルに基づく新しい潜在変数モデリングを提案する。 提案手法であるLadderNMTは、両方の言語にまたがる潜在空間を共有して、上記の欠点を仮説的に緩和または解決する。 実験により,提案した潜伏変数モデリングが有利な潜伏空間を学習し,WMT翻訳タスクの翻訳品質を著しく向上することを示す。

Latent variable modeling in non-autoregressive neural machine translation (NAT) is a promising approach to mitigate the multimodality problem. In the previous works, they added an auxiliary model to estimate the posterior distribution of the latent variable conditioned on the source and target sentences. However, it causes several disadvantages, such as redundant information extraction in the latent variable, increasing parameters, and a tendency to ignore a part of the information from the inputs. In this paper, we propose a new latent variable modeling that is based on a dual reconstruction perspective and an advanced hierarchical latent modeling approach. Our proposed method, {\em LadderNMT}, shares a latent space across both languages so that it hypothetically alleviates or solves the above disadvantages. Experimental results quantitatively and qualitatively demonstrate that our proposed latent variable modeling learns an advantageous latent space and significantly improves translation quality in WMT translation tasks.
翻訳日:2023-05-14 21:17:38 公開日:2023-05-02
# 翻訳に基づくアライメントによる視覚・言語モデルのパラメータ効率の良い言語間移動

Parameter-Efficient Cross-lingual Transfer of Vision and Language Models via Translation-based Alignment ( http://arxiv.org/abs/2305.03510v1 )

ライセンス: Link先を確認
Zhen Zhang, Jialu Wang, Xin Eric Wang(参考訳) CLIPのような事前訓練された視覚と言語モデルは、画像とテキストを英語のテキストに焦点を合わせることに顕著な成功を収めた。 他の言語をサポートするためにCLIPを拡張しようとする最近の取り組みにもかかわらず、リソースの不均一さのため、さまざまな言語のパフォーマンスの相違が観測されている。 さらに、これらの事前学習されたモデルの現在の言語間転送方法は、多くの言語で過剰なリソースを消費する。 そこで本研究では,多言語間差を緩和する翻訳に基づくアライメント手法を用いて,パラメータ効率の高い多言語間移動のためのパラメータ効率の微調整手法を提案する。 Extensive experiments on XTD and Multi30K datasets, covering 11 languages under zero-shot, few-shot, and full-dataset learning scenarios, show that our framework significantly reduces the multilingual disparities among languages and improves cross-lingual transfer results, especially in low-resource scenarios, while only keeping and fine-tuning an extremely small number of parameters compared to the full model (e.g., Our framework only requires 0.16\% additional parameters of a full-model for each language in the few-shot learning scenario).

Pre-trained vision and language models such as CLIP have witnessed remarkable success in connecting images and texts with a primary focus on English texts. Despite recent efforts to extend CLIP to support other languages, disparities in performance among different languages have been observed due to uneven resource availability. Additionally, current cross-lingual transfer methods of those pre-trained models would consume excessive resources for a large number of languages. Therefore, we propose a new parameter-efficient cross-lingual transfer learning framework that utilizes a translation-based alignment method to mitigate multilingual disparities and explores parameter-efficient fine-tuning methods for parameter-efficient cross-lingual transfer. Extensive experiments on XTD and Multi30K datasets, covering 11 languages under zero-shot, few-shot, and full-dataset learning scenarios, show that our framework significantly reduces the multilingual disparities among languages and improves cross-lingual transfer results, especially in low-resource scenarios, while only keeping and fine-tuning an extremely small number of parameters compared to the full model (e.g., Our framework only requires 0.16\% additional parameters of a full-model for each language in the few-shot learning scenario).
翻訳日:2023-05-14 21:17:22 公開日:2023-05-02
# 2回読む:証拠の再検討による忠実に解釈可能な事実検証に向けて

Read it Twice: Towards Faithfully Interpretable Fact Verification by Revisiting Evidence ( http://arxiv.org/abs/2305.03507v1 )

ライセンス: Link先を確認
Xuming Hu, Zhaochen Hong, Zhijiang Guo, Lijie Wen, Philip S. Yu(参考訳) 実世界の事実検証タスクは、証拠を資料から取り出すことによってクレームの事実性を検証することを目的としている。 得られた証拠の質は、クレーム検証において重要な役割を果たす。 理想的には、検索された証拠は忠実(クレーム検証におけるモデルの意思決定過程を反映)であり、(人間に対する確信)であり、検証タスクの正確性を向上させることができる。 既存のアプローチでは、クレームとドキュメント間の意味的または表面的形式の類似性尺度を利用して証拠を検索しているが、いずれも3つの要件をすべて満たさないある種のヒューリスティックに依存している。 そこで我々は, 証拠を検索し, 1) 証拠検索者に対して, 解釈可能な証拠(すなわち, 誠実さと妥当性の基準)を得るよう訓練し, (2) 証拠検索者により取得された証拠を再確認し, 正確性を向上する事実検証モデルを提案する。 提案システムは,異なる設定下での最良の報告モデルに対して,大幅な改善を実現することができる。

Real-world fact verification task aims to verify the factuality of a claim by retrieving evidence from the source document. The quality of the retrieved evidence plays an important role in claim verification. Ideally, the retrieved evidence should be faithful (reflecting the model's decision-making process in claim verification) and plausible (convincing to humans), and can improve the accuracy of verification task. Although existing approaches leverage the similarity measure of semantic or surface form between claims and documents to retrieve evidence, they all rely on certain heuristics that prevent them from satisfying all three requirements. In light of this, we propose a fact verification model named ReRead to retrieve evidence and verify claim that: (1) Train the evidence retriever to obtain interpretable evidence (i.e., faithfulness and plausibility criteria); (2) Train the claim verifier to revisit the evidence retrieved by the optimized evidence retriever to improve the accuracy. The proposed system is able to achieve significant improvements upon best-reported models under different settings.
翻訳日:2023-05-14 21:16:57 公開日:2023-05-02
# 合理的に考える - 関係抽出のための連続的合理性抽出

Think Rationally about What You See: Continuous Rationale Extraction for Relation Extraction ( http://arxiv.org/abs/2305.03503v1 )

ライセンス: Link先を確認
Xuming Hu, Zhaochen Hong, Chenwei Zhang, Irwin King, Philip S. Yu(参考訳) 関係抽出(RE)は2つの実体の文脈に応じて潜在的関係を抽出することを目的としており、文から合理的な文脈を導出することが重要な役割を果たす。 先行研究は、エンティティ情報(例えば、エンティティタイプ、エンティティの動詞化)を推論関係に活用する方法に焦点をあてるが、コンテキスト中心のコンテンツを無視したり、あるいは、エンティティ内の潜在的な関係に対するモデルのバイアスを取り除くために反ファクト的思考を使う。 したがって、関連コンテンツの保存や、文からノイズを取り除いたりすることは重要な課題である。 さらに、保持されたコンテンツはセマンティックコヒーレンスと解釈可能性を維持するのに十分な流動性を持つ必要がある。 本研究では,文から意味的かつ一貫性のある有理性を得るために2つの連続性と疎性因子を利用するRE2という新しい有理性抽出フレームワークを提案する。 金の有理数にラベルが付けられない問題を解決するため、RE2は文中の各トークンに最適化可能な二項マスクを適用し、関係ラベルに従って選択すべき有理数を調整する。 4つのデータセットの実験は、RE2がベースラインを超えたことを示している。

Relation extraction (RE) aims to extract potential relations according to the context of two entities, thus, deriving rational contexts from sentences plays an important role. Previous works either focus on how to leverage the entity information (e.g., entity types, entity verbalization) to inference relations, but ignore context-focused content, or use counterfactual thinking to remove the model's bias of potential relations in entities, but the relation reasoning process will still be hindered by irrelevant content. Therefore, how to preserve relevant content and remove noisy segments from sentences is a crucial task. In addition, retained content needs to be fluent enough to maintain semantic coherence and interpretability. In this work, we propose a novel rationale extraction framework named RE2, which leverages two continuity and sparsity factors to obtain relevant and coherent rationales from sentences. To solve the problem that the gold rationales are not labeled, RE2 applies an optimizable binary mask to each token in the sentence, and adjust the rationales that need to be selected according to the relation label. Experiments on four datasets show that RE2 surpasses baselines.
翻訳日:2023-05-14 21:16:34 公開日:2023-05-02
# 変換器からの双方向エンコーダ表現を用いたがんマーカー分類

Cancer Hallmark Classification Using Bidirectional Encoder Representations From Transformers ( http://arxiv.org/abs/2305.03501v1 )

ライセンス: Link先を確認
Sultan Zavrak and Seyhmus Yilmaz(参考訳) 本稿では,癌研究において重要な課題である癌の特徴を正確に分類する新しい手法を提案する。 提案手法はトランスフォーマ (bert) アーキテクチャの双方向エンコーダ表現を応用し, 様々な下流アプリケーションにおいて例外的な性能を示した。 移行学習を適用することで,癌関連文書の小さなコーパスに,事前学習したBERTモデルを微調整した。 実験結果から,本手法の精度は94.45%であり,文献で報告したようにほぼすべての先行研究を上回り,少なくとも8.04%の上昇を示した。 これらの知見は, 癌研究におけるテキスト文書の正確な分類と理解において, 提案モデルの有効性を浮き彫りにしており, この分野に大きく貢献している。 がんは世界的にもトップ10の死因の1つであり、我々のアプローチはがん研究を推進し、患者の成果を改善する上で大きな可能性を秘めている。

This paper presents a novel approach to accurately classify the hallmarks of cancer, which is a crucial task in cancer research. Our proposed method utilizes the Bidirectional Encoder Representations from Transformers (BERT) architecture, which has shown exceptional performance in various downstream applications. By applying transfer learning, we fine-tuned the pre-trained BERT model on a small corpus of biomedical text documents related to cancer. The outcomes of our experimental investigations demonstrate that our approach attains a noteworthy accuracy of 94.45%, surpassing almost all prior findings with a substantial increase of at least 8.04% as reported in the literature. These findings highlight the effectiveness of our proposed model in accurately classifying and comprehending text documents for cancer research, thus contributing significantly to the field. As cancer remains one of the top ten leading causes of death globally, our approach holds great promise in advancing cancer research and improving patient outcomes.
翻訳日:2023-05-14 21:16:11 公開日:2023-05-02
# 深層学習支援同時センシングと超解像イメージング

Deep Learning-Assisted Simultaneous Targets Sensing and Super-Resolution Imaging ( http://arxiv.org/abs/2305.03177v1 )

ライセンス: Link先を確認
Jin Zhao, Huang Zhao Zhang, Ming-Zhe Chong, Yue-Yi Zhang, Zi-Wen Zhang, Zong-Kun Zhang, Chao-Hai Du, and Pu-Kun Liu(参考訳) 近年, 電磁波のサブ波長操作が可能となり, センシングと超解像の領域において, メタサーフェスが画期的な成長を遂げている。 しかし、メタ曲面の追加は、検出されたフィールドからターゲット情報を取得する複雑さを乗じる。 さらに、深層学習法は一連の電磁的問題に対して説得力のあるプラットフォームを提供するが、多くの研究は主に1つの関数の解き方と研究の汎用性を制限することに集中している。 本研究では,多機能ディープニューラルネットワークを用いて,準曲面対象対話システムにおけるターゲット情報の再構成を行う。 まず、対話的なシナリオは、最初の検証実験でシステムノイズを許容することが確認される。 そして、電界分布により、マルチタスク深層ニューラルネットワークは、ターゲットの量と誘電率を感知するだけでなく、高精度な超高解像度画像を生成することができる。 深層学習法は, 地表面のターゲット検出において, ターゲットの多様な情報を復元する別の手段を提供する。 この手法は、他の電磁的シナリオにおける逆再構成や前方予測問題にも期待できる。

Recently, metasurfaces have experienced revolutionary growth in the sensing and superresolution imaging field, due to their enabling of subwavelength manipulation of electromagnetic waves. However, the addition of metasurfaces multiplies the complexity of retrieving target information from the detected fields. Besides, although the deep learning method affords a compelling platform for a series of electromagnetic problems, many studies mainly concentrate on resolving one single function and limit the research's versatility. In this study, a multifunctional deep neural network is demonstrated to reconstruct target information in a metasurface targets interactive system. Firstly, the interactive scenario is confirmed to tolerate the system noises in a primary verification experiment. Then, fed with the electric field distributions, the multitask deep neural network can not only sense the quantity and permittivity of targets but also generate superresolution images with high precision. The deep learning method provides another way to recover targets' diverse information in metasurface based target detection, accelerating the progression of target reconstruction areas. This methodology may also hold promise for inverse reconstruction or forward prediction problems in other electromagnetic scenarios.
翻訳日:2023-05-14 21:15:56 公開日:2023-05-02
# MEV Saga: 規制はダークフォレストをイルミネートできるか?

The MEV Saga: Can Regulation Illuminate the Dark Forest? ( http://arxiv.org/abs/2305.03718v1 )

ライセンス: Link先を確認
Simona Ramos and Joshua Ellul(参考訳) 本稿では,ブロックチェーン,デファイ,関連するリスクに関する規制決定において,政策立案者を支援する技術研究と法律研究のギャップを埋めることを望む,mevの学際的分析を行う。 その結果,本稿は技術的・法的なオーディエンスを対象とし,詳細な法的分析を控えつつ,ブロックビルディング層における分散ガバナンス設計に関する政策議論をmevの発生地として開くことを目的としている。 最大抽出可能値(maximal extractable value, mev)は、最終的にユーザトランザクションに影響を与える集中力を生み出すため、ブロックチェーン設計における大きな関心事のひとつだ。 本稿では,新しいビルダ分離設計の背景にある概念を,モジュール性による分散化の促進を目的としたFlashbotsの取り組みとして解説する。 PBS設計では,MEVのオープンスペースが内部参加者による敵方策を抽出し,潜在的な脆弱性要因を明らかにした。 我々は、EthereumのようなPoSブロックチェーンにおけるバリデータからビルダーへの信頼の変化について論じ、後者のブロックチェーンが(フロントランニングの観点から)ユーザのトランザクションや検閲に対する(トランザクションインクルージョンの観点から)影響を認める。 PBSでは、ビルダーのような集中型の(支配的な)エンティティが、フロントランニング戦略を通じてMEVを抽出することで、ユーザを傷つける可能性があることを認識しています。 最後に,ブロックチェーンユーザを保護しながら,これらの悪影響を軽減できる適切な設計と方針を提案する。

In this article, we develop an interdisciplinary analysis of MEV which desires to merge the gap that exists between technical and legal research supporting policymakers in their regulatory decisions concerning blockchains, DeFi and associated risks. Consequently, this article is intended for both technical and legal audiences, and while we abstain from a detailed legal analysis, we aim to open a policy discussion regarding decentralized governance design at the block building layer as the place where MEV occurs. Maximal Extractable Value or MEV has been one of the major concerns in blockchain designs as it creates a centralizing force which ultimately affects user transactions. In this article, we dive into the technicality behind MEV, where we explain the concept behind the novel Proposal Builder Separation design as an effort by Flashbots to increase decentralization through modularity. We underline potential vulnerability factors under the PBS design, which open space for MEV extracting adversarial strategies by inside participants. We discuss the shift of trust from validators to builders in PoS blockchains such as Ethereum, acknowledging the impact that the later ones may have on users' transactions (in terms of front running) and censorship resistance (in terms of transaction inclusion). We recognize that under PBS, centralized (dominant) entities such as builders could potentially harm users by extracting MEV via front running strategies. Finally, we suggest adequate design and policy measures which could potentially mitigate these negative effects while protecting blockchain users.
翻訳日:2023-05-14 21:06:43 公開日:2023-05-02
# バイリンガル類比

Bilingual analogical proportions ( http://arxiv.org/abs/2305.05614v1 )

ライセンス: Link先を確認
Christian Anti\'c(参考訳) 類似の比率は、『$a$ is to $b$ what $c$ is to $d$'』の形の表現であり、それ自身が人間と人工知能の核であるアナロジー推論の核である。 著者は最近、普遍代数学と一階述語論理の一般設定における類比例の抽象的代数的枠組み(英語版)を紹介した。 このフレームワークでは、ソース代数とターゲット代数は、基礎言語 {\em same} を持つ。 本論文の目的は,その非言語的枠組みを,基礎言語が異なるバイリンガル言語に一般化することである。 これは比率の正当化にヘッジを使用することによって達成される。 その結果、基盤となるフレームワークの適用性を大きく広げる大きな一般化となった。 より広い意味では、この論文は類推論の数学的理論へのさらなる一歩である。

Analogical proportions are expressions of the form ``$a$ is to $b$ what $c$ is to $d$'' at the core of analogical reasoning which itself is at the core of human and artificial intelligence. The author has recently introduced {\em from first principles} an abstract algebro-logical framework of analogical proportions within the general setting of universal algebra and first-order logic. In that framework, the source and target algebras have the {\em same} underlying language. The purpose of this paper is to generalize his unilingual framework to a bilingual one where the underlying languages may differ. This is achieved by using hedges in justifications of proportions. The outcome is a major generalization vastly extending the applicability of the underlying framework. In a broader sense, this paper is a further step towards a mathematical theory of analogical reasoning.
翻訳日:2023-05-14 20:57:16 公開日:2023-05-02
# 大規模言語モデルによるYAMLの情報技術タスクの自動コード生成

Automated Code generation for Information Technology Tasks in YAML through Large Language Models ( http://arxiv.org/abs/2305.02783v1 )

ライセンス: Link先を確認
Saurabh Pujar, Luca Buratti, Xiaojie Guo, Nicolas Dupuis, Burn Lewis, Sahil Suneja, Atin Sood, Ganesh Nalawade, Matt Jones, Alessandro Morari, Ruchir Puri(参考訳) 大規模言語モデルの使用によるコード生成能力の最近の改善は、主に汎用プログラミング言語の恩恵を受けている。 ITオートメーションで使用されるようなドメイン固有言語は、多くのアクティブな開発者を巻き込み、現代のクラウドプラットフォームに不可欠なコンポーネントであるにもかかわらず、はるかに注目を集めている。 この作業は、ITオートメーションのための広く使われているマークアップ言語であるAnsible-YAMLの生成に焦点を当てている。 私たちは、IT自動化の生産性向上を目的とした、Ansible-YAMLコード生成ツールであるAnsible Wisdomを紹介します。 ansible wisdomはtransformerベースのモデルで、ansible-yamlを含む新しいデータセットでトレーニングによって拡張される。 また、YAMLとAnsibleの2つの新しいパフォーマンス指標を開発し、この領域の特徴を捉える。 その結果、Ansible Wisdomは、既存のアートコード生成モデルと同等かそれ以上のパフォーマンスで、自然言語プロンプトからAnsibleスクリプトを正確に生成できることがわかった。

The recent improvement in code generation capabilities due to the use of large language models has mainly benefited general purpose programming languages. Domain specific languages, such as the ones used for IT Automation, have received far less attention, despite involving many active developers and being an essential component of modern cloud platforms. This work focuses on the generation of Ansible-YAML, a widely used markup language for IT Automation. We present Ansible Wisdom, a natural-language to Ansible-YAML code generation tool, aimed at improving IT automation productivity. Ansible Wisdom is a transformer-based model, extended by training with a new dataset containing Ansible-YAML. We also develop two novel performance metrics for YAML and Ansible to capture the specific characteristics of this domain. Results show that Ansible Wisdom can accurately generate Ansible script from natural language prompts with performance comparable or better than existing state of the art code generation models.
翻訳日:2023-05-05 15:44:11 公開日:2023-05-02
# HARFE:Hard-Ridgeのランダムな機能拡張

HARFE: Hard-Ridge Random Feature Expansion ( http://arxiv.org/abs/2202.02877v2 )

ライセンス: Link先を確認
Esha Saha, Hayden Schaeffer, Giang Tran(参考訳) 本稿では,HARFE (Hard-ridge random feature expansion method) と呼ばれる高次元スパース付加関数を近似するランダム特徴モデルを提案する。 本手法は,スパースリッジ回帰(srr)問題に適用し,ランダム特徴行列に対する係数を近似するハードスレッディング追従に基づくアルゴリズムを用いる。 SRRの定式化は、表現においてより少ない項を使用するスパースモデルと、ノイズや外れ値に対して頑丈なリッジベースの滑らか化の間のバランスをとる。 さらに,無作為な特徴行列におけるランダムなスパース接続パターンを用いて,加算関数の仮定を一致させる。 我々は,HARFE法が,スパースリッジ回帰モデルのノイズやパラメータに依存する誤差に収束することが保証されていることを証明した。 合成データと実際のデータセットの数値結果に基づいて、HARFEアプローチは、他の最先端アルゴリズムよりも低い(または同等)エラーを得る。

We propose a random feature model for approximating high-dimensional sparse additive functions called the hard-ridge random feature expansion method (HARFE). This method utilizes a hard-thresholding pursuit-based algorithm applied to the sparse ridge regression (SRR) problem to approximate the coefficients with respect to the random feature matrix. The SRR formulation balances between obtaining sparse models that use fewer terms in their representation and ridge-based smoothing that tend to be robust to noise and outliers. In addition, we use a random sparse connectivity pattern in the random feature matrix to match the additive function assumption. We prove that the HARFE method is guaranteed to converge with a given error bound depending on the noise and the parameters of the sparse ridge regression model. Based on numerical results on synthetic data as well as on real datasets, the HARFE approach obtains lower (or comparable) error than other state-of-the-art algorithms.
翻訳日:2023-05-04 19:21:10 公開日:2023-05-02
# 話者・言語・チャンネル情報についてエンド・ツー・エンド音声モデルは何を学ぶか 層状及びニューロンレベルの解析

What do End-to-End Speech Models Learn about Speaker, Language and Channel Information? A Layer-wise and Neuron-level Analysis ( http://arxiv.org/abs/2107.00439v2 )

ライセンス: Link先を確認
Shammur Absar Chowdhury, Nadir Durrani, Ahmed Ali(参考訳) ディープニューラルネットワークは本質的に不透明で解釈が難しい。 手作りの機能ベースのモデルとは異なり、私たちは学習した概念とそれらのモデルがどのように相互作用するかを理解するのに苦労しています。 この理解は、デバッグ目的だけでなく、倫理的意思決定における公平性の確保にも不可欠である。 本研究では,probing framework [1] を用いた事前学習音声モデルのポストホック機能解釈解析を行った。 具体的には、話者認識や方言識別などの様々なタスクのために訓練された音声モデルの発話レベル表現を分析する。 層およびニューロンごとに分析を行い,話者,言語,チャネル特性の探索を行う。 我々の研究は以下の質問に答えることを目的としている。 i) 表現の中でどのような情報が取得されているか。 ii)どのように表現され、配布されているか。 そして iii)この情報を持つネットワークの最小部分集合を特定できるか。 以上の結果から,いくつかの新たな知見が得られた。 一 チャネル及び性別情報がネットワーク全体に分布していること。 二 情報は、課題に関するニューロンにおいて冗長に利用できること。 三 弁証情報等の複雑な性質は、タスク指向事前訓練ネットワークにおいてのみ符号化される。 四 上層に局在する。 v) 予め定義された特性をコードするニューロンの最小サブセットを抽出できる。 六 有能ニューロンは、しばしば特性間で共有される。 vii)我々の分析は、ネットワークにおけるバイアス(例えば性別)の存在を強調します。 私たちのクロスアーキテクチャ比較は、次のように示しています。 一 事前訓練されたモデルは、話者不変情報を捕捉し、 ii) cnnモデルは、様々な未熟な特性を符号化するトランスフォーマーモデルと競合している。

Deep neural networks are inherently opaque and challenging to interpret. Unlike hand-crafted feature-based models, we struggle to comprehend the concepts learned and how they interact within these models. This understanding is crucial not only for debugging purposes but also for ensuring fairness in ethical decision-making. In our study, we conduct a post-hoc functional interpretability analysis of pretrained speech models using the probing framework [1]. Specifically, we analyze utterance-level representations of speech models trained for various tasks such as speaker recognition and dialect identification. We conduct layer and neuron-wise analyses, probing for speaker, language, and channel properties. Our study aims to answer the following questions: i) what information is captured within the representations? ii) how is it represented and distributed? and iii) can we identify a minimal subset of the network that possesses this information? Our results reveal several novel findings, including: i) channel and gender information are distributed across the network, ii) the information is redundantly available in neurons with respect to a task, iii) complex properties such as dialectal information are encoded only in the task-oriented pretrained network, iv) and is localised in the upper layers, v) we can extract a minimal subset of neurons encoding the pre-defined property, vi) salient neurons are sometimes shared between properties, vii) our analysis highlights the presence of biases (for example gender) in the network. Our cross-architectural comparison indicates that: i) the pretrained models capture speaker-invariant information, and ii) CNN models are competitive with Transformer models in encoding various understudied properties.
翻訳日:2023-05-04 19:18:56 公開日:2023-05-02
# ユニエンコーダ:世代対話システムのための高速かつ正確な応答選択パラダイム

Uni-Encoder: A Fast and Accurate Response Selection Paradigm for Generation-Based Dialogue Systems ( http://arxiv.org/abs/2106.01263v4 )

ライセンス: Link先を確認
Chiyu Song, Hongliang He, Haofei Yu, Pengfei Fang, Leyang Cui and Zhenzhong Lan(参考訳) サンプル・アンド・ランクは現代世代の対話システムにとって重要なデコード戦略である。 生成された候補の小さなプールから回答を選択することで、多様で高品質な回答を得るのに役立ちます。 現在の最先端のランキング法は主にクロスエンコーダと呼ばれる符号化パラダイムを使用し、それぞれのコンテキスト候補ペアを個別にエンコードし、適合度スコアに従って候補をランク付けする。 しかし、クロスエンコーダは各候補に対して同じ長さのコンテキストを繰り返しエンコードし、計算コストが高い。 poly-encoderは、コンテキストと候補間のインタラクションを減らすことで、上記の問題に対処するが、パフォーマンスは低下する。 本研究では,クロスエンコーダとして,ポリエンコーダのようにコンテキストを一度エンコードするだけで,各ペアに注意を払わないようにする,uni-encoderと呼ばれる新しいパラダイムを開発した。 Uni-Encoderは、すべての候補を1つのフォワードパスでコンテキストでエンコードする。 我々は、全ての候補が等しく扱われることを確実にするために同じ位置埋め込みを使用し、混乱を避けるために新しい注意機構を設計する。 我々のUni-Encoderは異なる注意と応答結合法を用いて他のランキングパラダイムをシミュレートできる。 大規模実験により,提案手法は,計算効率の高い4つのベンチマークデータセットにおいて,新たな最先端結果が得られることを示した。 例えば、ubuntu v2データセットの約4倍の速度でr10@1を2.9%改善している。

Sample-and-rank is a key decoding strategy for modern generation-based dialogue systems. It helps achieve diverse and high-quality responses by selecting an answer from a small pool of generated candidates. The current state-of-the-art ranking methods mainly use an encoding paradigm called Cross-Encoder, which separately encodes each context-candidate pair and ranks the candidates according to their fitness scores. However, Cross-Encoder repeatedly encodes the same lengthy context for each candidate, resulting in high computational costs. Poly-Encoder addresses the above problems by reducing the interaction between context and candidates, but with a price of performance drop. In this work, we develop a new paradigm called Uni-Encoder, that keeps the full attention over each pair as in Cross-Encoder while only encoding the context once, as in Poly-Encoder. Uni-Encoder encodes all the candidates with the context in one forward pass. We use the same positional embedding for all candidates to ensure they are treated equally and design a new attention mechanism to avoid confusion. Our Uni-Encoder can simulate other ranking paradigms using different attention and response concatenation methods. Extensive experiments show that our proposed paradigm achieves new state-of-the-art results on four benchmark datasets with high computational efficiency. For instance, it improves R10@1 by 2.9% with an approximately 4X faster inference speed on the Ubuntu V2 dataset.
翻訳日:2023-05-04 19:18:41 公開日:2023-05-02
# サッカーにおける活動認識のための投影後処理による状態推定の改善

Improving state estimation through projection post-processing for activity recognition with application to football ( http://arxiv.org/abs/2102.03310v4 )

ライセンス: Link先を確認
Micha{\l} Ciszewski, Jakob S\"ohl, Geurt Jongbloed(参考訳) 過去10年間、センサーデータに基づく人間の活動認識への関心が高まってきた。 多くの場合、センサーデータは無注釈になり、高速なラベル付け方法の必要性が生じる。 ラベル付けの品質を評価するには、適切なパフォーマンス指標を選択する必要がある。 我々の主な貢献は、アクティビティ認識のための新しいポストプロセッシング手法である。 推定における非現実的な短期活動の補正により、分類手法の精度を向上させる。 また,状態変化時の不確実性に対処する新しい性能尺度である局所時間シフト測度(lts測度)を提案する。 サッカーのセンサデータに対するシミュレーションデータセットと実際の応用に基づいて,新しいLTS尺度を用いて,ポストプロセッシング手法の有効性を評価した。 シミュレーション研究は、後処理法とlts測定値のパラメータの選択についても議論するためにも用いられる。

The past decade has seen an increased interest in human activity recognition based on sensor data. Most often, the sensor data come unannotated, creating the need for fast labelling methods. For assessing the quality of the labelling, an appropriate performance measure has to be chosen. Our main contribution is a novel post-processing method for activity recognition. It improves the accuracy of the classification methods by correcting for unrealistic short activities in the estimate. We also propose a new performance measure, the Locally Time-Shifted Measure (LTS measure), which addresses uncertainty in the times of state changes. The effectiveness of the post-processing method is evaluated, using the novel LTS measure, on the basis of a simulated dataset and a real application on sensor data from football. The simulation study is also used to discuss the choice of the parameters of the post-processing method and the LTS measure.
翻訳日:2023-05-04 19:18:17 公開日:2023-05-02
# 不確実性 : エンド・ツー・エンドの暗黙的神経表現の不確実性定量化

UncertaINR: Uncertainty Quantification of End-to-End Implicit Neural Representations for Computed Tomography ( http://arxiv.org/abs/2202.10847v3 )

ライセンス: Link先を確認
Francisca Vasconcelos, Bobby He, Nalini Singh, Yee Whye Teh(参考訳) 暗黙的神経表現 (inrs) はシーン再構成とコンピュータグラフィックスにおいて印象的な結果をもたらしており、その性能は主に再構成精度で評価されている。 INRが他の領域に進出するにつれて、モデル予測が高い意思決定を知らせるようになり、INR推論の不確実性定量化が重要になりつつある。 そこで我々は,計算トモグラフィーの文脈でINRのベイズ的再構成(UncertaINR)について検討し,精度と校正の観点からベイズ的深層学習の実装を評価した。 また,他の古典的,INR的,CNN的再構成技術と競合する精度を維持しつつ,良好な校正不確実性を達成できた。 ベイズディープラーニング文学における一般的な直観とは対照的に、INRは計算効率のよいモンテカルロのドロップアウトと、ハミルトンモンテカルロとディープアンサンブルを上回る最高の校正が得られる。 さらに、最高のパフォーマンスのアプローチとは対照的に、UncertaINRは大規模なトレーニングデータセットを必要とせず、少数のバリデーションイメージのみを必要とする。

Implicit neural representations (INRs) have achieved impressive results for scene reconstruction and computer graphics, where their performance has primarily been assessed on reconstruction accuracy. As INRs make their way into other domains, where model predictions inform high-stakes decision-making, uncertainty quantification of INR inference is becoming critical. To that end, we study a Bayesian reformulation of INRs, UncertaINR, in the context of computed tomography, and evaluate several Bayesian deep learning implementations in terms of accuracy and calibration. We find that they achieve well-calibrated uncertainty, while retaining accuracy competitive with other classical, INR-based, and CNN-based reconstruction techniques. Contrary to common intuition in the Bayesian deep learning literature, we find that INRs obtain the best calibration with computationally efficient Monte Carlo dropout, outperforming Hamiltonian Monte Carlo and deep ensembles. Moreover, in contrast to the best-performing prior approaches, UncertaINR does not require a large training dataset, but only a handful of validation images.
翻訳日:2023-05-04 19:08:26 公開日:2023-05-02
# 社会的バイアスがデータバイアスを満たす - 公正基準に対するラベル付けと測定誤差の影響

Social Bias Meets Data Bias: The Impacts of Labeling and Measurement Errors on Fairness Criteria ( http://arxiv.org/abs/2206.00137v4 )

ライセンス: Link先を確認
Yiqiao Liao, Parinaz Naghizadeh(参考訳) 機械学習アルゴリズムが既存の社会的偏見を示したり増幅したりしないように、多くの公正基準が提案されているが、これらのアルゴリズムは統計的偏見を持つことができるデータセットに基づいて訓練されている。 本稿では,アルゴリズムがバイアスデータに基づいてトレーニングされている場合,既存の(デコグラフィ)フェアネス基準の頑健さについて検討する。 我々は、ラベル付けプロセスにおける事前決定者による誤りと、不利な個人の特徴の測定における誤りの2つの形態を考察する。 統計的バイアスに直面した場合、いくつかの制約(人口統計学的パリティなど)は頑健であり、他の制約(等化オッズなど)は偏りのあるデータに基づいてトレーニングされた場合、著しく違反する可能性があることを分析的に示す。 また,これらの基準の感度と意思決定者のバイアスに対する有用性についても分析した。 分析結果を支援する3つの実世界データセット(fico, adult, german credit score dataset)に基づく数値実験を行った。 本研究は,既存の公平性基準の中から選択するガイドラインや,利用可能なデータセットが偏っている場合の新しい基準を提案するガイドラインを示す。

Although many fairness criteria have been proposed to ensure that machine learning algorithms do not exhibit or amplify our existing social biases, these algorithms are trained on datasets that can themselves be statistically biased. In this paper, we investigate the robustness of a number of existing (demographic) fairness criteria when the algorithm is trained on biased data. We consider two forms of dataset bias: errors by prior decision makers in the labeling process, and errors in measurement of the features of disadvantaged individuals. We analytically show that some constraints (such as Demographic Parity) can remain robust when facing certain statistical biases, while others (such as Equalized Odds) are significantly violated if trained on biased data. We also analyze the sensitivity of these criteria and the decision maker's utility to biases. We provide numerical experiments based on three real-world datasets (the FICO, Adult, and German credit score datasets) supporting our analytical findings. Our findings present an additional guideline for choosing among existing fairness criteria, or for proposing new criteria, when available datasets may be biased.
翻訳日:2023-05-04 19:02:25 公開日:2023-05-02
# 信頼できる医療連帯学習のための報酬システム

Reward Systems for Trustworthy Medical Federated Learning ( http://arxiv.org/abs/2205.00470v2 )

ライセンス: Link先を確認
Konstantin D. Pandl, Florian Leiser, Scott Thiebes, Ali Sunyaev(参考訳) フェデレーテッド・ラーニング(FL)は、機械学習(ML)モデルを医療用にトレーニングする研究者や実践家から高い関心を集めている。 これらのモデルの信頼性を確保することは不可欠です。 特に、モデルの予測性能の格差として定義されるバイアスは、信頼に値するMLモデルにとって望ましくない現象である特定のサブグループに対して不公平を引き起こす可能性がある。 本研究では,医療flにおけるバイアスの程度と,報酬システムによる過度のバイアスの防止方法について考察する。 まず,Shapley値近似法を用いて,クロスサイロ医療FLの予測性能とバイアスに対する機関の貢献度を評価する方法について検討した。 第2のステップでは、高い予測性能や低いバイアスに対する貢献を動機付ける様々な報酬システムを設計する。 次に,両者への貢献をインセンティブとする報酬システムを提案する。 我々は,複数の医療用胸部X線データセットを用いて,患者の性別と年齢によって定義される患者サブグループに着目した研究を行った。 以上の結果から,バイアスに対する貢献度の測定に成功し,認知度の低いモデルに対する貢献度をインセンティブとして総合的な報酬システムを構築することができた。 スキャンの分割は全体のバイアスにわずかにしか影響しないが、あるサブグループからのデータを持つ機関は、このサブグループに有利なバイアスをもたらす。 以上の結果から,予測性能のみに焦点を当てた報酬システムは,患者に対するモデルバイアスを機関レベルで伝達できることが示唆された。 我々の研究は、研究者や実践者が、信頼できるMLのための適切なインセンティブを持つFLの報酬システムの設計を支援する。

Federated learning (FL) has received high interest from researchers and practitioners to train machine learning (ML) models for healthcare. Ensuring the trustworthiness of these models is essential. Especially bias, defined as a disparity in the model's predictive performance across different subgroups, may cause unfairness against specific subgroups, which is an undesired phenomenon for trustworthy ML models. In this research, we address the question to which extent bias occurs in medical FL and how to prevent excessive bias through reward systems. We first evaluate how to measure the contributions of institutions toward predictive performance and bias in cross-silo medical FL with a Shapley value approximation method. In a second step, we design different reward systems incentivizing contributions toward high predictive performance or low bias. We then propose a combined reward system that incentivizes contributions toward both. We evaluate our work using multiple medical chest X-ray datasets focusing on patient subgroups defined by patient sex and age. Our results show that we can successfully measure contributions toward bias, and an integrated reward system successfully incentivizes contributions toward a well-performing model with low bias. While the partitioning of scans only slightly influences the overall bias, institutions with data predominantly from one subgroup introduce a favorable bias for this subgroup. Our results indicate that reward systems, which focus on predictive performance only, can transfer model bias against patients to an institutional level. Our work helps researchers and practitioners design reward systems for FL with well-aligned incentives for trustworthy ML.
翻訳日:2023-05-04 18:59:22 公開日:2023-05-02
# KAIROS: 異種クラウドリソースを用いた費用効率の良い機械学習推論システムの構築

KAIROS: Building Cost-Efficient Machine Learning Inference Systems with Heterogeneous Cloud Resources ( http://arxiv.org/abs/2210.05889v3 )

ライセンス: Link先を確認
Baolin Li, Siddharth Samsi, Vijay Gadepally, Devesh Tiwari(参考訳) オンライン推論は、顧客要求を満たすためにクラウドプラットフォームにデプロイされた、多くのビジネスにとって重要なサービス製品になりつつある。 収益生成能力にもかかわらず、これらのサービスはqos(quality-of-service)とコスト予算の制約の下で運用する必要があります。 本稿では,QoSターゲットとコスト予算を満たしながらクエリスループットを最大化する,新しいランタイムフレームワークであるKAIROSを紹介する。 KAIROSは、オンライン探索のオーバーヘッドを伴わずに不均一な計算ハードウェアのプールを構築し、実行時に推論クエリを最適に分散する新しい技術の設計と実装を行っている。 産業グレードのディープラーニング(DL)モデルを用いた評価では,KAIROSは最適均一解のスループットを最大2倍に向上し,探索オーバーヘッドを無視するための競合するスキームの実装にもかかわらず,最先端のスキームを最大70%上回った。

Online inference is becoming a key service product for many businesses, deployed in cloud platforms to meet customer demands. Despite their revenue-generation capability, these services need to operate under tight Quality-of-Service (QoS) and cost budget constraints. This paper introduces KAIROS, a novel runtime framework that maximizes the query throughput while meeting QoS target and a cost budget. KAIROS designs and implements novel techniques to build a pool of heterogeneous compute hardware without online exploration overhead, and distribute inference queries optimally at runtime. Our evaluation using industry-grade deep learning (DL) models shows that KAIROS yields up to 2X the throughput of an optimal homogeneous solution, and outperforms state-of-the-art schemes by up to 70%, despite advantageous implementations of the competing schemes to ignore their exploration overhead.
翻訳日:2023-05-04 18:42:57 公開日:2023-05-02
# 2つのランダム状態のサブシステムトレース距離

Subsystem Trace-Distances of Two Random States ( http://arxiv.org/abs/2210.03213v2 )

ライセンス: Link先を確認
Joaquim Telles de Miranda and Tobias Micklitz(参考訳) カオス量子システムにおける2状態識別について検討する。 2つの$N$-qubit純状態のうちの1つがランダムに選択されたと仮定すると、$N-N_B$ qubitsのサブセットを含む最適に選択された実験から選択された状態を特定する確率は、状態のトレース距離によって与えられる。 熱力学的極限$N\to\infty$では、ランダムな純状態に対する平均的なサブシステムトレース距離は、測定されていない量子ビットの分数$f=N_B/N$が増加するにつれて、単位値から0への急激な第1次遷移を$f=1/2$とする。 有限個の量子ビットに対して対応するクロスオーバーを解析的に計算し、局所保存法則の存在によってどのように影響を受けるかを調べ、多体カオスに対するモデルの正確な対角化に対する予測を検証した。

We study two-state discrimination in chaotic quantum systems. Assuming that one of two $N$-qubit pure states has been randomly selected, the probability to correctly identify the selected state from an optimally chosen experiment involving a subset of $N-N_B$ qubits is given by the trace-distance of the states, with $N_B$ qubits partially traced out. In the thermodynamic limit $N\to\infty$, the average subsystem trace-distance for random pure states makes a sharp, first order transition from unity to zero at $f=1/2$, as the fraction $f=N_B/N$ of unmeasured qubits is increased. We analytically calculate the corresponding crossover for finite numbers $N$ of qubits, study how it is affected by the presence of local conservation laws, and test our predictions against exact diagonalization of models for many-body chaos.
翻訳日:2023-05-04 18:42:06 公開日:2023-05-02
# ContraCLM: 因果言語モデルのためのコントラスト学習

ContraCLM: Contrastive Learning For Causal Language Model ( http://arxiv.org/abs/2210.01185v2 )

ライセンス: Link先を確認
Nihal Jain, Dejiao Zhang, Wasi Uddin Ahmad, Zijian Wang, Feng Nan, Xiaopeng Li, Ming Tan, Ramesh Nallapati, Baishakhi Ray, Parminder Bhatia, Xiaofei Ma, Bing Xiang(参考訳) 因果言語モデルのエキサイティングな進歩にもかかわらず、表現の表現性は、識別能力の低さのため、ほとんど制限されている。 本稿では,トークンレベルとシーケンスレベルの両方において,新しいコントラスト学習フレームワークであるcontraclmを提案する。 我々は下流の様々なタスクでcontraclmを評価します。 contraclmは表現の識別性を高め、エンコーダのみのモデルとのギャップを埋めることを示し、因果言語モデルが言語生成以外のタスクに適していることを示す。 具体的には、Semantic Textual similarityタスクの相対的な改善が44.%、Code-to-Code Searchタスクが34.%です。 さらに、表現の表現性を改善することで、ContraCLMは、HumanEvalベンチマーク上での実行精度を相対的に9.%改善することで、ソースコード生成能力も向上する。

Despite exciting progress in causal language models, the expressiveness of the representations is largely limited due to poor discrimination ability. To remedy this issue, we present ContraCLM, a novel contrastive learning framework at both token-level and sequence-level. We assess ContraCLM on a variety of downstream tasks. We show that ContraCLM enhances discrimination of the representations and bridges the gap with the encoder-only models, which makes causal language models better suited for tasks beyond language generation. Specifically, we attain $44\%$ relative improvement on the Semantic Textual Similarity tasks and $34\%$ on Code-to-Code Search tasks. Furthermore, by improving the expressiveness of the representations, ContraCLM also boosts the source code generation capability with $9\%$ relative improvement on execution accuracy on the HumanEval benchmark.
翻訳日:2023-05-04 18:41:35 公開日:2023-05-02
# 連続空間におけるエンサンブル強化学習-政策訓練のための階層的マルチステップアプローチ

Ensemble Reinforcement Learning in Continuous Spaces -- A Hierarchical Multi-Step Approach for Policy Training ( http://arxiv.org/abs/2209.14488v2 )

ライセンス: Link先を確認
Gang Chen and Victoria Huang(参考訳) アクター-クリティック深層強化学習(drl)アルゴリズムは、近年、様々な挑戦的強化学習(rl)問題、特に高次元連続状態と動作空間を持つ複雑な制御タスクに取り組むことで、顕著な成功を収めている。 それにもかかわらず、既存の研究では、アクター批判型DRLアルゴリズムは学習環境を効果的に探索することができず、学習安定性と性能が制限された。 この制限に対処するため、近年、探索の強化と学習過程の安定化のためにいくつかのアンサンブルDRLアルゴリズムが提案されている。 しかし、既存のアンサンブルアルゴリズムのほとんどは、アンサンブルの性能を最適化するために、すべてのベース学習者を明示的に訓練していない。 本稿では,革新的な多段階統合法に基づき,基礎学習者のアンサンブルを学習する新しい手法を提案する。 この学習手法により,安定なlearner間パラメータ共有によるlearner間コラボレーションを効果的に促進する,新しい階層学習アルゴリズムの開発が可能となった。 この新しいアルゴリズムの設計は理論的に検証されている。 また、このアルゴリズムは複数のベンチマークRL問題に対していくつかの最先端のDRLアルゴリズムより優れていることを示す。

Actor-critic deep reinforcement learning (DRL) algorithms have recently achieved prominent success in tackling various challenging reinforcement learning (RL) problems, particularly complex control tasks with high-dimensional continuous state and action spaces. Nevertheless, existing research showed that actor-critic DRL algorithms often failed to explore their learning environments effectively, resulting in limited learning stability and performance. To address this limitation, several ensemble DRL algorithms have been proposed lately to boost exploration and stabilize the learning process. However, most of existing ensemble algorithms do not explicitly train all base learners towards jointly optimizing the performance of the ensemble. In this paper, we propose a new technique to train an ensemble of base learners based on an innovative multi-step integration method. This training technique enables us to develop a new hierarchical learning algorithm for ensemble DRL that effectively promotes inter-learner collaboration through stable inter-learner parameter sharing. The design of our new algorithm is verified theoretically. The algorithm is also shown empirically to outperform several state-of-the-art DRL algorithms on multiple benchmark RL problems.
翻訳日:2023-05-04 18:41:22 公開日:2023-05-02
# 分析ポリシー勾配による効率的な制御器の訓練

Training Efficient Controllers via Analytic Policy Gradient ( http://arxiv.org/abs/2209.13052v3 )

ライセンス: Link先を確認
Nina Wiedemann, Valentin W\"uest, Antonio Loquercio, Matthias M\"uller, Dario Floreano, Davide Scaramuzza(参考訳) ロボットシステムの制御設計は複雑であり、軌道を正確に追従するには最適化の解決がしばしば必要となる。 Model Predictive Control (MPC)のようなオンライン最適化手法は、優れたトラッキング性能を実現するために示されているが、高い計算能力を必要とする。 逆に、Reinforcement Learning (RL)のような学習ベースのオフライン最適化アプローチは、ロボット上で高速かつ効率的な実行を可能にするが、軌道追跡タスクにおけるMPCの精度とはほとんど一致しない。 航空車両のような限られた計算量を持つシステムでは、実行時に効率的な正確な制御装置が必須である。 この問題に対処するための分析政策勾配法(APG)を提案する。 APGは、トラッキングエラーの勾配降下でコントローラをオフラインにトレーニングすることで、差別化可能なシミュレータの可用性を活用する。 カリキュラム学習を通じてAPGで頻繁に発生するトレーニングの不安定性に対処し、広く使われているコントロールベンチマークであるCartPoleと、一般的な2つの空中ロボットである四輪車と固定翼ドローンを実験する。 提案手法は, モデルベースおよびモデルフリーの rl 手法を追跡誤差の点で上回っている。 同時に、計算時間を桁違いに少なくしながら、MPCと同じような性能を実現する。 我々の研究は、ロボット工学の有望な制御方法としてのapgの可能性に関する洞察を提供する。 APGの探索を容易にするため、私たちはコードをオープンソースにしてhttps://github.com/lis-epfl/apg_trajectory_tracking.comで公開しています。

Control design for robotic systems is complex and often requires solving an optimization to follow a trajectory accurately. Online optimization approaches like Model Predictive Control (MPC) have been shown to achieve great tracking performance, but require high computing power. Conversely, learning-based offline optimization approaches, such as Reinforcement Learning (RL), allow fast and efficient execution on the robot but hardly match the accuracy of MPC in trajectory tracking tasks. In systems with limited compute, such as aerial vehicles, an accurate controller that is efficient at execution time is imperative. We propose an Analytic Policy Gradient (APG) method to tackle this problem. APG exploits the availability of differentiable simulators by training a controller offline with gradient descent on the tracking error. We address training instabilities that frequently occur with APG through curriculum learning and experiment on a widely used controls benchmark, the CartPole, and two common aerial robots, a quadrotor and a fixed-wing drone. Our proposed method outperforms both model-based and model-free RL methods in terms of tracking error. Concurrently, it achieves similar performance to MPC while requiring more than an order of magnitude less computation time. Our work provides insights into the potential of APG as a promising control method for robotics. To facilitate the exploration of APG, we open-source our code and make it available at https://github.com/lis-epfl/apg_trajectory_tracking.
翻訳日:2023-05-04 18:41:02 公開日:2023-05-02
# 極端に異なるクワッドコプターに対する近接ハバー位置制御器の学習

Learning a Single Near-hover Position Controller for Vastly Different Quadcopters ( http://arxiv.org/abs/2209.09232v2 )

ライセンス: Link先を確認
Dingqi Zhang, Antonio Loquercio, Xiangyu Wu, Ashish Kumar, Jitendra Malik, Mark W. Mueller(参考訳) 本稿では,クワッドコプターの適応的な位置制御器を提案する。これは,非常に異なる質量,大きさ,運動定数を持つクワッドコプターに展開可能であり,また,実行中に未知の乱れに迅速に適応できる。 アルゴリズムの中核となる考え方は、テスト時にオンラインで適応できる単一のポリシーを、ドローンに適用される障害だけでなく、同じフレームワークのロボットダイナミクスやハードウェアにも学習することだ。 本研究では,ニューラルネットワークを訓練し,ロボットの潜在表現と,ニューラルネットワークとして表現される制御器の動作条件として使用される環境パラメータを推定する。 我々は、クワッドコプターを目標に飛ばし、地上に墜落しないように、両方のネットワークをシミュレーションで訓練する。 実世界の2つのクワッドコプターに、質量、サイズ、モーター、プロペラが異なる4.5倍の質量差で修正を加えることなく、シミュレーションでトレーニングされた同じコントローラを直接デプロイする。 さらに,クワッドコプターの質量の3分の1までの突然の大きな乱れに対して,迅速な適応を示す。 我々はシミュレーションと物理界の両方で広範囲な評価を行い、各プラットフォームに個別に調整された最先端の学習ベース適応制御器と従来のPID制御器より優れています。 ビデオ結果はhttps://youtu.be/U-c-LbTfvoAで見ることができる。

This paper proposes an adaptive near-hover position controller for quadcopters, which can be deployed to quadcopters of very different mass, size and motor constants, and also shows rapid adaptation to unknown disturbances during runtime. The core algorithmic idea is to learn a single policy that can adapt online at test time not only to the disturbances applied to the drone, but also to the robot dynamics and hardware in the same framework. We achieve this by training a neural network to estimate a latent representation of the robot and environment parameters, which is used to condition the behaviour of the controller, also represented as a neural network. We train both networks exclusively in simulation with the goal of flying the quadcopters to goal positions and avoiding crashes to the ground. We directly deploy the same controller trained in the simulation without any modifications on two quadcopters in the real world with differences in mass, size, motors, and propellers with mass differing by 4.5 times. In addition, we show rapid adaptation to sudden and large disturbances up to one-third of the mass of the quadcopters. We perform an extensive evaluation in both simulation and the physical world, where we outperform a state-of-the-art learning-based adaptive controller and a traditional PID controller specifically tuned to each platform individually. Video results can be found at https://youtu.be/U-c-LbTfvoA.
翻訳日:2023-05-04 18:40:35 公開日:2023-05-02
# 複数仮説検定のためのコスト認識一般$\alpha$-investing

Cost-aware Generalized $\alpha$-investing for Multiple Hypothesis Testing ( http://arxiv.org/abs/2210.17514v2 )

ライセンス: Link先を確認
Thomas Cook and Harsh Vardhan Dubey and Ji Ah Lee and Guangyu Zhu and Tingting Zhao and Patrick Flaherty(参考訳) 非自明なデータ収集コストを伴う逐次多重仮説テストの問題を考える。 この問題は、例えば、病気の過程において特異的に発現する遺伝子を同定する生物学的実験を行う際に現れる。 この作業は、シーケンシャルなテスト環境での偽発見率の制御を可能にする一般的な$\alpha$-investingフレームワーク上に構築されている。 我々は,$\alpha$-wealth の長期漸近的挙動を理論的に解析し,$\alpha$-investing 決定規則におけるサンプルサイズについて考察する。 テストプロセスを自然とゲームとして構成することで、$\alpha$-wealthの期待リターン(ero)を最適化し、テストに最適なサンプルサイズを提供する決定ルールを構築します。 実証的な結果から、コストを意識したERO決定規則は、他の方法よりも誤ったヌル仮説を正しく拒否することが示された。 コストを意識したERO投資を有限水平試験に拡張し、多くのテストのサンプルを決定ルールで割り当てる。 最後に、生物学的実験からの実際のデータセットに関する実証的なテストでは、コストを認識できるeroが最適なサンプルサイズでテストを行うための実行可能な決定を下すことが示されている。

We consider the problem of sequential multiple hypothesis testing with nontrivial data collection cost. This problem appears, for example, when conducting biological experiments to identify differentially expressed genes in a disease process. This work builds on the generalized $\alpha$-investing framework that enables control of the false discovery rate in a sequential testing setting. We make a theoretical analysis of the long term asymptotic behavior of $\alpha$-wealth which motivates a consideration of sample size in the $\alpha$-investing decision rule. Posing the testing process as a game with nature, we construct a decision rule that optimizes the expected return (ERO) of $\alpha$-wealth and provides an optimal sample size for the test. Empirical results show that a cost-aware ERO decision rule correctly rejects more false null hypotheses than other methods. We extend cost-aware ERO investing to finite-horizon testing which enables the decision rule to allocate samples across many tests. Finally, empirical tests on real data sets from biological experiments show that cost-aware ERO produces actionable decisions to conduct tests at optimal sample sizes.
翻訳日:2023-05-04 18:32:30 公開日:2023-05-02
# ディファレンシャルプライバシを用いた合成テキスト生成:単純かつ実用的なレシピ

Synthetic Text Generation with Differential Privacy: A Simple and Practical Recipe ( http://arxiv.org/abs/2210.14348v2 )

ライセンス: Link先を確認
Xiang Yue, Huseyin A. Inan, Xuechen Li, Girish Kumar, Julia McAnallen, Hoda Shajari, Huan Sun, David Levitan and Robert Sim(参考訳) プライバシに関する懸念は、センシティブなトレーニングデータを記憶する機械学習モデルの傾向により、データ駆動製品に注目が集まっている。 差分プライバシー(DP)のような形式的なプライバシ保証を備えた合成データの生成は、これらのプライバシの懸念を軽減するための有望な経路を提供するが、この方向の以前のアプローチは通常、高品質な合成データの生成に失敗した。 そこで本研究では,DPで事前学習した生成言語モデルを微調整することで,強力なプライバシ保護を備えた有用な合成テキストを生成できる,シンプルで実用的なテキスト領域のレシピが有効であることを示す。 ベンチマークデータとプライベート顧客データの両方に関する広範な実証分析を通じて,本手法が非プライベートデータと実用性の観点から競合する合成テキストを生成する一方で,潜在的なプライバシー漏洩に対する強力な保護を提供することを示す。

Privacy concerns have attracted increasing attention in data-driven products due to the tendency of machine learning models to memorize sensitive training data. Generating synthetic versions of such data with a formal privacy guarantee, such as differential privacy (DP), provides a promising path to mitigating these privacy concerns, but previous approaches in this direction have typically failed to produce synthetic data of high quality. In this work, we show that a simple and practical recipe in the text domain is effective: simply fine-tuning a pretrained generative language model with DP enables the model to generate useful synthetic text with strong privacy protection. Through extensive empirical analyses on both benchmark and private customer data, we demonstrate that our method produces synthetic text that is competitive in terms of utility with its non-private counterpart, meanwhile providing strong protection against potential privacy leakages.
翻訳日:2023-05-04 18:31:54 公開日:2023-05-02
# 磁気フレームレットを用いた有向グラフ畳み込みニューラルネットワーク

A Magnetic Framelet-Based Convolutional Neural Network for Directed Graphs ( http://arxiv.org/abs/2210.10993v2 )

ライセンス: Link先を確認
Lequan Lin and Junbin Gao(参考訳) グラフデータの分析と処理を行う強力なツールであるspectral graph convolutional networks(spectral gcnns)は通常、フーリエ変換による周波数フィルタリングを適用し、選択的情報を持つ表現を得る。 研究は、スペクトルGCNNはフレームレットベースのフィルタリングによって拡張可能であることを示しているが、そのような研究の大部分は、非方向グラフのみを考慮する。 本稿では,磁気フレームレットを用いた有向グラフ用スペクトルgcnnであるframelet-magnetについて述べる。 このモデルは、ダイアグラム信号にフレームレット変換を適用し、フィルタリングのためのより洗練された表現を形成する。 ディグラフフレームレットは複素値の磁気ラプラシアンで構築され、同時に実領域と複素領域の両方の信号処理に繋がる。 我々は,ノード分類,リンク予測,デノーミングにおける最先端モデルに対して,Framelet-MagNetの予測力を実証的に検証した。

Spectral Graph Convolutional Networks (spectral GCNNs), a powerful tool for analyzing and processing graph data, typically apply frequency filtering via Fourier transform to obtain representations with selective information. Although research shows that spectral GCNNs can be enhanced by framelet-based filtering, the massive majority of such research only considers undirected graphs. In this paper, we introduce Framelet-MagNet, a magnetic framelet-based spectral GCNN for directed graphs (digraphs). The model applies the framelet transform to digraph signals to form a more sophisticated representation for filtering. Digraph framelets are constructed with the complex-valued magnetic Laplacian, simultaneously leading to signal processing in both real and complex domains. We empirically validate the predictive power of Framelet-MagNet over a range of state-of-the-art models in node classification, link prediction, and denoising.
翻訳日:2023-05-04 18:31:19 公開日:2023-05-02
# ベイズ最適化による多変量解の発見

Discovering Many Diverse Solutions with Bayesian Optimization ( http://arxiv.org/abs/2210.10953v4 )

ライセンス: Link先を確認
Natalie Maus and Kaiwen Wu and David Eriksson and Jacob Gardner(参考訳) ベイズ最適化(英: bayesian optimization、bo)は、ブラックボックス目的関数のサンプル効率最適化のための一般的な手法である。 BOは幅広い科学的応用に応用されているが、単一目的のBOへの伝統的なアプローチは、単一の最良の解を見つけることしか求めていない。 これは、後に解が難解となるような状況において重要な制限となる。 例えば、設計された分子は最適化プロセスが終了した後にのみ合理的に評価できる制約に違反する可能性がある。 この問題に対処するために,ユーザが特定した多様性基準に従って多種多様なハイパフォーマンスソリューションのポートフォリオを見つけることを目的として,ランク順ベイズ最適化と信頼領域(ROBOT)を提案する。 我々は,複数の実世界のアプリケーション上でROBOTを評価し,高い性能の多様なソリューションを多数発見できることを示す。

Bayesian optimization (BO) is a popular approach for sample-efficient optimization of black-box objective functions. While BO has been successfully applied to a wide range of scientific applications, traditional approaches to single-objective BO only seek to find a single best solution. This can be a significant limitation in situations where solutions may later turn out to be intractable. For example, a designed molecule may turn out to violate constraints that can only be reasonably evaluated after the optimization process has concluded. To address this issue, we propose Rank-Ordered Bayesian Optimization with Trust-regions (ROBOT) which aims to find a portfolio of high-performing solutions that are diverse according to a user-specified diversity metric. We evaluate ROBOT on several real-world applications and show that it can discover large sets of high-performing diverse solutions while requiring few additional function evaluations compared to finding a single best solution.
翻訳日:2023-05-04 18:31:04 公開日:2023-05-02
# タスク命令からの学習のロバスト性

Robustness of Learning from Task Instructions ( http://arxiv.org/abs/2212.03813v2 )

ライセンス: Link先を確認
Jiasheng Gu, Hongyu Zhao, Hanzi Xu, Liangyu Nie, Hongyuan Mei and Wenpeng Yin(参考訳) 従来の教師付き学習は、主に個々のタスクに取り組み、タスク固有の大きな例のトレーニングを必要とする。 このパラダイムは、タスク固有の例セットを作成するのにコストがかかるため、タスクの一般化を著しく妨げます。 新たなタスクに迅速かつ容易に一般化できるシステムを構築するために,タスク命令が近年,監督の新たなトレンドとして採用されている。 これらの命令はモデルにタスクの定義を与え、モデルが命令と入力に基づいて適切な応答を出力することを可能にする。 しかし、タスク命令はしばしば異なる形式で表現され、2つのスレッドから解釈できる: まず、いくつかの命令は短い文であり、プロンプトのような事前学習された言語モデル(plm)指向であり、他の命令は段落であり、amazon mturkのような人間指向である。 タスク一般化のための堅牢なシステムは、命令の可変性に関係なく、新しいタスクを処理できる必要がある。 しかし、命令駆動タスクの一般化を扱うシステムの堅牢性はまだ未検討である。 本研究は,新しいタスクの指示がいつ強固であるかを考察する。 (i)操作された。 (ii)言い換える、または (iii)異なる簡潔さのレベルから。 私たちの知る限りでは、plmが可変性の異なる要素を持つ命令によって監視される場合の堅牢性について体系的に研究するのはこれが初めてです。

Traditional supervised learning mostly works on individual tasks and requires training on a large set of task-specific examples. This paradigm seriously hinders the development of task generalization since preparing a task-specific example set is costly. To build a system that can quickly and easily generalize to new tasks, task instructions have been adopted as an emerging trend of supervision recently. These instructions give the model the definition of the task and allow the model to output the appropriate answer based on the instructions and inputs. However, task instructions are often expressed in different forms, which can be interpreted from two threads: first, some instructions are short sentences and are pretrained language model (PLM) oriented, such as prompts, while other instructions are paragraphs and are human-oriented, such as those in Amazon MTurk; second, different end-users very likely explain the same task with instructions of different textual expressions. A robust system for task generalization should be able to handle any new tasks regardless of the variability of instructions. However, the system robustness in dealing with instruction-driven task generalization is still unexplored. This work investigates the system robustness when the instructions of new tasks are (i) manipulated, (ii) paraphrased, or (iii) from different levels of conciseness. To our knowledge, this is the first work that systematically studies how robust a PLM is when it is supervised by instructions with different factors of variability.
翻訳日:2023-05-04 18:24:19 公開日:2023-05-02
# algorithmicaにおける量子暗号

Quantum Cryptography in Algorithmica ( http://arxiv.org/abs/2212.00879v2 )

ライセンス: Link先を確認
William Kretschmer, Luowen Qian, Makrand Sinha, Avishay Tal(参考訳) 古典オラクルは、$\mathsf{p} = \mathsf{np}$ しかし、単一コピーのセキュアな疑似ランダム量子状態が存在する。 インパグリアッツォの5つの世界の言語では、これは"Algorithmica"における擬似ランダム状態の構成であり、従ってブラックボックスの設定では、一方の関数が存在しなくても擬似ランダム状態に基づく量子暗号が可能であることを示す。 その結果、(1)擬似乱数状態を構成するのに十分であり、(2)ランダムなオラクルを保ち、(3)ブラックボックス設定における$\mathsf{P}$対$\mathsf{NP}$とは独立である暗号ハッシュ関数の性質が示されている。 また、我々の結果をマルチコピー安全な擬似ランダム状態に一般化する予想も導入する。 Aaronson, Ingram, and Kretschmer (CCC 2022) によるオラクルの最近の構成に基づき、OR $\circ$ Forrelation 問題の硬さに基づき、$\mathsf{P} = \mathsf{NP}$ と $\mathsf{BQP} \neq \mathsf{QCMA}$ が成り立つ。 我々の証明はまた、 Forrelation 分布の新しい離散的に定義された変種を導入し、$\mathsf{AC^0}$ 回路に対して擬似ランダム性を証明する。 この変種は独立した興味を持つかもしれない。

We construct a classical oracle relative to which $\mathsf{P} = \mathsf{NP}$ yet single-copy secure pseudorandom quantum states exist. In the language of Impagliazzo's five worlds, this is a construction of pseudorandom states in "Algorithmica," and hence shows that in a black-box setting, quantum cryptography based on pseudorandom states is possible even if one-way functions do not exist. As a consequence, we demonstrate that there exists a property of a cryptographic hash function that simultaneously (1) suffices to construct pseudorandom states, (2) holds for a random oracle, and (3) is independent of $\mathsf{P}$ vs. $\mathsf{NP}$ in the black-box setting. We also introduce a conjecture that would generalize our results to multi-copy secure pseudorandom states. We build on the recent construction by Aaronson, Ingram, and Kretschmer (CCC 2022) of an oracle relative to which $\mathsf{P} = \mathsf{NP}$ but $\mathsf{BQP} \neq \mathsf{QCMA}$, based on hardness of the OR $\circ$ Forrelation problem. Our proof also introduces a new discretely-defined variant of the Forrelation distribution, for which we prove pseudorandomness against $\mathsf{AC^0}$ circuits. This variant may be of independent interest.
翻訳日:2023-05-04 18:23:01 公開日:2023-05-02
# ハイブリッド信念PMDPにおけるモンテカルロ計画

Monte Carlo Planning in Hybrid Belief POMDPs ( http://arxiv.org/abs/2211.07735v2 )

ライセンス: Link先を確認
Moran Barenboim, Moshe Shienman and Vadim Indelman(参考訳) 実世界の問題は、しばしば離散変数と連続変数の両方に対するハイブリッド信念についての推論を必要とする。 しかし、このような設定は計画の文脈ではほとんど調査されていない。 さらに、既存のオンライン部分可観測マルコフ決定プロセス(pomdps)ソルバは、ハイブリッド信念を直接サポートしない。 特に、これらの解法は、指数関数的に増大できる計画的地平線に関する仮説が増加するため、追加の計算負担に対処しない。 本研究の一環として, モンテカルロ木探索 (MCTS) アルゴリズムを用いて, ハイブリッド信念を維持しながらPOMDPを解く新しいアルゴリズム, モンテカルロ計画 (HB-MCP) を提案する。 本研究は, 仮説樹の成長を誘導するために, 上位信頼度(UCB)探索ボーナスを活用する方法について述べる。 次に,未解決のデータ関連がマルチモーダル信念仮説につながる高度にエイリアスされたシミュレーション環境でのアプローチを評価する。

Real-world problems often require reasoning about hybrid beliefs, over both discrete and continuous random variables. Yet, such a setting has hardly been investigated in the context of planning. Moreover, existing online Partially Observable Markov Decision Processes (POMDPs) solvers do not support hybrid beliefs directly. In particular, these solvers do not address the added computational burden due to an increasing number of hypotheses with the planning horizon, which can grow exponentially. As part of this work, we present a novel algorithm, Hybrid Belief Monte Carlo Planning (HB-MCP) that utilizes the Monte Carlo Tree Search (MCTS) algorithm to solve a POMDP while maintaining a hybrid belief. We illustrate how the upper confidence bound (UCB) exploration bonus can be leveraged to guide the growth of hypotheses trees alongside the belief trees. We then evaluate our approach in highly aliased simulated environments where unresolved data association leads to multi-modal belief hypotheses.
翻訳日:2023-05-04 18:22:07 公開日:2023-05-02
# 量子質量生成理論

Quantum Mass Production Theorems ( http://arxiv.org/abs/2212.14399v2 )

ライセンス: Link先を確認
William Kretschmer(参考訳) n$ のユニタリ変換 $u$ と任意の $r = 2^{o(n / \log n)} に対して、最大 $o(4^n)$ のゲートを持つ $u^{\otimes r}$ を実装する量子回路が存在することが証明される。 これは、最悪の$U$のコピーだけを実装するのに必要なゲートの数と漸近的に等しい。 また、量子状態と対角ユニタリ変換の類似の結果も確立する。 我々の手法は、ブール函数に対する同様の質量生成定理を証明したuhlig [math. notes 1974] の研究に基づいている。

We prove that for any $n$-qubit unitary transformation $U$ and for any $r = 2^{o(n / \log n)}$, there exists a quantum circuit to implement $U^{\otimes r}$ with at most $O(4^n)$ gates. This asymptotically equals the number of gates needed to implement just a single copy of a worst-case $U$. We also establish analogous results for quantum states and diagonal unitary transformations. Our techniques are based on the work of Uhlig [Math. Notes 1974], who proved a similar mass production theorem for Boolean functions.
翻訳日:2023-05-04 18:13:15 公開日:2023-05-02
# 低リソース言語のための言語横断検索プロンプト

Cross-Lingual Retrieval Augmented Prompt for Low-Resource Languages ( http://arxiv.org/abs/2212.09651v2 )

ライセンス: Link先を確認
Ercong Nie, Sheng Liang, Helmut Schmid, Hinrich Sch\"utze(参考訳) 多言語前訓練言語モデル(mplms)は、最近の経験的言語間移行研究において、その強い多言語性を示している。 本稿では,低リソース言語 (LRL) におけるゼロショット性能を向上させるために,高リソース言語 (HRL) から取得した意味的に類似した文をプロンプトとして拡張することにより,Pmpts Augmented by Retrieval Crosslingually (PARC) パイプラインを提案する。 PARCは3つの下流タスク(バイナリ感情分類、トピック分類、自然言語推論)におけるゼロショットのパフォーマンスを改善し、ラベルなし設定(+5.1%)とラベル付き設定(+16.3%)の6つの言語ファミリーをカバーする10のLRLにわたる多言語並列テストセットを提供する。 PARC-labeledは微調整ベースラインを3.7%上回っている。 その結果,一方の言語間伝達性能と高・低リソース言語間の類似性,他方の低リソースプリトレーニングデータの量との間に有意な相関が認められた。 堅牢性分析は、PARCがより強力なMPLMでさらに強力な性能を達成する可能性を示唆している。

Multilingual Pretrained Language Models (MPLMs) have shown their strong multilinguality in recent empirical cross-lingual transfer studies. In this paper, we propose the Prompts Augmented by Retrieval Crosslingually (PARC) pipeline to improve the zero-shot performance on low-resource languages (LRLs) by augmenting the context with semantically similar sentences retrieved from a high-resource language (HRL) as prompts. PARC improves the zero-shot performance on three downstream tasks (binary sentiment classification, topic categorization and natural language inference) with multilingual parallel test sets across 10 LRLs covering 6 language families in both unlabeled settings (+5.1%) and labeled settings (+16.3%). PARC-labeled also outperforms the finetuning baseline by 3.7%. We find a significant positive correlation between cross-lingual transfer performance on one side, and the similarity between the high- and low-resource languages as well as the amount of low-resource pretraining data on the other side. A robustness analysis suggests that PARC has the potential to achieve even stronger performance with more powerful MPLMs.
翻訳日:2023-05-04 18:11:08 公開日:2023-05-02
# 競合コンテンツクリエーターの推薦でトップ$Kはどれぐらい悪いのか?

How Bad is Top-$K$ Recommendation under Competing Content Creators? ( http://arxiv.org/abs/2302.01971v2 )

ライセンス: Link先を確認
Fan Yao, Chuanhao Li, Denis Nekipelov, Hongning Wang, Haifeng Xu(参考訳) コンテンツクリエーターはレコメンデーションプラットフォームでの露出を競い合い、このような戦略的行動はコンテンツ配信の動的な変化につながる。 しかし、クリエイターの競争がユーザーの福祉にどのように影響し、関連性による推薦が長期的にのダイナミクスにどのように影響するかは、いまだに不明である。 この研究はこれらの研究課題に関する理論的洞察を提供する。 私たちは、創造者の競争をこう仮定してモデル化します。 1) プラットフォームは,無害な最高額のK$レコメンデーションポリシーを採用している。 2) ユーザ決定は,ランダム・ユーティリティ・モデルに従う。 3)コンテンツクリエーターはユーザのエンゲージメントを競い合い、自分のユーティリティ機能を知ることなく、任意のノンリグレット学習アルゴリズムを適用して戦略を更新する。 我々は,アナーキー価格のレンズを通してユーザ福祉保証を調査し,クリエーター競争によるユーザ福祉損失のごく一部が,k$とユーザ決定のランダム性によって常に小さな定数によって上限されていることを証明した。 提案手法は,ユーザの判断がランダム性にかかわる場合や,プラットフォームがユーザに対して合理的に多くの代替手段を提供する限り,関連性駆動マッチングが長期的には合理的に機能することを示す。

Content creators compete for exposure on recommendation platforms, and such strategic behavior leads to a dynamic shift over the content distribution. However, how the creators' competition impacts user welfare and how the relevance-driven recommendation influences the dynamics in the long run are still largely unknown. This work provides theoretical insights into these research questions. We model the creators' competition under the assumptions that: 1) the platform employs an innocuous top-$K$ recommendation policy; 2) user decisions follow the Random Utility model; 3) content creators compete for user engagement and, without knowing their utility function in hindsight, apply arbitrary no-regret learning algorithms to update their strategies. We study the user welfare guarantee through the lens of Price of Anarchy and show that the fraction of user welfare loss due to creator competition is always upper bounded by a small constant depending on $K$ and randomness in user decisions; we also prove the tightness of this bound. Our result discloses an intrinsic merit of the myopic approach to the recommendation, i.e., relevance-driven matching performs reasonably well in the long run, as long as users' decisions involve randomness and the platform provides reasonably many alternatives to its users.
翻訳日:2023-05-04 18:04:39 公開日:2023-05-02
# サイバー物理システムにおけるオンラインエラー検出のための深層強化学習

Deep Reinforcement Learning for Online Error Detection in Cyber-Physical Systems ( http://arxiv.org/abs/2302.01567v2 )

ライセンス: Link先を確認
Seyyedamirhossein Saeidi and Forouzan Fallah and Saeed Samieezafarghandi and Hamed Farbeh(参考訳) 信頼性はサイバー物理システム(CPS)の主要な設計基準の一つである。 これはCPSにいくつかの重要な応用があり、その失敗は破滅的であるからである。 したがって、CPSにおいて強いエラー検出と補正機構を用いることは避けられない。 CPSはセンサー、ネットワーク、マイクロコントローラを含む様々なユニットで構成されている。 これらのユニットは、いつでも故障状態にあり、発生した故障が誤った出力をもたらす可能性がある。 故障によりCPSのユニットが故障し、最終的にクラッシュする可能性がある。 従来のフォールトトレラントなアプローチには冗長時間、ハードウェア、情報、ソフトウェアなどがある。 しかし、これらのアプローチは低いエラーカバレッジ以外に大きなオーバーヘッドを課すため、適用性が制限される。 さらに、これらのアプローチでは、エラーの発生と検出の間の間隔が長すぎる。 本稿では,深層強化学習(drl)に基づいて,高い精度で誤りを検出できるだけでなく,非常に低い推論時間でエラー検出が可能な新しい誤り検出手法を提案する。 提案手法は,正規データから異なる種類のエラーを分類し,システムが故障するかどうかを予測できる。 評価結果から,提案手法の精度は2倍以上に向上し,推算時間も他の手法に比べて5倍以上に向上したことが示された。

Reliability is one of the major design criteria in Cyber-Physical Systems (CPSs). This is because of the existence of some critical applications in CPSs and their failure is catastrophic. Therefore, employing strong error detection and correction mechanisms in CPSs is inevitable. CPSs are composed of a variety of units, including sensors, networks, and microcontrollers. Each of these units is probable to be in a faulty state at any time and the occurred fault can result in erroneous output. The fault may cause the units of CPS to malfunction and eventually crash. Traditional fault-tolerant approaches include redundancy time, hardware, information, and/or software. However, these approaches impose significant overheads besides their low error coverage, which limits their applicability. In addition, the interval between error occurrence and detection is too long in these approaches. In this paper, based on Deep Reinforcement Learning (DRL), a new error detection approach is proposed that not only detects errors with high accuracy but also can perform error detection at the moment due to very low inference time. The proposed approach can categorize different types of errors from normal data and predict whether the system will fail. The evaluation results illustrate that the proposed approach has improved more than 2x in terms of accuracy and more than 5x in terms of inference time compared to other approaches.
翻訳日:2023-05-04 18:04:16 公開日:2023-05-02
# 手術集約:分散医用画像データセットを多様なタスクで調和させる協調学習フレームワーク

Surgical Aggregation: A Collaborative Learning Framework for Harmonizing Distributed Medical Imaging Datasets with Diverse Tasks ( http://arxiv.org/abs/2301.06683v3 )

ライセンス: Link先を確認
Pranav Kulkarni, Adway Kanhere, Paul H. Yi, Vishwa S. Parekh(参考訳) 大規模胸部X線データセットは、深層学習を用いて異常を検出するためにキュレートされ、多くの臨床応用において大きな利益をもたらす可能性がある。 しかし、各データセットは、患者に同時に存在する可能性のある発見のサブセットを検出することのみに焦点を当て、臨床的有用性を制限する。 したがって、これらのデータセットを集約的に活用して、胸腔内に発生するあらゆる異常を完全な表現で、臨床的に有用で堅牢なモデルを訓練することが重要である。 そこで本研究では,分散不均一データセットと部分的疾患アノテーションを融合し,知識を集約する協調学習フレームワークであるブラジカルアグリゲーションを提案する。 合成イドデータセットと実世界の大規模非イドデータセット間の部分アノテーションによる外科的凝集を評価する。 以上の結果から, 外科的アグリゲーションは現在の戦略を大きく上回り, 汎用性が向上し, 臨床応用モデルに革命をもたらす可能性が示唆された。

Large-scale chest x-ray datasets have been curated for the detection of abnormalities using deep learning, with the potential to provide substantial benefits across many clinical applications. However, each dataset focuses only on detecting a subset of findings that can be simultaneously present in a patient, thereby limiting its clinical utility. Therefore, data harmonization is crucial to leverage these datasets in aggregate to train clinically-useful, robust models with a complete representation of all abnormalities that may occur within the thorax. To that end, we propose surgical aggregation, a collaborative learning framework for harmonizing and aggregating knowledge from distributed heterogeneous datasets with partial disease annotations. We evaluate surgical aggregation across synthetic iid datasets and real-world large-scale non-iid datasets with partial annotations. Our results indicate that surgical aggregation significantly outperforms current strategies, has better generalizability, and has the potential to revolutionize the development clinically-useful models as AI-assisted disease characterization becomes a mainstay in radiology.
翻訳日:2023-05-04 18:03:09 公開日:2023-05-02
# サーロゲートモデリングによる効率的な活性化関数最適化

Efficient Activation Function Optimization through Surrogate Modeling ( http://arxiv.org/abs/2301.05785v4 )

ライセンス: Link先を確認
Garrett Bingham and Risto Miikkulainen(参考訳) 慎重に設計されたアクティベーション機能は、多くの機械学習タスクにおけるニューラルネットワークのパフォーマンスを改善することができる。 しかし、人間が最適な活性化関数を構築することは困難であり、現在の活性化関数探索アルゴリズムは極めて高価である。 本研究の目的は, コンボリューション, 残留, 視覚トランスフォーマーの訓練により, act-bench-cnn, act-bench-resnet, act-bench-vitのベンチマークデータセットを2,913個の系統的生成アクティベーション関数を用いてスクラッチから作成することである。 第2に,ベンチマーク空間のキャラクタリゼーションが開発され,新たなサロゲートに基づく最適化手法が開発された。 より具体的には、初期化時のモデルの予測分布と活性化関数の出力分布に関連するフィッシャー情報行列のスペクトルは、高い性能予測値であることが判明した。 第3に、surrogateはcifar-100とimagenetタスクのアクティベーション機能を改善するために使用された。 これらのステップはいずれもそれ自体が貢献しており、アクティベーション関数の最適化に関するさらなる研究のための実践的で理論的な基礎となっている。 コードはhttps://github.com/cognizant-ai-labs/aquasurfで利用可能であり、ベンチマークデータセットはhttps://github.com/cognizant-ai-labs/act-benchにある。

Carefully designed activation functions can improve the performance of neural networks in many machine learning tasks. However, it is difficult for humans to construct optimal activation functions, and current activation function search algorithms are prohibitively expensive. This paper aims to improve the state of the art through three steps: First, the benchmark datasets Act-Bench-CNN, Act-Bench-ResNet, and Act-Bench-ViT were created by training convolutional, residual, and vision transformer architectures from scratch with 2,913 systematically generated activation functions. Second, a characterization of the benchmark space was developed, leading to a new surrogate-based method for optimization. More specifically, the spectrum of the Fisher information matrix associated with the model's predictive distribution at initialization and the activation function's output distribution were found to be highly predictive of performance. Third, the surrogate was used to discover improved activation functions in CIFAR-100 and ImageNet tasks. Each of these steps is a contribution in its own right; together they serve as a practical and theoretical foundation for further research on activation function optimization. Code is available at https://github.com/cognizant-ai-labs/aquasurf, and the benchmark datasets are at https://github.com/cognizant-ai-labs/act-bench.
翻訳日:2023-05-04 18:02:28 公開日:2023-05-02
# インストラクショナルビデオ記録からの教師なしタスクグラフ生成

Unsupervised Task Graph Generation from Instructional Video Transcripts ( http://arxiv.org/abs/2302.09173v2 )

ライセンス: Link先を確認
Lajanugen Logeswaran, Sungryull Sohn, Yunseok Jang, Moontae Lee, Honglak Lee(参考訳) 本研究は,実世界の活動のタスクグラフ生成の問題を考察する。 従来の定式化とは違って,実世界の活動を行うインストラクショナルビデオ(例えばコーヒーを作る)のテキスト書き起こしが提供され,タスクに関連する重要なステップと,これらの重要なステップ間の依存関係関係を識別することが目的である。 本稿では,命令調整言語モデルの推論能力とクラスタリングとランキングコンポーネントを組み合わせたタスクグラフ生成手法を提案する。 提案手法は,ProceLおよびCrossTaskデータセットのタスクに対する教師付き学習手法と比較して,より正確なタスクグラフを生成する。

This work explores the problem of generating task graphs of real-world activities. Different from prior formulations, we consider a setting where text transcripts of instructional videos performing a real-world activity (e.g., making coffee) are provided and the goal is to identify the key steps relevant to the task as well as the dependency relationship between these key steps. We propose a novel task graph generation approach that combines the reasoning capabilities of instruction-tuned language models along with clustering and ranking components to generate accurate task graphs in a completely unsupervised manner. We show that the proposed approach generates more accurate task graphs compared to a supervised learning approach on tasks from the ProceL and CrossTask datasets.
翻訳日:2023-05-04 17:54:37 公開日:2023-05-02
# APAM:雑音ラベルと長期学習のための言語モデルにおける適応的事前学習と適応的メタ学習

APAM: Adaptive Pre-training and Adaptive Meta Learning in Language Model for Noisy Labels and Long-tailed Learning ( http://arxiv.org/abs/2302.03488v2 )

ライセンス: Link先を確認
Sunyi Chi, Bo Dong, Yiming Xu, Zhenyu Shi, Zheng Du(参考訳) 実用的な自然言語処理(NLP)タスクは、一般的にノイズの多いラベルで長い尾を持つ。 これらの問題はディープニューラルネットワーク(DNN)のような複雑なモデルの一般化と堅牢性に挑戦する。 オーバーサンプリングやアンダーサンプリングなどの一般的な再サンプリング技術は、容易にオーバーフィッティングにつながる可能性がある。 少量のメタデータを活用することで、データ重み付けを学ぶことは人気を博している。 また,近年の研究では,自己教師あり事前学習,特に自己教師なしデータの利点が示されている。 本研究では,長尺ラベルと雑音ラベルの両方の問題に対処する一般的なフレームワークを提案する。 このモデルは、対照的な学習方法で問題領域に適応する。 再重み付けモジュールはフィードフォワードネットワークであり、明示的な重み付け関数を学び、メタデータに従って重みを調整する。 この枠組みは、クロスエントロピー損失の多項式展開と焦点損失の組み合わせにより、損失関数の項の重み付けをさらに適応させる。 提案手法がベースライン法より一貫して優れていることを示す。 最後に,当社の感度分析では,ロングテール問題に対処し,ノイズラベルの悪影響を軽減するための提案フレームワークの能力を強調した。

Practical natural language processing (NLP) tasks are commonly long-tailed with noisy labels. Those problems challenge the generalization and robustness of complex models such as Deep Neural Networks (DNNs). Some commonly used resampling techniques, such as oversampling or undersampling, could easily lead to overfitting. It is growing popular to learn the data weights leveraging a small amount of metadata. Besides, recent studies have shown the advantages of self-supervised pre-training, particularly to the under-represented data. In this work, we propose a general framework to handle the problem of both long-tail and noisy labels. The model is adapted to the domain of problems in a contrastive learning manner. The re-weighting module is a feed-forward network that learns explicit weighting functions and adapts weights according to metadata. The framework further adapts weights of terms in the loss function through a combination of the polynomial expansion of cross-entropy loss and focal loss. Our extensive experiments show that the proposed framework consistently outperforms baseline methods. Lastly, our sensitive analysis emphasizes the capability of the proposed framework to handle the long-tailed problem and mitigate the negative impact of noisy labels.
翻訳日:2023-05-04 17:52:47 公開日:2023-05-02
# スピン系における角運動量誤差に対するマルチスピンクリフォード符号

Multispin Clifford codes for angular momentum errors in spin systems ( http://arxiv.org/abs/2304.08611v2 )

ライセンス: Link先を確認
Sivaprasad Omanakuttan and Jonathan A. Gross(参考訳) 系の物理対称性は量子エラー補正において中心的な役割を果たす。 本研究では,angular-momentum symmetry (spins) を用いたシステム群に量子ビットを符号化し,phys で開発されたツールを拡張する。 Rev. Lett. 127, 010504 単一の大きなスピンで 原子系に存在する大きなスピンを考慮し、その集合対称部分空間に焦点を当てることで、角運動量演算子における誤差を2次に補正できる八面体対称性を持つ新しい符号を開発する。 これらの誤差には、マイクロ波制御誤差や光ポンピングなど、物理的に最も関連するノイズ源が含まれる。 さらに,超越的な単一量子Clifford演算を許容しながら,表面コードとの距離スケーリングの相似性を示す新しい量子ビット符号についても検討する。

The physical symmetries of a system play a central role in quantum error correction. In this work we encode a qubit in a collection of systems with angular-momentum symmetry (spins), extending the tools developed in Phys. Rev. Lett. 127, 010504 for single large spins. By considering large spins present in atomic systems and focusing on their collective symmetric subspace, we develop new codes with octahedral symmetry capable of correcting errors up to second order in angular-momentum operators. These errors include the most physically relevant noise sources such as microwave control errors and optical pumping. We additionally explore new qubit codes that exhibit distance scaling commensurate with the surface code while permitting transversal single-qubit Clifford operations.
翻訳日:2023-05-04 17:37:36 公開日:2023-05-02
# マルチモーダル画像テキストマッチングによる検索型胸部X線レポート生成の改善

Multimodal Image-Text Matching Improves Retrieval-based Chest X-Ray Report Generation ( http://arxiv.org/abs/2303.17579v2 )

ライセンス: Link先を確認
Jaehwan Jeong, Katherine Tian, Andrew Li, Sina Hartung, Fardad Behzadi, Juan Calle, David Osayande, Michael Pohlen, Subathra Adithan, Pranav Rajpurkar(参考訳) 臨床的に正確な放射線診断レポートの自動生成は、患者のケアを改善することができる。 画像キャプションモデルに依存する従来のレポート生成方法は、関連するドメイン知識の欠如により一貫性のない不正確なテキストを生成することが多いが、検索ベースの試みは入力画像と無関係なレポートを頻繁に取り出す。 本研究では,胸部X線画像とX線画像の類似性を測定するために画像テキストマッチングスコアを用いた新しい検索用X線レポート生成モジュールであるContrastive X-Ray Report Match (X-REM)を提案する。 画像テキストマッチングスコアを言語画像モデルで計算することで、コサイン類似性を用いてしばしば失われる画像とテキストのきめ細かい相互作用を効果的に捉えることができる。 X-REMは、自然言語と臨床メトリクスの両方の観点から、複数の先行放射線学レポート生成モジュールより優れている。 X-REMはゼロエラーレポートの数を増大させ,ベースライン検索手法と比較して平均エラー重大度を低下させた。 私たちのコードは、https://github.com/rajpurkarlab/X-REMで利用可能です。

Automated generation of clinically accurate radiology reports can improve patient care. Previous report generation methods that rely on image captioning models often generate incoherent and incorrect text due to their lack of relevant domain knowledge, while retrieval-based attempts frequently retrieve reports that are irrelevant to the input image. In this work, we propose Contrastive X-Ray REport Match (X-REM), a novel retrieval-based radiology report generation module that uses an image-text matching score to measure the similarity of a chest X-ray image and radiology report for report retrieval. We observe that computing the image-text matching score with a language-image model can effectively capture the fine-grained interaction between image and text that is often lost when using cosine similarity. X-REM outperforms multiple prior radiology report generation modules in terms of both natural language and clinical metrics. Human evaluation of the generated reports suggests that X-REM increased the number of zero-error reports and decreased the average error severity compared to the baseline retrieval approach. Our code is available at: https://github.com/rajpurkarlab/X-REM
翻訳日:2023-05-04 17:33:45 公開日:2023-05-02
# 制御可能な信頼トレードオフによる合成データの監査と生成

Auditing and Generating Synthetic Data with Controllable Trust Trade-offs ( http://arxiv.org/abs/2304.10819v2 )

ライセンス: Link先を確認
Brian Belgodere, Pierre Dognin, Adam Ivankay, Igor Melnyk, Youssef Mroueh, Aleksandra Mojsilovic, Jiri Navratil, Apoorva Nitsure, Inkit Padhi, Mattia Rigotti, Jerret Ross, Yair Schiff, Radhika Vedpathak, and Richard A. Young(参考訳) 現実世界から収集されたデータはバイアスがかかり、バランスが取れず、機密情報や個人情報が漏洩するリスクがある。 この現実は、実際のデータに固有のリスク、バイアス、危害、プライバシーの懸念を軽減するために、合成データセットを作成するというアイデアを生み出した。 このコンセプトは、生成AIモデルを使用して、実際のデータに忠実なまま、バイアスのないプライバシー保護された合成データを生成する。 この新しいパラダイムでは、このアプローチが約束を果たすかどうかをどうやって判断すればよいのか? 本稿では,それらのデータセットとaiモデルを総合的に評価し,バイアスと差別防止,実データへの忠実性,実用性,堅牢性,プライバシ保護を中心に評価する監査フレームワークを提案する。 我々は,教育,医療,銀行,人的資源,そして表形式から時系列,自然言語に至るまで,さまざまな形態のさまざまなユースケースにおいて,複数の生成モデルを監査することによって,我々の枠組みを実証する。 当社のユースケースは、規制当局や政策立案者がますます実施している社会技術保護へのコンプライアンスを確保するために、総合的な評価の重要性を示すものである。 そこで本研究では,複数の合成データセットを所定のセーフガードと所望のトレードオフに基づいて分類する信頼指数を提案する。 さらに,我々は,異なるモダリティにまたがって,信頼者を引き合いに出すトランスフォーマーのクラスで紹介するトレーニングループの監査を通じて,信頼インデックス駆動モデル選択と相互評価手順を考案する。 この信頼駆動モデルの選択は、結果の合成データで制御可能な信頼トレードオフを可能にする。 当社の監査フレームワークには,モデル開発から監査,認定に至るまで,さまざまな利害関係者を合成データ監査レポートを通じて接続するワークフローが組み込まれています。

Data collected from the real world tends to be biased, unbalanced, and at risk of exposing sensitive and private information. This reality has given rise to the idea of creating synthetic datasets to alleviate risk, bias, harm, and privacy concerns inherent in the real data. This concept relies on Generative AI models to produce unbiased, privacy-preserving synthetic data while being true to the real data. In this new paradigm, how can we tell if this approach delivers on its promises? We present an auditing framework that offers a holistic assessment of synthetic datasets and AI models trained on them, centered around bias and discrimination prevention, fidelity to the real data, utility, robustness, and privacy preservation. We showcase our framework by auditing multiple generative models on diverse use cases, including education, healthcare, banking, human resources, and across different modalities, from tabular, to time-series, to natural language. Our use cases demonstrate the importance of a holistic assessment in order to ensure compliance with socio-technical safeguards that regulators and policymakers are increasingly enforcing. For this purpose, we introduce the trust index that ranks multiple synthetic datasets based on their prescribed safeguards and their desired trade-offs. Moreover, we devise a trust-index-driven model selection and cross-validation procedure via auditing in the training loop that we showcase on a class of transformer models that we dub TrustFormers, across different modalities. This trust-driven model selection allows for controllable trust trade-offs in the resulting synthetic data. We instrument our auditing framework with workflows that connect different stakeholders from model development to audit and certification via a synthetic data auditing report.
翻訳日:2023-05-04 17:26:17 公開日:2023-05-02
# エッジ支援型DNNサービングのための適応スケジューリング

Adaptive Scheduling for Edge-Assisted DNN Serving ( http://arxiv.org/abs/2304.09961v2 )

ライセンス: Link先を確認
Jian He, Chenxi Yang, Zhaoyuan He, Ghufran Baig, Lili Qiu(参考訳) ディープニューラルネットワーク(DNN)は様々なビデオ分析タスクで広く利用されている。 これらのタスクはリアルタイム応答を要求する。 モバイルデバイスの処理能力が限られているため、そのようなリアルタイム分析をサポートする一般的な方法は、処理をエッジサーバにオフロードすることだ。 本稿では,複数のクライアントに対するエッジサーバdnn処理の高速化について検討する。 特に,複数のDNN要求のバッチ化は処理時間を著しく短縮する。 この観測に基づいて、我々はまず、同一のDNNを実行する全てのリクエストのバッチ処理の利点を利用する新しいスケジューリングアルゴリズムを設計する。 なぜなら、少数のDNNが存在し、多くのリクエストが同じDNNを使用する傾向があるからだ。 私たちのアルゴリズムは汎用的で、完了時間の最小化やオンタイム比の最大化など、さまざまな目標をサポートできます。 次に、異なるDNNを使用するリクエストを、共有レイヤの有無に関わらず処理するようにアルゴリズムを拡張します。 最後に,クライアントの局所的な要求の一部や部分の処理を適応的に行うことにより,パフォーマンスを向上させるための協調的アプローチを開発した。 これは特にネットワークやサーバが混雑している場合に便利である。 本実装は,異なる要求分布(例えば,poisson,pareto,constant inter-arrivals)下でのアプローチの有効性を示す。

Deep neural networks (DNNs) have been widely used in various video analytic tasks. These tasks demand real-time responses. Due to the limited processing power on mobile devices, a common way to support such real-time analytics is to offload the processing to an edge server. This paper examines how to speed up the edge server DNN processing for multiple clients. In particular, we observe batching multiple DNN requests significantly speeds up the processing time. Based on this observation, we first design a novel scheduling algorithm to exploit the batching benefits of all requests that run the same DNN. This is compelling since there are only a handful of DNNs and many requests tend to use the same DNN. Our algorithms are general and can support different objectives, such as minimizing the completion time or maximizing the on-time ratio. We then extend our algorithm to handle requests that use different DNNs with or without shared layers. Finally, we develop a collaborative approach to further improve performance by adaptively processing some of the requests or portions of the requests locally at the clients. This is especially useful when the network and/or server is congested. Our implementation shows the effectiveness of our approach under different request distributions (e.g., Poisson, Pareto, and Constant inter-arrivals).
翻訳日:2023-05-04 17:25:48 公開日:2023-05-02
# FlightBERT++: 自動回帰型マルチ水平飛行軌道予測フレームワーク

FlightBERT++: A Non-autoregressive Multi-Horizon Flight Trajectory Prediction Framework ( http://arxiv.org/abs/2305.01658v1 )

ライセンス: Link先を確認
Dongyue Guo, Zheng Zhang, Jianwei Zhang, and Yi Lin(参考訳) FTP(Flight Trajectory Prediction)は、航空管制官がより安全かつ効率的に空域を管理するのを支援する航空交通管制(ATC)において不可欠なタスクである。 既存のアプローチは、一般的に自動回帰方式でマルチ水平FTPタスクを実行するが、これはエラーの蓄積や効率の低い問題に悩まされがちである。 本稿では,FlightBERT++と呼ばれる新しいフレームワークを提案する。 一 自己回帰的でない方法で直接マルチホライゾン飛行軌道を予測すること。 ii) FlightBERTフレームワークにおけるバイナリエンコーディング(BE)表現の制限を改善した。 具体的には, 提案手法を一般化エンコーダ・デコーダアーキテクチャにより実装し, エンコーダが過去の観測から時空間パターンを学習し, デコーダが将来の飛行状況を予測する。 従来のアーキテクチャと比較して,複数水平非自己回帰予測を行うための事前の水平情報を検討するために,余分な水平対応コンテキスト生成器(HACG)が設計されている。 さらに、差分列の定常性とbe表現の高ビット誤りの両方をよく考慮して微分予測戦略を設計する。 さらに, 予測の高ビット誤差をさらに制約する枠組みを最適化するために, ビット方向重み付き二項クロスエントロピー損失関数が提案されている。 最後に、提案するフレームワークを実世界の飛行軌跡データセットで検証する。 実験の結果,提案フレームワークは競争ベースラインを上回っていた。

Flight Trajectory Prediction (FTP) is an essential task in Air Traffic Control (ATC), which can assist air traffic controllers to manage airspace more safely and efficiently. Existing approaches generally perform multi-horizon FTP tasks in an autoregressive manner, which is prone to suffer from error accumulation and low-efficiency problems. In this paper, a novel framework, called FlightBERT++, is proposed to i) forecast multi-horizon flight trajectories directly in a non-autoregressive way, and ii) improved the limitation of the binary encoding (BE) representation in the FlightBERT framework. Specifically, the proposed framework is implemented by a generalized Encoder-Decoder architecture, in which the encoder learns the temporal-spatial patterns from historical observations and the decoder predicts the flight status for the future time steps. Compared to conventional architecture, an extra horizon-aware contexts generator (HACG) is dedicatedly designed to consider the prior horizon information that enables us to perform multi-horizon non-autoregressive prediction. Additionally, a differential prediction strategy is designed by well considering both the stationarity of the differential sequence and the high-bits errors of the BE representation. Moreover, the Bit-wise Weighted Binary Cross Entropy loss function is proposed to optimize the proposed framework that can further constrain the high-bits errors of the predictions. Finally, the proposed framework is validated on a real-world flight trajectory dataset. The experimental results show that the proposed framework outperformed the competitive baselines.
翻訳日:2023-05-04 17:18:34 公開日:2023-05-02
# 分子スピン量子プロセッサの青写真

Blueprint of a Molecular Spin Quantum Processor ( http://arxiv.org/abs/2305.01688v1 )

ライセンス: Link先を確認
A. Chiesa, S. Roca, S. Chicco, M. C. de Ory, A. G\'omez-Le\'on, A. G\'omez, D. Zueco, F. Luis, S. Carretta(参考訳) 普遍量子プロセッサの実装は、メインストリームの代わりにプラットフォームやコンピューティングスキームを調査する必要があるエラーの軽減と修正に関する根本的な問題をまだ引き起こしている。 可能性は、自然に分子スピンによって提供される多レベル論理単位(量子)を用いることによって提供される。 本稿では、単一分子ナノ磁性体からなる分子スピン量子プロセッサの設計図を、超伝導共振器内に配置し、これらの分子の大きさと相互作用に適合し、強い単一スピンと光子カップリングを実現する。 このようなプラットフォームに普遍的なゲートセットを実装する方法と、最終的なqudit状態を読み取る方法を示す。 単一量子ユニタリ(潜在的に複数の量子ビットを埋め込む)は高速な古典ドライブによって実装され、共振光子交換による2量子ゲートを得るための新しいスキームが導入された。 後者は分散アプローチと比較され、一般的に大きな改善が見られる。 プラットフォームの性能は、Deutsch-Joszaや量子シミュレーションアルゴリズムのようなゲートシーケンスの現実的な数値シミュレーションによって評価される。 非常に良好な結果は、普遍量子プロセッサへの分子経路の実現可能性を示している。

The implementation of a universal quantum processor still poses fundamental issues related to error mitigation and correction, which demand to investigate also platforms and computing schemes alternative to the main stream. A possibility is offered by employing multi-level logical units (qudits), naturally provided by molecular spins. Here we present the blueprint of a Molecular Spin Quantum Processor consisting of single Molecular Nanomagnets, acting as qudits, placed within superconducting resonators adapted to the size and interactions of these molecules to achieve a strong single spin to photon coupling. We show how to implement a universal set of gates in such a platform and to readout the final qudit state. Single-qudit unitaries (potentially embedding multiple qubits) are implemented by fast classical drives, while a novel scheme is introduced to obtain two-qubit gates via resonant photon exchange. The latter is compared to the dispersive approach, finding in general a significant improvement. The performance of the platform is assessed by realistic numerical simulations of gate sequences, such as Deutsch-Josza and quantum simulation algorithms. The very good results demonstrate the feasibility of the molecular route towards a universal quantum processor.
翻訳日:2023-05-04 17:10:20 公開日:2023-05-02
# 量子フーリエ反復振幅推定

Quantum Fourier Iterative Amplitude Estimation ( http://arxiv.org/abs/2305.01686v1 )

ライセンス: Link先を確認
Jorge J. Mart\'inez de Lejarza, Michele Grossi, Leandro Cieri and Germ\'an Rodrigo(参考訳) モンテカルロ積分(モンテカルロせき、montal carlo integration)は、計算コストが高い積分の近似法である。 近年、量子コンピューティングはモンテカルロ積分の高速化を約束しており、この目標を達成するためにいくつかの量子アルゴリズムが提案されている。 本稿では,モンテカルロ積分を推定するための新しいツールを構築するために,量子機械学習(QML)とGroverの増幅アルゴリズムの適用について述べる。 我々は、量子フーリエ反復振幅推定(QFIAE)と呼び、パラメタライズド量子回路(PQC)、特に量子ニューラルネットワーク(QNN)を用いてターゲット関数をフーリエ級数に分解し、反復量子振幅推定(IQAE)を用いて各三角成分を統合する。 このアプローチはフーリエ量子モンテカルロ積分(FQMCI)法に基づいており、ターゲット関数をフーリエ級数に分解するが、QFIAEはフーリエ係数の数値積分を避ける。 このアプローチはIQAEが達成した2次スピードアップを維持しながら計算負荷を削減する。 QFIAEの性能を評価するために、粒子物理学散乱法に対応するテスト関数に適用し、その精度を他の量子積分法や解析結果と比較する。 この結果から,QFIAEは実ハードウェア上での実行に適した精度を実現していることがわかった。 また、フーリエ級数における項数を増やすことにより、QFIAEの精度が向上することを示す。 結論として、qfiae はモンテカルロ積分のエンドツーエンド量子アルゴリズムであり、pqc のパワーとフーリエ解析と iqae を組み合わせて、高精度に積分を近似する新しいアプローチを提供する。

Monte Carlo integration is a widely used numerical method for approximating integrals, which is often computationally expensive. In recent years, quantum computing has shown promise for speeding up Monte Carlo integration, and several quantum algorithms have been proposed to achieve this goal. In this paper, we present an application of Quantum Machine Learning (QML) and Grover's amplification algorithm to build a new tool for estimating Monte Carlo integrals. Our method, which we call Quantum Fourier Iterative Amplitude Estimation (QFIAE), decomposes the target function into its Fourier series using a Parametrized Quantum Circuit (PQC), specifically a Quantum Neural Network (QNN), and then integrates each trigonometric component using Iterative Quantum Amplitude Estimation (IQAE). This approach builds on Fourier Quantum Monte Carlo Integration (FQMCI) method, which also decomposes the target function into its Fourier series, but QFIAE avoids the need for numerical integration of Fourier coefficients. This approach reduces the computational load while maintaining the quadratic speedup achieved by IQAE. To evaluate the performance of QFIAE, we apply it to a test function that corresponds with a particle physics scattering process and compare its accuracy with other quantum integration methods and the analytic result. Our results show that QFIAE achieves comparable accuracy while being suitable for execution on real hardware. We also demonstrate how the accuracy of QFIAE improves by increasing the number of terms in the Fourier series. In conclusion, QFIAE is a promising end-to-end quantum algorithm for Monte Carlo integrals that combines the power of PQC with Fourier analysis and IQAE to offer a new approach for efficiently approximating integrals with high accuracy.
翻訳日:2023-05-04 17:10:01 公開日:2023-05-02
# SATソルバーを用いたクリフォード回路の深さ最適合成

Depth-Optimal Synthesis of Clifford Circuits with SAT Solvers ( http://arxiv.org/abs/2305.01674v1 )

ライセンス: Link先を確認
Tom Peham, Nina Brandl, Richard Kueng, Robert Wille and Lukas Burgholzer(参考訳) 回路合成は、与えられた論理機能を基本ゲートの列に分解するタスクである。 さらに短い回路で所望の機能を達成することが不可能であれば(深く)最適である。 最適合成は量子および古典的ハードウェア設計において中心的な問題であるが、複雑性理論上の障害にも悩まされている。 フォールトトレラントな量子計算に動機づけられ、クリフォードユニタリのブロックを合成する特別な場合を考える。 入力刺激の絡み合いと安定化形式を利用することで、クリフォード合成問題を、対象回路の深さごとに1つずつのポリサイズ満足度(sat)問題に還元することができる。 概念レベルでは、クリフォード合成問題は多項式階層の第1レベル($Sigma_2^{\mathsf{P}}$)に含まれるが、論理回路の古典的合成問題は多項式階層の第2レベル($Sigma_2^{\mathsf{P}}$)に対して完備であることが知られている。 この理論的な還元に基づき、深さ最適クリフォード合成のためのsat符号化を定式化する。 次にSATソルバを用いて満足な代入を決定するか、そのような代入が存在しないことを証明する。 これにより、合成が可能な最短深度(最適)と実際の回路(合成)が得られる。 経験的評価により、最適合成手法はランダムクリフォード回路とグローバー探索のためのclifford+t回路の大幅な深さ改善をもたらすことが示された。

Circuit synthesis is the task of decomposing a given logical functionality into a sequence of elementary gates. It is (depth-)optimal if it is impossible to achieve the desired functionality with even shorter circuits. Optimal synthesis is a central problem in both quantum and classical hardware design, but also plagued by complexity-theoretic obstacles. Motivated by fault-tolerant quantum computation, we consider the special case of synthesizing blocks of Clifford unitaries. Leveraging entangling input stimuli and the stabilizer formalism allows us to reduce the Clifford synthesis problem to a family of poly-size satisfiability (SAT) problems -- one for each target circuit depth. On a conceptual level, our result showcases that the Clifford synthesis problem is contained in the first level of the polynomial hierarchy ($\mathsf{NP}$), while the classical synthesis problem for logical circuits is known to be complete for the second level of the polynomial hierarchy ($\Sigma_2^{\mathsf{P}}$). Based on this theoretical reduction, we formulate a SAT encoding for depth-optimal Clifford synthesis. We then employ SAT solvers to determine a satisfying assignment or to prove that no such assignment exists. From that, the shortest depth for which synthesis is still possible (optimality) as well as the actual circuit (synthesis) can be obtained. Empirical evaluations show that the optimal synthesis approach yields a substantial depth improvement for random Clifford circuits and Clifford+T circuits for Grover search.
翻訳日:2023-05-04 17:09:30 公開日:2023-05-02
# AIによるコミュニケーションに対する恐怖は、自分と他人の使用に対して異なる期待を抱いている

Fears about AI-mediated communication are grounded in different expectations for one's own versus others' use ( http://arxiv.org/abs/2305.01670v1 )

ライセンス: Link先を確認
Zoe A. Purcell, Mengchen Dong, Anne-Marie Nussberger, Nils K\"obis, and Maurice Jakesch(参考訳) aiを使って対人メッセージを強化するデジタルツールであるai-mediated communication technologies(aicts)の急速な発展は、対人信頼の将来に対する懸念を高め、開示と普及に関する議論を促している。 本論は,オープン・シークレットAICTの受容性と利用に関する認識を自己他者に対して評価することで,この議論に寄与する。 代表的サンプル(UK: N=477, US: N=765)を用いた2つの研究において, 秘密のAICT使用はオープンなAICT使用よりも受け入れられず, 他人のAICT使用を過大評価する傾向があり, 他人が無責任にAICTの使用を期待する傾向が見られた。 そこで我々は、誤解の可能性を懸念し、他者がaiを媒介とするコミュニケーションに関する自己満足の悲観的な見通しを後押しするさまざまな期待を提起する。

The rapid development of AI-mediated communication technologies (AICTs), which are digital tools that use AI to augment interpersonal messages, has raised concerns about the future of interpersonal trust and prompted discussions about disclosure and uptake. This paper contributes to this discussion by assessing perceptions about the acceptability and use of open and secret AICTs for oneself and others. In two studies with representative samples (UK: N=477, US: N=765), we found that secret AICT use is deemed less acceptable than open AICT use, people tend to overestimate others' AICT use, and people expect others to use AICTs irresponsibly. Thus, we raise concerns about the potential for misperceptions and different expectations for others to drive self-fulfilling pessimistic outlooks about AI-mediated communication.
翻訳日:2023-05-04 17:08:44 公開日:2023-05-02
# 視覚的推論: 状態からトランスフォーメーションへ

Visual Reasoning: from State to Transformation ( http://arxiv.org/abs/2305.01668v1 )

ライセンス: Link先を確認
Xin Hong, Yanyan Lan, Liang Pang, Jiafeng Guo, Xueqi Cheng(参考訳) 既存の視覚的推論タスク、例えばVQAのCLEVRは重要な要素を無視している。 それらは、マシンが静的設定における概念や関係をいかによく理解しているかをテストするためにのみ定義される。 このような \textbf{state driven} の視覚的推論は、異なる状態間のダイナミクスを推論する能力を反映しているため、ピアジェの理論における人間の認識に等しく重要であることが示されている。 この問題に対処するために,新しい「textbf{transformation driven} visual reasoning (TVR)」タスクを提案する。 初期状態と最終状態の両方が与えられた場合、ターゲットは対応する中間変換を推測する。 この定義に従い、新たな合成データセットであるtransnceは、まずclevrに基づいて構築され、3つのレベルの設定、すなわち~basic(single-step transformation)、event(multi-step transformation)、view(multi-step transformation with variant views)が含まれる。 次に、COINに基づくTRANCOと呼ばれる別の実際のデータセットを構築し、TRANCEにおける変換の多様性の損失をカバーする。 人間の推論にインスパイアされたTranNetと呼ばれる3段階の推論フレームワークを提案し、TVRにおける最近の高度な技術がどのように機能するかを観察、分析、結論づける。 実験の結果、最先端のビジュアル推論モデルは基本ではうまく機能するが、イベント、ビュー、トランコの人間レベルの知性には程遠いことがわかった。 提案する新たなパラダイムは,機械視覚推論の開発を促進するものだと考えています。 より先進的な手法や新しい問題をこの方向で調べる必要がある。 TVRのリソースは \url{https://hongxin2019.github.io/TVR/} で入手できる。

Most existing visual reasoning tasks, such as CLEVR in VQA, ignore an important factor, i.e.~transformation. They are solely defined to test how well machines understand concepts and relations within static settings, like one image. Such \textbf{state driven} visual reasoning has limitations in reflecting the ability to infer the dynamics between different states, which has shown to be equally important for human cognition in Piaget's theory. To tackle this problem, we propose a novel \textbf{transformation driven} visual reasoning (TVR) task. Given both the initial and final states, the target becomes to infer the corresponding intermediate transformation. Following this definition, a new synthetic dataset namely TRANCE is first constructed on the basis of CLEVR, including three levels of settings, i.e.~Basic (single-step transformation), Event (multi-step transformation), and View (multi-step transformation with variant views). Next, we build another real dataset called TRANCO based on COIN, to cover the loss of transformation diversity on TRANCE. Inspired by human reasoning, we propose a three-staged reasoning framework called TranNet, including observing, analyzing, and concluding, to test how recent advanced techniques perform on TVR. Experimental results show that the state-of-the-art visual reasoning models perform well on Basic, but are still far from human-level intelligence on Event, View, and TRANCO. We believe the proposed new paradigm will boost the development of machine visual reasoning. More advanced methods and new problems need to be investigated in this direction. The resource of TVR is available at \url{https://hongxin2019.github.io/TVR/}.
翻訳日:2023-05-04 17:08:13 公開日:2023-05-02
# GP-NASを用いた重ね合わせモデルによるNASマルチタスク予測

Predict NAS Multi-Task by Stacking Ensemble Models using GP-NAS ( http://arxiv.org/abs/2305.01667v1 )

ライセンス: Link先を確認
Ke Zhang(参考訳) 小さなサンプルトレーニングでアーキテクチャのパフォーマンスを正確に予測することは重要だが、容易ではない。 オーバーフィッティングを克服するためのデータセットの分析とトレーニングは、私たちが対処すべき核となる問題です。 一方、マルチタスクの問題があれば、その相関を利用して可能な限り早く見積もることができるかどうかを考える必要がある。 このトラックでは、スーパーネットワークがvitベースに基づく検索空間を構築している。 検索スペースには深さ、numヘッド、mpl-ratio、embed-dimが含まれる。 まず、問題の複雑さとオーバーフィットの可能性を低減できるこの問題の理解に基づいて、データの事前処理を行いました。 そして、異なる種類のモデルと、それらを組み合わせる異なる方法を試しました。 最後に,GP-NASを用いた組立モデルを選択する。 我々の積み重ねモデルはCVPR 2022トラック2チャレンジで1位となった。

Accurately predicting the performance of architecture with small sample training is an important but not easy task. How to analysis and train dataset to overcome overfitting is the core problem we should deal with. Meanwhile if there is the mult-task problem, we should also think about if we can take advantage of their correlation and estimate as fast as we can. In this track, Super Network builds a search space based on ViT-Base. The search space contain depth, num-heads, mpl-ratio and embed-dim. What we done firstly are pre-processing the data based on our understanding of this problem which can reduce complexity of problem and probability of over fitting. Then we tried different kind of models and different way to combine them. Finally we choose stacking ensemble models using GP-NAS with cross validation. Our stacking model ranked 1st in CVPR 2022 Track 2 Challenge.
翻訳日:2023-05-04 17:07:35 公開日:2023-05-02
# BrainNPT:脳ネットワーク分類のためのトランスフォーマーネットワークの事前学習

BrainNPT: Pre-training of Transformer networks for brain network classification ( http://arxiv.org/abs/2305.01666v1 )

ライセンス: Link先を確認
Jinlong Hu, Yangmin Huang, Nan Wang, Shoubin Dong(参考訳) 深層学習法はここ数年、脳画像解析において急速に進歩してきたが、通常は限られたラベル付きデータによって制限されている。 ラベルなしデータの事前学習モデルでは、自然言語処理やコンピュータビジョンなど、多くの領域で機能学習の改善が期待できる。 しかし、この手法は脳ネットワーク解析において未検討である。 本稿では,トランスフォーマーネットワークを用いた事前学習手法に着目し,既存のラベルなしデータを脳機能ネットワーク分類に活用する。 まず,脳機能的ネットワーク分類のために,brainnptと呼ばれるトランスフォーマーベースのニューラルネットワークを提案した。 提案手法はトランスフォーマーモデルの分類埋め込みベクトルとして<cls>トークンを利用して,脳ネットワークの表現を効果的に捉える。 第2に,脳ネットワークデータを利用して脳ネットワークの構造情報を学ぶために,脳NPTモデルのための2つの事前学習戦略を用いた事前学習アーキテクチャを提案する。 分類実験の結果,前訓練のないbrainnptモデルが最先端モデルで最高の性能を達成し,前訓練のbrainnptモデルが最先端モデルを大きく上回った。 トレーニング前のBrainNPTモデルは、トレーニング前のモデルと比較して精度が8.75%向上した。 さらに,事前学習戦略を比較検討し,モデルのパラメータの影響を分析し,微調整モデルの解釈を行った。

Deep learning methods have advanced quickly in brain imaging analysis over the past few years, but they are usually restricted by the limited labeled data. Pre-trained model on unlabeled data has presented promising improvement in feature learning in many domains, including natural language processing and computer vision. However, this technique is under-explored in brain network analysis. In this paper, we focused on pre-training methods with Transformer networks to leverage existing unlabeled data for brain functional network classification. First, we proposed a Transformer-based neural network, named as BrainNPT, for brain functional network classification. The proposed method leveraged <cls> token as a classification embedding vector for the Transformer model to effectively capture the representation of brain network. Second, We proposed a pre-training architecture with two pre-training strategies for BrainNPT model to leverage unlabeled brain network data to learn the structure information of brain networks. The results of classification experiments demonstrated the BrainNPT model without pre-training achieved the best performance with the state-of-the-art models, and the BrainNPT model with pre-training strongly outperformed the state-of-the-art models. The pre-training BrainNPT model improved 8.75% of accuracy compared with the model without pre-training. We further compared the pre-training strategies, analyzed the influence of the parameters of the model, and interpreted the fine-tuned model.
翻訳日:2023-05-04 17:07:23 公開日:2023-05-02
# シックル細胞病における赤血球の分類と定量化のための新しいディープラーニングモデル

A Novel Deep Learning based Model for Erythrocytes Classification and Quantification in Sickle Cell Disease ( http://arxiv.org/abs/2305.01663v1 )

ライセンス: Link先を確認
Manish Bhatia, Balram Meena, Vipin Kumar Rathi, Prayag Tiwari, Amit Kumar Jaiswal, Shagaf M Ansari, Ajay Kumar, Pekka Marttinen(参考訳) 赤血球や赤血球の形状は、いくつかの病的状況で変化する。 したがって、異なる赤血球形状の同定と定量化は、様々な疾患の診断や治療戦略の設計に寄与する。 機械学習(ML)は、歪んだ赤血球の形態を効率的に同定し定量化するために用いられる。 本稿では, 赤血球の歪んだ正常な形態をシックル細胞疾患(scd)患者の血液サンプルから抽出した画像から分類し, 定量化するために, カスタマイズされた深層畳み込みニューラルネットワーク(cnn)モデルを提案する。 scd患者の血液サンプル中の赤血球形態が多様であることから,モデル疾患としてscdを選択した。 分析には,scd血液サンプルの生の顕微鏡像428枚を用いて10,377個の単細胞画像からなるデータセットを作成した。 関節円板,楕円体,シックルの3種類の赤血球形状に注目した。 18層深層cnnアーキテクチャを用いて,これらの形状を81%の精度で識別・定量化し,他のモデルよりも優れていた。 また,SHAPとLIMEをさらなる解釈性に用いた。 提案モデルは,臨床医によるSCD血液サンプルの迅速かつ正確な分析に役立ち,SCDのより良い管理のために適切な判断を下すのに役立つ。

The shape of erythrocytes or red blood cells is altered in several pathological conditions. Therefore, identifying and quantifying different erythrocyte shapes can help diagnose various diseases and assist in designing a treatment strategy. Machine Learning (ML) can be efficiently used to identify and quantify distorted erythrocyte morphologies. In this paper, we proposed a customized deep convolutional neural network (CNN) model to classify and quantify the distorted and normal morphology of erythrocytes from the images taken from the blood samples of patients suffering from Sickle cell disease ( SCD). We chose SCD as a model disease condition due to the presence of diverse erythrocyte morphologies in the blood samples of SCD patients. For the analysis, we used 428 raw microscopic images of SCD blood samples and generated the dataset consisting of 10, 377 single-cell images. We focused on three well-defined erythrocyte shapes, including discocytes, oval, and sickle. We used 18 layered deep CNN architecture to identify and quantify these shapes with 81% accuracy, outperforming other models. We also used SHAP and LIME for further interpretability. The proposed model can be helpful for the quick and accurate analysis of SCD blood samples by the clinicians and help them make the right decision for better management of SCD.
翻訳日:2023-05-04 17:06:58 公開日:2023-05-02
# SIA-FTP: 飛行軌道予測フレームワークを意識したスポークインストラクション

SIA-FTP: A Spoken Instruction Aware Flight Trajectory Prediction Framework ( http://arxiv.org/abs/2305.01661v1 )

ライセンス: Link先を確認
Dongyue Guo, Jianwei Zhang, Yi Lin(参考訳) 音声通信による地上交渉は、航空交通制御(ATC)の安全と効率を確保するための重要な前提条件である。 しかし、交通流の増加に伴い、人的要因による誤った指示はATCの安全性に大きな脅威をもたらす。 既存の飛行軌道予測(FTP)アプローチは、主に歴史的軌道の飛行状態に依存しており、衝突検出には適さないリアルタイム操縦命令の予測にかなりの遅延をもたらす。 主な理由は、現在の航空交通管制(ATC)システムにおいて、音声指示と飛行軌跡が異なるモードで提示されることであり、FTPタスクの操作命令を考える上で大きな課題となっている。 本稿では,SIA-FTPと呼ばれる音声命令対応FTPフレームワークを革新的に提案し,即時音声命令を組み込むことで高調なFTPタスクを支援する。 モダリティギャップに対処し,データ要求を最小化するために,軌道ベースFTP事前学習,意図指向型命令埋め込み学習,マルチモーダル微調整など,SIA-FTPフレームワークを段階的に実装する3段階学習パラダイムを提案する。 具体的には、FTPモデルと操作意味論を組み込んだ命令埋め込みを、第1段階と第2段階の十分な出力軌跡とテキストデータを用いて事前訓練する。 次いで, FTPモデルに事前学習した命令を埋め込み, 2つの事前学習したネットワークをジョイントモデルに統合するためのマルチモーダル融合戦略を提案する。 最後に、関節モデルを限られた軌道指示データを用いて微調整し、操作的命令シナリオにおけるFTP性能を向上させる。 実験結果から,提案フレームワークは高効率シナリオにおいて印象的な性能改善が得られた。

Ground-air negotiation via speech communication is a vital prerequisite for ensuring safety and efficiency in air traffic control (ATC) operations. However, with the increase in traffic flow, incorrect instructions caused by human factors bring a great threat to ATC safety. Existing flight trajectory prediction (FTP) approaches primarily rely on the flight status of historical trajectory, leading to significant delays in the prediction of real-time maneuvering instruction, which is not conducive to conflict detection. A major reason is that spoken instructions and flight trajectories are presented in different modalities in the current air traffic control (ATC) system, bringing great challenges to considering the maneuvering instruction in the FTP tasks. In this paper, a spoken instruction-aware FTP framework, called SIA-FTP, is innovatively proposed to support high-maneuvering FTP tasks by incorporating instant spoken instruction. To address the modality gap and minimize the data requirements, a 3-stage learning paradigm is proposed to implement the SIA-FTP framework in a progressive manner, including trajectory-based FTP pretraining, intent-oriented instruction embedding learning, and multi-modal finetuning. Specifically, the FTP model and the instruction embedding with maneuvering semantics are pre-trained using volumes of well-resourced trajectory and text data in the 1st and 2nd stages. In succession, a multi-modal fusion strategy is proposed to incorporate the pre-trained instruction embedding into the FTP model and integrate the two pre-trained networks into a joint model. Finally, the joint model is finetuned using the limited trajectory-instruction data to enhance the FTP performance within maneuvering instruction scenarios. The experimental results demonstrated that the proposed framework presents an impressive performance improvement in high-maneuvering scenarios.
翻訳日:2023-05-04 17:06:37 公開日:2023-05-02
# データ評価:機械学習における部分順序シェープ値

Data valuation: The partial ordinal Shapley value for machine learning ( http://arxiv.org/abs/2305.01660v1 )

ライセンス: Link先を確認
Jie Liu, Peizheng Wang, Chao Wu(参考訳) Shapley値を用いたデータ評価は、機械学習アプリケーションにおいて一般的な研究領域として現れている。 しかし、多くの研究がそのような議論を欠いているため、データ協力における秩序の役割に取り組むことは課題である。 この問題を解決するために、抽象代数学における群論による部分順序シェープ値の定義を研究する。 また,部分順序シャプリー値の計算には指数時間が必要となるため,結果近似のための3つのアルゴリズムも提案する。 Truncated Monte Carloアルゴリズムは、古典的なShapley値近似アルゴリズムに由来する。 分類モンテカルロアルゴリズムと分類切断モンテカルロアルゴリズムは、同一クラス内のデータポイントが類似した情報を提供するという事実に基づいており、各クラスにいくつかのデータポイントを残して計算を高速化することができる。

Data valuation using Shapley value has emerged as a prevalent research domain in machine learning applications. However, it is a challenge to address the role of order in data cooperation as most research lacks such discussion. To tackle this problem, this paper studies the definition of the partial ordinal Shapley value by group theory in abstract algebra. Besides, since the calculation of the partial ordinal Shapley value requires exponential time, this paper also gives three algorithms for approximating the results. The Truncated Monte Carlo algorithm is derived from the classic Shapley value approximation algorithm. The Classification Monte Carlo algorithm and the Classification Truncated Monte Carlo algorithm are based on the fact that the data points in the same class provide similar information, then we can accelerate the calculation by leaving out some data points in each class.
翻訳日:2023-05-04 17:06:07 公開日:2023-05-02
# Supervised, Zero-Shot, Few-Shot を用いたスタンス検出

Stance Detection With Supervised, Zero-Shot, and Few-Shot Applications ( http://arxiv.org/abs/2305.01723v1 )

ライセンス: Link先を確認
Michael Burnham(参考訳) スタンス検出は、文書から主題に関する著者の信念を識別することである。 研究者は感情分析に大きく依存している。 しかし、最近の研究では、感情分析が姿勢と緩やかに相関していることが示されている。 本稿では,スタンス検出のタスクを正確に定義し,タスクの一般化されたフレームワークを提供し,その上で,教師付き分類,NLI分類器を用いたゼロショット分類,コンテキスト内学習の3つのアプローチを提案する。 その際、ゼロショットと少数ショットの言語分類器が人間のラベルを様々なタスクに置き換える方法を示し、それらのアプリケーションと制限が教師付き分類器とどのように異なるかについて議論する。 最後に、block jr. ら (2022) の再現によるゼロショット姿勢検出の適用例を示す。

Stance detection is the identification of an author's beliefs about a subject from a document. Researchers widely rely on sentiment analysis to accomplish this. However, recent research has show that sentiment analysis is only loosely correlated with stance, if at all. This paper advances methods in text analysis by precisely defining the task of stance detection, providing a generalized framework for the task, and then presenting three distinct approaches for performing stance detection: supervised classification, zero-shot classification with NLI classifiers, and in-context learning. In doing so, I demonstrate how zero-shot and few-shot language classifiers can replace human labelers for a variety of tasks and discuss how their application and limitations differ from supervised classifiers. Finally, I demonstrate an application of zero-shot stance detection by replicating Block Jr et al. (2022).
翻訳日:2023-05-04 16:58:44 公開日:2023-05-02
# 決定木の構築と決定規則系からの非巡回決定グラフ

Construction of Decision Trees and Acyclic Decision Graphs from Decision Rule Systems ( http://arxiv.org/abs/2305.01721v1 )

ライセンス: Link先を確認
Kerven Durdymyradov and Mikhail Moshkov(参考訳) 決定木と決定規則の体系は、分類器、知識表現の手段として、アルゴリズムとして広く使われている。 それらはデータ分析の最も解釈可能なモデルの一つである。 これらの2つのモデル間の関係の研究は、コンピュータ科学の重要なタスクと見なすことができる。 決定木を決定規則のシステムに変換する方法は単純でよく知られている。 本稿では,自明ではない逆変換問題を考える。 決定木を構成する複雑さと決定木を表す非循環決定グラフについて,決定木全体を構築するのではなく,与えられた入力に対してこの木内の計算パスを記述する可能性について議論する。

Decision trees and systems of decision rules are widely used as classifiers, as a means for knowledge representation, and as algorithms. They are among the most interpretable models for data analysis. The study of the relationships between these two models can be seen as an important task of computer science. Methods for transforming decision trees into systems of decision rules are simple and well-known. In this paper, we consider the inverse transformation problem, which is not trivial. We study the complexity of constructing decision trees and acyclic decision graphs representing decision trees from decision rule systems, and we discuss the possibility of not building the entire decision tree, but describing the computation path in this tree for the given input.
翻訳日:2023-05-04 16:58:28 公開日:2023-05-02
# ダークエネルギーサーベイにおける銀河外画像と教師なし機械学習による同定

Outlier galaxy images in the Dark Energy Survey and their identification with unsupervised machine learning ( http://arxiv.org/abs/2305.01720v1 )

ライセンス: Link先を確認
Lior Shamir(参考訳) ダークエネルギーサーベイは、非常に多くの銀河外天体の画像データを収集することができ、科学的な関心を持つ多くの珍しい物体がこれらのデータの中に隠れていると仮定できる。 desデータの極端なサイズのため、これらの物体を他の何百万もの天体から識別することは難しい課題である。 外乱検出の問題は、ノイズや飽和画像の存在によってさらに拡大される。 テスト対象の数が極めて多い場合、ノイズや偽陽性の頻度が小さい場合でも、非常に多くの誤検出が発生し、自動システムが非現実的になる。 本研究では,ダークエネルギーサーベイの最初のデータリリースにおいて,異常物体の自動検出手法を適用した。 機械学習に基づく外れ値検出を使用することで、データベース内の他のほとんどのオブジェクトと視覚的に異なるオブジェクトを識別することができる。 このアルゴリズムの重要な特徴は、偽陽性率を制御できるため、実用的な外れ値検出に使用できることである。 このアルゴリズムは、外れ値検出において完全な精度を提供していないが、実際の外れ値検出を可能にするためにデータを大幅に削減する。 例えば、2\cdot10^6$ DES画像にアルゴリズムを適用した後の上位250個の天体の選択は、珍しい銀河の集合を与える。 このようなコレクションは、データを手動で検査することでコンパイルするのに非常に時間がかかりました。

The Dark Energy Survey is able to collect image data of an extremely large number of extragalactic objects, and it can be reasonably assumed that many unusual objects of high scientific interest are hidden inside these data. Due to the extreme size of DES data, identifying these objects among many millions of other celestial objects is a challenging task. The problem of outlier detection is further magnified by the presence of noisy or saturated images. When the number of tested objects is extremely high, even a small rate of noise or false positives leads to a very large number of false detections, making an automatic system impractical. This study applies an automatic method for automatic detection of outlier objects in the first data release of the Dark Energy Survey. By using machine learning-based outlier detection, the algorithm is able to identify objects that are visually different from the majority of the other objects in the database. An important feature of the algorithm is that it allows to control the false-positive rate, and therefore can be used for practical outlier detection. The algorithm does not provide perfect accuracy in the detection of outlier objects, but it reduces the data substantially to allow practical outlier detection. For instance, the selection of the top 250 objects after applying the algorithm to more than $2\cdot10^6$ DES images provides a collection of uncommon galaxies. Such collection would have been extremely time-consuming to compile by using manual inspection of the data.
翻訳日:2023-05-04 16:58:19 公開日:2023-05-02
# 可逆ニューラルネットワークによる説明の絡み合った意味空間の学習

Learning Disentangled Semantic Spaces of Explanations via Invertible Neural Networks ( http://arxiv.org/abs/2305.01713v1 )

ライセンス: Link先を確認
Yingji Zhang, Danilo S. Carvalho, Ian Pratt-Hartmann, Andr\'e Freitas(参考訳) 連続空間上の文表現の分離は、明示的な生成因子を局所化することにより解釈可能性と意味制御を改善する上で重要なプロセスとなる。 このようなプロセスは、柔軟性を維持しながら、シンボリックモデルの特徴であるいくつかの利点をニューラルネットワーク言語モデルに委ねる。 本研究では,BERT-GPT2オートエンコーダの隠れた空間を,フローベース可逆ニューラルネットワーク(INN)をサポートすることで,より分離可能なセマンティック空間に変換する手法を提案する。 実験結果から,IDNは分散した隠れ空間を意味的に不整合な潜在空間に変換し,最近の最先端モデルと比較した場合,解釈性や制御性が向上することが示唆された。

Disentangling sentence representations over continuous spaces can be a critical process in improving interpretability and semantic control by localising explicit generative factors. Such process confers to neural-based language models some of the advantages that are characteristic of symbolic models, while keeping their flexibility. This work presents a methodology for disentangling the hidden space of a BERT-GPT2 autoencoder by transforming it into a more separable semantic space with the support of a flow-based invertible neural network (INN). Experimental results indicate that the INN can transform the distributed hidden space into a better semantically disentangled latent space, resulting in better interpretability and controllability, when compared to recent state-of-the-art models.
翻訳日:2023-05-04 16:57:55 公開日:2023-05-02
# 予習はやめないの? Promptベースのファインチューニングパワーフルラーニング

Don't Stop Pretraining? Make Prompt-based Fine-tuning Powerful Learner ( http://arxiv.org/abs/2305.01711v1 )

ライセンス: Link先を確認
Zhengxiang Shi, Aldo Lipani(参考訳) 言語モデル (LM) は、膨大な量の未ラベルデータに基づいて訓練され、自然言語処理 (NLP) の分野を大きく進歩させた。 本研究では,タスク関連テキストの事前学習を継続するNLPにおける広く受け入れられている概念を再検討し,下流タスクにおける微調整(FT)の性能を向上させる。 8つの単文タスクと8つの文ペアタスクを半教師付きおよび完全教師付き設定の両方で実験した結果、従来の継続前訓練は必ずしも利点を提供しておらず、文ペアタスクやプロンプトベースのftを使用する場合にも有害であることがわかった。 これらの課題に対処するために,従来の継続事前学習とインストラクションチューニングのアイデアを組み合わせたPrompt-based Continued Pre-training (PCP)を提案する。 本手法は,目標タスクを微調整する前に教師なし事前学習目標により,タスク関連テキストとプロンプトテンプレートの両方をlmsに提示することにより,プロンプトベースftの性能を向上させることを目的としている。 21のベンチマークに対する実証的な評価では、PCPは、数百の未実装例であっても、半教師付きおよび完全教師付き設定の両方において、最先端のプロンプトベースのFTアプローチ(最大20.1%の絶対)の性能を一貫して改善することを示した。 さらに、PCPによるプロンプトベースのFTは、最先端の半教師付きアプローチをより単純さで上回り、反復処理や追加データ拡張の必要性を排除している。 さらに,PCPの性能低下を考察し,PCPの利点がモデルやデータセットの異なるサイズで持続していることを明らかにする。

Language models (LMs) trained on vast quantities of unlabelled data have greatly advanced the field of natural language processing (NLP). In this study, we re-visit the widely accepted notion in NLP that continued pre-training LMs on task-related texts improves the performance of fine-tuning (FT) in downstream tasks. Through experiments on eight single-sentence tasks and eight sentence-pair tasks in both semi-supervised and fully-supervised settings, we find that conventional continued pre-training does not consistently provide benefits and can even be detrimental for sentence-pair tasks or when prompt-based FT is used. To tackle these issues, we propose Prompt-based Continued Pre-training (PCP), which combines the idea of instruction tuning with conventional continued pre-training. Our approach aims to improve the performance of prompt-based FT by presenting both task-related texts and prompt templates to LMs through unsupervised pre-training objectives before fine-tuning for the target task. Our empirical evaluations on 21 benchmarks demonstrate that the PCP consistently improves the performance of state-of-the-art prompt-based FT approaches (up to 20.1% absolute) in both semi-supervised and fully-supervised settings, even with only hundreds of unlabelled examples. Additionally, prompt-based FT with the PCP outperforms state-of-the-art semi-supervised approaches with greater simplicity, eliminating the need for an iterative process and extra data augmentation. Our further analysis explores the performance lower bound of the PCP and reveals that the advantages of PCP persist across different sizes of models and datasets.
翻訳日:2023-05-04 16:57:40 公開日:2023-05-02
# 星がすべて必要なもの:ドキュメントレベルからエンドツーエンドの知覚分析のための遠隔監視ピラミッドネットワーク

Stars Are All You Need: A Distantly Supervised Pyramid Network for Document-Level End-to-End Sentiment Analysis ( http://arxiv.org/abs/2305.01710v1 )

ライセンス: Link先を確認
Wenchang Li, Yixing Chen, John P. Lalor(参考訳) 本稿では,オンラインレビューで表現された感情を統一的に理解するための文書レベルのエンドツーエンド感情分析を提案する。 特に、スターレーティングラベルは、レビュー中のアスペクトレーティングの「粗い粒度の合成」であると仮定する。 本研究では,教師付きピラミッドネットワーク (dspn) を提案し, 学習用星評価ラベルのみを用いて, アスペクトカテゴリー検出, アスペクトカテゴリー感情分析, 評価予測を効率的に行う。 これら3つの関連する感情サブタスクをエンドツーエンドに実行することにより、DSPNはレビューで言及されている側面を抽出し、対応する感情を特定し、星の評価ラベルを予測することができる。 dspnを英語と中国語のマルチスペクトルレビューデータセットで評価し,スターレーティングラベルのみを監督することで,さまざまなベンチマークモデルと同等の性能を両立できることを見出した。 また、DSPNの出力をレビューで解釈し、文書レベルのエンドツーエンドの感情分析に固有のピラミッド構造を示す。

In this paper, we propose document-level end-to-end sentiment analysis to efficiently understand aspect and review sentiment expressed in online reviews in a unified manner. In particular, we assume that star rating labels are a "coarse-grained synthesis" of aspect ratings across in the review. We propose a Distantly Supervised Pyramid Network (DSPN) to efficiently perform Aspect-Category Detection, Aspect-Category Sentiment Analysis, and Rating Prediction using only document star rating labels for training. By performing these three related sentiment subtasks in an end-to-end manner, DSPN can extract aspects mentioned in the review, identify the corresponding sentiments, and predict the star rating labels. We evaluate DSPN on multi-aspect review datasets in English and Chinese and find that with only star rating labels for supervision, DSPN can perform comparably well to a variety of benchmark models. We also demonstrate the interpretability of DSPN's outputs on reviews to show the pyramid structure inherent in document level end-to-end sentiment analysis.
翻訳日:2023-05-04 16:57:09 公開日:2023-05-02
# GDELTデータ解析による異所性事象の探索

Exploring Xenophobic Events through GDELT Data Analysis ( http://arxiv.org/abs/2305.01708v1 )

ライセンス: Link先を確認
Himarsha R. Jayanetti, Erika Frydenlund, Michele C. Weigle(参考訳) 本研究は,GDELT 2.0データベースとAPIを用いて,難民や移住に関連する異所性事象を可視化した。 我々は,2歳のシリア人少年アラン・クルディ(alan kurdi)が死亡した後の難民関連ニュースの分析と,gdelt apiから得られたデータをもとに2021年3月にニュース記事が急増した2つのケーススタディを実施した。 この2つのケーススタディに加えて,探索的データ分析ステップとgdeltデータとそのツールの作業中に遭遇した課題について考察する。

This study explores xenophobic events related to refugees and migration using the GDELT 2.0 database and APIs through visualizations. We conducted two case studies -- the first being an analysis of refugee-related news following the death of a two-year-old Syrian boy, Alan Kurdi, and the second a surge in news articles in March 2021 based on the data obtained from GDELT API. In addition to the two case studies, we present a discussion of our exploratory data analysis steps and the challenges encountered while working with GDELT data and its tools.
翻訳日:2023-05-04 16:56:48 公開日:2023-05-02
# プログラム合成による量子回路コンポーネントの発見

Discovering Quantum Circuit Components with Program Synthesis ( http://arxiv.org/abs/2305.01707v1 )

ライセンス: Link先を確認
Leopoldo Sarra, Kevin Ellis, Florian Marquardt(参考訳) この分野の急速な進歩にもかかわらず、量子計算を利用する新しい方法を見つけることは依然として困難である:すべての量子アルゴリズムは手で設計されなければならず、量子力学は直観に反することで悪名高い。 本稿では,プログラム合成という形での人工知能が,コンピュータが経験から量子回路合成に関連する概念を漸進的に学習し,未知のタスクでそれらを再利用できることを示すことにより,これらの困難を克服する上で有効であることを示す。 特に、ユニタリ行列を量子回路に分解することに集中し、基本ゲートの集合から、新しい有用な複合ゲートのライブラリを自動的に発見し、それらを用いてより複雑なユニタリを分解する方法を示す。

Despite rapid progress in the field, it is still challenging to discover new ways to take advantage of quantum computation: all quantum algorithms need to be designed by hand, and quantum mechanics is notoriously counterintuitive. In this paper, we study how artificial intelligence, in the form of program synthesis, may help to overcome some of these difficulties, by showing how a computer can incrementally learn concepts relevant for quantum circuit synthesis with experience, and reuse them in unseen tasks. In particular, we focus on the decomposition of unitary matrices into quantum circuits, and we show how, starting from a set of elementary gates, we can automatically discover a library of new useful composite gates and use them to decompose more and more complicated unitaries.
翻訳日:2023-05-04 16:56:38 公開日:2023-05-02
# 量子強化パターン探索最適化

Quantum Enhanced Pattern Search Optimization ( http://arxiv.org/abs/2305.01703v1 )

ライセンス: Link先を確認
Colton Mikes, Ismael R. de Farias Jr., David Huckleberry Gutman, Victoria E. Howle(参考訳) 本稿では,一般化パターン探索(GPS)アルゴリズムのための量子古典ハイブリッドアルゴリズムを提案する。 本稿では,O(N) 古典的呼び出しから O(N^(1/2)) 量子呼び出しへの探索ステップに必要なオラクル呼び出し数を削減できる振幅増幅を用いた量子探索ステップアルゴリズムを提案する。 この研究はGPSを用いた量子検索の3つの基本的な問題に対処する。 まず,振幅増幅アルゴリズムの要件である改良メッシュポイントのマークの必要性について述べる。 第2に、振幅増幅アルゴリズムQSearchの修正版を導入し、有限回繰り返しで終了することを保証した。 第三に、量子アルゴリズムを探索ステップに制限することで、GPSアルゴリズムの収束を妨害することを避ける。

This paper introduces a quantum-classical hybrid algorithm for generalized pattern search (GPS) algorithms. We introduce a quantum search step algorithm using amplitude amplification, which reduces the number of oracle calls needed during the search step from O(N) classical calls to O(N^(1/2)) quantum calls. This work addresses three fundamental issues with using a quantum search step with GPS. First we address the need to mark an improved mesh point, a requirement of the amplitude amplification algorithm. Second, we introduce a modified version of the amplitude amplification algorithm QSearch, which is guaranteed to terminate using a finite number of iterations. Third, we avoid disrupting the GPS algorithm's convergence by limiting the quantum algorithm to the search step.
翻訳日:2023-05-04 16:56:26 公開日:2023-05-02
# DeepAqua:知識蒸留によるSAR画像からの湿地の自己監督セマンティックセマンティックセマンティックセグメンテーション

DeepAqua: Self-Supervised Semantic Segmentation of Wetlands from SAR Images using Knowledge Distillation ( http://arxiv.org/abs/2305.01698v1 )

ライセンス: Link先を確認
Francisco J. Pe\~na, Clara H\"ubinger, Amir H. Payberah, Fernando Jaramillo(参考訳) リモートセンシングは衛星画像にセマンティックセグメンテーション技術を適用することで、水の検出を大幅に進歩させた。 しかし、大量の注釈付きデータを必要とするため、セマンティックセグメンテーションは依然として困難である。 これは、水深が時間や空間によって変化し、同じ領域に複数のアノテーションを必要とする湿地検出において特に問題となる。 本稿では,知識蒸留を利用した自己教師型ディープラーニングモデルであるDeepAquaについて述べる。 deepaquaは教師モデルとして正規化差分水指数(ndwi)を使用し、合成開口レーダ(sar)画像から水をセグメント化する畳み込みニューラルネットワーク(cnn)を訓練する。 学生モデルを訓練するために,光学面とレーダ面とが一致する場合を利用して,開水面と植木面の両方を検出する。 本モデルは,手動の注釈付きデータなしで意味的セグメンテーションモデルを効果的に訓練することにより,コンピュータビジョン技術の大幅な進歩を示す。 本手法は,湿地水深変化を地上データを必要としない実用的なモニタリング手法であり,湿地保全に高度に適応可能でスケーラブルである。

Remote sensing has significantly advanced water detection by applying semantic segmentation techniques to satellite imagery. However, semantic segmentation remains challenging due to the substantial amount of annotated data required. This is particularly problematic in wetland detection, where water extent varies over time and space, necessitating multiple annotations for the same area. In this paper, we present DeepAqua, a self-supervised deep learning model that leverages knowledge distillation to eliminate the need for manual annotations during the training phase. DeepAqua utilizes the Normalized Difference Water Index (NDWI) as a teacher model to train a Convolutional Neural Network (CNN) for segmenting water from Synthetic Aperture Radar (SAR) images. To train the student model, we exploit cases where optical- and radar-based water masks coincide, enabling the detection of both open and vegetated water surfaces. Our model represents a significant advancement in computer vision techniques by effectively training semantic segmentation models without any manually annotated data. This approach offers a practical solution for monitoring wetland water extent changes without needing ground truth data, making it highly adaptable and scalable for wetland conservation efforts.
翻訳日:2023-05-04 16:56:16 公開日:2023-05-02
# 知識ベース質問応答のためのインコンテキスト学習

Few-shot In-context Learning for Knowledge Base Question Answering ( http://arxiv.org/abs/2305.01750v1 )

ライセンス: Link先を確認
Tianle LI, Xueguang Ma, Alex Zhuang, Yu Gu, Yu Su and Wenhu Chen(参考訳) 知識ベースに対する質問応答は、多種多様な自然言語質問に一般化することの難しさから、難しい問題であると考えられている。 さらに、異なる知識ベース間の知識ベーススキーマ項目の不均一性は、異なる知識ベース質問回答(KBQA)データセットのための特別なトレーニングを必要とすることが多い。 多様なKBQAデータセットに対する問合せを,一貫したトレーニングフリーフレームワークで処理するために,KB-BINDERを提案する。 まず、KB-BINDERはCodexのような大きな言語モデルを利用して、いくつかのデモを模倣して特定の質問のドラフトとして論理形式を生成する。 次にKB-BINDERは知識ベースに基づいて生成したドラフトをBM25スコアマッチングを備えた実行可能なドラフトにバインドする。 4つの公開ヘテロジニアスKBQAデータセットの実験結果から,KB-BINDERはコンテクスト内デモを数回しか行わず,高い性能が得られることが示された。 特にGraphQAと3-hop MetaQAでは、KB-BINDERは最先端のトレーニングモデルよりも優れています。 GrailQAとWebQSPでは、私たちのモデルは、他の完全にトレーニングされたモデルと同等です。 我々はKB-BINDERが今後の研究の重要なベースラインになると考えている。 すべてのコードとデータをリリースする予定です。

Question answering over knowledge bases is considered a difficult problem due to the challenge of generalizing to a wide variety of possible natural language questions. Additionally, the heterogeneity of knowledge base schema items between different knowledge bases often necessitates specialized training for different knowledge base question-answering (KBQA) datasets. To handle questions over diverse KBQA datasets with a unified training-free framework, we propose KB-BINDER, which for the first time enables few-shot in-context learning over KBQA tasks. Firstly, KB-BINDER leverages large language models like Codex to generate logical forms as the draft for a specific question by imitating a few demonstrations. Secondly, KB-BINDER grounds on the knowledge base to bind the generated draft to an executable one with BM25 score matching. The experimental results on four public heterogeneous KBQA datasets show that KB-BINDER can achieve a strong performance with only a few in-context demonstrations. Especially on GraphQA and 3-hop MetaQA, KB-BINDER can even outperform the state-of-the-art trained models. On GrailQA and WebQSP, our model is also on par with other fully-trained models. We believe KB-BINDER can serve as an important baseline for future research. We plan to release all the code and data.
翻訳日:2023-05-04 16:50:20 公開日:2023-05-02
# 限定アノテーション付きセグメンテーションにおける期待最大化擬似ラベリング

Expectation Maximization Pseudo Labelling for Segmentation with Limited Annotations ( http://arxiv.org/abs/2305.01747v1 )

ライセンス: Link先を確認
Mou-Cheng Xu and Yukun Zhou and Chen Jin and Marius de Groot and Daniel C. Alexander and Neil P. Oxtoby and Yipeng Hu and Joseph Jacob(参考訳) 医用画像の半教師付きセグメンテーションにおける擬似ラベリングとその一般化について検討した。 擬似ラベル付けは、未ラベルデータの生推論を擬似ラベルとして利用することで、半教師付き学習において大きな成功を収めた。 本稿では,擬似ラベリングと期待最大化アルゴリズムとの接続を構築し,その経験的成功を部分的に説明する。 したがって、元の擬似ラベル付けは、その基礎となる完全な定式化の実証的な推定である。 この知見に従い,ベイズ原理に基づく擬似ラベルの完全一般化をベイズ擬似ラベルと呼ぶ。 次に、高品質な擬似ラベルを選択する閾値を学習することで、ベイズ擬似ラベルを近似する変分アプローチを提案する。 論文の残りでは、医用画像の半教師ありセグメンテーションにおける擬似ラベリングとその一般化ベイズ的プセドラベリングの応用例を示す。 1)CTボリュームからの肺血管の3次元分枝化 2)MRIボリュームによる脳腫瘍の2次元マルチクラスセグメンテーション 3) mriボリュームからの脳腫瘍の3次元2成分分画 また,擬似ラベルは学習表現のロバスト性を高めることができることを示した。

We study pseudo labelling and its generalisation for semi-supervised segmentation of medical images. Pseudo labelling has achieved great empirical successes in semi-supervised learning, by utilising raw inferences on unlabelled data as pseudo labels for self-training. In our paper, we build a connection between pseudo labelling and the Expectation Maximization algorithm which partially explains its empirical successes. We thereby realise that the original pseudo labelling is an empirical estimation of its underlying full formulation. Following this insight, we demonstrate the full generalisation of pseudo labels under Bayes' principle, called Bayesian Pseudo Labels. We then provide a variational approach to learn to approximate Bayesian Pseudo Labels, by learning a threshold to select good quality pseudo labels. In the rest of the paper, we demonstrate the applications of Pseudo Labelling and its generalisation Bayesian Psuedo Labelling in semi-supervised segmentation of medical images on: 1) 3D binary segmentation of lung vessels from CT volumes; 2) 2D multi class segmentation of brain tumours from MRI volumes; 3) 3D binary segmentation of brain tumours from MRI volumes. We also show that pseudo labels can enhance the robustness of the learnt representations.
翻訳日:2023-05-04 16:50:00 公開日:2023-05-02
# 光エンコーダの光利用

Photonic Advantage of Optical Encoders ( http://arxiv.org/abs/2305.01743v1 )

ライセンス: Link先を確認
Luocheng Huang, Quentin A. A. Tanguy, Johannes E. Froch, Saswata Mukherjee, Karl F. Bohringer, Arka Majumdar(参考訳) 光の大規模線形演算を並列に行う能力は、最近、光学補助人工ニューラルネットワーク(ANN)の多くのデモンストレーションに影響を与えた。 しかし、システムレベルでは純粋にデジタルANNよりも光学の優位性は確立されていない。 線形演算は光学的に非常に効率的に行うことができるが、非線形性や信号再生の欠如は光学とエレクトロニクスの間の高出力、低遅延信号変換を必要とする。 さらに、エネルギー消費量の計算では無視されることが多いレーザーや光検出器には大きな電力が必要である。 ここでは、従来のデジタル操作を光学にマッピングする代わりに、一貫性のない光で動作し、環境光の下での操作に適応できるハイブリッド光デジタルアンを共同最適化しました。 純粋ディジタルANNとハイブリッド光デジタルANNのレイテンシと電力定数を保ちながら、光学エンコーダが純粋デジタルANNよりも高い分類精度を提供する低消費電力/遅延状態を特定した。 しかし、この体制では、全体的な分類精度は、より高い電力とレイテンシで達成できるものよりも低い。 以上の結果から,ANNの全体的な性能を緩和し,低消費電力と遅延を優先できるアプリケーションにおいて,光学はデジタルANNよりも有利であることが示唆された。

Light's ability to perform massive linear operations parallelly has recently inspired numerous demonstrations of optics-assisted artificial neural networks (ANN). However, a clear advantage of optics over purely digital ANN in a system-level has not yet been established. While linear operations can indeed be optically performed very efficiently, the lack of nonlinearity and signal regeneration require high-power, low-latency signal transduction between optics and electronics. Additionally, a large power is needed for the lasers and photodetectors, which are often neglected in the calculation of energy consumption. Here, instead of mapping traditional digital operations to optics, we co-optimized a hybrid optical-digital ANN, that operates on incoherent light, and thus amenable to operations under ambient light. Keeping the latency and power constant between purely digital ANN and hybrid optical-digital ANN, we identified a low-power/ latency regime, where an optical encoder provides higher classification accuracy than a purely digital ANN. However, in that regime, the overall classification accuracy is lower than what is achievable with higher power and latency. Our results indicate that optics can be advantageous over digital ANN in applications, where the overall performance of the ANN can be relaxed to prioritize lower power and latency.
翻訳日:2023-05-04 16:49:40 公開日:2023-05-02
# 医療における効果的なオフライン強化学習のための因子的行動空間の活用

Leveraging Factored Action Spaces for Efficient Offline Reinforcement Learning in Healthcare ( http://arxiv.org/abs/2305.01738v1 )

ライセンス: Link先を確認
Shengpu Tang, Maggie Makar, Michael W. Sjoding, Finale Doshi-Velez, Jenna Wiens(参考訳) 多くの強化学習(RL)アプリケーションは組合せアクション空間を持ち、各アクションはサブアクションの合成である。 標準的なRLアプローチは、この固有の分解構造を無視しており、稀に観察されるサブアクションの組み合わせについて有意義な推論を行うことができない可能性がある。 本研究では,因子付き作用空間によって引き起こされる線形q関数分解の一形態を提案する。 本手法の理論的性質を考察し,q関数の近似に用いる場合,バイアスゼロとなることが保証されるシナリオを特定する。 理論的保証のある体制以外では、政策の最適性を犠牲にすることなく、より優れたサンプリング効率をもたらすため、より優れたバイアス分散トレードオフを達成することができるため、我々のアプローチは依然として有用であることを示す。 シミュレーターと実世界のデータセットを用いたいくつかのオフラインのRL問題に対して、ファクタリングされたアクション空間をバリューベースRLに組み込むことで、より良いパフォーマンスのポリシーを実現できることを示す。 我々のアプローチは、RLを観測データセットに適用する場合、エージェントが状態-作用空間の未探索領域内でより正確な推論を行うのに役立つ。

Many reinforcement learning (RL) applications have combinatorial action spaces, where each action is a composition of sub-actions. A standard RL approach ignores this inherent factorization structure, resulting in a potential failure to make meaningful inferences about rarely observed sub-action combinations; this is particularly problematic for offline settings, where data may be limited. In this work, we propose a form of linear Q-function decomposition induced by factored action spaces. We study the theoretical properties of our approach, identifying scenarios where it is guaranteed to lead to zero bias when used to approximate the Q-function. Outside the regimes with theoretical guarantees, we show that our approach can still be useful because it leads to better sample efficiency without necessarily sacrificing policy optimality, allowing us to achieve a better bias-variance trade-off. Across several offline RL problems using simulators and real-world datasets motivated by healthcare, we demonstrate that incorporating factored action spaces into value-based RL can result in better-performing policies. Our approach can help an agent make more accurate inferences within underexplored regions of the state-action space when applying RL to observational datasets.
翻訳日:2023-05-04 16:49:20 公開日:2023-05-02
# DiffuSum: 拡散による抽出要約の高速化

DiffuSum: Generation Enhanced Extractive Summarization with Diffusion ( http://arxiv.org/abs/2305.01735v1 )

ライセンス: Link先を確認
Haopeng Zhang, Xiao Liu, Jiawei Zhang(参考訳) 抽出要約は、ソース文書から直接文章を抽出することで要約を形成することを目的としている。 既存の研究は主に、個々の文ラベルを予測することによって、シーケンスラベル問題として定式化している。 本稿では,拡散モデルを用いて所望の要約文表現を直接生成し,文表現マッチングに基づいて文を抽出することで,抽出要約のための新しいパラダイムであるdiffusumを提案する。 さらにdiffusumは、文表現アライメントのマッチング損失と表現多様性の多クラスコントラスト損失とを備えたコントラスト文エンコーダを共同で最適化する。 実験結果から, ROUGEスコアが44.83/22.56/40.56$のCNN/DailyMailにおけるDiffuSumの抽出結果が得られた。 他の2つのデータセットの要約長の異なる実験もDiffuSumの有効性を示している。 本フレームワークの強い性能は,抽出要約に生成モデルを適用する大きな可能性を示している。

Extractive summarization aims to form a summary by directly extracting sentences from the source document. Existing works mostly formulate it as a sequence labeling problem by making individual sentence label predictions. This paper proposes DiffuSum, a novel paradigm for extractive summarization, by directly generating the desired summary sentence representations with diffusion models and extracting sentences based on sentence representation matching. In addition, DiffuSum jointly optimizes a contrastive sentence encoder with a matching loss for sentence representation alignment and a multi-class contrastive loss for representation diversity. Experimental results show that DiffuSum achieves the new state-of-the-art extractive results on CNN/DailyMail with ROUGE scores of $44.83/22.56/40.56$. Experiments on the other two datasets with different summary lengths also demonstrate the effectiveness of DiffuSum. The strong performance of our framework shows the great potential of adapting generative models for extractive summarization.
翻訳日:2023-05-04 16:49:01 公開日:2023-05-02
# コントラストビュー不変表現によるクロスビュー動作認識

Cross-view Action Recognition via Contrastive View-invariant Representation ( http://arxiv.org/abs/2305.01733v1 )

ライセンス: Link先を確認
Yuexi Zhang, Dan Luo, Balaji Sundareshan, Octavia Camps, Mario Sznaier(参考訳) クロスビューアクション認識(CVAR)は、これまで目に見えない視点から観察された人間の行動を認識する。 アクションの出現は視点によって大きく変化するため、これは難しい問題である。 CVARの応用には、新しいカメラを追加する際に大量のトレーニングデータを収集できない、あるいは実現不可能な、補助施設の監視と監視が含まれる。 RGBビデオ, 3Dスケルトンデータ, あるいはその両方から不変性を学習するための, 単純かつ効率的なCVARフレームワークを提案する。 提案手法は, 99.4%(RGB), 99.9%(RGB), 99.4%(RGB), 99.9%(3Dスケルトン), 97.3%(RGB), 99.2%(3Dスケルトン), 84.4%(RGB), N-UCLA, NTU-RGB+D 60, NTU-RGB+D 120, UWA3DIIデータセットのそれぞれにおいて, 同様の性能を達成している。

Cross view action recognition (CVAR) seeks to recognize a human action when observed from a previously unseen viewpoint. This is a challenging problem since the appearance of an action changes significantly with the viewpoint. Applications of CVAR include surveillance and monitoring of assisted living facilities where is not practical or feasible to collect large amounts of training data when adding a new camera. We present a simple yet efficient CVAR framework to learn invariant features from either RGB videos, 3D skeleton data, or both. The proposed approach outperforms the current state-of-the-art achieving similar levels of performance across input modalities: 99.4% (RGB) and 99.9% (3D skeletons), 99.4% (RGB) and 99.9% (3D Skeletons), 97.3% (RGB), and 99.2% (3D skeletons), and 84.4%(RGB) for the N-UCLA, NTU-RGB+D 60, NTU-RGB+D 120, and UWA3DII datasets, respectively.
翻訳日:2023-05-04 16:48:46 公開日:2023-05-02
# 単眼深度推定のための高分解能合成RGB-Dデータセット

High-Resolution Synthetic RGB-D Datasets for Monocular Depth Estimation ( http://arxiv.org/abs/2305.01732v1 )

ライセンス: Link先を確認
Aakash Rajpal, Noshaba Cheema, Klaus Illgner-Fehns, Philipp Slusallek, Sunil Jaiswal(参考訳) 正確な深度マップは、自動運転、シーン再構築、ポイントクラウド作成など、さまざまなアプリケーションで不可欠である。 しかし、単分子深度推定(MDE)アルゴリズムはテクスチャとシャープネスを十分に提供できないことが多く、均質なシーンでは矛盾する。 これらのアルゴリズムは主に、教師付きトレーニングのために大きなデータセットを必要とするCNNまたはビジョントランスフォーマーベースのアーキテクチャを使用する。 しかし、利用可能な深度データセットに基づいてトレーニングされたMDEアルゴリズムは、うまく一般化せず、様々な現実世界のシーンで正確に機能しない。 さらに、地対深度マップは低分解能か疎弱であり、相対的に一貫性のない深度マップとなる。 一般に、正確な深度予測のためにピクセルレベルの精度で高解像度の地上真実データセットを取得することは、高価で時間を要する課題である。 本稿では,グランドセフトオート (gta-v) から1920×1080次元の高分解能合成深度データセット (hrsd) を作成し,10万色画像とそれに対応する密接な地下真理深度マップを含む。 生成されたデータセットは多様で、均質な表面からテクスチャまで、屋内から屋外まで様々である。 実験と解析のために,提案する合成データセット上で最先端のトランスフォーマーベースのmdeアルゴリズムであるdptアルゴリズムを訓練し,異なるシーンにおける深度マップの精度を9%向上させた。 合成データセットは高解像度であるため,変換器エンコーダに特徴抽出モジュールを追加し,注意に基づく損失を取り入れ,精度を15%向上する。

Accurate depth maps are essential in various applications, such as autonomous driving, scene reconstruction, point-cloud creation, etc. However, monocular-depth estimation (MDE) algorithms often fail to provide enough texture & sharpness, and also are inconsistent for homogeneous scenes. These algorithms mostly use CNN or vision transformer-based architectures requiring large datasets for supervised training. But, MDE algorithms trained on available depth datasets do not generalize well and hence fail to perform accurately in diverse real-world scenes. Moreover, the ground-truth depth maps are either lower resolution or sparse leading to relatively inconsistent depth maps. In general, acquiring a high-resolution ground truth dataset with pixel-level precision for accurate depth prediction is an expensive, and time-consuming challenge. In this paper, we generate a high-resolution synthetic depth dataset (HRSD) of dimension 1920 X 1080 from Grand Theft Auto (GTA-V), which contains 100,000 color images and corresponding dense ground truth depth maps. The generated datasets are diverse and have scenes from indoors to outdoors, from homogeneous surfaces to textures. For experiments and analysis, we train the DPT algorithm, a state-of-the-art transformer-based MDE algorithm on the proposed synthetic dataset, which significantly increases the accuracy of depth maps on different scenes by 9 %. Since the synthetic datasets are of higher resolution, we propose adding a feature extraction module in the transformer encoder and incorporating an attention-based loss, further improving the accuracy by 15 %.
翻訳日:2023-05-04 16:48:19 公開日:2023-05-02
# 相互作用する量子粒子の非レイリー信号

Non-Rayleigh signal of interacting quantum particles ( http://arxiv.org/abs/2305.01729v1 )

ライセンス: Link先を確認
M. F. V. Oliveira, F. A. B. F. de Moura, A. M. C. Souza, M. L. Lyra, G. M. A. Almeida(参考訳) 弱い乱れ鎖上の2つの相互作用量子粒子の力学について検討した。 それらの間の空間量子干渉は、光学におけるハンベリー・ブラウン・ツイツ相関に関連する2粒子遷移振幅の統計によって特徴づけられる。 信号のゆらぎプロファイルは、相互作用する粒子が同一のボソン、フェルミオン、または区別可能な粒子のように振る舞っているかどうかを判別することができる。 相互作用するボソンに対してレイリー統計を示す類似の完全なスペックル構造が達成される。 ロングテール分布への偏差は、非相互作用する同一粒子に類似したエコー量子相関である。 強い相互作用の極限では、2粒子の束縛状態は一般化リシアン分布に従う。

The dynamics of two interacting quantum particles on a weakly disordered chain is investigated. Spatial quantum interference between them is characterized through the statistics of two-particle transition amplitudes, related to Hanbury Brown-Twiss correlations in optics. The fluctuation profile of the signal can discern whether the interacting parties are behaving like identical bosons, fermions, or distinguishable particles. An analog fully developed speckle regime displaying Rayleigh statistics is achieved for interacting bosons. Deviations toward long-tailed distributions echo quantum correlations akin to non-interacting identical particles. In the limit of strong interaction, two-particle bound states obey generalized Rician distributions.
翻訳日:2023-05-04 16:47:50 公開日:2023-05-02
# ガウス過程核による表現的死亡モデル

Expressive Mortality Models through Gaussian Process Kernels ( http://arxiv.org/abs/2305.01728v1 )

ライセンス: Link先を確認
Mike Ludkovski, Jimmy Risk(参考訳) 年齢および年別死亡面の共分散構造を学習するための柔軟なガウス過程(GP)フレームワークを開発する。 gpカーネルの加法と乗法構造を利用して,与えられた集団に対して最も表現力の高いカーネルを探索する遺伝的プログラミングアルゴリズムを考案する。 我々の構成探索はAPC(Aage-Period-Cohort)パラダイムから構築され、死亡データセットの時空間的ダイナミクスに最もよく一致するように共分散を構築する。 人工ケーススタディにおいて得られた遺伝的アルゴリズムを応用し,APC構造を復元するGAの能力,およびHuman Mortality Databaseによる実生活国家レベルのデータセットに応用する。 我々の機械学習に基づく分析は、異なる集団におけるコホート効果の有無、および年齢と年数次元に沿った死亡面の相対的滑らかさに関する新たな洞察を提供する。 当社のモデリング作業はpythonのpytorchライブラリで行われ、gpサロゲートの構成カーネル検索を支援するgaの採用に関する詳細な調査を行っています。

We develop a flexible Gaussian Process (GP) framework for learning the covariance structure of Age- and Year-specific mortality surfaces. Utilizing the additive and multiplicative structure of GP kernels, we design a genetic programming algorithm to search for the most expressive kernel for a given population. Our compositional search builds off the Age-Period-Cohort (APC) paradigm to construct a covariance prior best matching the spatio-temporal dynamics of a mortality dataset. We apply the resulting genetic algorithm (GA) on synthetic case studies to validate the ability of the GA to recover APC structure, and on real-life national-level datasets from the Human Mortality Database. Our machine-learning based analysis provides novel insight into the presence/absence of Cohort effects in different populations, and into the relative smoothness of mortality surfaces along the Age and Year dimensions. Our modelling work is done with the PyTorch libraries in Python and provides an in-depth investigation of employing GA to aid in compositional kernel search for GP surrogates.
翻訳日:2023-05-04 16:47:40 公開日:2023-05-02
# ビッグデータ学習のためのスローキル

Slow Kill for Big Data Learning ( http://arxiv.org/abs/2305.01726v1 )

ライセンス: Link先を確認
Yiyuan She, Jianhui Shen, and Adrian Barbu(参考訳) ビッグデータアプリケーションは、しばしば膨大な数の観測と特徴を伴い、変数の選択とパラメータ推定のための新しい課題を生み出します。 本稿では,非凸制約最適化,適応型$\ell_2$-shrinkage,学習率の増大を利用した'slow Kill,'という新しい手法を提案する。 遅いキルイテレーション中に問題のサイズが小さくなるという事実は、大規模な変数スクリーニングに特に有効である。 統計と最適化の相互作用は、統計的精度の所望のレベルを達成するのに必要な規則性条件を緩和するために、分位数、ステップ化、縮小パラメータを制御するための貴重な洞察を提供する。 実データと合成データの実験結果から,処理速度の低下は様々な状況において最先端のアルゴリズムより優れ,大規模データには計算効率がよいことがわかった。

Big-data applications often involve a vast number of observations and features, creating new challenges for variable selection and parameter estimation. This paper presents a novel technique called ``slow kill,'' which utilizes nonconvex constrained optimization, adaptive $\ell_2$-shrinkage, and increasing learning rates. The fact that the problem size can decrease during the slow kill iterations makes it particularly effective for large-scale variable screening. The interaction between statistics and optimization provides valuable insights into controlling quantiles, stepsize, and shrinkage parameters in order to relax the regularity conditions required to achieve the desired level of statistical accuracy. Experimental results on real and synthetic data show that slow kill outperforms state-of-the-art algorithms in various situations while being computationally efficient for large-scale data.
翻訳日:2023-05-04 16:47:21 公開日:2023-05-02
# 衛星による貧困マップの公平性と表現:都市と農村の格差の証拠と下流政策への影響

Fairness and representation in satellite-based poverty maps: Evidence of urban-rural disparities and their impacts on downstream policy ( http://arxiv.org/abs/2305.01783v1 )

ライセンス: Link先を確認
Emily Aiken, Esther Rolf, Joshua Blumenstock(参考訳) 衛星画像から得られた貧困地図は、人道支援の配分や政府の資源の分配など、高水準の政策決定を知らせるためにますます使われている。 このような貧困マップは、調査から得られた比較的控えめな量の「地下真実」データに基づいて機械学習アルゴリズムを訓練し、画像が存在する地域で貧困レベルを予測することで構築される。 本稿は,10か国から収集された調査と衛星データを用いて,都市・農村間の貧困マップにおける,表象の格差,予測誤差の系統的偏り,公平性に関する懸念を調査し,これらの現象が予測地図に基づく政策の妥当性にどのように影響するかを示す。 本研究は,現実の政策決定に衛星ベースの貧困マップを使う前に,注意深い誤りとバイアス分析の重要性を浮き彫りにする。

Poverty maps derived from satellite imagery are increasingly used to inform high-stakes policy decisions, such as the allocation of humanitarian aid and the distribution of government resources. Such poverty maps are typically constructed by training machine learning algorithms on a relatively modest amount of ``ground truth" data from surveys, and then predicting poverty levels in areas where imagery exists but surveys do not. Using survey and satellite data from ten countries, this paper investigates disparities in representation, systematic biases in prediction errors, and fairness concerns in satellite-based poverty mapping across urban and rural lines, and shows how these phenomena affect the validity of policies based on predicted maps. Our findings highlight the importance of careful error and bias analysis before using satellite-based poverty maps in real-world policy decisions.
翻訳日:2023-05-04 16:40:33 公開日:2023-05-02
# SLTUNET:手話翻訳のための簡易統一モデル

SLTUNET: A Simple Unified Model for Sign Language Translation ( http://arxiv.org/abs/2305.01778v1 )

ライセンス: Link先を確認
Biao Zhang, Mathias M\"uller, Rico Sennrich(参考訳) 近年、手話翻訳(SLT)のニューラルモデルの成功にもかかわらず、データ不足と手話とテキスト間のモダリティのギャップのため、翻訳品質は音声言語より遅れている。 両問題に対処するため,SLTにおけるモダリティ間表現共有戦略について検討する。 本稿では,SLTUNETを提案する。SLTUNETは,複数のSLT関連タスクを協調的にサポートするために設計された単純な統合ニューラルモデルである。 異なるタスクを共同でモデリングすることでsltunetは、モダリティギャップを狭めることができるクロスタスク関連性を調べることができる。 加えて、これは言語機械翻訳(mt)に使用される豊富な並列データのような外部リソースからの知識を活用できる。 PHOENIX-2014TとCSL-DailyをMTデータで拡張し,一連の最適化手法を用いて,SLTUNETがPHOENIX-2014TとCSL-Dailyの競合および最先端性能を実現する実験を行った。 DGS Corpus をエンドツーエンド SLT に初めて使用する。 より広い領域の語彙をカバーしており、これはより困難であり、以前の2つよりも現実的なSLT状態の評価を可能にしていると考えています。 それでも、SLTUNETはDGS Corpusで改善された結果を得る。 コードはhttps://github.com/bzhanggo/sltunetで入手できる。

Despite recent successes with neural models for sign language translation (SLT), translation quality still lags behind spoken languages because of the data scarcity and modality gap between sign video and text. To address both problems, we investigate strategies for cross-modality representation sharing for SLT. We propose SLTUNET, a simple unified neural model designed to support multiple SLTrelated tasks jointly, such as sign-to-gloss, gloss-to-text and sign-to-text translation. Jointly modeling different tasks endows SLTUNET with the capability to explore the cross-task relatedness that could help narrow the modality gap. In addition, this allows us to leverage the knowledge from external resources, such as abundant parallel data used for spoken-language machine translation (MT). We show in experiments that SLTUNET achieves competitive and even state-of-the-art performance on PHOENIX-2014T and CSL-Daily when augmented with MT data and equipped with a set of optimization techniques. We further use the DGS Corpus for end-to-end SLT for the first time. It covers broader domains with a significantly larger vocabulary, which is more challenging and which we consider to allow for a more realistic assessment of the current state of SLT than the former two. Still, SLTUNET obtains improved results on the DGS Corpus. Code is available at https://github.com/bzhangGo/sltunet.
翻訳日:2023-05-04 16:40:16 公開日:2023-05-02
# マニフォールドフラット化と再構成による表現学習

Representation Learning via Manifold Flattening and Reconstruction ( http://arxiv.org/abs/2305.01777v1 )

ライセンス: Link先を確認
Michael Psenka, Druv Pai, Vishal Raman, Shankar Sastry, Yi Ma(参考訳) 本研究は,この多様体の有限サンプルから埋め込み部分多様体を線形化し再構成する一対のニューラルネットワークを明示的に構築するアルゴリズムを提案する。 このような生成されたニューラルネットワークは、フラットテンシングネットワーク(FlatNet)と呼ばれ、理論的に解釈可能であり、大規模に計算可能であり、データをテストするためにうまく一般化されている。 合成高次元多様体データと2次元画像データにおける実験結果と他のモデルとの比較を行った。 私たちのコードは公開されています。

This work proposes an algorithm for explicitly constructing a pair of neural networks that linearize and reconstruct an embedded submanifold, from finite samples of this manifold. Our such-generated neural networks, called flattening networks (FlatNet), are theoretically interpretable, computationally feasible at scale, and generalize well to test data, a balance not typically found in manifold-based learning methods. We present empirical results and comparisons to other models on synthetic high-dimensional manifold data and 2D image data. Our code is publicly available.
翻訳日:2023-05-04 16:39:50 公開日:2023-05-02
# 分類と表現のハームの測定:画像タギングを例として

Taxonomizing and Measuring Representational Harms: A Look at Image Tagging ( http://arxiv.org/abs/2305.01776v1 )

ライセンス: Link先を確認
Jared Katzman and Angelina Wang and Morgan Scheuerman and Su Lin Blodgett and Kristen Laird and Hanna Wallach and Solon Barocas(参考訳) 本稿では,画像タギングシステムの「公正性」を測定するための計算手法について検討し,これらを5つのカテゴリに分類し,それぞれが独自の解析基盤を持つことを示した。 また,画像タグ付けに関する議論において,「不公平」や「バイアス」,さらには「差別」といった用語でしばしば崩壊する規範的関心事も特定した。 具体的には、画像タグ付けシステムによって引き起こされる4種類の表現障害を特定し、それぞれの具体例を示す。 次に、それぞれ異なる計算計測手法がどう対応しているかを検討し、1対1のマッピングがないことを示す。 以上の結果から, 単一測定アプローチは決定的ではなく, 害の種類を想定した特定の測定手法の使用から推測することはできないことを強調した。 最後に、画像タグ付けシステムによって引き起こされる表現的害の種類をより細かく理解することで、これらの害のいくつかを緩和しようとする試みは、互いに緊張関係にある可能性があることを示す。

In this paper, we examine computational approaches for measuring the "fairness" of image tagging systems, finding that they cluster into five distinct categories, each with its own analytic foundation. We also identify a range of normative concerns that are often collapsed under the terms "unfairness," "bias," or even "discrimination" when discussing problematic cases of image tagging. Specifically, we identify four types of representational harms that can be caused by image tagging systems, providing concrete examples of each. We then consider how different computational measurement approaches map to each of these types, demonstrating that there is not a one-to-one mapping. Our findings emphasize that no single measurement approach will be definitive and that it is not possible to infer from the use of a particular measurement approach which type of harm was intended to be measured. Lastly, equipped with this more granular understanding of the types of representational harms that can be caused by image tagging systems, we show that attempts to mitigate some of these types of harms may be in tension with one another.
翻訳日:2023-05-04 16:39:41 公開日:2023-05-02
# 相互作用力学系の深部状態空間モデルに対するチープおよび決定論的推論

Cheap and Deterministic Inference for Deep State-Space Models of Interacting Dynamical Systems ( http://arxiv.org/abs/2305.01773v1 )

ライセンス: Link先を確認
Andreas Look, Melih Kandemir, Barbara Rakitsch, Jan Peters(参考訳) グラフニューラルネットワークは、様々な多数のエージェントを持つシステムに優雅にスケールするため、相互作用する動的システムをモデル化するためにしばしば使用される。 決定論的相互作用系には多くの進展があったが、将来の軌道上の予測分布の獲得に関心を持つ確率的系ではモデリングがより困難である。 既存の手法はモンテカルロサンプリングに依存するため計算が遅くなるか、予測分布が単調であるような仮定を単純化する。 本稿では,基礎となる相互作用系をモデル化するために,グラフニューラルネットワークを用いた深層状態空間モデルを提案する。 予測分布はマルチモーダルであり、ガウス混合モデルの形をしており、ガウス成分のモーメントは決定論的モーメントマッチングルールによって計算できる。 我々のモーメントマッチングスキームはサンプルフリーな推論に活用でき、モンテカルロの代替案と比較してより効率的で安定したトレーニングに繋がる。 さらに,多数のエージェントを持つシステムにスケールアップするために,ガウス成分の共分散行列の構造化近似を提案する。 2つの挑戦的な自律走行データセットに新しいフレームワークをベンチマークします。 両者とも最先端の手法と比較して,この手法の利点を確認している。 さらに、慎重に設計されたアブレーション研究において、我々の個人貢献の有効性を実証し、提案した共分散近似の詳細な実行時解析を提供する。 最後に,本手法の一般化性能を,未知のシナリオで評価することで実証的に実証する。

Graph neural networks are often used to model interacting dynamical systems since they gracefully scale to systems with a varying and high number of agents. While there has been much progress made for deterministic interacting systems, modeling is much more challenging for stochastic systems in which one is interested in obtaining a predictive distribution over future trajectories. Existing methods are either computationally slow since they rely on Monte Carlo sampling or make simplifying assumptions such that the predictive distribution is unimodal. In this work, we present a deep state-space model which employs graph neural networks in order to model the underlying interacting dynamical system. The predictive distribution is multimodal and has the form of a Gaussian mixture model, where the moments of the Gaussian components can be computed via deterministic moment matching rules. Our moment matching scheme can be exploited for sample-free inference, leading to more efficient and stable training compared to Monte Carlo alternatives. Furthermore, we propose structured approximations to the covariance matrices of the Gaussian components in order to scale up to systems with many agents. We benchmark our novel framework on two challenging autonomous driving datasets. Both confirm the benefits of our method compared to state-of-the-art methods. We further demonstrate the usefulness of our individual contributions in a carefully designed ablation study and provide a detailed runtime analysis of our proposed covariance approximations. Finally, we empirically demonstrate the generalization ability of our method by evaluating its performance on unseen scenarios.
翻訳日:2023-05-04 16:39:23 公開日:2023-05-02
# DeCom:非薬剤的介入を意識した術後呼吸性シンサイトールウイルス予測のためのディープカップリング・ファクター化装置

DeCom: Deep Coupled-Factorization Machine for Post COVID-19 Respiratory Syncytial Virus Prediction with Nonpharmaceutical Interventions Awareness ( http://arxiv.org/abs/2305.01770v1 )

ライセンス: Link先を確認
Xinyan Li, Cheng Qian, and Lucas Glass(参考訳) 呼吸同期ウイルス(rsv)は、幼児や幼児にとって最も危険な呼吸器疾患の1つである。 新型コロナウイルスの感染拡大に伴う非薬剤的介入(NPI)により、RSVの季節的な感染パターンは2020年に廃止され、2021年に北半球で数ヶ月前に移行した。 新型コロナウイルス(COVID-19)がRSVにどのように影響するかを理解し、RSVの再合併のタイミングと強度を予測する予測アルゴリズムを構築することが重要である。 本稿では、COVID-19後RSV予測のためのディープカップリング型テンソル因子化マシンDeComを提案する。 DeComはテンソル分解と残留モデリングを利用する。 これにより、通常の季節RSV送信パターンとNPIの両方を考慮し、新型コロナウイルス感染下で確実に破壊されたRSV伝送を学習することができる。 実際のrsvデータセットでの実験的結果は、decomは最先端のrsv予測アルゴリズムよりも正確であり、ベースラインよりも根の平均平方誤差が最大46%低く、絶対誤差が49%低いことを示している。

Respiratory syncytial virus (RSV) is one of the most dangerous respiratory diseases for infants and young children. Due to the nonpharmaceutical intervention (NPI) imposed in the COVID-19 outbreak, the seasonal transmission pattern of RSV has been discontinued in 2020 and then shifted months ahead in 2021 in the northern hemisphere. It is critical to understand how COVID-19 impacts RSV and build predictive algorithms to forecast the timing and intensity of RSV reemergence in post-COVID-19 seasons. In this paper, we propose a deep coupled tensor factorization machine, dubbed as DeCom, for post COVID-19 RSV prediction. DeCom leverages tensor factorization and residual modeling. It enables us to learn the disrupted RSV transmission reliably under COVID-19 by taking both the regular seasonal RSV transmission pattern and the NPI into consideration. Experimental results on a real RSV dataset show that DeCom is more accurate than the state-of-the-art RSV prediction algorithms and achieves up to 46% lower root mean square error and 49% lower mean absolute error for country-level prediction compared to the baselines.
翻訳日:2023-05-04 16:39:00 公開日:2023-05-02
# 心理的にインスパイアされた因果プロンプト

Psychologically-Inspired Causal Prompts ( http://arxiv.org/abs/2305.01764v1 )

ライセンス: Link先を確認
Zhiheng Lyu, Zhijing Jin, Justus Mattern, Rada Mihalcea, Mrinmaya Sachan, Bernhard Schoelkopf(参考訳) NLPデータセットは単なる入出力ペアよりもリッチであり、入力変数と出力変数の間に因果関係を持つ。 本研究では,感情分類を例として,レビュー(x)と感情(y)の因果関係を考察する。 心理学の研究では、言語が感情に影響することが示されているが、まず格付けを行い、次に自己合理化する(感情がレビューを引き起こす(y -> x)とき、その経験を最初に記述し、最終格付けを与えるための長所と短所を重くする(レビューが感情を引き起こす(x -> y)とき、異なる心理的プロセスが誘発される。 さらに、アノテータが心の理論(tom)によってユーザーの元の格付けを推測する(レビューが格付けを引き起こす、すなわちx -tom-> y)場合、全く異なる心理的プロセスである。 本稿では,これら3つの心理過程の因果的メカニズムを3つの異なる因果的プロンプトに分類し,(1)その動作がいかに異なるか,(2)そのプロンプトによって引き起こされるモデル応答に,感情分類データの性質が合意あるいは多様性をもたらすかを検討する。 NLPタスクにおける様々な因果構造に対する認識を高めるための今後の取り組みを提案する。 私たちのコードとデータはhttps://github.com/cogito233/psych-causal-promptにあります。

NLP datasets are richer than just input-output pairs; rather, they carry causal relations between the input and output variables. In this work, we take sentiment classification as an example and look into the causal relations between the review (X) and sentiment (Y). As psychology studies show that language can affect emotion, different psychological processes are evoked when a person first makes a rating and then self-rationalizes their feeling in a review (where the sentiment causes the review, i.e., Y -> X), versus first describes their experience, and weighs the pros and cons to give a final rating (where the review causes the sentiment, i.e., X -> Y ). Furthermore, it is also a completely different psychological process if an annotator infers the original rating of the user by theory of mind (ToM) (where the review causes the rating, i.e., X -ToM-> Y ). In this paper, we verbalize these three causal mechanisms of human psychological processes of sentiment classification into three different causal prompts, and study (1) how differently they perform, and (2) what nature of sentiment classification data leads to agreement or diversity in the model responses elicited by the prompts. We suggest future work raise awareness of different causal structures in NLP tasks. Our code and data are at https://github.com/cogito233/psych-causal-prompt
翻訳日:2023-05-04 16:38:37 公開日:2023-05-02
# アンチバイオグラムパターン予測のための時空間ネットワーク

Spatial-Temporal Networks for Antibiogram Pattern Prediction ( http://arxiv.org/abs/2305.01761v1 )

ライセンス: Link先を確認
Xingbo Fu, Chen Chen, Yushun Dong, Anil Vullikanti, Eili Klein, Gregory Madden, Jundong Li(参考訳) 抗バイオグラム (antibiogram) は、感染した患者から選択された抗菌薬に対する抗生物質耐性の周期的な要約である。 抗生剤は、臨床医が地域抵抗率を理解し、処方薬で適切な抗生物質を選択するのに役立つ。 実際には、抗生物質耐性の顕著な組み合わせは異なる抗バイオグラムに現れ、抗バイオグラムパターンを形成する。 このようなパターンは、特定の地域で感染症が流行することを意味する可能性がある。 したがって、抗生物質耐性の傾向を監視し、多剤耐性生物の拡散を追跡することが重要である。 本稿では,今後どのようなパターンが現れるかを予測することを目的とした,アンチバイオグラムパターン予測の新しい問題を提案する。 その重要性にもかかわらず、この問題に取り組むことは一連の課題に遭遇し、文献ではまだ検討されていない。 第一に、アンチバイオグラムパターンは、基底生物のゲノム的類似性のため、互いに強い関係を持つ可能性があるため、i.d.ではない。 第二に、アンチバイオグラムパターンは、しばしば、以前に検出されたパターンに依存する。 さらに、抗生物質耐性の拡散は、近隣または類似の領域に大きく影響される。 そこで,本稿では,そのパターン相関を効果的に活用し,時間的および空間的情報を活用できる新しい空間-時空間的アンチバイオグラムパターン予測フレームワークstappを提案する。 米国203都市を対象に,1999年から2012年までの患者に対する抗バイオグラム検査を行い,実世界のデータセットについて広範な実験を行った。 実験結果から,STAPPのいくつかの競争基準に対する優位性を示した。

An antibiogram is a periodic summary of antibiotic resistance results of organisms from infected patients to selected antimicrobial drugs. Antibiograms help clinicians to understand regional resistance rates and select appropriate antibiotics in prescriptions. In practice, significant combinations of antibiotic resistance may appear in different antibiograms, forming antibiogram patterns. Such patterns may imply the prevalence of some infectious diseases in certain regions. Thus it is of crucial importance to monitor antibiotic resistance trends and track the spread of multi-drug resistant organisms. In this paper, we propose a novel problem of antibiogram pattern prediction that aims to predict which patterns will appear in the future. Despite its importance, tackling this problem encounters a series of challenges and has not yet been explored in the literature. First of all, antibiogram patterns are not i.i.d as they may have strong relations with each other due to genomic similarities of the underlying organisms. Second, antibiogram patterns are often temporally dependent on the ones that are previously detected. Furthermore, the spread of antibiotic resistance can be significantly influenced by nearby or similar regions. To address the above challenges, we propose a novel Spatial-Temporal Antibiogram Pattern Prediction framework, STAPP, that can effectively leverage the pattern correlations and exploit the temporal and spatial information. We conduct extensive experiments on a real-world dataset with antibiogram reports of patients from 1999 to 2012 for 203 cities in the United States. The experimental results show the superiority of STAPP against several competitive baselines.
翻訳日:2023-05-04 16:38:06 公開日:2023-05-02
# 異方性炭化ケイ素中におけるテレコム波長バナジウム中心の超狭帯域不均一スペクトル分布

Ultra-narrow inhomogeneous spectral distribution of telecom-wavelength vanadium centres in isotopically-enriched silicon carbide ( http://arxiv.org/abs/2305.01757v1 )

ライセンス: Link先を確認
Pasquale Cilibrizzi, Muhammad Junaid Arshad, Benedikt Tissot, Nguyen Tien Son, Ivan G. Ivanov, Thomas Astner, Philipp Koller, Misagh Ghezellou, Jawad Ul-Hassan, Daniel White, Christiaan Bekker, Guido Burkard, Michael Trupke, Cristian Bonato(参考訳) スピンアクティブ量子エミッタは量子技術の先駆的なプラットフォームとして登場した。 しかし、その大きな限界の1つは光放射周波数の広がりであり、通常は数十 GHz で拡張される。 本研究では,4h-sicにおける単一v4+バナジウム中心の研究を行い,コヒーレント s = 1/2 スピン状態について検討した。 単一エミッタ上で分光を行い、スピン-光子界面の重要な要件であるスピン依存光遷移の最初の観測を報告する。 SiCマトリックスの同位体組成をエンジニアリングすることにより、異なるエミッタの不均一なスペクトル分布を100MHzまで低減し、他のどの単一量子エミッタよりも大幅に小さくする。 さらに、ドパント濃度を調整して、通信波長V4+帯電状態を安定化し、その寿命を少なくとも2桁以上延長する。 これらの結果は、スケーラブルな通信量子ネットワークにおける物質ノードとしてのSiCの単一Vエミッタの展望を裏付けるものである。

Spin-active quantum emitters have emerged as a leading platform for quantum technology. However, one of their major limitations is the large spread in optical emission frequencies, which typically extends for tens of GHz. Here, we investigate single V4+ vanadium centers in 4H-SiC, which feature telecom-wavelength emission and a coherent S = 1/2 spin state. We perform spectroscopy on single emitters and report the first observation of spin-dependent optical transitions, a key requirement for spin-photon interfaces. By engineering the isotopic composition of the SiC matrix, we reduce the inhomogeneous spectral distribution of different emitters down to 100 MHz, significantly smaller than any other single quantum emitter. Additionally, we tailor the dopant concentration to stabilise the telecom-wavelength V4+ charge state, thereby extending its lifetime by at least two orders of magnitude. These results bolster the prospects for single V emitters in SiC as material nodes in scalable telecom quantum networks.
翻訳日:2023-05-04 16:37:46 公開日:2023-05-02
# ニューラルネットワークポテンシャルにおける単一モデル不確かさの定量化は、一貫してモデルアンサンブルを上回るものではない

Single-model uncertainty quantification in neural network potentials does not consistently outperform model ensembles ( http://arxiv.org/abs/2305.01754v1 )

ライセンス: Link先を確認
Aik Rui Tan, Shingo Urata, Samuel Goldman, Johannes C.B. Dietschreit and Rafael G\'omez-Bombarelli(参考訳) ニューラルネットワーク(NN)はしばしば予測に高い信頼度を割り当てるが、分布の極端な点であっても、不確実な定量化(UQ)が課題となる。 物質系の原子間ポテンシャルをモデル化するために用いられる場合、この問題はシミュレーションを混乱させる非物理的構造や、真の物理学を反映しない偏りのある統計や力学に繋がる。 異なるUQ技術は、新しい情報データを見つけ、堅牢なポテンシャルのためにアクティブな学習ループを駆動することができる。 しかし、新たに開発されたものを含む様々なUQ技術が原子論シミュレーションのために存在し、特定のケースに最も効果的または適した明確なガイドラインは存在しない。 本研究では,NN間ポテンシャル(NNIP)の能動的学習による堅牢性向上のための複数のUQスキームについて検討する。 特に,1つの決定論的NNを用いた戦略に対する既存アンサンブル法(平均分散推定,深部明度回帰,ガウス混合モデル)を比較した。 我々は、ドメイン内補間学習から、rmd17、アンモニアインバージョン、バルクシリカガラスというドメイン外一般化の課題まで、3つのデータセットを調査した。 パフォーマンスはモデルエラーと不確実性に関連する複数のメトリクスにわたって測定される。 実験の結果,いずれの手法も様々な指標で常に優れていなかったことがわかった。 mveはドメイン内補間にのみ有効であることを証明したが、gmmはドメイン外補間の方が優れており、証拠的回帰は、その約束にもかかわらず、いずれのケースでも望ましい選択肢ではなかった。 より広範に、コスト効率のよい単一決定論的モデルは、NNIPにおける不確実な定量化のために、一貫して一致したり、性能を向上することができない。

Neural networks (NNs) often assign high confidence to their predictions, even for points far out-of-distribution, making uncertainty quantification (UQ) a challenge. When they are employed to model interatomic potentials in materials systems, this problem leads to unphysical structures that disrupt simulations, or to biased statistics and dynamics that do not reflect the true physics. Differentiable UQ techniques can find new informative data and drive active learning loops for robust potentials. However, a variety of UQ techniques, including newly developed ones, exist for atomistic simulations and there are no clear guidelines for which are most effective or suitable for a given case. In this work, we examine multiple UQ schemes for improving the robustness of NN interatomic potentials (NNIPs) through active learning. In particular, we compare incumbent ensemble-based methods against strategies that use single, deterministic NNs: mean-variance estimation, deep evidential regression, and Gaussian mixture models. We explore three datasets ranging from in-domain interpolative learning to more extrapolative out-of-domain generalization challenges: rMD17, ammonia inversion, and bulk silica glass. Performance is measured across multiple metrics relating model error to uncertainty. Our experiments show that none of the methods consistently outperformed each other across the various metrics. Ensembling remained better at generalization and for NNIP robustness; MVE only proved effective for in-domain interpolation, while GMM was better out-of-domain; and evidential regression, despite its promise, was not the preferable alternative in any of the cases. More broadly, cost-effective, single deterministic models cannot yet consistently match or outperform ensembling for uncertainty quantification in NNIPs.
翻訳日:2023-05-04 16:37:27 公開日:2023-05-02
# KEPLET: トピックエンティティ認識を備えた知識強化事前学習言語モデル

KEPLET: Knowledge-Enhanced Pretrained Language Model with Topic Entity Awareness ( http://arxiv.org/abs/2305.01810v1 )

ライセンス: Link先を確認
Yichuan Li, Jialong Han, Kyumin Lee, Chengyuan Ma, Benjamin Yao, Derek Liu(参考訳) 近年、事前学習された言語モデル(plm)は、非構造化テキストコーパスを事前学習し、下流タスクを微調整することでその優位性を示している。 Wikipediaのようなエンティティリッチなテキストリソースでは、知識強化PLM(KEPLM)はトークンと前述のエンティティ間の相互作用を事前学習に取り入れており、エンティティリンクや関係分類のようなエンティティ中心のタスクにより効果的である。 ウィキペディアのリッチな構造をある程度利用しているが、従来のKEPLMは、ウィキペディアページがトピックエンティティ(ページURLで識別されページタイトルに表示される)の周りにあるコーパスのユニークなレイアウトを無視している。 本稿では、トピックエンティティを組み込まないKEPLMが、エンティティ間の相互作用が不十分になり、単語意味論に偏りが生じることを実証する。 そこで我々は,トピックを意識した知識強化型LanguagEモデルKEPLETを提案する。 エンドツーエンドの方法で、KEPLETは、トピックエンティティの情報をウィキペディアの文に追加する場所を特定し、それらの情報をトークンと前述のエンティティ表現に融合させ、トピックエンティティを考慮に入れたネットワーク学習を監督する。 KEPLETの汎用性と優越性を2つの代表的なKEPLMに適用し、4つのエンティティ中心タスクにおいて大幅な改善を実現した。

In recent years, Pre-trained Language Models (PLMs) have shown their superiority by pre-training on unstructured text corpus and then fine-tuning on downstream tasks. On entity-rich textual resources like Wikipedia, Knowledge-Enhanced PLMs (KEPLMs) incorporate the interactions between tokens and mentioned entities in pre-training, and are thus more effective on entity-centric tasks such as entity linking and relation classification. Although exploiting Wikipedia's rich structures to some extent, conventional KEPLMs still neglect a unique layout of the corpus where each Wikipedia page is around a topic entity (identified by the page URL and shown in the page title). In this paper, we demonstrate that KEPLMs without incorporating the topic entities will lead to insufficient entity interaction and biased (relation) word semantics. We thus propose KEPLET, a novel Knowledge-Enhanced Pre-trained LanguagE model with Topic entity awareness. In an end-to-end manner, KEPLET identifies where to add the topic entity's information in a Wikipedia sentence, fuses such information into token and mentioned entities representations, and supervises the network learning, through which it takes topic entities back into consideration. Experiments demonstrated the generality and superiority of KEPLET which was applied to two representative KEPLMs, achieving significant improvements on four entity-centric tasks.
翻訳日:2023-05-04 16:32:03 公開日:2023-05-02
# クラス分割と逆画像検出のためのハミング類似性とグラフラプラシアン

Hamming Similarity and Graph Laplacians for Class Partitioning and Adversarial Image Detection ( http://arxiv.org/abs/2305.01808v1 )

ライセンス: Link先を確認
Huma Jamil, Yajing Liu, Turgay Caglar, Christina Cole, Nathaniel Blanchard, Christopher Peterson, Michael Kirby(参考訳) 研究者は通常、ネットワークの1層以上のレイヤのアクティベーション出力を調べることによって、ニューラルネットワークの表現を調べる。 本稿では,reluアクティベーションパターン(ビットベクトルとしてコード化)の可能性を検証し,ニューラルネットワークの動作の理解と解釈を支援する。 本研究では,深層ニューラルネットワークの埋め込み空間におけるデータのコヒーレンスを調べるために,rdms(representational dis similarity matrices)を用いた。 ネットワークの各層から,画像間の類似度スコアを構成するビットベクトルを抽出・活用する。 これらの類似度スコアから、2つのクラスから引き出された画像の集合に対する類似度行列を構築する。 次に、フィドラー分割を関連するラプラシア行列に適用してクラスを分離する。 その結果、ビットベクトル表現により、ネットワークは最後のReLU層を用いてクラス検出性を改善し続け、95%以上の分離精度を実現した。 さらに,ビットベクトルは逆画像検出に役立ち,逆画像と非逆画像とを単純な分類器で分離する際の95%以上の精度を実現する。

Researchers typically investigate neural network representations by examining activation outputs for one or more layers of a network. Here, we investigate the potential for ReLU activation patterns (encoded as bit vectors) to aid in understanding and interpreting the behavior of neural networks. We utilize Representational Dissimilarity Matrices (RDMs) to investigate the coherence of data within the embedding spaces of a deep neural network. From each layer of a network, we extract and utilize bit vectors to construct similarity scores between images. From these similarity scores, we build a similarity matrix for a collection of images drawn from 2 classes. We then apply Fiedler partitioning to the associated Laplacian matrix to separate the classes. Our results indicate, through bit vector representations, that the network continues to refine class detectability with the last ReLU layer achieving better than 95\% separation accuracy. Additionally, we demonstrate that bit vectors aid in adversarial image detection, again achieving over 95\% accuracy in separating adversarial and non-adversarial images using a simple classifier.
翻訳日:2023-05-04 16:31:33 公開日:2023-05-02
# 共分散ニューラルネットワークの伝達特性と解剖学的特徴を用いた脳年齢予測への応用

Transferablility of coVariance Neural Networks and Application to Interpretable Brain Age Prediction using Anatomical Features ( http://arxiv.org/abs/2305.01807v1 )

ライセンス: Link先を確認
Saurabh Sihag, Gonzalo Mateos, Corey T. McMillan, Alejandro Ribeiro(参考訳) グラフ畳み込みネットワーク(gcn)はトポロジー駆動グラフ畳み込み操作を利用して、推論タスクのためにグラフ全体の情報を結合する。 最近の研究では、従来のpca駆動のデータ分析手法と類似性を示しながら、グラフとして共分散行列を用いたgcnを共分散ニューラルネットワーク(vnn)として研究した。 本稿では,VNNの転送可能性について理論的に考察する。 伝達可能性の概念は、学習モデルが最小限の努力で(おそらく異なる次元の)「互換性のある」データセットに一般化できるという直感的な期待から導かれる。 VNNは、GCNからスケールフリーなデータ処理アーキテクチャを継承し、ここでは、共分散行列が極限オブジェクトに収束するデータセットよりも性能の伝達性を示すことを示す。 マルチスケールのニューロイメージングデータセットは、複数のスケールで脳の研究を可能にするため、VNNの伝達可能性に関する理論的結果を検証することができる。 神経画像データ解析におけるVNNの利点を評価するため,大脳皮質の厚み特徴を用いた脳年齢予測の課題に着目した。 臨床神経科学では、年輪年代から逸脱する「脳年齢」の推定を提供する機械学習アルゴリズムへの関心が高まっている。 VNNのアーキテクチャを活用して、アルツハイマー病(AD)の脳年齢ギャップの粗い指標を超えて、2つの重要な観察を行う。 i)VNNはADにおける脳年齢差の増大に解剖学的解釈可能性を与えることができる (II) 解剖学的共分散行列の特定の主成分を利用する能力にVNNが提供する解釈可能性がある。 さらに、VNNの転送可能性を活用して、上記の観測結果を異なるデータセット間で相互に検証する。

Graph convolutional networks (GCN) leverage topology-driven graph convolutional operations to combine information across the graph for inference tasks. In our recent work, we have studied GCNs with covariance matrices as graphs in the form of coVariance neural networks (VNNs) that draw similarities with traditional PCA-driven data analysis approaches while offering significant advantages over them. In this paper, we first focus on theoretically characterizing the transferability of VNNs. The notion of transferability is motivated from the intuitive expectation that learning models could generalize to "compatible" datasets (possibly of different dimensionalities) with minimal effort. VNNs inherit the scale-free data processing architecture from GCNs and here, we show that VNNs exhibit transferability of performance over datasets whose covariance matrices converge to a limit object. Multi-scale neuroimaging datasets enable the study of the brain at multiple scales and hence, can validate the theoretical results on the transferability of VNNs. To gauge the advantages offered by VNNs in neuroimaging data analysis, we focus on the task of "brain age" prediction using cortical thickness features. In clinical neuroscience, there has been an increased interest in machine learning algorithms which provide estimates of "brain age" that deviate from chronological age. We leverage the architecture of VNNs to extend beyond the coarse metric of brain age gap in Alzheimer's disease (AD) and make two important observations: (i) VNNs can assign anatomical interpretability to elevated brain age gap in AD, and (ii) the interpretability offered by VNNs is contingent on their ability to exploit specific principal components of the anatomical covariance matrix. We further leverage the transferability of VNNs to cross validate the above observations across different datasets.
翻訳日:2023-05-04 16:31:15 公開日:2023-05-02
# より新しいものが良くないとき: 深層学習は、不適切なフィードバックから推奨に相応しいか?

When Newer is Not Better: Does Deep Learning Really Benefit Recommendation From Implicit Feedback? ( http://arxiv.org/abs/2305.01801v1 )

ライセンス: Link先を確認
Yushun Dong, Jundong Li, Tobias Schnabel(参考訳) 近年、ニューラルモデルは推奨の最先端のパフォーマンスを示すために繰り返し宣伝されている。 しかし、近年の研究では、多くのニューラルレコメンデーションモデルの最新の結果が確実に複製できないことが判明している。 主な理由は、既存の評価が様々な不整合プロトコルの下で実行されることである。 それに応じて、これらの再現性問題は、これらのニューラルモデルから実際にどれだけの利益が得られるかを理解するのを難しくします。 そして、従来のモデルと神経モデルの公正で包括的なパフォーマンス比較が必要であることが明らかになった。 これらの課題に動機づけられ,近年のニューラル・レコメンデーションモデルと従来のニューラル・レコメンデーションモデルを比較するために,大規模かつ体系的な研究を行った。 本稿では,記憶性能,一般化性能,レコメンデーションモデルのサブグループ固有性能を測定するための評価戦略を提案する。 一般的な9つのデータセットに対して、13の一般的な推奨モデル(2つのニューラルモデルと11の従来モデルのベースラインを含む)で広範な実験を行います。 我々の実験は、広範にハイパーパラメーター探索を行っても、ニューラルネットワークがすべての面において従来のモデルを支配するわけではないことを示した。 さらに、ニューラルモデルは、例えば、ユーザーとアイテムの異なるサブグループ間の推薦の多様性と堅牢性において、非ニューラルモデルを上回っているように見える領域がある。 我々の研究は、推奨されるニューラルネットワークモデルの相対的な利点と欠点を照らし、より良い推奨システムを構築するための重要なステップである。

In recent years, neural models have been repeatedly touted to exhibit state-of-the-art performance in recommendation. Nevertheless, multiple recent studies have revealed that the reported state-of-the-art results of many neural recommendation models cannot be reliably replicated. A primary reason is that existing evaluations are performed under various inconsistent protocols. Correspondingly, these replicability issues make it difficult to understand how much benefit we can actually gain from these neural models. It then becomes clear that a fair and comprehensive performance comparison between traditional and neural models is needed. Motivated by these issues, we perform a large-scale, systematic study to compare recent neural recommendation models against traditional ones in top-n recommendation from implicit data. We propose a set of evaluation strategies for measuring memorization performance, generalization performance, and subgroup-specific performance of recommendation models. We conduct extensive experiments with 13 popular recommendation models (including two neural models and 11 traditional ones as baselines) on nine commonly used datasets. Our experiments demonstrate that even with extensive hyper-parameter searches, neural models do not dominate traditional models in all aspects, e.g., they fare worse in terms of average HitRate. We further find that there are areas where neural models seem to outperform non-neural models, for example, in recommendation diversity and robustness between different subgroups of users and items. Our work illuminates the relative advantages and disadvantages of neural models in recommendation and is therefore an important step towards building better recommender systems.
翻訳日:2023-05-04 16:30:45 公開日:2023-05-02
# ボソニック変分量子回路におけるエネルギー依存バレン高原

Energy-dependent barren plateau in bosonic variational quantum circuits ( http://arxiv.org/abs/2305.01799v1 )

ライセンス: Link先を確認
Bingzhi Zhang and Quntao Zhuang(参考訳) ボソニック連続可変変分量子回路(VQC)は空洞量子力学や光学系における情報処理に不可欠であり、量子通信、センシング、誤り訂正に広く応用されている。 このようなVQCの訓練性はあまり理解されておらず、関連する物理系の無限次元のために$t$-designのような理論ツールが欠如している。 このようなVQCでエネルギー依存のバレン高原を明らかにすることの難しさを克服する。 勾配の分散は 1/e^{m\nu}$ で減少し、(モードごとの)回路エネルギー $e$ で多項式 m$ のモードの数で指数関数的に減少する。 指数$\nu=1$は浅い回路、$\nu=2$は深い回路である。 我々は、これらの結果が一般ガウス状態と数状態の州準備のために証明する。 また,結果が一般状態準備作業にまで及ぶことを示す数値的な証拠を提供する。 回路エネルギーは制御可能なパラメータであるため、連続変数vqcにおけるバレン高原の緩和戦略を提供する。

Bosonic continuous-variable Variational quantum circuits (VQCs) are crucial for information processing in cavity quantum electrodynamics and optical systems, widely applicable in quantum communication, sensing and error correction. The trainability of such VQCs is less understood, hindered by the lack of theoretical tools such as $t$-design due to the infinite dimension of the physical systems involved. We overcome this difficulty to reveal an energy-dependent barren plateau in such VQCs. The variance of the gradient decays as $1/E^{M\nu}$, exponential in the number of modes $M$ but polynomial in the (per-mode) circuit energy $E$. The exponent $\nu=1$ for shallow circuits and $\nu=2$ for deep circuits. We prove these results for state preparation of general Gaussian states and number states. We also provide numerical evidence that the results extend to general state preparation tasks. As circuit energy is a controllable parameter, we provide a strategy to mitigate the barren plateau in continuous-variable VQCs.
翻訳日:2023-05-04 16:30:19 公開日:2023-05-02
# 周波数ビン符号化多部交絡状態の統合フォトニックソース

Integrated photonic sources of frequency-bin-encoded multipartite entangled states ( http://arxiv.org/abs/2305.01797v1 )

ライセンス: Link先を確認
Milica Banic, J.E. Sipe, Marco Liscidini(参考訳) 統合フォトニックプラットフォームにおける周波数ビン符号化により,真の多部交絡状態が生成できることを実証した。 我々は4光子GHZ状態の源と3光子W状態の源を紹介する。 ミリワットポンプパワーを有するシリコンマイクロリング源において10$^4$ hzのオーダーで発生率を予測する。 これらの結果は、統合構造の汎用性と拡張性と共に、これを高次元およびより大きな絡み合った状態を生成するための有望なアプローチとみなす。

We demonstrate that genuine multipartite entangled states can be generated using frequency bin encoding in integrated photonic platforms. We introduce a source of four-photon GHZ states, and a source of three-photon W states. We predict generation rates on the order of 10$^4$ Hz for a silicon microring source with milliwatt pump powers. These results, along with the versatility and scalability of integrated structures, identify this as a promising approach for the generation of higher-dimensional and larger entangled states.
翻訳日:2023-05-04 16:30:02 公開日:2023-05-02
# デュアルテキスト画像プロンプトによるマルチモーダル手続き計画

Multimodal Procedural Planning via Dual Text-Image Prompting ( http://arxiv.org/abs/2305.01795v1 )

ライセンス: Link先を確認
Yujie Lu, Pan Lu, Zhiyu Chen, Wanrong Zhu, Xin Eric Wang, William Yang Wang(参考訳) エンボディードエージェントは、タスクを完了するための人間の指示に従う際、顕著なパフォーマンスを達成した。 しかし、人間の作業の完了を支援するために、テキストや画像から指示を与える可能性はまだ未定である。 この能力を明らかにするために,マルチモーダル・プロシージャ・プランニング(MPP)タスクを提案する。このタスクでは,モデルに高レベルな目標が与えられ,ペア化されたテキストイメージステップの計画を生成する。 mppの重要な課題は、情報性、時間的コヒーレンス、モダリティ間の計画の正確性を保証することである。 そこで本研究では,大規模言語モデル (llms) におけるゼロショット推論能力と拡散モデルからのテキスト対画像生成能力を同時に活用する,デュアルモダリティプロンシング手法であるtext-image prompting (tip)を提案する。 tipは、テキストから画像へのブリッジと画像からテキストへのブリッジを使用して、2つのモダリティのインタラクションを改善し、llmがテキストによる画像計画生成をガイドし、画像計画の記述を活用してテキストのプランをリバースにグラウンドする。 関連するデータセットの欠如に対処するため,MPPテストベッドとしてWIKIPLANとRECIPEPLANを収集する。 以上の結果から,WIKIPLANとRECIPEPLANでは,情報性,時間的コヒーレンス,計画の正確性の観点から,一様・多様のベースラインに対する人的嗜好や自動スコアが得られた。 コードとデータ: https://github.com/yujielu10/mpp。

Embodied agents have achieved prominent performance in following human instructions to complete tasks. However, the potential of providing instructions informed by texts and images to assist humans in completing tasks remains underexplored. To uncover this capability, we present the multimodal procedural planning (MPP) task, in which models are given a high-level goal and generate plans of paired text-image steps, providing more complementary and informative guidance than unimodal plans. The key challenges of MPP are to ensure the informativeness, temporal coherence,and accuracy of plans across modalities. To tackle this, we propose Text-Image Prompting (TIP), a dual-modality prompting method that jointly leverages zero-shot reasoning ability in large language models (LLMs) and compelling text-to-image generation ability from diffusion-based models. TIP improves the interaction in the dual modalities using Text-to-Image Bridge and Image-to-Text Bridge, allowing LLMs to guide the textual-grounded image plan generation and leveraging the descriptions of image plans to ground the textual plan reversely. To address the lack of relevant datasets, we collect WIKIPLAN and RECIPEPLAN as a testbed for MPP. Our results show compelling human preferences and automatic scores against unimodal and multimodal baselines on WIKIPLAN and RECIPEPLAN in terms of informativeness, temporal coherence, and plan accuracy. Our code and data: https://github.com/YujieLu10/MPP.
翻訳日:2023-05-04 16:29:53 公開日:2023-05-02
# MISNN:半パラメトリックニューラルネットワークによる多重計算

MISNN: Multiple Imputation via Semi-parametric Neural Networks ( http://arxiv.org/abs/2305.01794v1 )

ライセンス: Link先を確認
Zhiqi Bu, Zongyu Dai, Yiliang Zhang, Qi Long(参考訳) 下流データ解析における不適切な推論を避けるため, バイオメディカル, 社会的, エコノメトリー研究の欠落問題に対して, 多重計算(MI)が広く適用されている。 高次元データの存在下では、特に$\ell_1$正規化回帰(Lasso、Adaptive Lasso、Elastic Netなど)を含むインパルスモデルは、モデルが過小評価されるのを防ぐための一般的な選択である。 しかし、機能選択を伴うmiの実行は困難であり、既存の手法はしばしば計算効率が悪く、性能が劣る。 提案するMISNNは,MIの特徴選択を取り入れた,新規で効率的なアルゴリズムである。 ニューラルネットワークの近似能力を活用して、MISNNは汎用的で柔軟なフレームワークであり、あらゆる特徴選択方法、ニューラルネットワークアーキテクチャ、高次元データ、一般的な欠落パターンと互換性がある。 経験的な実験を通じて、MISNNは計算精度、統計的整合性、計算速度の点で最先端の計算法(ベイジアン・ラッソや行列完備化など)に対して大きな利点を示した。

Multiple imputation (MI) has been widely applied to missing value problems in biomedical, social and econometric research, in order to avoid improper inference in the downstream data analysis. In the presence of high-dimensional data, imputation models that include feature selection, especially $\ell_1$ regularized regression (such as Lasso, adaptive Lasso, and Elastic Net), are common choices to prevent the model from underdetermination. However, conducting MI with feature selection is difficult: existing methods are often computationally inefficient and poor in performance. We propose MISNN, a novel and efficient algorithm that incorporates feature selection for MI. Leveraging the approximation power of neural networks, MISNN is a general and flexible framework, compatible with any feature selection method, any neural network architecture, high/low-dimensional data and general missing patterns. Through empirical experiments, MISNN has demonstrated great advantages over state-of-the-art imputation methods (e.g. Bayesian Lasso and matrix completion), in terms of imputation accuracy, statistical consistency and computation speed.
翻訳日:2023-05-04 16:29:23 公開日:2023-05-02
# Vision meets Definitions: Unsupervised Visual Word Sense Disambiguation incorporated Gloss Information

Vision Meets Definitions: Unsupervised Visual Word Sense Disambiguation Incorporating Gloss Information ( http://arxiv.org/abs/2305.01788v1 )

ライセンス: Link先を確認
Sunjae Kwon, Rishabh Garodia, Minhwa Lee, Zhichao Yang, Hong Yu(参考訳) Visual Word Sense Disambiguation (VWSD) は、与えられたコンテキストに対する対象単語の正しい感覚を最も正確に表現した画像を見つけるためのタスクである。 これまで、画像テキストマッチングモデルは多義語認識に苦しめられていた。 本稿では,外部語彙知識ベース,特に感覚定義の光沢情報を用いた教師なしVWSD手法を提案する。 具体的には,解答の感覚情報が提供されない場合に,ベイズ推論を用いて感覚定義を取り入れることを提案する。 さらに,時間外問題(OOD)を改善するために,GPT-3を用いた文脈認識定義生成を提案する。 実験の結果,ベイズ推定法によりVWSDの性能は有意に向上した。 さらに,既存の定義生成手法よりも優れた性能を示すOOD例では,文脈認識による定義生成が顕著な性能向上を実現した。 できるだけ早くソースコードを公開します。

Visual Word Sense Disambiguation (VWSD) is a task to find the image that most accurately depicts the correct sense of the target word for the given context. Previously, image-text matching models often suffered from recognizing polysemous words. This paper introduces an unsupervised VWSD approach that uses gloss information of an external lexical knowledge-base, especially the sense definitions. Specifically, we suggest employing Bayesian inference to incorporate the sense definitions when sense information of the answer is not provided. In addition, to ameliorate the out-of-dictionary (OOD) issue, we propose a context-aware definition generation with GPT-3. Experimental results show that the VWSD performance significantly increased with our Bayesian inference-based approach. In addition, our context-aware definition generation achieved prominent performance improvement in OOD examples exhibiting better performance than the existing definition generation method. We will publish source codes as soon as possible.
翻訳日:2023-05-04 16:28:59 公開日:2023-05-02
# GNOMEに何ができるのか? エキゾチック物理探索のための光磁気センサのグローバルネットワークの探索目標

What can a GNOME do? Search targets for the Global Network of Optical Magnetometers for Exotic physics searches ( http://arxiv.org/abs/2305.01785v1 )

ライセンス: Link先を確認
S. Afach, D. Aybas Tumturk, H. Bekker, B. C. Buchler, D. Budker, K. Cervantes, A. Derevianko, J. Eby, N. L. Figueroa, R. Folman, D. Gavil'an Martin, M. Givon, Z. D. Grujic, H. Guo, P. Hamilton, M. P. Hedges, D. F. Jackson Kimball, S. Khamis, D. Kim, E. Klinger, A. Kryemadhi, X. Liu, G. Lukasiewicz, H. Masia-Roig, M. Padniuk, C. A. Palm, S. Y. Park, H. R. Pearson, X. Peng, M. Pospelov, S. Pustelny, Y. Rosenzweig O. M. Ruimi, T. Scholtes, P. C. Segura, Y. K. Semertzidis, Y. C. Shin, J. A. Smiga, Y. V. Stadnik, J. E. Stalnaker, I. A. Sulai, D. Tandon, K. Vu, A. Weis, A. Wickenbrock, T. Z. Wilson, T. Wu, W. Xiao, Y. Yang, D. Yu, F. Yu, J. Zhang, and Y. Zhao(参考訳) 多くの観測により、標準モデル粒子と磁場が発見されていないことが示唆されている。 その性質が不明であるため、これらのエキゾチック粒子と磁場は様々な方法で標準模型粒子と相互作用し、様々な可能な構成を仮定することができる。 本稿では,エキゾチック物理学の幅広いシナリオをテストするための実験プログラムであるGNOME(Global Network of Optical magnetometers for Exotic Physics Search)の概要を紹介する。 GNOME実験は、シールドされた原子磁気センサ(そして最近ではコマグネトメーター)の世界的なネットワークを利用して、宇宙物理学起源の異種磁場からの原子スピンのトルクによる空間的および時間的に相関した信号を探す。 我々は,現在検討中であるトポロジカル欠陥暗黒物質(Xion様粒子領域の壁),アクシオン様粒子星,複雑な値を持つスカラー場(Q-ボール)のソリトン,ボソニック暗黒物質場の確率的変動,太陽軸状粒子ハロ,二元ブラックホールの融合などの破滅的な天体物理現象によって生じる超軽量のボソニック場のバーストなど,様々な可能性のある信号の時間的特性を調査した。

Numerous observations suggest that there exist undiscovered beyond-the-Standard-Model particles and fields. Because of their unknown nature, these exotic particles and fields could interact with Standard Model particles in many different ways and assume a variety of possible configurations. Here we present an overview of the Global Network of Optical Magnetometers for Exotic physics searches (GNOME), our ongoing experimental program designed to test a wide range of exotic physics scenarios. The GNOME experiment utilizes a worldwide network of shielded atomic magnetometers (and, more recently, comagnetometers) to search for spatially and temporally correlated signals due to torques on atomic spins from exotic fields of astrophysical origin. We survey the temporal characteristics of a variety of possible signals currently under investigation such as those from topological defect dark matter (axion-like particle domain walls), axion-like particle stars, solitons of complex-valued scalar fields (Q-balls), stochastic fluctuations of bosonic dark matter fields, a solar axion-like particle halo, and bursts of ultralight bosonic fields produced by cataclysmic astrophysical events such as binary black hole mergers.
翻訳日:2023-05-04 16:28:45 公開日:2023-05-02
# 大規模脳画像研究のための異種脳MRI画像の皮質解析

Cortical analysis of heterogeneous clinical brain MRI scans for large-scale neuroimaging studies ( http://arxiv.org/abs/2305.01827v1 )

ライセンス: Link先を確認
Karthik Gopinath, Douglas N. Greve, Sudeshna Das, Steve Arnold, Colin Magdamo, and Juan Eugenio Iglesias(参考訳) 皮質の表面分析は、例えば、皮質登録、パーセル化、厚さ推定などのMRIによるヒト神経画像においてユビキタスである。 畳み込んだ皮質形状は、等方性スキャン(1mmのmpragなど)と良好な灰白質コントラストを必要とする。 これは臨床目的で取得されたほとんどの脳MRIスキャンの分析を妨げる。 このようなスキャンを分析することで、現在の研究データセットでは達成できないサンプルサイズの神経画像の研究が可能になる。 そこで本研究では,脳mri画像の分解能およびパルスシーケンスにおける皮質再構成,登録,小胞体化,厚み推定のための第1の方法を提案する。 このメソッドは学習コンポーネントと古典的な最適化モジュールを備えている。 前者は、パルスシーケンスと入力の解像度とは無関係に、1mmの等方性でホワイトマターとピアル表面(符号付き距離関数)の暗黙的な表現を予測するcnnを訓練するためにドメインランダム化を用いる。 後者は幾何処理を用いて表面を正確な位相的制約と幾何的制約を満足させ、既存の手法によるその後のパーセレーションと厚さ推定を可能にする。 今回,ADNIの5mm軸FLAIRスキャンと5,000スキャンを用いた高度不均一な臨床データセットについて報告する。 コードとデータはhttps://surfer.nmr.mgh.harvard.edu/fswiki/recon-all-clinicalで公開されている。

Surface analysis of the cortex is ubiquitous in human neuroimaging with MRI, e.g., for cortical registration, parcellation, or thickness estimation. The convoluted cortical geometry requires isotropic scans (e.g., 1mm MPRAGEs) and good gray-white matter contrast for 3D reconstruction. This precludes the analysis of most brain MRI scans acquired for clinical purposes. Analyzing such scans would enable neuroimaging studies with sample sizes that cannot be achieved with current research datasets, particularly for underrepresented populations and rare diseases. Here we present the first method for cortical reconstruction, registration, parcellation, and thickness estimation for clinical brain MRI scans of any resolution and pulse sequence. The methods has a learning component and a classical optimization module. The former uses domain randomization to train a CNN that predicts an implicit representation of the white matter and pial surfaces (a signed distance function) at 1mm isotropic resolution, independently of the pulse sequence and resolution of the input. The latter uses geometry processing to place the surfaces while accurately satisfying topological and geometric constraints, thus enabling subsequent parcellation and thickness estimation with existing methods. We present results on 5mm axial FLAIR scans from ADNI and on a highly heterogeneous clinical dataset with 5,000 scans. Code and data are publicly available at https://surfer.nmr.mgh.harvard.edu/fswiki/recon-all-clinical
翻訳日:2023-05-04 16:21:05 公開日:2023-05-02
# 信頼できないクラウドベースの量子ハードウェアを用いた信頼できる計算

Trustworthy Computing using Untrusted Cloud-Based Quantum Hardware ( http://arxiv.org/abs/2305.01826v1 )

ライセンス: Link先を確認
Suryansh Upadhyay, Rasit Onur Topaloglu, Swaroop Ghosh(参考訳) セキュリティと信頼性は、量子コンピューティングを含むあらゆるコンピューティングパラダイムの主要な関心事である。 現在ユーザーはクラウドベースのプラットフォームを通じて量子コンピュータにアクセスでき、量子コンピュータのスイート上でプログラムを実行することができる。 量子コンピューティングエコシステムの人気とユーティリティが高まるにつれて、信頼できない、信頼できない、信頼できないベンダーを含む多くの企業が、さまざまな価格やパフォーマンスの点で、サービスとして量子コンピュータをハードウェアとして提供し始めることを期待するのは理にかなっている。 量子ハードウェアの計算時間は高価であり、アクセスキューは長くかかる可能性があるため、ユーザは安価で容易に利用できるが信頼性の低いハードウェアを使う動機がある。 信頼性の低いベンダーは、ユーザーに最適なソリューションを提供する結果に改ざんすることができる。 本稿では,この相反的改ざんをモデル化し,その影響を多数の純粋量子およびハイブリッド量子古典的ワークロードにシミュレートする。 信頼できないハードウェアと信頼できないハードウェアの混合に対する信頼性の高い計算を保証するため、様々なハードウェアオプションの合計ショット数を等しく分配することを提案する。 平均すると、純粋な量子ワークロードに対する近似30Xと近似1.5Xの改善と、選択された品質指標におけるハイブリッド古典アルゴリズムに対する近似5Xの最大化に留意する。 また,ハードウェア品質の時間的変動をユーザに提供するインテリジェントラン適応スプリットヒューリスティックを提案する。これにより,実行時に改ざんされた,あるいは信頼できないハードウェアを特定し,信頼性の高いハードウェアにより多くのショットを割り当てることで,純量子ワークロード全体で約190倍,約9倍,ハイブリッド古典アルゴリズムでは最大2.5倍の改善を実現する。

Security and reliability are primary concerns in any computing paradigm including quantum computing. Currently users can access quantum computers through a cloud based platform where they can run their programs on a suite of quantum computers. As the quantum computing ecosystem grows in popularity and utility it is reasonable to expect that more companies including untrusted or less trusted or unreliable vendors will begin offering quantum computers as hardware as a service at varied price or performance points. Since computing time on quantum hardware is expensive and the access queue could be long the users will be motivated to use the cheaper and readily available but unreliable or less trusted hardware. The less trusted vendors can tamper with the results providing a suboptimal solution to the user. In this paper we model this adversarial tampering and simulate its impact on a number of pure quantum and hybrid quantum classical workloads. To guarantee trustworthy computing for a mixture of trusted and untrusted hardware we propose distributing the total number of shots equally among the various hardware options. On average we note approx 30X and approx 1.5X improvement across the pure quantum workloads and a maximum improvement of approx 5X for hybrid classical algorithm in the chosen quality metrics. We also propose an intelligent run adaptive split heuristic leveraging temporal variation in hardware quality to users advantage allowing them to identify tampered or untrustworthy hardware at runtime and allocate more number of shots to the reliable hardware which results in a maximum improvement of approx 190X and approx 9X across the pure quantum workloads and an improvement of up to approx 2.5X for hybrid classical algorithm.
翻訳日:2023-05-04 16:20:39 公開日:2023-05-02
# ロバストな昆虫分類のための分散検出アルゴリズム

Out-of-distribution detection algorithms for robust insect classification ( http://arxiv.org/abs/2305.01823v1 )

ライセンス: Link先を確認
Mojdeh Saadati, Aditya Balu, Shivani Chiranjeevi, Talukder Zaki Jubery, Asheesh K Singh, Soumik Sarkar, Arti Singh, Baskar Ganapathysubramanian(参考訳) 深層学習に基づくアプローチは昆虫の分類精度に優れたモデルを生み出している。 研究者の第一の重点は、実際の農業分野における識別と分類モデルを実装することであるが、これは、分布から大きく外れた入力画像(例えば、車、動物、人間、またはまだ訓練されていない昆虫や昆虫のぼやけた画像)が、間違った昆虫分類を生み出す可能性があるためである。 アウト・オブ・ディストリビューション(OOD)検出アルゴリズムは、モデルが非昆虫または/または未訓練の昆虫分類画像の誤った分類予測をしないことを保証するため、これらの課題を克服するためのエキサイティングな手段を提供する。 昆虫検出分類器における最先端OODアルゴリズムの性能評価を行った。 これらのアルゴリズムは、OOD問題に対処する手法の多様性を表す。 具体的には、余分なコトレーニングを必要とせずに、よく訓練された分類器を包むアルゴリズムであるエクストルーシブアルゴリズムに焦点を当てる。 3つのood検出アルゴリズムを比較しました (i)最大ソフトマックス確率は、ソフトマックス値を信頼度スコアとして用いる。 (ii)生成的分類アプローチを用いたマハラノビス距離に基づくアルゴリズム (iii)エネルギと呼ばれる入力データをスカラー値にマッピングするエネルギベースアルゴリズム。 我々は,これらoodアルゴリズムの3つの性能軸にわたる広範囲な評価を行った。 (a) \textit{Base model accuracy}: 分類器の精度はOODのパフォーマンスにどのように影響しますか? b) <textit{level of dissimilarity to the domain} は OOD のパフォーマンスにどのように影響しますか? そして c) \textit{data imbalance}: oodのパフォーマンスはクラス毎のサンプルサイズの不均衡にどの程度敏感か?

Deep learning-based approaches have produced models with good insect classification accuracy; Most of these models are conducive for application in controlled environmental conditions. One of the primary emphasis of researchers is to implement identification and classification models in the real agriculture fields, which is challenging because input images that are wildly out of the distribution (e.g., images like vehicles, animals, humans, or a blurred image of an insect or insect class that is not yet trained on) can produce an incorrect insect classification. Out-of-distribution (OOD) detection algorithms provide an exciting avenue to overcome these challenge as it ensures that a model abstains from making incorrect classification prediction of non-insect and/or untrained insect class images. We generate and evaluate the performance of state-of-the-art OOD algorithms on insect detection classifiers. These algorithms represent a diversity of methods for addressing an OOD problem. Specifically, we focus on extrusive algorithms, i.e., algorithms that wrap around a well-trained classifier without the need for additional co-training. We compared three OOD detection algorithms: (i) Maximum Softmax Probability, which uses the softmax value as a confidence score, (ii) Mahalanobis distance-based algorithm, which uses a generative classification approach; and (iii) Energy-Based algorithm that maps the input data to a scalar value, called energy. We performed an extensive series of evaluations of these OOD algorithms across three performance axes: (a) \textit{Base model accuracy}: How does the accuracy of the classifier impact OOD performance? (b) How does the \textit{level of dissimilarity to the domain} impact OOD performance? and (c) \textit{Data imbalance}: How sensitive is OOD performance to the imbalance in per-class sample size?
翻訳日:2023-05-04 16:19:55 公開日:2023-05-02
# 拡散ブリッジによる流体流れの非対流下降

Unpaired Downscaling of Fluid Flows with Diffusion Bridges ( http://arxiv.org/abs/2305.01822v1 )

ライセンス: Link先を確認
Tobias Bischoff and Katherine Deck(参考訳) 本稿では,拡散マップに基づく生成モデルを用いて,理想的な物理流体シミュレーションをダウンスケールする手法を提案する。 異なるデータ分布から描画された画像のフーリエスペクトルを解析することにより, 2つの独立条件拡散モデルを結合し, ドメイン変換に用いる方法を示す。 結果として得られた変換は、低解像度と高解像度データセットの間の拡散ブリッジであり、特定の低解像度特徴を与えられた高解像度画像の新しいサンプル生成を可能にする。 新しいサンプルを生成する能力は、追加のキャリブレーションやトレーニングなしで、興味のある統計の計算を可能にする。 この柔軟性により、追加のトレーニングなしで複数のソースとターゲットドメインを組み合わせることが可能になります。 本手法は,極端事象を含む物理流体シミュレーションにおいて,分解能を高め,文脈依存バイアスを補正する。 我々は,各アプリケーションに新しいモデルをトレーニングし,計算コストの大幅な削減を行うことなく,気温や降水場を含む気候シミュレーションのアウトプットをダウンスケールするために,同じ手法が使用できることを予測している。

We present a method to downscale idealized geophysical fluid simulations using generative models based on diffusion maps. By analyzing the Fourier spectra of images drawn from different data distributions, we show how one can chain together two independent conditional diffusion models for use in domain translation. The resulting transformation is a diffusion bridge between a low resolution and a high resolution dataset and allows for new sample generation of high-resolution images given specific low resolution features. The ability to generate new samples allows for the computation of any statistic of interest, without any additional calibration or training. Our unsupervised setup is also designed to downscale images without access to paired training data; this flexibility allows for the combination of multiple source and target domains without additional training. We demonstrate that the method enhances resolution and corrects context-dependent biases in geophysical fluid simulations, including in extreme events. We anticipate that the same method can be used to downscale the output of climate simulations, including temperature and precipitation fields, without needing to train a new model for each application and providing a significant computational cost savings.
翻訳日:2023-05-04 16:19:18 公開日:2023-05-02
# 多状態合成のための数値回路合成とコンパイル

Numerical circuit synthesis and compilation for multi-state preparation ( http://arxiv.org/abs/2305.01816v1 )

ライセンス: Link先を確認
Aaron Szasz, Ed Younis, Wibe de Jong(参考訳) 短期量子コンピュータは大きなエラー率と短いコヒーレンス時間を持っているため、回路のコンパイルは可能な限り短いことが不可欠である。 一般に2種類のコンパイル問題が考慮される:「状態準備」と呼ばれる固定入力状態から所定の状態を準備する回路と、例えば「ユニタリ合成」によって与えられたユニタリ操作を実装する回路である。 本稿では、より一般的な問題、すなわち、$m$状態のセットから$m$状態の別のセットへの変換を解決します。 状態準備とユニタリ合成は特別な場合であり、状態準備では$m=1$、ユニタリ合成では$m$はヒルベルト空間全体の次元である。 複数状態準備のための回路を数値的に生成・最適化する。 行列分解に基づくトップダウンアプローチも可能である場合には、実質的に(最大40%)少ない2量子ビットゲートを持つ回路を見つける。 我々は、マクロな重ね合わせ(cat)状態の効率的な調製や量子チャネルの合成など、応用の可能性について議論する。

Near-term quantum computers have significant error rates and short coherence times, so compilation of circuits to be as short as possible is essential. Two types of compilation problems are typically considered: circuits to prepare a given state from a fixed input state, called "state preparation"; and circuits to implement a given unitary operation, for example by "unitary synthesis". In this paper we solve a more general problem: the transformation of a set of $m$ states to another set of $m$ states, which we call "multi-state preparation". State preparation and unitary synthesis are special cases; for state preparation, $m=1$, while for unitary synthesis, $m$ is the dimension of the full Hilbert space. We generate and optimize circuits for multi-state preparation numerically. In cases where a top-down approach based on matrix decompositions is also possible, our method finds circuits with substantially (up to 40%) fewer two-qubit gates. We discuss possible applications, including efficient preparation of macroscopic superposition ("cat") states and synthesis of quantum channels.
翻訳日:2023-05-04 16:18:50 公開日:2023-05-02
# 棄権後:QAにおける確固たるインスタンスの再試行に向けて

Post-Abstention: Towards Reliably Re-Attempting the Abstained Instances in QA ( http://arxiv.org/abs/2305.01812v1 )

ライセンス: Link先を確認
Neeraj Varshney and Chitta Baral(参考訳) 自然言語処理における顕著な進歩にもかかわらず、最先端モデルでさえしばしば誤った予測を行う。 このような予測はシステムの信頼性を阻害し、現実世界のアプリケーションで広く採用されるのを制限する。 selective prediction'は、モデルが予測が間違っていた場合の応答を回避可能にすることで、上記の懸念に部分的に対処している。 選択予測は有利であるが、「棄権後に何をすべきか」という関連する疑問が残る。 そこで,本研究では,その「正確性」を損なうことなく,システムの「被覆」を増大させる目的で,棄却されたインスタンスの再対応を可能にするタスクである「後吸収」に関する探索的な研究を行う。 まず,この課題の数学的定式化を行い,その解法をいくつか検討する。 11のqaデータセットに関する包括的な実験は、これらの手法がドメイン内およびドメイン外の設定の両方において、かなりのリスク改善をもたらすことを示している。 また、これらの結果を徹底的に分析し、さらにいくつかの興味深い結果をもたらす。 最後に,我々の研究は,nlpシステムの信頼性に取り組む上で,この重要な領域におけるさらなる研究を奨励し,促進すると信じている。

Despite remarkable progress made in natural language processing, even the state-of-the-art models often make incorrect predictions. Such predictions hamper the reliability of systems and limit their widespread adoption in real-world applications. 'Selective prediction' partly addresses the above concern by enabling models to abstain from answering when their predictions are likely to be incorrect. While selective prediction is advantageous, it leaves us with a pertinent question 'what to do after abstention'. To this end, we present an explorative study on 'Post-Abstention', a task that allows re-attempting the abstained instances with the aim of increasing 'coverage' of the system without significantly sacrificing its 'accuracy'. We first provide mathematical formulation of this task and then explore several methods to solve it. Comprehensive experiments on 11 QA datasets show that these methods lead to considerable risk improvements -- performance metric of the Post-Abstention task -- both in the in-domain and the out-of-domain settings. We also conduct a thorough analysis of these results which further leads to several interesting findings. Finally, we believe that our work will encourage and facilitate further research in this important area of addressing the reliability of NLP systems.
翻訳日:2023-05-04 16:18:31 公開日:2023-05-02
# CALM:ディレクタブル仮想キャラクタのための条件付き逆ラテントモデル

CALM: Conditional Adversarial Latent Models for Directable Virtual Characters ( http://arxiv.org/abs/2305.02195v1 )

ライセンス: Link先を確認
Chen Tessler, Yoni Kasten, Yunrong Guo, Shie Mannor, Gal Chechik, Xue Bin Peng(参考訳) 本研究では,ユーザが制御するインタラクティブな仮想キャラクタに対して,多種多様なディレクティブな振る舞いを生成する手法であるCALM(Conditional Adversarial Latent Models)を提案する。 模倣学習を用いて、CALMは人間の動きの複雑さと多様性を捉える動きの表現を学び、キャラクターの動きを直接制御できる。 このアプローチは、与えられた動きの重要な特性を単に複製することなく再構築する制御ポリシーとモーションエンコーダとを共同で学習する。 その結果,calmは意味的動作表現を学習し,生成した動作の制御と高レベルタスクトレーニングのためのスタイルコンディショニングを可能にした。 訓練されたキャラクターは、ビデオゲームで見られるような直感的なインターフェースを使って制御できる。

In this work, we present Conditional Adversarial Latent Models (CALM), an approach for generating diverse and directable behaviors for user-controlled interactive virtual characters. Using imitation learning, CALM learns a representation of movement that captures the complexity and diversity of human motion, and enables direct control over character movements. The approach jointly learns a control policy and a motion encoder that reconstructs key characteristics of a given motion without merely replicating it. The results show that CALM learns a semantic motion representation, enabling control over the generated motions and style-conditioning for higher-level task training. Once trained, the character can be controlled using intuitive interfaces, akin to those found in video games.
翻訳日:2023-05-04 14:28:05 公開日:2023-05-02
# 構造コネクトーム分類のためのマルチヘッドグラフ畳み込みネットワーク

Multi-Head Graph Convolutional Network for Structural Connectome Classification ( http://arxiv.org/abs/2305.02199v1 )

ライセンス: Link先を確認
Anees Kazi, Jocelyn Mora, Bruce Fischl, Adrian V. Dalca, and Iman Aganj(参考訳) 拡散磁気共鳴画像から得られる脳の接続性に基づく分類に取り組む。 本稿では,複数の頭部を持つ並列gcn機構を用いて,脳接続入力グラフを別々に処理するグラフ畳み込みネットワーク(gcns)に触発された機械学習モデルを提案する。 提案するネットワークは,エッジとノードに着目したグラフ畳み込みを含む異なるヘッドを用いたシンプルな設計であり,入力データからの表現を徹底的にキャプチャする。 脳接続データから補完的特徴と代表的特徴を抽出する能力をテストするため,私たちは性分類の課題を選択した。 これは、コネクトームが性によって変化する程度を定量化し、両方の性における健康と病気の理解を改善するのに重要である。 公開データセットであるPreVENT-AD(347名)とOASIS3(771名)について実験を行った。 提案モデルでは,古典的手法や(グラフおよび非グラフ)深層学習を含む既存の機械学習アルゴリズムと比較して高い性能を示す。 モデルの各コンポーネントについて詳細な分析を行う。

We tackle classification based on brain connectivity derived from diffusion magnetic resonance images. We propose a machine-learning model inspired by graph convolutional networks (GCNs), which takes a brain connectivity input graph and processes the data separately through a parallel GCN mechanism with multiple heads. The proposed network is a simple design that employs different heads involving graph convolutions focused on edges and nodes, capturing representations from the input data thoroughly. To test the ability of our model to extract complementary and representative features from brain connectivity data, we chose the task of sex classification. This quantifies the degree to which the connectome varies depending on the sex, which is important for improving our understanding of health and disease in both sexes. We show experiments on two publicly available datasets: PREVENT-AD (347 subjects) and OASIS3 (771 subjects). The proposed model demonstrates the highest performance compared to the existing machine-learning algorithms we tested, including classical methods and (graph and non-graph) deep learning. We provide a detailed analysis of each component of our model.
翻訳日:2023-05-04 14:16:22 公開日:2023-05-02
# 信頼できる人工知能でDotを接続する:AI原則、倫理、そして責任あるAIシステムと規制への重要な要件から

Connecting the Dots in Trustworthy Artificial Intelligence: From AI Principles, Ethics, and Key Requirements to Responsible AI Systems and Regulation ( http://arxiv.org/abs/2305.02231v1 )

ライセンス: Link先を確認
Natalia D\'iaz-Rodr\'iguez, Javier Del Ser, Mark Coeckelbergh, Marcos L\'opez de Prado, Enrique Herrera-Viedma, Francisco Herrera(参考訳) 信頼できる人工知能(AI)は、(1)法的、(2)倫理的、(3)堅牢でなければならない、技術的、社会的な観点から、システムのライフサイクル全体を通して満たすべき3つの主要な柱に持続する7つの技術的要件に基づいている。 しかし、真に信頼できるAIを達成することは、システムのライフサイクルの一部であるすべてのプロセスとアクターの信頼性を含むより広いビジョンを懸念し、異なるレンズから以前の側面を考察する。 AIベースのシステムの倫理的利用と開発のためのグローバルな原則、AI倫理に対する哲学的な見解、AI規制に対するリスクベースのアプローチ、そして前述の柱と要件である。 7つの要件(人間機関と監督、堅牢性と安全性、プライバシとデータガバナンス、透明性、多様性、非差別性と公正性、社会的および環境の健全性、説明責任)は、3つの視点から分析される。 一方、信頼できるAIシステムを実装するための実践的なアプローチは、所定の監査プロセスを通じて、法に直面するAIベースのシステムの責任の概念を定義することを可能にする。 したがって、責任あるAIシステムは、我々が本研究で導入した概念であり、規制サンドボックスの使用によって引き起こされる課題に対して、監査プロセスを通じて実現可能な最も必要な概念である。 信頼できるAIに関する多分野のビジョンにも規制に関する議論が含まれており、社会の現在と将来の進歩において、この重要な分野の入り口としての役割を担っている。

Trustworthy Artificial Intelligence (AI) is based on seven technical requirements sustained over three main pillars that should be met throughout the system's entire life cycle: it should be (1) lawful, (2) ethical, and (3) robust, both from a technical and a social perspective. However, attaining truly trustworthy AI concerns a wider vision that comprises the trustworthiness of all processes and actors that are part of the system's life cycle, and considers previous aspects from different lenses. A more holistic vision contemplates four essential axes: the global principles for ethical use and development of AI-based systems, a philosophical take on AI ethics, a risk-based approach to AI regulation, and the mentioned pillars and requirements. The seven requirements (human agency and oversight; robustness and safety; privacy and data governance; transparency; diversity, non-discrimination and fairness; societal and environmental wellbeing; and accountability) are analyzed from a triple perspective: What each requirement for trustworthy AI is, Why it is needed, and How each requirement can be implemented in practice. On the other hand, a practical approach to implement trustworthy AI systems allows defining the concept of responsibility of AI-based systems facing the law, through a given auditing process. Therefore, a responsible AI system is the resulting notion we introduce in this work, and a concept of utmost necessity that can be realized through auditing processes, subject to the challenges posed by the use of regulatory sandboxes. Our multidisciplinary vision of trustworthy AI also includes a regulation debate, with the purpose of serving as an entry point to this crucial field in the present and future progress of our society.
翻訳日:2023-05-04 14:07:39 公開日:2023-05-02
# CryCeleb:幼児のCry音に基づく話者検証データセット

CryCeleb: A Speaker Verification Dataset Based on Infant Cry Sounds ( http://arxiv.org/abs/2305.00969v2 )

ライセンス: Link先を確認
David Budaghyan, Arsenii Gorin, Cem Subakan, Charles C. Onu(参考訳) 本稿では,乳幼児の叫び声をラベル付けしたUbenwa CryCelebデータセットと,乳幼児の泣き声に基づく公的な話者検証課題であるCryCeleb 2023タスクについて述べる。 乳児の泣き声解析研究を促進するため,786人の新生児から6時間以上手作業で泣き声を分割した。

This paper describes the Ubenwa CryCeleb dataset - a labeled collection of infant cries, and the accompanying CryCeleb 2023 task - a public speaker verification challenge based on infant cry sounds. We release for academic usage more than 6 hours of manually segmented cry sounds from 786 newborns to encourage research in infant cry analysis.
翻訳日:2023-05-04 11:22:46 公開日:2023-05-02
# ワグナー潰瘍分類システムのリアルタイム検出と解析のための深層学習法

Deep Learning Methods for Real-time Detection and Analysis of Wagner Ulcer Classification System ( http://arxiv.org/abs/2006.02322v3 )

ライセンス: Link先を確認
Aifu Han, Yongze Zhang, Ajuan Li, Changjin Li, Fengying Zhao, Qiujie Dong, Qin Liu, Yanting Liu, Ximei Shen, Sunjie Yan and Shengzong Zhou(参考訳) 糖尿病性足の重症度を診断するためのユビキタス法(英語版)(ユビキタス法)はプロのポディアトリストに依存する。 しかし、ほとんどの場合、プロのポジトリストは、特に発展途上国や地域において重労働を負っており、DF患者が急速に増加する治療のニーズを満たすには不十分なポジトリストが存在する。 血液透析患者の作業負荷の一部を軽減し,DF患者にタイムリーな情報を提供するために,DFの診断を支援する医療システムを開発する必要がある。 本稿では,糖尿病性足のワグナー潰瘍をリアルタイムで分類・特定するシステムを開発した。 まず,アノテーション付き糖尿病足2688例のデータセットを提案する。 そこで本研究では,糖尿病性足の潰瘍をリアルタイムかつ正確に検出するために,画像融合,ラベル平滑化,変種学習率モード技術と組み合わせたYOLOv3アルゴリズムを用いて,元のアルゴリズムの堅牢性と予測精度を向上させる。 最後に, YOLOv3の改良をAndroidスマートフォンに展開し, 糖尿病足のクラスと位置をリアルタイムで予測するアルゴリズムとして用いた。 実験の結果,改良されたYOLOv3アルゴリズムは91.95%のmAPを実現し,スマートフォンなどのモバイルデバイス上での糖尿病性フットワグナー潰瘍のリアルタイム検出と解析の必要性を満たすことがわかった。 本研究は, 今後DFの臨床治療のパラダイムシフトにつながる可能性があり, DF組織解析と治癒状態に対する効果的な医療ソリューションを提供する。

At present, the ubiquity method to diagnose the severity of diabetic feet (DF) depends on professional podiatrists. However, in most cases, professional podiatrists have a heavy workload, especially in underdeveloped and developing countries and regions, and there are often insufficient podiatrists to meet the rapidly growing treatment needs of DF patients. It is necessary to develop a medical system that assists in diagnosing DF in order to reduce part of the workload for podiatrists and to provide timely relevant information to patients with DF. In this paper, we have developed a system that can classify and locate Wagner ulcers of diabetic foot in real-time. First, we proposed a dataset of 2688 diabetic feet with annotations. Then, in order to enable the system to detect diabetic foot ulcers in real time and accurately, this paper is based on the YOLOv3 algorithm coupled with image fusion, label smoothing, and variant learning rate mode technologies to improve the robustness and predictive accuracy of the original algorithm. Finally, the refinements on YOLOv3 was used as the optimal algorithm in this paper to deploy into Android smartphone to predict the classes and localization of the diabetic foot with real-time. The experimental results validate that the improved YOLOv3 algorithm achieves a mAP of 91.95%, and meets the needs of real-time detection and analysis of diabetic foot Wagner Ulcer on mobile devices, such as smart phones. This work has the potential to lead to a paradigm shift for clinical treatment of the DF in the future, to provide an effective healthcare solution for DF tissue analysis and healing status.
翻訳日:2023-05-03 18:49:44 公開日:2023-05-02
# Word Embeddings: 調査

Word Embeddings: A Survey ( http://arxiv.org/abs/1901.09069v2 )

ライセンス: Link先を確認
Felipe Almeida and Geraldo Xex\'eo(参考訳) 本研究は, 分布仮説に基づいて, 単語の固定長, 高密度, 分散表現を構築するための最近の戦略をリストアップし, 解説する。 これらの表現は一般に単語埋め込みと呼ばれ、驚くほど優れた構文や意味情報をエンコーディングするだけでなく、多くの下流のnlpタスクで追加の機能として有用であることが証明されている。

This work lists and describes the main recent strategies for building fixed-length, dense and distributed representations for words, based on the distributional hypothesis. These representations are now commonly called word embeddings and, in addition to encoding surprisingly good syntactic and semantic information, have been proven useful as extra features in many downstream NLP tasks.
翻訳日:2023-05-03 18:49:16 公開日:2023-05-02
# 2つの時間スケール更新ルールを持つ生成逆数ネットワークのトレーニングのための臨界バッチサイズの存在と推定

Existence and Estimation of Critical Batch Size for Training Generative Adversarial Networks with Two Time-Scale Update Rule ( http://arxiv.org/abs/2201.11989v2 )

ライセンス: Link先を確認
Naoki Sato and Hideaki Iiduka(参考訳) 従来,2つの時間スケール更新規則(TTUR)は,異なる学習率,あるいは異なる減衰率などの異なる学習速度を用いて,理論上,実際に生成的敵ネットワーク(GAN)を訓練するのに有用であった。 さらに, 学習速度だけでなく, バッチサイズも, TTURを用いたGANの訓練において重要であり, どちらも訓練に必要なステップ数に影響を与える。 本稿では,一定の学習率に基づいて,バッチサイズとGANをTTURで訓練するために必要なステップ数との関係について検討する。 理論的には、一定の学習率を持つTTURの場合、判別器とジェネレータの両方の損失関数の定常点を見つけるために必要なステップの数は、バッチサイズが大きくなるにつれて減少し、確率的一階オラクル(SFO)の複雑さを最小化する臨界バッチサイズが存在することを示す。 次に、Fr'echet開始距離(FID)をトレーニングのパフォーマンス指標とし、バッチサイズが大きくなるにつれて、低いFIDスコアを達成するために必要なステップの数が減少し、バッチサイズが測定されたクリティカルバッチサイズを超えると、SFOの複雑さが増加することを示す数値結果を提供する。 さらに, 評価された臨界バッチサイズは, 理論結果から推定したサイズに近いことがわかった。

Previous results have shown that a two time-scale update rule (TTUR) using different learning rates, such as different constant rates or different decaying rates, is useful for training generative adversarial networks (GANs) in theory and in practice. Moreover, not only the learning rate but also the batch size is important for training GANs with TTURs and they both affect the number of steps needed for training. This paper studies the relationship between batch size and the number of steps needed for training GANs with TTURs based on constant learning rates. We theoretically show that, for a TTUR with constant learning rates, the number of steps needed to find stationary points of the loss functions of both the discriminator and generator decreases as the batch size increases and that there exists a critical batch size minimizing the stochastic first-order oracle (SFO) complexity. Then, we use the Fr'echet inception distance (FID) as the performance measure for training and provide numerical results indicating that the number of steps needed to achieve a low FID score decreases as the batch size increases and that the SFO complexity increases once the batch size exceeds the measured critical batch size. Moreover, we show that measured critical batch sizes are close to the sizes estimated from our theoretical results.
翻訳日:2023-05-03 18:34:52 公開日:2023-05-02
# 境界量子ストレージモデルからのデバイス非依存光移動と計算的推定

Device-Independent Oblivious Transfer from the Bounded-Quantum-Storage-Model and Computational Assumptions ( http://arxiv.org/abs/2111.08595v2 )

ライセンス: Link先を確認
Anne Broadbent, Peter Yuen(参考訳) 本稿では,diot(oblivious transfer)のためのデバイス非依存プロトコルを提案し,そのセキュリティを,受信機の量子ストレージがプロトコル実行中にバウンドであり,各ラウンドにおいてデバイスが独立かつ同一に振る舞うことを前提として解析する。 さらに、各デバイスコンポーネントに対して、測定ベースの選択に対応する入力と、その結果の出力とが、そのコンポーネントを保持する相手とのみ通信されるように要求する。 私たちのプロトコルは、常に安全であり、従来のdiotプロトコルと比較して、ベルの不等式違反を使用するプロトコルから典型的に生じる非通信の前提について、厳格さは低く、代わりに、デバイス独立性は、量子後計算仮定を用いた単一の(量子)デバイスの自己テストのためのプロトコルによってもたらされます。

We present a device-independent protocol for oblivious transfer (DIOT) and analyze its security under the assumption that the receiver's quantum storage is bounded during protocol execution and that the device behaves independently and identically in each round. We additionally require that, for each device component, the input corresponding to the choice of measurement basis, and the resulting output, is communicated only with the party holding that component. Our protocol is everlastingly secure and, compared to previous DIOT protocols, it is less strict about the non-communication assumptions that are typical from protocols that use Bell inequality violations; instead, the device-independence comes from a protocol for self-testing of a single (quantum) device which makes use of a post-quantum computational assumption.
翻訳日:2023-05-03 18:34:28 公開日:2023-05-02
# 連続音響チャネルを用いたマルチエージェント通信による会話・聞き取り学習に向けて

Towards Learning to Speak and Hear Through Multi-Agent Communication over a Continuous Acoustic Channel ( http://arxiv.org/abs/2111.02827v2 )

ライセンス: Link先を確認
Kevin Eloff, Okko R\"as\"anen, Herman A. Engelbrecht, Arnu Pretorius, Herman Kamper(参考訳) エージェント間の創発的コミュニケーションを研究する手段として,マルチエージェント強化学習が用いられているが,連続的な音響コミュニケーションにはほとんど焦点が当てられていない。 これは人間の言語習得に似ており、人間の幼児は介護者との連続的なシグナルを通じて言語を多く取得する。 私たちは、継続的なコミュニケーションチャネルを持つエージェント間の緊急言語を観察できますか? 我々のゴールは、人間とエージェントのコミュニケーションのギャップを埋め、連続的な信号の分析、それらがどのように出現するか、その特徴、そしてそれらが人間の言語獲得とどのように関係しているか、を行えるプラットフォームを提供することです。 本稿では,話者エージェントが雑音の多い音響チャンネル上でリスナーに属性セットを伝達する必要があるメッセージング環境を提案する。 DQN を用いてエージェントを訓練すると,(1) 個別の場合とは異なり,音響話者はリスナーのコヒーレンシー向上のために冗長性を学習し,(2) ノイズチャネル上の伝達誤差を暗黙的に補償する構成的通信プロトコルを開発し,(3) DQN はREINFORCE を用いて最適化された手法と比較して,性能向上と構成性の向上を図っている。

Multi-agent reinforcement learning has been used as an effective means to study emergent communication between agents, yet little focus has been given to continuous acoustic communication. This would be more akin to human language acquisition; human infants acquire language in large part through continuous signalling with their caregivers. We therefore ask: Are we able to observe emergent language between agents with a continuous communication channel? Our goal is to provide a platform to begin bridging the gap between human and agent communication, allowing us to analyse continuous signals, how they emerge, their characteristics, and how they relate to human language acquisition. We propose a messaging environment where a Speaker agent needs to convey a set of attributes to a Listener over a noisy acoustic channel. Using DQN to train our agents, we show that: (1) unlike the discrete case, the acoustic Speaker learns redundancy to improve Listener coherency, (2) the acoustic Speaker develops more compositional communication protocols which implicitly compensates for transmission errors over a noisy channel, and (3) DQN has significant performance gains and increased compositionality when compared to previous methods optimised using REINFORCE.
翻訳日:2023-05-03 18:33:54 公開日:2023-05-02
# ミスマッチ:限定ラベルを用いた微分形態的特徴摂動の一貫性による校正セグメンテーション

MisMatch: Calibrated Segmentation via Consistency on Differential Morphological Feature Perturbations with Limited Labels ( http://arxiv.org/abs/2110.12179v3 )

ライセンス: Link先を確認
Mou-Cheng Xu and Yukun Zhou and Chen Jin and Marius De Groot and Neil P. Oxtoby and Daniel C. Alexander and Joseph Jacob(参考訳) 半教師付き学習(SSL)は、医療画像におけるラベル不足の問題に対処するための、有望な機械学習パラダイムである。 SSL方式はもともと画像分類で開発された。 画像分類における最先端SSL手法は、整合性正規化を利用して、入力レベルの摂動に不変な非競合予測を学習する。 しかし、画像レベルの摂動はセグメンテーションの設定におけるクラスタの仮定に反する。 さらに、既存の画像レベルの摂動は、サブ最適である可能性がある手作りである。 したがって,既存のSSL画像分類手法を簡単にセグメンテーションに適用することは容易ではない。 本稿では,2つの異なる形態的特徴の摂動から導出される対予測間の一貫性に基づく半教師付きセグメンテーションフレームワークであるミスマッチを提案する。 MisMatchはエンコーダと2つのデコーダで構成される。 1つのデコーダは、未ラベルデータのフォアグラウンドに対する肯定的な注意を学習し、フォアグラウンドの特徴を生成する。 他方のデコーダは、同じラベルのないデータに対して前景に対する負の注意を学習し、前景の侵食特徴を生成する。 まず2D U-net ベースの MisMatch フレームワークを開発し,CT ベースの肺血管分割作業において広範囲なクロスバリデーションを行い,全ラベルの6.25 % しか使用していない場合,MisMatch が統計的に最先端の半教師付き手法より優れていることを示す。 第2の実験では、MRIベースの脳腫瘍分割タスクにおいて、U-netベースのMisMatchが最先端の手法より優れていることを示す。 第3の実験では、3D MisMatch が左心房区分けタスクにおいて入力レベル拡張を用いた前の手法より優れていることを示す。 最後に、ベースラインに対するMisMatchの性能改善は、キャリブレーションの改善から生じる可能性がある。

Semi-supervised learning (SSL) is a promising machine learning paradigm to address the issue of label scarcity in medical imaging. SSL methods were originally developed in image classification. The state-of-the-art SSL methods in image classification utilise consistency regularisation to learn unlabelled predictions which are invariant to input level perturbations. However, image level perturbations violate the cluster assumption in the setting of segmentation. Moreover, existing image level perturbations are hand-crafted which could be sub-optimal. Therefore, it is a not trivial to straightforwardly adapt existing SSL image classification methods in segmentation. In this paper, we propose MisMatch, a semi-supervised segmentation framework based on the consistency between paired predictions which are derived from two differently learnt morphological feature perturbations. MisMatch consists of an encoder and two decoders. One decoder learns positive attention for foreground on unlabelled data thereby generating dilated features of foreground. The other decoder learns negative attention for foreground on the same unlabelled data thereby generating eroded features of foreground. We first develop a 2D U-net based MisMatch framework and perform extensive cross-validation on a CT-based pulmonary vessel segmentation task and show that MisMatch statistically outperforms state-of-the-art semi-supervised methods when only 6.25\% of the total labels are used. In a second experiment, we show that U-net based MisMatch outperforms state-of-the-art methods on an MRI-based brain tumour segmentation task. In a third experiment, we show that a 3D MisMatch outperforms a previous method using input level augmentations, on a left atrium segmentation task. Lastly, we find that the performance improvement of MisMatch over the baseline might originate from its better calibration.
翻訳日:2023-05-03 18:33:16 公開日:2023-05-02
# WEDGE: セマンティックセグメンテーションのためのWebイメージ支援ドメイン一般化

WEDGE: Web-Image Assisted Domain Generalization for Semantic Segmentation ( http://arxiv.org/abs/2109.14196v4 )

ライセンス: Link先を確認
Namyup Kim, Taeyoung Son, Jaehyun Pahk, Cuiling Lan, Wenjun Zeng, Suha Kwak(参考訳) セマンティクスのセグメンテーションのためのドメインの一般化は、訓練済みのモデルがこれまで見つからなかったドメインでうまく機能することが期待される実際のアプリケーションにおいて、非常に要求される。 課題の1つは、トレーニングのために見当たらない可能性のあるドメインの多様な分布をカバーするデータの欠如である。 本稿では,WEb-image Assisted Domain GEneralization (WEDGE) 方式を提案する。 実世界のデータ分布を探索し、活用するために、気象条件、サイト、照明、カメラスタイルなどの点で大きな多様性を示すウェブクローラー画像を収集する。 また,webクローラー画像のスタイルをトレーニング中にオンザフライでトレーニング画像に注入する手法を提案する。 さらに,ウェブクローリング画像と予測された擬似ラベルを用いてトレーニングを行い,ネットワークの能力をさらに向上させる。 広範な実験により,本手法が既存のドメイン一般化手法を明らかに上回ることを示した。

Domain generalization for semantic segmentation is highly demanded in real applications, where a trained model is expected to work well in previously unseen domains. One challenge lies in the lack of data which could cover the diverse distributions of the possible unseen domains for training. In this paper, we propose a WEb-image assisted Domain GEneralization (WEDGE) scheme, which is the first to exploit the diversity of web-crawled images for generalizable semantic segmentation. To explore and exploit the real-world data distributions, we collect web-crawled images which present large diversity in terms of weather conditions, sites, lighting, camera styles, etc. We also present a method which injects styles of the web-crawled images into training images on-the-fly during training, which enables the network to experience images of diverse styles with reliable labels for effective training. Moreover, we use the web-crawled images with their predicted pseudo labels for training to further enhance the capability of the network. Extensive experiments demonstrate that our method clearly outperforms existing domain generalization techniques.
翻訳日:2023-05-03 18:32:43 公開日:2023-05-02
# 非凸学習のためのTUSLAアルゴリズムの非漸近推定とReLUアクティベーション機能を持つニューラルネットワークへの応用

Non-asymptotic estimates for TUSLA algorithm for non-convex learning with applications to neural networks with ReLU activation function ( http://arxiv.org/abs/2107.08649v2 )

ライセンス: Link先を確認
Dong-Young Lim, Ariel Neufeld, Sotirios Sabanis, Ying Zhang(参考訳) 対象関数が超線形に成長し不連続な確率勾配を持つ非凸確率最適化問題を考える。 このような状況下では,lovas et al. (2020) で導入されたtamed unadjusted stochastic langevin algorithm (tusla) の非漸近解析を行う。 特に,wasserstein-1とwasserstein-2距離におけるtuslaアルゴリズムの非漸近誤差境界を定式化する。 後者の結果は、予想される過剰リスクの非漸近推定をさらに導出することを可能にする。 主な結果の適用性を説明するために,機械学習の重要なパラダイムであるreluニューラルネットワークを用いたトランスファー学習の例を考察する。 理論的な知見を裏付ける例として数値実験を行った。 そこで本研究では,tuslaアルゴリズムがreluアクティベーション関数を持つニューラルネットワークを含む最適化問題を解くことができることを理論的および数値的に証明する。 さらに,ADAM,AMSGrad,RMSProp,(Vanilla)確率勾配勾配(SGD)アルゴリズムなどの一般的なアルゴリズムが,超線形成長と対応する確率勾配の不連続性に起因する目的関数の最小化に失敗し,TUSLAアルゴリズムは最適解に急速に収束する。 さらに,TUSLA と一般的な確率最適化器の性能を実世界のデータセット上で比較し,TUSLA の重要なハイパーパラメータが性能に与える影響について検討する。

We consider non-convex stochastic optimization problems where the objective functions have super-linearly growing and discontinuous stochastic gradients. In such a setting, we provide a non-asymptotic analysis for the tamed unadjusted stochastic Langevin algorithm (TUSLA) introduced in Lovas et al. (2020). In particular, we establish non-asymptotic error bounds for the TUSLA algorithm in Wasserstein-1 and Wasserstein-2 distances. The latter result enables us to further derive non-asymptotic estimates for the expected excess risk. To illustrate the applicability of the main results, we consider an example from transfer learning with ReLU neural networks, which represents a key paradigm in machine learning. Numerical experiments are presented for the aforementioned example which support our theoretical findings. Hence, in this setting, we demonstrate both theoretically and numerically that the TUSLA algorithm can solve the optimization problem involving neural networks with ReLU activation function. Besides, we provide simulation results for synthetic examples where popular algorithms, e.g. ADAM, AMSGrad, RMSProp, and (vanilla) stochastic gradient descent (SGD) algorithm, may fail to find the minimizer of the objective functions due to the super-linear growth and the discontinuity of the corresponding stochastic gradient, while the TUSLA algorithm converges rapidly to the optimal solution. Moreover, we provide an empirical comparison of the performance of TUSLA with popular stochastic optimizers on real-world datasets, as well as investigate the effect of the key hyperparameters of TUSLA on its performance.
翻訳日:2023-05-03 18:32:23 公開日:2023-05-02
# 適切なセグメンテーションメトリクスを使っているか? DICE係数を超えたCNN訓練における人間の専門家知覚の相関

Are we using appropriate segmentation metrics? Identifying correlates of human expert perception for CNN training beyond rolling the DICE coefficient ( http://arxiv.org/abs/2103.06205v4 )

ライセンス: Link先を確認
Florian Kofler, Ivan Ezhov, Fabian Isensee, Fabian Balsiger, Christoph Berger, Maximilian Koerner, Beatrice Demiray, Julia Rackerseder, Johannes Paetzold, Hongwei Li, Suprosanna Shit, Richard McKinley, Marie Piraud, Spyridon Bakas, Claus Zimmer, Nassir Navab, Jan Kirschke, Benedikt Wiestler, Bjoern Menze(参考訳) 複雑な機械学習タスクに最適化されたメトリクスは、しばしばアドホックな方法で選択される。 人間の専門家の認識とどのように一致しているかは不明である。 本研究は, 定性的セグメンテーションの品質指標と, 専門訓練を受けたヒトレイパーによる質的評価の相関について検討する。 そこで,2つの複雑なバイオメディカルセマンティックセグメンテーション問題に対する心理物理実験を行った。 現在の標準メトリクスと損失関数は、専門家のセグメンテーション品質評価と適度に相関することを発見した。 特に、この効果は、脳磁気共鳴におけるグリオーマの腫瘍区画の増強や、超音波画像における灰白質などの臨床的に重要な構造に対して顕著である。 畳み込みニューラルネットワーク(CNN)トレーニングにおいて、人間の専門家の知覚のような抽象的なメトリクスをどのように最適化するかは、しばしば不明である。 この課題に対処するために, 古典統計学の手法を駆使して, 補完的複合損失関数を作成し, 人間のエキスパート知覚をよりよく近似する新しい戦略を提案する。 すべての評価実験において、人間の専門家は、コンピュータ生成のセグメンテーションを人為的な基準ラベルよりもよく評価した。 以上の結果から,医用画像のセグメンテーションにおける多くの実践に強く疑問を呈し,今後の研究に有意義な手がかりを提供する。

Metrics optimized in complex machine learning tasks are often selected in an ad-hoc manner. It is unknown how they align with human expert perception. We explore the correlations between established quantitative segmentation quality metrics and qualitative evaluations by professionally trained human raters. Therefore, we conduct psychophysical experiments for two complex biomedical semantic segmentation problems. We discover that current standard metrics and loss functions correlate only moderately with the segmentation quality assessment of experts. Importantly, this effect is particularly pronounced for clinically relevant structures, such as the enhancing tumor compartment of glioma in brain magnetic resonance and grey matter in ultrasound imaging. It is often unclear how to optimize abstract metrics, such as human expert perception, in convolutional neural network (CNN) training. To cope with this challenge, we propose a novel strategy employing techniques of classical statistics to create complementary compound loss functions to better approximate human expert perception. Across all rating experiments, human experts consistently scored computer-generated segmentations better than the human-curated reference labels. Our results, therefore, strongly question many current practices in medical image segmentation and provide meaningful cues for future research.
翻訳日:2023-05-03 18:31:56 公開日:2023-05-02
# 距離に基づく量子計測のための資源定量化

Distance-based resource quantification for sets of quantum measurements ( http://arxiv.org/abs/2205.08546v2 )

ライセンス: Link先を確認
Lucas Tendick, Martin Kliesch, Hermann Kampermann, Dagmar Bru{\ss}(参考訳) 量子システムが提供する古典的な量子情報処理タスクの利点は、資源理論の一般的な枠組みの中で量子化することができる。 量子状態間の特定の距離関数は、絡み合いやコヒーレンスといった資源の定量化に成功している。 おそらく、このような距離に基づくアプローチは、他の幾何量化器を使う量子測定の資源を研究するために採用されていない。 ここでは、量子測定の集合間の距離関数を定義し、それらが測定の凸資源理論のために自然に資源単調を誘導することを示す。 ダイヤモンド標準に基づく距離に着目して、測定資源の階層を確立し、任意の測定集合の不整合性に関する解析的境界を導出する。 これらの境界は、互いに偏りのない基底に基づく特定の射影測度に対して厳密であることを示し、資源単調な定量化によって異なる測定資源が同じ値に達するシナリオを特定する。 実験結果から, 距離を基準とした測定資源の比較を行い, ベル型実験の限界点を得ることができた。

The advantage that quantum systems provide for certain quantum information processing tasks over their classical counterparts can be quantified within the general framework of resource theories. Certain distance functions between quantum states have successfully been used to quantify resources like entanglement and coherence. Perhaps surprisingly, such a distance-based approach has not been adopted to study resources of quantum measurements, where other geometric quantifiers are used instead. Here, we define distance functions between sets of quantum measurements and show that they naturally induce resource monotones for convex resource theories of measurements. By focusing on a distance based on the diamond norm, we establish a hierarchy of measurement resources and derive analytical bounds on the incompatibility of any set of measurements. We show that these bounds are tight for certain projective measurements based on mutually unbiased bases and identify scenarios where different measurement resources attain the same value when quantified by our resource monotone. Our results provide a general framework to compare distance-based resources for sets of measurements and allow us to obtain limitations on Bell-type experiments.
翻訳日:2023-05-03 18:24:26 公開日:2023-05-02
# 汎用ラグランジュ符号化コンピューティング: レジリエンス、セキュア、プライベートな計算のための柔軟な計算通信トレードオフ

Generalized Lagrange Coded Computing: A Flexible Computation-Communication Tradeoff for Resilient, Secure, and Private Computation ( http://arxiv.org/abs/2204.11168v2 )

ライセンス: Link先を確認
Jinbao Zhu, Hengxuan Tang, Songze Li, and Yijia Chang(参考訳) 本稿では、マスタノードと複数のワーカノードを持つ分散コンピューティングシステムにおいて、複数の入力を含む大規模データセット上で任意の多変量多項式を評価する問題を考える。 一般化されたラグランジュ符号化コンピューティング(glcc)コードは、計算結果を返さないストラグラーに対して同時に回復力を提供し、利益のために結果を故意に修正する敵対者に対するセキュリティ、労働者の共謀の可能性の中でデータセットの情報理論的プライバシーを提供する。 GLCCコードは、まずデータセットを複数のグループに分割し、次に慎重に設計された補間多項式を使用してデータセットを符号化し、各ワーカーに複数の符号化されたデータポイントを共有することで構成される。 特に、GLCC符号は、最先端のラグランジュ符号計算(LCC)符号を特別なケースとして含み、システム効率を最適化する際の通信と計算オーバーヘッドの間のより柔軟なトレードオフを示す。 さらに、機械学習モデルの分散トレーニングにGLCCを適用し、異なるデータセット、モデルアーキテクチャ、ストラグラーパターンで画像分類器をトレーニングするための実験を通して、トレーニング時間に最大2.5\text{--}3.9\times$でLCCコードの高速化を実現することを示す。

We consider the problem of evaluating arbitrary multivariate polynomials over a massive dataset containing multiple inputs, on a distributed computing system with a master node and multiple worker nodes. Generalized Lagrange Coded Computing (GLCC) codes are proposed to simultaneously provide resiliency against stragglers who do not return computation results in time, security against adversarial workers who deliberately modify results for their benefit, and information-theoretic privacy of the dataset amidst possible collusion of workers. GLCC codes are constructed by first partitioning the dataset into multiple groups, then encoding the dataset using carefully designed interpolation polynomials, and sharing multiple encoded data points to each worker, such that interference computation results across groups can be eliminated at the master. Particularly, GLCC codes include the state-of-the-art Lagrange Coded Computing (LCC) codes as a special case, and exhibit a more flexible tradeoff between communication and computation overheads in optimizing system efficiency. Furthermore, we apply GLCC to distributed training of machine learning models, and demonstrate that GLCC codes achieve a speedup of up to $2.5\text{--}3.9\times$ over LCC codes in training time, across experiments for training image classifiers on different datasets, model architectures, and straggler patterns.
翻訳日:2023-05-03 18:24:09 公開日:2023-05-02
# StyleFool: スタイル転送によるビデオ分類システム

StyleFool: Fooling Video Classification Systems via Style Transfer ( http://arxiv.org/abs/2203.16000v3 )

ライセンス: Link先を確認
Yuxin Cao, Xi Xiao, Ruoxi Sun, Derui Wang, Minhui Xue, Sheng Wen(参考訳) ビデオ分類システムは敵攻撃に対して脆弱であり、ビデオ検証において深刻なセキュリティ問題を引き起こす可能性がある。 現在のブラックボックス攻撃は成功するために大量のクエリを必要とするため、攻撃の過程で高い計算オーバーヘッドが発生する。 一方、制限された摂動による攻撃は、敵意や敵意の訓練などの防御には効果がない。 本稿では,制約のない摂動に着目し,動画分類システムを騙すために,スタイル転送によるブラックボックスビデオ敵攻撃であるstylefoolを提案する。 stylefoolはまず、カラーテーマの近接を利用して最良のスタイル画像を選択し、スタイル化されたビデオの不自然な詳細を避ける。 一方、分類器の出力分布に影響を与えるターゲット攻撃においては、分類された映像を判定境界に近づいたり、あるいは向こう側に移動させたりすることで、対象クラスの信頼度も考慮する。 その後、逆摂動をさらに最適化するために勾配のない方法が用いられる。 UCF-101とHMDB-51の2つの標準データセット上でStyleFoolを評価するための広範な実験を行った。 実験の結果、StyleFoolは、クエリの数と既存の防御に対する堅牢性の両方の観点から、最先端の敵攻撃よりも優れていることが示された。 さらに、標的外攻撃におけるスタイリングされたビデオの50%は、既にビデオ分類モデルを騙すことができるため、クエリを一切必要としない。 さらに, ユーザ調査により, スタイルフイルの敵対的サンプルが, 拘束力のない摂動にもかかわらず, 人間の目には知覚できないことを示すために, 識別不能性を評価した。

Video classification systems are vulnerable to adversarial attacks, which can create severe security problems in video verification. Current black-box attacks need a large number of queries to succeed, resulting in high computational overhead in the process of attack. On the other hand, attacks with restricted perturbations are ineffective against defenses such as denoising or adversarial training. In this paper, we focus on unrestricted perturbations and propose StyleFool, a black-box video adversarial attack via style transfer to fool the video classification system. StyleFool first utilizes color theme proximity to select the best style image, which helps avoid unnatural details in the stylized videos. Meanwhile, the target class confidence is additionally considered in targeted attacks to influence the output distribution of the classifier by moving the stylized video closer to or even across the decision boundary. A gradient-free method is then employed to further optimize the adversarial perturbations. We carry out extensive experiments to evaluate StyleFool on two standard datasets, UCF-101 and HMDB-51. The experimental results demonstrate that StyleFool outperforms the state-of-the-art adversarial attacks in terms of both the number of queries and the robustness against existing defenses. Moreover, 50% of the stylized videos in untargeted attacks do not need any query since they can already fool the video classification model. Furthermore, we evaluate the indistinguishability through a user study to show that the adversarial samples of StyleFool look imperceptible to human eyes, despite unrestricted perturbations.
翻訳日:2023-05-03 18:23:41 公開日:2023-05-02
# FlexR:胸部X線構造レポートのための言語埋め込みを用いた画像分類

FlexR: Few-shot Classification with Language Embeddings for Structured Reporting of Chest X-rays ( http://arxiv.org/abs/2203.15723v2 )

ライセンス: Link先を確認
Matthias Keicher, Kamilia Zaripova, Tobias Czempiel, Kristina Mach, Ashkan Khakzar, Nassir Navab(参考訳) 胸部x線レポートの自動化は、タスクの時間を要する性質から大きな関心を集めている。 しかし, 医療情報の複雑化, 筆記スタイルの多様性, タイプミスや不整合の可能性を考慮し, 自然言語処理指標の定量化が困難である。 一方、構造化レポートと標準化レポートは、整合性を提供し、臨床正当性の評価を形式化することができる。 しかし、構造化レポートのための高品質なアノテーションは少ない。 そこで本研究では,このようなテンプレートを補うために,構造化されたレポートテンプレートの文によって定義される臨床所見を予測する手法を提案する。 このアプローチでは、胸部x線および関連するフリーテキストx線レポートを用いた対比言語画像モデルをトレーニングし、構造化された検索ごとにテキストプロンプトを作成し、医学画像における臨床所見を予測するために分類器を最適化する。 その結果,訓練用画像レベルのアノテーションが限定された場合でも,胸部x線像の重症度評価と病理の局所化という構造化報告タスクを実現できることがわかった。

The automation of chest X-ray reporting has garnered significant interest due to the time-consuming nature of the task. However, the clinical accuracy of free-text reports has proven challenging to quantify using natural language processing metrics, given the complexity of medical information, the variety of writing styles, and the potential for typos and inconsistencies. Structured reporting and standardized reports, on the other hand, can provide consistency and formalize the evaluation of clinical correctness. However, high-quality annotations for structured reporting are scarce. Therefore, we propose a method to predict clinical findings defined by sentences in structured reporting templates, which can be used to fill such templates. The approach involves training a contrastive language-image model using chest X-rays and related free-text radiological reports, then creating textual prompts for each structured finding and optimizing a classifier to predict clinical findings in the medical image. Results show that even with limited image-level annotations for training, the method can accomplish the structured reporting tasks of severity assessment of cardiomegaly and localizing pathologies in chest X-rays.
翻訳日:2023-05-03 18:23:18 公開日:2023-05-02
# グラフ彩色問題に対する分布進化アルゴリズム

A Distribution Evolutionary Algorithm for the Graph Coloring Problem ( http://arxiv.org/abs/2203.15162v3 )

ライセンス: Link先を確認
Yongjian Xu and Huabin Cheng and Ning Xu and Yu Chen and Chengwang Xie(参考訳) グラフカラー化は、広範囲のアプリケーションにおいて難しい組合せ最適化問題である。 本稿では,確率分布モデル(dea-ppm)に基づく分布進化アルゴリズムを開発し,効率的な解法を提案する。 生成した解によって確率モデルを更新する既存の分布アルゴリズムとは異なり、DEA-PPMは新しい確率モデルに基づく分布人口を採用し、改良戦略の助けを借りて分布空間を探索する直交探索戦略を導入する。 分布人口をサンプリングすることにより、タブ探索プロセスに基づいて解空間の効率的な探索を実現する。 一方、DEA-PPMは、$k$-coloringの効率を改善するために反復頂点除去戦略を導入し、色調問題に対処するために継承初期化戦略を実装した。 流通人口と解決人口の協調進化は、探検と搾取のバランスを良好に保っている。 数値的な結果は、人口の少ないDEA-PPMは、最先端のメタヒューリスティックスと競合することを示している。

Graph coloring is a challenging combinatorial optimization problem with a wide range of applications. In this paper, a distribution evolutionary algorithm based on a population of probability model (DEA-PPM) is developed to address it efficiently. Unlike existing estimation of distribution algorithms where a probability model is updated by generated solutions, DEA-PPM employs a distribution population based on a novel probability model, and an orthogonal exploration strategy is introduced to search the distribution space with the assistance of an refinement strategy. By sampling the distribution population, efficient search in the solution space is realized based on a tabu search process. Meanwhile, DEA-PPM introduces an iterative vertex removal strategy to improve the efficiency of $k$-coloring, and an inherited initialization strategy is implemented to address the chromatic problem well. The cooperative evolution of the distribution population and the solution population leads to a good balance between exploration and exploitation. Numerical results demonstrate that the DEA-PPM of small population size is competitive to the state-of-the-art metaheuristics.utes to its competitiveness to the state-of-the-art metaheuristics.
翻訳日:2023-05-03 18:22:57 公開日:2023-05-02
# 強結合固体スピン間の効果的な双極子相互作用のドレス状態制御

Dressed-state control of effective dipolar interaction between strongly-coupled solid-state spins ( http://arxiv.org/abs/2203.07610v2 )

ライセンス: Link先を確認
Junghyun Lee, Mamiko Tatsuta, Andrew Xu, Erik Bauch, Mark J. H. Ku, and Ronald. L. Walsworth(参考訳) 多体固体量子システムにおけるスピン間の強い相互作用は、非古典状態の探索と適用にとって重要な資源である。 特に、ダイヤモンド系の欠陥に関連する電子スピンは、集合的量子現象の研究と量子技術応用のための主要なプラットフォームである。 このような固体量子欠陥システムは、環境条件下でのスケーラビリティと運用の利点があるが、欠陥がホスト格子内で空間的に固定されているため、欠陥のスピン間の相互作用を制御する重要な課題に直面している。 本研究では, 固体スピン間の効果的な双極子結合を制御し, 2つの強く結合した窒素空孔(NV)中心をダイヤモンドで実験的に示す。 NVスピンの m$_s$ = 0 と $\pm$1 状態の間のラビ駆動項を含めると、ハミルトニアンは2つのNVスピン間の効果的な双極子結合をオン/オフまたは調整することができる。 ラムゼイ分光法により,異なる状態の制御NVスピンが生成する有効双極子場の変化を検出する。 相互作用ダイナミクスの変化を観察するために、異なる服装状態における2つのnvスピン間のハートマン・ハーンマッチング条件を介してスピンロックに基づく偏光移動測定を展開する。 非平衡量子位相の研究や高忠実度マルチスピン相関状態の生成に有用なスピンアンサンブルにおける相互作用強度均質化を含む、強相互作用スピン系の相互作用強度分布を制御するためのこのロバストなスキームの可能性を示唆するシミュレーションを行う。

Strong interactions between spins in many-body solid-state quantum system is a crucial resource for exploring and applying non-classical states. In particular, electronic spins associated with defects in diamond system are a leading platform for the study of collective quantum phenomena and for quantum technology applications. While such solid-state quantum defect systems have the advantage of scalability and operation under ambient conditions, they face the key challenge of controlling interactions between the defects spins, since the defects are spatially fixed inside the host lattice with relative positions that cannot be well controlled during fabrication. In this work, we present a dressed-state approach to control the effective dipolar coupling between solid-state spins; and then demonstrate this scheme experimentally using two strongly-coupled nitrogen vacancy (NV) centers in diamond. Including Rabi driving terms between the m$_s$ = 0 and $\pm$1 states in the NV spin Hamiltonian allows us to turn on and off or tune the effective dipolar coupling between two NV spins. Through Ramsey spectroscopy, we detect the change of the effective dipolar field generated by the control NV spin prepared in different dressed states. To observe the change of interaction dynamics, we then deploy spin-lock-based polarization transfer measurements via a Hartmann-Hahn matching condition between two NV spins in different dressed states. We perform simulations that indicate the promise for this robust scheme to control the distribution of interaction strengths in strongly-interacting spin systems, including interaction strength homogenization in a spin ensemble, which can be a valuable tool for studying non-equilibrium quantum phases and generating high fidelity multi-spin correlated states for quantum-enhanced sensing.
翻訳日:2023-05-03 18:22:41 公開日:2023-05-02
# su(2)対称スピンボーソンモデル:量子臨界性、固定点消滅、双対性

SU(2)-Symmetric Spin-Boson Model: Quantum Criticality, Fixed-Point Annihilation, and Duality ( http://arxiv.org/abs/2203.02518v2 )

ライセンス: Link先を確認
Manuel Weber, Matthias Vojta(参考訳) 2つの中間結合再正規化群(rg)の不動点の消滅は、統計力学から高エネルギー物理学まで様々な分野に興味があるが、摂動法を用いてのみ研究されている。 ここでは、su(2)対称な$s=1/2$スピンボーソン(bose-kondo)モデルに対する高精度量子モンテカルロ結果を示す。 そこで, 摂動RGにより予測される臨界相に加えて, 安定な強結合相が存在することを示す。 詳細なスケーリング解析を用いて、2つのRG固定点の衝突と消滅を$s^\ast = 0.6540(2)$で直接数値的に示し、臨界相は$s<s^\ast$で消滅する。 特に,rgベータ関数の反射対称性に対応する2つの不動点の驚くべき双対性を明らかにする。 本研究は, 臨界磁石における不純物モーメントの影響について述べる。

The annihilation of two intermediate-coupling renormalization-group (RG) fixed points is of interest in diverse fields from statistical mechanics to high-energy physics, but has so far only been studied using perturbative techniques. Here we present high-accuracy quantum Monte Carlo results for the SU(2)-symmetric $S=1/2$ spin-boson (or Bose-Kondo) model. We study the model with a power-law bath spectrum $\propto \omega^s$ where, in addition to a critical phase predicted by perturbative RG, a stable strong-coupling phase is present. Using a detailed scaling analysis, we provide direct numerical evidence for the collision and annihilation of two RG fixed points at $s^\ast = 0.6540(2)$, causing the critical phase to disappear for $s<s^\ast$. In particular, we uncover a surprising duality between the two fixed points, corresponding to a reflection symmetry of the RG beta function, which we utilize to make analytical predictions at strong coupling which are in excellent agreement with numerics. Our work makes phenomena of fixed-point annihilation accessible to large-scale simulations, and we comment on the consequences for impurity moments in critical magnets.
翻訳日:2023-05-03 18:22:12 公開日:2023-05-02
# ベイズモデルの選択、限界可能性、一般化

Bayesian Model Selection, the Marginal Likelihood, and Generalization ( http://arxiv.org/abs/2202.11678v3 )

ライセンス: Link先を確認
Sanae Lotfi, Pavel Izmailov, Gregory Benton, Micah Goldblum, Andrew Gordon Wilson(参考訳) 観測と完全に一致した仮説を比較するにはどうすればよいのか? 境界確率(ベイズ証拠とも呼ばれる)は、前者から観測結果を生成する確率を表し、occamのカミソリを自動的にエンコードするこの基礎的問題に対する独特のアプローチを提供する。 余剰確率がオーバーフィットし、事前の仮定に敏感であることが観察されているが、ハイパーパラメータ学習と離散モデル比較の限界は十分には研究されていない。 まず,学習制約や仮説テストに対する限界確率の魅力について再検討する。 次に、一般化の代用として限界確率を用いる際の概念的および実践的な問題を強調する。 具体的には,超パラメータ学習における不適合と過剰フィッティングの両面において,神経アーキテクチャ探索の意義から,限界可能性と一般化との負の相関性を示す。 また, 限界確率とpac-bayes境界との関係を再検討し, この関係を用いてモデル選択の限界可能性の欠点をさらに解明する。 本稿では,より一般化に整合した条件付き辺縁確率による部分的治療を行い,カーネル学習などの大規模ハイパーパラメータ学習に有用であることを示す。

How do we compare between hypotheses that are entirely consistent with observations? The marginal likelihood (aka Bayesian evidence), which represents the probability of generating our observations from a prior, provides a distinctive approach to this foundational question, automatically encoding Occam's razor. Although it has been observed that the marginal likelihood can overfit and is sensitive to prior assumptions, its limitations for hyperparameter learning and discrete model comparison have not been thoroughly investigated. We first revisit the appealing properties of the marginal likelihood for learning constraints and hypothesis testing. We then highlight the conceptual and practical issues in using the marginal likelihood as a proxy for generalization. Namely, we show how marginal likelihood can be negatively correlated with generalization, with implications for neural architecture search, and can lead to both underfitting and overfitting in hyperparameter learning. We also re-examine the connection between the marginal likelihood and PAC-Bayes bounds and use this connection to further elucidate the shortcomings of the marginal likelihood for model selection. We provide a partial remedy through a conditional marginal likelihood, which we show is more aligned with generalization, and practically valuable for large-scale hyperparameter learning, such as in deep kernel learning.
翻訳日:2023-05-03 18:21:48 公開日:2023-05-02
# cd-rom:deep-reduced order modelを補完する

CD-ROM: Complemented Deep-Reduced Order Model ( http://arxiv.org/abs/2202.10746v4 )

ライセンス: Link先を確認
Emmanuel Menier, Michele Alessandro Bucci, Mouadh Yagoubi, Lionel Mathelin, Marc Schoenauer(参考訳) POD-Galerkin法によるモデルオーダーの削減は、物理問題を解く際の計算効率の面で劇的に向上する。 しかし、Navier-Stokes方程式のような非線型高次元力学系への適用性は制限され、不正確で不安定なモデルが生じることが示されている。 本稿では,古典的なPOD-Galerkinリミットオーダーモデル(ROM)に対するディープラーニングに基づくクロージャモデリング手法を提案する。 提案されたアプローチは理論的に基礎づけられ、ニューラルネットワークを用いて十分に研究された演算子を近似する。 これまでのほとんどの研究とは対照的に、現在のCD-ROMアプローチは、部分的に観察された力学系の振る舞いに関する単純な仮説から導かれる解釈可能な連続記憶の定式化に基づいている。 したがって、最終的な補正されたモデルは、ほとんどの古典的なタイムステッピングスキームを使ってシミュレートすることができる。 CD-ROMアプローチの能力は、計算流体力学の古典的な例とパラメトリックな例である倉本-シヴァシンスキー方程式の例で示される。

Model order reduction through the POD-Galerkin method can lead to dramatic gains in terms of computational efficiency in solving physical problems. However, the applicability of the method to non linear high-dimensional dynamical systems such as the Navier-Stokes equations has been shown to be limited, producing inaccurate and sometimes unstable models. This paper proposes a deep learning based closure modeling approach for classical POD-Galerkin reduced order models (ROM). The proposed approach is theoretically grounded, using neural networks to approximate well studied operators. In contrast with most previous works, the present CD-ROM approach is based on an interpretable continuous memory formulation, derived from simple hypotheses on the behavior of partially observed dynamical systems. The final corrected models can hence be simulated using most classical time stepping schemes. The capabilities of the CD-ROM approach are demonstrated on two classical examples from Computational Fluid Dynamics, as well as a parametric case, the Kuramoto-Sivashinsky equation.
翻訳日:2023-05-03 18:21:26 公開日:2023-05-02
# カテゴリー別再パラメータ化トリックによる後方翻訳のエンドツーエンドトレーニング

End-to-End Training for Back-Translation with Categorical Reparameterization Trick ( http://arxiv.org/abs/2202.08465v3 )

ライセンス: Link先を確認
DongNyeong Heo and Heeyoul Choi(参考訳) バックトランスレーションは、ニューラルネットワーク翻訳(NMT)における効果的な半教師付き学習フレームワークである。 事前学習されたNMTモデルは単言語文を翻訳し、他のNMTモデルのトレーニングのための合成バイリンガル文ペアを作る。 2つのNMTモデルをそれぞれ推論モデルと生成モデルとして理解し、可変オートエンコーダ(VAE)のトレーニングフレームワークを適用した。 しかし、翻訳文の離散性は、2つのnmtモデル間の勾配情報の流れを妨げる。 本稿では,GAEのトレーニングフレームワークがエンドツーエンドで動作できるように,NMTモデルに微分可能な文を生成するための分類的パラメータ化手法を提案する。 実験により,提案手法はNMTモデルを効果的に訓練し,WMT翻訳タスクのデータセットの前のベースラインよりも優れたBLEUスコアが得られることを示した。

Back-translation is an effective semi-supervised learning framework in neural machine translation (NMT). A pre-trained NMT model translates monolingual sentences and makes synthetic bilingual sentence pairs for the training of the other NMT model, and vice versa. Understanding the two NMT models as inference and generation models, respectively, previous works applied the training framework of variational auto-encoder (VAE). However, the discrete property of translated sentences prevents gradient information from flowing between the two NMT models. In this paper, we propose a categorical reparameterization trick that makes NMT models generate differentiable sentences so that the VAE's training framework can work in the end-to-end fashion. Our experiments demonstrate that our method effectively trains the NMT models and achieves better BLEU scores than the previous baseline on the datasets of the WMT translation task.
翻訳日:2023-05-03 18:21:10 公開日:2023-05-02
# 低忠実度モデルと物理インフォームドガウス過程によるディジタル双極子間の物理学習

Learning Physics between Digital Twins with Low-Fidelity Models and Physics-Informed Gaussian Processes ( http://arxiv.org/abs/2206.08201v2 )

ライセンス: Link先を確認
Michail Spitieris and Ingelin Steinsland(参考訳) デジタル双生児(digital twin)は、個人、例えば、構成要素、患者またはプロセスを表すコンピュータモデルである。 多くの状況では、不完全な物理的知識を取り入れつつ、そのデータから個人に関する知識を得たいし、他の個人からデータから学びたい。 本稿では,各個体の物理的パラメータが興味を持つ設定において,デジタル双生児間の学習に完全ベイズ的手法を導入する。 モデル差分項は、各パーソナライズされたモデルのモデル定式化に組み込まれ、低忠実度モデルの欠落物理を考慮に入れている。 個人間での情報共有を可能にするため、ベイズ階層モデリングフレームワークを導入し、階層内の新しいレベルを介して個々のモデルを接続する。 本手法は,従来より多くの個人に拡張された文献で用いられてきたおもちゃの例と,高血圧治療に関連する心血管モデルである。 ケーススタディによると 1)不完全な物理モデルを考慮しないモデルは、偏見と過信である。 2)不完全な物理モデルを説明するモデルは、より不確かであるが真実を覆っている。 3) デジタル双生児間の学習モデルは, 個々の独立モデルよりも不確実性が低いが, 自信過剰ではない。

A digital twin is a computer model that represents an individual, for example, a component, a patient or a process. In many situations, we want to gain knowledge about an individual from its data while incorporating imperfect physical knowledge and also learn from data from other individuals. In this paper, we introduce a fully Bayesian methodology for learning between digital twins in a setting where the physical parameters of each individual are of interest. A model discrepancy term is incorporated in the model formulation of each personalized model to account for the missing physics of the low-fidelity model. To allow sharing of information between individuals, we introduce a Bayesian Hierarchical modelling framework where the individual models are connected through a new level in the hierarchy. Our methodology is demonstrated in two case studies, a toy example previously used in the literature extended to more individuals and a cardiovascular model relevant for the treatment of Hypertension. The case studies show that 1) models not accounting for imperfect physical models are biased and over-confident, 2) the models accounting for imperfect physical models are more uncertain but cover the truth, 3) the models learning between digital twins have less uncertainty than the corresponding independent individual models, but are not over-confident.
翻訳日:2023-05-03 18:14:48 公開日:2023-05-02
# 多方向強化学習における適応的探索のためのstein変分目標生成

Stein Variational Goal Generation for adaptive Exploration in Multi-Goal Reinforcement Learning ( http://arxiv.org/abs/2206.06719v2 )

ライセンス: Link先を確認
Nicolas Castanet, Sylvain Lamprier, Olivier Sigaud(参考訳) マルチゴール強化学習では、エージェントが関連するトレーニングタスク間の経験を共有することで、テスト時に新しいタスクの一般化が向上する。 しかし、ゴール空間が不連続であり、報酬が不足している場合、ゴールの大部分は到達しにくい。 この文脈では、目標を超えるカリキュラムは、エージェントが現在の能力にトレーニングタスクを適用することで学ぶのに役立つ。 本研究では,目標到達能力の学習予測モデルを用いて,エージェントの中間難易度目標をサンプリングするスタイン変分目標生成(stein variational goal generation,svgg)を提案する。 目標の分布は、スタイン変分勾配Descentを用いて適切な困難領域に惹きつけられる粒子でモデル化される。 その結果,svggは難解な探索問題において,最先端のマルチゴール強化学習手法に勝ることを示し,環境変化時に有用なリカバリ特性を付与できることを実証した。

In multi-goal Reinforcement Learning, an agent can share experience between related training tasks, resulting in better generalization for new tasks at test time. However, when the goal space has discontinuities and the reward is sparse, a majority of goals are difficult to reach. In this context, a curriculum over goals helps agents learn by adapting training tasks to their current capabilities. In this work we propose Stein Variational Goal Generation (SVGG), which samples goals of intermediate difficulty for the agent, by leveraging a learned predictive model of its goal reaching capabilities. The distribution of goals is modeled with particles that are attracted in areas of appropriate difficulty using Stein Variational Gradient Descent. We show that SVGG outperforms state-of-the-art multi-goal Reinforcement Learning methods in terms of success coverage in hard exploration problems, and demonstrate that it is endowed with a useful recovery property when the environment changes.
翻訳日:2023-05-03 18:14:27 公開日:2023-05-02
# value memory graph:オフライン強化学習のためのグラフ構造世界モデル

Value Memory Graph: A Graph-Structured World Model for Offline Reinforcement Learning ( http://arxiv.org/abs/2206.04384v3 )

ライセンス: Link先を確認
Deyao Zhu, Li Erran Li, Mohamed Elhoseiny(参考訳) 強化学習(rl)法は通常、ポリシーを学ぶために環境に直接適用される。 連続的な状態-アクション空間、スパース報酬、および/または長い時間軸を持つ複雑な環境では、元の環境で良いポリシーを学ぶのは困難である。 オフラインのRL設定に焦点をあて、元の環境を抽象化するシンプルで離散的な世界モデルの構築を目指している。 簡易なポリシー学習のための環境データの代わりに,RL法を世界モデルに適用した。 我々の世界モデルは、値記憶グラフ(VMG)と呼ばれ、有向グラフベースのマルコフ決定プロセス(MDP)として設計されており、頂点と有向エッジはグラフ状態とグラフ動作を別々に表現する。 VMGのステートアクション空間は、元の環境と比較して有限であり、比較的小さいので、VMGの値反復アルゴリズムを直接適用してグラフ状態の値を推定し、最良のグラフアクションを見出すことができる。 VMGはオフラインのRLデータセットからトレーニングされ、構築される。 VMGの抽象グラフアクションを元の環境の実際のアクションに変換するアクショントランスレータとともに、VMGはエピソードリターンを最大化するエージェントを制御する。 D4RLベンチマークを用いた実験により,VMG はいくつかの目標指向タスクにおいて,特に環境に疎い報酬と長時間の時間的地平線がある場合において,最先端のオフライン RL 手法より優れていることが示された。 コードはhttps://github.com/TsuTikgiau/ValueMemoryGraphで入手できる。

Reinforcement Learning (RL) methods are typically applied directly in environments to learn policies. In some complex environments with continuous state-action spaces, sparse rewards, and/or long temporal horizons, learning a good policy in the original environments can be difficult. Focusing on the offline RL setting, we aim to build a simple and discrete world model that abstracts the original environment. RL methods are applied to our world model instead of the environment data for simplified policy learning. Our world model, dubbed Value Memory Graph (VMG), is designed as a directed-graph-based Markov decision process (MDP) of which vertices and directed edges represent graph states and graph actions, separately. As state-action spaces of VMG are finite and relatively small compared to the original environment, we can directly apply the value iteration algorithm on VMG to estimate graph state values and figure out the best graph actions. VMG is trained from and built on the offline RL dataset. Together with an action translator that converts the abstract graph actions in VMG to real actions in the original environment, VMG controls agents to maximize episode returns. Our experiments on the D4RL benchmark show that VMG can outperform state-of-the-art offline RL methods in several goal-oriented tasks, especially when environments have sparse rewards and long temporal horizons. Code is available at https://github.com/TsuTikgiau/ValueMemoryGraph
翻訳日:2023-05-03 18:14:11 公開日:2023-05-02
# fair mlの基礎的前提としての分散的正義--集団公平度メトリクスの統一、拡張、解釈

Distributive Justice as the Foundational Premise of Fair ML: Unification, Extension, and Interpretation of Group Fairness Metrics ( http://arxiv.org/abs/2206.02897v3 )

ライセンス: Link先を確認
Joachim Baumann, Corinna Hertweck, Michele Loi, Christoph Heitz(参考訳) グループフェアネス指標は、予測に基づく意思決定システムの公正性を評価する確立された方法である。 しかし、これらの指標はいまだに哲学理論と不十分に結びついており、その道徳的意味はしばしば不明である。 本稿では,グループフェアネス指標の包括的枠組みを提案する。 異なるグループの公平度尺度は、影響を受ける個人に対する決定の利益や害を測定する方法や、利益に対する道徳的主張について、その選択が異なる。 我々の統一フレームワークは、標準群公正度メトリクスに関連する規範的選択を明らかにし、それらの道徳的実体の解釈を可能にする。 さらに、この広い視点は、文献に見られるような標準的公平度メトリクスの拡張のための構造を提供する。 この拡張により、標準群フェアネス指標に対するいくつかの批判、具体的には、(1)それらはパリティベース、すなわち、しばしば辺境化されたグループに有害なグループ間の何らかの形態の平等を要求すること、(2)これらのグループに対する決定をグループ間でのみ比較すること、(3)分配的正義文学の全幅が十分に表現されていないこと、などへの対処が可能になる。

Group fairness metrics are an established way of assessing the fairness of prediction-based decision-making systems. However, these metrics are still insufficiently linked to philosophical theories, and their moral meaning is often unclear. In this paper, we propose a comprehensive framework for group fairness metrics, which links them to more theories of distributive justice. The different group fairness metrics differ in their choices about how to measure the benefit or harm of a decision for the affected individuals, and what moral claims to benefits are assumed. Our unifying framework reveals the normative choices associated with standard group fairness metrics and allows an interpretation of their moral substance. In addition, this broader view provides a structure for the expansion of standard fairness metrics that we find in the literature. This expansion allows addressing several criticisms of standard group fairness metrics, specifically: (1) they are parity-based, i.e., they demand some form of equality between groups, which may sometimes be detrimental to marginalized groups; (2) they only compare decisions across groups but not the resulting consequences for these groups; and (3) the full breadth of the distributive justice literature is not sufficiently represented.
翻訳日:2023-05-03 18:13:45 公開日:2023-05-02
# 拡張アガシモデルのディジタル量子シミュレーション:機械学習による位相差の解消

Digital quantum simulation of an extended Agassi model: Using machine learning to disentangle its phase-diagram ( http://arxiv.org/abs/2205.15122v3 )

ライセンス: Link先を確認
\'Alvaro S\'aiz, Jos\'e-Enrique Garc\'ia-Ramos, Jos\'e Miguel Arias, Lucas Lamata, Pedro P\'erez-Fern\'andez(参考訳) 8個のイオンを閉じ込めた量子プラットフォームを用いて,拡張アガシモデルのディジタル量子シミュレーションを提案する。 拡張アガシモデル(英: extended Agassi model)は、短距離対と長距離モノポール-モノポール相互作用と核物理学および他の多体系への応用の両方を含む解析的に解決可能なモデルである。 さらに、異なる位相と対応する位相遷移曲面を持つリッチな位相図を所有している。 この研究の目的は2つある:1つは、捕捉されたイオン施設の現在の限界におけるモデルの量子シミュレーションを提案し、もう1つは、量子シミュレーションの上に機械学習アルゴリズムをどのように使うかを示し、システムの位相を正確に決定することである。 量子シミュレーションに関して、この提案は多項式資源をより大きなアガシ系に拡張できる。 機械学習によって支援される核物理学モデルのデジタル量子シミュレーションは、核物質の基本的な側面を決定する上で、最も速い古典的コンピュータを上回ることができる。

A digital quantum simulation for the extended Agassi model is proposed using a quantum platform with eight trapped ions. The extended Agassi model is an analytically solvable model including both short range pairing and long range monopole-monopole interactions with applications in nuclear physics and in other many-body systems. In addition, it owns a rich phase diagram with different phases and the corresponding phase transition surfaces. The aim of this work is twofold: on one hand, to propose a quantum simulation of the model at the present limits of the trapped ions facilities and, on the other hand, to show how to use a machine learning algorithm on top of the quantum simulation to accurately determine the phase of the system. Concerning the quantum simulation, this proposal is scalable with polynomial resources to larger Agassi systems. Digital quantum simulations of nuclear physics models assisted by machine learning may enable one to outperform the fastest classical computers in determining fundamental aspects of nuclear matter.
翻訳日:2023-05-03 18:13:00 公開日:2023-05-02
# face anti-spoofingモデルにおける細粒度逆境脆弱性の暴露

Exposing Fine-Grained Adversarial Vulnerability of Face Anti-Spoofing Models ( http://arxiv.org/abs/2205.14851v3 )

ライセンス: Link先を確認
Songlin Yang, Wei Wang, Chenye Xu, Ziwen He, Bo Peng, Jing Dong(参考訳) face anti-spoofingは、顔画像(例えば印刷された写真)をライブ画像と区別することを目的としている。 しかし、敵の例はその信頼性に大きく挑戦し、摂動ノイズを加えることで予測が容易に変更できる。 従来は, モデルアーキテクチャや補助的特徴が敵に脆弱であるようなきめ細かな解析をすることなく, 顔の防汚性能を評価するための敵攻撃法が実施されていた。 この問題に対処するために,我々は,マルチタスクモジュールとセマンティクス機能拡張(sfa)モジュールからなる顔アンチスプーフィングモデルのきめ細かな敵脆弱性を明らかにするための新しいフレームワークを提案する。 マルチタスクモジュールは、さらなる評価のために異なるセマンティクス機能を得ることができるが、これらのセマンティクス機能を攻撃するだけでは、識別関連の脆弱性を反映できない。 次に, sfaモジュールの設計を行い, 逆例生成のための識別関連勾配方向に先立ってデータ分布を導入する。 総合的な実験によると、SFAモジュールは攻撃成功率を平均40$\%近く向上させる。 我々は、異なるアノテーション、幾何マップ、バックボーンネットワーク(Resnetネットワークなど)について、このきめ細かい逆解析を行う。 これらのきめ細かい逆数例は、堅牢なバックボーンネットワークと補助的特徴の選択に利用できる。 また、敵の訓練にも使用できるため、顔の反スプーフィングモデルの正確性と堅牢性をさらに向上することができる。

Face anti-spoofing aims to discriminate the spoofing face images (e.g., printed photos) from live ones. However, adversarial examples greatly challenge its credibility, where adding some perturbation noise can easily change the predictions. Previous works conducted adversarial attack methods to evaluate the face anti-spoofing performance without any fine-grained analysis that which model architecture or auxiliary feature is vulnerable to the adversary. To handle this problem, we propose a novel framework to expose the fine-grained adversarial vulnerability of the face anti-spoofing models, which consists of a multitask module and a semantic feature augmentation (SFA) module. The multitask module can obtain different semantic features for further evaluation, but only attacking these semantic features fails to reflect the discrimination-related vulnerability. We then design the SFA module to introduce the data distribution prior for more discrimination-related gradient directions for generating adversarial examples. Comprehensive experiments show that SFA module increases the attack success rate by nearly 40$\%$ on average. We conduct this fine-grained adversarial analysis on different annotations, geometric maps, and backbone networks (e.g., Resnet network). These fine-grained adversarial examples can be used for selecting robust backbone networks and auxiliary features. They also can be used for adversarial training, which makes it practical to further improve the accuracy and robustness of the face anti-spoofing models.
翻訳日:2023-05-03 18:12:44 公開日:2023-05-02
# モノトニックニューラルネットワークの最小性記述法

Cardinality-Minimal Explanations for Monotonic Neural Networks ( http://arxiv.org/abs/2205.09901v3 )

ライセンス: Link先を確認
Ouns El Harzli, Bernardo Cuenca Grau, Ian Horrocks(参考訳) 近年、正確な形式的保証を提供する神経モデル予測のための説明法への関心が高まっている。 これは、与えられた予測が保持するのに十分な入力特徴の最小部分集合を計算することを目的としている(従って、与えられた予測を変更するために)。 しかし、対応する決定問題は難解であることが知られている。 本稿では,単調関数を実装したニューラルモデルに着目して,トラクタビリティを回復できるかどうかを検討する。 関連する決定問題はいまだに解決できないが、活性化関数が至る所で連続であり、ほぼ至るところで微分可能であると仮定すれば、アルゴリズムによって多項式時間で解くことができることを示すことができる。 我々の実験はアルゴリズムの好ましい性能を示唆する。

In recent years, there has been increasing interest in explanation methods for neural model predictions that offer precise formal guarantees. These include abductive (respectively, contrastive) methods, which aim to compute minimal subsets of input features that are sufficient for a given prediction to hold (respectively, to change a given prediction). The corresponding decision problems are, however, known to be intractable. In this paper, we investigate whether tractability can be regained by focusing on neural models implementing a monotonic function. Although the relevant decision problems remain intractable, we can show that they become solvable in polynomial time by means of greedy algorithms if we additionally assume that the activation functions are continuous everywhere and differentiable almost everywhere. Our experiments suggest favourable performance of our algorithms.
翻訳日:2023-05-03 18:12:16 公開日:2023-05-02
# 物理に基づく建築エネルギーシステムのモデリングと予測のためのドメイン適応フレームワーク

A physics-based domain adaptation framework for modelling and forecasting building energy systems ( http://arxiv.org/abs/2208.09456v2 )

ライセンス: Link先を確認
Zack Xuereb Conti, Ruchi Choudhary, Luca Magri(参考訳) 最先端の機械学習ベースのモデルは、十分なデータが得られると、複雑さが分析的な記述を禁止するシナリオでも時空間パターンや構造を見つけるのが得意であるため、建物のエネルギー行動のモデリングと予測に一般的な選択肢である。 しかし、それらのアーキテクチャは通常、物理現象の制御と結びついた機械構造と物理的対応を持たない。 結果として、観測されていない時間ステップをうまく一般化する能力は、データ内の観測されたシステムの基礎となるダイナミクスの表現に依存するため、デジタル双生児の制御やエネルギー管理といった現実世界のエンジニアリング問題において、保証が難しい。 本研究では,線形時間不変(LTI)状態空間モデル(SSM)とサブスペースベースドメイン適応(SDA)フレームワークにおける教師なし低次モデリングを併用するフレームワークを提案する。 SDAは、あるドメインからラベル付きデータを悪用し、ラベル付きデータが制限された異なるが関連するターゲットドメインで予測するために使用される、転送学習(TL)技法の一種である。 我々はラベル付きデータの代わりに、よく知られた熱伝達常微分方程式によって支配されるLTI SSMの幾何学構造を利用して観測データを超えた観測時間ステップを予測する新しいSDA手法を提案する。 基本的に,本手法は物理系とデータ系を組み込んだ組込み部分空間を近似する。 本研究は,物理ベース領域からデータ領域へのメカニスティックモデルの伝達性を示すため,熱伝導の実証的なシナリオにおける物理ベースSDAフレームワークの評価を行う。

State-of-the-art machine-learning-based models are a popular choice for modeling and forecasting energy behavior in buildings because given enough data, they are good at finding spatiotemporal patterns and structures even in scenarios where the complexity prohibits analytical descriptions. However, their architecture typically does not hold physical correspondence to mechanistic structures linked with governing physical phenomena. As a result, their ability to successfully generalize for unobserved timesteps depends on the representativeness of the dynamics underlying the observed system in the data, which is difficult to guarantee in real-world engineering problems such as control and energy management in digital twins. In response, we present a framework that combines lumped-parameter models in the form of linear time-invariant (LTI) state-space models (SSMs) with unsupervised reduced-order modeling in a subspace-based domain adaptation (SDA) framework. SDA is a type of transfer-learning (TL) technique, typically adopted for exploiting labeled data from one domain to predict in a different but related target domain for which labeled data is limited. We introduce a novel SDA approach where instead of labeled data, we leverage the geometric structure of the LTI SSM governed by well-known heat transfer ordinary differential equations to forecast for unobserved timesteps beyond observed measurement data. Fundamentally, our approach geometrically aligns the physics-derived and data-derived embedded subspaces closer together. In this initial exploration, we evaluate the physics-based SDA framework on a demonstrative heat conduction scenario by varying the thermophysical properties of the source and target systems to demonstrate the transferability of mechanistic models from a physics-based domain to a data domain.
翻訳日:2023-05-03 18:05:06 公開日:2023-05-02
# 歌詞における性バイアスと性差別の大規模分析

Large scale analysis of gender bias and sexism in song lyrics ( http://arxiv.org/abs/2208.02052v5 )

ライセンス: Link先を確認
Lorenzo Betti, Carlo Abrate, Andreas Kaltenbrunner(参考訳) 我々は「200万曲データベース」コーパスから377808の英語歌詞を解析するために自然言語処理技術を用いて、性差別の表現(1960-2010年)と性バイアスの測定に焦点を当てた。 性差別分類器を用いて、手動で注釈付けされたポピュラーソングの小さなサンプルを用いて、過去の研究よりも大規模な性差別的歌詞を同定する。 さらに,歌詞から学習した単語埋め込みの関連を計測し,性別バイアスを明らかにする。 セクシーなコンテンツは、特に男性アーティストや、ビルボードのチャートに登場する人気曲から、時間とともに増えていくだろう。 歌は演奏者の性別によって異なる言語バイアスを含むことも示されており、男性ソロアーティストの歌はより強いバイアスを含む。 これはこのタイプの大規模な分析としては初めてであり、大衆文化の影響力のある部分における言語使用について洞察を与えている。

We employ Natural Language Processing techniques to analyse 377808 English song lyrics from the "Two Million Song Database" corpus, focusing on the expression of sexism across five decades (1960-2010) and the measurement of gender biases. Using a sexism classifier, we identify sexist lyrics at a larger scale than previous studies using small samples of manually annotated popular songs. Furthermore, we reveal gender biases by measuring associations in word embeddings learned on song lyrics. We find sexist content to increase across time, especially from male artists and for popular songs appearing in Billboard charts. Songs are also shown to contain different language biases depending on the gender of the performer, with male solo artist songs containing more and stronger biases. This is the first large scale analysis of this type, giving insights into language usage in such an influential part of popular culture.
翻訳日:2023-05-03 18:04:15 公開日:2023-05-02
# オフポリティ学習の促進

Boosted Off-Policy Learning ( http://arxiv.org/abs/2208.01148v2 )

ライセンス: Link先を確認
Ben London, Levi Lu, Ted Sandler, Thorsten Joachims(参考訳) ログ付きバンディットフィードバックからオフポリシー学習を行うための最初のブースティングアルゴリズムを提案する。 教師付き学習のための既存のブースティング手法とは異なり、本アルゴリズムはポリシーの期待報酬の見積もりを直接最適化する。 このアルゴリズムを解析し,基本学習者が「弱」学習条件を満たせば,昇降毎に過大な経験的リスクが減少する(指数関数的に速い)ことを証明した。 さらに,意思決定木などの実用上のメリットを生かして,利用可能なベース学習者の幅広い範囲を開放する,教師付き学習に対するベース学習者の削減方法を示す。 実験により,本アルゴリズムは,木ベースブースティングアルゴリズムの多くの望ましい特性(例えば,特徴量スケーリングとハイパーパラメータチューニングの堅牢性)を継承し,ディープニューラルネットワークによるオフポリシー学習や,観測された報酬を単純に回帰する手法よりも優れることが示された。

We propose the first boosting algorithm for off-policy learning from logged bandit feedback. Unlike existing boosting methods for supervised learning, our algorithm directly optimizes an estimate of the policy's expected reward. We analyze this algorithm and prove that the excess empirical risk decreases (possibly exponentially fast) with each round of boosting, provided a ''weak'' learning condition is satisfied by the base learner. We further show how to reduce the base learner to supervised learning, which opens up a broad range of readily available base learners with practical benefits, such as decision trees. Experiments indicate that our algorithm inherits many desirable properties of tree-based boosting algorithms (e.g., robustness to feature scaling and hyperparameter tuning), and that it can outperform off-policy learning with deep neural networks as well as methods that simply regress on the observed rewards.
翻訳日:2023-05-03 18:03:57 公開日:2023-05-02
# 複雑系のシミュレーションのための高精度サロゲートの効率的な学習

Efficient Learning of Accurate Surrogates for Simulations of Complex Systems ( http://arxiv.org/abs/2207.12855v2 )

ライセンス: Link先を確認
A. Diaw, M. McKerns, I. Sagert, L. G. Stanton, M. S. Murillo(参考訳) 機械学習の手法は、複雑な物理モデルのための計算量的に安価なサロゲートを構築するためにますます使われている。 これらのサロゲートの予測能力は、データがノイズ、スパース、時間に依存しない場合に発生する。 将来的なモデル評価の有効な予測を提供するサロゲートの発見に関心があるので,最適化型サンプリングによるオンライン学習手法を提案する。 この方法は現在のアプローチよりも2つの利点がある。 まず、モデル応答面上のすべての旋回点がトレーニングデータに含まれることを保証する。 第二に、新しいモデルの評価の後、サロゲートがテストされ、"score" が有効しきい値を下回れば "retrained" (更新) される。 ベンチマーク関数のテストにより、オプティマイザ指向のサンプリングは、スコアリング基準が全体的な精度を好む場合でも、局所的極端の精度の点で従来のサンプリング手法を上回っていることが分かる。 本手法を核物質のシミュレーションに適用し,核状態方程式の高精度なサロゲートを,いくつかのモデル評価を用いて高精度な計算から確実に自動生成できることを実証する。

Machine learning methods are increasingly used to build computationally inexpensive surrogates for complex physical models. The predictive capability of these surrogates suffers when data are noisy, sparse, or time-dependent. As we are interested in finding a surrogate that provides valid predictions of any potential future model evaluations, we introduce an online learning method empowered by optimizer-driven sampling. The method has two advantages over current approaches. First, it ensures that all turning points on the model response surface are included in the training data. Second, after any new model evaluations, surrogates are tested and "retrained" (updated) if the "score" drops below a validity threshold. Tests on benchmark functions reveal that optimizer-directed sampling generally outperforms traditional sampling methods in terms of accuracy around local extrema, even when the scoring metric favors overall accuracy. We apply our method to simulations of nuclear matter to demonstrate that highly accurate surrogates for the nuclear equation of state can be reliably auto-generated from expensive calculations using a few model evaluations.
翻訳日:2023-05-03 18:03:42 公開日:2023-05-02
# 超電導量子ビットの動的デカップリング:性能調査

Dynamical decoupling for superconducting qubits: a performance survey ( http://arxiv.org/abs/2207.03670v2 )

ライセンス: Link先を確認
Nic Ezzell, Bibek Pokharel, Lina Tewala, Gregory Quiroz, Daniel A. Lidar(参考訳) dynamical decoupling (dd) は、量子コンピュータの性能を改善するための最も単純でリソース集約的なエラー抑制戦略である。 本稿では,高次エラーキャンセル特性と組込みロバスト性を含む10のファミリーから60種類のDDシークエンスの性能を大規模に調査する。 この調査は、3つの異なる超伝導量子ビットibmqデバイスを用いて行われ、任意の量子状態保存の設定における異なるシーケンスの相対性能を評価することを目的としている。 一般に、高次的ロバスト(UR)および二次DD(QDD)配列は、デバイス間およびパルス間隔設定において、他のすべてのシーケンスより優れている。 驚くべきことに、cpmgやxy4といった基本シーケンスのdd性能は、パルス間隔を最適化することでurやqddとほぼ一致し、最適な間隔は各デバイスで可能な最小間隔よりもかなり大きい。

Dynamical Decoupling (DD) is perhaps the simplest and least resource-intensive error suppression strategy for improving quantum computer performance. Here we report on a large-scale survey of the performance of 60 different DD sequences from 10 families, including basic as well as advanced sequences with high order error cancellation properties and built-in robustness. The survey is performed using three different superconducting-qubit IBMQ devices, with the goal of assessing the relative performance of the different sequences in the setting of arbitrary quantum state preservation. We find that the high-order universally robust (UR) and quadratic DD (QDD) sequences generally outperform all other sequences across devices and pulse interval settings. Surprisingly, we find that DD performance for basic sequences such as CPMG and XY4 can be made to nearly match that of UR and QDD by optimizing the pulse interval, with the optimal interval being substantially larger than the minimum interval possible on each device.
翻訳日:2023-05-03 18:03:03 公開日:2023-05-02
# L^2$-regularizationによるニューラルスタイン批判

Neural Stein critics with staged $L^2$-regularization ( http://arxiv.org/abs/2207.03406v3 )

ライセンス: Link先を確認
Matthew Repasky, Xiuyuan Cheng, Yao Xie(参考訳) 観測データとモデル分布を区別する学習は統計学と機械学習の基本的な問題であり、高次元データはそのような問題に対して困難な設定のままである。 スタイン差分のような確率分布の格差を定量化する計量は、高次元統計検査において重要な役割を果たす。 本稿では,未知確率分布からサンプリングされたデータと名目モデル分布とを区別するために,ニューラルネットワーク批判者の訓練における$l^2$正規化の役割について検討する。 神経接核(neural tangent kernel, ntk)理論と関連づけ, 初期における高正規化トレーニングの利点を活かし, 訓練時間に対する正則化の重み付けのための新しいステージング手順を開発した。 理論的には、l^2$の正規化重みが大きい場合、カーネル最適化によるトレーニングダイナミクスの近似、すなわち `lazy training'' を証明し、n$のサンプルのトレーニングは${o}(n^{-1/2})$の対数係数で収束する。 その結果、ゼロタイムNTKの先頭の固有モードと十分な整合性を仮定した最適批評家の学習が保証される。 実演した$L^2$正規化の利点は、シミュレーションされた高次元データと画像データの生成モデル評価への応用について示す。

Learning to differentiate model distributions from observed data is a fundamental problem in statistics and machine learning, and high-dimensional data remains a challenging setting for such problems. Metrics that quantify the disparity in probability distributions, such as the Stein discrepancy, play an important role in high-dimensional statistical testing. In this paper, we investigate the role of $L^2$ regularization in training a neural network Stein critic so as to distinguish between data sampled from an unknown probability distribution and a nominal model distribution. Making a connection to the Neural Tangent Kernel (NTK) theory, we develop a novel staging procedure for the weight of regularization over training time, which leverages the advantages of highly-regularized training at early times. Theoretically, we prove the approximation of the training dynamic by the kernel optimization, namely the ``lazy training'', when the $L^2$ regularization weight is large, and training on $n$ samples converge at a rate of ${O}(n^{-1/2})$ up to a log factor. The result guarantees learning the optimal critic assuming sufficient alignment with the leading eigen-modes of the zero-time NTK. The benefit of the staged $L^2$ regularization is demonstrated on simulated high dimensional data and an application to evaluating generative models of image data.
翻訳日:2023-05-03 18:02:47 公開日:2023-05-02
# オンライン2段階安定マッチング

Online 2-stage Stable Matching ( http://arxiv.org/abs/2207.02057v2 )

ライセンス: Link先を確認
Evripidis Bampis and Bruno Escoffier and Paul Youssef(参考訳) 学生が大学に配属されるシステムを考える。 学生が応募する第1ラウンドがあり、$m_1$に対応する第1ラウンド(stable)を計算しなければならない。 しかし、一部の学生は制度を離れることを決意することがある(計画を変更したり、外国の大学に行ったり、制度にない機関へ行ったり)。 そして、(これらの削除の後)第2ラウンドで、2番目の(最終的な)安定な$M_2$を計算する。 割り当ての変更は望ましくないため、目標は2つの安定マッチングである$m_1$と$m_2$の間の離婚/修正の数を最小化することである。 すると、$M_1$と$M_2$をどうやって選ぶべきか? この問題を解くための "it optimal online} アルゴリズムが存在することを示す。 特に、支配性のおかげで、システムを離れる学生を知らずに、最適に$m_1$を計算できることが示される。 結果は、入力(学生、オープンポジション)の他の可能な変更に一般化する。 また、さらに多くの段階についても取り組み、3つの段階が存在するとすぐに考慮された問題に対して競合的(オンライン)アルゴリズムが実現できないことを示した。

We focus on an online 2-stage problem, motivated by the following situation: consider a system where students shall be assigned to universities. There is a first round where some students apply, and a first (stable) matching $M_1$ has to be computed. However, some students may decide to leave the system (change their plan, go to a foreign university, or to some institution not in the system). Then, in a second round (after these deletions), we shall compute a second (final) stable matching $M_2$. As it is undesirable to change assignments, the goal is to minimize the number of divorces/modifications between the two stable matchings $M_1$ and $M_2$. Then, how should we choose $M_1$ and $M_2$? We show that there is an {\it optimal online} algorithm to solve this problem. In particular, thanks to a dominance property, we show that we can optimally compute $M_1$ without knowing the students that will leave the system. We generalize the result to some other possible modifications in the input (students, open positions). We also tackle the case of more stages, showing that no competitive (online) algorithm can be achieved for the considered problem as soon as there are 3 stages.
翻訳日:2023-05-03 18:02:22 公開日:2023-05-02
# Likelihood Splitsによるロングテール一般化のベンチマーク

Benchmarking Long-tail Generalization with Likelihood Splits ( http://arxiv.org/abs/2210.06799v2 )

ライセンス: Link先を確認
Ameya Godbole, Robin Jia(参考訳) 自然言語を確実に処理するためには、NLPシステムは稀な発話の長い尾に一般化する必要がある。 本稿では,既存のデータセットを再分割することで,分布の尾に一般化する必要のある,挑戦的なベンチマークを作成する手法を提案する。 事前訓練された言語モデル(LM)によって低い確率で割り当てられた例をテストセットに配置する「Likelihood Splits」を作成し、より可能性の高い例をトレーニングセットに配置する。 このシンプルなアプローチは、幅広いタスクで有意義な列車テスト分割を構築するためにカスタマイズできる。 Likelihood Splitsは、ランダムスプリットよりも多くの課題を浮き彫りにする: 最先端モデルの相対誤差率は、スパイダーのセマンティック解析では59%、SNLIの自然言語推論では93%、BoolQのイエス/ノー質問では33%増加します。 さらに、Islihood Splitsは、逆フィルタリングよりも公平なベンチマークを作成し、このスプリットを作成するために使用されるLMもタスクモデルとして使用される場合、私たちのスプリットはLMを不公平に罰するものではない。

In order to reliably process natural language, NLP systems must generalize to the long tail of rare utterances. We propose a method to create challenging benchmarks that require generalizing to the tail of the distribution by re-splitting existing datasets. We create 'Likelihood Splits' where examples that are assigned lower likelihood by a pre-trained language model (LM) are placed in the test set, and more likely examples are in the training set. This simple approach can be customized to construct meaningful train-test splits for a wide range of tasks. Likelihood Splits surface more challenges than random splits: relative error rates of state-of-the-art models increase by 59% for semantic parsing on Spider, 93% for natural language inference on SNLI, and 33% for yes/no question answering on BoolQ, on our splits compared with the corresponding random splits. Moreover, Likelihood Splits create fairer benchmarks than adversarial filtering; when the LM used to create the splits is also employed as the task model, our splits do not unfairly penalize the LM.
翻訳日:2023-05-03 17:56:57 公開日:2023-05-02
# 環境対応言語モデルを用いた実行可能行動計画の生成

Generating Executable Action Plans with Environmentally-Aware Language Models ( http://arxiv.org/abs/2210.04964v2 )

ライセンス: Link先を確認
Maitrey Gramopadhye, Daniel Szafir(参考訳) 大量のテキストデータセットを使用してトレーニングされた大規模言語モデル(LLM)は、最近、ハイレベルテキストクエリからロボットエージェントのアクションプランを生成することを約束している。 しかし、これらのモデルは通常ロボットの環境を考慮せず、計画された行動や環境制約の曖昧さのために実際に実行できないような計画を生成する。 本稿では,エージェントがより実行しやすい環境対応行動計画を作成する手法を提案する。 本手法では,環境オブジェクトとオブジェクトの関係をLLMアクションプラン生成に付加的な入力として統合し,環境に対する意識をシステムに提供し,各アクションをシーンに存在するオブジェクトにマッピングする計画を作成する。 また、アクションステップを生成してオブジェクトと関連付けるとともに、システムがオブジェクトインスタンス間で曖昧にし、状態を考慮するのに役立つ新しいスコアリング関数を設計する。 提案手法をvirtualhomeシミュレータとactivityprogramsの知識ベースを用いて評価した結果,システムから生成した行動計画では実行可能性が310%向上し,以前の作業よりも147%改善することが判明した。 このメソッドの完全なコードとデモは、https://github.com/hri-ironlab/scene_aware_language_plannerで公開されている。

Large Language Models (LLMs) trained using massive text datasets have recently shown promise in generating action plans for robotic agents from high level text queries. However, these models typically do not consider the robot's environment, resulting in generated plans that may not actually be executable, due to ambiguities in the planned actions or environmental constraints. In this paper, we propose an approach to generate environmentally-aware action plans that agents are better able to execute. Our approach involves integrating environmental objects and object relations as additional inputs into LLM action plan generation to provide the system with an awareness of its surroundings, resulting in plans where each generated action is mapped to objects present in the scene. We also design a novel scoring function that, along with generating the action steps and associating them with objects, helps the system disambiguate among object instances and take into account their states. We evaluated our approach using the VirtualHome simulator and the ActivityPrograms knowledge base and found that action plans generated from our system had a 310% improvement in executability and a 147% improvement in correctness over prior work. The complete code and a demo of our method is publicly available at https://github.com/hri-ironlab/scene_aware_language_planner.
翻訳日:2023-05-03 17:56:34 公開日:2023-05-02
# 混合データにおける条件付き特徴の重要性

Conditional Feature Importance for Mixed Data ( http://arxiv.org/abs/2210.03047v3 )

ライセンス: Link先を確認
Kristin Blesch, David S. Watson, Marvin N. Wright(参考訳) 解釈可能な機械学習における特徴重要度(FI)尺度の人気にもかかわらず、これらの手法の統計的妥当性はめったに議論されていない。 統計学的観点からは、変数の共変量に対する調整前後の重要性を分析することが大きな違いである。 $\textit{marginal}$と$\textit{conditional}$ measuresの間にある。 私たちの作品は、ほとんど認められていないが重要な区別に注意を向け、その意味を示している。 さらに,条件付きFIの試験では,データ要件のミスマッチにより,実践者が厳格に制限されている手法はごくわずかであることがわかった。 ほとんどの実世界のデータは複雑な機能依存を示し、連続データと分類データの両方(混合データ)を組み込んでいる。 両方の性質はしばしば条件付きfi対策によって無視される。 このギャップを埋めるために、条件付き予測インパクト(CPI)フレームワークとシーケンシャルノックオフサンプリングを組み合わせることを提案する。 CPIは、有効なノックオフ(従って、同様の統計特性を持つ合成データを生成する)をサンプリングすることで、任意の機能依存関係を制御する条件付きFI測定を可能にする。 逐次ノックオフは、混合データを扱うために意図的に設計されており、CPIアプローチをそのようなデータセットに拡張することができます。 我々は,多数のシミュレーションと実例を通して,提案したワークフローがI型エラーを制御し,高出力を実現し,他の条件FI測定結果と一致していることを示す。 本研究は,混合データに対して統計的に適切な特殊手法を開発する必要性を浮き彫りにした。

Despite the popularity of feature importance (FI) measures in interpretable machine learning, the statistical adequacy of these methods is rarely discussed. From a statistical perspective, a major distinction is between analyzing a variable's importance before and after adjusting for covariates - i.e., between $\textit{marginal}$ and $\textit{conditional}$ measures. Our work draws attention to this rarely acknowledged, yet crucial distinction and showcases its implications. Further, we reveal that for testing conditional FI, only few methods are available and practitioners have hitherto been severely restricted in method application due to mismatching data requirements. Most real-world data exhibits complex feature dependencies and incorporates both continuous and categorical data (mixed data). Both properties are oftentimes neglected by conditional FI measures. To fill this gap, we propose to combine the conditional predictive impact (CPI) framework with sequential knockoff sampling. The CPI enables conditional FI measurement that controls for any feature dependencies by sampling valid knockoffs - hence, generating synthetic data with similar statistical properties - for the data to be analyzed. Sequential knockoffs were deliberately designed to handle mixed data and thus allow us to extend the CPI approach to such datasets. We demonstrate through numerous simulations and a real-world example that our proposed workflow controls type I error, achieves high power and is in line with results given by other conditional FI measures, whereas marginal FI metrics result in misleading interpretations. Our findings highlight the necessity of developing statistically adequate, specialized methods for mixed data.
翻訳日:2023-05-03 17:56:13 公開日:2023-05-02
# グラフスケッチによるリンク予測のためのグラフニューラルネットワーク

Graph Neural Networks for Link Prediction with Subgraph Sketching ( http://arxiv.org/abs/2209.15486v3 )

ライセンス: Link先を確認
Benjamin Paul Chamberlain, Sergey Shirobokov, Emanuele Rossi, Fabrizio Frasca, Thomas Markovich, Nils Hammerla, Michael M. Bronstein and Max Hansmire(参考訳) 多くのグラフニューラルネットワーク(GNN)は、リンク予測(LP)タスクの単純なヒューリスティックスと比較して性能が劣る。 これは、三角形(ほとんどのLPヒューリスティックスのバックボーン)を数えられないことや、正則ノードを区別できないこと(それらが同じ構造的役割を持つ)など、表現力の制限によるものである。 両方の表現性の問題は、(ノードではなく)リンクの表現を学習し、三角数のような構造的特徴を取り入れることで緩和できる。 明示的なリンク表現は、しばしば違法に高価であるため、最近の研究は、LPの最先端性能を達成したサブグラフベースの手法に頼っているが、サブグラフ間の高い冗長性のために効率が悪くなっている。 リンク予測のためのサブグラフGNN(SGNN)手法の構成要素を解析する。 そこで本研究では,sgnnの重要なコンポーネントを明示的なサブグラフ構成なしで近似するために,サブグラフのスケッチをメッセージとして渡す,elph ( efficient link prediction with hashing) と呼ばれる新しいフルグラフgnnを提案する。 ELPHはMessage Passing GNN(MPNN)よりも明らかに表現力が高い。 多くの標準LPベンチマークで既存のSGNNモデルより優れ、桁違いに高速である。 しかし、データセットがGPUメモリに収まる場合にのみ効率が良いという一般的なGNN制限を共有している。 そこで,予測性能を犠牲にすることなく,機能プリ計算を用いてこの制限を回避する,BUDDYと呼ばれる高度にスケーラブルなモデルを開発した。 実験の結果, BUDDYは標準LPベンチマークではSGNNよりも高い性能を示し, ELPHよりも高速かつスケーラブルであることがわかった。

Many Graph Neural Networks (GNNs) perform poorly compared to simple heuristics on Link Prediction (LP) tasks. This is due to limitations in expressive power such as the inability to count triangles (the backbone of most LP heuristics) and because they can not distinguish automorphic nodes (those having identical structural roles). Both expressiveness issues can be alleviated by learning link (rather than node) representations and incorporating structural features such as triangle counts. Since explicit link representations are often prohibitively expensive, recent works resorted to subgraph-based methods, which have achieved state-of-the-art performance for LP, but suffer from poor efficiency due to high levels of redundancy between subgraphs. We analyze the components of subgraph GNN (SGNN) methods for link prediction. Based on our analysis, we propose a novel full-graph GNN called ELPH (Efficient Link Prediction with Hashing) that passes subgraph sketches as messages to approximate the key components of SGNNs without explicit subgraph construction. ELPH is provably more expressive than Message Passing GNNs (MPNNs). It outperforms existing SGNN models on many standard LP benchmarks while being orders of magnitude faster. However, it shares the common GNN limitation that it is only efficient when the dataset fits in GPU memory. Accordingly, we develop a highly scalable model, called BUDDY, which uses feature precomputation to circumvent this limitation without sacrificing predictive performance. Our experiments show that BUDDY also outperforms SGNNs on standard LP benchmarks while being highly scalable and faster than ELPH.
翻訳日:2023-05-03 17:55:47 公開日:2023-05-02
# コヒーレント結合量子発振器における量子貯水池ニューラルネットワークの実装

Quantum reservoir neural network implementation on coherently coupled quantum oscillators ( http://arxiv.org/abs/2209.03221v3 )

ライセンス: Link先を確認
Julien Dudas, Baptiste Carles, Erwan Plouet, Alice Mizrahi, Julie Grollier, and Danijela Markovi\'c(参考訳) 量子貯水池コンピューティングは量子ニューラルネットワークにとって有望なアプローチであり、古典的および量子的入力データの両方のハードラーニングタスクを解くことができる。 しかし、現在のqubitsのアプローチは接続性に制限がある。 物理結合量子ビットの代わりにパラメトリック結合量子発振器を用いて、多数の密結合ニューロンを得る量子貯水池の実装を提案する。 超伝導回路に基づく特定のハードウェア実装を解析し、2つの結合量子発振器で最大81個のニューロンからなる量子貯留体を作成する。 我々は,24個の古典振動子の解法を必要とするベンチマークタスクにおいて,99パーセントの最先端精度を得る。 その結果,システム内の結合と散逸の要件が得られ,量子貯留層の性能にどのように影響するかを示す。 量子リザーバコンピューティング以外にも、パラメトリック結合ボソニックモードの使用は、数十億のニューロンが10個の結合量子振動子で実装され、大きな量子ニューラルネットワークアーキテクチャを実現する可能性を秘めている。

Quantum reservoir computing is a promising approach for quantum neural networks, capable of solving hard learning tasks on both classical and quantum input data. However, current approaches with qubits suffer from limited connectivity. We propose an implementation for quantum reservoir that obtains a large number of densely connected neurons by using parametrically coupled quantum oscillators instead of physically coupled qubits. We analyse a specific hardware implementation based on superconducting circuits: with just two coupled quantum oscillators, we create a quantum reservoir comprising up to 81 neurons. We obtain state-of-the-art accuracy of 99 % on benchmark tasks that otherwise require at least 24 classical oscillators to be solved. Our results give the coupling and dissipation requirements in the system and show how they affect the performance of the quantum reservoir. Beyond quantum reservoir computing, the use of parametrically coupled bosonic modes holds promise for realizing large quantum neural network architectures, with billions of neurons implemented with only 10 coupled quantum oscillators.
翻訳日:2023-05-03 17:54:57 公開日:2023-05-02
# 装飾AKLTモデルにおけるスペクトルギャップと基底状態の不明瞭性の安定性

Stability of the spectral gap and ground state indistinguishability for a decorated AKLT model ( http://arxiv.org/abs/2209.01141v2 )

ライセンス: Link先を確認
Angelo Lucia, Alvin Moon and Amanda Young(参考訳) AKLTモデルに対する有限体積基底状態の局所的不明瞭性を確立するためにクラスター展開を用いる。 我々の推定では、モデルは局所的位相量子秩序(LTQO)を満たすため、基底状態上のスペクトルギャップは局所的摂動に対して安定である。

We use cluster expansions to establish local indistiguishability of the finite-volume ground states for the AKLT model on decorated hexagonal lattices with decoration parameter at least 5. Our estimates imply that the model satisfies local topological quantum order (LTQO), and so the spectral gap above the ground state is stable against local perturbations.
翻訳日:2023-05-03 17:54:36 公開日:2023-05-02
# ハイゼンベルク制限コヒーレンスとサブポアソニアンビームフォトン統計量を用いた最適化レーザモデル

Optimized Laser Models with Heisenberg-Limited Coherence and Sub-Poissonian Beam Photon Statistics ( http://arxiv.org/abs/2208.14082v3 )

ライセンス: Link先を確認
L. A. Ostrowski, T. J. Baker, S. N. Saadatmand, and H. M. Wiseman(参考訳) 近年、レーザーがコヒーレンス(スペクトルピークでの平均光子数として定量化されている)を持つ定常ビームをレーザーに格納された平均励起数の4番目のパワーとして生成することが可能であることが示されており、これは標準またはシェーロータウン限界[1]よりも2倍大きい。 さらに、これはCWレーザーの定義条件下での究極の量子限界(ハイゼンベルク限界)スケーリングであり、出力ビームの性質に関する強い仮定であることが解析的に証明された。 refで。 [2]では,上界のスケーリングや達成性を変化させることなく,ポアソニアンの出力ビームを高度にサブポアソニアンにできるという,より弱い仮定に置き換えることができることを示す。 本稿では,Refにおける計算の詳細について述べる。 [2]) として, レーザーモデルの3つの新しいファミリーを導入し, その成果の一般化と見なすことができる。 これらのレーザーモデルのそれぞれの族は実数$p$でパラメータ化され、元のモデルに対応する$p=4$である。 これらのレーザーファミリーのパラメータ空間を詳細に解析し、レーザービームのコヒーレンスと光子統計の両方に対するこれらのパラメータの影響について検討する。 このコヒーレンスに対する2つの異なる規則は、$p$の選択に基づいて特定され、$p>3$の場合、各モデルの族はハイゼンベルク制限ビームコヒーレンスを示すが、$p<3$の場合、ハイゼンベルク極限はもはや達成されない。 さらに、前政権では、これらの3つのレーザー系列のそれぞれが数値に一致するビームコヒーレンスの公式を導出する。 最適パラメータは実際には$p=4$ではなく$p\approx4.15$である。

Recently it has been shown that it is possible for a laser to produce a stationary beam with a coherence (quantified as the mean photon number at spectral peak) which scales as the fourth power of the mean number of excitations stored within the laser, this being quadratically larger than the standard or Schawlow-Townes limit [1]. Moreover, this was analytically proven to be the ultimate quantum limit (Heisenberg limit) scaling under defining conditions for CW lasers, plus a strong assumption about the properties of the output beam. In Ref. [2], we show that the latter can be replaced by a weaker assumption, which allows for highly sub-Poissonian output beams, without changing the upper bound scaling or its achievability. In this Paper, we provide details of the calculations in Ref. [2], and introduce three new families of laser models which may be considered as generalizations of those presented in that work. Each of these families of laser models is parameterized by a real number, $p$, with $p=4$ corresponding to the original models. The parameter space of these laser families is numerically investigated in detail, where we explore the influence of these parameters on both the coherence and photon statistics of the laser beams. Two distinct regimes for the coherence may be identified based on the choice of $p$, where for $p>3$, each family of models exhibits Heisenberg-limited beam coherence, while for $p<3$, the Heisenberg limit is no longer attained. Moreover, in the former regime, we derive formulae for the beam coherence of each of these three laser families which agree with the numerics. We find that the optimal parameter is in fact $p\approx4.15$, not $p=4$.
翻訳日:2023-05-03 17:54:07 公開日:2023-05-02
# ハイゼンベルク制限レーザーのコヒーレンスとポアソニアン性とのトレードオフ

No Tradeoff between Coherence and Sub-Poissonianity for Heisenberg-Limited Lasers ( http://arxiv.org/abs/2208.14081v3 )

ライセンス: Link先を確認
L. A. Ostrowski, T. J. Baker, S. N. Saadatmand, and H. M. Wiseman(参考訳) レーザーコヒーレンスに対するハイゼンベルクの極限$\mathfrak{C}$ -- レーザービームの最大密度モードにおける光子の数 - は、レーザー内部の励起数の4番目のパワーである。 我々は、この上限スケーリングの以前の証明を、ビームフォトン統計がポアソニアンである(すなわちマンデルの$q=0$)という条件を落とすことによって一般化する。 次に、$\mathfrak{C}$とsub-Poissonianity(Q<0$)の関係は、トレードオフではなく、勝っていることを示す。 半単位ゲイン($Q\xrightarrow{}-1$)を持つ正規(非マルコフアン)ポンピングと最適化ゲインを持つランダム(マルコフアン)ポンピングの両方の場合、$Q$が最小になったときに$\mathfrak{C}$が最大になる。

The Heisenberg limit to laser coherence $\mathfrak{C}$ -- the number of photons in the maximally populated mode of the laser beam -- is the fourth power of the number of excitations inside the laser. We generalize the previous proof of this upper bound scaling by dropping the requirement that the beam photon statistics be Poissonian (i.e., Mandel's $Q=0$). We then show that the relation between $\mathfrak{C}$ and sub-Poissonianity ($Q<0$) is win-win, not a tradeoff. For both regular (non-Markovian) pumping with semi-unitary gain (which allows $Q\xrightarrow{}-1$), and random (Markovian) pumping with optimized gain, $\mathfrak{C}$ is maximized when $Q$ is minimized.
翻訳日:2023-05-03 17:53:33 公開日:2023-05-02
# 文書理解のためのwebベースの視覚コーパス構築について

On Web-based Visual Corpus Construction for Visual Document Understanding ( http://arxiv.org/abs/2211.03256v2 )

ライセンス: Link先を確認
Donghyun Kim, Teakgyu Hong, Moonbin Yim, Yoonsik Kim, Geewook Kim(参考訳) 近年,視覚的文書理解(VDU)の研究が著しく発展し,特に自己指導型学習手法の開発に重点が置かれている。 しかしながら、この分野で直面した重要な課題の1つは、公開アクセス可能なビジュアルコーパスや詳細なテキストアノテーションを備えた画像のコレクション、特に非ラテン言語やリソーススカルス言語での使用が制限されていることである。 そこで本研究では,wikipedia htmlダンプから大規模多言語視覚コーパスを構築可能なデータセット生成エンジンであるweb-based visual corpus builder (webvicob)を提案する。 実験の結果,Webvicobが生成したデータは,DocVQAやポストOCR解析などの下流タスクでよく動作する堅牢なVDUモデルのトレーニングに利用できることがわかった。 さらに,webvicobが生成する100万画像のデータセットを用いた場合,iit-cdipの1100万画像のデータセットと比較して,docvqaタスク3で13%以上の改善が見られた。 私たちのエンジンの実装はhttps://github.com/clovaai/webvicobで公開されています。

In recent years, research on visual document understanding (VDU) has grown significantly, with a particular emphasis on the development of self-supervised learning methods. However, one of the significant challenges faced in this field is the limited availability of publicly accessible visual corpora or extensive collections of images with detailed text annotations, particularly for non-Latin or resource-scarce languages. To address this challenge, we propose Web-based Visual Corpus Builder (Webvicob), a dataset generator engine capable of constructing large-scale, multilingual visual corpora from raw Wikipedia HTML dumps. Our experiments demonstrate that the data generated by Webvicob can be used to train robust VDU models that perform well on various downstream tasks, such as DocVQA and post-OCR parsing. Furthermore, when using a dataset of 1 million images generated by Webvicob, we observed an improvement of over 13% on the DocVQA Task 3 compared to a dataset of 11 million images from the IIT-CDIP. The implementation of our engine is publicly available on https://github.com/clovaai/webvicob
翻訳日:2023-05-03 17:46:10 公開日:2023-05-02
# Going In Style:ステレオ変換によるオーディオバックドア

Going In Style: Audio Backdoors Through Stylistic Transformations ( http://arxiv.org/abs/2211.03117v3 )

ライセンス: Link先を確認
Stefanos Koffas, Luca Pajola, Stjepan Picek, Mauro Conti(参考訳) この研究は、オーディオ領域におけるバックドア攻撃のスタイル的トリガー:ギター効果による悪意あるサンプルの動的変換を探索する。 私たちはまず、スタイリスティックなトリガーを形式化します。 第2に,jinglebackの提案により,音声領域におけるスタイリスティックトリガーの開発方法を検討する。 実験では,攻撃の有効性を確認し,攻撃成功率96%を得た。 私たちのコードはhttps://github.com/skoffas/going-in-styleで利用可能です。

This work explores stylistic triggers for backdoor attacks in the audio domain: dynamic transformations of malicious samples through guitar effects. We first formalize stylistic triggers - currently missing in the literature. Second, we explore how to develop stylistic triggers in the audio domain by proposing JingleBack. Our experiments confirm the effectiveness of the attack, achieving a 96% attack success rate. Our code is available in https://github.com/skoffas/going-in-style.
翻訳日:2023-05-03 17:45:50 公開日:2023-05-02
# 透過体局在のための量子センサネットワークアルゴリズム

Quantum Sensor Network Algorithms for Transmitter Localization ( http://arxiv.org/abs/2211.02260v3 )

ライセンス: Link先を確認
Caitao Zhan and Himanshu Gupta(参考訳) 量子センサ(QS)は、様々な物理現象を極度に感度で測定することができる。 QSは原子間干渉計などのいくつかの用途で使用されているが、量子センサネットワーク(QSN)の応用はほとんど提案されていない。 イベント(特に無線信号送信機)の局所化(qsn)の自然な応用について考察する。 本稿では,QSNを用いた送信機のローカライズに有効な量子ベース手法を提案する。 提案手法は,量子状態識別(qsd)問題としてローカライゼーション問題を取り上げ,ローカライゼーション問題への応用における課題に対処する。 特に、量子状態識別ソリューションは、特に状態数(つまり、我々の場合の送信可能位置数)が高い場合、高い誤差確率を被る可能性がある。 この課題は、送信機を第1のレベルで粗粒度、次いで第2のレベルでより微細粒度に局在させる2レベル局所化手法を開発することで解決される。 我々は、qsdの計測演算子を訓練されたパラメータ化ハイブリッド量子古典回路に置き換える新しいスキームを開発することにより、一般計測の不実用性のさらなる課題に対処する。 個別に構築したシミュレータを用いて評価した結果,測定値レベル (1-5m) の局所化精度が得られ, 離散位置の場合, ほぼ完全 (99-100\%) の分類精度が得られた。

A quantum sensor (QS) is able to measure various physical phenomena with extreme sensitivity. QSs have been used in several applications such as atomic interferometers, but few applications of a quantum sensor network (QSN) have been proposed or developed. We look at a natural application of QSN -- localization of an event (in particular, of a wireless signal transmitter). In this paper, we develop effective quantum-based techniques for the localization of a transmitter using a QSN. Our approaches pose the localization problem as a well-studied quantum state discrimination (QSD) problem and address the challenges in its application to the localization problem. In particular, a quantum state discrimination solution can suffer from a high probability of error, especially when the number of states (i.e., the number of potential transmitter locations in our case) can be high. We address this challenge by developing a two-level localization approach, which localizes the transmitter at a coarser granularity in the first level, and then, in a finer granularity in the second level. We address the additional challenge of the impracticality of general measurements by developing new schemes that replace the QSD's measurement operator with a trained parameterized hybrid quantum-classical circuit. Our evaluation results using a custom-built simulator show that our best scheme is able to achieve meter-level (1-5m) localization accuracy; in the case of discrete locations, it achieves near-perfect (99-100\%) classification accuracy.
翻訳日:2023-05-03 17:45:45 公開日:2023-05-02
# Code Rewiring を用いた論理演算子の実装

Implementing Logical Operators using Code Rewiring ( http://arxiv.org/abs/2210.14074v2 )

ライセンス: Link先を確認
Darren Banfield, Alastair Kay(参考訳) 本稿では, 位相サブシステムカラーコード [bombin, 2011] の結果を一般化し, クリフォード群を安定化コードに実装するために, 計測と補正操作を使用する手法について述べる。 少なくとも3ドルのサブシステム安定化コードでは、プロセスはフォールトトレラントに実装できる。 具体的には、15量子ビットのリード・ミュラー量子コードに論理的なアダマール型ゲートを実装する方法を提供し、3つの可観測性のみを測定し修正する。 これは[Paetznick and Reichardt, 2013]によって提案された、この符号の量子コンピューティングに普遍的なゲートセットを生成する方法の代替である。 この構造は、[Colladay and Mueller, 2018]からのコード変更の説明にインスパイアされています。

We describe a method to use measurements and correction operations in order to implement the Clifford group in a stabilizer code, generalising a result from [Bombin,2011] for topological subsystem colour codes. In subsystem stabilizer codes of distance at least $3$ the process can be implemented fault-tolerantly. In particular this provides a method to implement a logical Hadamard-type gate within the 15-qubit Reed-Muller quantum code by measuring and correcting only three observables. This is an alternative to the method proposed by [Paetznick and Reichardt, 2013] to generate a set of gates which is universal for quantum computing for this code. The construction is inspired by the description of code rewiring from [Colladay and Mueller, 2018].
翻訳日:2023-05-03 17:45:09 公開日:2023-05-02
# 多行動政策のグラディエントについて

On Many-Actions Policy Gradient ( http://arxiv.org/abs/2210.13011v3 )

ライセンス: Link先を確認
Michal Nauman and Marek Cygan(参考訳) 確率的政策勾配 (SPGs) と状態毎のアクションサンプルのばらつきについて検討した。 我々は,多作用のspgが分散を生じさせる時期を決定する多作用最適条件を,比例伸長軌道を持つ単作用剤と比較して導出する。 SPGの文脈における多行動サンプリングに動的モデルを活用するモデルベース多行動(MBMA)を提案する。 MBMAは、マルチアクションSPGの既存の実装に関連する問題に対処し、モデルシミュレーションロールアウトの状態から推定される低いバイアスとSPGに匹敵する分散をもたらす。 MBMAバイアスと分散構造は理論によって予測されるものと一致している。 その結果, MBMAはモデルフリー, 多アクション, モデルベースSPGベースラインと比較して, サンプル効率の向上と, 一連の連続行動環境のリターンの向上を実現している。

We study the variance of stochastic policy gradients (SPGs) with many action samples per state. We derive a many-actions optimality condition, which determines when many-actions SPG yields lower variance as compared to a single-action agent with proportionally extended trajectory. We propose Model-Based Many-Actions (MBMA), an approach leveraging dynamics models for many-actions sampling in the context of SPG. MBMA addresses issues associated with existing implementations of many-actions SPG and yields lower bias and comparable variance to SPG estimated from states in model-simulated rollouts. We find that MBMA bias and variance structure matches that predicted by theory. As a result, MBMA achieves improved sample efficiency and higher returns on a range of continuous action environments as compared to model-free, many-actions, and model-based on-policy SPG baselines.
翻訳日:2023-05-03 17:44:36 公開日:2023-05-02
# トランスフォーマーはショートカットからオートマタを学ぶ

Transformers Learn Shortcuts to Automata ( http://arxiv.org/abs/2210.10749v2 )

ライセンス: Link先を確認
Bingbin Liu, Jordan T. Ash, Surbhi Goel, Akshay Krishnamurthy, Cyril Zhang(参考訳) アルゴリズム推論はチューリングマシンのような計算の繰り返しモデルによって最も自然に理解される能力を必要とする。 しかし、トランスフォーマーモデルは再帰を欠くものの、推論ステップの数よりもはるかに少ない層でそのような推論を行うことができる。 このような浅く非リカレントなモデルからどのような解決策が学べるのか? 有限状態オートマトン(つまり、任意の有界メモリアルゴリズム)の計算を階層的に再パラメータ化することで、低深さトランスフォーマーが表現できることを見出した。 理論的には,$o(T)$層を持つ変換器は,長さ$T$の入力シーケンス上で,オートマトンを正確に再現することができる。 多項式サイズの$O(\log T)$-depth解は常に存在し、さらに$O(1)$-depthシミュレータは驚くほど一般的であり、Krohn-Rhodes理論や回路複雑性のツールを使って理解することができる。 実験では,多種多様なオートマトンをシミュレートするために変圧器を訓練して合成実験を行い,標準訓練で近道解を学習できることを示す。 我々は,これらの解の脆性をさらに調査し,潜在的な緩和策を提案する。

Algorithmic reasoning requires capabilities which are most naturally understood through recurrent models of computation, like the Turing machine. However, Transformer models, while lacking recurrence, are able to perform such reasoning using far fewer layers than the number of reasoning steps. This raises the question: what solutions are learned by these shallow and non-recurrent models? We find that a low-depth Transformer can represent the computations of any finite-state automaton (thus, any bounded-memory algorithm), by hierarchically reparameterizing its recurrent dynamics. Our theoretical results characterize shortcut solutions, whereby a Transformer with $o(T)$ layers can exactly replicate the computation of an automaton on an input sequence of length $T$. We find that polynomial-sized $O(\log T)$-depth solutions always exist; furthermore, $O(1)$-depth simulators are surprisingly common, and can be understood using tools from Krohn-Rhodes theory and circuit complexity. Empirically, we perform synthetic experiments by training Transformers to simulate a wide variety of automata, and show that shortcut solutions can be learned via standard training. We further investigate the brittleness of these solutions and propose potential mitigations.
翻訳日:2023-05-03 17:44:23 公開日:2023-05-02
# ilpモデルに基づく量子アニーリングによる触覚ネットワークリソース割り当ての実現

Tactile Network Resource Allocation enabled by Quantum Annealing based on ILP Modeling ( http://arxiv.org/abs/2212.07854v2 )

ライセンス: Link先を確認
Arthur Witt, Christopher K\"orber, Andreas Kirst\"adter, Thomas Luu(参考訳) さまざまなネットワークサービスのオンデマンドプロビジョニングには、迅速な適応と再構成機能を備えたアジャイルネットワークが必要である。 本稿では,量子コンピューティング(QC)と整数線形プログラム(ILP)モデルに基づく短時間ネットワーク最適化のための新しい手法フレームワークを提案する。 本稿では,資源供給のための実世界のILPモデルを,量子アニール (QA) 上で解ける二次的非制約バイナリ最適化 (QUBO) 問題にマッピングする方法を定義する。 我々は,最先端の量子アニールD-Wave Advantage 5.2/5.3を用いて,我々のアプローチとそのソリューションの質を評価するために,三ノードネットワークに集中する。 熱処理過程を調べた結果,従来のICP-解法であるCPLEXが生成する参照解に近接して実現可能な構成パラメータが得られた。 さらに,ネットワーク問題のスケーリングについて検討し,大規模ネットワークに適切なQUBO問題を埋め込むために,量子アニールのハードウェア要件を推定した。 D-Wave Advantage上で最大6ノードのネットワークのQUBO埋め込みを実現した。 我々の推定によると、12から16のノードを持つ実サイズのネットワークは、50000キュービット以上のQAハードウェアを必要とする。

Agile networks with fast adaptation and reconfiguration capabilities are required for on-demand provisioning of various network services. We propose a new methodical framework for short-time network optimization based on quantum computing (QC) and integer linear program (ILP) models, which has the potential of realizing a real-time network automation. We define methods to map a nearly real-world ILP model for resource provisioning to a quadratic unconstrained binary optimization (QUBO) problem, which is solvable on quantum annealer (QA). We concentrate on the three-node network to evaluate our approach and its obtainable quality of solution using the state-of-the-art quantum annealer D-Wave Advantage 5.2/5.3. By studying the annealing process, we find annealing configuration parameters that obtain feasible solutions close to the reference solution generated by the classical ILP-solver CPLEX. Further, we studied the scaling of the network problem and provide estimations on quantum annealer's hardware requirements to enable a proper QUBO problem embedding of larger networks. We achieved the QUBO embedding of networks with up to 6 nodes on the D-Wave Advantage. According to our estimates a real-sized network with 12 to 16 nodes require a QA hardware with at least 50000 qubits or more.
翻訳日:2023-05-03 17:37:56 公開日:2023-05-02
# LidarCLIP あるいは: 私がポイントクラウドに話しかけた方法

LidarCLIP or: How I Learned to Talk to Point Clouds ( http://arxiv.org/abs/2212.06858v3 )

ライセンス: Link先を確認
Georg Hess, Adam Tonderski, Christoffer Petersson, Kalle {\AA}str\"om, Lennart Svensson(参考訳) テキストとイメージを接続する研究は、CLIP、DALL-E 2、Stable Diffusionといったモデルで、最近いくつかのブレークスルーがあった。 しかし、テキストとlidarデータのような他の視覚モダリティとの接続は、テキストライダーデータセットの欠如により、あまり注目されていない。 本稿では,自動車点雲から既存のCLIP埋め込み空間へのマッピングであるLidarCLIPを提案する。 画像ライダーペアを用いて,画像クリップ埋め込みを用いたポイントクラウドエンコーダを監督し,テキストとlidarデータを画像領域と中間領域に効果的に関連付ける。 lidarclipの有効性を示すために,lidarベースの検索は画像検索と同等であるが,強みと弱みは相補的であることを示す。 画像とライダーの機能を組み合わせることで,単一モードの手法を改良し,有害なセンサ条件下での課題検出シナリオを対象とする探索を可能にする。 また、ゼロショット分類についても検討し、LidarCLIPは、ポイントクラウドにCLIPを使用する既存の試みを、大きなマージンで上回っていることを示す。 最後に、CLIPとの互換性を活用して、追加のトレーニングなしで、ポイントクラウドキャプションやライダー対イメージ生成など、さまざまなアプリケーションを調査します。 コードと事前訓練されたモデルはhttps://github.com/atonderski/lidarclip.comで入手できる。

Research connecting text and images has recently seen several breakthroughs, with models like CLIP, DALL-E 2, and Stable Diffusion. However, the connection between text and other visual modalities, such as lidar data, has received less attention, prohibited by the lack of text-lidar datasets. In this work, we propose LidarCLIP, a mapping from automotive point clouds to a pre-existing CLIP embedding space. Using image-lidar pairs, we supervise a point cloud encoder with the image CLIP embeddings, effectively relating text and lidar data with the image domain as an intermediary. We show the effectiveness of LidarCLIP by demonstrating that lidar-based retrieval is generally on par with image-based retrieval, but with complementary strengths and weaknesses. By combining image and lidar features, we improve upon both single-modality methods and enable a targeted search for challenging detection scenarios under adverse sensor conditions. We also explore zero-shot classification and show that LidarCLIP outperforms existing attempts to use CLIP for point clouds by a large margin. Finally, we leverage our compatibility with CLIP to explore a range of applications, such as point cloud captioning and lidar-to-image generation, without any additional training. Code and pre-trained models are available at https://github.com/atonderski/lidarclip.
翻訳日:2023-05-03 17:37:34 公開日:2023-05-02
# 局所パターンの混合に関する技術報告

Technical Report of Mixing Local Patterns ( http://arxiv.org/abs/2212.03654v2 )

ライセンス: Link先を確認
Shuai Zheng(参考訳) グラフニューラルネットワーク(GNN)は、GNNの固有のローパスフィルタリング特性により、非ホモフィルグラフデータを扱う場合、好ましくないグラフデータに対して顕著な性能を示した。 ホモフィリーな性質の異なる複素実世界のグラフを解析する場合、グラフ内の潜在混合局所構造パターンは無視されるべきではない。 したがって、上述したように (\textbf{Q1}) と (\textbf{Q2}) という2つの質問は、より一般的な GNN の実装の途中でよく検討されるべきである。 この目的のために、我々はそれぞれの点からより深い洞察を得ようと試みる: \textbf{(A1): 局所パターンのランダム性、および \textbf{(A2): 近傍近傍パターンの集約可能性。

Graph neural networks (GNNs) have shown remarkable performance on homophilic graph data while being far less impressive when handling non-homophilic graph data due to the inherent low-pass filtering property of GNNs. In the face of analyzing complex real-world graphs with different homophily properties, the latent mixed local structural patterns in graphs should not be neglected. Therefore, the two questions, i.e., (\textbf{Q1}) and (\textbf{Q2}) as motioned above, should be well considered on the way to implementing a more generic GNN. For this purpose, we attempt to get deeper insights into them from two points, respectively, \textbf{(A1): Randomness of local patterns}, and \textbf{(A2): Aggregability of near-neighbors}.
翻訳日:2023-05-03 17:36:41 公開日:2023-05-02
# フィードバック制御による計測に基づく量子熱機械

Measurement-based quantum thermal machines with feedback control ( http://arxiv.org/abs/2212.01502v2 )

ライセンス: Link先を確認
Bibek Bhandari, Robert Czupryniak, Paolo Andrea Erdman and Andrew N. Jordan(参考訳) 量子計測とフィードバックを用いた結合量子ビット型熱機械について検討する。 マシンの2つの異なるバージョンを考えます 1) 結合量子ビット系が分離可能な単一共有浴に接続された量子マックスウェルのデーモン 2)結合キュービット方式が熱冷浴と対向する測定補助冷凍機。 量子マックスウェルの悪魔の場合、離散的および連続的な測定の両方について議論する。 1つのqubitベースのデバイスから出力される電力は、それを2番目のqubitに結合することで改善できる。 さらに,両キュービットの同時測定により,単一キュービットのみを並列に操作する2つの設定に比べて高い純熱抽出が可能となることを見出した。 冷凍機の場合、連続測定とユニタリ演算を用いて結合量子ビット型冷凍機を駆動する。 スワップ操作で作動する冷蔵庫の冷却能力は,適切な測定を行うことで向上できることがわかった。

We investigate coupled-qubit-based thermal machines powered by quantum measurements and feedback. We consider two different versions of the machine: 1) a quantum Maxwell's demon where the coupled-qubit system is connected to a detachable single shared bath, and 2) a measurement-assisted refrigerator where the coupled-qubit system is in contant with a hot and cold bath. In the quantum Maxwell's demon case we discuss both discrete and continuous measurements. We find that the power output from a single qubit-based device can be improved by coupling it to the second qubit. We further find that the simultaneous measurement of both qubits can produce higher net heat extraction compared to two setups operated in parallel where only single-qubit measurements are performed. In the refrigerator case, we use continuous measurement and unitary operations to power the coupled-qubit-based refrigerator. We find that the cooling power of a refrigerator operated with swap operations can be enhanced by performing suitable measurements.
翻訳日:2023-05-03 17:36:22 公開日:2023-05-02
# Per-Sample Adaptive Clippingを用いた差分プライベート学習

Differentially Private Learning with Per-Sample Adaptive Clipping ( http://arxiv.org/abs/2212.00328v3 )

ライセンス: Link先を確認
Tianyu Xia and Shuheng Shen and Su Yao and Xinyi Fu and Ke Xu and Xiaolong Xu and Xing Fu(参考訳) AIにおけるプライバシは、近年の研究者や一般大衆から注目を集めているトピックである。 プライバシ保護AIを実装する方法の1つとして、差分プライベート学習は、AIモデルが差分プライバシ(DP)を使用することを可能にするフレームワークである。 学習過程においてDPを達成するために、既存のアルゴリズムは、モデルの性能に大きな影響を与えるため、注意深く調整する必要がある、一定のクリッピングで勾配の規模を制限している。 この問題の解決策として、NSGDとAuto-Sの最新の研究は、クリッピングの代わりに正規化を使用することを革新的に提案している。 しかし、NSGDやAuto-Sのような正規化に基づくアプローチは単調な重み関数に依存しており、小さな勾配サンプルに過剰な重みを課し、更新に余分な偏差をもたらす。 本稿では,非単調適応重み関数を基本とし,更新値と真のバッチ平均勾配のずれを著しく低減しつつ,定値クリッピングを用いた典型的なハイパーパラメータチューニング処理を行わず,プライバシを保証する差分プライベートな1サンプル適応クリッピング(dp-psac)アルゴリズムを提案する。 厳密な理論的収束解析を行い,提案アルゴリズムは, NSGD/Auto-Sと比較して, トレーニング繰り返しを通して維持される低い非消滅境界を達成することを示す。 さらに, DP-PSACが複数のメインストリームビジョンおよび言語タスクにおいて, 最先端の手法よりも優れ, 適合していることを示す。

Privacy in AI remains a topic that draws attention from researchers and the general public in recent years. As one way to implement privacy-preserving AI, differentially private learning is a framework that enables AI models to use differential privacy (DP). To achieve DP in the learning process, existing algorithms typically limit the magnitude of gradients with a constant clipping, which requires carefully tuned due to its significant impact on model performance. As a solution to this issue, latest works NSGD and Auto-S innovatively propose to use normalization instead of clipping to avoid hyperparameter tuning. However, normalization-based approaches like NSGD and Auto-S rely on a monotonic weight function, which imposes excessive weight on small gradient samples and introduces extra deviation to the update. In this paper, we propose a Differentially Private Per-Sample Adaptive Clipping (DP-PSAC) algorithm based on a non-monotonic adaptive weight function, which guarantees privacy without the typical hyperparameter tuning process of using a constant clipping while significantly reducing the deviation between the update and true batch-averaged gradient. We provide a rigorous theoretical convergence analysis and show that with convergence rate at the same order, the proposed algorithm achieves a lower non-vanishing bound, which is maintained over training iterations, compared with NSGD/Auto-S. In addition, through extensive experimental evaluation, we show that DP-PSAC outperforms or matches the state-of-the-art methods on multiple main-stream vision and language tasks.
翻訳日:2023-05-03 17:36:10 公開日:2023-05-02
# 言語間移動のためのフラストレーションやすいラベル投影法

Frustratingly Easy Label Projection for Cross-lingual Transfer ( http://arxiv.org/abs/2211.15613v3 )

ライセンス: Link先を確認
Yang Chen, Chao Jiang, Alan Ritter, Wei Xu(参考訳) 訓練データを多くの言語に翻訳することは、言語間転送を改善するための実用的な解決策として現れてきた。 情報抽出や質問応答などのスパンレベルのアノテーションを含むタスクには、注釈付きスパンを翻訳されたテキストにマッピングするために追加のラベル投影ステップが必要である。 近年, ラベル付きスパンの周囲に特別なマーカーを挿入することにより, 翻訳と投影を共同で行うための簡易なマーク翻訳手法が試みられている。 しかし、我々の知る限り、この手法が単語アライメントに基づく従来のアノテーション投影とどのように比較されるかについては、実証的な分析は行われていない。 本稿では,57言語および3つのタスク(QA,NER,イベント抽出)にまたがる広範な実証的研究を行い,両手法の有効性と限界を評価し,文献における重要なギャップを埋める。 実験結果から,我々はEasyProjectと呼ぶマーク-then-translateの最適化版を多くの言語に適用しやすく,驚くほどうまく動作し,より複雑な単語アライメント方式よりも優れていることがわかった。 エンドタスクのパフォーマンスに影響を与えるいくつかの重要な要因を分析し、翻訳後のラベルスパン境界を正確に保存できるので、EasyProjectがうまく機能することを示す。 すべてのコードとデータを公開します。

Translating training data into many languages has emerged as a practical solution for improving cross-lingual transfer. For tasks that involve span-level annotations, such as information extraction or question answering, an additional label projection step is required to map annotated spans onto the translated texts. Recently, a few efforts have utilized a simple mark-then-translate method to jointly perform translation and projection by inserting special markers around the labeled spans in the original sentence. However, as far as we are aware, no empirical analysis has been conducted on how this approach compares to traditional annotation projection based on word alignment. In this paper, we present an extensive empirical study across 57 languages and three tasks (QA, NER, and Event Extraction) to evaluate the effectiveness and limitations of both methods, filling an important gap in the literature. Experimental results show that our optimized version of mark-then-translate, which we call EasyProject, is easily applied to many languages and works surprisingly well, outperforming the more complex word alignment-based methods. We analyze several key factors that affect the end-task performance, and show EasyProject works well because it can accurately preserve label span boundaries after translation. We will publicly release all our code and data.
翻訳日:2023-05-03 17:35:42 公開日:2023-05-02
# アバターマブ:モーションアウェアニューラルボクセルを用いた高速3次元頭部アバター再構成

AvatarMAV: Fast 3D Head Avatar Reconstruction Using Motion-Aware Neural Voxels ( http://arxiv.org/abs/2211.13206v2 )

ライセンス: Link先を確認
Yuelang Xu, Lizhen Wang, Xiaochen Zhao, Hongwen Zhang, Yebin Liu(参考訳) 顔の再現に広く利用されているNeRFでは、最近の方法は単眼ビデオから写実的な3D頭部アバターを回収することができる。 残念なことに、NeRFベースの手法のトレーニングプロセスは非常に時間がかかり、NeRFベースの手法で使用されるMPPは非効率であり、収束するにはイテレーションが多すぎる。 この問題を解決するために,モーション対応ニューラルボクセルを用いた高速な3次元頭部アバター再構成法であるAvatarMAVを提案する。 アバターMAVは、頭アバターの神経ボクセルによる標準的外観と解離した表情運動の両方をモデル化した最初のものである。 特に、複数の4次元テンソルの重み付け連結から運動認識型ニューラルボクセルが生成される。 4Dテンソルは意味的に3DMM式ベースと1対1に対応し、3DMM式係数と同じ重みを共有する。 提案するアバターマブは,新しい表現の利点を生かして,写真に写実的な頭部アバターをわずか5分で回収できる(ピュアトルチを組み込んだ)。 プロジェクトページ: https://www.liuyebin.com/avatarmav。

With NeRF widely used for facial reenactment, recent methods can recover photo-realistic 3D head avatar from just a monocular video. Unfortunately, the training process of the NeRF-based methods is quite time-consuming, as MLP used in the NeRF-based methods is inefficient and requires too many iterations to converge. To overcome this problem, we propose AvatarMAV, a fast 3D head avatar reconstruction method using Motion-Aware Neural Voxels. AvatarMAV is the first to model both the canonical appearance and the decoupled expression motion by neural voxels for head avatar. In particular, the motion-aware neural voxels is generated from the weighted concatenation of multiple 4D tensors. The 4D tensors semantically correspond one-to-one with 3DMM expression basis and share the same weights as 3DMM expression coefficients. Benefiting from our novel representation, the proposed AvatarMAV can recover photo-realistic head avatars in just 5 minutes (implemented with pure PyTorch), which is significantly faster than the state-of-the-art facial reenactment methods. Project page: https://www.liuyebin.com/avatarmav.
翻訳日:2023-05-03 17:35:19 公開日:2023-05-02
# 記号回帰による解釈可能な科学的発見:レビュー

Interpretable Scientific Discovery with Symbolic Regression: A Review ( http://arxiv.org/abs/2211.10873v2 )

ライセンス: Link先を確認
Nour Makke and Sanjay Chawla(参考訳) シンボリック回帰は、データから直接解釈可能な数学的表現を直接学習するための有望な機械学習手法として現れつつある。 従来は遺伝的プログラミングに取り組んできたが、最近ではデータ駆動モデル発見法としてディープラーニングへの関心が高まり、基礎から応用科学までさまざまな応用領域で大きな進歩を遂げている。 本調査は,記号回帰法の構造化と包括的概要を示し,その強みと限界について考察する。

Symbolic regression is emerging as a promising machine learning method for learning succinct underlying interpretable mathematical expressions directly from data. Whereas it has been traditionally tackled with genetic programming, it has recently gained a growing interest in deep learning as a data-driven model discovery method, achieving significant advances in various application domains ranging from fundamental to applied sciences. This survey presents a structured and comprehensive overview of symbolic regression methods and discusses their strengths and limitations.
翻訳日:2023-05-03 17:34:57 公開日:2023-05-02
# サッカーにおける選手と位置調整目標に対する機械学習アプローチ(soccer)

A Machine Learning Approach for Player and Position Adjusted Expected Goals in Football (Soccer) ( http://arxiv.org/abs/2301.13052v2 )

ライセンス: Link先を確認
James H. Hewitt and Oktay Karaku\c{s}(参考訳) サッカーは結果駆動の産業であり、ほとんどのスポーツよりもゴールが珍しいため、チームや個人のパフォーマンスを判断するためのパラメータがさらに増えることが重要です。 期待ゴール(xg)は単なるスコアライン以上の洞察を可能にする。 本稿では,フットボールにおけるさらなる分析の必要性に対処するために,フットボールイベントデータに応用された機械学習アプリケーションを利用する。 この概念から、ロジスティック回帰とグラディエントブースティングに基づくアプローチを用いて確率的評価を出力するバイナリ分類問題を作成する。 このモデルは15,575発のショットに基づいて,サッカー選手のxGs確率の予測に成功した。 提案ソリューションでは,データプロバイダとしてのstatsbombと,適切な方向にモデルをチューニングするための業界ベンチマークを使用している。 提案されたxGのMLソリューションは、"ボールが間違った男に落ちた"という年齢の古いクリケットに取り組むためにさらに使用される。 モデルの開発は、一般的なモデルが示すよりも期待する目標のより現実的な価値を調整し得るために使用される。 そこで本稿では, 位置調整xG に取り組み, トレーニングデータをフォワード, ミッドフィールド, ディフェンスに分割し, 位置調整xG のサブグループに基づく選手の質に関する洞察を提供する。 位置調整xGは、より多くの攻撃プレイヤーがxGを蓄積するより優れていることを予測し、証明する。 最も高い価値はフォワードであり、続いてミッドフィールダーとディフェンダーが続いた。 最後に、メッシが平均的なサッカー選手よりも統計的に高い効率レベルにあることを証明するために、プレイヤー調整xGをさらに発展させた。 これは、Messi xG が一般的なモデル結果よりも 347 xG 高い値を持つことを示す平均 xG モデルと比較して、彼の品質を定量化するために Messi の部分集合サンプルを使用することによって達成される。

Football is a very result-driven industry, with goals being rarer than in most sports, so having further parameters to judge the performance of teams and individuals is key. Expected Goals (xG) allow further insight than just a scoreline. To tackle the need for further analysis in football, this paper uses machine learning applications that are developed and applied to Football Event data. From the concept, a Binary Classification problem is created whereby a probabilistic valuation is outputted using Logistic Regression and Gradient Boosting based approaches. The model successfully predicts xGs probability values for football players based on 15,575 shots. The proposed solution utilises StatsBomb as the data provider and an industry benchmark to tune the models in the right direction. The proposed ML solution for xG is further used to tackle the age-old cliche of: 'the ball has fallen to the wrong guy there'. The development of the model is used to adjust and gain more realistic values of expected goals than the general models show. To achieve this, this paper tackles Positional Adjusted xG, splitting the training data into Forward, Midfield, and Defence with the aim of providing insight into player qualities based on their positional sub-group. Positional Adjusted xG successfully predicts and proves that more attacking players are better at accumulating xG. The highest value belonged to Forwards followed by Midfielders and Defenders. Finally, this study has further developments into Player Adjusted xG with the aim of proving that Messi is statistically at a higher efficiency level than the average footballer. This is achieved by using Messi subset samples to quantify his qualities in comparison to the average xG models finding that Messi xG performs 347 xG higher than the general model outcome.
翻訳日:2023-05-03 17:27:49 公開日:2023-05-02
# Neural Relation Graph: ラベルノイズと外部データの識別のための統一フレームワーク

Neural Relation Graph: A Unified Framework for Identifying Label Noise and Outlier Data ( http://arxiv.org/abs/2301.12321v2 )

ライセンス: Link先を確認
Jang-Hyun Kim, Sangdoo Yun, Hyun Oh Song(参考訳) データの診断とクリーニングは、堅牢な機械学習システムを構築するための重要なステップである。 しかしながら、ラベルエラーや過剰表現、外れ値といった複雑な問題が存在するため、大規模なデータセット内の問題を特定することは難しい。 本稿では,主に無視される情報のソースである特徴埋め込み空間におけるデータの関係構造を利用して,問題データを特定する統一的な手法を提案する。 そこで本研究では,データの関係グラフ構造に基づいてラベル誤りや異常データを検出するスケーラブルで効果的なアルゴリズムを提案する。 さらに,特徴埋め込み空間におけるデータポイントの文脈情報を提供する可視化ツールを導入し,インタラクティブにデータ診断を行うための効果的なツールとして機能する。 我々は,画像Net,ESC-50,MNLIを含む大規模画像,音声,言語領域のタスクに対して,提案手法のラベル誤りとアウト・オブ・ディストリビューション(OOD)検出性能を評価する。 本手法は,検討中のすべてのタスクにおける最先端検出性能を達成し,様々なドメインにまたがる大規模実世界のデータセットのデバッグにおいてその効果を実証する。

Diagnosing and cleaning data is a crucial step for building robust machine learning systems. However, identifying problems within large-scale datasets with real-world distributions is challenging due to the presence of complex issues such as label errors, under-representation, and outliers. In this paper, we propose a unified approach for identifying the problematic data by utilizing a largely ignored source of information: a relational structure of data in the feature-embedded space. To this end, we present scalable and effective algorithms for detecting label errors and outlier data based on the relational graph structure of data. We further introduce a visualization tool that provides contextual information of a data point in the feature-embedded space, serving as an effective tool for interactively diagnosing data. We evaluate the label error and outlier/out-of-distribution (OOD) detection performances of our approach on the large-scale image, speech, and language domain tasks, including ImageNet, ESC-50, and MNLI. Our approach achieves state-of-the-art detection performance on all tasks considered and demonstrates its effectiveness in debugging large-scale real-world datasets across various domains.
翻訳日:2023-05-03 17:27:17 公開日:2023-05-02
# 量子状態距離を用いた開量子系の時間発展における非マルコビアン性

Non-Markovianity in the time evolution of open quantum systems assessed by means of quantum state distance ( http://arxiv.org/abs/2301.09323v2 )

ライセンス: Link先を確認
G. Mouloudakis, I. Stergou, and P. Lambropoulos(参考訳) 本研究では,一端が貯水池に結合した相互作用量子ビットのXX鎖に対する非マルコビアン性(NM)の定量的評価を行う。 いくつかの非マルコフスペクトル密度のNMは、様々な量子状態距離(QSD)測定によって評価される。 我々のアプローチは、マスター方程式を必要とせず、開鎖の密度行列を構成することに基づいている。 nm の定量化のために、マルコフ崩壊と様々な非マルコフ損傷のケースの間の qsd 測度のダイナミクスを計算する。 文献では,密度行列の保存を暗示する形で現れるいくつかのqsd尺度について,崩壊するトレースの場合に適用できるように適切な修正を行った。 その結果,様々なQSD尺度間に顕著な一貫性が得られた。 彼らはまた、qubit-qubit 相互作用と非マルコフ減衰の間の微妙で潜在的に有用な相互作用を明らかにしている。 我々の計算では、四角いローレンツ貯水池による散逸が驚くほど遅くなっていることも判明した。

We provide a quantitative evaluation of non-Markovianity (NM) for an XX chain of interacting qubits with one end coupled to a reservoir. The NM of several non-Markovian spectral densities is assessed in terms of various quantum state distance (QSD) measures. Our approach is based on the construction of the density matrix of the open chain, without the necessity of a master equation. For the quantification of NM we calculate the dynamics of the QSD measures between the Markovian-damped and various types of non-Markovian-damped cases. Since in the literature several QSD measures, appear in forms that imply trace preserving density matrices, we introduced appropriate modifications so as to render them applicable to the case of decaying traces. The results produce remarkable consistency between the various QSD measures. They also reveal a subtle and potentially useful interplay between qubit-qubit interaction and non-Markovian damping. Our calculations have also uncovered a surprisingly dramatic slowing-down of dissipation by the squared Lorentzian reservoir.
翻訳日:2023-05-03 17:26:08 公開日:2023-05-02
# クロスモーダル3次元物体検出のための双方向伝搬

Bidirectional Propagation for Cross-Modal 3D Object Detection ( http://arxiv.org/abs/2301.09077v2 )

ライセンス: Link先を確認
Yifan Zhang, Qijian Zhang, Junhui Hou, Yixuan Yuan, and Guoliang Xing(参考訳) 近年,2d画像画素から3dlidar点への細粒度特徴伝播が性能改善に広く採用されているクロスモーダル3d物体検出における特徴レベル融合の優位性が明らかにされている。 しかし,2次元領域と3次元領域間の不均一な特徴伝播の可能性は十分に調査されていない。 本稿では,既存の画素間特徴伝搬とは対照的に,逆の点対画素方向を探索し,点対特徴を2次元画像分岐に逆流させる。 したがって、2Dおよび3Dストリームを共同最適化する場合、2Dイメージブランチからバックプロパゲーションされた勾配は、LiDARポイントクラウドで動作する3Dバックボーンネットワークの表現能力を高めることができる。 そして,画素間情報フロー機構と点間情報フロー機構を組み合わせることで,BiProDetと呼ばれる双方向特徴伝達フレームワークを構築する。 アーキテクチャ設計に加えて,局所的な空間認識の特徴を画像のモダリティから学習し,全体の3D検出性能を暗黙的に向上させる2次元イメージブランチのトレーニングのための新しい2次元補助タスクである正規化局所座標マップ推定も提案する。 広範な実験とアブレーション研究により,本手法の有効性が検証された。 特に、サイクリストクラスで非常に競争力のあるKITTIベンチマークで、提出時点で$\mathbf{1^{\mathrm{st}}}$をランク付けします。 ソースコードはhttps://github.com/Eaphan/BiProDet.comで入手できる。

Recent works have revealed the superiority of feature-level fusion for cross-modal 3D object detection, where fine-grained feature propagation from 2D image pixels to 3D LiDAR points has been widely adopted for performance improvement. Still, the potential of heterogeneous feature propagation between 2D and 3D domains has not been fully explored. In this paper, in contrast to existing pixel-to-point feature propagation, we investigate an opposite point-to-pixel direction, allowing point-wise features to flow inversely into the 2D image branch. Thus, when jointly optimizing the 2D and 3D streams, the gradients back-propagated from the 2D image branch can boost the representation ability of the 3D backbone network working on LiDAR point clouds. Then, combining pixel-to-point and point-to-pixel information flow mechanisms, we construct an bidirectional feature propagation framework, dubbed BiProDet. In addition to the architectural design, we also propose normalized local coordinates map estimation, a new 2D auxiliary task for the training of the 2D image branch, which facilitates learning local spatial-aware features from the image modality and implicitly enhances the overall 3D detection performance. Extensive experiments and ablation studies validate the effectiveness of our method. Notably, we rank $\mathbf{1^{\mathrm{st}}}$ on the highly competitive KITTI benchmark on the cyclist class by the time of submission. The source code is available at https://github.com/Eaphan/BiProDet.
翻訳日:2023-05-03 17:25:54 公開日:2023-05-02
# 量子状態準備アルゴリズムによるノイズ量子チャネルのシミュレーション

Simulating noisy quantum channels via quantum state preparation algorithms ( http://arxiv.org/abs/2212.13834v2 )

ライセンス: Link先を確認
Marcelo S. Zanetti, Douglas F. Pinto, Marcos L. W. Basso, Jonas Maziero(参考訳) refsで。 [Phys. Rev. A 96, 062303 (2017)]および[Sci. China Phys. Mech. Astron. 61, 70311 (2018)]は、回路ベースの量子コンピュータ、一般量子チャネル(QC)でシミュレーションを行うアルゴリズムを報告した。 しかし、シミュレーションのために実装される量子回路を得るためには、方程式の複雑な非線形システムの解を必要とするため、アルゴリズムの適用は限られている。 本稿では,近年,量子情報科学の文献で注目されている量子状態準備アルゴリズムを用いて,任意の$d$レベルの量子システム上でのQCのシミュレーションを実現するための簡単な方法を特定し,議論する。 我々は、最もよく知られた量子ビットqcに適用するプロトコルの汎用性をいくつかのqudit qcsに適用し、スピン状態に対するローレンツ変換の効果をシミュレートする。 また,初期混合状態に対するプロトコルの適用についても考察する。 与えられたアプリケーションのほとんどの例は、IBMの量子コンピュータを使って実証されている。

In Refs. [Phys. Rev. A 96, 062303 (2017)] and [Sci. China Phys. Mech. Astron. 61, 70311 (2018)], the authors reported an algorithm to simulate, in a circuit-based quantum computer, a general quantum channel (QC). However, the application of their algorithm is limited because it entails the solution of intricate non-linear systems of equations in order to obtain the quantum circuit to be implemented for the simulation. Motivated by this issue, in this article we identify and discuss a simple way to implement the simulation of QCs on any $d$-level quantum system through quantum state preparation algorithms, that have received much attention in the quantum information science literature lately. We exemplify the versatility of our protocol applying it to most well known qubit QCs, to some qudit QCs, and to simulate the effect of Lorentz transformations on spin states. We also regard the application of our protocol for initial mixed states. Most of the given application examples are demonstrated using IBM's quantum computers.
翻訳日:2023-05-03 17:25:21 公開日:2023-05-02
# CoRRPUS:ニューロシンボリックストーリー理解のためのコード型構造化表現

CoRRPUS: Codex-Leveraged Structured Representations for Neurosymbolic Story Understanding ( http://arxiv.org/abs/2212.10754v2 )

ライセンス: Link先を確認
Yijiang River Dong, Lara J. Martin, Chris Callison-Burch(参考訳) 物語の生成と理解は、すべてのNLG/NLUタスクと同様に、ニューロシンボリックな仕事が急増している。 研究者たちは、大きな言語モデル(LLM)には膨大な実用性があるが、ニューラルネットワークが持つ可能性のある欠陥を補うための象徴的な手段で拡張できることを認識している。 しかし、シンボリックな手法は、それらを作るのに必要な時間と専門知識の量に関して非常にコストがかかる。 本研究では,Codexのような最先端のCode-LLMを利用して,ストーリーの状態を追跡し,ストーリー理解を支援するシンボリックメソッドの利用をブートストラップする。 我々は,既存のストーリー理解タスク (bAbI Task 2 および Re^3) において,CoRRPUS システムと抽象的なプロンプトプロシージャが,手作業の最小化によって,現在最先端の構造化 LLM 技術に勝ることを示す。 我々は,これらのモデルが推論タスクを適切に実行するためのガイダンスを必要とするため,記号表現の重要性と,LLMの特殊的促進を強調できることを期待している。

Story generation and understanding -- as with all NLG/NLU tasks -- has seen a surge in neurosymbolic work. Researchers have recognized that, while large language models (LLMs) have tremendous utility, they can be augmented with symbolic means to be even better and to make up for any flaws that the neural networks might have. However, symbolic methods are extremely costly in terms of the amount of time and expertise needed to create them. In this work, we capitalize on state-of-the-art Code-LLMs, such as Codex, to bootstrap the use of symbolic methods for tracking the state of stories and aiding in story understanding. We show that our CoRRPUS system and abstracted prompting procedures can beat current state-of-the-art structured LLM techniques on pre-existing story understanding tasks (bAbI task 2 and Re^3) with minimal hand engineering. We hope that this work can help highlight the importance of symbolic representations and specialized prompting for LLMs as these models require some guidance for performing reasoning tasks properly.
翻訳日:2023-05-03 17:25:00 公開日:2023-05-02
# 指数的基準を用いたリスク感応強化学習

Risk-Sensitive Reinforcement Learning with Exponential Criteria ( http://arxiv.org/abs/2212.09010v3 )

ライセンス: Link先を確認
Erfaun Noorani, Christos Mavridis, John Baras(参考訳) 強化学習は多くのアプリケーションで実験的に成功したが、システムのパラメータのノイズや摂動に敏感であることが知られており、わずかに異なる環境で異なるエピソード間での報酬全体のばらつきが高まる。 頑健性, サンプル効率, リスクに敏感な強化学習手法を徹底的に研究している。 本研究では,指数的基準に基づく修正目的に対する最適化問題を解くことにより,強固な強化学習方針を定義し,リスクに敏感な強化学習問題を近似する。 特に,モンテカルロ政策グラディエントアルゴリズムのモデルレスリスク感性変異について検討し,確率近似更新を用いた乗算ベルマン方程式の解法に基づく,新しいリスク感性オンラインアクター・クリティカルアルゴリズムを提案する。 分析結果から,指数的基準を用いることで,一般的なアドホック正規化アプローチが一般化され,サンプル効率が向上し,モデルパラメータや環境の摂動に対する堅牢性がもたらされることが示唆された。 提案手法の実装,性能,ロバスト性についてシミュレーション実験により評価した。

While reinforcement learning has shown experimental success in a number of applications, it is known to be sensitive to noise and perturbations in the parameters of the system, leading to high variance in the total reward amongst different episodes on slightly different environments. To introduce robustness, as well as sample efficiency, risk-sensitive reinforcement learning methods are being thoroughly studied. In this work, we provide a definition of robust reinforcement learning policies and formulate a risk-sensitive reinforcement learning problem to approximate them, by solving an optimization problem with respect to a modified objective based on exponential criteria. In particular, we study a model-free risk-sensitive variation of the widely-used Monte Carlo Policy Gradient algorithm, and introduce a novel risk-sensitive online Actor-Critic algorithm based on solving a multiplicative Bellman equation using stochastic approximation updates. Analytical results suggest that the use of exponential criteria generalizes commonly used ad-hoc regularization approaches, improves sample efficiency, and introduces robustness with respect to perturbations in the model parameters and the environment. The implementation, performance, and robustness properties of the proposed methods are evaluated in simulated experiments.
翻訳日:2023-05-03 17:24:41 公開日:2023-05-02
# 結合部分微分方程式に対する結合型マルチウェーブレットニューラル演算子学習

Coupled Multiwavelet Neural Operator Learning for Coupled Partial Differential Equations ( http://arxiv.org/abs/2303.02304v3 )

ライセンス: Link先を確認
Xiongye Xiao, Defu Cao, Ruochen Yang, Gaurav Gupta, Gengshuo Liu, Chenzhong Yin, Radu Balan, Paul Bogdan(参考訳) 結合偏微分方程式(英語版)(pdes)は、多くの物理過程の複雑なダイナミクスをモデル化する上で重要なタスクである。 近年、ニューラルネットワークは、積分核を直接フーリエ/ウェーブレット空間で学習することでpdesを解く能力を示しており、結合pdesを解くのは、関数間の結合写像を扱うことに依存する。 そこで本研究では,多重ウェーブレット分解とウェーブレット空間の再構成の過程において結合された積分核を分離することにより,textit{coupled multiwavelets neural operator} (cmwno) 学習方式を提案する。 提案モデルでは,Gray-Scott (GS) 方程式や非局所平均場ゲーム (MFG) 問題を含む結合型 PDE の解法において,従来の学習ベースの解法に比べて精度が大幅に向上する。 実験結果によると, 提案モデルでは, 最先端モデルと比較すると, 相対的な$L$2の誤差に対して2\times \sim 4\times$改善率を示す。

Coupled partial differential equations (PDEs) are key tasks in modeling the complex dynamics of many physical processes. Recently, neural operators have shown the ability to solve PDEs by learning the integral kernel directly in Fourier/Wavelet space, so the difficulty for solving the coupled PDEs depends on dealing with the coupled mappings between the functions. Towards this end, we propose a \textit{coupled multiwavelets neural operator} (CMWNO) learning scheme by decoupling the coupled integral kernels during the multiwavelet decomposition and reconstruction procedures in the Wavelet space. The proposed model achieves significantly higher accuracy compared to previous learning-based solvers in solving the coupled PDEs including Gray-Scott (GS) equations and the non-local mean field game (MFG) problem. According to our experimental results, the proposed model exhibits a $2\times \sim 4\times$ improvement relative $L$2 error compared to the best results from the state-of-the-art models.
翻訳日:2023-05-03 17:19:22 公開日:2023-05-02
# フェルミオン符号化における量子誤差緩和のシミュレーション

Simulating quantum error mitigation in fermionic encodings ( http://arxiv.org/abs/2303.02270v2 )

ライセンス: Link先を確認
Riley W. Chien, Kanav Setia, Xavier Bonet-Monroig, Mark Steudtner, James D. Whitfield(参考訳) 雑音量子コンピュータ上で格子フェルミオンをシミュレートする最もスケーラブルな手法は、定数係数の量子ビットと非自明な安定化群を用いる非局所作用素を排除する符号化を用いる。 本研究では, フェルミオン量子シミュレーションの設定に非常に自然である安定化器群, 安定器ポストセレクションを用いた最も簡単な誤差緩和戦略について検討した。 最大42量子ビットまでのシステムおよび非平衡ダイナミクスや変分基底状態計算を含む多くの基本的な量子シミュレーションタスクにおける誤差緩和戦略の性能を数値的に検討する。 妥当なノイズ率とシステムサイズにおいて、計算の忠実度は、標準のjordan-wigner変換によって達成できるよりも大幅に向上し、ショット数を10分の1に増やすことで、近い将来の量子シミュレーションに有意義な向上をもたらす可能性がある。 我々のシミュレーションは、物理的ヒルベルト空間次元よりも論理ヒルベルト空間次元にスケールする新しい古典的シミュレーションアルゴリズムによって実現されている。

The most scalable proposed methods of simulating lattice fermions on noisy quantum computers employ encodings that eliminate nonlocal operators using a constant factor more qubits and a nontrivial stabilizer group. In this work, we investigated the most straightforward error mitigation strategy using the stabilizer group, stabilizer postselection, that is very natural to the setting of fermionic quantum simulation. We numerically investigate the performance of the error mitigation strategy on a range of systems containing up to 42 qubits and on a number of fundamental quantum simulation tasks including non-equilibrium dynamics and variational ground state calculations. We find that at reasonable noise rates and system sizes, the fidelity of computations can be increased significantly beyond what can be achieved with the standard Jordan-Wigner transformation at the cost of increasing the number of shots by less than a factor of 10, potentially providing a meaningful boost to near-term quantum simulations. Our simulations are enabled by new classical simulation algorithms that scale with the logical Hilbert space dimension rather than the physical Hilbert space dimension.
翻訳日:2023-05-03 17:19:03 公開日:2023-05-02
# Fourier Analysisがランタイム分析に到達 - プラトー上の精密ランタイム

Fourier Analysis Meets Runtime Analysis: Precise Runtimes on Plateaus ( http://arxiv.org/abs/2302.08021v3 )

ライセンス: Link先を確認
Benjamin Doerr, Andrew James Kelley(参考訳) 本研究では, 離散フーリエ解析に基づく新しい手法を提案し, 進化的アルゴリズムがプラトーに費やす時間を解析する。 これはすぐに、garnier, kallel, schoenauer (1999) による針問題に対する$(1+1)$進化アルゴリズムの期待実行時間の古典的な推定の簡潔な証明を与える。 また、この手法を用いて、$(1+1)$の進化的アルゴリズムのランタイムを、$n/\ell$の有効サイズの2^\ell-1$からなる新しいベンチマークで解析する。 そこで,本手法では,静的および適合度に依存した変異率を推定する。 また、漸近的に最適な静的および適合依存的な突然変異率も決定する。 $\ell = o(n)$の場合、最適な静的突然変異率はおよそ1.59/n$である。 最初の$k$の適合ビットが見つかったとき、最適な適合依存突然変異率は漸近的に1/(k+1)$である。 これらの結果は、これまでのところシングル・インスティスタンス問題でのみ証明されており、より広い種類の問題に当てはまる。 LeadingOnesの他の重要な結果に対して、同様の拡張が真であると期待しています。 また、フーリエ解析アプローチが他の高原問題にも適用可能であることも楽観的です。

We propose a new method based on discrete Fourier analysis to analyze the time evolutionary algorithms spend on plateaus. This immediately gives a concise proof of the classic estimate of the expected runtime of the $(1+1)$ evolutionary algorithm on the Needle problem due to Garnier, Kallel, and Schoenauer (1999). We also use this method to analyze the runtime of the $(1+1)$ evolutionary algorithm on a new benchmark consisting of $n/\ell$ plateaus of effective size $2^\ell-1$ which have to be optimized sequentially in a LeadingOnes fashion. Using our new method, we determine the precise expected runtime both for static and fitness-dependent mutation rates. We also determine the asymptotically optimal static and fitness-dependent mutation rates. For $\ell = o(n)$, the optimal static mutation rate is approximately $1.59/n$. The optimal fitness dependent mutation rate, when the first $k$ fitness-relevant bits have been found, is asymptotically $1/(k+1)$. These results, so far only proven for the single-instance problem LeadingOnes, thus hold for a much broader class of problems. We expect similar extensions to be true for other important results on LeadingOnes. We are also optimistic that our Fourier analysis approach can be applied to other plateau problems as well.
翻訳日:2023-05-03 17:18:42 公開日:2023-05-02
# オントロジー推定のための言語モデル解析

Language Model Analysis for Ontology Subsumption Inference ( http://arxiv.org/abs/2302.06761v2 )

ライセンス: Link先を確認
Yuan He, Jiaoyan Chen, Ernesto Jim\'enez-Ruiz, Hang Dong, Ian Horrocks(参考訳) 近年,知識ベース (KB) として機能する言語モデル (LM) の検討が盛んに行われている。 しかし、既存の研究は単純で三重のリレーショナルKBに焦点を当てているが、OWLオントロジーのようなより洗練された論理ベースの概念化されたKBを省略している。 LMのオントロジーに関する知識を調べるために,原子と複雑な概念の両方を含むオントロジーの仮定に基づく探索タスクとデータセットのセットであるOntoLAMAを提案する。 我々は,異なる領域やスケールのオントロジーに関する広範な実験を行い,本研究の結果は,従来の自然言語推論 (NLI) よりも,仮定推論 (SI) の背景知識が比較的少ないが,少数のサンプルが与えられた場合に,SIを著しく改善できることを示した。 コードとデータセットをオープンソースにします。

Investigating whether pre-trained language models (LMs) can function as knowledge bases (KBs) has raised wide research interests recently. However, existing works focus on simple, triple-based, relational KBs, but omit more sophisticated, logic-based, conceptualised KBs such as OWL ontologies. To investigate an LM's knowledge of ontologies, we propose OntoLAMA, a set of inference-based probing tasks and datasets from ontology subsumption axioms involving both atomic and complex concepts. We conduct extensive experiments on ontologies of different domains and scales, and our results demonstrate that LMs encode relatively less background knowledge of Subsumption Inference (SI) than traditional Natural Language Inference (NLI) but can improve on SI significantly when a small number of samples are given. We will open-source our code and datasets.
翻訳日:2023-05-03 17:18:22 公開日:2023-05-02
# 一般化cp分解による低ランクテンソル完全化の数値予測

Exploring Numerical Priors for Low-Rank Tensor Completion with Generalized CP Decomposition ( http://arxiv.org/abs/2302.05881v3 )

ライセンス: Link先を確認
Shiran Yuan and Kaizhu Huang(参考訳) テンソル補完はコンピュータビジョン、データ解析、信号処理など多くの分野において重要である。 完成テンソル上の低ランク構造を強制する手法として、低ランクテンソル完全化(low-rank tensor completion)と呼ばれる手法が最近広く研究されている。 このような手法は大きな成功を収めたが、テンソル要素の数値的事前化を活用しようと考える者はいなかった。 数値を無視すると、データに関する重要な情報が失われ、アルゴリズムが最適な精度に達するのを防ぐ。 本研究は,数値前処理を活用し,より高精度なテンソル補完を実現するために,gcdtc(generalized cp decomposition tensor completion)と呼ばれる新しい手法フレームワークの構築を試みるものである。 この新たなフレームワークでは、低ランクテンソル完備化にCP分解の一般化形式を適用する。 本稿では、GCDTCフレームワークのインスタンス化として、非負整数テンソル補完のためのSPTC(Smooth Poisson Tensor Completion)と呼ばれるアルゴリズムを提案する。 実世界のデータに関する一連の実験は、SPTCが現在の最先端技術よりも精度が高い結果をもたらすことを示した。

Tensor completion is important to many areas such as computer vision, data analysis, and signal processing. Enforcing low-rank structures on completed tensors, a category of methods known as low-rank tensor completion has recently been studied extensively. While such methods attained great success, none considered exploiting numerical priors of tensor elements. Ignoring numerical priors causes loss of important information regarding the data, and therefore prevents the algorithms from reaching optimal accuracy. This work attempts to construct a new methodological framework called GCDTC (Generalized CP Decomposition Tensor Completion) for leveraging numerical priors and achieving higher accuracy in tensor completion. In this newly introduced framework, a generalized form of CP Decomposition is applied to low-rank tensor completion. This paper also proposes an algorithm known as SPTC (Smooth Poisson Tensor Completion) for nonnegative integer tensor completion as an instantiation of the GCDTC framework. A series of experiments on real-world data indicated that SPTC could produce results superior in completion accuracy to current state-of-the-arts.
翻訳日:2023-05-03 17:18:05 公開日:2023-05-02
# 量子誤差緩和のための非マルコフ雑音源

Non-Markovian noise sources for quantum error mitigation ( http://arxiv.org/abs/2302.05053v2 )

ライセンス: Link先を確認
Doyeol Ahn (1,2) and Byeongyong Park (1,2) ((1) Department of Electrical and Computer Engineering, University of Seoul, Republic of Korea (2) First Quantum, Inc, Republic of Korea)(参考訳) ノイズの多い中間スケール量子(NISQ)デバイスのような、短期量子コンピュータにおけるエラーやデコヒーレンスの影響を低減することは、その実用化に不可欠である。 これらの要因は量子アルゴリズムの適用性を著しく制限し、その物理的起源を包括的に理解し、効果的な誤り緩和戦略を確立する必要がある。 本研究では,ノイズ源として単純な高調波発振器の集合で表される環境と相互作用するNISQデバイスに適した,量子状態進化の非マルコフモデルと量子誤差緩和コスト関数を提案する。 量子リウヴィル方程式の解法を用いて, 射影演算子形式と, 進行と遅延の両方のプロパゲータを用いて, 出力量子状態の還元密度作用素を時間畳み込み形に導出する。 複数入力状態を用いた2ビット演算におけるIDと制御NOT(CNOT)ゲート操作の出力量子状態変動について検討する。 これらの結果は、イオントラップおよび超伝導量子コンピューティングシステムの実験データと比較され、量子誤差緩和のためのコスト関数の重要なパラメータを推定する。 その結果,量子システムと環境との結合強度が増大するにつれて,量子エラー低減のコスト関数が増加することがわかった。 本研究は、非マルコフモデルが量子状態の進化を理解する上での意義を強調し、nisqデバイスからの実験結果を評価する際の量子誤差緩和コスト関数の実際的意義を強調する。

Reducing the impact of errors and decoherence in near-term quantum computers, such as noisy intermediate-scale quantum (NISQ) devices, is critical for their practical implementation. These factors significantly limit the applicability of quantum algorithms, necessitating a comprehensive understanding of their physical origins to establish effective error mitigation strategies. In this study, we present a non-Markovian model of quantum state evolution and a quantum error mitigation cost function tailored for NISQ devices interacting with an environment represented by a set of simple harmonic oscillators as a noise source. Employing the projection operator formalism and both advanced and retarded propagators in time, we derive the reduced-density operator for the output quantum states in a time-convolutionless form by solving the quantum Liouville equation. We examine the output quantum state fluctuations for both identity and controlled-NOT (CNOT) gate operations in two-qubit operations using a range of input states. Subsequently, these results are compared with experimental data from ion-trap and superconducting quantum computing systems to estimate the crucial parameters of the cost functions for quantum error mitigation. Our findings reveal that the cost function for quantum error mitigation increases as the coupling strength between the quantum system and its environment intensifies. This study underscores the significance of non-Markovian models in understanding quantum state evolution and highlights the practical implications of the quantum error mitigation cost function when assessing experimental results from NISQ devices.
翻訳日:2023-05-03 17:17:47 公開日:2023-05-02
# 認知症者の扇動検出を改善するためのアンダーサンプリングと累積クラス再決定法

Undersampling and Cumulative Class Re-decision Methods to Improve Detection of Agitation in People with Dementia ( http://arxiv.org/abs/2302.03224v2 )

ライセンス: Link先を確認
Zhidong Meng, Andrea Iaboni, Bing Ye, Kristine Newman, Alex Mihailidis, Zhihong Deng, and Shehroz S. Khan(参考訳) 鎮静は認知症(PwD)患者の最も多い症状の1つで、自分自身と介護者の安全を危険にさらすことができる。 住宅地に住むpwdの健康と安全を支援するためには, 客観的な扇動検出手法の開発が重要である。 前回の研究では、参加者17名から600日間のマルチモーダルウェアラブルセンサデータを収集し、1分間の窓での動揺を予測する機械学習モデルを開発した。 しかし、不均衡問題や潜在的な不正確なラベルといったデータセットには、通常の振る舞いに比べて動揺の発生がはるかに稀であるため、大きな制限がある。 本稿では,まず,不均衡を解消するために異なるアンダーサンプリング手法を実装し,通常の動作データの20%しか適していないという結論を導いた。 そこで我々は,不明瞭な時間間隔(ATI)を仮定した手動ラベリング機構を評価するために,重み付きアンダーサンプリング法を設計した。 その後, 累積クラス再決定(CCR)の後処理法が, 動揺の歴史的逐次情報と連続性特性に基づいて提案され, 動揺検出システムの潜在的な応用のための意思決定性能が向上した。 その結果, アンダーサンプリングとCCRの組み合わせは, F1スコアと他の指標を, トレーニング時間やデータが少ない程度に改善し, 臨床目的に最適なしきい値基準の潜在的な範囲を見出すことが示唆された。

Agitation is one of the most prevalent symptoms in people with dementia (PwD) that can place themselves and the caregiver's safety at risk. Developing objective agitation detection approaches is important to support health and safety of PwD living in a residential setting. In a previous study, we collected multimodal wearable sensor data from 17 participants for 600 days and developed machine learning models for predicting agitation in one-minute windows. However, there are significant limitations in the dataset, such as imbalance problem and potential imprecise labels as the occurrence of agitation is much rarer in comparison to the normal behaviours. In this paper, we first implement different undersampling methods to eliminate the imbalance problem, and come to the conclusion that only 20\% of normal behaviour data are adequate to train a competitive agitation detection model. Then, we design a weighted undersampling method to evaluate the manual labeling mechanism given the ambiguous time interval (ATI) assumption. After that, the postprocessing method of cumulative class re-decision (CCR) is proposed based on the historical sequential information and continuity characteristic of agitation, improving the decision-making performance for the potential application of agitation detection system. The results show that a combination of undersampling and CCR improves F1-score and other metrics to varying degrees with less training time and data used, and inspires a way to find the potential range of optimal threshold reference for clinical purpose.
翻訳日:2023-05-03 17:17:22 公開日:2023-05-02
# 複雑時系列における因果関係の共有化

Recurrences reveal shared causal drivers of complex time series ( http://arxiv.org/abs/2301.13516v2 )

ライセンス: Link先を確認
William Gilpin(参考訳) 多くの実験的な時系列測定は、観測されていない因果ドライバーを共有する。 例えば、転写因子を標的とする遺伝子、大規模な大気電流に影響された海洋の流れ、下降するニューロンが支配する運動回路などがある。 多様な生物学的・工学的なシステムにおけるトップダウン制御スキームの断続的な性質を理解するためには、この未知の駆動力を確実に推論する必要がある。 そこで本研究では,時系列測定の繰り返しを利用して,観測されていない運転信号を徐々に再構成する,教師なし学習アルゴリズムを提案する。 スクリュー生成力学系の数学的理論に基づいて,反応時間列間で共有される再発事象を同定し,ガラスのような構造を持つ再発グラフを暗黙的に定義する。 観測されたデータの量や品質が向上するにつれて、この再帰グラフは、誘導されたランドスケープ上のランダムウォークの弱いエルゴード性破壊として現れるパーコレーション遷移を実行します。 数千のランダム力学系において、カオスドライバから応答システムへの情報伝達速度に対する再構成精度の依存性を実証的に定量化し、運転者の支配的軌道トポロジーの段階的近似により効果的な再構成が進行することを示す。 古典的およびニューラルネットワークに基づく信号処理技術に対する広範なベンチマークを通じて, 生態学, ゲノム学, 流体力学, 生理学にまたがる多種多様な実世界のデータセットから, 因果的駆動信号を抽出する手法の強みを実証する。

Many experimental time series measurements share unobserved causal drivers. Examples include genes targeted by transcription factors, ocean flows influenced by large-scale atmospheric currents, and motor circuits steered by descending neurons. Reliably inferring this unseen driving force is necessary to understand the intermittent nature of top-down control schemes in diverse biological and engineered systems. Here, we introduce a new unsupervised learning algorithm that uses recurrences in time series measurements to gradually reconstruct an unobserved driving signal. Drawing on the mathematical theory of skew-product dynamical systems, we identify recurrence events shared across response time series, which implicitly define a recurrence graph with glass-like structure. As the amount or quality of observed data improves, this recurrence graph undergoes a percolation transition manifesting as weak ergodicity breaking for random walks on the induced landscape -- revealing the shared driver's dynamics, even in the presence of strongly corrupted or noisy measurements. Across several thousand random dynamical systems, we empirically quantify the dependence of reconstruction accuracy on the rate of information transfer from a chaotic driver to the response systems, and we find that effective reconstruction proceeds through gradual approximation of the driver's dominant orbit topology. Through extensive benchmarks against classical and neural-network-based signal processing techniques, we demonstrate our method's strong ability to extract causal driving signals from diverse real-world datasets spanning ecology, genomics, fluid dynamics, and physiology.
翻訳日:2023-05-03 17:16:01 公開日:2023-05-02
# Gazeformer: 目標指向の人間意識のスケーラブルで効果的で高速な予測

Gazeformer: Scalable, Effective and Fast Prediction of Goal-Directed Human Attention ( http://arxiv.org/abs/2303.15274v2 )

ライセンス: Link先を確認
Sounak Mondal, Zhibo Yang, Seoyoung Ahn, Dimitris Samaras, Gregory Zelinsky, Minh Hoai(参考訳) HCI(Human-Computer Interaction)では、人間の視線を予測することが重要である。 しかし、実際にHCIアプリケーションに役立てるためには、視線予測モデルは空間的および時間的視線予測においてスケーラブルで高速で正確でなければならない。 最近のスキャンパス予測モデルは目標指向の注意に焦点を当てている(研究)。 このようなモデルは、すべての可能な対象に対して訓練されたターゲット検出器に依存する共通のアプローチと、トレーニングのための人間の視線データ(どちらもスケーラブルではない)が利用できるため、アプリケーション内で制限される。 これに対し,ZeroGazeと呼ばれるゼロショット学習という新たなタスクを,前例のない対象に対して視線を予測し,新たなモデルであるGazeformerを開発し,ZeroGaze問題を解く。 オブジェクト検出器モジュールを使用する既存の方法とは対照的に、gazeformerはターゲットを自然言語モデルでエンコードし、スキャンパス予測で意味的類似性を利用する。 変換器は文脈表現を生成するのに特に有用であるため,変換器ベースのエンコーダデコーダアーキテクチャを用いる。 gazeformerはzerogaze設定で他のモデルを大きく上回っている。 また、目標現在および目標存在探索タスクの標準視線予測において、既存の目標検出モデルよりも優れている。 パフォーマンスの改善に加えて、Gazeformerは最先端のターゲット表示型ビジュアルサーチモデルよりも5倍以上高速である。

Predicting human gaze is important in Human-Computer Interaction (HCI). However, to practically serve HCI applications, gaze prediction models must be scalable, fast, and accurate in their spatial and temporal gaze predictions. Recent scanpath prediction models focus on goal-directed attention (search). Such models are limited in their application due to a common approach relying on trained target detectors for all possible objects, and the availability of human gaze data for their training (both not scalable). In response, we pose a new task called ZeroGaze, a new variant of zero-shot learning where gaze is predicted for never-before-searched objects, and we develop a novel model, Gazeformer, to solve the ZeroGaze problem. In contrast to existing methods using object detector modules, Gazeformer encodes the target using a natural language model, thus leveraging semantic similarities in scanpath prediction. We use a transformer-based encoder-decoder architecture because transformers are particularly useful for generating contextual representations. Gazeformer surpasses other models by a large margin on the ZeroGaze setting. It also outperforms existing target-detection models on standard gaze prediction for both target-present and target-absent search tasks. In addition to its improved performance, Gazeformer is more than five times faster than the state-of-the-art target-present visual search model.
翻訳日:2023-05-03 17:08:13 公開日:2023-05-02
# クロスGAN監査:属性レベルの類似点の教師なし同定と事前学習生成モデルの違い

Cross-GAN Auditing: Unsupervised Identification of Attribute Level Similarities and Differences between Pretrained Generative Models ( http://arxiv.org/abs/2303.10774v2 )

ライセンス: Link先を確認
Matthew L. Olson, Shusen Liu, Rushil Anirudh, Jayaraman J. Thiagarajan, Peer-Timo Bremer, Weng-Keen Wong(参考訳) generative adversarial networks (gans) は、特に複雑な分布や限られたデータのために訓練することが難しいことで悪名高い。 これにより、例えばバイアスの特定や公平性の確保など、トレーニング済みのネットワークを人間の認識可能な形式で監査するツールが必要になった。 既存のGAN監査ツールは、FIDやリコールのような要約統計に基づく粗い粒度のモデルデータ比較に限定されている。 本稿では,新たに開発されたGANを,従来のベースラインと比較する代替手法を提案する。 この目的のために、確立された「参照」GANと新たに提案された「クライアント」GANが与えられた場合、GAN間で共通する、クライアントGANへの新規な、あるいはクライアントGANから欠落する、知的な属性を共同で識別するクロスGAN監査(xGA)を導入する。 これにより、ユーザとモデル開発者の両方が、GAN間の類似性と差異を直感的に評価できる。 我々は,属性に基づくGAN監査手法を評価するための新しい指標を導入し,これらの指標を用いて,xGAがベースラインアプローチより優れていることを示す。 また、様々な画像データセットで訓練されたGANからxGAによって識別される共通、新規、欠落した属性を定性的に記述する。

Generative Adversarial Networks (GANs) are notoriously difficult to train especially for complex distributions and with limited data. This has driven the need for tools to audit trained networks in human intelligible format, for example, to identify biases or ensure fairness. Existing GAN audit tools are restricted to coarse-grained, model-data comparisons based on summary statistics such as FID or recall. In this paper, we propose an alternative approach that compares a newly developed GAN against a prior baseline. To this end, we introduce Cross-GAN Auditing (xGA) that, given an established "reference" GAN and a newly proposed "client" GAN, jointly identifies intelligible attributes that are either common across both GANs, novel to the client GAN, or missing from the client GAN. This provides both users and model developers an intuitive assessment of similarity and differences between GANs. We introduce novel metrics to evaluate attribute-based GAN auditing approaches and use these metrics to demonstrate quantitatively that xGA outperforms baseline approaches. We also include qualitative results that illustrate the common, novel and missing attributes identified by xGA from GANs trained on a variety of image datasets.
翻訳日:2023-05-03 17:07:49 公開日:2023-05-02
# Promptは必要なものすべて? いいえ。 包括的かつ広範な授業学習の視点

Is Prompt All You Need? No. A Comprehensive and Broader View of Instruction Learning ( http://arxiv.org/abs/2303.10475v4 )

ライセンス: Link先を確認
Renze Lou, Kai Zhang, Wenpeng Yin(参考訳) タスクのセマンティクスは入力から出力までの例のセットやテキストによる命令で表現できる。 自然言語処理(NLP)に対する従来の機械学習アプローチは主に、タスク固有の大規模データセットの可用性に依存している。 まず、タスク固有のラベル付き例の収集は、タスクが複雑すぎるか、アノテートにコストがかかりすぎるか、あるいはシステムが新しいタスクを即座に処理する必要があるシナリオには適用されない。 そのため、NLPの新しい監督・探索パラダイムであるタスク命令からの学習への関心が高まっている。 その目覚ましい進歩にもかかわらず、コミュニティが抱える共通の問題はいくつかある。 本研究は,現状の授業学習研究,特に以下の質問に答えて要約しようとするものである。 (i)タスク命令とは何か、どの命令型が存在するのか? (ii)指示のモデル化方法? (三)指示のパフォーマンスに影響を及ぼし、説明する要因は何か。 (iv) 指導学習に残る課題は何か? 私たちの知る限りでは、これはテキストによるインストラクションに関する最初の包括的な調査です。

Task semantics can be expressed by a set of input-to-output examples or a piece of textual instruction. Conventional machine learning approaches for natural language processing (NLP) mainly rely on the availability of large-scale sets of task-specific examples. Two issues arise: first, collecting task-specific labeled examples does not apply to scenarios where tasks may be too complicated or costly to annotate, or the system is required to handle a new task immediately; second, this is not user-friendly since end-users are probably more willing to provide task description rather than a set of examples before using the system. Therefore, the community is paying increasing interest in a new supervision-seeking paradigm for NLP: learning from task instructions. Despite its impressive progress, there are some common issues that the community struggles with. This survey paper tries to summarize the current research on instruction learning, particularly, by answering the following questions: (i) what is task instruction, and what instruction types exist? (ii) how to model instructions? (iii) what factors influence and explain the instructions' performance? (iv) what challenges remain in instruction learning? To our knowledge, this is the first comprehensive survey about textual instructions.
翻訳日:2023-05-03 17:07:24 公開日:2023-05-02
# 中性水素分子形成における核スピンと電子スピンの効果の比較

Comparing the effects of nuclear and electron spins on the formation of neutral hydrogen molecule ( http://arxiv.org/abs/2303.10413v2 )

ライセンス: Link先を確認
Miao Hui-hui and Ozhigov Yuri Igorevich(参考訳) 光学キャビティ内の量子ドット上に2つの2層人工原子を持つ化学の有限次元空洞量子力学モデルである中性水素分子の結合解離モデルについて,Tavis-Cummings-Hubbardモデルに基づく。 原子核の運動は量子形式で表される。 電子スピン転移とスピンスピン相互作用はどちらも考慮される。 また、中性水素分子の形成に対する核スピンと電子スピンの影響についても考察する。

We introduce the association-dissociation model of neutral hydrogen molecule, which is a finite-dimensional cavity quantum electrodynamics model of chemistry with two two-level artificial atoms on quantum dots placed in optical cavities, based on the Tavis-Cummings-Hubbard model. The motion of the nuclei can be represented in quantum form. Electron spin transition and spin-spin interaction between electron and nucleus are both considered. Consideration is also given to the effects of nuclear and electron spins on the formation of neutral hydrogen molecule.
翻訳日:2023-05-03 17:07:09 公開日:2023-05-02
# ContraNorm: オーバースムーシングとBeyondに関する対照的な学習視点

ContraNorm: A Contrastive Learning Perspective on Oversmoothing and Beyond ( http://arxiv.org/abs/2303.06562v2 )

ライセンス: Link先を確認
Xiaojun Guo, Yifei Wang, Tianqi Du, Yisen Wang(参考訳) オーバースムーシング(Oversmoothing)は、幅広いグラフニューラルネットワーク(GNN)とトランスフォーマーにおいて一般的な現象であり、レイヤーの数が増えるにつれてパフォーマンスが悪化する。 表現が一点に収束する完全崩壊の観点から過度に滑らかな表現を特徴づける代わりに、表現が狭い円錐の中に置かれる次元崩壊のより一般的な視点に飛び込む。 したがって,次元崩壊防止におけるコントラスト学習の有効性に着想を得て,contranormと呼ばれる新しい正規化層を提案する。 直感的には、ContraNormは埋め込み空間における表現を暗黙的に破壊し、より均一な分布とわずかに次元の崩壊をもたらす。 理論的解析において、ContraNormは特定の条件下での完全崩壊と次元崩壊を緩和できることを示す。 提案する正規化層は,パラメータオーバーヘッドが無視できるGNNやTransformerに容易に統合できる。 提案したContraNormの有効性を実世界の様々なデータセットで実証した。 実装はhttps://github.com/PKU-ML/ContraNorm.comで公開しています。

Oversmoothing is a common phenomenon in a wide range of Graph Neural Networks (GNNs) and Transformers, where performance worsens as the number of layers increases. Instead of characterizing oversmoothing from the view of complete collapse in which representations converge to a single point, we dive into a more general perspective of dimensional collapse in which representations lie in a narrow cone. Accordingly, inspired by the effectiveness of contrastive learning in preventing dimensional collapse, we propose a novel normalization layer called ContraNorm. Intuitively, ContraNorm implicitly shatters representations in the embedding space, leading to a more uniform distribution and a slighter dimensional collapse. On the theoretical analysis, we prove that ContraNorm can alleviate both complete collapse and dimensional collapse under certain conditions. Our proposed normalization layer can be easily integrated into GNNs and Transformers with negligible parameter overhead. Experiments on various real-world datasets demonstrate the effectiveness of our proposed ContraNorm. Our implementation is available at https://github.com/PKU-ML/ContraNorm.
翻訳日:2023-05-03 17:06:59 公開日:2023-05-02
# 少数ショットセグメンテーションのためのマルチコンテンツインタラクションネットワーク

Multi-Content Interaction Network for Few-Shot Segmentation ( http://arxiv.org/abs/2303.06304v2 )

ライセンス: Link先を確認
Hao Chen, Yunlong Yu, Yonghan Dong, Zheming Lu, Yingming Li, and Zhongfei Zhang(参考訳) Few-Shot Segmentation (FSS) は,サポート画像の制限やクラス内外見の相違に難渋している。 既存のアプローチのほとんどは、サポートとクエリのサンプルの間に大きな違いがあるため、サポートとクエリの相関のために同じレイヤの高レベルな表現を抽出することに焦点を当てている。 本稿では,同層相関を補うために,サポートクエリペアに含まれるマルチスケールなコンテキスト情報を完全に活用し,対話することにより,この問題を解消するマルチコンテンツインタラクションネットワーク(mcinet)を提案する。 特に、MCINetは、他のクエリブランチからの低レベル構造情報を高レベルなセマンティック特徴に組み込むことにより、クエリ表現を強化し、同一層と隣接層の両方の機能を活用してサポートクエリ相関を強化し、異なるスケールのコンテンツが双方向に相互作用するマルチスケールマスク予測戦略によって予測結果を改善することにより、FSSを改善する。 2つのベンチマークの実験は、我々のアプローチがSOTAのパフォーマンスに到達し、多くの望ましい利点、特に挑戦的なCOCOデータセットで最高の競争相手を上回ることを実証している。

Few-Shot Segmentation (FSS) is challenging for limited support images and large intra-class appearance discrepancies. Most existing approaches focus on extracting high-level representations of the same layers for support-query correlations, neglecting the shift issue between different layers and scales, due to the huge difference between support and query samples. In this paper, we propose a Multi-Content Interaction Network (MCINet) to remedy this issue by fully exploiting and interacting with the multi-scale contextual information contained in the support-query pairs to supplement the same-layer correlations. Specifically, MCINet improves FSS from the perspectives of boosting the query representations by incorporating the low-level structural information from another query branch into the high-level semantic features, enhancing the support-query correlations by exploiting both the same-layer and adjacent-layer features, and refining the predicted results by a multi-scale mask prediction strategy, with which the different scale contents have bidirectionally interacted. Experiments on two benchmarks demonstrate that our approach reaches SOTA performances and outperforms the best competitors with many desirable advantages, especially on the challenging COCO dataset.
翻訳日:2023-05-03 17:06:41 公開日:2023-05-02
# AUTODIAL:効率的な非同期タスク指向対話モデル

AUTODIAL: Efficient Asynchronous Task-Oriented Dialogue Model ( http://arxiv.org/abs/2303.06245v2 )

ライセンス: Link先を確認
Prajjwal Bhargava, Pooyan Amini, Shahin Shayandeh, Chinnadhurai Sankar(参考訳) 大規模な対話モデルが実際に一般的になるにつれて、トレーニング、推論、より大きなメモリフットプリントに対する高い計算要求を取り巻く問題が続いている。 本稿では,対話モデルの展開における課題を解決するマルチタスク対話モデルであるautodialを提案する。 AUTODIALは並列デコーダを使用して対話行動予測、ドメイン予測、意図予測、対話状態追跡などのタスクを実行する。 生成デコーダ上の分類デコーダを使用することで、AUTODIALは既存の生成的アプローチであるSimpleTODと比較してメモリフットプリントを大幅に削減し、推論時間を短縮できる。 AUTODIALは3つの対話タスクに対して,SimpleTODに比べて11倍少ないパラメータで,推論中に3~6倍の高速化を実現する。 以上の結果から,並列デコーダを持つ現在の対話モデルを拡張することは,リソース制約のある環境にデプロイする上で有効な代替手段となる可能性が示唆された。

As large dialogue models become commonplace in practice, the problems surrounding high compute requirements for training, inference and larger memory footprint still persists. In this work, we present AUTODIAL, a multi-task dialogue model that addresses the challenges of deploying dialogue model. AUTODIAL utilizes parallel decoders to perform tasks such as dialogue act prediction, domain prediction, intent prediction, and dialogue state tracking. Using classification decoders over generative decoders allows AUTODIAL to significantly reduce memory footprint and achieve faster inference times compared to existing generative approach namely SimpleTOD. We demonstrate that AUTODIAL provides 3-6x speedups during inference while having 11x fewer parameters on three dialogue tasks compared to SimpleTOD. Our results show that extending current dialogue models to have parallel decoders can be a viable alternative for deploying them in resource-constrained environments.
翻訳日:2023-05-03 17:06:18 公開日:2023-05-02
# 太陽バースト北エフ環のリウビリアンギャップと平衡外ダイナミクス:局所から均一散逸へ

Liouvillian gap and out-of-equilibrium dynamics of a sunburst Kitaev ring: from local to uniform dissipation ( http://arxiv.org/abs/2303.04207v2 )

ライセンス: Link先を確認
Alessio Franchi, Francesco Tarantelli(参考訳) 1+1) 次元のキタエフ環からなる開量子系を、\textit{sunburst} 幾何学において、n$ の粒子損失散逸子を介して環境と結合する。 装置全体の平衡外ダイナミクスをlindbladマスター方程式を用いて記述し,システムサイズ$l$のliovillian gap $\delta_\lambda$のスケーリング挙動に注目した。 我々は、大きめの極限で考慮された散逸源の数と、散逸強度$w$に依存する異なるレジームを明らかにし、これは固定または0に$w\sim1/L$として減衰される。 第2部では、臨界相関と絡み合いエントロピーの時間的進化を監視するために、連続量子遷移に近い動的有限サイズスケーリングフレームワークを開発し、この体制における$\Delta_\lambda$の役割を強調した。

We consider an open quantum system composed of a $(1+1)$-dimensional Kitaev ring coupled with the environment via $n$ particle-loss dissipators in a \textit{sunburst} geometry. We describe the out-of-equilibrium dynamics of the whole apparatus in terms of Lindblad master equations and focus on the scaling behavior of the Liovillian gap $\Delta_\lambda$ with the system size $L$. We unveil different regimes, which depend primarily on the number of dissipation sources considered in the large-size limit and the dissipation strength $w$, which may be either fixed or attenuated to zero as $w\sim1/L$. In the second part, we develop a dynamic Finite-Size Scaling framework close to Continuous Quantum Transitions to monitor the time evolution of the critical correlations and the entanglement entropy, emphasizing the role of $\Delta_\lambda$ in this regime.
翻訳日:2023-05-03 17:05:46 公開日:2023-05-02
# SDVRF:マルチモーダル3次元物体検出のための低密度Voxel領域融合

SDVRF: Sparse-to-Dense Voxel Region Fusion for Multi-modal 3D Object Detection ( http://arxiv.org/abs/2304.08304v2 )

ライセンス: Link先を確認
Binglu Ren and Jianqin Yin(参考訳) 自律運転の認識タスクでは,LiDAR点雲と画像データの相補的特徴から,マルチモーダル手法がトレンドとなっている。 しかし,従来の手法の性能は,通常点雲の間隔や,LiDARとカメラのミスアライメントに起因するノイズの問題によって制限される。 これら2つの問題を解決するために,各ボクセルの局所点雲を動的に投影することで得られるVoxel Region(VR)という概念を提案する。 そこで我々は,Sparse-to-Dense Voxel Region Fusion (SDVRF) という新しい融合法を提案する。 具体的には、VR内の画像特徴マップの画素数を増やして、スパースポイントから抽出されたボクセル特徴を補い、より密接な融合を実現する。 一方、サイズを固定したグリッドを投影する従来の方法とは異なり、動的領域を生成するという我々の戦略は、アライメントが良くなり、バックグラウンドノイズが多すぎることを避ける。 さらに,より文脈的な情報を抽出し,異なる大きさのオブジェクトの特徴を捉えるマルチスケール融合フレームワークを提案する。 KITTIデータセットを用いた実験により,提案手法は,特にペデストリアンやサイクリストなど小型のクラスにおいて,異なるベースラインの性能を向上させることが示された。

In the perception task of autonomous driving, multi-modal methods have become a trend due to the complementary characteristics of LiDAR point clouds and image data. However, the performance of previous methods is usually limited by the sparsity of the point cloud or the noise problem caused by the misalignment between LiDAR and the camera. To solve these two problems, we present a new concept, Voxel Region (VR), which is obtained by projecting the sparse local point clouds in each voxel dynamically. And we propose a novel fusion method, named Sparse-to-Dense Voxel Region Fusion (SDVRF). Specifically, more pixels of the image feature map inside the VR are gathered to supplement the voxel feature extracted from sparse points and achieve denser fusion. Meanwhile, different from prior methods, which project the size-fixed grids, our strategy of generating dynamic regions achieves better alignment and avoids introducing too much background noise. Furthermore, we propose a multi-scale fusion framework to extract more contextual information and capture the features of objects of different sizes. Experiments on the KITTI dataset show that our method improves the performance of different baselines, especially on classes of small size, including Pedestrian and Cyclist.
翻訳日:2023-05-03 17:00:24 公開日:2023-05-02
# 学習可能な学習率を持つ勾配レスフェデレーション勾配促進木

Gradient-less Federated Gradient Boosting Trees with Learnable Learning Rates ( http://arxiv.org/abs/2304.07537v2 )

ライセンス: Link先を確認
Chenyang Ma, Xinchi Qiu, Daniel J. Beutel, Nicholas D. Lane(参考訳) 分散データセットのプライバシーに敏感な性質と表データ上のeXtreme Gradient Boosting(XGBoost)の堅牢性は、連邦学習(FL)の文脈でXGBoostをトレーニングする必要性を高めます。 分散XGBoostの水平配置における既存の作業は、ノード単位の通信頻度と深刻なプライバシー懸念を引き起こす勾配の共有に依存している。 これらの問題を緩和するために, 勾配の共有に依存しず, 集合木アンサンブルの学習率を学習可能とし, プライバシーと通信効率を向上させる, 水平フェデレートxgboostの革新的な枠組みを開発した。 我々は,様々な分類と回帰データセットについて広範な評価を行い,最先端手法に匹敵する性能を達成し,通信ラウンドと通信オーバーヘッドを25倍から700倍まで低減することで,通信効率を効果的に向上することを示す。

The privacy-sensitive nature of decentralized datasets and the robustness of eXtreme Gradient Boosting (XGBoost) on tabular data raise the needs to train XGBoost in the context of federated learning (FL). Existing works on federated XGBoost in the horizontal setting rely on the sharing of gradients, which induce per-node level communication frequency and serious privacy concerns. To alleviate these problems, we develop an innovative framework for horizontal federated XGBoost which does not depend on the sharing of gradients and simultaneously boosts privacy and communication efficiency by making the learning rates of the aggregated tree ensembles learnable. We conduct extensive evaluations on various classification and regression datasets, showing our approach achieves performance comparable to the state-of-the-art method and effectively improves communication efficiency by lowering both communication rounds and communication overhead by factors ranging from 25x to 700x.
翻訳日:2023-05-03 17:00:03 公開日:2023-05-02
# ニューラルネットワークを用いた不確実性を考慮した車両エネルギー効率予測

Uncertainty-Aware Vehicle Energy Efficiency Prediction using an Ensemble of Neural Networks ( http://arxiv.org/abs/2304.07073v2 )

ライセンス: Link先を確認
Jihed Khiari, Cristina Olaverri-Monreal(参考訳) 交通部門は温室効果ガス排出量の約25%を占めている。 したがって、交通分野におけるエネルギー効率の向上は、炭素フットプリントの削減に不可欠である。 効率は通常、走行距離あたりのエネルギー使用量(例えば1kmあたりの燃料のリットル)で測定される。 エネルギー効率に影響を与える主要な要因は、車両の種類、環境、運転者の行動、気象条件である。 これらの異なる要因は、車両のエネルギー効率の推定に不確実性をもたらす。 本稿では,予測の不確かさを低減し,そのような不確実性の尺度を出力するために設計された,深層ニューラルネットワーク(enn)に基づくアンサンブル学習手法を提案する。 我々は、ved(public available vehicle energy dataset)を用いて評価し、車両毎およびエネルギータイプ毎のベースラインと比較した。 その結果,予測性能が高く,予測不確実性の指標を出力することができた。

The transportation sector accounts for about 25% of global greenhouse gas emissions. Therefore, an improvement of energy efficiency in the traffic sector is crucial to reducing the carbon footprint. Efficiency is typically measured in terms of energy use per traveled distance, e.g. liters of fuel per kilometer. Leading factors that impact the energy efficiency are the type of vehicle, environment, driver behavior, and weather conditions. These varying factors introduce uncertainty in estimating the vehicles' energy efficiency. We propose in this paper an ensemble learning approach based on deep neural networks (ENN) that is designed to reduce the predictive uncertainty and to output measures of such uncertainty. We evaluated it using the publicly available Vehicle Energy Dataset (VED) and compared it with several baselines per vehicle and energy type. The results showed a high predictive performance and they allowed to output a measure of predictive uncertainty.
翻訳日:2023-05-03 16:59:18 公開日:2023-05-02
# 大規模言語モデルを用いた多言語機械翻訳:実験結果と分析

Multilingual Machine Translation with Large Language Models: Empirical Results and Analysis ( http://arxiv.org/abs/2304.04675v2 )

ライセンス: Link先を確認
Wenhao Zhu, Hongyi Liu, Qingxiu Dong, Jingjing Xu, Shujian Huang, Lingpeng Kong, Jiajun Chen, Lei Li(参考訳) 大規模言語モデル(LLM)は多言語機械翻訳(MMT)の処理において顕著な可能性を示している。 本稿では, MMT における LLM の利点と課題を, 2 つの質問に答えて体系的に検討する。 1) 大量の言語を翻訳する上で,LLMはどの程度機能するのか? 2)翻訳におけるLLMの性能に影響を及ぼす要因は何か? 我々は102言語でXGLM, OPT, BLOOMZ, ChatGPTなどの人気のあるLLMを評価した。 実験の結果、最高のモデルであるchatgptでさえ、83.33%の翻訳方向で教師付きベースラインnllbよりも遅れていることがわかった。 さらなる分析により,LSMはMTに使用する場合,新たな作業パターンを示すことがわかった。 第一に、プロンプトのセマンティクスは、コンテキスト内exemplarsが与えられたとき、驚くほど無視され、llmは、不合理なプロンプトでも強力なパフォーマンスを示す。 第2に、言語横断の例題は、同じ言語対の例題よりも、低リソース翻訳のための優れたタスク命令を提供することができる。 第3に、データセットFlores-101上でのBLOOMZの過大評価性能を観察し、パブリックデータセットを評価に用いる場合の潜在的なリスクを示す。

Large language models (LLMs) have demonstrated remarkable potential in handling multilingual machine translation (MMT). In this paper, we systematically investigate the advantages and challenges of LLMs for MMT by answering two questions: 1) How well do LLMs perform in translating a massive number of languages? 2) Which factors affect LLMs' performance in translation? We evaluate popular LLMs, including XGLM, OPT, BLOOMZ, and ChatGPT, on 102 languages. Our empirical results show that even the best model ChatGPT still lags behind the supervised baseline NLLB in 83.33% of translation directions. Through further analysis, we discover that LLMs exhibit new working patterns when used for MMT. First, prompt semantics can surprisingly be ignored when given in-context exemplars, where LLMs still show strong performance even with unreasonable prompts. Second, cross-lingual exemplars can provide better task instruction for low-resource translation than exemplars in the same language pairs. Third, we observe the overestimated performance of BLOOMZ on dataset Flores-101, indicating the potential risk when using public datasets for evaluation.
翻訳日:2023-05-03 16:59:00 公開日:2023-05-02
# Hist2RNA:乳がん組織像から遺伝子発現を予測するための効率的なディープラーニングアーキテクチャ

hist2RNA: An efficient deep learning architecture to predict gene expression from breast cancer histopathology images ( http://arxiv.org/abs/2304.04507v3 )

ライセンス: Link先を確認
Raktim Kumar Mondol, Ewan K.A. Millar, Peter H Graham, Lois Browne, Arcot Sowmya, Erik Meijering(参考訳) 遺伝子発現は、通常の免疫組織化学(ihc)による再発リスクと治療応答性の予測を改善した乳癌のサブタイプに使用できる。 しかし、このクリニックでは、分子プロファイリングは主にER+がんに使われ、費用がかかり、組織が破壊され、特別なプラットフォームが必要で、結果を得るために数週間かかる。 深層学習アルゴリズムは、デジタル組織病理画像の形態的パターンを効果的に抽出し、分子表現型を迅速かつ費用効率良く予測することができる。 ヘマトキシリンおよびエオシン(H&E)染色スライディング画像(WSIs)からの光性PAM50サブタイプを含む138遺伝子(市販の分子プロファイリングテスト6種を組み込んだ)の発現を予測するため,バルクRNAシークエンシング技術に触発された新しい計算効率の高いhist2RNAを提案する。 トレーニングフェーズは、The Cancer Genome Atlas (TCGA, n=335)の注釈付きH&E画像を用いて、患者レベルでの遺伝子発現を予測する事前訓練モデルから抽出された各患者の特徴の集約を含む。 我々は、保持されたテストセット(n = 160, corr = 0.82, corr = 0.29)で遺伝子予測を成功させ、IHCおよび生存情報を含む外部組織マイクロアレイ(TMA)データセット(n = 498)で探索分析を行った。 本モデルでは, 単変量解析(c-index = 0.56), ハザード比 = 2.16 (95% CI 1.12-3.06), p < 5 x 10-3), および標準臨床病理学的変数(c-index = 0.65, ハザード比 = 1.85 (95% CI 1.30-2.68), p < 5 x 10-3) を含む多変量解析において, 遺伝子の発現と光学的PAM50サブタイプ(Luminal A vs Luminal B)を予測できる。

Gene expression can be used to subtype breast cancer with improved prediction of risk of recurrence and treatment responsiveness over that obtained using routine immunohistochemistry (IHC). However, in the clinic, molecular profiling is primarily used for ER+ cancer and is costly and tissue destructive, requires specialized platforms and takes several weeks to obtain a result. Deep learning algorithms can effectively extract morphological patterns in digital histopathology images to predict molecular phenotypes quickly and cost-effectively. We propose a new, computationally efficient approach called hist2RNA inspired by bulk RNA-sequencing techniques to predict the expression of 138 genes (incorporated from six commercially available molecular profiling tests), including luminal PAM50 subtype, from hematoxylin and eosin (H&E) stained whole slide images (WSIs). The training phase involves the aggregation of extracted features for each patient from a pretrained model to predict gene expression at the patient level using annotated H&E images from The Cancer Genome Atlas (TCGA, n=335). We demonstrate successful gene prediction on a held-out test set (n = 160, corr = 0.82 across patients, corr = 0.29 across genes) and perform exploratory analysis on an external tissue microarray (TMA) dataset (n = 498) with known IHC and survival information. Our model is able to predict gene expression and luminal PAM50 subtype (Luminal A versus Luminal B) on the TMA dataset with prognostic significance for overall survival in univariate analysis (c-index = 0.56, hazard ratio = 2.16 (95% CI 1.12-3.06), p < 5 x 10-3), and independent significance in multivariate analysis incorporating standard clinicopathological variables (c-index = 0.65, hazard ratio = 1.85 (95% CI 1.30-2.68), p < 5 x 10-3).
翻訳日:2023-05-03 16:58:43 公開日:2023-05-02
# 曲がった時空を伝播する量子光子の重力赤方偏移入門

Introduction to gravitational redshift of quantum photons propagating in curved spacetime ( http://arxiv.org/abs/2303.17412v2 )

ライセンス: Link先を確認
Luis Adri\'an Alan\'is Rodr\'iguez, Andreas Wolfgang Schell and David Edward Bruschi(参考訳) 重力赤方偏移は、曲面時空で伝播する量子光子の文脈で議論される。 リアルな光子をモデル化する簡単な入門が提示され、光子のスペクトルに対する重力の影響は、主に伝播方向に閉じ込められている。 すると、鋭いモータを持つ光子作用素に対する赤方偏移誘起変換はユニタリではなく、有限帯域を持つ現実光子に対してユニタリ変換を構築することができる。 得られたユニタリ変換は、ヒルベルト空間基底の一般化回転である多重モード混合演算として特徴づけられる。 最後に、これらの結果の応用について、量子通信プロトコルの性能、量子力学およびセンシングに対する効果の活用、および基礎科学のテストの可能性に焦点をあてて論じる。

Gravitational redshift is discussed in the context of quantum photons propagating in curved spacetime. A brief introduction to modelling realistic photons is first presented and the effect of gravity on the spectrum computed for photons largely confined along the direction of propagation. It is then shown that redshift-induced transformations on photon operators with sharp momenta are not unitary, while a unitary transformation can be constructed for realistic photons with finite bandwidth. The unitary transformation obtained is then characterized as a multimode mixing operation, which is a generalized rotation of the Hilbert-space basis. Finally, applications of these results are discussed with focus on performance of quantum communication protocols, exploitation of the effects for quantum metrology and sensing, as well as potential for tests of fundamental science.
翻訳日:2023-05-03 16:57:16 公開日:2023-05-02
# EgoTV: 自然言語タスク記述からエゴセントリックなタスク検証

EgoTV: Egocentric Task Verification from Natural Language Task Descriptions ( http://arxiv.org/abs/2303.16975v4 )

ライセンス: Link先を確認
Rishi Hazra, Brian Chen, Akshara Rai, Nitin Kamra, Ruta Desai(参考訳) 自然言語で特定された日常的なタスクを理解可能なエゴセントリックエージェントへの進歩を実現するために,egocentric task verification(egotv)と呼ばれるベンチマークと合成データセットを提案する。 EgoTVには、複数のサブタスクの分解、状態変更、オブジェクトのインタラクション、サブタスクの順序制約を含むマルチステップタスクに加えて、タスクの達成方法に関する部分的な詳細のみを含む抽象化されたタスク記述が含まれている。 また,このようなタスクの因果的,時間的,構成的推論を可能にする新しいニューロシンボリックグラウンドディング(NSG)手法を提案する。 EgoTVデータセットとCTV(CrossTask)から派生した実世界のデータセット上で,タスクトラッキングと検証に対するNSGの機能を示す。 コントリビューションには、EgoTVおよびCTVデータセットのリリースと、エゴセントリック補助剤の研究のためのNSGモデルが含まれている。

To enable progress towards egocentric agents capable of understanding everyday tasks specified in natural language, we propose a benchmark and a synthetic dataset called Egocentric Task Verification (EgoTV). EgoTV contains multi-step tasks with multiple sub-task decompositions, state changes, object interactions, and sub-task ordering constraints, in addition to abstracted task descriptions that contain only partial details about ways to accomplish a task. We also propose a novel Neuro-Symbolic Grounding (NSG) approach to enable the causal, temporal, and compositional reasoning of such tasks. We demonstrate NSG's capability towards task tracking and verification on our EgoTV dataset and a real-world dataset derived from CrossTask (CTV). Our contributions include the release of the EgoTV and CTV datasets, and the NSG model for future research on egocentric assistive agents.
翻訳日:2023-05-03 16:57:02 公開日:2023-05-02
# JaxPruner: 空間研究のための簡潔なライブラリ

JaxPruner: A concise library for sparsity research ( http://arxiv.org/abs/2304.14082v2 )

ライセンス: Link先を確認
Joo Hyung Lee, Wonpyo Park, Nicole Mitchell, Jonathan Pilault, Johan Obando-Ceron, Han-Byul Kim, Namhoon Lee, Elias Frantar, Yun Long, Amir Yazdanbakhsh, Shivani Agrawal, Suvinay Subramanian, Xin Wang, Sheng-Chun Kao, Xingyao Zhang, Trevor Gale, Aart Bik, Woohyun Han, Milen Ferev, Zhonglin Han, Hong-Seok Kim, Yann Dauphin, Gintare Karolina Dziugaite, Pablo Samuel Castro, Utku Evci(参考訳) 本稿では、オープンソースのJAXベースのプルーニングおよびスパーストレーニングライブラリであるJaxPrunerを紹介する。 jaxprunerは、メモリとレイテンシのオーバーヘッドを最小限に抑えながら、人気のあるpruningとsparseトレーニングアルゴリズムの簡潔な実装を提供することで、スパースニューラルネットワークの研究を加速することを目指している。 jaxprunerに実装されたアルゴリズムは共通のapiを使用して、人気のある最適化ライブラリであるopaxとシームレスに連携する。 この統合の容易さを4つの異なるコードベースで例示することで実証し、人気のあるベンチマークに関するベースライン実験を提供する。

This paper introduces JaxPruner, an open-source JAX-based pruning and sparse training library for machine learning research. JaxPruner aims to accelerate research on sparse neural networks by providing concise implementations of popular pruning and sparse training algorithms with minimal memory and latency overhead. Algorithms implemented in JaxPruner use a common API and work seamlessly with the popular optimization library Optax, which, in turn, enables easy integration with existing JAX based libraries. We demonstrate this ease of integration by providing examples in four different codebases: Scenic, t5x, Dopamine and FedJAX and provide baseline experiments on popular benchmarks.
翻訳日:2023-05-03 16:50:13 公開日:2023-05-02
# 表面欠陥検出に基づく少数データ学習のためのヒューマンマシン知識ハイブリッド化手法

Human-machine knowledge hybrid augmentation method for surface defect detection based few-data learning ( http://arxiv.org/abs/2304.13963v2 )

ライセンス: Link先を確認
Yu Gong, Xiaoqiao Wang, Chichun Zhou(参考訳) 視覚に基づく欠陥検出は,産業品質管理において極めて重要な課題である。 ほとんどの主流の手法は、補助情報として大量の既存または関連するドメインデータに依存している。 しかし、実際の工業生産では、タスク要求が急速に変化するマルチバッチで低ボリュームな製造シナリオがしばしばあり、十分かつ多様な欠陥データを得るのが困難である。 本稿では,人間と機械の知識のハイブリッド化手法を用いて,未知の重要な特徴の抽出を支援する並列解を提案する。 具体的には、専門家の異常に関する知識を取り入れて、豊富な特徴、位置、サイズ、背景を持つデータを作成することで、スクラッチから大量のデータを迅速に蓄積し、少数データ学習の事前知識としてモデルに提供することができる。 提案手法は,磁気タイルデータセット上で評価され,2,5,10,15のトレーニング画像を用いて,それぞれ60.73%,70.82%,77.09%,82.81%のf1スコアを達成した。 従来の拡張法F1スコアの64.59%と比較して, 提案法は18.22%向上し, 少数データ産業欠陥検出の可能性と有効性を示した。

Visual-based defect detection is a crucial but challenging task in industrial quality control. Most mainstream methods rely on large amounts of existing or related domain data as auxiliary information. However, in actual industrial production, there are often multi-batch, low-volume manufacturing scenarios with rapidly changing task demands, making it difficult to obtain sufficient and diverse defect data. This paper proposes a parallel solution that uses a human-machine knowledge hybrid augmentation method to help the model extract unknown important features. Specifically, by incorporating experts' knowledge of abnormality to create data with rich features, positions, sizes, and backgrounds, we can quickly accumulate an amount of data from scratch and provide it to the model as prior knowledge for few-data learning. The proposed method was evaluated on the magnetic tile dataset and achieved F1-scores of 60.73%, 70.82%, 77.09%, and 82.81% when using 2, 5, 10, and 15 training images, respectively. Compared to the traditional augmentation method's F1-score of 64.59%, the proposed method achieved an 18.22% increase in the best result, demonstrating its feasibility and effectiveness in few-data industrial defect detection.
翻訳日:2023-05-03 16:50:00 公開日:2023-05-02
# EasyPortrait - 顔解析とポートレートセグメンテーションデータセット

EasyPortrait -- Face Parsing and Portrait Segmentation Dataset ( http://arxiv.org/abs/2304.13509v2 )

ライセンス: Link先を確認
Alexander Kapitanov, Karina Kvanchiani, Sofia Kirillova(参考訳) 近年、新型コロナウイルス(COVID-19)とリモートワークの需要が高まっているため、ビデオ会議アプリが特に普及している。 ビデオチャットのもっとも価値のある機能は、リアルタイムのバックグラウンド削除と顔の美化だ。 これらの課題を解決する一方で、コンピュータビジョンの研究者は、トレーニングステージに関連データを持つという問題に直面している。 ノートパソコンやスマートフォンカメラの前に、高品質で多様なイメージをラベル付けして、追加のアプローチなしで軽量モデルをトレーニングする大規模なデータセットはありません。 この領域の進歩を促進するために、ポートレートセグメンテーションと顔解析タスクのための新しいイメージデータセットEasyPortraitを提供する。 8,377人のユニークなユーザーによる2万枚の屋内写真と、9つのクラスに分かれたきめ細かいセグメンテーションマスクを含んでいる。 画像はクラウドソーシングプラットフォームから収集されラベル付けされる。 ほとんどの顔分析データセットとは異なり、easyportraitでは、あごひげは皮膚マスクの一部とは見なされておらず、口の内部は歯から切り離されている。 これらの機能は、肌の強化と歯の白化タスクにEasyPortraitを使用することができる。 本稿では,クラウドソーシングプラットフォームを用いた大規模かつクリーンな画像セグメンテーションデータセット作成のためのパイプラインについて述べる。 さらに, EasyPortraitで複数のモデルを訓練し, 実験結果を示した。 提案されたデータセットとトレーニングされたモデルが公開されている。

Recently, due to COVID-19 and the growing demand for remote work, video conferencing apps have become especially widespread. The most valuable features of video chats are real-time background removal and face beautification. While solving these tasks, computer vision researchers face the problem of having relevant data for the training stage. There is no large dataset with high-quality labeled and diverse images of people in front of a laptop or smartphone camera to train a lightweight model without additional approaches. To boost the progress in this area, we provide a new image dataset, EasyPortrait, for portrait segmentation and face parsing tasks. It contains 20,000 primarily indoor photos of 8,377 unique users, and fine-grained segmentation masks separated into 9 classes. Images are collected and labeled from crowdsourcing platforms. Unlike most face parsing datasets, in EasyPortrait, the beard is not considered part of the skin mask, and the inside area of the mouth is separated from the teeth. These features allow using EasyPortrait for skin enhancement and teeth whitening tasks. This paper describes the pipeline for creating a large-scale and clean image segmentation dataset using crowdsourcing platforms without additional synthetic data. Moreover, we trained several models on EasyPortrait and showed experimental results. Proposed dataset and trained models are publicly available.
翻訳日:2023-05-03 16:49:38 公開日:2023-05-02
# Sebis at SemEval-2023 Task 7: A Joint System for Natural Language Inference and Evidence Retrieval from Clinical Trial Reports

Sebis at SemEval-2023 Task 7: A Joint System for Natural Language Inference and Evidence Retrieval from Clinical Trial Reports ( http://arxiv.org/abs/2304.13180v2 )

ライセンス: Link先を確認
Juraj Vladika, Florian Matthes(参考訳) 毎日生成される臨床試験報告の数が増えるにつれて、証拠に基づく医療勧告を知らせる新たな発見に追随することは難しくなってきている。 このプロセスを自動化し、医療専門家を支援するため、NLPソリューションが開発されている。 これは、エビデンス検索と臨床試験データからの自然言語推論の2つのタスクのためのnlpシステムの開発を目標としたsemeval-2023タスク7の動機となった。 本稿では,2つのシステムについて述べる。 1つは2つのタスクを個別にモデル化するパイプラインシステムであり、2つ目は2つのタスクを共有表現とマルチタスク学習アプローチで同時に学習するジョイントシステムである。 最終的なシステムは、その出力をアンサンブルシステムに結合する。 モデルを形式化し,その特性と課題を提示し,得られた結果の分析を行う。 最終応募者40名中3位にランクインした。

With the increasing number of clinical trial reports generated every day, it is becoming hard to keep up with novel discoveries that inform evidence-based healthcare recommendations. To help automate this process and assist medical experts, NLP solutions are being developed. This motivated the SemEval-2023 Task 7, where the goal was to develop an NLP system for two tasks: evidence retrieval and natural language inference from clinical trial data. In this paper, we describe our two developed systems. The first one is a pipeline system that models the two tasks separately, while the second one is a joint system that learns the two tasks simultaneously with a shared representation and a multi-task learning approach. The final system combines their outputs in an ensemble system. We formalize the models, present their characteristics and challenges, and provide an analysis of achieved results. Our system ranked 3rd out of 40 participants with a final submission.
翻訳日:2023-05-03 16:49:19 公開日:2023-05-02
# Rubikの光ニューラルネットワーク:物理対応ローテーションアーキテクチャによるマルチタスク学習

Rubik's Optical Neural Networks: Multi-task Learning with Physics-aware Rotation Architecture ( http://arxiv.org/abs/2304.12985v2 )

ライセンス: Link先を確認
Yingjie Li, Weilu Gao, Cunxi Yu(参考訳) 近年、電力効率、並列性、計算速度の面で機械学習(ML)に大きな利点をもたらす光学ニューラルネットワーク(ONN)の進歩への取り組みが増えている。 計算速度とエネルギー効率にかなりの利点があるため、onnを医療センシング、セキュリティスクリーニング、薬物検出、自動運転に活用することには大きな関心がある。 しかしながら、再構成可能性を実装することの難しさから、マルチタスク学習(mtl)アルゴリズムをonnにデプロイするには、実際のアプリケーションシナリオにおけるエネルギーとコスト効率を大幅に低下させる物理的拡散システムの再構築と複製が必要となる。 この論文は、光学系の物理的性質を利用して複数のフィードフォワード関数をエンコードし、 \textit{rubik's cube} を回転させるのと同様にハードウェアを物理的に回転させることによって、新しい onns アーキテクチャ、すなわち \textit{rubikonns} を提案する。 RubikONN 上での MTL 性能を最適化するために,ドメイン固有の物理認識トレーニングアルゴリズム \textit{RotAgg} と \textit{RotSeq} を提案する。 実験の結果, 最先端の手法と比較して, エネルギーとコストの効率が改善し, 限界精度が低下することを示した。

Recently, there are increasing efforts on advancing optical neural networks (ONNs), which bring significant advantages for machine learning (ML) in terms of power efficiency, parallelism, and computational speed. With the considerable benefits in computation speed and energy efficiency, there are significant interests in leveraging ONNs into medical sensing, security screening, drug detection, and autonomous driving. However, due to the challenge of implementing reconfigurability, deploying multi-task learning (MTL) algorithms on ONNs requires re-building and duplicating the physical diffractive systems, which significantly degrades the energy and cost efficiency in practical application scenarios. This work presents a novel ONNs architecture, namely, \textit{RubikONNs}, which utilizes the physical properties of optical systems to encode multiple feed-forward functions by physically rotating the hardware similarly to rotating a \textit{Rubik's Cube}. To optimize MTL performance on RubikONNs, two domain-specific physics-aware training algorithms \textit{RotAgg} and \textit{RotSeq} are proposed. Our experimental results demonstrate more than 4$\times$ improvements in energy and cost efficiency with marginal accuracy degradation compared to the state-of-the-art approaches.
翻訳日:2023-05-03 16:49:01 公開日:2023-05-02
# SAMはセグメンテーションに失敗したか? --SAM-Adapter:Camouflage、Shadow、メディカルイメージセグメンテーションなど、未演奏シーンにおけるSAMの適応

SAM Fails to Segment Anything? -- SAM-Adapter: Adapting SAM in Underperformed Scenes: Camouflage, Shadow, Medical Image Segmentation, and More ( http://arxiv.org/abs/2304.09148v3 )

ライセンス: Link先を確認
Tianrun Chen, Lanyun Zhu, Chaotao Ding, Runlong Cao, Yan Wang, Zejian Li, Lingyun Sun, Papa Mao, Ying Zang(参考訳) ファンデーションモデルとしても知られる大型モデルの出現は、AI研究に大きな進歩をもたらした。 そのようなモデルの1つは、イメージセグメンテーションタスク用に設計されたSegment Anything (SAM)である。 しかし,他の基礎モデルと同様に,影検出や擬似物体検出 (concealed object detection) などの特定のセグメンテーションタスクではSAMが故障したり,動作不良となる可能性が示唆された。 本研究は,SAMが不十分な状況であっても,まず,大規模な訓練済み画像分割モデルSAMを下流タスクに適用する方法について検討する。 SAM ネットワークを微調整する代わりに,ドメイン固有情報や視覚的プロンプトを,単純かつ効果的なアダプタを用いてセグメント化ネットワークに組み込んだ \textbf{SAM-Adapter} を提案する。 SAM-Adapterは,タスク固有の知識を,大規模モデルで学習した一般的な知識と統合することにより,課題におけるSAMの性能を大幅に向上させることができる。 テストしたタスクでは、タスク固有のネットワークモデルを上回ることができ、最先端のパフォーマンスを実現できます。 また,ポリープセグメンテーション(医用画像セグメンテーション)を試験し,良好な結果を得た。 医療画像処理,農業,リモートセンシングなど,さまざまな分野に適用可能な,下流作業におけるSAM活用の機会が開けていると考えています。

The emergence of large models, also known as foundation models, has brought significant advancements to AI research. One such model is Segment Anything (SAM), which is designed for image segmentation tasks. However, as with other foundation models, our experimental findings suggest that SAM may fail or perform poorly in certain segmentation tasks, such as shadow detection and camouflaged object detection (concealed object detection). This study first paves the way for applying the large pre-trained image segmentation model SAM to these downstream tasks, even in situations where SAM performs poorly. Rather than fine-tuning the SAM network, we propose \textbf{SAM-Adapter}, which incorporates domain-specific information or visual prompts into the segmentation network by using simple yet effective adapters. By integrating task-specific knowledge with general knowledge learnt by the large model, SAM-Adapter can significantly elevate the performance of SAM in challenging tasks as shown in extensive experiments. We can even outperform task-specific network models and achieve state-of-the-art performance in the task we tested: camouflaged object detection, shadow detection. We also tested polyp segmentation (medical image segmentation) and achieves better results. We believe our work opens up opportunities for utilizing SAM in downstream tasks, with potential applications in various fields, including medical image processing, agriculture, remote sensing, and more.
翻訳日:2023-05-03 16:48:08 公開日:2023-05-02
# 視覚異常セグメンテーションのためのニューラルアーキテクチャ探索

Neural Architecture Search for Visual Anomaly Segmentation ( http://arxiv.org/abs/2304.08975v2 )

ライセンス: Link先を確認
Tommie Kerssies, Joaquin Vanschoren(参考訳) 本稿では,視覚異常をセグメンテーションする複雑なタスクに対するニューラルネットワーク探索の最初の応用について述べる。 不均衡な異常画素, 異なる領域, 様々な種類の異常により, 異常セグメンテーション性能の測定は困難である。 第一に、地域重み付き平均精度(rwAP)尺度は、特定の最大偽陽性率に制限される必要のない既存の指標の代替として提案されている。 第2に、トレーニングなしで視覚異常の効率的なセグメンテーションを可能にするAutoPatchニューラルアーキテクチャ探索法を提案する。 トレーニング済みのスーパーネットを利用することで、ブラックボックス最適化アルゴリズムは計算複雑性を直接最小化し、異常な例の小さな検証セットの性能を最大化することができる。 最後に、広く研究されているMVTecデータセットに説得力のある結果が示され、AutoPatchが現在の最先端技術よりも計算複雑性が低く、異常の種類ごとに1つの例しか使用していないことを示した。 その結果,産業品質管理におけるスループットを最適化する自動機械学習の可能性が浮き彫りになった。 AutoPatchのコードは、https://github.com/tommiekerssies/AutoPatchで入手できる。

This paper presents the first application of neural architecture search to the complex task of segmenting visual anomalies. Measurement of anomaly segmentation performance is challenging due to imbalanced anomaly pixels, varying region areas, and various types of anomalies. First, the region-weighted Average Precision (rwAP) metric is proposed as an alternative to existing metrics, which does not need to be limited to a specific maximum false positive rate. Second, the AutoPatch neural architecture search method is proposed, which enables efficient segmentation of visual anomalies without any training. By leveraging a pre-trained supernet, a black-box optimization algorithm can directly minimize computational complexity and maximize performance on a small validation set of anomalous examples. Finally, compelling results are presented on the widely studied MVTec dataset, demonstrating that AutoPatch outperforms the current state-of-the-art with lower computational complexity, using only one example per type of anomaly. The results highlight the potential of automated machine learning to optimize throughput in industrial quality control. The code for AutoPatch is available at: https://github.com/tommiekerssies/AutoPatch
翻訳日:2023-05-03 16:47:44 公開日:2023-05-02
# マルチモーダルセンサ融合を用いたDEDプリントSS316L部品の表面ポロシティのその場予測

In-situ surface porosity prediction in DED (directed energy deposition) printed SS316L parts using multimodal sensor fusion ( http://arxiv.org/abs/2304.08658v3 )

ライセンス: Link先を確認
Adithyaa Karthikeyan, Himanshu Balhara, Andreas K Lianos, Abhishek Hanchate, Satish TS Bukkapatnam(参考訳) 本研究の目的は,高空間(0.5mm)および時間(1ms)の細孔形成と,ハイブリッド指向型エネルギー堆積法(DED)プロセスで収集したAEおよび他のマルチモーダルセンサデータの時間周波数パターンを関連付けることである。 LIME(Local Interpretable Model-Agnostic Explanations)に説明可能なAI手法を適用すると、AEの特定の高周波波形シグネチャは、DEDプロセスにおいて細孔形成のための2つの主要な経路、すなわち、スパッタイベントと、低熱入力による隣接プリントトラック間の融合に起因していると考えられる。 このアプローチは、印刷されたすべてのボクセル(0.5mm)に細孔が存在することを、リアルタイムに予測するエキサイティングな可能性を開く。 SS316Lの材料試料を印刷し、その後加工しながら、力、AE、振動、温度を含む同期マルチモーダルセンサデータを収集した。 プロセスチェーン中に収集されたセンサデータの時間周波数パターン(スペクトログラム)に基づいて、ボクセル表面における細孔の存在を識別するためにディープ畳み込みニューラルネットワーク分類器を用いた。 その結果, DEDで収集した信号は, ボクセルのポロシティ検出のために加工した信号に比べて感度が高かった(分類試験精度87%)。 石灰分析から得られた基礎的な説明は、高周波ae波形で捕獲されたエネルギーは、融液プール内で比較的低いレーザー-物質相互作用を示す多孔質ボクセルに対して33%低く、そのため隣り合うプリントトラック間の融合や重なりが不十分であることを示唆している。 印刷時にスパッタ現象が流行する多孔質ボクセルは, 他の多孔質ボクセルと比較して, 高周波ae帯のエネルギー含有量が約27%高かった。 AEシグナルからのこれらのシグネチャは、スパッタと不十分な融合による細孔形成の理解をさらに深めることができる。

This study aims to relate the time-frequency patterns of acoustic emission (AE) and other multi-modal sensor data collected in a hybrid directed energy deposition (DED) process to the pore formations at high spatial (0.5 mm) and time (< 1ms) resolutions. Adapting an explainable AI method in LIME (Local Interpretable Model-Agnostic Explanations), certain high-frequency waveform signatures of AE are to be attributed to two major pathways for pore formation in a DED process, namely, spatter events and insufficient fusion between adjacent printing tracks from low heat input. This approach opens an exciting possibility to predict, in real-time, the presence of a pore in every voxel (0.5 mm in size) as they are printed, a major leap forward compared to prior efforts. Synchronized multimodal sensor data including force, AE, vibration and temperature were gathered while an SS316L material sample was printed and subsequently machined. A deep convolution neural network classifier was used to identify the presence of pores on a voxel surface based on time-frequency patterns (spectrograms) of the sensor data collected during the process chain. The results suggest signals collected during DED were more sensitive compared to those from machining for detecting porosity in voxels (classification test accuracy of 87%). The underlying explanations drawn from LIME analysis suggests that energy captured in high frequency AE waveforms are 33% lower for porous voxels indicating a relatively lower laser-material interaction in the melt pool, and hence insufficient fusion and poor overlap between adjacent printing tracks. The porous voxels for which spatter events were prevalent during printing had about 27% higher energy contents in the high frequency AE band compared to other porous voxels. These signatures from AE signal can further the understanding of pore formation from spatter and insufficient fusion.
翻訳日:2023-05-03 16:47:24 公開日:2023-05-02
# TMR: 対照的な3次元動作合成を用いたテキスト間検索

TMR: Text-to-Motion Retrieval Using Contrastive 3D Human Motion Synthesis ( http://arxiv.org/abs/2305.00976v1 )

ライセンス: Link先を確認
Mathis Petrovich, Michael J. Black, G\"ul Varol(参考訳) 本稿では,テキストから3次元動作検索への簡易かつ効果的な手法であるtmrを提案する。 これまでの作業では検索をプロキシ評価指標としてのみ扱っていたが,スタンドアロンタスクとして取り組んだ。 本手法は,最先端のテクスト・ツー・モーション合成モデルtemosを拡張し,クロスモーダル潜在空間の構造を改善するためにコントラスト損失を取り入れる。 運動生成損失の維持は, コントラストトレーニングとともに, 良好なパフォーマンスを得る上で重要であることが示された。 評価のためのベンチマークを導入し,いくつかのプロトコルで結果を報告して詳細な分析を行う。 KIT-MLとHumanML3Dデータセットに関する広範な実験により、TMRは、例えば、中央値のランクを54から19に下げるなど、前よりも大幅に向上していることが示された。 最後に,モーメント検索におけるアプローチの可能性を示す。 私たちのコードとモデルは公開されています。

In this paper, we present TMR, a simple yet effective approach for text to 3D human motion retrieval. While previous work has only treated retrieval as a proxy evaluation metric, we tackle it as a standalone task. Our method extends the state-of-the-art text-to-motion synthesis model TEMOS, and incorporates a contrastive loss to better structure the cross-modal latent space. We show that maintaining the motion generation loss, along with the contrastive training, is crucial to obtain good performance. We introduce a benchmark for evaluation and provide an in-depth analysis by reporting results on several protocols. Our extensive experiments on the KIT-ML and HumanML3D datasets show that TMR outperforms the prior work by a significant margin, for example reducing the median rank from 54 to 19. Finally, we showcase the potential of our approach on moment retrieval. Our code and models are publicly available.
翻訳日:2023-05-03 16:39:44 公開日:2023-05-02
# リオ・ホルテガ大学グリオブラストマデータセット : 術前,早期,再発MRI(RHUH-GBM)の総合的収集

The Rio Hortega University Hospital Glioblastoma dataset: a comprehensive collection of preoperative, early postoperative and recurrence MRI scans (RHUH-GBM) ( http://arxiv.org/abs/2305.00005v2 )

ライセンス: Link先を確認
Santiago Cepeda, Sergio Garcia-Garcia, Ignacio Arrese, Francisco Herrero, Trinidad Escudero, Tomas Zamora, Rosario Sarabia(参考訳) 強力な原発性脳腫瘍であるグリオ芽腫は患者の予後不良と関連している。 MRIはグリオ芽腫の進行の診断,特徴化,予測に重要な役割を担っているが,MRIは術後経過観察や経過観察に乏しく,専門的な腫瘍セグメンテーションも欠如している。 これらの問題に対処するために,本論文では,腫瘍全摘,あるいはほぼ全切除を施行したグリオブラスト腫患者に対して,マルチパラメトリックmri画像,体積評価,分子データ,生存詳細を収集した"r\'io hortega university hospital glioblastoma dataset"(rhuh-gbm)を提案する。 このデータセットは、専門家が修正した腫瘍サブリージョンのセグメンテーションを特徴とし、術後および術後のMRIスキャンのためのアルゴリズムを開発するための貴重な真実データを提供する。 RHUH-GBMデータセットの公開は、グリオーマの研究に大きく貢献し、科学コミュニティは再発パターンを研究し、新しい診断および予後モデルを開発することができる。 これにより、よりパーソナライズされ、効果的に治療され、最終的には患者の結果が改善される。

Glioblastoma, a highly aggressive primary brain tumor, is associated with poor patient outcomes. Although magnetic resonance imaging (MRI) plays a critical role in diagnosing, characterizing, and forecasting glioblastoma progression, public MRI repositories present significant drawbacks, including insufficient postoperative and follow-up studies as well as expert tumor segmentations. To address these issues, we present the "R\'io Hortega University Hospital Glioblastoma Dataset (RHUH-GBM)," a collection of multiparametric MRI images, volumetric assessments, molecular data, and survival details for glioblastoma patients who underwent total or near-total enhancing tumor resection. The dataset features expert-corrected segmentations of tumor subregions, offering valuable ground truth data for developing algorithms for postoperative and follow-up MRI scans. The public release of the RHUH-GBM dataset significantly contributes to glioblastoma research, enabling the scientific community to study recurrence patterns and develop new diagnostic and prognostic models. This may result in more personalized, effective treatments and ultimately improved patient outcomes.
翻訳日:2023-05-03 16:39:29 公開日:2023-05-02
# ピーク時緊急車両案内のためのエッジ支援型スマート交通管理・信号システム

An Edge Assisted Robust Smart Traffic Management and Signalling System for Guiding Emergency Vehicles During Peak Hours ( http://arxiv.org/abs/2304.14924v2 )

ライセンス: Link先を確認
Shuvadeep Masanta, Ramyashree Pramanik, Sourav Ghosh, Tanmay Bhattacharya(参考訳) 交通渋滞は、インドや他の国々の多くの都市で避けられない状況である。 これは大きな懸念事項である。 道路上の自動車の数が急上昇し、古いインフラ、事故、歩行者の交通、交通規則違反が続き、交通状況の悪化に拍車をかけた。 このような交通状況の悪化を考えると、自動検出と信号システムの必要性は極めて高い。 ビデオ分析や赤外線センサー、ワイヤレスセンサーといった交通管理や信号システムにも、すでにさまざまな技術が使われている。 これらの方法の主な問題は、非常にコストがかかり、高いメンテナンスが必要であることである。 本稿では,渋滞度に基づいて緊急車両を誘導し,交通を管理する3段階システムを提案する。 第1フェーズでは、キャプチャされた画像を処理し、混雑度を検出するために使用されるインデックス値を算出する。 特定の道路のインデックス値は、その道路の幅と、その道路の画像をカメラが撮影する長さに依存する。 システムの設定中にパラメータ(長さと幅)の入力を受け取らなければなりません。 第2フェーズでは、システムは車線内に緊急車両が存在するかどうかをチェックする。 第3フェーズでは、エッジサーバで処理及び意思決定部全体を行う。 提案モデルは頑健であり, 霧, 霧, 風などの気象条件を考慮に入れている。 低照度でも非常に効率的に機能する。 edge serverは戦略的に配置されたサーバで、低レイテンシとより良い接続性を提供します。 このトラフィック管理システムにおけるエッジ技術の使用は,クラウドサーバの負荷を低減し,中間エッジサーバの処理によりレイテンシと帯域幅が減少するため,リアルタイムに信頼性が向上する。

Congestion in traffic is an unavoidable circumstance in many cities in India and other countries. It is an issue of major concern. The steep rise in the number of automobiles on the roads followed by old infrastructure, accidents, pedestrian traffic, and traffic rule violations all add to challenging traffic conditions. Given these poor conditions of traffic, there is a critical need for automatically detecting and signaling systems. There are already various technologies that are used for traffic management and signaling systems like video analysis, infrared sensors, and wireless sensors. The main issue with these methods is they are very costly and high maintenance is required. In this paper, we have proposed a three-phase system that can guide emergency vehicles and manage traffic based on the degree of congestion. In the first phase, the system processes the captured images and calculates the Index value which is used to discover the degree of congestion. The Index value of a particular road depends on its width and the length up to which the camera captures images of that road. We have to take input for the parameters (length and width) while setting up the system. In the second phase, the system checks whether there are any emergency vehicles present or not in any lane. In the third phase, the whole processing and decision-making part is performed at the edge server. The proposed model is robust and it takes into consideration adverse weather conditions such as hazy, foggy, and windy. It works very efficiently in low light conditions also. The edge server is a strategically placed server that provides us with low latency and better connectivity. Using Edge technology in this traffic management system reduces the strain on cloud servers and the system becomes more reliable in real-time because the latency and bandwidth get reduced due to processing at the intermediate edge server.
翻訳日:2023-05-03 16:39:05 公開日:2023-05-02
# 量子トンネルを用いた2種類の閉回路のモード決定

Determination of the modes in two types of closed circuits with quantum tunneling ( http://arxiv.org/abs/2304.14910v2 )

ライセンス: Link先を確認
Mark J. Hagmann(参考訳) 他の者は、半無限前バリア領域のインシデントと反射波、正方形バリア内の2つの対向波、半無限後バリア領域の透過波を必要とすることにより、自由空間に正方形ポテンシャル障壁を持つ1次元モデルに対するシュル=オディンガー方程式を解いた。 ここでは、バリアが遮断して閉回路を形成する有限長のプリバリア領域をモデル化する。 我々は、このモデルの両端で波動関数とその導関数が連続であるという境界条件を用いて、等質行列方程式を得る。 したがって、行列式は非自明な解に対してゼロでなければならない。 以下の4つのパラメータのうちの1つを除く1つは特定され、残りの1つは、(1)電子エネルギー、(2)バリア長、(3)バリア高さ、(4)バリア長の0に決定因子をもたらすように変化する。 正方障壁を持つ解は、4パラメータ空間の非交差S字の集合である。 三角障壁を持つ解は、2-piラジアンの整数倍として伝播定数とプリバリア領域の長さの積を持つ。 静的解のみを考えるが、この方法は準静的条件下での時間依存のケースに適用できる。 プロトタイプの設計とテストのために提案される。

Others have solved the Schr\"odinger equation for a one-dimensional model having a square potential barrier in free-space by requiring an incident and a reflected wave in the semi-infinite pre-barrier region, two opposing waves in the square barrier, and a transmitted wave in the semi-infinite post-barrier region. Now we model a pre-barrier region having finite length that is shunted by the barrier to form a closed circuit. We use the boundary condition that the wavefunction and its derivative are continuous at the both ends of this model to obtain a homogeneous matrix equation. Thus, the determinant must be zero for a non-trivial solution. All but one of the following four parameters are specified and the remaining one is varied to bring the determinant to zero for a solution: (1) the electron energy, (2) the barrier length, (3) the barrier height, and (4) the pre-barrier length. The solutions with a square barrier are sets of non-intersecting S-shaped lines in the four-parameter space. The solutions with a triangular barrier have the product of the propagation constant and the length of the pre-barrier region as integer multiples of two-pi radians. Only static solutions are considered, but this method could be applied to time-dependent cases under quasistatic conditions. Suggestions are given for the design and testing of prototypes.
翻訳日:2023-05-03 16:38:39 公開日:2023-05-02
# YouTube字幕に応用したNLPによるビデオベース人文分析のためのラベル付きデータの自動生成

Automatic Generation of Labeled Data for Video-Based Human Pose Analysis via NLP applied to YouTube Subtitles ( http://arxiv.org/abs/2304.14489v2 )

ライセンス: Link先を確認
Sebastian Dill, Susi Zhihan, Maurice Rohr, Maziar Sharbafi, Christoph Hoog Antink(参考訳) 近年のコンピュータビジョンと機械学習(ML)の進歩により、ビデオベースの在宅運動評価システムが現在の研究の話題となっている。 しかし、パフォーマンスは利用可能なトレーニングデータ量に大きく依存する。 運動に特有なラベル付きデータセットは稀であるので,オンライン上で利用可能なフィットネスビデオの多様さを利用する方法を提案する。 具体的には、ビデオがエクササイズを示すだけでなく、追加の情報ソースとして言語を提供するという利点を利用する。 プッシュアップを例として,自然言語処理(nlp)を用いた字幕データの解析により,ポーズ分析に関連する情報を含むラベル付き(無関係,関連,関連,関連不正確な)データセットの作成が可能であることを示す。 特に,関係のないクリップ (n=332$) は,関連するクリップ (n=298$) と比較して,関節の視認性が著しく異なる。 クラスタセントロイドの検査は、異なるクラスに対して異なるポーズを示す。

With recent advancements in computer vision as well as machine learning (ML), video-based at-home exercise evaluation systems have become a popular topic of current research. However, performance depends heavily on the amount of available training data. Since labeled datasets specific to exercising are rare, we propose a method that makes use of the abundance of fitness videos available online. Specifically, we utilize the advantage that videos often not only show the exercises, but also provide language as an additional source of information. With push-ups as an example, we show that through the analysis of subtitle data using natural language processing (NLP), it is possible to create a labeled (irrelevant, relevant correct, relevant incorrect) dataset containing relevant information for pose analysis. In particular, we show that irrelevant clips ($n=332$) have significantly different joint visibility values compared to relevant clips ($n=298$). Inspecting cluster centroids also show different poses for the different classes.
翻訳日:2023-05-03 16:38:16 公開日:2023-05-02
# 集合的意思決定における知識限界を解き明かす専門木

Expertise Trees Resolve Knowledge Limitations in Collective Decision-Making ( http://arxiv.org/abs/2305.01063v1 )

ライセンス: Link先を確認
Axel Abels, Tom Lenaerts, Vito Trianni, Ann Now\'e(参考訳) 意思決定者を助言する専門家は、問題インスタンスの機能として異なる専門知識を表示する可能性が高い。 実際には、これは少数例に対する準最適または差別的な決定につながる可能性がある。 本研究では,問題空間を専門知識の異なる領域に分割する手法として,知識の深さと幅の変化をモデル化する。 ここでは,問題インスタンスと専門家の知識の関係を明示的に考慮し,適応する新たなアルゴリズムを提案する。 まず,最近傍クエリに基づくナイーブなアプローチの欠点を提案し,その問題点を強調する。 これらの欠点に対処するために、学習者が適切なモデルを選択することができる決定木を構成する新しいアルゴリズム、専門木を導入する。 我々は理論的な洞察を提供し、既存の手法が不十分であることが判明した様々な問題に対して、新しいアプローチの性能向上を実証的に検証する。

Experts advising decision-makers are likely to display expertise which varies as a function of the problem instance. In practice, this may lead to sub-optimal or discriminatory decisions against minority cases. In this work we model such changes in depth and breadth of knowledge as a partitioning of the problem space into regions of differing expertise. We provide here new algorithms that explicitly consider and adapt to the relationship between problem instances and experts' knowledge. We first propose and highlight the drawbacks of a naive approach based on nearest neighbor queries. To address these drawbacks we then introduce a novel algorithm - expertise trees - that constructs decision trees enabling the learner to select appropriate models. We provide theoretical insights and empirically validate the improved performance of our novel approach on a range of problems for which existing methods proved to be inadequate.
翻訳日:2023-05-03 16:22:01 公開日:2023-05-02
# 3次元分子生成のための幾何学的潜在拡散モデル

Geometric Latent Diffusion Models for 3D Molecule Generation ( http://arxiv.org/abs/2305.01140v1 )

ライセンス: Link先を確認
Minkai Xu, Alexander Powers, Ron Dror, Stefano Ermon, Jure Leskovec(参考訳) 生成モデル、特に拡散モデル(DM)は、特徴豊富なジオメトリを生成し、分子設計のような基礎科学の問題を前進させる有望な結果を得た。 近年の安定(相対)拡散モデルの成功に触発されて,幾何学的潜在拡散モデル(geoldm)と呼ばれる3次元分子生成のための新しい原理的手法を提案する。 GeoLDMは分子幾何学領域における最初の潜時DMモデルであり、構造を連続潜時符号に符号化するオートエンコーダと潜時空間で動作するDMからなる。 私たちの重要な革新は、3次元分子ジオメトリをモデル化するために、不変スカラーと同変テンソルの両方で点構造を持つ潜在空間を構築することによって、その臨界ロート遷移同分散制約を捉えることです。 大規模な実験により、GeoLDMは複数の分子生成ベンチマークで常に優れた性能を達成でき、大きな生体分子の有効割合を最大7倍改善できることが示された。 また、潜在モデリングによりGeoLDMの制御可能生成能力も向上した。 コードは \url{https://github.com/MinkaiXu/GeoLDM} で提供されている。

Generative models, especially diffusion models (DMs), have achieved promising results for generating feature-rich geometries and advancing foundational science problems such as molecule design. Inspired by the recent huge success of Stable (latent) Diffusion models, we propose a novel and principled method for 3D molecule generation named Geometric Latent Diffusion Models (GeoLDM). GeoLDM is the first latent DM model for the molecular geometry domain, composed of autoencoders encoding structures into continuous latent codes and DMs operating in the latent space. Our key innovation is that for modeling the 3D molecular geometries, we capture its critical roto-translational equivariance constraints by building a point-structured latent space with both invariant scalars and equivariant tensors. Extensive experiments demonstrate that GeoLDM can consistently achieve better performance on multiple molecule generation benchmarks, with up to 7\% improvement for the valid percentage of large biomolecules. Results also demonstrate GeoLDM's higher capacity for controllable generation thanks to the latent modeling. Code is provided at \url{https://github.com/MinkaiXu/GeoLDM}.
翻訳日:2023-05-03 15:53:26 公開日:2023-05-02
# 拒絶を伴う層状対向ロバスト性

Stratified Adversarial Robustness with Rejection ( http://arxiv.org/abs/2305.01139v1 )

ライセンス: Link先を確認
Jiefeng Chen, Jayaram Raghuram, Jihye Choi, Xi Wu, Yingyu Liang, Somesh Jha(参考訳) 近年, 対人ロバスト性を高めるために, 拒否オプション(選択分類器としても知られる)で分類器を訓練することへの関心が高まっている。 拒絶は多くのアプリケーションでコストを発生させるが、既存の研究は通常、ゼロコストと摂動入力の拒絶を関連付けている。 本研究は, 階層化拒絶条件において, 相対的ロバスト分類を行い, 差分損失関数を単調に非増加化させることにより, 拒絶コストをモデル化するものである。 階層化拒絶設定を理論的に解析し,ロバストな選択的分類器を構築するための新しい防御法であるconsistance prediction-based reject (cpr)を提案する。 画像データセット実験により,提案手法は適応攻撃の強い既存手法よりも有意に優れていた。 例えば、CIFAR-10では、CPRは(異なる拒絶損失に対して)総ロバスト損失を少なくとも7.3%削減する。

Recently, there is an emerging interest in adversarially training a classifier with a rejection option (also known as a selective classifier) for boosting adversarial robustness. While rejection can incur a cost in many applications, existing studies typically associate zero cost with rejecting perturbed inputs, which can result in the rejection of numerous slightly-perturbed inputs that could be correctly classified. In this work, we study adversarially-robust classification with rejection in the stratified rejection setting, where the rejection cost is modeled by rejection loss functions monotonically non-increasing in the perturbation magnitude. We theoretically analyze the stratified rejection setting and propose a novel defense method -- Adversarial Training with Consistent Prediction-based Rejection (CPR) -- for building a robust selective classifier. Experiments on image datasets demonstrate that the proposed method significantly outperforms existing methods under strong adaptive attacks. For instance, on CIFAR-10, CPR reduces the total robust loss (for different rejection losses) by at least 7.3% under both seen and unseen attacks.
翻訳日:2023-05-03 15:53:07 公開日:2023-05-02
# セマンティック拡散モデルを用いた肺結節病変マップからの高忠実画像合成

High-Fidelity Image Synthesis from Pulmonary Nodule Lesion Maps using Semantic Diffusion Model ( http://arxiv.org/abs/2305.01138v1 )

ライセンス: Link先を確認
Xuan Zhao and Benjamin Hou(参考訳) 肺がんは、長年にわたり、世界中でがん関連の死因の1つとなっている。 ディープラーニングの出現により、学習アルゴリズムに基づくコンピュータ支援診断(cad)モデルが結節スクリーニングプロセスを加速し、放射線科医の日々の臨床ワークフローにおいて貴重な支援を提供する。 しかし、そのような堅牢で正確なモデルを開発するには、しばしば高品質なアノテーションを持つ大規模で多様な医療データセットが必要である。 合成データの生成は、データセットを大規模に拡張するための経路を提供する。 そこで本研究では,セグメンテーションマップから高忠実度肺CT画像を生成するために,SDM(Semantic Diffusion Mod-el)の使用について検討する。 LUNA16データセットからのアノテーション情報を用いて、ペア化されたCT画像とマスクを作成し、Frechet Inception Distance(FID)を用いて生成された画像の品質を評価する。 結節ローカライゼーションタスクにおける検出精度3.96%とAP50の8.50%の改善は、このアプローチの実現可能性を示している。

Lung cancer has been one of the leading causes of cancer-related deaths worldwide for years. With the emergence of deep learning, computer-assisted diagnosis (CAD) models based on learning algorithms can accelerate the nodule screening process, providing valuable assistance to radiologists in their daily clinical workflows. However, developing such robust and accurate models often requires large-scale and diverse medical datasets with high-quality annotations. Generating synthetic data provides a pathway for augmenting datasets at a larger scale. Therefore, in this paper, we explore the use of Semantic Diffusion Mod- els (SDM) to generate high-fidelity pulmonary CT images from segmentation maps. We utilize annotation information from the LUNA16 dataset to create paired CT images and masks, and assess the quality of the generated images using the Frechet Inception Distance (FID), as well as on two common clinical downstream tasks: nodule detection and nodule localization. Achieving improvements of 3.96% for detection accuracy and 8.50% for AP50 in nodule localization task, respectively, demonstrates the feasibility of the approach.
翻訳日:2023-05-03 15:52:50 公開日:2023-05-02
# デジタル老化の学習にむけて

Toward Learning Societies for Digital Aging ( http://arxiv.org/abs/2305.01137v1 )

ライセンス: Link先を確認
Ning An(参考訳) 世界の高齢化は、特にデジタル化の時代において、世界中の社会にとって大きな課題となっている。 学習社会は、これらの課題を効果的に解決するために、異なる社会とその人々の準備に不可欠である。 本稿では,この概念を拡張し,デジタル・エイジングのための新しい概念的枠組みを提案する。デジタル・エイジング・ソサエティは,異なる年齢の様々な分野のすべてのメンバーに,ますますデジタル化が進む世界において,必要な知識,スキル,能力の獲得と開発を許可するものである。 この概念的枠組みを開発するための7つの指針を提示する。 1)人文的価値を中心に 2)デジタル化。 3)学習社会の育成 4)包括性を進めること。 5)総合的なアプローチを取ること。 6)グローバル知識共有の促進、及び 7)適応性の向上。 これらの原則をあらゆる年齢の人々のための形式的、非形式的、非公式な学習機会の設計、実装、評価に組み込むことで、デジタル世界の高齢化にともなう学習社会の構築と育成に貢献することができる。 本稿では,より包括的で適応的で,支援的な学習環境を構築するためのさらなる研究と活動の基盤を提供することを目的としており,デジタル老化の課題に対処し,将来的な高齢化のための共感的,情報的,準備された社会を育成することを目的とする。

The global aging population presents significant challenges for societies worldwide, particularly in an increasingly digitalized era. The Learning Society is crucial in preparing different societies and their people to address these challenges effectively. This paper extends this concept and proposes a new conceptual framework, Learning Societies for Digital Aging, empowering all members across various sectors from different ages to acquire and develop the necessary knowledge, skills, and competencies to navigate and thrive in an increasingly digital world. It presents seven guiding principles for developing this conceptual framework: 1) Centering Humanistic Values, 2) Embracing Digital, 3) Cultivating Learning Societies, 4) Advancing Inclusiveness, 5) Taking Holistic Approaches, 6) Encouraging Global Knowledge Sharing, and 7) Fostering Adaptability. By integrating these guiding principles into the design, implementation, and evaluation of formal, nonformal, and informal learning opportunities for people of all ages, stakeholders can contribute to creating and nurturing learning societies that cater to aging populations in the digital world. This paper aims to provide a foundation for further research and action toward building more inclusive, adaptive, and supportive learning environments that address the challenges of digital aging and foster more empathetic, informed, and prepared societies for the future of aging.
翻訳日:2023-05-03 15:52:30 公開日:2023-05-02
# pgrad: ドメイン一般化のための主勾配の学習

PGrad: Learning Principal Gradients For Domain Generalization ( http://arxiv.org/abs/2305.01134v1 )

ライセンス: Link先を確認
Zhe Wang, Jake Grigsby, Yanjun Qi(参考訳) 機械学習モデルは、ドメイン一般化(DG)として知られる困難なタスクであるOODドメインに直面すると、実行に失敗する。 本研究では,pgradと呼ばれる新しいdgトレーニング戦略を開発し,ロバストな勾配方向を学習し,未認識領域におけるモデルの一般化能力を向上させる。 提案する勾配は、すべてのトレーニング領域におけるトレーニングダイナミクスを測定するサンプルロールアウト最適化軌道の主方向を集約する。 PGradの勾配設計では、DGトレーニングはドメイン依存のノイズ信号を無視し、パラメータダイナミクスの主要コンポーネントをカバーする堅牢な方向で全てのトレーニングドメインを更新する。 ビジェクションベースの計算精度向上と方向+長さベースキャリブレーションによりPGradをさらに改善する。 我々の理論的証明は、ニューラルネットワークのトレーニングにおいて、PGradとHessianのスペクトル解析を結びつける。 DomainBed および WILDS ベンチマークの実験により、我々の手法はロバストな DG 最適化を効果的に実現し、損失曲線を円滑に減少させることを示した。 実証的な結果として、PGradは7つのデータセットにまたがる競合的な結果を達成する。 コードはhttps://github.com/QData/PGrad.comで入手できる。

Machine learning models fail to perform when facing out-of-distribution (OOD) domains, a challenging task known as domain generalization (DG). In this work, we develop a novel DG training strategy, we call PGrad, to learn a robust gradient direction, improving models' generalization ability on unseen domains. The proposed gradient aggregates the principal directions of a sampled roll-out optimization trajectory that measures the training dynamics across all training domains. PGrad's gradient design forces the DG training to ignore domain-dependent noise signals and updates all training domains with a robust direction covering main components of parameter dynamics. We further improve PGrad via bijection-based computational refinement and directional plus length-based calibrations. Our theoretical proof connects PGrad to the spectral analysis of Hessian in training neural networks. Experiments on DomainBed and WILDS benchmarks demonstrate that our approach effectively enables robust DG optimization and leads to smoothly decreased loss curves. Empirically, PGrad achieves competitive results across seven datasets, demonstrating its efficacy across both synthetic and real-world distributional shifts. Code is available at https://github.com/QData/PGrad.
翻訳日:2023-05-03 15:52:06 公開日:2023-05-02
# 量子回路のセキュアコンパイルのためのランダム化可逆ゲートベース難読化

Randomized Reversible Gate-Based Obfuscation for Secured Compilation of Quantum Circuit ( http://arxiv.org/abs/2305.01133v1 )

ライセンス: Link先を確認
Subrata Das, Swaroop Ghosh(参考訳) 与えられた問題に対する信頼性の高い結果を提供する量子回路の成功は、短期雑音量子コンピュータのゲート数と深さに依存する。 ハードウェアのネイティブゲートにハイレベルゲートを分解し、回路を最適化する量子回路コンパイラは、量子コンピューティングにおいて重要な役割を果たす。 しかし、特に大規模量子回路において、最適化プロセスの品質と時間の複雑さは著しく異なる。 その結果、サードパーティの(しばしば信頼性の低い/信頼できない)コンパイラが登場し、いわゆる信頼されたコンパイラよりも複雑な量子回路の最適化がより高速であると主張した。 しかし、信頼できないコンパイラは、量子回路に埋め込まれた機密知的財産権(IP)の盗難など、深刻なセキュリティリスクを引き起こす可能性がある。 本研究では,ランダム化可逆ゲートを用いた量子回路の難読化手法を提案する。 アイデアは、小さなランダム回路を元の回路に挿入し、信頼できないコンパイラに送ることである。 回路機能が破損しているため、敵は誤ったipを取得できる。 しかし、ユーザは不正な出力後コンパイルを受けることもできる。 この問題を回避するため、コンパイルされた回路のランダム回路の逆を結合して元の機能を復元する。 本手法の実用性は,ベンチマーク回路上で徹底的な実験を行い,全変動距離(tvd)を算出して難読化の質を測定することで実証する。 提案手法は, 最大1.92のTVDを実現し, これまでに報告した難読化法よりも少なくとも2倍高い性能を示した。 また,新しいリバースエンジニアリング(RE)手法を提案し,その提案した難読化がRE攻撃に対する耐性を示す。 提案手法は, フィリティの最小劣化(平均で約1%から3%)を導入する。

The success of quantum circuits in providing reliable outcomes for a given problem depends on the gate count and depth in near-term noisy quantum computers. Quantum circuit compilers that decompose high-level gates to native gates of the hardware and optimize the circuit play a key role in quantum computing. However, the quality and time complexity of the optimization process can vary significantly especially for practically relevant large-scale quantum circuits. As a result, third-party (often less-trusted/untrusted) compilers have emerged, claiming to provide better and faster optimization of complex quantum circuits than so-called trusted compilers. However, untrusted compilers can pose severe security risks, such as the theft of sensitive intellectual property (IP) embedded within the quantum circuit. We propose an obfuscation technique for quantum circuits using randomized reversible gates to protect them from such attacks during compilation. The idea is to insert a small random circuit into the original circuit and send it to the untrusted compiler. Since the circuit function is corrupted, the adversary may get incorrect IP. However, the user may also get incorrect output post-compilation. To circumvent this issue, we concatenate the inverse of the random circuit in the compiled circuit to recover the original functionality. We demonstrate the practicality of our method by conducting exhaustive experiments on a set of benchmark circuits and measuring the quality of obfuscation by calculating the Total Variation Distance (TVD) metric. Our method achieves TVD of up to 1.92 and performs at least 2X better than a previously reported obfuscation method. We also propose a novel adversarial reverse engineering (RE) approach and show that the proposed obfuscation is resilient against RE attacks. The proposed technique introduces minimal degradation in fidelity (~1% to ~3% on average).
翻訳日:2023-05-03 15:51:45 公開日:2023-05-02
# 動的グラフ上の異なる時間グラフニューラルネットワーク構成の解析

Analysis of different temporal graph neural network configurations on dynamic graphs ( http://arxiv.org/abs/2305.01128v1 )

ライセンス: Link先を確認
Rishu Verma and Ashmita Bhattacharya and Sai Naveen Katla(参考訳) 近年,時間とともに進化するグラフである動的グラフの解析にグラフニューラルネットワーク(GNN)を使用することへの関心が高まっている。 しかし、異なる時間グラフニューラルネットワーク(TGN)の構成が、動的グラフの予測精度にどのように影響するか、まだ理解されていない。 さらに、これらのTGNsモデルのベンチマークデータセットの探索も進行中である。 最近まで、Pytorch Geometric Temporalはいくつかのベンチマークデータセットを思いついたが、これらのデータセットのほとんどは、最先端の確立のために異なるTGNモデルで分析されていない。 そこで本研究では,動的グラフ上での空間的時間的依存構造学習の質的解析と,ノードおよびエッジ予測タスクにおける選択されたTGNの有効性の比較を行った。 さらに、最も優れたTGNの異なる変種について広範囲にわたるアブレーション研究を行い、その性能に寄与する主要な要因を特定する。 これらの目的を達成することにより, 動的グラフ解析のためのTGNの設計と最適化に関する貴重な知見が得られ, 病気拡散予測, ソーシャルネットワーク分析, 交通予測などの分野への応用が期待できる。 さらに、スナップショットベースのデータをイベントベースのデータセットに変換し、TGNというSOTAモデルと互換性を持たせてノード回帰タスクを実行する。

In recent years, there has been an increasing interest in the use of graph neural networks (GNNs) for analyzing dynamic graphs, which are graphs that evolve over time. However, there is still a lack of understanding of how different temporal graph neural network (TGNs) configurations can impact the accuracy of predictions on dynamic graphs. Moreover, the hunt for benchmark datasets for these TGNs models is still ongoing. Up until recently, Pytorch Geometric Temporal came up with a few benchmark datasets but most of these datasets have not been analyzed with different TGN models to establish the state-of-the-art. Therefore, this project aims to address this gap in the literature by performing a qualitative analysis of spatial-temporal dependence structure learning on dynamic graphs, as well as a comparative study of the effectiveness of selected TGNs on node and edge prediction tasks. Additionally, an extensive ablation study will be conducted on different variants of the best-performing TGN to identify the key factors contributing to its performance. By achieving these objectives, this project will provide valuable insights into the design and optimization of TGNs for dynamic graph analysis, with potential applications in areas such as disease spread prediction, social network analysis, traffic prediction, and more. Moreover, an attempt is made to convert snapshot-based data to the event-based dataset and make it compatible with the SOTA model namely TGN to perform node regression task.
翻訳日:2023-05-03 15:51:19 公開日:2023-05-02
# ATCO2で学んだこと:ロバスト音声認識と理解のための航空交通制御通信の5000時間

Lessons Learned in ATCO2: 5000 hours of Air Traffic Control Communications for Robust Automatic Speech Recognition and Understanding ( http://arxiv.org/abs/2305.01155v1 )

ライセンス: Link先を確認
Juan Zuluaga-Gomez, Iuliia Nigmatulina, Amrutha Prasad, Petr Motlicek, Driss Khalil, Srikanth Madikeri, Allan Tart, Igor Szoke, Vincent Lenders, Mickael Rigault, Khalid Choukri(参考訳) 航空管制官(ATCo)とパイロットの音声通信は、安全かつ効率的な航空管制(ATC)の確保に不可欠である。 このタスクはATCoから高いレベルの認識を必要とするため、面倒でエラーを起こしやすい。 atcosのワークロードを減らすために、人工知能(ai)をatcに統合する試みが近年行われている。 しかし、ATCのデータ駆動型AIシステムの開発には、現在この分野に欠けている大規模な注釈付きデータセットが必要である。 本稿では,airspaceから大量のatcデータをリアルタイムに収集・処理するためのユニークなプラットフォームの開発を目的とした,atco2プロジェクトから得られた教訓について考察する。 オーディオと監視データは、ボランティアのコミュニティが所有するVHF受信機と共に、一般にアクセス可能な無線周波数チャンネルから収集され、後にOpensky Networkサーバにアップロードされた。 さらに、本論文はATCO2パートナーの以前の業績を概観する。 (i)頑健な自動音声認識 (ii)自然言語処理 (iii)atc通信の英語識別、及び (4)ADS-Bなどの監視データの統合。 ATCO2プロジェクトで開発されたパイプラインは、データのオープンソース化とともに、ATC分野の研究を促進するだろうと考えています。 ATCO2コーパスのサンプルは以下のウェブサイトで入手可能である。 https://www.atco2.org/data, but the full corpus can be buy through ELDA at http://catalog.elra.info/en-us/repository/browse/ELRA-S0484。 我々は、atco2がatcのドメイン内データがない場合にasrエンジンを開発するのに適したデータセットであることを実証した。 例えば、cnn-tdnnf kaldiモデルでは、パブリックなatcデータセットでは、"ドメイン外"よりも6.6/7.6%優れているが、cnn-tdnnfモデルでは17.9%、24.9%というパフォーマンスに達しました。

Voice communication between air traffic controllers (ATCos) and pilots is critical for ensuring safe and efficient air traffic control (ATC). This task requires high levels of awareness from ATCos and can be tedious and error-prone. Recent attempts have been made to integrate artificial intelligence (AI) into ATC in order to reduce the workload of ATCos. However, the development of data-driven AI systems for ATC demands large-scale annotated datasets, which are currently lacking in the field. This paper explores the lessons learned from the ATCO2 project, a project that aimed to develop a unique platform to collect and preprocess large amounts of ATC data from airspace in real time. Audio and surveillance data were collected from publicly accessible radio frequency channels with VHF receivers owned by a community of volunteers and later uploaded to Opensky Network servers, which can be considered an "unlimited source" of data. In addition, this paper reviews previous work from ATCO2 partners, including (i) robust automatic speech recognition, (ii) natural language processing, (iii) English language identification of ATC communications, and (iv) the integration of surveillance data such as ADS-B. We believe that the pipeline developed during the ATCO2 project, along with the open-sourcing of its data, will encourage research in the ATC field. A sample of the ATCO2 corpus is available on the following website: https://www.atco2.org/data, while the full corpus can be purchased through ELDA at http://catalog.elra.info/en-us/repository/browse/ELRA-S0484. We demonstrated that ATCO2 is an appropriate dataset to develop ASR engines when little or near to no ATC in-domain data is available. For instance, with the CNN-TDNNf kaldi model, we reached the performance of as low as 17.9% and 24.9% WER on public ATC datasets which is 6.6/7.6% better than "out-of-domain" but supervised CNN-TDNNf model.
翻訳日:2023-05-03 15:44:46 公開日:2023-05-02
# FedAVO:アフリカの変数最適化によるフェデレーション学習におけるコミュニケーション効率の向上

FedAVO: Improving Communication Efficiency in Federated Learning with African Vultures Optimizer ( http://arxiv.org/abs/2305.01154v1 )

ライセンス: Link先を確認
Md Zarif Hossain, Ahmed Imteaj(参考訳) 分散機械学習技術であるfederated learning(fl)は最近、ユーザデータのプライバシを重視した人気が高まっている。 しかし、FLの分散計算は制約のある通信と引き抜き学習プロセスをもたらし、クライアント・サーバ間の通信コストの最適化を必要とする。 選択したクライアントの比率とローカルトレーニングパスの量は、FL性能に大きな影響を及ぼす2つのハイパーパラメータである。 様々なアプリケーションで異なるトレーニング好みを持つため、fl実践者がそのようなハイパーパラメータを手動で選択することは困難である。 本稿では,アフリカ・ヴァルチャー・オプティマイザ(AVO)を利用した最適なハイパーパラメータを選択することで,通信効率を向上させる新しいFLアルゴリズムであるFedAVOを紹介する。 本研究は,FL の過パラメータ調整に AVO を採用することにより,FL 操作に関連する通信コストを大幅に削減できることを実証する。 ベンチマークデータセット上でのFedAVOの広範な評価を通じて、FedAVOはモデル精度と通信ラウンドにおいて、特に非IIDデータセットの現実的なケースにおいて、大幅な改善を実現していることを示す。 FedAVOアルゴリズムの広範な評価により、ベンチマークデータセットに適切に適合する最適なハイパーパラメータを特定し、最終的には最先端のFLアルゴリズム(FedAvg、FedProx、FedPSOなど)と比較して、グローバルモデルの精度を6%向上する。

Federated Learning (FL), a distributed machine learning technique has recently experienced tremendous growth in popularity due to its emphasis on user data privacy. However, the distributed computations of FL can result in constrained communication and drawn-out learning processes, necessitating the client-server communication cost optimization. The ratio of chosen clients and the quantity of local training passes are two hyperparameters that have a significant impact on FL performance. Due to different training preferences across various applications, it can be difficult for FL practitioners to manually select such hyperparameters. In our research paper, we introduce FedAVO, a novel FL algorithm that enhances communication effectiveness by selecting the best hyperparameters leveraging the African Vulture Optimizer (AVO). Our research demonstrates that the communication costs associated with FL operations can be substantially reduced by adopting AVO for FL hyperparameter adjustment. Through extensive evaluations of FedAVO on benchmark datasets, we show that FedAVO achieves significant improvement in terms of model accuracy and communication round, particularly with realistic cases of Non-IID datasets. Our extensive evaluation of the FedAVO algorithm identifies the optimal hyperparameters that are appropriately fitted for the benchmark datasets, eventually increasing global model accuracy by 6% in comparison to the state-of-the-art FL algorithms (such as FedAvg, FedProx, FedPSO, etc.).
翻訳日:2023-05-03 15:44:10 公開日:2023-05-02
# MAP-Elitesを用いた環境・適応エージェントの探索

Open-ended search for environments and adapted agents using MAP-Elites ( http://arxiv.org/abs/2305.01153v1 )

ライセンス: Link先を確認
Emma Stensby Norstein, Kai Olav Ellefsen, Kyrre Glette(参考訳) 現実世界の生き物は、これまで見たことのない新しい多様な課題に常に遭遇する。 生き残るためには、これらのタスクのいくつかに適応し、解決する必要があります。 このほぼ無限の新たな課題の世界は、人工進化エージェントが解決すべきタスクセットが限られている仮想環境では一般的ではない。 例外として、興味深いアーティファクトの非有界探索を目標とするオープン・エンディネスの分野がある。 私たちは、エージェントが解決可能なタスクを見つけ、それらに適応できる、多様な現実世界に似たシミュレーション環境に一歩近づきたいと思っています。 MAP-Elitesを使用することで、構造化されたレパートリー、地図、地形、仮想生物などを作り、それらを通り抜ける。 グリッドの次元としてノベルティを用いることで、地図は継続的に発展し、新しい環境の探索を促進することができる。 エージェントは見つかった環境に適応する必要があるが、グリッドの各セル内の環境を検索して、スキルセットに最適な環境を見つけることもできる。 我々のアプローチは、マップエライトの構造を組み合わせることで、仮想生物が隣り合った細胞を足踏み石として利用し、ますます困難な環境を解決することができる。 これは非有界な検索につながるが、まだ明確な構造を持っている。 地図のための手作りの有界次元は、大規模な環境のより迅速な探索につながりますが、有界と非有界の両方のアプローチは、多様な地形の解決に役立ちます。

Creatures in the real world constantly encounter new and diverse challenges they have never seen before. They will often need to adapt to some of these tasks and solve them in order to survive. This almost endless world of novel challenges is not as common in virtual environments, where artificially evolving agents often have a limited set of tasks to solve. An exception to this is the field of open-endedness where the goal is to create unbounded exploration of interesting artefacts. We want to move one step closer to creating simulated environments similar to the diverse real world, where agents can both find solvable tasks, and adapt to them. Through the use of MAP-Elites we create a structured repertoire, a map, of terrains and virtual creatures that locomote through them. By using novelty as a dimension in the grid, the map can continuously develop to encourage exploration of new environments. The agents must adapt to the environments found, but can also search for environments within each cell of the grid to find the one that best fits their set of skills. Our approach combines the structure of MAP-Elites, which can allow the virtual creatures to use adjacent cells as stepping stones to solve increasingly difficult environments, with open-ended innovation. This leads to a search that is unbounded, but still has a clear structure. We find that while handcrafted bounded dimensions for the map lead to quicker exploration of a large set of environments, both the bounded and unbounded approach manage to solve a diverse set of terrains.
翻訳日:2023-05-03 15:43:46 公開日:2023-05-02
# マルチモーダル系列の早期分類

Early Classifying Multimodal Sequences ( http://arxiv.org/abs/2305.01151v1 )

ライセンス: Link先を確認
Alexander Cao, Jean Utke and Diego Klabjan(参考訳) 多くの場合、情報の断片は時間とともに順次受信される。 いつ、分類するのに十分なものを集めましたか。 決定確実性の取引待ち時間は、よりダイナミックな環境に分類を適用する手段として最近注目を集めた初期の分類問題につながる。 しかし、これまでの結果はユニモーダル配列に限定されている。 本実験では,既存手法を組み合わせることにより,マルチモーダルシーケンスの早期分類に展開する。 提案手法は最大8.7%の実験的な auc の利点をもたらす。

Often pieces of information are received sequentially over time. When did one collect enough such pieces to classify? Trading wait time for decision certainty leads to early classification problems that have recently gained attention as a means of adapting classification to more dynamic environments. However, so far results have been limited to unimodal sequences. In this pilot study, we expand into early classifying multimodal sequences by combining existing methods. We show our new method yields experimental AUC advantages of up to 8.7%.
翻訳日:2023-05-03 15:43:21 公開日:2023-05-02
# ニュートリノ物理学の量子情報と量子シミュレーション

Quantum information and quantum simulation of neutrino physics ( http://arxiv.org/abs/2305.01150v1 )

ライセンス: Link先を確認
A. B. Balantekin, Michael J. Cervia, Amol V. Patwardhan, Ermal Rrapaj, Pooja Siwach(参考訳) 核崩壊型超新星や二元中性子星の融合のような極端に天体物理学的な環境では、ニュートリノはバリオニクス物質の流出、重元素の合成、超新星爆発機構など様々な力学現象やミクロ物理現象を駆動する上で重要な役割を果たしている。 これらの環境におけるニュートリノと物質との相互作用はフレーバー特異的であり、ニュートリノのフレーバー進化を理解することが重要である。 これらの環境におけるフレーバーの進化は、高ニュートリノ密度の領域におけるニュートリノ-ニュートリノ相互作用($\nu$-$\nu$)によって生じる、フレーバー空間の集合的な影響によって非常に非自明な問題となる。 重要な$\nu$-$\nu$相互作用の影響下でフレーバー振動を行うニュートリノアンサンブルは、長い距離相互作用を持つ結合スピンの系と外界(ニュートリノの場合の運動量空間における「長距離」)の系と幾分類似している。 その結果、これらの相互作用が相互作用するニュートリノの間に有意な量子相関をもたらすかどうか、およびこれらの相関がアンサンブルのフレーバー進化に何らかの影響を及ぼすかどうかを検討することが重要となる。 特に、量子情報科学と量子コンピューティングの概念とツールを活用し、これらの現象の理解を深めようとしているかもしれない。 本稿では,この分野における最近の成果を概説する。 さらに, 複雑な初期状態を考慮した3つのフレーバー設定において, 新たな結果を提示する。

In extreme astrophysical environments such as core-collapse supernovae and binary neutron star mergers, neutrinos play a major role in driving various dynamical and microphysical phenomena, such as baryonic matter outflows, the synthesis of heavy elements, and the supernova explosion mechanism itself. The interactions of neutrinos with matter in these environments are flavor-specific, which makes it of paramount importance to understand the flavor evolution of neutrinos. Flavor evolution in these environments can be a highly nontrivial problem thanks to a multitude of collective effects in flavor space, arising due to neutrino-neutrino ($\nu$-$\nu$) interactions in regions with high neutrino densities. A neutrino ensemble undergoing flavor oscillations under the influence of significant $\nu$-$\nu$ interactions is somewhat analogous to a system of coupled spins with long-range interactions among themselves and with an external field ('long-range' in momentum-space in the case of neutrinos). As a result, it becomes pertinent to consider whether these interactions can give rise to significant quantum correlations among the interacting neutrinos, and whether these correlations have any consequences for the flavor evolution of the ensemble. In particular, one may seek to utilize concepts and tools from quantum information science and quantum computing to deepen our understanding of these phenomena. In this article, we attempt to summarize recent work in this field. Furthermore, we also present some new results in a three-flavor setting, considering complex initial states.
翻訳日:2023-05-03 15:43:15 公開日:2023-05-02
# PU-EdgeFormer:ポイントクラウドアップサンプリングにおけるディエンス予測のためのエッジトランス

PU-EdgeFormer: Edge Transformer for Dense Prediction in Point Cloud Upsampling ( http://arxiv.org/abs/2305.01148v1 )

ライセンス: Link先を確認
Dohoon Kim, Minwoo Shin, Joonki Paik(参考訳) ディープラーニングベースのポイントクラウドアップサンプリングが最近開発されているにもかかわらず、ほとんどのmlpベースのポイントクラウドアップサンプリング手法は、ポイントクラウドのローカルおよびグローバルな構造を同時にトレーニングすることが難しいという制限を持っている。 そこで本研究では,ポイントクラウドアップサンプリングのためのグラフ畳み込みとトランスフォーマを組み合わせ,pu-edgeformer で表現する。 提案手法は,グラフ畳み込みとマルチヘッド自己注意モジュールからなるEdgeFormerユニットを構成する。 edgeconvを使ってグラフ畳み込みを行い、既存のポイント・ツー・フィーチャー法よりもポイント・クラウドの局所幾何と大域構造を学習する。 実験により,提案手法は主観的,客観的両面において,既存の最先端手法よりも雲のアップサンプリング性能がよいことを確認した。 コードはhttps://github.com/dohoon2045/PU-EdgeFormerで入手できる。

Despite the recent development of deep learning-based point cloud upsampling, most MLP-based point cloud upsampling methods have limitations in that it is difficult to train the local and global structure of the point cloud at the same time. To solve this problem, we present a combined graph convolution and transformer for point cloud upsampling, denoted by PU-EdgeFormer. The proposed method constructs EdgeFormer unit that consists of graph convolution and multi-head self-attention modules. We employ graph convolution using EdgeConv, which learns the local geometry and global structure of point cloud better than existing point-to-feature method. Through in-depth experiments, we confirmed that the proposed method has better point cloud upsampling performance than the existing state-of-the-art method in both subjective and objective aspects. The code is available at https://github.com/dohoon2045/PU-EdgeFormer.
翻訳日:2023-05-03 15:42:45 公開日:2023-05-02
# 推薦システムのためのリップル知識グラフ畳み込みネットワーク

Ripple Knowledge Graph Convolutional Networks For Recommendation Systems ( http://arxiv.org/abs/2305.01147v1 )

ライセンス: Link先を確認
Chen Li, Yang Cao, Ye Zhu, Debo Cheng, Chengyuan Li, Yasuhiko Morimoto(参考訳) 深層学習モデルの推薦決定を支援するために知識グラフを用いることで、モデルの解釈可能性と精度を効果的に向上することが最近証明された。 本稿では,各ユーザの好みを動的に解析し,適切な項目を推薦する,エンドツーエンドのディープラーニングモデルであるrkgcnを提案する。 アイテム側とユーザ側の知識グラフを組み合わせて表現を強化し、知識グラフにおける豊富な情報の利用を最大化する。 rkgcnは、3つの異なるシナリオで、よりパーソナライズされ、関連するレコメンデーションを提供できる。 実験の結果,映画,本,音楽を含む実世界の3つのデータセット上で,5つのベースラインモデルよりも優れた効果が得られた。

Using knowledge graphs to assist deep learning models in making recommendation decisions has recently been proven to effectively improve the model's interpretability and accuracy. This paper introduces an end-to-end deep learning model, named RKGCN, which dynamically analyses each user's preferences and makes a recommendation of suitable items. It combines knowledge graphs on both the item side and user side to enrich their representations to maximize the utilization of the abundant information in knowledge graphs. RKGCN is able to offer more personalized and relevant recommendations in three different scenarios. The experimental results show the superior effectiveness of our model over 5 baseline models on three real-world datasets including movies, books, and music.
翻訳日:2023-05-03 15:42:29 公開日:2023-05-02
# RadAdapt: 大規模言語モデルの軽量ドメイン適応による要約

RadAdapt: Radiology Report Summarization via Lightweight Domain Adaptation of Large Language Models ( http://arxiv.org/abs/2305.01146v1 )

ライセンス: Link先を確認
Dave Van Veen, Cara Van Uden, Maayane Attias, Anuj Pareek, Christian Bluethgen, Malgorzata Polacin, Wah Chiu, Jean-Benoit Delbrouck, Juan Manuel Zambrano Chaves, Curtis P. Langlotz, Akshay S. Chaudhari, John Pauly(参考訳) 本研究は,Radiology Report summarization (RRS) の課題に対して,大規模言語モデル(LLM)を適応するための軽量戦略を体系的に検討する。 具体的には,プレトレーニング(自然言語,バイオメディカルテキスト,臨床テキスト)やプロンプト(ゼロショット,インコンテキスト学習)やパラメータ効率の微調整(プリフィックスチューニング,LoRA)によるドメイン適応に着目した。 mimic-iiiデータセットは,臨床テキストの事前学習とrrs例のパラメータ効率の良い微調整により,タスクに最大限適応することで,一貫して最高の性能を示す。 重要なことに、この方法は、エンドツーエンドの微調整(パラメータの100%)とは対照的に、モデル全体のパラメータの0.32%しか微調整しない。 さらに, 放射線学読者による研究と定性分析を結論付ける前に, 文脈内実例とアウト・オブ・ディストリビューション(OOD)訓練の効果について検討した。 本研究は、RSにおけるドメイン適応の重要性を強調し、臨床業務に有効な自然言語処理ソリューションを開発するための貴重な洞察を提供する。

We systematically investigate lightweight strategies to adapt large language models (LLMs) for the task of radiology report summarization (RRS). Specifically, we focus on domain adaptation via pretraining (on natural language, biomedical text, and clinical text) and via prompting (zero-shot, in-context learning) or parameter-efficient fine-tuning (prefix tuning, LoRA). Our results on the MIMIC-III dataset consistently demonstrate best performance by maximally adapting to the task via pretraining on clinical text and parameter-efficient fine-tuning on RRS examples. Importantly, this method fine-tunes a mere 0.32% of parameters throughout the model, in contrast to end-to-end fine-tuning (100% of parameters). Additionally, we study the effect of in-context examples and out-of-distribution (OOD) training before concluding with a radiologist reader study and qualitative analysis. Our findings highlight the importance of domain adaptation in RRS and provide valuable insights toward developing effective natural language processing solutions for clinical tasks.
翻訳日:2023-05-03 15:42:18 公開日:2023-05-02
# ADVISE: グローバル開発のためのAIによるエビデンス合成設計

ADVISE: AI-accelerated Design of Evidence Synthesis for Global Development ( http://arxiv.org/abs/2305.01145v1 )

ライセンス: Link先を確認
Kristen M. Edwards, Binyang Song, Jaron Porciello, Mark Engelbert, Carolyn Huang, Faez Ahmed(参考訳) 証拠に基づく政策やプログラムを設計する際には、意思決定者は膨大なかつ急速に成長する文学基盤から重要な情報を抽出しなければならない。 生の検索結果から関連文献を識別することは時間と資源集約であり、しばしば手作業によるスクリーニングによって行われる。 本研究では,トランスフォーマー(bert)モデルからの双方向エンコーダ表現に基づくaiエージェントを開発し,グローバル開発のためのエビデンス合成製品を設計するための人間チームに組み込む。 本稿では,人間とAIのハイブリッドチームによるエビデンス合成プロセスの促進効果について検討する。 チームの効率をさらに向上するため、アクティブラーニング(AL)を通じて、人間とAIのハイブリッドチームを強化します。 具体的には,ランダムサンプリング,最小信頼度サンプリング(lc),最高優先度サンプリング(hp)といった異なるサンプリング戦略を検討し,協調スクリーニングプロセスへの影響について検討した。 その結果、BERTベースのAIエージェントを人間チームに組み込むことで、AIアシストがない場合と比較して、人間のスクリーニングの労力が68.5%減少し、関連するドキュメントの80%を識別するためにサポートベクターマシン(SVM)ベースのAIエージェントを使用する場合と比較して16.8%減少することが示された。 ALのHPサンプリング戦略を適用すると、人間によるスクリーニングの労力がさらに削減され、AIアシストを使わずにすべての関連ドキュメントの80%を特定できる78.3%削減される。 本稿では,USAIDのための3つのエビデンスギャップマップ(EGM)の設計プロセスに,AL-AIハイブリッドコラボレーションワークフローを適用し,高い有効性を見出した。 これらの知見は,AIがエビデンス合成製品の開発を加速し,人間とAIのハイブリッドチームによるグローバル開発におけるタイムリーなエビデンスに基づく意思決定を促進する方法を示している。

When designing evidence-based policies and programs, decision-makers must distill key information from a vast and rapidly growing literature base. Identifying relevant literature from raw search results is time and resource intensive, and is often done by manual screening. In this study, we develop an AI agent based on a bidirectional encoder representations from transformers (BERT) model and incorporate it into a human team designing an evidence synthesis product for global development. We explore the effectiveness of the human-AI hybrid team in accelerating the evidence synthesis process. To further improve team efficiency, we enhance the human-AI hybrid team through active learning (AL). Specifically, we explore different sampling strategies, including random sampling, least confidence (LC) sampling, and highest priority (HP) sampling, to study their influence on the collaborative screening process. Results show that incorporating the BERT-based AI agent into the human team can reduce the human screening effort by 68.5% compared to the case of no AI assistance and by 16.8% compared to the case of using a support vector machine (SVM)-based AI agent for identifying 80% of all relevant documents. When we apply the HP sampling strategy for AL, the human screening effort can be reduced even more: by 78.3% for identifying 80% of all relevant documents compared to no AI assistance. We apply the AL-enhanced human-AI hybrid teaming workflow in the design process of three evidence gap maps (EGMs) for USAID and find it to be highly effective. These findings demonstrate how AI can accelerate the development of evidence synthesis products and promote timely evidence-based decision making in global development in a human-AI hybrid teaming context.
翻訳日:2023-05-03 15:41:59 公開日:2023-05-02
# ディープラーニングアルゴリズムの一般化能力を理解する: Renyiのエントロピーの視点から

Understanding the Generalization Ability of Deep Learning Algorithms: A Kernelized Renyi's Entropy Perspective ( http://arxiv.org/abs/2305.01143v1 )

ライセンス: Link先を確認
Yuxin Dong and Tieliang Gong and Hong Chen and Chen Li(参考訳) 近年,情報理論解析はディープニューラルネットワークの一般化行動を理解するための一般的なフレームワークとなっている。 リプシッツや凸条件のような強い仮定なしに確率的勾配/ランゲバン降下(sgd/sgld)学習アルゴリズムを直接解析することができる。 しかし、このフレームワーク内の現在の一般化誤差境界はまだ最適には程遠いが、高次元情報量の抽出性のため、これらの境界に対する大幅な改善は極めて困難である。 この問題に対処するために、ヒルベルト空間における作用素表現を利用して、レニーのエントロピーをカーネル化した新しい情報理論測度を提案する。 シャノンのエントロピーの性質を継承し、入力次元とは独立に、単純なランダムサンプリングによって効果的に計算することができる。 次に,相互情報量を直接計算できるカーネル化レーニーエントロピーの下でsgd/sgldの一般化誤差境界を確立し,各中間ステップのタイトネスの評価を可能にする。 我々の情報理論的境界は, 評価された確率勾配の統計量に依拠し, 現在のSOTA(State-of-the-art)結果よりも厳密であることを示す。 理論的な発見は大規模実験研究1でも裏付けられている。

Recently, information theoretic analysis has become a popular framework for understanding the generalization behavior of deep neural networks. It allows a direct analysis for stochastic gradient/Langevin descent (SGD/SGLD) learning algorithms without strong assumptions such as Lipschitz or convexity conditions. However, the current generalization error bounds within this framework are still far from optimal, while substantial improvements on these bounds are quite challenging due to the intractability of high-dimensional information quantities. To address this issue, we first propose a novel information theoretical measure: kernelized Renyi's entropy, by utilizing operator representation in Hilbert space. It inherits the properties of Shannon's entropy and can be effectively calculated via simple random sampling, while remaining independent of the input dimension. We then establish the generalization error bounds for SGD/SGLD under kernelized Renyi's entropy, where the mutual information quantities can be directly calculated, enabling evaluation of the tightness of each intermediate step. We show that our information-theoretical bounds depend on the statistics of the stochastic gradients evaluated along with the iterates, and are rigorously tighter than the current state-of-the-art (SOTA) results. The theoretical findings are also supported by large-scale empirical studies1.
翻訳日:2023-05-03 15:41:25 公開日:2023-05-02
# ダミーのための量子ランダムアクセスメモリ

Quantum Random Access Memory For Dummies ( http://arxiv.org/abs/2305.01178v1 )

ライセンス: Link先を確認
Koustubh Phalak, Avimita Chatterjee, Swaroop Ghosh(参考訳) 量子ランダムアクセスメモリ(QRAM)は、量子コンピューティングの領域に革命をもたらす可能性がある。 QRAMは量子コンピューティングの原理を用いて量子や古典的なデータを効率的に保存・修正し、幅広いコンピュータプロセスを大幅に加速する。 その重要性にもかかわらず、qramアーキテクチャ全体をカバーする包括的な調査が欠如している。 我々はqramの包括的レビューを提供することでこのギャップを埋め、既存の雑音量子コンピュータにおけるその重要性と有効性を強調している。 本調査は,従来のRAMとの比較から,QRAMの基本概念と動作を明らかにする。

Quantum Random Access Memory (QRAM) has the potential to revolutionize the area of quantum computing. QRAM uses quantum computing principles to store and modify quantum or classical data efficiently, greatly accelerating a wide range of computer processes. Despite its importance, there is a lack of comprehensive surveys that cover the entire spectrum of QRAM architectures. We fill this gap by providing a comprehensive review of QRAM, emphasizing its significance and viability in existing noisy quantum computers. By drawing comparisons with conventional RAM for ease of understanding, this survey clarifies the fundamental ideas and actions of QRAM.
翻訳日:2023-05-03 15:34:31 公開日:2023-05-02
# 非有界差分量子と最大推定

Unbounded Differentially Private Quantile and Maximum Estimation ( http://arxiv.org/abs/2305.01177v1 )

ライセンス: Link先を確認
David Durfee(参考訳) 本研究では,データに対する量子化の差分計算の問題,特に最大値などの最も高い量子化を,データセットに対する非有界範囲で検討する。 これは、データに上限がない場合でも、基本スパースベクトル技法で反復的に呼び出されるサブルーチンである$\textt{AboveThreshold}$を単純な呼び出しで効率的に行うことができることを示す。 特に, この手法により, 最大量子化量に対してより正確かつ堅牢な推定が可能であり, 差分的な和と平均推定に必須なクリッピングへの応用が期待できることを示す。 さらに,2つの呼び出しが完全に束縛されていないデータ設定を処理可能であることを示す。 本研究により,$\texttt{abovethreshold}$ の分析精度が向上し,独立性のある分散ベクトル手法に対するプライバシーの保証が向上することを示した。 我々は、プライバシーの保証を改善する方法に直ちに適用される$\texttt{AboveThreshold}$に対して、より一般的なプライバシー損失の特徴を与える。 我々のアルゴリズムでは、データに1ドルO(n)$のパスしか必要とせず、ソートできないため、各クエリは1ドルO(1)$の時間を要する。 非有界なアルゴリズムと最先端のアルゴリズムを有界な設定で実験的に比較する。 内部量子化では、本手法は非合成データセットでよく機能する。 微分プライベート和計算に応用した最大量子化に対して,本手法は性能が著しく向上することがわかった。

In this work we consider the problem of differentially private computation of quantiles for the data, especially the highest quantiles such as maximum, but with an unbounded range for the dataset. We show that this can be done efficiently through a simple invocation of $\texttt{AboveThreshold}$, a subroutine that is iteratively called in the fundamental Sparse Vector Technique, even when there is no upper bound on the data. In particular, we show that this procedure can give more accurate and robust estimates on the highest quantiles with applications towards clipping that is essential for differentially private sum and mean estimation. In addition, we show how two invocations can handle the fully unbounded data setting. Within our study, we show that an improved analysis of $\texttt{AboveThreshold}$ can improve the privacy guarantees for the widely used Sparse Vector Technique that is of independent interest. We give a more general characterization of privacy loss for $\texttt{AboveThreshold}$ which we immediately apply to our method for improved privacy guarantees. Our algorithm only requires one $O(n)$ pass through the data, which can be unsorted, and each subsequent query takes $O(1)$ time. We empirically compare our unbounded algorithm with the state-of-the-art algorithms in the bounded setting. For inner quantiles, we find that our method often performs better on non-synthetic datasets. For the maximal quantiles, which we apply to differentially private sum computation, we find that our method performs significantly better.
翻訳日:2023-05-03 15:34:22 公開日:2023-05-02
# 読み出し信号のリアルタイムフィードバックを用いた深部強化学習による高速量子ゲート設計

Fast quantum gate design with deep reinforcement learning using real-time feedback on readout signals ( http://arxiv.org/abs/2305.01169v1 )

ライセンス: Link先を確認
Emily Wright and Rog\'erio de Sousa(参考訳) 高忠実度量子ゲートの設計は、ゲート速度の最大化とキュービット部分空間からの漏れの最小化という2つの競合効果の最適化を必要とするため、難しい。 本稿では,2つのエージェントを用いて同時に高速・漏れ問題に対処する深層強化学習アルゴリズムを提案する。 第1のエージェントは、短いゲート時間を補う報酬から学んだポリシーを用いて、クォービット内位相制御パルスを構成する。 報酬は、フル長パルスの構築を通して中間時間ステップで得られ、エージェントは短いパルスの風景を探索することができる。 第2のエージェントは、漏れをターゲットとする相外パルスを決定する。 どちらのエージェントもノイズの多いハードウェアからのリアルタイムデータに基づいて訓練されており、予測不能なハードウェアノイズに適応するモデルフリーゲート設計を提供する。 測定分類誤差の影響を低減するため、エージェントはqubitの探索から読み出し信号に直接訓練される。 我々は、IBMハードウェア上で様々な期間のXゲートとXゲートの平方根を設計することで概念実証実験を行う。 わずか200回のトレーニングを繰り返した後、我々のアルゴリズムは、状態の忠実度とリーク率の点でそれらの性能を一致させながら、デフォルトのIBMゲートの最大2倍の速度で新しい制御パルスを構築することができる。 カスタム制御パルスの長さが大きくなると、デフォルトのゲートよりもパフォーマンスが向上します。 ゲート操作の速度と忠実性の改善は、量子シミュレーション、量子化学、および近い将来の量子デバイスにおける他のアルゴリズムにおいて、より高い回路深さの道を開く。

The design of high-fidelity quantum gates is difficult because it requires the optimization of two competing effects, namely maximizing gate speed and minimizing leakage out of the qubit subspace. We propose a deep reinforcement learning algorithm that uses two agents to address the speed and leakage challenges simultaneously. The first agent constructs the qubit in-phase control pulse using a policy learned from rewards that compensate short gate times. The rewards are obtained at intermediate time steps throughout the construction of a full-length pulse, allowing the agent to explore the landscape of shorter pulses. The second agent determines an out-of-phase pulse to target leakage. Both agents are trained on real-time data from noisy hardware, thus providing model-free gate design that adapts to unpredictable hardware noise. To reduce the effect of measurement classification errors, the agents are trained directly on the readout signal from probing the qubit. We present proof-of-concept experiments by designing X and square root of X gates of various durations on IBM hardware. After just 200 training iterations, our algorithm is able to construct novel control pulses up to two times faster than the default IBM gates, while matching their performance in terms of state fidelity and leakage rate. As the length of our custom control pulses increases, they begin to outperform the default gates. Improvements to the speed and fidelity of gate operations open the way for higher circuit depth in quantum simulation, quantum chemistry and other algorithms on near-term and future quantum devices.
翻訳日:2023-05-03 15:33:57 公開日:2023-05-02
# シングルステージマルチパーソンポーズ推定のためのハイブリッドモデル

Hybrid model for Single-Stage Multi-Person Pose Estimation ( http://arxiv.org/abs/2305.01167v1 )

ライセンス: Link先を確認
Jonghyun Kim, Bosang Kim, Hyotae Lee, Jungpyo Kim, Wonhyeok Im, Lanying Jin, Dowoo Kwon, and Jungho Lee(参考訳) 一般に、人間のポーズ推定方法は、回帰(すなわち、熱マップのない)と熱マップに基づく方法の2つの手法に分類される。 前者は畳み込み層と完全連結層を用いて各キーポイントの正確な座標を直接推定する。 このアプローチは重なり、密集したキーポイントを検出できるが、シーンに存在しないキーポイントによって予期せぬ結果が得られる。 一方、後者は、各キーポイントに予測されたヒートマップを使用することで、存在しないものをフィルタリングすることができる。 それでも、キーポイント座標を熱マップから得る際に量子化誤差に悩まされる。 また、回帰と異なり、画像中の密配置されたキーポイントを区別することは困難である。 この目的のために,HybridPoseと呼ばれる単一段階多人数ポーズ推定のためのハイブリッドモデルを提案し,その長所を最大化することで,両アプローチの欠点を相互に克服する。 さらに,鍵点座標間の空間的依存関係とその可視性を示す自己相関損失を導入する。 そのため、HybridPoseは、密配置されたキーポイントを検出するだけでなく、画像内の存在しないキーポイントをフィルタリングすることもできる。 実験の結果,提案手法はポーズ推定精度において,性能劣化を伴わないキーポイントの可視性を示すことがわかった。

In general, human pose estimation methods are categorized into two approaches according to their architectures: regression (i.e., heatmap-free) and heatmap-based methods. The former one directly estimates precise coordinates of each keypoint using convolutional and fully-connected layers. Although this approach is able to detect overlapped and dense keypoints, unexpected results can be obtained by non-existent keypoints in a scene. On the other hand, the latter one is able to filter the non-existent ones out by utilizing predicted heatmaps for each keypoint. Nevertheless, it suffers from quantization error when obtaining the keypoint coordinates from its heatmaps. In addition, unlike the regression one, it is difficult to distinguish densely placed keypoints in an image. To this end, we propose a hybrid model for single-stage multi-person pose estimation, named HybridPose, which mutually overcomes each drawback of both approaches by maximizing their strengths. Furthermore, we introduce self-correlation loss to inject spatial dependencies between keypoint coordinates and their visibility. Therefore, HybridPose is capable of not only detecting densely placed keypoints, but also filtering the non-existent keypoints in an image. Experimental results demonstrate that proposed HybridPose exhibits the keypoints visibility without performance degradation in terms of the pose estimation accuracy.
翻訳日:2023-05-03 15:33:31 公開日:2023-05-02
# 雑音データから学習したスコアベース生成前の逆問題の解法

Solving Inverse Problems with Score-Based Generative Priors learned from Noisy Data ( http://arxiv.org/abs/2305.01166v1 )

ライセンス: Link先を確認
Asad Aali, Marius Arvinte, Sidharth Kumar, Jonathan I. Tamir(参考訳) 加法ガウス雑音による学習サンプルを用いたスコアベース生成モデル学習のためのSURE-Scoreを提案する。 クリーンサンプルの大規模なトレーニングセットが利用可能になると、スコアベース(diffusion)生成モデルによる逆問題を解くことが、エンドツーエンドの教師付きディープラーニングよりも優れていることが最近示されている。 実際には、このような大規模なトレーニングデータの収集は、そもそも入手するのに極めて高価である。 本研究では,ノイズの多い学習データから,クリーン分布のスコアベース生成モデルを概ね学習するためのアプローチを提案する。 本研究では,Steinの非バイアスリスク推定を利用した新たな損失関数の定式化と正当化を行い,ノイズのあるサンプルのみを使用しながら,スコアマッチングによるスコア関数の学習を行う。 圧縮型無線多重入力多重出力チャネル推定法と高速化型2次元マルチコイル磁気共鳴画像再構成法をそれぞれ0dbと10dbの信号対雑音比で学習した場合の競合的再構成性能を示す。

We present SURE-Score: an approach for learning score-based generative models using training samples corrupted by additive Gaussian noise. When a large training set of clean samples is available, solving inverse problems via score-based (diffusion) generative models trained on the underlying fully-sampled data distribution has recently been shown to outperform end-to-end supervised deep learning. In practice, such a large collection of training data may be prohibitively expensive to acquire in the first place. In this work, we present an approach for approximately learning a score-based generative model of the clean distribution, from noisy training data. We formulate and justify a novel loss function that leverages Stein's unbiased risk estimate to jointly denoise the data and learn the score function via denoising score matching, while using only the noisy samples. We demonstrate the generality of SURE-Score by learning priors and applying posterior sampling to ill-posed inverse problems in two practical applications from different domains: compressive wireless multiple-input multiple-output channel estimation and accelerated 2D multi-coil magnetic resonance imaging reconstruction, where we demonstrate competitive reconstruction performance when learning at signal-to-noise ratio values of 0 and 10 dB, respectively.
翻訳日:2023-05-03 15:33:10 公開日:2023-05-02
# 自己相似性に基づく手描き麺からの光音響血管造影の超解像

Self-similarity-based super-resolution of photoacoustic angiography from hand-drawn doodles ( http://arxiv.org/abs/2305.01165v1 )

ライセンス: Link先を確認
Yuanzheng Ma, Wangting Zhou, Rui Ma, Sihua Yang, Yansong Tang, and Xun Guan(参考訳) 深層学習に基づく超高分解能光音響血管造影(PAA)は、血管像をアンダーサンプル画像から復元し、疾患の診断を容易にする強力なツールである。 しかしながら、トレーニングサンプルの不足のため、PAA超解像モデルは、特に継続的監視タスクの文脈において、不適切な一般化能力を示すことが多い。 本研究では,この課題に対処するために,超解像paa法を鍛造paa画像で訓練した新しい手法を提案する。 拡散画像生成モデルを用いて手描き曲線から人間の唇のリアルなPAA画像を生成することから始める。 次に,これらの画像を用いて自己相似性に基づく超解像モデルを訓練する。 実験の結果,本手法は元のドメインとクロスドメインの両方でPAA画像を用いて訓練した超解像モデルよりも優れていた。 特に,深層学習モデルによる画像を用いた超解像再構成の質を高めるため,初期データセットに制限があるにもかかわらず,深層学習モデル間の協調により一般化が容易になることを示す。 このアプローチは、ビジョンタスクのためのゼロショット学習ニューラルネットワークを探索する有望な可能性を示している。

Deep-learning-based super-resolution photoacoustic angiography (PAA) is a powerful tool that restores blood vessel images from under-sampled images to facilitate disease diagnosis. Nonetheless, due to the scarcity of training samples, PAA super-resolution models often exhibit inadequate generalization capabilities, particularly in the context of continuous monitoring tasks. To address this challenge, we propose a novel approach that employs a super-resolution PAA method trained with forged PAA images. We start by generating realistic PAA images of human lips from hand-drawn curves using a diffusion-based image generation model. Subsequently, we train a self-similarity-based super-resolution model with these forged PAA images. Experimental results show that our method outperforms the super-resolution model trained with authentic PAA images in both original-domain and cross-domain tests. Specially, our approach boosts the quality of super-resolution reconstruction using the images forged by the deep learning model, indicating that the collaboration between deep learning models can facilitate generalization, despite limited initial dataset. This approach shows promising potential for exploring zero-shot learning neural networks for vision tasks.
翻訳日:2023-05-03 15:32:48 公開日:2023-05-02
# フェデレーションニューラルラジアンスフィールド

Federated Neural Radiance Fields ( http://arxiv.org/abs/2305.01163v1 )

ライセンス: Link先を確認
Lachlan Holden, Feras Dayoub, David Harvey, Tat-Jun Chin(参考訳) 正確な3次元モデリングを行うための神経放射場やNeRFの能力は、シーン表現にこの技術を適用する動機となった。 従来のアプローチは主に集中型学習パラダイムに従っており、トレーニング用のすべてのトレーニングイメージが1つの計算ノードで利用できると仮定している。 本稿では,複数の計算ノードがそれぞれのシーンの異なる観察セットを取得し,共通のNeRFを並列に学習する,連合方式でNeRFを訓練することを検討する。 これは複数のエージェントを使ってシーンを協調的にモデル化するシナリオをサポートする。 このアルゴリズムは、トレーニング作業を複数の計算ノードに分割し、イメージを中央ノードにプールする必要をなくします。 nerf層の低ランク分解に基づく手法を導入して帯域幅を削減し,モデルパラメータをアグリゲーションに送信する。 生データの代わりに圧縮されたモデルを転送することは、データ収集エージェントのプライバシーにも寄与する。

The ability of neural radiance fields or NeRFs to conduct accurate 3D modelling has motivated application of the technique to scene representation. Previous approaches have mainly followed a centralised learning paradigm, which assumes that all training images are available on one compute node for training. In this paper, we consider training NeRFs in a federated manner, whereby multiple compute nodes, each having acquired a distinct set of observations of the overall scene, learn a common NeRF in parallel. This supports the scenario of cooperatively modelling a scene using multiple agents. Our contribution is the first federated learning algorithm for NeRF, which splits the training effort across multiple compute nodes and obviates the need to pool the images at a central node. A technique based on low-rank decomposition of NeRF layers is introduced to reduce bandwidth consumption to transmit the model parameters for aggregation. Transferring compressed models instead of the raw data also contributes to the privacy of the data collecting agents.
翻訳日:2023-05-03 15:32:30 公開日:2023-05-02
# 潜在特徴と接地ラベルの相互情報最大化によるロングテール認識

Long-Tailed Recognition by Mutual Information Maximization between Latent Features and Ground-Truth Labels ( http://arxiv.org/abs/2305.01160v1 )

ライセンス: Link先を確認
Min-Kook Suh and Seung-Woo Seo(参考訳) コントラスト学習手法は,様々な表現学習タスクにおいて有意な性能を示したが,訓練データセットが長期化されると困難に陥る。 多くの研究者は、この問題を解決するためにコントラスト学習とロジット調整技術を組み合わせたが、これらの組み合わせはアドホックに行われ、理論的背景はまだ提供されていない。 本稿の目標は,背景を提供し,パフォーマンスをさらに向上させることである。 まず,ロングテールタスクに苦しむコントラスト学習の基本的な理由は,潜在特徴量と入力データ間の相互情報最大化を最大化しようとすることである。 基底ラベルは最大化では考慮されないため、クラスラベル間の不均衡に対処することはできない。 むしろ、ロングテール認識タスクを潜在特徴と接地ラベルの相互情報最大化として解釈する。 このアプローチは、コントラスト学習とロジット調整をシームレスに統合し、ロングテール認識ベンチマークで最先端のパフォーマンスを示す損失関数を導出する。 また、画像分割タスクにおいて有効性を示し、画像分類を超えた汎用性を検証する。

Although contrastive learning methods have shown prevailing performance on a variety of representation learning tasks, they encounter difficulty when the training dataset is long-tailed. Many researchers have combined contrastive learning and a logit adjustment technique to address this problem, but the combinations are done ad-hoc and a theoretical background has not yet been provided. The goal of this paper is to provide the background and further improve the performance. First, we show that the fundamental reason contrastive learning methods struggle with long-tailed tasks is that they try to maximize the mutual information maximization between latent features and input data. As ground-truth labels are not considered in the maximization, they are not able to address imbalances between class labels. Rather, we interpret the long-tailed recognition task as a mutual information maximization between latent features and ground-truth labels. This approach integrates contrastive learning and logit adjustment seamlessly to derive a loss function that shows state-of-the-art performance on long-tailed recognition benchmarks. It also demonstrates its efficacy in image segmentation tasks, verifying its versatility beyond image classification.
翻訳日:2023-05-03 15:32:14 公開日:2023-05-02
# 大規模言語モデルを用いた知識グラフ上の複雑な論理推論

Complex Logical Reasoning over Knowledge Graphs using Large Language Models ( http://arxiv.org/abs/2305.01157v1 )

ライセンス: Link先を確認
Nurendra Choudhary and Chandan K. Reddy(参考訳) 知識グラフ(kgs)による推論は、エンティティとそれらの関係の根底にある論理との間の複雑な関係を深く理解する必要がある困難なタスクである。 現在のアプローチでは、論理的なクエリ操作のためにベクトル空間にエンティティを埋め込むためのジオメトリの学習に依存しているが、複雑なクエリやデータセット固有の表現ではパフォーマンスが劣っている。 本稿では,文脈的KG探索と抽象論理的クエリ推論を組み合わせた複雑なKG推論を定式化して,グラフ抽出アルゴリズムと大規模言語モデル(LLM)の強みをそれぞれ活用する,新たな疎結合手法であるLARK(Language-guided Abstract Reasoning over Knowledge graph)を提案する。 実験により,提案手法はいくつかの論理的クエリ構造にまたがる標準ベンチマークデータセット上で,最先端のKG推論手法よりも優れており,複雑度の高いクエリに対して高い性能向上が得られた。 さらに,本手法の性能は基礎となるLLMの増大に比例して向上し,KGに対する論理的推論のためのLLMの最新の進歩が実現された。 本研究は,複雑なKG推論の課題に対処するための新たな方向性を示し,今後の研究の道を開くものである。

Reasoning over knowledge graphs (KGs) is a challenging task that requires a deep understanding of the complex relationships between entities and the underlying logic of their relations. Current approaches rely on learning geometries to embed entities in vector space for logical query operations, but they suffer from subpar performance on complex queries and dataset-specific representations. In this paper, we propose a novel decoupled approach, Language-guided Abstract Reasoning over Knowledge graphs (LARK), that formulates complex KG reasoning as a combination of contextual KG search and abstract logical query reasoning, to leverage the strengths of graph extraction algorithms and large language models (LLM), respectively. Our experiments demonstrate that the proposed approach outperforms state-of-the-art KG reasoning methods on standard benchmark datasets across several logical query constructs, with significant performance gain for queries of higher complexity. Furthermore, we show that the performance of our approach improves proportionally to the increase in size of the underlying LLM, enabling the integration of the latest advancements in LLMs for logical reasoning over KGs. Our work presents a new direction for addressing the challenges of complex KG reasoning and paves the way for future research in this area.
翻訳日:2023-05-03 15:31:54 公開日:2023-05-02
# 表面プラズモンポラリトン導波路によって形成される非マルコフ量子インターコネクト

Non-Markovian quantum interconnect formed by a surface plasmon polariton waveguide ( http://arxiv.org/abs/2305.01156v1 )

ライセンス: Link先を確認
Chun-Jie Yang, Xin-Yue Liu, Si-Yuan Bai, Jun-Hong An(参考訳) 遠方の量子エミッタ(QEs)間の効果的な相互作用を空飛ぶ光子を介して得ることができ、量子相互接続(QI)は本質的には光物質界面であり、量子技術の構成要素として機能する。 金属導波路によって支持される表面プラズモンポラリトン(spp)は、強い光-物質カップリングを探索しqiを実現する理想的なインターフェースを提供する。 しかし、金属中のSPPの損失は、QEsの介在的絡み合いを減少させ、距離と時間の増加を妨げている。 金属ナノワイヤのSPPによって形成される非マルコフ的QIのスキームを提案する。 生成したQEsの絡み合いを持続させる機構が発見された。 総QE-SPP系のエネルギースペクトルにおいて境界状態が形成される限り、SPPを介する絡み合いの減衰はSPPへの金属吸収の存在下でも克服される。 我々の発見は吸収性媒体における光-物質結合の理解を豊かにし、QI設計におけるSPPの利用方法を舗装する。

Allowing the generation of effective interactions between distant quantum emitters (QEs) via flying photons, quantum interconnect (QI) is essentially a light-matter interface and acts as a building block in quantum technologies. A surface plasmon polariton (SPP) supported by a metallic waveguide provides an ideal interface to explore strong light-matter couplings and to realize QI. However, the loss of SPP in metal makes the mediated entanglement of the QEs damp with the increase of the distance and time, which hinders its applications. We propose a scheme of non-Markovian QI formed by the SPP of a metallic nanowire. A mechanism to make the generated entanglement of the QEs persistent is discovered. We find that, as long as bound states are formed in the energy spectrum of total QE-SPP system, the damping of the SPP-mediated entanglement is overcome even in the presence of the metal absorption to the SPP. Our finding enriches our understanding of light-matter couplings in absorptive medium and paves the way for using the SPP in designing QI.
翻訳日:2023-05-03 15:31:29 公開日:2023-05-02
# 安全なオンライン学習における不正項目の探索

Exploration of Unranked Items in Safe Online Learning to Re-Rank ( http://arxiv.org/abs/2305.01202v1 )

ライセンス: Link先を確認
Hiroaki Shiino, Kaito Ariu, Kenshi Abe, Togashi Riku(参考訳) オンライン学習(OLTR)問題をランク付けするためのバンドアルゴリズムは、ユーザフィードバックを利用して長期的な収益を最大化することを目的としている。 しかし、現実的な観点から見れば、こうしたアルゴリズムは積極的な探索によってユーザー体験を傷つけるリスクが高い。 このように、近年、安全な探検の需要が高まっている。 安全な探索の1つのアプローチは、許容できる品質をすでに保証しているオリジナルランキングの品質を徐々に向上させることである。 本稿では,現在ランキングにある項目の1つを,ランキング外の項目(すなわち未ランク項目)と効率的に交換し,探索を行う安全なoltrアルゴリズムを提案する。 kullback-leibler upper confidence bounds (kl-ucb)に基づいて楽観的に未ランクの項目を選択し,選択した項目を含む項目を安全に再ランク付けする。 実験により,提案アルゴリズムは,安全違反を伴わずに,ベースラインからの長期的後悔を改善することを示した。

Bandit algorithms for online learning to rank (OLTR) problems often aim to maximize long-term revenue by utilizing user feedback. From a practical point of view, however, such algorithms have a high risk of hurting user experience due to their aggressive exploration. Thus, there has been a rising demand for safe exploration in recent years. One approach to safe exploration is to gradually enhance the quality of an original ranking that is already guaranteed acceptable quality. In this paper, we propose a safe OLTR algorithm that efficiently exchanges one of the items in the current ranking with an item outside the ranking (i.e., an unranked item) to perform exploration. We select an unranked item optimistically to explore based on Kullback-Leibler upper confidence bounds (KL-UCB) and safely re-rank the items including the selected one. Through experiments, we demonstrate that the proposed algorithm improves long-term regret from baselines without any safety violation.
翻訳日:2023-05-03 15:25:57 公開日:2023-05-02
# 中国の対話における話題シフト検出:コーパスとベンチマーク

Topic Shift Detection in Chinese Dialogues: Corpus and Benchmark ( http://arxiv.org/abs/2305.01195v1 )

ライセンス: Link先を確認
Jiangyi Lin, Yaxin Fan, Feng Jiang, Xiaomin Chu, and Peifeng Li(参考訳) 対話トピックシフト検出(ダイアログトピックシフト検出)とは、現在進行中のトピックがシフトしたか、あるいは対話にシフトすべきかを検出することであり、これは応答既知のタスクと応答未知タスクの2つのカテゴリに分けられる。 現在、応答情報なしでトピックシフトを予測することは依然として困難であるため、後者を調査しているのはわずかである。 本稿では,中国自然話題対話コーパスのギャップを埋めるために,1308個の対話からなる中国語自然話題対話(cntd)コーパスに最初に注釈を付ける。 そして,応答未知の課題に焦点をあて,階層的コントラスト学習に基づく教師学習フレームワークを提案し,応答を伴わないトピックシフトを予測する。 特に、ハイレベルな教師・生徒の反応を導入し、反応と文脈の対比学習を構築し、ラベルの対比学習は低レベル学生で構築される。 CNTD と 英語 TIAGE を用いた実験結果から,提案手法の有効性が示された。

Dialogue topic shift detection is to detect whether an ongoing topic has shifted or should shift in a dialogue, which can be divided into two categories, i.e., response-known task and response-unknown task. Currently, only a few investigated the latter, because it is still a challenge to predict the topic shift without the response information. In this paper, we first annotate a Chinese Natural Topic Dialogue (CNTD) corpus consisting of 1308 dialogues to fill the gap in the Chinese natural conversation topic corpus. And then we focus on the response-unknown task and propose a teacher-student framework based on hierarchical contrastive learning to predict the topic shift without the response. Specifically, the response at high-level teacher-student is introduced to build the contrastive learning between the response and the context, while the label contrastive learning is constructed at low-level student. The experimental results on our Chinese CNTD and English TIAGE show the effectiveness of our proposed model.
翻訳日:2023-05-03 15:25:40 公開日:2023-05-02
# STOP低リソースチャレンジに向けたMLMデータ拡張によるASRとNLUのパイプラインシステム

The Pipeline System of ASR and NLU with MLM-based Data Augmentation toward STOP Low-resource Challenge ( http://arxiv.org/abs/2305.01194v1 )

ライセンス: Link先を確認
Hayato Futami, Jessica Huynh, Siddhant Arora, Shih-Lun Wu, Yosuke Kashiwagi, Yifan Peng, Brian Yan, Emiru Tsunoo, Shinji Watanabe(参考訳) 本稿では,ICASSP 信号処理グランドチャレンジ 2023 の一部である Spoken Language Understanding Grand Challenge における低リソース領域適応トラック (Track 3) について述べる。 トラックでは、ASRとNLUのパイプラインアプローチを採用しています。 ASRでは、アップサンプリングで各ドメインに対してWhisperを微調整します。 NLUでは、すべてのTrack3データと低リソースのドメインデータに基づいてBARTを微調整します。 マスク付きLM(MLM)ベースのデータ拡張を適用し、入力トークンと対応するターゲットラベルのいくつかをMLMで置き換える。 また,モデル入力に類似したトレーニングサンプルを追加する,検索ベースのアプローチも適用する。 その結果、リマインダー/ウェザードメインの精度63.3/75.0(平均69.15)を達成し、挑戦で1位を獲得した。

This paper describes our system for the low-resource domain adaptation track (Track 3) in Spoken Language Understanding Grand Challenge, which is a part of ICASSP Signal Processing Grand Challenge 2023. In the track, we adopt a pipeline approach of ASR and NLU. For ASR, we fine-tune Whisper for each domain with upsampling. For NLU, we fine-tune BART on all the Track3 data and then on low-resource domain data. We apply masked LM (MLM) -based data augmentation, where some of input tokens and corresponding target labels are replaced using MLM. We also apply a retrieval-based approach, where model input is augmented with similar training samples. As a result, we achieved exact match (EM) accuracy 63.3/75.0 (average: 69.15) for reminder/weather domain, and won the 1st place at the challenge.
翻訳日:2023-05-03 15:25:23 公開日:2023-05-02
# easyhec: 微分可能レンダリングと宇宙探査による高精度で自動的な手眼校正

EasyHeC: Accurate and Automatic Hand-eye Calibration via Differentiable Rendering and Space Exploration ( http://arxiv.org/abs/2305.01191v1 )

ライセンス: Link先を確認
Linghao Chen, Yuzhe Qin, Xiaowei Zhou, Hao Su(参考訳) ハンドアイキャリブレーションはロボット工学において重要な課題であり、操作や握りなどの重要な操作の有効性に直接影響を与える。 この目的を達成するための従来の手法は、共同ポーズの注意深い設計と特別なキャリブレーションマーカーの使用を必要とするが、近年では単にポーズ回帰を用いた学習に基づくアプローチは、不正確さを診断する能力に限られている。 本研究では,ロボットの構成空間全体にわたって位置決め精度を包括的にカバーし,マーカーレスでホワイトボックスであるeasyhecと呼ばれる手眼校正手法を提案する。 本稿では, キャリブレーションプロセスの高精度なエンドツーエンドの最適化を実現するとともに, ロボットの関節ポーズを手作業で設計する手間を省くために, 可変レンダリングベースのカメラポーズ最適化と整合性ベースのジョイントスペース探索という2つの重要な技術を紹介する。 本評価は, 合成および実世界のデータセットにおいて優れた性能を示し, オブジェクトの位置決めと対話のための正確なカメラポーズを提供することにより, 下流操作タスクを強化する。 コードはプロジェクトのページで公開されている。

Hand-eye calibration is a critical task in robotics, as it directly affects the efficacy of critical operations such as manipulation and grasping. Traditional methods for achieving this objective necessitate the careful design of joint poses and the use of specialized calibration markers, while most recent learning-based approaches using solely pose regression are limited in their abilities to diagnose inaccuracies. In this work, we introduce a new approach to hand-eye calibration called EasyHeC, which is markerless, white-box, and offers comprehensive coverage of positioning accuracy across the entire robot configuration space. We introduce two key technologies: differentiable rendering-based camera pose optimization and consistency-based joint space exploration, which enables accurate end-to-end optimization of the calibration process and eliminates the need for the laborious manual design of robot joint poses. Our evaluation demonstrates superior performance in synthetic and real-world datasets, enhancing downstream manipulation tasks by providing precise camera poses for locating and interacting with objects. The code is available at the project page: https://ootts.github.io/easyhec.
翻訳日:2023-05-03 15:25:07 公開日:2023-05-02
# LatentAvatar: 表現型神経頭アバターの潜在表現コード学習

LatentAvatar: Learning Latent Expression Code for Expressive Neural Head Avatar ( http://arxiv.org/abs/2305.01190v1 )

ライセンス: Link先を確認
Yuelang Xu, Hongwen Zhang, Lizhen Wang, Xiaochen Zhao, Han Huang, Guojun Qi, Yebin Liu(参考訳) 既存のNeRFベースのヘッドアバターへのアプローチは、顔テンプレート上に構築されるか、テンプレートの表現係数を駆動信号として使用する。 期待された進歩にもかかわらず、その性能はテンプレートの表現力と追跡精度に大きく左右される。 本研究では,潜在表現符号によって駆動される表現型神経頭アバターであるLatentAvatarを紹介する。 このような潜在式コードはテンプレートを使わずにエンドツーエンドかつ自己管理的な方法で学習され,表現の除去やトラッキングの問題が解決される。 これを実現するために,潜伏頭部nerfを利用して単眼ポートレートビデオから人物固有潜時表現符号を学習し,さらにy字型ネットワークをデザインし,異なる被写体の共有潜時表現符号を学習し,相互同一性再現を行う。 NeRFにおける光度再構成の目的を最適化することにより、潜伏表現符号は高頻度の詳細な表現を忠実に捉えながら3D認識される。 さらに、共有と人固有の設定で学習した潜在表現コードのマッピングを学習することにより、LatentAvatarは異なる被験者間で表現的再現を行うことができる。 実験の結果, 歯や眼球の動きは, 定量的, 質的比較において, 従来の最先端のソリューションを上回り, 挑戦的な表現や微妙な動きを捉えることができた。 プロジェクトページ: https://www.liuyebin.com/latentavatar。

Existing approaches to animatable NeRF-based head avatars are either built upon face templates or use the expression coefficients of templates as the driving signal. Despite the promising progress, their performances are heavily bound by the expression power and the tracking accuracy of the templates. In this work, we present LatentAvatar, an expressive neural head avatar driven by latent expression codes. Such latent expression codes are learned in an end-to-end and self-supervised manner without templates, enabling our method to get rid of expression and tracking issues. To achieve this, we leverage a latent head NeRF to learn the person-specific latent expression codes from a monocular portrait video, and further design a Y-shaped network to learn the shared latent expression codes of different subjects for cross-identity reenactment. By optimizing the photometric reconstruction objectives in NeRF, the latent expression codes are learned to be 3D-aware while faithfully capturing the high-frequency detailed expressions. Moreover, by learning a mapping between the latent expression code learned in shared and person-specific settings, LatentAvatar is able to perform expressive reenactment between different subjects. Experimental results show that our LatentAvatar is able to capture challenging expressions and the subtle movement of teeth and even eyeballs, which outperforms previous state-of-the-art solutions in both quantitative and qualitative comparisons. Project page: https://www.liuyebin.com/latentavatar.
翻訳日:2023-05-03 15:24:47 公開日:2023-05-02
# 水耕園用IoTスマート温室システムの開発

Development of IoT Smart Greenhouse System for Hydroponic Gardens ( http://arxiv.org/abs/2305.01189v1 )

ライセンス: Link先を確認
Arcel Christian H. Austria, John Simon Fabros, Kurt Russel G. Sumilang, Jocelyn Bernardino, and Anabella C. Doctor(参考訳) 本研究は、モノのインターネットを取り入れた水耕園用スマート温室システムの開発に焦点をあて、人口増加の悪影響に対する解決策の一つとしてモバイルを通して監視し、耕作可能な土地の縮小に終止符を打つことなく、我々の環境に劇的な気候変動の影響を及ぼした。 研究の目的を達成するため、研究者たちは植物を完全に開発し、水pHレベル、光、水、温室温、およびThingSpeakに関連付けられた湿度を検査・監視する、実際の水耕温室システムを開発した。 開発したスマート温室モニタリングシステムは,iso 9126の評価基準に基づいて信頼性,機能,ユーザビリティを検証し,評価を行った。 カジュアルな植物所有者や水耕園の専門家を含む被験者は、プロトタイプを試し、評価することができる。また、phレベル7.77、光83、水温27.94デグc、温室温度27デグc、湿度75%でパラメータをモニターするモバイルアプリケーションがあり、ソフトウェアとハードウェアの両方が平均4.06と非常に良好であり、開発技術が有用で推奨されている。 SMART温室システム(SMART Greenhouse System for Hydroponic Garden)は、気候変動、土地不足、低農業環境による食糧不足に対する代替手段、解決策および革新技術として使用されている。 提案者は、ポンプパワーへのソーラーエネルギーの使用、プロトタイプ配線の改善、より多くのセンサーやデバイスに対応するためのarduinoのハイエンドモデルの使用、安全を確保するためのデバイスの囲い込み、バグ修正などのモバイルアプリケーションのアップデート、システム全体のe-manualなどを強く示唆している。

This study focused on the development of a smart greenhouse system for hydroponic gardens with the adaptation of the Internet of Things and monitored through mobile as one of the solutions towards the negative effects of the worlds booming population, never ending - shrinking of arable lands, and the effect of climate change drastically in our environments. To achieve the goal of the study, the researchers created an actual hydroponic greenhouse system with completely developing plants, and automation in examining and monitoring the water pH level, light, water, and greenhouse temperature, as well as humidity which is linked to ThingSpeak. The developed SMART Greenhouse monitoring system was tested and evaluated to confirm its reliability, functions, and usability under ISO 9126 evaluation criteria. The respondents who include casual plant owners and experts in hydroponic gardening able to test and evaluate the prototype, and the mobile application to monitor the parameters with the results of 7.77 for pH level, 83 for light, 27.94 deg C for water temperature, 27 deg C for greenhouse temperature, and 75% for humidity with a descriptive result in both software and hardware as Very Good with a mean average of 4.06 which means that the developed technology is useful and recommended. The SMART Greenhouse System for Hydroponic Garden is used as an alternative tool, solution, and innovation technique towards food shortages due to climate change, land shortages, and low farming environments. The proponents highly suggest the use of solar energy for the pump power, prototype wiring should be improved, the usage of a high-end model of Arduino to address more sensors and devices for a larger arsenal of data collected, enclosures of the device to ensure safety, and mobile application updates such as bug fixes and have an e-manual of the whole systems.
翻訳日:2023-05-03 15:24:20 公開日:2023-05-02
# 期待値理論(EVT)に基づく生成AI(GenAI)の学生認識の再構築

Deconstructing Student Perceptions of Generative AI (GenAI) through an Expectancy Value Theory (EVT)-based Instrument ( http://arxiv.org/abs/2305.01186v1 )

ライセンス: Link先を確認
Cecilia Ka Yuk Chan, Wenxin Zhou(参考訳) 本研究は,高等教育における生徒の知覚と生成型ai活用の意図との関係について検討する。 予測値理論 (EVT) に基づいて, 学生の生成的AI, 知覚的価値, 知覚的コストに関する知識を測定する質問紙を作成した。 この研究には405人の学生のサンプルが参加し、確認因子分析を用いて構造を検証した。 その結果、認識された価値と生成的AIの使用意図との間には強い正の相関がみられ、認識されたコストと使用意図との間には弱い負の相関がみられた。 教育等における生成的aiの意義を探究し続けていく中で、普及によって生じる潜在的な長期的影響と倫理的ジレンマを慎重に検討することが重要である。

This study examines the relationship between student perceptions and their intention to use generative AI in higher education. Drawing on Expectancy-Value Theory (EVT), a questionnaire was developed to measure students' knowledge of generative AI, perceived value, and perceived cost. A sample of 405 students participated in the study, and confirmatory factor analysis was used to validate the constructs. The results indicate a strong positive correlation between perceived value and intention to use generative AI, and a weak negative correlation between perceived cost and intention to use. As we continue to explore the implications of generative AI in education and other domains, it is crucial to carefully consider the potential long-term consequences and the ethical dilemmas that may arise from widespread adoption.
翻訳日:2023-05-03 15:23:45 公開日:2023-05-02
# 教育におけるai革命:aiは高等教育の教師を置き換えるか支援するか

The AI Revolution in Education: Will AI Replace or Assist Teachers in Higher Education? ( http://arxiv.org/abs/2305.01185v1 )

ライセンス: Link先を確認
Cecilia Ka Yuk Chan, Louisa H.Y. Tsi(参考訳) 本稿では,高等教育における人工知能(AI)の可能性について考察する。 本研究は、関連する文献をレビューし、学生や教師からのアンケートデータを分析することにより、ai技術の進歩に直面する教育者の将来の役割に関する総合的な視点を提供する。 発見は、AIが最終的に教師を置き換えると信じる者もいるが、参加者の大多数は、人間の教師は批判的思考、創造性、感情など固有の性質を持っていると論じている。 この研究はまた、AI技術が現在複製できない人間のインタラクションを通じて発達する社会的感情能力の重要性を強調している。 この研究は、教師がAIを効果的に統合して教育と学習を強化することを提案している。 そのためには、教師は、潜在的な落とし穴を避けながら、AIがどのように教師や学生とうまく機能するかを理解し、AIリテラシーを開発し、データ保護、倫理、プライバシといった実践的な問題に対処する必要がある。 この研究は、AIが教育で普及するにつれて、学生が人間の教師を尊重し、尊重することを明らかにする。 この研究は、学生、教師、大学向けのロードマップも紹介している。 このロードマップは、教育スキルの磨き直し、個人のつながりを育み、人間の教育者の強度とAI技術を効果的にバランスさせるカリキュラムを設計するための貴重なガイドとなる。 教育の未来は、人間の教師とAIの相乗効果にある。 独自の性質を理解し、洗練することで、教師、学生、大学は、aiの統合を効果的にナビゲートでき、十分に包括的で影響力のある学習体験を保証できる。

This paper explores the potential of artificial intelligence (AI) in higher education, specifically its capacity to replace or assist human teachers. By reviewing relevant literature and analysing survey data from students and teachers, the study provides a comprehensive perspective on the future role of educators in the face of advancing AI technologies. Findings suggest that although some believe AI may eventually replace teachers, the majority of participants argue that human teachers possess unique qualities, such as critical thinking, creativity, and emotions, which make them irreplaceable. The study also emphasizes the importance of social-emotional competencies developed through human interactions, which AI technologies cannot currently replicate. The research proposes that teachers can effectively integrate AI to enhance teaching and learning without viewing it as a replacement. To do so, teachers need to understand how AI can work well with teachers and students while avoiding potential pitfalls, develop AI literacy, and address practical issues such as data protection, ethics, and privacy. The study reveals that students value and respect human teachers, even as AI becomes more prevalent in education. The study also introduces a roadmap for students, teachers, and universities. This roadmap serves as a valuable guide for refining teaching skills, fostering personal connections, and designing curriculums that effectively balance the strengths of human educators with AI technologies. The future of education lies in the synergy between human teachers and AI. By understanding and refining their unique qualities, teachers, students, and universities can effectively navigate the integration of AI, ensuring a well-rounded and impactful learning experience.
翻訳日:2023-05-03 15:23:30 公開日:2023-05-02
# 高速OreFSDet : Ore画像のための軽量で効果的なFew-shotオブジェクト検出器

Faster OreFSDet : A Lightweight and Effective Few-shot Object Detector for Ore Images ( http://arxiv.org/abs/2305.01183v1 )

ライセンス: Link先を確認
Yang Zhang, Le Cheng, Yuting Peng, Chengming Xu, Yanwei Fu, Bo Wu, Guodong Sun(参考訳) 鉱石粒径検出には、大量の高品質鉱石ラベル付きデータを得るのに時間がかかり、コストがかかる。 一般的な物体検出法は、ラベル付きデータが少ない場合、過度に適合する。 過剰フィッティングをなくす能力にもかかわらず、既存の少数ショットオブジェクト検出器は、遅い検出速度や高いメモリ要求などの欠点に遭遇し、実際のデプロイシナリオでは実装が困難になる。 そこで本稿では,鉱石画像のサンプルを数個しか持たない一般物体検出と競合する性能を実現するため,軽量かつ効果的な数発検出器を提案する。 まず,提案するサポート機能マイニングブロックは,サポート機能における位置情報の重要性を特徴付ける。 次に、関係ガイダンスブロックは、正確な候補提案の生成を導くために、サポート機能をフル活用する。 最後に、デュアルスケールセマンティクスアグリゲーションモジュールは、異なる解像度で詳細な特徴を検索し、予測プロセスに寄与する。 実験結果から,全測定値に優れた性能ギャップを持つ数発検出器を一貫して超えていることがわかった。 さらに,本手法は,最大モデルサイズ19MBを実現し,一般物体検出器と比較して50FPS検出速度で競合する。 ソースコードはhttps://github.com/MVME-HBUT/Faster-OreFSDetで入手できる。

For the ore particle size detection, obtaining a sizable amount of high-quality ore labeled data is time-consuming and expensive. General object detection methods often suffer from severe over-fitting with scarce labeled data. Despite their ability to eliminate over-fitting, existing few-shot object detectors encounter drawbacks such as slow detection speed and high memory requirements, making them difficult to implement in a real-world deployment scenario. To this end, we propose a lightweight and effective few-shot detector to achieve competitive performance with general object detection with only a few samples for ore images. First, the proposed support feature mining block characterizes the importance of location information in support features. Next, the relationship guidance block makes full use of support features to guide the generation of accurate candidate proposals. Finally, the dual-scale semantic aggregation module retrieves detailed features at different resolutions to contribute with the prediction process. Experimental results show that our method consistently exceeds the few-shot detectors with an excellent performance gap on all metrics. Moreover, our method achieves the smallest model size of 19MB as well as being competitive at 50 FPS detection speed compared with general object detectors. The source code is available at https://github.com/MVME-HBUT/Faster-OreFSDet.
翻訳日:2023-05-03 15:22:59 公開日:2023-05-02
# 大規模言語モデルを用いた機械翻訳の新動向:ChatGPTを例に

New Trends in Machine Translation using Large Language Models: Case Examples with ChatGPT ( http://arxiv.org/abs/2305.01181v1 )

ライセンス: Link先を確認
Chenyang Lyu, Jitao Xu, Longyue Wang(参考訳) 機械翻訳(MT)は近年,特にGPT-3やChatGPTといった大規模言語モデル(LLM)が出現して以来,大きな進歩を遂げている。 これにより、LLMを使用したMTの新たな課題と機会が生まれます。 本稿では,LLMを用いたMTのスタイリング,インタラクティブMT,Translation Memory-based MT,LLMを用いた新たな評価パラダイムなど,MTの興味深い方向性について検討する。 また,LSMを用いたMTのプライバシー問題や,そのようなリスクを軽減するための基本的なプライバシー保護手法についても論じる。 提案する方向の可能性を示すために,先述の新たな方向の例をいくつか紹介し,提案方向の実現可能性を示し,llmを用いた今後のmt研究の機会と課題を強調する。

Machine Translation (MT) has made significant progress in recent years using deep learning, especially after the emergence of large language models (LLMs) such as GPT-3 and ChatGPT. This brings new challenges and opportunities for MT using LLMs. In this paper, we brainstorm some interesting directions for MT using LLMs, including stylized MT, interactive MT, and Translation Memory-based MT, as well as a new evaluation paradigm using LLMs. We also discuss the privacy concerns in MT using LLMs and a basic privacy-preserving method to mitigate such risks. To illustrate the potential of our proposed directions, we present several examples for the new directions mentioned above, demonstrating the feasibility of the proposed directions and highlight the opportunities and challenges for future research in MT using LLMs.
翻訳日:2023-05-03 15:22:35 公開日:2023-05-02
# 教師付きマルチモーダル学習における一様特徴学習について

On Uni-Modal Feature Learning in Supervised Multi-Modal Learning ( http://arxiv.org/abs/2305.01233v1 )

ライセンス: Link先を確認
Chenzhuang Du, Jiaye Teng, Tingle Li, Yichen Liu, Tianyuan Yuan, Yue Wang, Yang Yuan, Hang Zhao(参考訳) 我々は,マルチモーダルデータの特徴~(\textit{i.e.} learned representations)を,単モーダルトレーニングから学習可能な(1)〜\emph{uni-modal features},(2)emph{paired features}に抽象化した。 マルチモーダルモデルは、一様特徴学習の保証に基づいて、相互モーダル相互作用の恩恵を受けることが期待される。 しかし,近年のマルチモーダル・レイト・フュージョン・トレーニングアプローチでは,各モダリティにおけるユニモーダル特徴の学習が不十分なままである。 この現象がモデルの一般化能力を損なうことを証明します。 そこで本研究では,単調特徴とペア特徴の分布に応じて,与えられた教師付きマルチモーダルタスクに対して,目標とする遅延拡散学習法を, \textbf{u}ni-\textbf{m}odal \textbf{e}nsemble~(ume)と,提案する \textbf{u}ni-\textbf{m}odal \textbf{t}eacher~(umt)から選択する。 簡単な誘導戦略により,VGG-Sound, Kinetics-400, UCF101, ModelNet40 など,様々なマルチモーダルデータセット上での遅延融合や中間融合手法に匹敵する結果が得られることを示す。

We abstract the features~(\textit{i.e.} learned representations) of multi-modal data into 1)~\emph{uni-modal features}, which can be learned from uni-modal training, and 2) \emph{paired features}, which can \emph{only} be learned from cross-modal interactions. Multi-modal models are expected to benefit from cross-modal interactions on the basis of ensuring uni-modal feature learning. However, recent supervised multi-modal late-fusion training approaches still suffer from insufficient learning of uni-modal features on each modality. \emph{We prove that this phenomenon does hurt the model's generalization ability}. To this end, we propose to choose a targeted late-fusion learning method for the given supervised multi-modal task from \textbf{U}ni-\textbf{M}odal \textbf{E}nsemble~(UME) and the proposed \textbf{U}ni-\textbf{M}odal \textbf{T}eacher~(UMT), according to the distribution of uni-modal and paired features. We demonstrate that, under a simple guiding strategy, we can achieve comparable results to other complex late-fusion or intermediate-fusion methods on various multi-modal datasets, including VGG-Sound, Kinetics-400, UCF101, and ModelNet40.
翻訳日:2023-05-03 15:15:45 公開日:2023-05-02
# 4つの異なる量子システムの短い技術レビュー:量子相関、信号対雑音比、忠実度の比較分析

Short Technical Review of Four Different Quantum Systems: Comparative Analysis of Quantum Correlation, Signal-to-Noise Ratio, and Fidelity ( http://arxiv.org/abs/2305.01226v1 )

ライセンス: Link先を確認
Ahmad Salmanogli(参考訳) 本技術レビューでは,マイクロ波モード量子相関の生成に用いる方法と手法について検討する。 具体的には,電気光学,光電子工学,4結合量子ビット,inp hemtを2つの外部発振器法と結合し,量子応用の有効性を評価する。 これらのシステムはオープン量子システムであるため、環境や熱浴と相互作用する。 正確な比較を行うため、全てのシステムを同じゲージで分析する。 したがって、全ての系はすぐに導入され、全ハミルトニアンは理論的に導出され、最終的にシステムダイナミクスはリンドブラッドマスター方程式を用いて類似解析される。 次に,各システムのキャビティモード,信号対雑音比,忠実度間の量子相関を計算し,その性能を評価する。 その結果,計算量の強さと性質はシステムによって異なることがわかった。 興味深い結果の1つは、異なるキャビティを使用する系の量子相関と信号対雑音比における混合挙動の出現である。 また、4結合量子ビットとinp hemtと外部発振器法との間に有意な類似性を見出した。 さらに、この研究により、信号対雑音比と古典的不協和は量子的不協和よりも一貫性があることが明らかとなった。

This technical review examines the different methods and approaches used to create microwave modes quantum correlation. Specifically, we consider the electro-opto-mechanical, optoelectronics, 4-coupled qubits, and InP HEMT coupled with two external oscillator methods, and evaluate their effectiveness for quantum applications. As these systems are open quantum systems, they interact with their environment and thermal bath. To ensure an accurate comparison, we analyze all systems using the same gauge. Thus, all systems are shortly introduced, the total Hamiltonian is theoretically derived, and finally, the system dynamics are analogously analyzed using the Lindblad master equation. We then calculate the quantum correlation between cavity modes, signal-to-noise ratio, and fidelity for each system to evaluate their performance. The study result shows that the strength and nature of the calculated quantities vary among the systems. One interesting result is the emergence of mixing behavior in the quantum correlation and signal-to-noise ratio for systems that use different cavities. It also identified a significant similarity between the 4-coupled qubits and InP HEMT coupled with external oscillators methods, where an avoided-level crossing occurs in the quantum correlation. Additionally, the study reveals that the signal-to-noise ratio and classical discord are more consistent than quantum discord.
翻訳日:2023-05-03 15:15:17 公開日:2023-05-02
# 非構造化データをcsgモデルに変換する方法の検討

A Survey of Methods for Converting Unstructured Data to CSG Models ( http://arxiv.org/abs/2305.01220v1 )

ライセンス: Link先を確認
Pierre-Alain Fayolle and Markus Friedrich(参考訳) 本論文の目的は,3Dポイントクラウドやポリゴンメッシュなどの非構造化データからCSG表現を復元する既存の手法を調査することである。 入力データのセグメンテーションやフィッティングなどの関連トピックをレビューし、議論する。 ポリヘドロンからcsg、b-rep、csg変換の固相モデリングとcad技術について述べる。 我々は,プログラム合成,進化的手法(遺伝的プログラミングや遺伝的アルゴリズムなど),深層学習手法からのアプローチを検討する。 最後に、ソリッド(csgモデルだけでなく)と高レベル表現(例えばスケッチや押出や特徴ベース操作に基づくものなど)を表すコンピュータプログラムを生成するための技法について論じる。

The goal of this document is to survey existing methods for recovering CSG representations from unstructured data such as 3D point-clouds or polygon meshes. We review and discuss related topics such as the segmentation and fitting of the input data. We cover techniques from solid modeling and CAD for polyhedron to CSG and B-rep to CSG conversion. We look at approaches coming from program synthesis, evolutionary techniques (such as genetic programming or genetic algorithm), and deep learning methods. Finally, we conclude with a discussion of techniques for the generation of computer programs representing solids (not just CSG models) and higher-level representations (such as, for example, the ones based on sketch and extrusion or feature based operations).
翻訳日:2023-05-03 15:14:50 公開日:2023-05-02
# バックドア攻撃のトリガーとしてのプロンプト:言語モデルの脆弱性を調べる

Prompt as Triggers for Backdoor Attack: Examining the Vulnerability in Language Models ( http://arxiv.org/abs/2305.01219v1 )

ライセンス: Link先を確認
Shuai Zhao, Jinming Wen, Luu Anh Tuan, Junbo Zhao, Jie Fu(参考訳) 事前学習と微調整のギャップを埋めるプロンプトベースの学習パラダイムは、いくつかのNLPタスク、特に数ショット設定における最先端のパフォーマンスを実現する。 広く適用されているにもかかわらず、プロンプトベースの学習はバックドア攻撃に対して脆弱である。 テキストバックドア攻撃は、インジェクションインジェクションとラベル修正を通じてトレーニングサンプルのサブセットを汚染することにより、ターゲットとする脆弱性をモデルに導入するように設計されている。 しかし、毒サンプルのトリガーや不正なラベル付けによる異常な自然言語表現などの欠陥に悩まされている。 本研究では,プロンプト自体をトリガーとして使用するプロンプトに基づいて,クリーンラベルバックドアアタックを行う新規かつ効率的な手法である {\bf proattack} を提案する。 本手法は外部からのトリガーを必要とせず、被毒サンプルの正しいラベル付けを保証し、バックドア攻撃のステルス性を改善する。 リッチリソースおよび少数ショットテキスト分類タスクに関する広範な実験により、テキストバックドア攻撃におけるProAttackの競合性能を実証的に検証した。 特に、リッチリソース環境では、ProAttackは外部トリガなしでクリーンラベルバックドア攻撃ベンチマークで最先端の攻撃成功率を達成する。 私たちのモデルで使用されるすべてのデータとコードは公開されています。

The prompt-based learning paradigm, which bridges the gap between pre-training and fine-tuning, achieves state-of-the-art performance on several NLP tasks, particularly in few-shot settings. Despite being widely applied, prompt-based learning is vulnerable to backdoor attacks. Textual backdoor attacks are designed to introduce targeted vulnerabilities into models by poisoning a subset of training samples through trigger injection and label modification. However, they suffer from flaws such as abnormal natural language expressions resulting from the trigger and incorrect labeling of poisoned samples. In this study, we propose {\bf ProAttack}, a novel and efficient method for performing clean-label backdoor attacks based on the prompt, which uses the prompt itself as a trigger. Our method does not require external triggers and ensures correct labeling of poisoned samples, improving the stealthy nature of the backdoor attack. With extensive experiments on rich-resource and few-shot text classification tasks, we empirically validate ProAttack's competitive performance in textual backdoor attacks. Notably, in the rich-resource setting, ProAttack achieves state-of-the-art attack success rates in the clean-label backdoor attack benchmark without external triggers. All data and code used in our models are publically available\footnote{\url{https://github.com/shuaizhao95/Prompt_attack}}.
翻訳日:2023-05-03 15:14:39 公開日:2023-05-02
# 1つのer$^{3+}$に基づく通信用単一光子エミッタのスタークチューニング

Stark tuning of telecom single-photon emitters based on a single Er$^{3+}$ ( http://arxiv.org/abs/2305.01216v1 )

ライセンス: Link先を確認
Jian-Yin Huang, Peng-Jun Liang, Liang Zheng, Pei-Yun Li, You-Zhi Ma, Duan-Chen Liu, Zong-Quan Zhou, Chuan-Feng Li, Guang-Can Guo(参考訳) スケーラブルな量子ネットワークの実装には、通信帯域での光子と長寿命スピンコヒーレンスが必要である。 固体ホストにおける単一の Er$^{3+}$ は、これらの臨界条件を同時に満たす重要な候補である。 しかし、フォトニック接続を介して遠方のEr$^{3+}$イオンを絡めるためには、固体行列における個々のEr$^{3+}$の放出周波数は同じでなければならないが、Er$^{3+}$の放出周波数はその局所環境に依存するため、これは難しい。 本研究では, シリコンフォトニック結晶空洞を接合した電極を用いて, 単一Er$^{3+}$の発光周波数のスタークチューニングをY$_2$SiO$_5$結晶に提案し, 実験的に実証した。 我々は、独立なer$^{3+}$の放射周波数を同じスペクトルチャネルにチューニングするための有望な応用を示すために、光放射ライン幅の約27倍の182.9$\pm$ 0.8 mhzの急シフトを得る。 本研究では,単一のer$^{3+}$に基づくスケーラブルな量子ネットワークの構築と,個々の希土類イオンの放出を調整するための普遍的なツールを提供する。

The implementation of scalable quantum networks requires photons at the telecom band and long-lived spin coherence. The single Er$^{3+}$ in solid-state hosts is an important candidate that fulfills these critical requirements simultaneously. However, to entangle distant Er$^{3+}$ ions through photonic connections, the emission frequency of individual Er$^{3+}$ in solid-state matrix must be the same, which is challenging because the emission frequency of Er$^{3+}$ depends on its local environment. In this study, we propose and experimentally demonstrate the Stark tuning of the emission frequency of a single Er$^{3+}$ in a Y$_2$SiO$_5$ crystal by employing electrodes interfaced with a silicon photonic crystal cavity. We obtain a Stark shift of 182.9 $\pm$ 0.8 MHz which is approximately 27 times of the optical emission linewidth, demonstrating the promising applications in tuning the emission frequency of independent Er$^{3+}$ into the same spectral channels. Our results provide a useful solution for the construction of scalable quantum networks based on single Er$^{3+}$ and a universal tool for tuning the emission of individual rare-earth ions.
翻訳日:2023-05-03 15:14:18 公開日:2023-05-02
# 合成負温度をもつ定常量子熱力学

Steady-state Quantum Thermodynamics with Synthetic Negative Temperatures ( http://arxiv.org/abs/2305.01215v1 )

ライセンス: Link先を確認
Mohit Lal Bera, Tanmoy Pandit, Kaustav Chatterjee, Varinder Singh, Maciej Lewenstein, Utso Bhattacharya, and Manabendra Nath Bera(参考訳) 負の温度の浴槽は、近年では激しい議論の対象となっている。 熱力学にかかわる浴槽のマイナス温度の理解だけでなく、そのような浴槽を用いたデバイス構築の可能性についても、基本的な疑問を提起する。 本研究では, 負の温度の浴を含む定常量子熱力学について検討する。 負の温度の浴を2つの正の温度の浴を用いて合成し、これらを石英系と弱結合させる。 これらの浴槽は、作業システムを介して互いに結合される。 定常状態では、熱力学の法則が解析される。 これらの合成浴の温度が同じであるたびに、熱の流れはなく、ゼロ法則が再確認される。 異なる温度の自発的な熱の流れが常に存在する。 特に、負の温度の浴槽から正の温度の浴槽へ熱が流れることは、負の温度の浴槽が正の温度の浴槽よりも「ホッター」であることを意味する。 これは、初期の研究で示唆されたように、第2法のケルビン・プランク声明の修正を保証している。 これらすべての過程において、全体的なエントロピー生成は第二法則のクラウシウスの言明によって要求されるように正である。 正温度と負温度の間の連続熱機関を構築した。 これらのエンジンは最大熱対作業変換効率、すなわちユニティが得られる。 また, 負の温度の浴からの熱力学的性質を調べた結果, 熱力学的作用は負のエントロピーであることがわかった。

A bath with a negative temperature is a subject of intense debate in recent times. It raises fundamental questions not only on our understanding of negative temperature of a bath in connection with thermodynamics but also on the possibilities of constructing devices using such baths. In this work, we study steady-state quantum thermodynamics involving baths with negative temperatures. A bath with a negative temperature is created synthetically using two baths of positive temperatures and weakly coupling these with a qutrit system. These baths are then coupled to each other via a working system. At steady-state, the laws of thermodynamics are analyzed. We find that whenever the temperatures of these synthetic baths are identical, there is no heat flow, which reaffirms the zeroth law. There is always a spontaneous heat flow for different temperatures. In particular, heat flows from a bath with a negative temperature to a bath with a positive temperature which, in turn, implies that a bath with a negative temperature is `hotter' than a bath with a positive temperature. This warrants an amendment in the Kelvin-Planck statement of the second law, as suggested in earlier studies. In all these processes, the overall entropy production is positive, as required by the Clausius statement of the second law. We construct continuous heat engines operating between positive and negative temperature baths. These engines yield maximum possible heat-to-work conversion efficiency, that is, unity. We also study the thermodynamic nature of heat from a bath with a negative temperature and find that it is thermodynamic work but with negative entropy.
翻訳日:2023-05-03 15:13:54 公開日:2023-05-02
# MultiLegalSBD:多言語法文境界検出データセット

MultiLegalSBD: A Multilingual Legal Sentence Boundary Detection Dataset ( http://arxiv.org/abs/2305.01211v1 )

ライセンス: Link先を確認
Tobias Brugger, Matthias St\"urmer, Joel Niklaus(参考訳) 文境界検出(SBD)は、自然言語処理(NLP)の基本構成要素の一つであり、下流タスクの出力品質に大きな影響を及ぼす不正確な文を分割する。 複雑な文構造と異なる文構造を考えると、アルゴリズム、特に法域において、これは難しいタスクである。 本研究では6言語で130万以上の注釈文からなる多言語法的データセットをキュレートした。 実験の結果,既存のSBDモデルの性能は多言語法定データに準ずることがわかった。 CRF, BiLSTM-CRF, トランスフォーマーに基づく単言語モデルと多言語モデルの訓練, 試験を行った。 また、ポルトガルのテストセットにおけるゼロショット設定において、我々の多言語モデルはすべてのベースラインを上回ります。 コミュニティによるさらなる研究と開発を促進するため、私たちはデータセット、モデル、コードを公開しました。

Sentence Boundary Detection (SBD) is one of the foundational building blocks of Natural Language Processing (NLP), with incorrectly split sentences heavily influencing the output quality of downstream tasks. It is a challenging task for algorithms, especially in the legal domain, considering the complex and different sentence structures used. In this work, we curated a diverse multilingual legal dataset consisting of over 130'000 annotated sentences in 6 languages. Our experimental results indicate that the performance of existing SBD models is subpar on multilingual legal data. We trained and tested monolingual and multilingual models based on CRF, BiLSTM-CRF, and transformers, demonstrating state-of-the-art performance. We also show that our multilingual models outperform all baselines in the zero-shot setting on a Portuguese test set. To encourage further research and development by the community, we have made our dataset, models, and code publicly available.
翻訳日:2023-05-03 15:13:31 公開日:2023-05-02
# ChatGPTで生成されたコードは本当に正しいか? コード生成のための大規模言語モデルの厳密な評価

Is Your Code Generated by ChatGPT Really Correct? Rigorous Evaluation of Large Language Models for Code Generation ( http://arxiv.org/abs/2305.01210v1 )

ライセンス: Link先を確認
Jiawei Liu and Chunqiu Steven Xia and Yuyao Wang and Lingming Zhang(参考訳) プログラム合成は、自然言語で書かれたユーザ意図に従ってコードを生成するために、LLM(Large Language Models)の力を直接利用することに焦点を当てた最近のアプローチで長い間研究されてきた。 コード合成における各種LLMの性能測定には,入力/出力テストケースによるキュレートされた合成問題を含むコード評価データセットを用いる。 しかし、これらのデータセットのテストケースは、生成されたコードの機能的正確性を完全に評価するために、量と品質の両方で制限することができる。 LLMの時代、生成されたコードは本当に正しいのでしょうか? そこで我々は,LLM合成コードの機能的正しさを厳格に評価するコード合成ベンチマークフレームワークであるEvalPlusを提案する。 簡単に言うと、EvalPlusはベース評価データセットを取り込み、自動入力生成ステップを使用して、LLMベースおよび突然変異ベースの入力ジェネレータを使用して大量の新しいテスト入力を生成し、多様化し、さらに合成コードを検証する。 人気のあるHUMANEVALベンチマークを拡張し、81倍の追加でHUMANEVAL+を構築します。 14のLLMで広く評価した結果、HUMANEVAL+は、LLMsによって合成された未検出の間違ったコードを大量に取得でき、平均でpass@kを15.1%削減できることがわかった! さらに,HUMANEVALでは不正確な接地真実の実装もいくつか見いだした。 我々の研究は、従来のコード合成評価結果が、コード合成のためのLLMの真の性能を正確に反映しているだけでなく、自動テストインプット生成によるプログラミングベンチマークを改善するための新たな方向性を開くことを示唆している。

Program synthesis has been long studied with recent approaches focused on directly using the power of Large Language Models (LLMs) to generate code according to user intent written in natural language. Code evaluation datasets, containing curated synthesis problems with input/output test-cases, are used to measure the performance of various LLMs on code synthesis. However, test-cases in these datasets can be limited in both quantity and quality for fully assessing the functional correctness of the generated code. Such limitation in the existing benchmarks begs the following question: In the era of LLMs, is the code generated really correct? To answer this, we propose EvalPlus -- a code synthesis benchmarking framework to rigorously evaluate the functional correctness of LLM-synthesized code. In short, EvalPlus takes in the base evaluation dataset and uses an automatic input generation step to produce and diversify large amounts of new test inputs using both LLM-based and mutation-based input generators to further validate the synthesized code. We extend the popular HUMANEVAL benchmark and build HUMANEVAL+ with 81x additionally generated tests. Our extensive evaluation across 14 popular LLMs demonstrates that HUMANEVAL+ is able to catch significant amounts of previously undetected wrong code synthesized by LLMs, reducing the pass@k by 15.1% on average! Moreover, we even found several incorrect ground-truth implementations in HUMANEVAL. Our work not only indicates that prior popular code synthesis evaluation results do not accurately reflect the true performance of LLMs for code synthesis but also opens up a new direction to improve programming benchmarks through automated test input generation.
翻訳日:2023-05-03 15:13:16 公開日:2023-05-02
# クロノシンボリック学習:シンボリック推論と帰納的学習を用いた効率的なchc解法

Chronosymbolic Learning: Efficient CHC Solving with Symbolic Reasoning and Inductive Learning ( http://arxiv.org/abs/2305.01206v1 )

ライセンス: Link先を確認
Ziyan Luo and Xujie Si(参考訳) Solving Constrained Horn Clauses (CHCs)は、幅広い検証と分析タスクの背後にある根本的な課題である。 データ駆動型アプローチは、さまざまなヒューリスティックを作成、チューニングする手作業で苦労することなく、CHC解決を改善する上で非常に有望である。 しかし、データ駆動型CHCソルバとシンボリック推論ベースのソルバの間には大きなパフォーマンスギャップが存在する。 本研究では,記号情報と数値データポイントを統一し,CHCシステムを効率的に解くための,シンプルで効果的なフレームワークであるChronosymbolic Learningを開発する。 また、データ駆動学習とBMCスタイルの推論を併用したクロノシンボリック学習の簡単な例を示す。 その単純さにもかかわらず、実験結果はツールの有効性と堅牢性を示している。 これは288のベンチマークからなるデータセット上で、非線形整数演算を持つ多くのインスタンスを含む最先端のCHCソルバより優れている。

Solving Constrained Horn Clauses (CHCs) is a fundamental challenge behind a wide range of verification and analysis tasks. Data-driven approaches show great promise in improving CHC solving without the painstaking manual effort of creating and tuning various heuristics. However, a large performance gap exists between data-driven CHC solvers and symbolic reasoning-based solvers. In this work, we develop a simple but effective framework, "Chronosymbolic Learning", which unifies symbolic information and numerical data points to solve a CHC system efficiently. We also present a simple instance of Chronosymbolic Learning with a data-driven learner and a BMC-styled reasoner. Despite its great simplicity, experimental results show the efficacy and robustness of our tool. It outperforms state-of-the-art CHC solvers on a dataset consisting of 288 benchmarks, including many instances with non-linear integer arithmetics.
翻訳日:2023-05-03 15:12:46 公開日:2023-05-02
# 閉じ込められたバリウムイオンから通信用oバンドへの光子の低ノイズ量子周波数変換

Low noise quantum frequency conversion of photons from a trapped barium ion to the telecom O-band ( http://arxiv.org/abs/2305.01205v1 )

ライセンス: Link先を確認
Uday Saha, James D. Siverns, John Hannegan, Qudsia Quraishi and Edo Waks(参考訳) 閉じ込められたイオンは、長い量子ビットコヒーレンス時間、高忠実度単量子ゲートと2量子ビットゲート、イオンの量子ビット状態と絡み合った光子を生成する能力から、スケーラブルで長距離量子ネットワークの有力候補の一つである。 p_(1/2) から s_(1/2) レベルへの光学遷移を利用して、自然にスピン-光子絡み合い状態を生成する。 しかし、これらの光遷移は通常、紫外および可視の波長状態にある。 これらの波長は光ファイバー伝搬損失が大きく、量子情報の数十メートルへの転送を制限している。 量子周波数変換は、光子をテレコム波長に変換してファイバベースネットワークの長距離を伝播し、多数の光電子部品と互換性を持たせるために必要である。 ここでは、捕捉されたバリウムイオンのP_(1/2)からS_(1/2)双極子遷移から放出される光子から低雑音量子周波数変換方式により、Oバンド通信光子を生成する。 入力可視光子と出力光通信光子の間で375.4thzの周波数シフトを実現し、11%の変換効率を達成するために、2段階の量子周波数変換方式を用いる。 背景雑音が15カウント/秒以下で変換されたoバンド通信光子の信号対バックグランド比を100以上とする。 これらの結果は、分散量子コンピューティングと量子通信のための長距離イオン量子ネットワークを実現するための重要なステップである。

Trapped ions are one of the leading candidates for scalable and long-distance quantum networks because of their long qubit coherence time, high fidelity single- and two-qubit gates, and their ability to generate photons entangled with the qubit state of the ion. One method for creating ion-photon entanglement is to exploit optically transitions from the P_(1/2) to S_(1/2) levels, which naturally emit spin-photon entangled states. But these optical transitions typically lie in the ultra-violet and visible wavelength regimes. These wavelengths exhibit significant fiber-optic propagation loss, thereby limiting the transfer of quantum information to tens of meters. Quantum frequency conversion is essential to convert these photons to telecom wavelengths so that they can propagate over long distances in fiber-based networks, as well as for compatibility with the vast number of telecom-based opto-electronic components. Here, we generate O-band telecom photons via a low noise quantum frequency conversion scheme from photons emitted from the P_(1/2) to S_(1/2) dipole transition of a trapped barium ion. We use a two-stage quantum frequency conversion scheme to achieve a frequency shift of 375.4 THz between the input visible photon and the output telecom photon achieving a conversion efficiency of 11%. We attain a signal-to-background ratio of over 100 for the converted O-band telecom photon with background noise less than 15 counts/sec. These results are an important step toward achieving trapped ion quantum networks over long distances for distributed quantum computing and quantum communication.
翻訳日:2023-05-03 15:12:31 公開日:2023-05-02
# 生成因子における要約の役割--予備的視点から

The Role of Summarization in Generative Agents: A Preliminary Perspective ( http://arxiv.org/abs/2305.01253v1 )

ライセンス: Link先を確認
Xiachong Feng, Xiaocheng Feng, Bing Qin(参考訳) 人社会をシミュレートする生成エージェントは、さらなる研究と実践の可能性を秘めている。 具体的には、複数の巧妙に設計されたモジュールからなる生成剤アーキテクチャが最も重要な構成要素である。 本研究の進展を促進するため,本報告では,様々なシナリオにまたがる生成エージェントの最も基本的かつ必然的な能力は要約であると考え,要約による生成エージェントの理解に関する総合的な視点を示す。 本報告は, 生成剤の要約能力の重要性の理解と今後の研究の動機となることを期待する。

Generative agents that simulate human society show tremendous potential for further research and practical applications. Specifically, the generative agent architecture comprising several meticulously designed modules constitutes the most critical component. To facilitate progress in this research, this report presents our integrated perspective on comprehending generative agents through summarization, since we believe summarization is the most fundamental and indispensable capacity of generative agents manifested across diverse scenarios. We hope this report can provide insight into understanding the importance of summarization capacity in generative agents and motivate future research.
翻訳日:2023-05-03 15:06:44 公開日:2023-05-02
# HTPS:医療データセットの不均一転送予測システム

HTPS: Heterogeneous Transferring Prediction System for Healthcare Datasets ( http://arxiv.org/abs/2305.01252v1 )

ライセンス: Link先を確認
Jia-Hao Syu and Jerry Chun-Wei Lin and Marcin Fojcik and Rafa{\l} Cupek(参考訳) 医療のインターネットは、スマートヘルスケアとして知られる医療サービスの革命的な改善につながる。 ビッグデータによって、データマイニングと機械学習は、ウェルネス管理とインテリジェントな診断を支援し、P4医療を実現する。 しかし、医療データはばらつきと不均一性が高い。 本稿では,異種移動予測システム(HTPS)を提案する。 機能エンジニアリングメカニズムは、データセットをスパースかつ密度の高い特徴行列に変換し、組み込みネットワーク内のオートエンコーダは、特徴を埋め込みだけでなく、異種データセットから知識を転送する。 実験の結果,提案したHTPSは,様々な予測タスクやデータセット上でベンチマークシステムよりも優れており,アブレーション研究は各設計機構の有効性を示す。 実験により,異種データのベンチマークシステムへの影響と提案したHTPSの高転送性を示す。

Medical internet of things leads to revolutionary improvements in medical services, also known as smart healthcare. With the big healthcare data, data mining and machine learning can assist wellness management and intelligent diagnosis, and achieve the P4-medicine. However, healthcare data has high sparsity and heterogeneity. In this paper, we propose a Heterogeneous Transferring Prediction System (HTPS). Feature engineering mechanism transforms the dataset into sparse and dense feature matrices, and autoencoders in the embedding networks not only embed features but also transfer knowledge from heterogeneous datasets. Experimental results show that the proposed HTPS outperforms the benchmark systems on various prediction tasks and datasets, and ablation studies present the effectiveness of each designed mechanism. Experimental results demonstrate the negative impact of heterogeneous data on benchmark systems and the high transferability of the proposed HTPS.
翻訳日:2023-05-03 15:06:36 公開日:2023-05-02
# ltlオントロジーを介する時間的問合せのリバースエンジニアリング

Reverse Engineering of Temporal Queries Mediated by LTL Ontologies ( http://arxiv.org/abs/2305.01248v1 )

ライセンス: Link先を確認
Marie Fontin, Boris Konev, Vladislav Ryzhikov, Yury Savateev, Frank Wolter, Michael Zakharyaschev(参考訳) データベースクエリのリバースエンジニアリングでは、与えられた回答と非回答の集合からクエリを構築することを目的としており、さらにデータを探索したり、回答と非回答の説明として利用することができる。 本研究では,線形時相論理ltlの正のフラグメントで定式化したクエリに対するクエリ・バイ・サンプル問題の検討を行い,適切なクエリ言語の設計と,与えられた回答と非回答を分離する言語に問合せが存在するかどうかを判断するデータの複雑さについて考察する。 通常のLTLクエリとLTLオントロジーを介するクエリの両方を考慮する。

In reverse engineering of database queries, we aim to construct a query from a given set of answers and non-answers; it can then be used to explore the data further or as an explanation of the answers and non-answers. We investigate this query-by-example problem for queries formulated in positive fragments of linear temporal logic LTL over timestamped data, focusing on the design of suitable query languages and the combined and data complexity of deciding whether there exists a query in the given language that separates the given answers from non-answers. We consider both plain LTL queries and those mediated by LTL-ontologies.
翻訳日:2023-05-03 15:06:21 公開日:2023-05-02
# 任意の(量子)オブジェクト間の変換と不定因果性の出現

Transformations between arbitrary (quantum) objects and the emergence of indefinite causality ( http://arxiv.org/abs/2305.01247v1 )

ライセンス: Link先を確認
Simon Milz, Marco T\'ulio Quintino(参考訳) 量子力学における多くの基本的および鍵的対象は、特定のアフィン/線型空間間の線型写像である。 この構造は、状態、測定値、チャネル、計器、メモリを持つノンシグナリングチャネルおよびチャネルといった基本的な量子要素と、スーパーチャネル、量子コム、n-タイムプロセス、テスター、そして明確な因果順序を尊重しないプロセス行列のような高次演算を含む。 線形および半定義の制約の観点からそれらの構造特性を推論し特徴付けることは基礎的な関連性だけではなく、量子オブジェクトの集合に対する数値最適化を可能にし、異なる概念とオブジェクト間のより簡単な接続を可能にする上で重要な役割を果たす。 ここでは,これらのプロパティを直接的かつ使いやすい方法で推論するための汎用フレームワークを提供する。 さらに、実際的な量子力学的考察によって導かれるが、我々は解析を \textit{ General} 線型/アフィン空間間の写像に拡張し、それらの性質を導出し、量子理論によって明示的に禁止されていないが、まだあまり探索されていない集合を分析する可能性を開く。 これらの結果と共に、量子力学などにおいて線形変換の特徴づけを必要とするすべてのタスクに対して、汎用的で容易に適用可能なツールが得られる。 本手法の適用例として,高次量子変換における不確定因果関係の出現について論じる。

Many fundamental and key objects in quantum mechanics are linear mappings between particular affine/linear spaces. This structure includes basic quantum elements such as states, measurements, channels, instruments, non-signalling channels and channels with memory, and also higher-order operations such as superchannels, quantum combs, n-time processes, testers, and process matrices which may not respect a definite causal order. Deducing and characterising their structural properties in terms of linear and semidefinite constraints is not only of foundational relevance, but plays an important role in enabling the numerical optimization over sets of quantum objects and allowing simpler connections between different concepts and objects. Here, we provide a general framework to deduce these properties in a direct and easy to use way. Additionally, while primarily guided by practical quantum mechanical considerations, we extend our analysis to mappings between \textit{general} linear/affine spaces and derive their properties, opening the possibility for analysing sets which are not explicitly forbidden by quantum theory, but are still not much explored. Together, these results yield versatile and readily applicable tools for all tasks that require the characterization of linear transformations, in quantum mechanics and beyond. As an application of our methods, we discuss the emergence of indefinite causality in higher-order quantum transformation.
翻訳日:2023-05-03 15:06:08 公開日:2023-05-02
# MDENet:Malware Open-set Recognitionのためのマルチモーダルデュアル埋め込みネットワーク

MDENet: Multi-modal Dual-embedding Networks for Malware Open-set Recognition ( http://arxiv.org/abs/2305.01245v1 )

ライセンス: Link先を確認
Jingcai Guo, Yuanyuan Xu, Wenchao Xu, Yufeng Zhan, Yuxia Sun, Song Guo(参考訳) マルウェアオープンセット認識(MOSR)は、既知の家族からマルウェアサンプルを共同で分類し、新しい未知の家族からマルウェアを検知することを目的としている。 既存の研究は主に、MOSRを達成するためのしきい値に基づく検出を持つ既知の各ファミリーの予測確率を考慮して、よく訓練された分類器に依存している。 しかし,本研究の結果から,マルウェアサンプルの特徴分布は未知の家族の間でも非常に類似していることが明らかとなった。 これにより、得られた分類器は、未知のサンプルを既知の家族に対して過度に高い確率でテストし、モデル性能を低下させることができる。 本稿では,マルチモーダル・デュアル・エンベディングネットワークであるmdenetを提案する。マルチモーダル・デュアルエンベディングネットワークは,異なるモダリティから包括的マルウェア機能(マルウェア画像やマルウェア文など)を活用し,ダウンストリーム認識に代表的かつ差別的なマルウェア特徴空間の多様性を高める。 最後に、オープンセット認識をさらに保証するために、融合されたマルチモーダル表現を1つの一次空間と関連する部分空間、すなわち識別的空間と排他的空間に、それぞれ分類と検出を行うrho-bounded enclosing sphere regularization(rho-bounded enclosing sphere regularization)とを二重に埋め込む。 さらに、以前提案した大規模マルウェアデータセットMAL-100をマルチモーダル特性で強化し、MAL-100+と呼ばれる改良版に貢献する。 広く使われているマルウェアデータセットMailingと提案したMAL-100+の実験結果から,本手法の有効性が示された。

Malware open-set recognition (MOSR) aims at jointly classifying malware samples from known families and detect the ones from novel unknown families, respectively. Existing works mostly rely on a well-trained classifier considering the predicted probabilities of each known family with a threshold-based detection to achieve the MOSR. However, our observation reveals that the feature distributions of malware samples are extremely similar to each other even between known and unknown families. Thus the obtained classifier may produce overly high probabilities of testing unknown samples toward known families and degrade the model performance. In this paper, we propose the Multi-modal Dual-Embedding Networks, dubbed MDENet, to take advantage of comprehensive malware features (i.e., malware images and malware sentences) from different modalities to enhance the diversity of malware feature space, which is more representative and discriminative for down-stream recognition. Last, to further guarantee the open-set recognition, we dually embed the fused multi-modal representation into one primary space and an associated sub-space, i.e., discriminative and exclusive spaces, with contrastive sampling and rho-bounded enclosing sphere regularizations, which resort to classification and detection, respectively. Moreover, we also enrich our previously proposed large-scaled malware dataset MAL-100 with multi-modal characteristics and contribute an improved version dubbed MAL-100+. Experimental results on the widely used malware dataset Mailing and the proposed MAL-100+ demonstrate the effectiveness of our method.
翻訳日:2023-05-03 15:05:44 公開日:2023-05-02
# マルチスケール分子モデリングのための機械誘導可逆粗粒化

Machine-Learned Invertible Coarse Graining for Multiscale Molecular Modeling ( http://arxiv.org/abs/2305.01243v1 )

ライセンス: Link先を確認
Jun Zhang, Xiaohan Lin, Weinan E and Yi Qin Gao(参考訳) マルチスケール分子モデリングは、大きな時間と長さのスケールで分子特性の科学的研究に広く応用されている。 分子の粗い表現と微細な表現の間の情報は、適切に交換する必要があることを前提として、2つの特定の課題が存在する: 1つは、粒度から粗いレベルへの情報を渡すことによって粗い粒度(CG)モデルを構築することであり、もう1つはCG構成が与えられたときのより細かい分子の詳細を復元することである。 この2つの問題は独立して扱われることが多いが,本研究ではこれらを繋ぐ理論を提示し,両問題を統一的に解くためのサイクル粗粒化法(ccg)を考案する。 CCGにおいて、再構成はトラクタブルな最適化プロセスによって達成され、CGシミュレーションから詳細を検索する一般的な手法が実現され、CG問題に対する新たな解決策が提供され、希少な自由エネルギーを計算できる効率的な方法が生み出される。 したがって、CCGは、CGシミュレーションのより詳細な詳細を効率的に検索し、CGモデルを一貫して改善する、マルチスケール分子モデリングの体系的な方法を提供する。

Multiscale molecular modeling is widely applied in scientific research of molecular properties over large time and length scales. Two specific challenges are commonly present in multiscale modeling, provided that information between the coarse and fine representations of molecules needs to be properly exchanged: One is to construct coarse grained (CG) models by passing information from the fine to coarse levels; the other is to restore finer molecular details given CG configurations. Although these two problems are commonly addressed independently, in this work, we present a theory connecting them, and develop a methodology called Cycle Coarse Graining (CCG) to solve both problems in a unified manner. In CCG, reconstruction can be achieved via a tractable optimization process, leading to a general method to retrieve fine details from CG simulations, which in turn, delivers a new solution to the CG problem, yielding an efficient way to calculate free energies in a rare-event-free manner. CCG thus provides a systematic way for multiscale molecular modeling, where the finer details of CG simulations can be efficiently retrieved, and the CG models can be improved consistently.
翻訳日:2023-05-03 15:05:15 公開日:2023-05-02
# AQ-GT:音声合成のための一時配向型量子化GRU変換器

AQ-GT: a Temporally Aligned and Quantized GRU-Transformer for Co-Speech Gesture Synthesis ( http://arxiv.org/abs/2305.01241v1 )

ライセンス: Link先を確認
Hendric Vo{\ss} and Stefan Kopp(参考訳) 現実的かつ文脈的に関連のある共同スパイクジェスチャの生成は、マルチモーダルな人工エージェントの作成においてますます重要になっている課題である。 従来の手法では、共同音声のジェスチャー表現と生成された動作の直接的な対応を学習することに集中していた。 本稿では,量子化パイプラインを用いた生成型逆ネットワークを用いた部分的ジェスチャシーケンスの事前学習手法を提案する。 結果として得られたコードブックベクトルは、我々のフレームワークの入出力の両方として機能し、ジェスチャの生成と再構成の基礎を形成します。 空間表現を直接ベクトル表現にマッピングするのではなく、潜在空間表現のマッピングを学習することにより、人間の動きや振る舞いを忠実に再現する高度に現実的で表現力のあるジェスチャーの生成を促進すると同時に、生成プロセスにおけるアーティファクトを同時に回避する。 提案手法は,人間の行動の既存のデータセットと同様に,協調ジェスチャ生成のための確立された手法と比較することで評価する。 私たちはまた、この結果を評価するためにアブレーション研究も行います。 以上の結果から,我々のアプローチは,芸術の現況を明確なマージンで上回っており,人間の身振りと部分的に区別できないことが示された。 データパイプラインとジェネレーションフレームワークを一般公開しています。

The generation of realistic and contextually relevant co-speech gestures is a challenging yet increasingly important task in the creation of multimodal artificial agents. Prior methods focused on learning a direct correspondence between co-speech gesture representations and produced motions, which created seemingly natural but often unconvincing gestures during human assessment. We present an approach to pre-train partial gesture sequences using a generative adversarial network with a quantization pipeline. The resulting codebook vectors serve as both input and output in our framework, forming the basis for the generation and reconstruction of gestures. By learning the mapping of a latent space representation as opposed to directly mapping it to a vector representation, this framework facilitates the generation of highly realistic and expressive gestures that closely replicate human movement and behavior, while simultaneously avoiding artifacts in the generation process. We evaluate our approach by comparing it with established methods for generating co-speech gestures as well as with existing datasets of human behavior. We also perform an ablation study to assess our findings. The results show that our approach outperforms the current state of the art by a clear margin and is partially indistinguishable from human gesturing. We make our data pipeline and the generation framework publicly available.
翻訳日:2023-05-03 15:04:54 公開日:2023-05-02
# DRPT:コンポジションゼロショット学習のためのアンタングルおよびリカレントプロンプトチューニング

DRPT: Disentangled and Recurrent Prompt Tuning for Compositional Zero-Shot Learning ( http://arxiv.org/abs/2305.01239v1 )

ライセンス: Link先を確認
Xiaocheng Lu, Ziming Liu, Song Guo, Jingcai Guo, Fushuo Huo, Sikai Bai and Tao Han(参考訳) 合成ゼロショット学習(CZSL)は、既知の知識からなる新しい概念を学習サンプルなしで認識することを目的としている。 標準のCZSLは視覚的プリミティブを識別するか、見えない構成エンティティを強化し、その結果、状態とオブジェクトプリミティブの絡み合いを完全には利用できない。 必然的に、視覚言語モデル(VLM)は、調整プロンプトを通じてCZSLを自然に扱うことができ、不均一な絡み合いは局所的な最適条件に引きずられる。 本稿では,Distangled and Recurrent Prompt Tuning フレームワーク DRPT を新たに導入し,CZSL における VLM の可能性を改善する。 具体的には、状態とオブジェクトプリミティブは、プロンプトに埋め込まれて、見られる構成に基づいて調整された語彙の学習可能なトークンと見なされる。 状態とオブジェクトを協調的にチューニングする代わりに,絡み合いによるトラクション力を抑制し,トークンパラメータを徐々に最適化することにより,より優れたプロンプト空間を実現する。 特に、プロンプトの漸進的な更新を可能にするプログレッシブな微調整手順を開発し、まずオブジェクト、次に状態、そしてその逆を最適化する。 一方、状態とオブジェクトの最適化は独立なので、より明確な特徴を学べば、誤解を招く最適化の問題をさらに緩和することができる。 さらに, czslの絡み合いを定量化分析し, 絡み合い再バランス最適化スキームを補完する。 DRPTは大規模なベンチマークデータセットにおける最先端の代表的な手法を超越し、精度と効率の両面で優位性を示す。

Compositional Zero-shot Learning (CZSL) aims to recognize novel concepts composed of known knowledge without training samples. Standard CZSL either identifies visual primitives or enhances unseen composed entities, and as a result, entanglement between state and object primitives cannot be fully utilized. Admittedly, vision-language models (VLMs) could naturally cope with CZSL through tuning prompts, while uneven entanglement leads prompts to be dragged into local optimum. In this paper, we take a further step to introduce a novel Disentangled and Recurrent Prompt Tuning framework termed DRPT to better tap the potential of VLMs in CZSL. Specifically, the state and object primitives are deemed as learnable tokens of vocabulary embedded in prompts and tuned on seen compositions. Instead of jointly tuning state and object, we devise a disentangled and recurrent tuning strategy to suppress the traction force caused by entanglement and gradually optimize the token parameters, leading to a better prompt space. Notably, we develop a progressive fine-tuning procedure that allows for incremental updates to the prompts, optimizing the object first, then the state, and vice versa. Meanwhile, the optimization of state and object is independent, thus clearer features can be learned to further alleviate the issue of entangling misleading optimization. Moreover, we quantify and analyze the entanglement in CZSL and supplement entanglement rebalancing optimization schemes. DRPT surpasses representative state-of-the-art methods on extensive benchmark datasets, demonstrating superiority in both accuracy and efficiency.
翻訳日:2023-05-03 15:04:31 公開日:2023-05-02
# ストリームデータを用いたフェデレーションエッジ学習のための動的スケジューリング

Dynamic Scheduling for Federated Edge Learning with Streaming Data ( http://arxiv.org/abs/2305.01238v1 )

ライセンス: Link先を確認
Chung-Hsuan Hu, Zheng Chen, and Erik G. Larsson(参考訳) 本研究では,長期エネルギー制約のある分散エッジデバイスにおいて,トレーニングデータを時間とともにランダムに生成するフェデレーションエッジ学習(FEEL)システムについて考察する。 通信リソースとレイテンシ要件が限られているため、イテレーション毎にローカルトレーニングプロセスに参加するためのデバイスはごく一部に過ぎません。 エネルギー消費と遅延制約を考慮したスケジュールされたユーザ集合から平均データの重要性を最大化する動的スケジューリングポリシーを設計するための確率的ネットワーク最適化問題を定式化する。 lyapunov最適化フレームワークに基づく提案アルゴリズムは,特にトレーニングデータの生成が強い時間相関を示す場合において,時間変化データの重要性を考慮せず,代替手法よりも優れる。

In this work, we consider a Federated Edge Learning (FEEL) system where training data are randomly generated over time at a set of distributed edge devices with long-term energy constraints. Due to limited communication resources and latency requirements, only a subset of devices is scheduled for participating in the local training process in every iteration. We formulate a stochastic network optimization problem for designing a dynamic scheduling policy that maximizes the time-average data importance from scheduled user sets subject to energy consumption and latency constraints. Our proposed algorithm based on the Lyapunov optimization framework outperforms alternative methods without considering time-varying data importance, especially when the generation of training data shows strong temporal correlation.
翻訳日:2023-05-03 15:03:59 公開日:2023-05-02
# CNS-Net:オープンセットシナリオにおけるマルウェア認識のための保守的ノベルティ合成ネットワーク

CNS-Net: Conservative Novelty Synthesizing Network for Malware Recognition in an Open-set Scenario ( http://arxiv.org/abs/2305.01236v1 )

ライセンス: Link先を確認
Jingcai Guo, Song Guo, Shiheng Ma, Yuxia Sun, Yuanyuan Xu(参考訳) 本研究では,既知の未知のマルウェア群と未知の未知のマルウェア群の両方に対するマルウェア認識の課題について検討した。 従来の研究では、マルウェアのファミリーは密集したシナリオで分類器として知られており、例えば、テストファミリーはサブセットであり、トレーニングファミリーとほとんど同じである。 しかし、新しい未知のマルウェアファミリーが現実世界のアプリケーションで頻繁に出現し、したがって、オープンセットのシナリオでマルウェアのインスタンスを認識する必要がある。 mosrの実用的な解決策の一つは、未知のマルウェアファミリーを単一の分類器(ニューラルネットワークなど)で分類し、既知の家族に対する予測確率分布の分散から分類することである。 しかし、従来のよく訓練された分類器は、特にインスタンスの特徴分布が未知のマルウェアファミリーと類似している場合、出力において過度に高い認識確率を得る傾向があるため、未知のマルウェアファミリーに対する認識は劇的に低下する。 本稿では,未知のマルウェア群を模倣するマルウェアインスタンスを保守的に合成し,分類器のより堅牢な訓練を支援する新しいモデルを提案する。 さらに,mal-100と呼ばれる新たな大規模マルウェアデータセットを構築し,大規模なオープンセットマルウェアベンチマークデータセットの欠如のギャップを埋める。 汎用マルウェアデータセット2セットとmal-100を用いた実験結果から,本モデルの有効性を他の代表的な手法と比較した。

We study the challenging task of malware recognition on both known and novel unknown malware families, called malware open-set recognition (MOSR). Previous works usually assume the malware families are known to the classifier in a close-set scenario, i.e., testing families are the subset or at most identical to training families. However, novel unknown malware families frequently emerge in real-world applications, and as such, require to recognize malware instances in an open-set scenario, i.e., some unknown families are also included in the test-set, which has been rarely and non-thoroughly investigated in the cyber-security domain. One practical solution for MOSR may consider jointly classifying known and detecting unknown malware families by a single classifier (e.g., neural network) from the variance of the predicted probability distribution on known families. However, conventional well-trained classifiers usually tend to obtain overly high recognition probabilities in the outputs, especially when the instance feature distributions are similar to each other, e.g., unknown v.s. known malware families, and thus dramatically degrades the recognition on novel unknown malware families. In this paper, we propose a novel model that can conservatively synthesize malware instances to mimic unknown malware families and support a more robust training of the classifier. Moreover, we also build a new large-scale malware dataset, named MAL-100, to fill the gap of lacking large open-set malware benchmark dataset. Experimental results on two widely used malware datasets and our MAL-100 demonstrate the effectiveness of our model compared with other representative methods.
翻訳日:2023-05-03 15:03:49 公開日:2023-05-02
# LLM間での視覚プロンプトジェネレータの転送

Transfer Visual Prompt Generator across LLMs ( http://arxiv.org/abs/2305.01278v1 )

ライセンス: Link先を確認
Ao Zhang, Hao Fei, Yuan Yao, Wei Ji, Li Li, Zhiyuan Liu, and Tat-Seng Chua(参考訳) 新しい視覚言語LLM(VL-LLM)の開発は、画像テキストペアをスクラッチから事前学習することで、資源を消費し、既存のLLMと比較的軽量なビジュアルプロンプトジェネレータ(VPG)を接続することが実現可能なパラダイムとなる。 しかし、VL-LLMのVPG部分のチューニングは依然として必要な計算コスト、すなわち何千時間ものGPU時間と数百万のトレーニングデータを必要としている。 1つの代替策は、既存のVL-LLMから既存のVL-LLMへ既存のVPGを転送することである。 本研究では,LLM間のVPG転送可能性について初めて検討し,VPG転送コストを低減するための解決策を探究する。 我々はまず, 異なるLLMサイズ(例えば, 小さいから大きい)および異なるLLMタイプにわたるVPG転送について検討し, 転送効率を最大化するために重要な因子を診断する。 本稿では,VPGTransという2段階の転送フレームワークを設計する。 広範な実験を通じて,vpgtransは,パフォーマンスを損なうことなく,転送学習プロセスを大幅に高速化できることを実証する。 BLIP-2 OPT$_\text{2.7B}$からBLIP-2 OPT$_\text{6.7B}$へのVPG転送には10倍以上のスピードアップと10.7%のトレーニングデータがある。 さらに、その背後にある一連の興味深い発見と潜在的な根拠を提供し、議論する。 最後に、VL-LLaMAとVL-Vicunaを含む2つの新しいVL-LLMを、最近リリースされたLLaMAとVicuna LLMをカスタマイズすることで、VPGTransアプローチの実用価値を示す。

While developing a new vision-language LLM (VL-LLM) by pre-training on tremendous image-text pairs from scratch can be exceedingly resource-consuming, connecting an existing LLM with a comparatively lightweight visual prompt generator (VPG) becomes a feasible paradigm. However, further tuning the VPG part of the VL-LLM still suffers from indispensable computational costs, i.e., requiring thousands of GPU hours and millions of training data. One alternative solution is to transfer an existing VPG from any existing VL-LLMs for the target VL-LLM. In this work, we for the first time investigate the VPG transferability across LLMs, and explore a solution to reduce the cost of VPG transfer. We first study the VPG transfer across different LLM sizes (e.g., small-to-large), and across different LLM types, through which we diagnose the key factors to maximize the transfer efficiency. Based on our observation, we design a two-stage transfer framework named VPGTrans, which is simple yet highly effective. Through extensive experiments, we demonstrate that VPGTrans helps significantly speed up the transfer learning process without compromising performance. Remarkably, it helps achieve the VPG transfer from BLIP-2 OPT$_\text{2.7B}$ to BLIP-2 OPT$_\text{6.7B}$ with over 10 times speed-up and 10.7% training data compared with connecting a VPG to OPT$_\text{6.7B}$ from scratch. Further, a series of intriguing findings and potential rationales behind them are provided and discussed. Finally, we showcase the practical value of our VPGTrans approach, by customizing two novel VL-LLMs, including VL-LLaMA and VL-Vicuna, with recently released LLaMA and Vicuna LLMs.
翻訳日:2023-05-03 14:56:47 公開日:2023-05-02
# 量子インターネットにおける真の絡み合いアクセス制御の設計と解析

Design and Analysis of Genuine Entanglement Access Control for the Quantum Internet ( http://arxiv.org/abs/2305.01276v1 )

ライセンス: Link先を確認
Jessica Illiano, Marcello Caleffi, Michele Viscardi, Angela Sara Cacciapuoti(参考訳) 多成分の絡み合いは量子インターネットの設計において重要な役割を担っている。 しかし、絡み合いベースの量子ネットワークでは、絡み合いリソースへのアクセスにおいて量子ノードを適切に処理し調整するための効果的な絡み合いアクセス制御(EAC)戦略が欠如しているため、鍵となる開きが生じる。 本稿では,マルチパーティント・エンタングルド・リソースにアクセスする際の競合問題を解決するために,量子遺伝的エンタングルメント・アクセス制御(EAC)を設計する。 提案された量子ジヌ EAC は以下のことができる。 i) 競合する資源へのアクセスにより付与されたノードのサブセットを適宜選択すること。 二 選択されたノードのアイデンティティのプライバシー及び匿名性を保持すること。 三 旧来のネットワークに絡み合ったアクセス制御によって生じるシグナルを委譲することを避けること。 また,提案EACにおけるノイズ効果の理論的解析を行った。 この理論的解析は、有意なパラメータを通してAECの複雑なノイズ効果を捉えることができる。

Multipartite entanglement plays a crucial role for the design of the Quantum Internet, due to its peculiarities with no classical counterpart. Yet, for entanglement-based quantum networks, a key open issue is constituted by the lack of an effective entanglement access control (EAC) strategy for properly handling and coordinating the quantum nodes in accessing the entangled resource. In this paper, we design a quantum-genuine entanglement access control (EAC) to solve the contention problem arising in accessing a multipartite entangled resource. The proposed quantum-genuine EAC is able to: i) fairly select a subset of nodes granted with the access to the contended resource; ii) preserve the privacy and anonymity of the identities of the selected nodes; iii) avoid to delegate the signaling arising with entanglement access control to the classical network. We also conduct a theoretical analysis of noise effects on the proposed EAC. This theoretical analysis is able to catch the complex noise effects on the EAC through meaningful parameters.
翻訳日:2023-05-03 14:55:38 公開日:2023-05-02
# セグメンテーションは、弱監視セマンティックセグメンテーションのための優れた擬似ラベル発電機

Segment Anything is A Good Pseudo-label Generator for Weakly Supervised Semantic Segmentation ( http://arxiv.org/abs/2305.01275v1 )

ライセンス: Link先を確認
Peng-Tao Jiang, Yuqi Yang(参考訳) 弱いラベルを持つ弱教師付きセマンティックセマンティックセマンティックセマンティクスは長寿命の不備問題である。 主流の手法は主に擬似ラベルの品質向上に重点を置いている。 本稿では,強力なクラスに依存しない大規模セグメンテーションモデルであるセグメンテーションから,マスクのプロンプトの可能性を探究する。 具体的には、異なる弱いラベルがセグメンテーションモデルのプロンプトとして使われ、正確なクラスマスクを生成する。 クラスマスクを使用して擬似ラベルを生成し、セグメンテーションネットワークをトレーニングする。 PASCAL VOC 2012データセットについて広範な実験を行った。 実験により、セグメンテーションは良い擬似ラベル生成器として機能できることが示される。 コードは公開される予定だ。

Weakly supervised semantic segmentation with weak labels is a long-lived ill-posed problem. Mainstream methods mainly focus on improving the quality of pseudo labels. In this report, we attempt to explore the potential of 'prompt to masks' from the powerful class-agnostic large segmentation model, segment-anything. Specifically, different weak labels are used as prompts to the segment-anything model, generating precise class masks. The class masks are utilized to generate pseudo labels to train the segmentation networks. We have conducted extensive experiments on PASCAL VOC 2012 dataset. Experiments demonstrate that segment-anything can serve as a good pseudo-label generator. The code will be made publicly available.
翻訳日:2023-05-03 14:55:13 公開日:2023-05-02
# 実および複素3量子状態の分類

Classification of real and complex 3-qutrit states ( http://arxiv.org/abs/2305.01270v1 )

ライセンス: Link先を確認
Sabino Di Trani, Willem A. de Graaf, Alessio Marrani(参考訳) 本稿では、F=C と F=R の空間 F^3\otimes F^3\otimes F^3 上の群 SL(3,F)^3 の軌道を分類する。 これは複素および実3量子状態の分類として知られている。 また,これらの分類が関連する物理理論の概要を示す。

In this paper we classify the orbits of the group SL(3,F)^3 on the space F^3\otimes F^3\otimes F^3 for F=C and F=R. This is known as the classification of complex and real 3-qutrit states. We also give an overview of physical theories where these classifications are relevant.
翻訳日:2023-05-03 14:55:03 公開日:2023-05-02
# LBlockとLiCiの量子回路実装と資源分析

Quantum Circuit Implementation and Resource Analysis of LBlock and LiCi ( http://arxiv.org/abs/2305.01269v1 )

ライセンス: Link先を確認
XiaoYu Jing, YanJu Li, GuangYue Zhao, Huiqin Xie(参考訳) グローバーのアルゴリズムにより、ブロック暗号の徹底的な探索攻撃は二次的なスピードアップを達成することができる。 グローバーを徹底的に探索し、必要な資源を正確に推定するためには、対象の暗号を量子回路として実装する必要がある。 近年,軽量暗号を実装した量子回路への関心が高まっている。 本稿では,軽量暗号LBlockとLiCiの量子実装と資源推定について述べる。 我々は、ゲート数、必要な量子ビット数、回路深さの量子回路実装を最適化し、projectq上の量子回路をシミュレートする。 さらに、量子実装に基づいて、Groverのアルゴリズムを用いてLBlockとLiCiの徹底的な鍵探索攻撃に必要なリソースを分析する。 最後に、LBlockとLiCiを実装するためのリソースを、他の軽量暗号と比較する。

Due to Grover's algorithm, any exhaustive search attack of block ciphers can achieve a quadratic speed-up. To implement Grover,s exhaustive search and accurately estimate the required resources, one needs to implement the target ciphers as quantum circuits. Recently, there has been increasing interest in quantum circuits implementing lightweight ciphers. In this paper we present the quantum implementations and resource estimates of the lightweight ciphers LBlock and LiCi. We optimize the quantum circuit implementations in the number of gates, required qubits and the circuit depth, and simulate the quantum circuits on ProjectQ. Furthermore, based on the quantum implementations, we analyze the resources required for exhaustive key search attacks of LBlock and LiCi with Grover's algorithm. Finally, we compare the resources for implementing LBlock and LiCi with those of other lightweight ciphers.
翻訳日:2023-05-03 14:54:57 公開日:2023-05-02
# DABS:フェデレートラーニングにおけるサーバにおけるデータ非依存のバックドア攻撃

DABS: Data-Agnostic Backdoor attack at the Server in Federated Learning ( http://arxiv.org/abs/2305.01267v1 )

ライセンス: Link先を確認
Wenqiang Sun, Sen Li, Yuchang Sun, Jun Zhang(参考訳) federated learning(fl)は、中央サーバの調整の下で分散デバイスからローカルモデルを集約することで、グローバルモデルをトレーニングしようとする。 しかし、多数の異種デバイスが存在するため、flは様々な攻撃、特にステルスなバックドア攻撃に対して脆弱である。 Backdoor攻撃は、ニューラルネットワークを騙して、特定のトリガーを注入し、元のトレーニングデータに対する正確な予測を保ちながら、ターゲットラベルにデータを誤分類することを目的としている。 既存の作業では、ローカルデータセットを変更してグローバルモデルを汚染しようとするクライアント側攻撃に焦点を当てている。 本研究では,サーバがグローバルモデルを直接変更して FL システムをバックドアする,FL の新たなアタックモデル,すなわち,サーバにおける Data-Agnostic Backdoor attack を提案する。 大規模なシミュレーション結果から, クリーンデータの正常な精度を維持しつつ, ベースライン法よりも高い攻撃成功率が得られることが示された。

Federated learning (FL) attempts to train a global model by aggregating local models from distributed devices under the coordination of a central server. However, the existence of a large number of heterogeneous devices makes FL vulnerable to various attacks, especially the stealthy backdoor attack. Backdoor attack aims to trick a neural network to misclassify data to a target label by injecting specific triggers while keeping correct predictions on original training data. Existing works focus on client-side attacks which try to poison the global model by modifying the local datasets. In this work, we propose a new attack model for FL, namely Data-Agnostic Backdoor attack at the Server (DABS), where the server directly modifies the global model to backdoor an FL system. Extensive simulation results show that this attack scheme achieves a higher attack success rate compared with baseline methods while maintaining normal accuracy on the clean data.
翻訳日:2023-05-03 14:54:47 公開日:2023-05-02
# マルチタスク多行動MAPエリート

Multi-Task Multi-Behavior MAP-Elites ( http://arxiv.org/abs/2305.01264v1 )

ライセンス: Link先を確認
Anne and Mouret(参考訳) 本稿では,MAP-Elitesの変種であるMulti-Task Multi-Behavior MAP-Elitesを提案する。 多様性探索のためのMAP-Elitesとタスク間の類似性を活用するためのマルチタスクMAP-Elitesを組み合わせる。 ヒューマノイドなフォールトリカバリタスクの3つ以上のベースラインを実行し、より多くのタスクを解決し、解決されたタスク毎に2倍のソリューションを見つける。

We propose Multi-Task Multi-Behavior MAP-Elites, a variant of MAP-Elites that finds a large number of high-quality solutions for a large set of tasks (optimization problems from a given family). It combines the original MAP-Elites for the search for diversity and Multi-Task MAP-Elites for leveraging similarity between tasks. It performs better than three baselines on a humanoid fault-recovery set of tasks, solving more tasks and finding twice as many solutions per solved task.
翻訳日:2023-05-03 14:54:31 公開日:2023-05-02
# Sim2realとDigital Twinsの自動運転に関する調査

Sim2real and Digital Twins in Autonomous Driving: A Survey ( http://arxiv.org/abs/2305.01263v1 )

ライセンス: Link先を確認
Xuemin Hu, Shen Li, Tingyu Huang, Bo Tang, Long Chen(参考訳) 安全とコストは、自動運転技術の開発において重要な2つの問題である。 学術研究から自動運転車の商用利用まで、十分なシミュレーションと実世界のテストが必要となる。 一般に,シミュレーション環境における大規模なテストを実施し,学習した運転知識を現実世界に伝達することにより,シミュレーションで学んだ運転知識を現実に適応させる方法が重要となる。 しかし, 仮想シミュレーションの世界は, 照明, テクスチャ, 車両力学, エージェントの挙動など, 現実世界とは異なっており, 仮想世界と現実世界のギャップを埋めることが困難である。 このギャップは一般に現実ギャップ(real reality gap, rg)と呼ばれる。 近年,シミュレーションから現実への知識伝達(sim2real)とデジタル双生児の学習(DT)の2つのカテゴリに大きく分類できる,現実ギャップ問題に対処するための様々なアプローチが研究されている。 本稿では, sim2real と DTs 技術によるソリューションについて考察し, 自動運転分野における重要な応用とイノベーションを概観する。 一方,アルゴリズム,モデル,シミュレータの視点から最新技術を紹介し,sim2real から DT までの開発プロセスについて詳しく述べる。 また、このプレゼンテーションでは、自動運転におけるsim2realとDTの開発がもたらす影響についても説明している。

Safety and cost are two important concerns for the development of autonomous driving technologies. From the academic research to commercial applications of autonomous driving vehicles, sufficient simulation and real world testing are required. In general, a large scale of testing in simulation environment is conducted and then the learned driving knowledge is transferred to the real world, so how to adapt driving knowledge learned in simulation to reality becomes a critical issue. However, the virtual simulation world differs from the real world in many aspects such as lighting, textures, vehicle dynamics, and agents' behaviors, etc., which makes it difficult to bridge the gap between the virtual and real worlds. This gap is commonly referred to as the reality gap (RG). In recent years, researchers have explored various approaches to address the reality gap issue, which can be broadly classified into two categories: transferring knowledge from simulation to reality (sim2real) and learning in digital twins (DTs). In this paper, we consider the solutions through the sim2real and DTs technologies, and review important applications and innovations in the field of autonomous driving. Meanwhile, we show the state-of-the-arts from the views of algorithms, models, and simulators, and elaborate the development process from sim2real to DTs. The presentation also illustrates the far-reaching effects of the development of sim2real and DTs in autonomous driving.
翻訳日:2023-05-03 14:54:20 公開日:2023-05-02
# DreamPaint:3DモデリングなしでバーチャルトライオンにEコマースアイテムを塗る

DreamPaint: Few-Shot Inpainting of E-Commerce Items for Virtual Try-On without 3D Modeling ( http://arxiv.org/abs/2305.01257v1 )

ライセンス: Link先を確認
Mehmet Saygin Seyfioglu, Karim Bouyarmane, Suren Kumar, Amir Tavanaei, Ismail B. Tutar(参考訳) ユーザが提供するコンテキストイメージに対して,任意のeコマース製品をインテリジェントにペイントするフレームワークdreampaintを紹介します。 コンテキスト画像は、例えば、電子商取引カタログから服の仮想試着用ユーザ自身の画像、その部屋にある電子商取引カタログから家具の仮想試着用ユーザ部屋画像などである。 従来の拡張現実(ar)ベースの仮想トライオン方式とは対照的に、dreampaintはeコマース製品やユーザーコンテキストの3dモデリングを使わない。 代わりに、製品カタログデータベースで利用可能な製品の2Dイメージを直接使用し、例えばユーザーの携帯電話カメラから撮影した2D画像を使用する。 この方法は、アイテムごとのカタログ画像のマスク付き潜伏子(例:Masked DreamBooth)で事前訓練された拡散モデルを調整し、その重みを、文脈画像の特徴を保存することができる事前訓練された塗装モジュールにロードする。 dreampaintは、欠けている部分(製品/コンテキスト)を記述するのにテキストガイダンスを必要とせずに、製品イメージとコンテキスト(環境/ユーザ)イメージの両方を保存できる。 dreampaintはまた、たとえそのアングルがこれまで製品の参照2dイメージに認識されていなかったとしても、ユーザーのコンテキストで所望の場所に配置する製品の最適な3d角度をインテリジェントに推測することができる。 我々は,テキスト誘導と画像誘導の両方の塗装モジュールと比較し,DreamPaintが主観的ヒト研究と定量的測定の両方において優れた性能を発揮することを示す。

We introduce DreamPaint, a framework to intelligently inpaint any e-commerce product on any user-provided context image. The context image can be, for example, the user's own image for virtual try-on of clothes from the e-commerce catalog on themselves, the user's room image for virtual try-on of a piece of furniture from the e-commerce catalog in their room, etc. As opposed to previous augmented-reality (AR)-based virtual try-on methods, DreamPaint does not use, nor does it require, 3D modeling of neither the e-commerce product nor the user context. Instead, it directly uses 2D images of the product as available in product catalog database, and a 2D picture of the context, for example taken from the user's phone camera. The method relies on few-shot fine tuning a pre-trained diffusion model with the masked latents (e.g., Masked DreamBooth) of the catalog images per item, whose weights are then loaded on a pre-trained inpainting module that is capable of preserving the characteristics of the context image. DreamPaint allows to preserve both the product image and the context (environment/user) image without requiring text guidance to describe the missing part (product/context). DreamPaint also allows to intelligently infer the best 3D angle of the product to place at the desired location on the user context, even if that angle was previously unseen in the product's reference 2D images. We compare our results against both text-guided and image-guided inpainting modules and show that DreamPaint yields superior performance in both subjective human study and quantitative metrics.
翻訳日:2023-05-03 14:53:58 公開日:2023-05-02
# RT-K-Net:リアルタイムパノプティクスセグメンテーションのためのK-Netの再検討

RT-K-Net: Revisiting K-Net for Real-Time Panoptic Segmentation ( http://arxiv.org/abs/2305.01255v1 )

ライセンス: Link先を確認
Markus Sch\"on, Michael Buchholz, Klaus Dietmayer(参考訳) panoptic segmentationは、セマンティックセグメンテーションとインスタンスセグメンテーションのタスクを組み合わせた、最も難しいシーン解析タスクの1つです。 多くの進展が見られたが、パン光学セグメンテーション法のリアルタイム適用に焦点を当てた研究はほとんどない。 本稿では,最近導入されたK-Netアーキテクチャを再考する。 我々は,遅延を大幅に削減し,性能を向上させるアーキテクチャ,トレーニング,推論手順の大幅な変更を提案する。 得られたRT-K-Netは、Cityscapesデータセット上でリアルタイムのパノプティクスセグメンテーション手法のための新しい最先端のパフォーマンスを設定し、挑戦的なMapillary Vistasデータセットで有望な結果を示す。 都市景観では、rt-k-netは60.2 %のpqに達し、titan rtx gpu上のフル解像度1024x2048ピクセル画像の平均推定時間は32msである。 Mapillary Vistasでは、RT-K-Netが平均推算時間69msで33.2%のPQに達している。

Panoptic segmentation is one of the most challenging scene parsing tasks, combining the tasks of semantic segmentation and instance segmentation. While much progress has been made, few works focus on the real-time application of panoptic segmentation methods. In this paper, we revisit the recently introduced K-Net architecture. We propose vital changes to the architecture, training, and inference procedure, which massively decrease latency and improve performance. Our resulting RT-K-Net sets a new state-of-the-art performance for real-time panoptic segmentation methods on the Cityscapes dataset and shows promising results on the challenging Mapillary Vistas dataset. On Cityscapes, RT-K-Net reaches 60.2 % PQ with an average inference time of 32 ms for full resolution 1024x2048 pixel images on a single Titan RTX GPU. On Mapillary Vistas, RT-K-Net reaches 33.2 % PQ with an average inference time of 69 ms. Source code is available at https://github.com/markusschoen/RT-K-Net.
翻訳日:2023-05-03 14:53:26 公開日:2023-05-02
# オプションフレームワークに基づくマルチモード探索による自律的非モノリシックエージェント

An Autonomous Non-monolithic Agent with Multi-mode Exploration based on Options Framework ( http://arxiv.org/abs/2305.01322v1 )

ライセンス: Link先を確認
JaeYoon Kim, Junyu Xuan, Christy Liang, Farookh Hussain(参考訳) 強化学習(RL)に関するほとんどの調査研究は、「探索の方法」である「探索の方法」に注意を払っている。 その他の探査研究である'when to exploration'は、rl探査研究の主要な焦点とはなっていない。 通常のRL探索動作におけるモノリシックな探索の‘when’という問題は、エージェントのエクスプロレーションアクションに探索アクションを結び付ける。 近年、人間や動物のモード切り替えによる探索行動を調べる非石器探査研究が出現している。 研究の最終的な目的は、エージェントがいつ自律的に探索するか、活用するかを判断できるようにすることです。 オプションフレームワークにおける非モノリシックな振る舞いの自律的マルチモード探索の初期研究について述べる。 本手法は, 既往の非モノリシック探査法に対して, 比較実験により高い性能を示す。

Most exploration research on reinforcement learning (RL) has paid attention to `the way of exploration', which is `how to explore'. The other exploration research, `when to explore', has not been the main focus of RL exploration research. \textcolor{black}{The issue of `when' of a monolithic exploration in the usual RL exploration behaviour binds an exploratory action to an exploitational action of an agent. Recently, a non-monolithic exploration research has emerged to examine the mode-switching exploration behaviour of humans and animals.} The ultimate purpose of our research is to enable an agent to decide when to explore or exploit autonomously. We describe the initial research of an autonomous multi-mode exploration of non-monolithic behaviour in an options framework. The higher performance of our method is shown against the existing non-monolithic exploration method through comparative experimental results.
翻訳日:2023-05-03 14:48:01 公開日:2023-05-02
# 長期リズミカルビデオサウンドトラック

Long-Term Rhythmic Video Soundtracker ( http://arxiv.org/abs/2305.01319v1 )

ライセンス: Link先を確認
Jiashuo Yu, Yaohui Wang, Xinyuan Chen, Xiao Sun, Yu Qiao(参考訳) リズミカルな視覚手がかりと同期して音楽のサウンドトラックを生成する問題を考える。 既存の作品の多くは予め定義された音楽表現に依存しており、生成的柔軟性と複雑さの無能さに繋がる。 ビデオコンディション波形を直接生成する他の方法は、限られたシナリオ、短い長さ、不安定な生成品質に苦しむ。 そこで本研究では,長期条件波形を合成する新しい枠組みであるlorisを提案する。 具体的には、波形合成を行うための遅延条件拡散確率モデルから構成する。 さらに,長期化を考慮した時系列情報を考慮したコンテキスト対応コンディショニングエンコーダを提案する。 特に,ダンスからフロアエクササイズやフィギュアスケートなど,複数のスポーツシナリオへのモデルの適用性を拡張した。 包括的評価を行うため,前処理したデータセット,評価指標の改善,堅牢な生成ベースラインを含むリズミカルビデオサウンドトラックのベンチマークを構築した。 広汎な実験により,我々のモデルは,最先端の音楽的品質とリズム対応を備えた長期のサウンドトラックを生成することがわかった。 コードは \url{https://github.com/OpenGVLab/LORIS} で公開されている。

We consider the problem of generating musical soundtracks in sync with rhythmic visual cues. Most existing works rely on pre-defined music representations, leading to the incompetence of generative flexibility and complexity. Other methods directly generating video-conditioned waveforms suffer from limited scenarios, short lengths, and unstable generation quality. To this end, we present Long-Term Rhythmic Video Soundtracker (LORIS), a novel framework to synthesize long-term conditional waveforms. Specifically, our framework consists of a latent conditional diffusion probabilistic model to perform waveform synthesis. Furthermore, a series of context-aware conditioning encoders are proposed to take temporal information into consideration for a long-term generation. Notably, we extend our model's applicability from dances to multiple sports scenarios such as floor exercise and figure skating. To perform comprehensive evaluations, we establish a benchmark for rhythmic video soundtracks including the pre-processed dataset, improved evaluation metrics, and robust generative baselines. Extensive experiments show that our model generates long-term soundtracks with state-of-the-art musical quality and rhythmic correspondence. Codes are available at \url{https://github.com/OpenGVLab/LORIS}.
翻訳日:2023-05-03 14:47:49 公開日:2023-05-02
# 幾何学的前置型深点雲幾何圧縮

Geometric Prior Based Deep Human Point Cloud Geometry Compression ( http://arxiv.org/abs/2305.01309v1 )

ライセンス: Link先を確認
Xinju Wu, Pingping Zhang, Meng Wang, Peilin Chen, Shiqi Wang, Sam Kwong(参考訳) デジタルアバターの出現は、現実的で複雑な詳細を持つ人点雲の需要を劇的に増加させてきた。 このようなデータの圧縮は、数百万のポイントからなる圧倒的なデータ量で困難になる。 そこで我々は,幾何冗長性による点雲の除去に先立つ人間の幾何学的効果を活用し,圧縮性能を大きく向上させる。 より具体的には、前者は幾何学的初期化としての位相的制約を提供し、数ビットで表現できるコンパクトパラメータ集合による適応調整を可能にする。 したがって,高分解能ヒト点雲を幾何学的先行と構造的偏差の組み合わせとして考えることができる。 プリエントはまずアライメントされたポイントクラウドで導出され、その後、機能の違いはコンパクトな潜在コードに圧縮される。 提案フレームワークは,既存の学習ベースのポイントクラウド圧縮手法を用いて,プレイアンドプラグ方式で動作可能である。 広範な実験結果から,本手法は品質を損なうことなく圧縮性能を大幅に向上させ,様々なアプリケーションでその可能性を実証する。

The emergence of digital avatars has raised an exponential increase in the demand for human point clouds with realistic and intricate details. The compression of such data becomes challenging with overwhelming data amounts comprising millions of points. Herein, we leverage the human geometric prior in geometry redundancy removal of point clouds, greatly promoting the compression performance. More specifically, the prior provides topological constraints as geometry initialization, allowing adaptive adjustments with a compact parameter set that could be represented with only a few bits. Therefore, we can envisage high-resolution human point clouds as a combination of geometric priors and structural deviations. The priors could first be derived with an aligned point cloud, and subsequently the difference of features is compressed into a compact latent code. The proposed framework can operate in a play-and-plug fashion with existing learning based point cloud compression methods. Extensive experimental results show that our approach significantly improves the compression performance without deteriorating the quality, demonstrating its promise in a variety of applications.
翻訳日:2023-05-03 14:47:31 公開日:2023-05-02
# MacWilliams Identitiesによる量子誤り訂正符号の性能解析

Performance Analysis of Quantum Error-Correcting Codes via MacWilliams Identities ( http://arxiv.org/abs/2305.01301v1 )

ライセンス: Link先を確認
Diego Forlivesi, Lorenzo Valentini, Marco Chiani(参考訳) 量子情報技術の効率的な実装における主な課題の1つは、量子ノイズに対処する方法である。 したがって、量子誤り訂正符号は量子コンピューティングと量子インターネットへの進化の第一の関心である。 本研究では,非対称量子チャネルと対称量子チャネルの両方において,実用実装において最も重要なクラスの一つである安定化符号の性能を解析する。 この目的のために、まず量子MacWilliams同定に基づく安定化符号の検出不能な誤りに対する重み付き列挙子(WE)を導出する。 次に、weは、最大確率復号または表面符号の場合、最小重み完全マッチング(mwpm)復号の下で量子符号の誤り率を評価するために使用される。 以上の結果から,shor符号,steane符号,および表面符号を含む汎用安定化符号の性能に関する解析式が得られた。 例えば、物理的エラー率$\rho \to 0$の非分極チャネルでは、論理誤差率$\rho_\mathrm{L}$は漸近的に$\rho_\mathrm{L} \to 16.2 \rho^2$ for the $[9,1,3]]$ Shor code, $\rho_\mathrm{L} \to 16.38 \rho^2$ for the $[[7,1,3]$ Steane code, $\rho_\mathrm{L} \to 18.74 \rho^2$ for the $[13,1,3]$, $\rho_\mathrm{L} \to 16.24,3]$$$ $[5,41]$である。

One of the main challenges for an efficient implementation of quantum information technologies is how to counteract quantum noise. Quantum error correcting codes are therefore of primary interest for the evolution towards quantum computing and quantum Internet. We analyze the performance of stabilizer codes, one of the most important classes for practical implementations, on both symmetric and asymmetric quantum channels. To this aim, we first derive the weight enumerator (WE) for the undetectable errors of stabilizer codes based on the quantum MacWilliams identities. The WE is then used to evaluate the error rate of quantum codes under maximum likelihood decoding or, in the case of surface codes, under minimum weight perfect matching (MWPM) decoding. Our findings lead to analytical formulas for the performance of generic stabilizer codes, including the Shor code, the Steane code, as well as surface codes. For example, on a depolarizing channel with physical error rate $\rho \to 0$ it is found that the logical error rate $\rho_\mathrm{L}$ is asymptotically $\rho_\mathrm{L} \to 16.2 \rho^2$ for the $[[9,1,3]]$ Shor code, $\rho_\mathrm{L} \to 16.38 \rho^2$ for the $[[7,1,3]]$ Steane code, $\rho_\mathrm{L} \to 18.74 \rho^2$ for the $[[13,1,3]]$ surface code, and $\rho_\mathrm{L} \to 149.24 \rho^3$ for the $[[41,1,5]]$ surface code.
翻訳日:2023-05-03 14:47:16 公開日:2023-05-02
# 強化学習による風力発電機のヨー制御アルゴリズムの改良

An Improved Yaw Control Algorithm for Wind Turbines via Reinforcement Learning ( http://arxiv.org/abs/2305.01299v1 )

ライセンス: Link先を確認
Alban Puech, Jesse Read(参考訳) 風向と風力タービンのナセル位置の差として測定されたヨーの誤用は、タービンの出力、安全性、寿命、風力公園全体に影響を及ぼす。 強化学習を用いて,yawの誤用を最小限に抑えつつ,yaw資源を最適再配置し,高速セグメントを優先し,yaw資源を最小化するためのyaw制御エージェントを開発した。 そこで我々は,電力生産に比例する)ヨーアライメントとヨーアライメントのトレードオフのための報奨基準を慎重に作成,検証し,Repower MM82 2MWタービンから得られた実世界の風速に基づいて,新しいシミュレータ(環境)を作成した。 結果として得られたアルゴリズムは従来のアクティブヨー制御アルゴリズムと比較して2つのシミュレーションで5.5%と11.2%のミスアライメントを減らした。 平均純エネルギー利得は従来のyaw制御アルゴリズムと比較して0.31%と0.33%であった。 単一の2mwタービンでは、年間1.5k-2.5kユーロの利益となり、ウィンドパーク全体の利益は極めて大きい。

Yaw misalignment, measured as the difference between the wind direction and the nacelle position of a wind turbine, has consequences on the power output, the safety and the lifetime of the turbine and its wind park as a whole. We use reinforcement learning to develop a yaw control agent to minimise yaw misalignment and optimally reallocate yaw resources, prioritising high-speed segments, while keeping yaw usage low. To achieve this, we carefully crafted and tested the reward metric to trade-off yaw usage versus yaw alignment (as proportional to power production), and created a novel simulator (environment) based on real-world wind logs obtained from a REpower MM82 2MW turbine. The resulting algorithm decreased the yaw misalignment by 5.5% and 11.2% on two simulations of 2.7 hours each, compared to the conventional active yaw control algorithm. The average net energy gain obtained was 0.31% and 0.33% respectively, compared to the traditional yaw control algorithm. On a single 2MW turbine, this amounts to a 1.5k-2.5k euros annual gain, which sums up to very significant profits over an entire wind park.
翻訳日:2023-05-03 14:46:21 公開日:2023-05-02
# ウェーブレット散乱ネットワークを用いた新生児顔形態検出

Differential Newborn Face Morphing Attack Detection using Wavelet Scatter Network ( http://arxiv.org/abs/2305.01294v1 )

ライセンス: Link先を確認
Raghavendra Ramachandra, Sushma Venkatesh, Guoqiang Li, Kiran Raja(参考訳) 顔認識システム(FRS)は新生児の画像に弱いことが示されている。 新生児の顔画像から生じるモーフィング攻撃の検出は、セキュリティと社会の両方において、望ましくない結果を避けるために重要である。 本稿では,Wavelet Scattering Network (WSN) を用いた新規なモーフィング画像検出のための参照ベース・ディファレンシャルモーフィング検出(MAD)手法を提案する。 我々は250$\times$ 250の2層wsnと層ごとに6つのウェーブレットを持つ2層wsnを提案し、577のパスを生成する。 提案手法は,42人の新生児の顔画像を用いて構築した852ボナファイド画像と2460モルファス画像を用いて検証した。 その結果,既存のd-mad法に比べて検出精度が10%以上向上した。

Face Recognition System (FRS) are shown to be vulnerable to morphed images of newborns. Detecting morphing attacks stemming from face images of newborn is important to avoid unwanted consequences, both for security and society. In this paper, we present a new reference-based/Differential Morphing Attack Detection (MAD) method to detect newborn morphing images using Wavelet Scattering Network (WSN). We propose a two-layer WSN with 250 $\times$ 250 pixels and six rotations of wavelets per layer, resulting in 577 paths. The proposed approach is validated on a dataset of 852 bona fide images and 2460 morphing images constructed using face images of 42 unique newborns. The obtained results indicate a gain of over 10\% in detection accuracy over other existing D-MAD techniques.
翻訳日:2023-05-03 14:45:59 公開日:2023-05-02
# 2体視点によるフェルミオン多体系の断熱的基底状態形成

Adiabatic ground state preparation of fermionic many-body systems from a two-body perspective ( http://arxiv.org/abs/2305.01284v1 )

ライセンス: Link先を確認
Dyon van Vreumingen, Kareljan Schoutens(参考訳) フェルミオン多体ハミルトニアンの基底状態を作成するためのよく知られた方法は、特定の時間依存ハミルトニアンの下の近似基底状態に向かって、容易に準備できる状態が時間発展する断熱状態準備である。 しかし、進化においてどの経路を取るかは不明であり、最も一般的な方法である直接線形補間は最適ではないかもしれない。 本研究では,最終ハミルトニアンと初期ハミルトニアン(残留ハミルトニアン)の差の2番目の量子化表現における係数テンソルの固有化に基づく新しいタイプの断熱経路を探索する。 このテンソルと残留ハミルトニアンの2つの粒子の部分空間への射影の間に等価性があるので、このアプローチは本質的には2体スペクトル分解である。 一般のハミルトニアンにとって、断熱時間の複雑さは、一体モードが$L$と最小のギャップが$\Delta$の個数で上限づけられる可能性があることを示す。 我々の発見は、複雑さは主に2体状態のペアリングの程度によって決定されるということである。 その結果、2体の固有状態が異なるフェルミオン対の均一な重ね合わせである系は最大複雑性を示す傾向にあり、直接補間では$O(L^4/\Delta^3)$、パラメータ空間ではハイパーキューブの角に沿った進化では$O(L^6/\Delta^3)$となる。 本手法の有用性はフェルミ・ハバードモデルを含むいくつかの例を通して示され、対称性により直接補間においてレベル交差が発生する。 本手法は, 残留ハミルトニアンを分解し, 直接経路から逸脱させることにより, 関連する対称性を適切に破壊し, 水平交差を回避し, 断熱通路を可能にすることを示す。

A well-known method to prepare ground states of fermionic many-body hamiltonians is adiabatic state preparation, in which an easy to prepare state is time-evolved towards an approximate ground state under a specific time-dependent hamiltonian. However, which path to take in the evolution is often unclear, and a direct linear interpolation, which is the most common method, may not be optimal. In this work, we explore new types of adiabatic paths based on an eigendecomposition of the coefficient tensor in the second quantised representation of the difference between the final and initial hamiltonian (the residual hamiltonian). Since there is an equivalence between this tensor and a projection of the residual hamiltonian onto the subspace of two particles, this approach is essentially a two-body spectral decomposition. We show how for general hamiltonians, the adiabatic time complexity may be upper bounded in terms of the number of one-body modes $L$ and a minimal gap $\Delta$ along the path. Our finding is that the complexity is determined primarily by the degree of pairing in the two-body states. As a result, systems whose two-body eigenstates are uniform superpositions of distinct fermion pairs tend to exhibit maximal complexity, which scales as $O(L^4/\Delta^3)$ in direct interpolation and $O(L^6/\Delta^3)$ in an evolution that follows a path along the corners of a hypercube in parameter space. The usefulness of our method is demonstrated through a few examples involving Fermi-Hubbard models where, due to symmetries, level crossings occur in direct interpolation. We show that our method of decomposing the residual hamiltonian and thereby deviating from a direct path appropriately breaks the relevant symmetries, thus avoiding level crossings and enabling an adiabatic passage.
翻訳日:2023-05-03 14:45:46 公開日:2023-05-02
# アグリゲーションによる教師なしドメイン適応におけるパラメータ選択問題に対処する

Addressing Parameter Choice Issues in Unsupervised Domain Adaptation by Aggregation ( http://arxiv.org/abs/2305.01281v1 )

ライセンス: Link先を確認
Marius-Constantin Dinu, Markus Holzleitner, Maximilian Beck, Hoan Duc Nguyen, Andrea Huber, Hamid Eghbal-zadeh, Bernhard A. Moser, Sergei Pereverzyev, Sepp Hochreiter, Werner Zellinger(参考訳) 本研究では,ソース領域のラベル付きデータと対象領域のラベル付きデータを用いて,異なる入力分布から抽出した教師なし領域適応におけるアルゴリズムハイパーパラメータの選択の問題について検討する。 我々は、異なるハイパーパラメータを用いて複数のモデルを計算し、その後にモデルの線形集計を計算する戦略に従う。 この戦略に従ういくつかのヒューリスティックが存在するが、ターゲットエラーの境界に関する徹底した理論に依存する方法がまだ欠けている。 本稿では,重み付き最小二乗をベクトル値関数,例えばディープニューラルネットワークへ拡張する手法を提案する。 提案アルゴリズムの目標誤差は未知の最適集計の誤差の2倍よりも漸近的に悪くないことを示す。 また,テキスト,画像,脳波,身体センサ信号,携帯電話からの信号など,いくつかのデータセットについて大規模に比較検討を行った。 提案手法は,全データセットにおける深層埋込検証(DEV)と重要重み付き検証(IWV)より優れており,理論的誤り保証を伴う教師なし領域適応におけるパラメータ選択問題の解法として,新たな最先端性能が確立されている。 さらに、少なくとも5つのデータセットでIWVとDEVを上回り、いくつかの競争的ヒューリスティックを研究している。 しかし,本手法は7つのデータセットのうち少なくとも5つのヒューリスティックに優れる。

We study the problem of choosing algorithm hyper-parameters in unsupervised domain adaptation, i.e., with labeled data in a source domain and unlabeled data in a target domain, drawn from a different input distribution. We follow the strategy to compute several models using different hyper-parameters, and, to subsequently compute a linear aggregation of the models. While several heuristics exist that follow this strategy, methods are still missing that rely on thorough theories for bounding the target error. In this turn, we propose a method that extends weighted least squares to vector-valued functions, e.g., deep neural networks. We show that the target error of the proposed algorithm is asymptotically not worse than twice the error of the unknown optimal aggregation. We also perform a large scale empirical comparative study on several datasets, including text, images, electroencephalogram, body sensor signals and signals from mobile phones. Our method outperforms deep embedded validation (DEV) and importance weighted validation (IWV) on all datasets, setting a new state-of-the-art performance for solving parameter choice issues in unsupervised domain adaptation with theoretical error guarantees. We further study several competitive heuristics, all outperforming IWV and DEV on at least five datasets. However, our method outperforms each heuristic on at least five of seven datasets.
翻訳日:2023-05-03 14:45:11 公開日:2023-05-02
# AxWin Transformer: Axial Windowsを使ったコンテキスト対応ビジョントランスフォーマーバックボーン

AxWin Transformer: A Context-Aware Vision Transformer Backbone with Axial Windows ( http://arxiv.org/abs/2305.01280v1 )

ライセンス: Link先を確認
Fangjian Lin, Yizhe Ma, Sitong Wu, Long Yu, Shengwei Tian(参考訳) 最近のtransformerは、強力なモデリング能力により、いくつかのビジョンタスクで優れたパフォーマンスを示している。 注意によって生じる二次的複雑さを減らすために、いくつかの優れた作業は局所的な領域への注意を制限したり、軸方向の相互作用を拡張したりする。 しかし、これらのメソはしばしば局所的情報と世界的情報の相互作用を欠き、粗い情報と細かい情報のバランスをとる。 この問題に対処するため,ローカルウィンドウと軸方向ビューの両方でコンテキスト情報をモデル化するAxWin Attentionを提案する。 axwinの注意に基づいて、分類と下流セグメンテーションと検出タスクの両方において最先端の手法に匹敵する、axwin transformerというコンテキスト認識視覚トランスフォーマーを開発した。

Recently Transformer has shown good performance in several vision tasks due to its powerful modeling capabilities. To reduce the quadratic complexity caused by the attention, some outstanding work restricts attention to local regions or extends axial interactions. However, these methos often lack the interaction of local and global information, balancing coarse and fine-grained information. To address this problem, we propose AxWin Attention, which models context information in both local windows and axial views. Based on the AxWin Attention, we develop a context-aware vision transformer backbone, named AxWin Transformer, which outperforming the state-of-the-art methods in both classification and downstream segmentation and detection tasks.
翻訳日:2023-05-03 14:44:46 公開日:2023-05-02
# 意味セグメンテーション選択のための視覚トランスフォーマー層の検討

Exploring vision transformer layer choosing for semantic segmentation ( http://arxiv.org/abs/2305.01279v1 )

ライセンス: Link先を確認
Fangjian Lin, Yizhe Ma, Shengwei Tian(参考訳) 広範囲にわたる研究はビジョントランスフォーマーの有効性を示した。 プレーンビジョントランスフォーマは固定層を選択するか、密集した予測タスクで高い性能を達成するための最後の層を選択することで、マルチスケールな特徴を得る傾向がある。 しかし、この選択はしばしば手動操作に基づいている。 そして、異なるサンプルは、しばしば異なる層(例えば、エッジ、構造、テクスチャ、詳細など)で異なる特徴を示す。 これにより、異なる層の特徴をフィルタリングする動的適応融合法を求める必要がある。 本稿では,従来のエンコーダやデコーダとは違って,適応型融合と特徴選択のためのネックネットワークViTControllerを設計する。 本手法の有効性を異なるデータセットとモデルで検証し,従来の最先端手法を上回った。 最後に,本手法をプラグインモジュールとして使用し,異なるネットワークに挿入する。

Extensive work has demonstrated the effectiveness of Vision Transformers. The plain Vision Transformer tends to obtain multi-scale features by selecting fixed layers, or the last layer of features aiming to achieve higher performance in dense prediction tasks. However, this selection is often based on manual operation. And different samples often exhibit different features at different layers (e.g., edge, structure, texture, detail, etc.). This requires us to seek a dynamic adaptive fusion method to filter different layer features. In this paper, unlike previous encoder and decoder work, we design a neck network for adaptive fusion and feature selection, called ViTController. We validate the effectiveness of our method on different datasets and models and surpass previous state-of-the-art methods. Finally, our method can also be used as a plug-in module and inserted into different networks.
翻訳日:2023-05-03 14:44:31 公開日:2023-05-02
# LogSpecT: 回復保証付き定常信号からのグラフ学習モデル

LogSpecT: Feasible Graph Learning Model from Stationary Signals with Recovery Guarantees ( http://arxiv.org/abs/2305.01379v1 )

ライセンス: Link先を確認
Shangyuan Liu, Linglingzhi Zhu, Anthony Man-Cho So(参考訳) 信号からのグラフ学習は、グラフ信号処理(GSP)のコアタスクである。 静止信号からグラフを学習する最も一般的なモデルの1つはSpecTである。 しかし、その実用的定式化 rSpecT はハイパーパラメータ選択に敏感であることが知られ、さらにさらに悪いことに、実現不可能に苦しむことが知られている。 本稿では,rSpecTの実用性を保証する最初の条件を与え,新しいモデル (LogSpecT) とその実用的定式化 (rLogSpecT) を設計し,この問題を克服する。 rSpecTとは対照的に、新しい実用モデルであるrLogSpecTは常に実現可能である。 さらに,epi-convergenceに関連する現代的な最適化ツールから派生したrlogspectのリカバリ保証を提供する。 これらのツールは独立した興味を持ち、様々な学習問題に重要なものとなる。 実際にrLogSpecTの利点を示すために,乗算器の線形化交互方向法(L-ADMM)に基づく高効率アルゴリズムを提案する。 L-ADMMのサブプロブレムは閉形式解を認め、収束は保証される。 合成ネットワークと実ネットワークの両方における広範な数値計算の結果は,提案手法の安定性と優越性を両立させ,様々なグラフ学習応用の可能性を強調している。

Graph learning from signals is a core task in Graph Signal Processing (GSP). One of the most commonly used models to learn graphs from stationary signals is SpecT. However, its practical formulation rSpecT is known to be sensitive to hyperparameter selection and, even worse, to suffer from infeasibility. In this paper, we give the first condition that guarantees the infeasibility of rSpecT and design a novel model (LogSpecT) and its practical formulation (rLogSpecT) to overcome this issue. Contrary to rSpecT, the novel practical model rLogSpecT is always feasible. Furthermore, we provide recovery guarantees of rLogSpecT, which are derived from modern optimization tools related to epi-convergence. These tools could be of independent interest and significant for various learning problems. To demonstrate the advantages of rLogSpecT in practice, a highly efficient algorithm based on the linearized alternating direction method of multipliers (L-ADMM) is proposed. The subproblems of L-ADMM admit closed-form solutions and the convergence is guaranteed. Extensive numerical results on both synthetic and real networks corroborate the stability and superiority of our proposed methods, underscoring their potential for various graph learning applications.
翻訳日:2023-05-03 14:37:24 公開日:2023-05-02
# ランダム関数の老化

Random Function Descent ( http://arxiv.org/abs/2305.01377v1 )

ライセンス: Link先を確認
Felix Benning and Leif D\"oring(参考訳) 勾配に基づく手法は機械学習ではユビキタスであるが、適切なステップサイズを選択するには「ハイパーパラメータチューニング」が必要となることが多い。 これは、Armijoの規則のようなバックトラック手順が、確率的な文脈では利用できないすべてのステップにおける品質評価に依存するためである。 最適化スキームはテイラー近似を用いて動機づけられるので、テイラー近似を条件付き期待値 (best $l^2$ estimator) に置き換え、「ランダム関数降下」(rfd) を提案する。 ベイズ最適化に共通する光仮定の下では、RFDは勾配降下と同一であるが、確率的文脈においても計算可能なステップサイズで証明する。 我々は合成ベンチマークで未修正のAdamを破った。 チューニングされたAdamのパフォーマンスギャップを埋めるため、チューニングされたAdamと競合するヒューリスティック拡張を提案する。

While gradient based methods are ubiquitous in machine learning, selecting the right step size often requires "hyperparameter tuning". This is because backtracking procedures like Armijo's rule depend on quality evaluations in every step, which are not available in a stochastic context. Since optimization schemes can be motivated using Taylor approximations, we replace the Taylor approximation with the conditional expectation (the best $L^2$ estimator) and propose "Random Function Descent" (RFD). Under light assumptions common in Bayesian optimization, we prove that RFD is identical to gradient descent, but with calculable step sizes, even in a stochastic context. We beat untuned Adam in synthetic benchmarks. To close the performance gap to tuned Adam, we propose a heuristic extension competitive with tuned Adam.
翻訳日:2023-05-03 14:37:05 公開日:2023-05-02
# トップ1分解特徴のヒュージングロジットによる対向移動性の向上

Boosting Adversarial Transferability via Fusing Logits of Top-1 Decomposed Feature ( http://arxiv.org/abs/2305.01361v1 )

ライセンス: Link先を確認
Juanjuan Weng and Zhiming Luo and Dazhen Lin and Shaozi Li and Zhun Zhong(参考訳) 近年の研究では、ディープニューラルネットワーク(DNN)は、高い転送性を持ち、未知のブラックボックスモデルを攻撃するために使用できる、敵のサンプルに対して非常に脆弱であることが示されている。 逆行性サンプルの伝達性を改善するために、中層におけるニューロンの活性化を阻害するいくつかの機能ベースの逆行性攻撃法が提案されている。 しかし、現在の最先端の機能ベースの攻撃方法は、一般的にニューロンの重要性を推定するために追加の計算コストを必要とする。 そこで本研究では,Singular Value Decomposition(SVD)に基づく特徴レベル攻撃手法を提案する。 我々のアプローチは、中間層の特徴から分解された大きな特異値に付随する固有ベクトルがより優れた一般化と注意特性を示すという発見に着想を得たものである。 具体的には、分解されたtop-1特異値関連特徴を保持して出力ロジットを演算し、元のロジットと組み合わせて逆摂動を最適化することで攻撃を行う。 提案手法の有効性を検証し, 各種ベースラインモデルや防衛戦略に対して, 敵のサンプルの転送可能性を大幅に向上させ, ソースコードは, href{https://anonymous.4open.science/r/SVD-SSA-13BF/README.md}で公開されている。

Recent research has shown that Deep Neural Networks (DNNs) are highly vulnerable to adversarial samples, which are highly transferable and can be used to attack other unknown black-box models. To improve the transferability of adversarial samples, several feature-based adversarial attack methods have been proposed to disrupt neuron activation in middle layers. However, current state-of-the-art feature-based attack methods typically require additional computation costs for estimating the importance of neurons. To address this challenge, we propose a Singular Value Decomposition (SVD)-based feature-level attack method. Our approach is inspired by the discovery that eigenvectors associated with the larger singular values decomposed from the middle layer features exhibit superior generalization and attention properties. Specifically, we conduct the attack by retaining the decomposed Top-1 singular value-associated feature for computing the output logits, which are then combined with the original logits to optimize adversarial perturbations. Our extensive experimental results verify the effectiveness of our proposed method, which significantly enhances the transferability of adversarial samples against various baseline models and defense strategies.The source code of this study is available at \href{https://anonymous.4open.science/r/SVD-SSA-13BF/README.md}.
翻訳日:2023-05-03 14:36:49 公開日:2023-05-02
# 異方性MRIのための自己監督型任意スケール超解像フレームワーク

Self-supervised arbitrary scale super-resolution framework for anisotropic MRI ( http://arxiv.org/abs/2305.01360v1 )

ライセンス: Link先を確認
Haonan Zhang, Yuhan Zhang, Qing Wu, Jiangjie Wu, Zhiming Zhen, Feng Shi, Jianmin Yuan, Hongjiang Wei, Chen Liu and Yuyao Zhang(参考訳) 本稿では,異方性MRI入力からの等方性磁気共鳴(MR)像を外部トレーニングデータに関係なく再構成する,効率的な自己教師型任意スケール超解像(SR)フレームワークを提案する。 提案フレームワークは、任意の画像解像度で、Wildの異方性MRボリュームを用いたトレーニングデータセットを構築する。 次に,2次元画像スライスにおけるSR問題として3次元ボリュームSRタスクを定式化する。 異方性体積の高分解能(HR)平面は、モデルトレーニングのためのHR-LRイメージペアを構築するために使用される。 さらに、2次元任意スケール画像SRモデルを実装するために、暗黙的ニューラルネットワーク(INR)ネットワークを適用する。 最後に、よく訓練されたモデルを用いて、異方性MRボリュームから抽出した2次元LR平面をHRビューにアップサンプリングする。 これにより、生成したHRスライスを積み重ねて平均化することにより、等方的MRボリュームを再構成することができる。 提案手法は,(1)任意の解像度の異方性mrボリュームのみを含み,実際のmr画像シナリオ(例えば,臨床脳画像取得)におけるモデル実用性が大幅に向上する。2) inrベースのsrモデルでは,任意の解像度の入力画像から任意のスケールのsrを許容し,モデルのトレーニング効率が大幅に向上する。 シミュレーションされた成人脳データセットと実際の7t脳データセットを用いて実験を行った。 その結果,本研究のフレームワークは,異方性MR画像SRタスクにおいて,よく知られた2つの自己教師モデルよりも優れていた。

In this paper, we propose an efficient self-supervised arbitrary-scale super-resolution (SR) framework to reconstruct isotropic magnetic resonance (MR) images from anisotropic MRI inputs without involving external training data. The proposed framework builds a training dataset using in-the-wild anisotropic MR volumes with arbitrary image resolution. We then formulate the 3D volume SR task as a SR problem for 2D image slices. The anisotropic volume's high-resolution (HR) plane is used to build the HR-LR image pairs for model training. We further adapt the implicit neural representation (INR) network to implement the 2D arbitrary-scale image SR model. Finally, we leverage the well-trained proposed model to up-sample the 2D LR plane extracted from the anisotropic MR volumes to their HR views. The isotropic MR volumes thus can be reconstructed by stacking and averaging the generated HR slices. Our proposed framework has two major advantages: (1) It only involves the arbitrary-resolution anisotropic MR volumes, which greatly improves the model practicality in real MR imaging scenarios (e.g., clinical brain image acquisition); (2) The INR-based SR model enables arbitrary-scale image SR from the arbitrary-resolution input image, which significantly improves model training efficiency. We perform experiments on a simulated public adult brain dataset and a real collected 7T brain dataset. The results indicate that our current framework greatly outperforms two well-known self-supervised models for anisotropic MR image SR tasks.
翻訳日:2023-05-03 14:36:28 公開日:2023-05-02
# 乱流高損失チャネル上の実験自由空間量子鍵分布

Experimental free-space quantum key distribution over a turbulent high-loss channel ( http://arxiv.org/abs/2305.01345v1 )

ライセンス: Link先を確認
Md Mehdi Hassan, Kazi Reaz, Adrien Green, Noah Crum, George Siopsis(参考訳) 自由空間量子暗号は、グローバルな量子インターネットシステムを実現する上で不可欠な役割を果たす。 ファイバベースの通信ネットワークと比較して、自由空間ネットワークは大気中の複屈折効果がないため、デコヒーレンスや光子損失が著しく少ない。 しかし、大気の乱流は透過率分布のずれに寄与し、ノイズやチャネル損失をもたらす。 低信号対雑音比を克服するいくつかの方法が提案されている。 アクティブリサーチは現在、高損失チャネルにおけるセキュアで実用的な量子通信の確立と、チャネル透過率が一定のしきい値を下回った場合のビット拒否戦略を実行することにより、セキュアな鍵レートの向上に重点を置いている。 AOM(Acousto-optical-modulator)を用いて大気の乱流をシミュレーションし,プレフィックスド・スレッショルド・リアルタイムセレクション(P-RTS)法を実装し,有限サイズデコイ状態のBennett-Brassard 1984(BB84)量子鍵分布(QKD)プロトコルを用いて19dBチャネル損失を行った。 より優れた光キャリブレーションと効率的な超伝導ナノワイヤ単光子検出器(SNSPD)により, 従来の研究を40dBチャネルの損失に拡張し, 高次乱流下でのシステムの透過率分布を特徴づけた。

Free-space quantum cryptography plays an integral role in realizing a global-scale quantum internet system. Compared to fiber-based communication networks, free-space networks experience significantly less decoherence and photon loss due to the absence of birefringent effects in the atmosphere. However, the atmospheric turbulence contributes to deviation in transmittance distribution, which introduces noise and channel loss. Several methods have been proposed to overcome the low signal-to-noise ratio. Active research is currently focused on establishing secure and practical quantum communication in a high-loss channel, and enhancing the secure key rate by implementing bit rejection strategies when the channel transmittance drops below a certain threshold. By simulating the atmospheric turbulence using an acousto-optical-modulator (AOM) and implementing the prefixed-threshold real-time selection (P-RTS) method, our group performed finite-size decoy-state Bennett-Brassard 1984 (BB84) quantum key distribution (QKD) protocol for 19 dB channel loss. With better optical calibration and efficient superconducting nano-wire single photon detector (SNSPD), we have extended our previous work to 40 dB channel loss characterizing the transmittance distribution of our system under upper moderate turbulence conditions.
翻訳日:2023-05-03 14:36:00 公開日:2023-05-02
# 出力誤差雑音モデルを用いたハミルトニアンニューラルネットワークを用いた物理インフォームド学習

Physics-Informed Learning Using Hamiltonian Neural Networks with Output Error Noise Models ( http://arxiv.org/abs/2305.01338v1 )

ライセンス: Link先を確認
Sarvin Moradi, Nick Jaensson, Roland T\'oth, Maarten Schoukens(参考訳) 物理システムのデータ駆動モデルに解釈と信頼性を持たせるためには,事前の物理知識をモデリングフレームワークに組み込むことが不可欠である。 ハミルトンニューラルネットワーク(hnns)は、ディープラーニングにおいてハミルトン理論を実装し、自律エネルギー保存システムのモデリングのための包括的なフレームワークを形成する。 データから幅広い物理系の挙動を推定するのに適しているにもかかわらず、古典的なHNNは入力のないシステムに限られており、利用可能な状態の微分に関するノイズレス状態の測定と情報を必要とする。 これらの課題に対処するため,本研究では,入力および雑音状態測定による物理システムのモデリングに対処する出力誤差ハミルトンニューラルネットワーク(OE-HNN)モデルを提案する。 さらに、状態誘導体を知る必要はない。 代わりに、OE-HNNは、トレーニングプロセスに埋め込まれたODE-ソルバを使用して、ノイズの多い状態測定からダイナミクスを学習する。 さらに、一般化ハミルトニアン理論に基づくHNNの拡張により、工学的応用において重要な外部入力をフレームワークに組み込むことができる。 提案するoe-hnnが従来のhnnよりも優れたモデリング性能をもたらすことをシミュレーション例で示す。

In order to make data-driven models of physical systems interpretable and reliable, it is essential to include prior physical knowledge in the modeling framework. Hamiltonian Neural Networks (HNNs) implement Hamiltonian theory in deep learning and form a comprehensive framework for modeling autonomous energy-conservative systems. Despite being suitable to estimate a wide range of physical system behavior from data, classical HNNs are restricted to systems without inputs and require noiseless state measurements and information on the derivative of the state to be available. To address these challenges, this paper introduces an Output Error Hamiltonian Neural Network (OE-HNN) modeling approach to address the modeling of physical systems with inputs and noisy state measurements. Furthermore, it does not require the state derivatives to be known. Instead, the OE-HNN utilizes an ODE-solver embedded in the training process, which enables the OE-HNN to learn the dynamics from noisy state measurements. In addition, extending HNNs based on the generalized Hamiltonian theory enables to include external inputs into the framework which are important for engineering applications. We demonstrate via simulation examples that the proposed OE-HNNs results in superior modeling performance compared to classical HNNs.
翻訳日:2023-05-03 14:35:36 公開日:2023-05-02
# 動的制御マッチングを用いた大規模並列適応テストの検証

Validation of massively-parallel adaptive testing using dynamic control matching ( http://arxiv.org/abs/2305.01334v1 )

ライセンス: Link先を確認
Schaun Wheeler(参考訳) A/Bテストはマーケティング最適化において広く使われているパラダイムであり、因果関係の特定を約束し、ほとんどのメッセージング配信ソフトウェアプラットフォームですぐに実装されるためである。 しかし、現代のビジネスでは、しばしば同時に並行して多数のa/b/nテストを実行し、多くのコンテンツのバリエーションを同じメッセージにパッケージする。 多くのチームが同時にテストした結果、あるいは、以前の結果に基づいてテストとテスト条件の割り当てを継続的に適用するより洗練された強化学習(RL)アプローチの一部として、動的並列テストは従来のA/Bテストと同じように評価できない。 本稿では, 連続的なテスト適応条件下での各種試験の因果効果を, 一致した合成制御群を用いて解消する手法を提案する。

A/B testing is a widely-used paradigm within marketing optimization because it promises identification of causal effects and because it is implemented out of the box in most messaging delivery software platforms. Modern businesses, however, often run many A/B/n tests at the same time and in parallel, and package many content variations into the same messages, not all of which are part of an explicit test. Whether as the result of many teams testing at the same time, or as part of a more sophisticated reinforcement learning (RL) approach that continuously adapts tests and test condition assignment based on previous results, dynamic parallel testing cannot be evaluated the same way traditional A/B tests are evaluated. This paper presents a method for disentangling the causal effects of the various tests under conditions of continuous test adaptation, using a matched-synthetic control group that adapts alongside the tests.
翻訳日:2023-05-03 14:35:15 公開日:2023-05-02
# 確率制約付き投影不要オンライン凸最適化

Projection-Free Online Convex Optimization with Stochastic Constraints ( http://arxiv.org/abs/2305.01333v1 )

ライセンス: Link先を確認
Duksang Lee, Nam Ho-Nguyen, Dabeen Lee(参考訳) 本稿では,確率制約付きオンライン凸最適化のためのプロジェクションフリーアルゴリズムを提案する。 オンライン凸最適化のために開発されたプロジェクションフリーのアルゴリズムを,長期的制約なく利用することができる。 この一般的なテンプレートを用いて、様々な設定に対するサブ線形後悔と制約違反境界を推定する。 さらに、損失関数と制約関数が滑らかな場合には、$O(\sqrt{T})$ regret および $O(T^{3/4})$ constraint violations を達成する原始双対条件勾配法を開発する。 さらに、損失関数と制約関数が確率的であり、関連するオフライン確率最適化問題に強い双対性があるような場合、この制約違反は、後悔と同じ漸近的成長を持つことができることを示す。

This paper develops projection-free algorithms for online convex optimization with stochastic constraints. We design an online primal-dual projection-free framework that can take any projection-free algorithms developed for online convex optimization with no long-term constraint. With this general template, we deduce sublinear regret and constraint violation bounds for various settings. Moreover, for the case where the loss and constraint functions are smooth, we develop a primal-dual conditional gradient method that achieves $O(\sqrt{T})$ regret and $O(T^{3/4})$ constraint violations. Furthermore, for the setting where the loss and constraint functions are stochastic and strong duality holds for the associated offline stochastic optimization problem, we prove that the constraint violation can be reduced to have the same asymptotic growth as the regret.
翻訳日:2023-05-03 14:35:00 公開日:2023-05-02
# 情報スクランブルにおける加速度の影響

Effect of acceleration on information scrambling ( http://arxiv.org/abs/2305.01332v1 )

ライセンス: Link先を確認
Xi Ming(参考訳) 情報スクランブルとunruh(anti-unruh)効果の研究テーマはブラックホール物理学と密接に関連している。 本研究では,GHZ状態とW状態の2種類の三部交絡状態に対するUnruh(反Unruh)効果における加速度の影響について検討した。 以上の結果から,抗Unruh効果はトリパーティイト相互情報(TMI)によって測定されるように,より強い情報衝突を引き起こす可能性が示唆された。 さらに、一様加速運動の影響下で、W状態はGHZ状態よりも安定であることを示す。 最後に、分析をn$-partite の絡み合った状態と製品状態まで拡張します。

The research subjects of information scrambling and the Unruh (anti-Unruh) effect are closely associated with black hole physics. We study the impact of acceleration on information scrambling under the Unruh (anti-Unruh) effect for two types of tripartite entangled states, namely the GHZ and W states. Our findings indicate that the anti-Unruh effect can result in stronger information scrambling, as measured by tripartite mutual information (TMI). Additionally, we show that the W state is more stable than the GHZ state under the influence of uniformly accelerated motion. Lastly, we extend our analysis to $N$-partite entangled states and product states.
翻訳日:2023-05-03 14:34:44 公開日:2023-05-02
# flowchartをダイアログに変換する:低リソースのflowchart-grounded troubleshootingダイアログのための計画ベースのデータ拡張

Turning Flowchart into Dialog: Plan-based Data Augmentation for Low-Resource Flowchart-grounded Troubleshooting Dialogs ( http://arxiv.org/abs/2305.01323v1 )

ライセンス: Link先を確認
Haolan Zhan and Sameen Maruf and Lizhen Qu and Ingrid Zukerman and Gholamreza Haffari(参考訳) 近年,特定の領域(車,ノートパソコンなど)におけるユーザの問題を診断するためのフローチャートの指示に従うフローチャート型トラブルシューティング対話(FTD)システムの研究が注目されている。 しかし,フローチャートに自然に根ざした十分な対話の収集にはコストがかかるため,FTDシステムは訓練データ不足に悩まされる。 そこで本研究では,簡潔なフローチャートを対話に変換し,多種多様な合成ダイアログデータを生成するプランベースデータ拡張(planda)手法を提案する。 具体的には、その生成モデルは、グローバルおよびローカルの潜在計画変数を含む階層的計画戦略を持つ変分ベースフレームワークを採用している。 フロディアルデータセットを用いた実験では,plandaが生成する合成対話により,フローチャートパス検索や応答生成などの下流タスク,特にフローチャート外設定のパフォーマンスが向上することが示された。 さらに、さらなる分析により、現在のサンプル対話やカバーされていないパスでカバーされるパスにおいて、plandaが生成する合成データの品質が示される。

Flowchart-grounded troubleshooting dialogue (FTD) systems, which follow the instructions of a flowchart to diagnose users' problems in specific domains (eg., vehicle, laptop), have been gaining research interest in recent years. However, collecting sufficient dialogues that are naturally grounded on flowcharts is costly, thus FTD systems are impeded by scarce training data. To mitigate the data sparsity issue, we propose a plan-based data augmentation (PlanDA) approach that generates diverse synthetic dialog data at scale by transforming concise flowchart into dialogues. Specifically, its generative model employs a variational-base framework with a hierarchical planning strategy that includes global and local latent planning variables. Experiments on the FloDial dataset show that synthetic dialogue produced by PlanDA improves the performance of downstream tasks, including flowchart path retrieval and response generation, in particular on the Out-of-Flowchart settings. In addition, further analysis demonstrate the quality of synthetic data generated by PlanDA in paths that are covered by current sample dialogues and paths that are not covered.
翻訳日:2023-05-03 14:34:33 公開日:2023-05-02
# マーサー核の絶対積分性はRKHS安定性に十分である

Absolute integrability of Mercer kernels is only sufficient for RKHS stability ( http://arxiv.org/abs/2305.01411v1 )

ライセンス: Link先を確認
Mauro Bisiacco and Gianluigi Pillonetto(参考訳) 再現核ヒルベルト空間(英語版)(rkhss)は、核と呼ばれる正定値写像と1対1対応の特殊ヒルベルト空間である。 これらは機械学習で広く使われ、スパースやノイズの少ないデータから未知の機能を再構築している。 過去20年間で、線形システム同定の設定において、安定なRKHSと呼ばれるサブクラスも導入された。 安定なRKHSは正の実線上の絶対可積分なインパルス応答のみを含む。 したがって、線形・時間不変・BIBO安定力学系を入力出力データから推定する仮説空間として採用することができる。 RKHS安定のための必要十分条件は文献で利用可能であり、核絶対可積分性は安定性を意味することが知られている。 離散時間に働くことで、最近の研究でこの条件が十分であることを証明した。 連続的に働くことは、同じ結果がマーサーカーネルにも成り立つことを証明するためにこのメモの目的である。

Reproducing kernel Hilbert spaces (RKHSs) are special Hilbert spaces in one-to-one correspondence with positive definite maps called kernels. They are widely employed in machine learning to reconstruct unknown functions from sparse and noisy data. In the last two decades, a subclass known as stable RKHSs has been also introduced in the setting of linear system identification. Stable RKHSs contain only absolutely integrable impulse responses over the positive real line. Hence, they can be adopted as hypothesis spaces to estimate linear, time-invariant and BIBO stable dynamic systems from input-output data. Necessary and sufficient conditions for RKHS stability are available in the literature and it is known that kernel absolute integrability implies stability. Working in discrete-time, in a recent work we have proved that this latter condition is only sufficient. Working in continuous-time, it is the purpose of this note to prove that the same result holds also for Mercer kernels.
翻訳日:2023-05-03 14:28:22 公開日:2023-05-02
# 超伝導体存在下におけるアハロノフ・ボーム効果

Aharonov-Bohm effect in Presence of Superconductors ( http://arxiv.org/abs/2305.01408v1 )

ライセンス: Link先を確認
L. O'Raifeartaigh, N. Straumann, A. Wipf(参考訳) Aharonov-Bohm効果のエネルギーは、電子の磁場と背景磁場との相互作用エネルギーに追従できることを示した以前の論文の分析により、超伝導材料により電子の磁場が背景磁場から遮蔽される場合をカバーするように拡張された。 このような遮蔽が明らかに相互作用エネルギーの可能性を妨げるという事実から生じるパラドックスが解決され、理想的な状況の限界内で観察された実験結果が導出される。

The analysis of a previous paper, in which it was shown that the energy for the Aharonov-Bohm effect could be traced to the interaction energy between the magnetic field of the electron and the background magnetic field, is extended to cover the case in which the magnetic field of the electron is shielded from the background magnetic field by superconducting material. The paradox that arises from the fact that such a shielding would apparently preclude the possibility of an interaction energy is resolved and, within the limits of the ideal situation considered, the observed experimental result is derived.
翻訳日:2023-05-03 14:28:07 公開日:2023-05-02
# AIの採用: Familiarityが信頼と軽蔑の両方を育む方法

Adopting AI: How Familiarity Breeds Both Trust and Contempt ( http://arxiv.org/abs/2305.01405v1 )

ライセンス: Link先を確認
Michael C. Horowitz, Lauren Kahn, Julia Macdonald, Jacquelyn Schneider(参考訳) 人工知能と自律技術が必然的に拡散しているにもかかわらず、実際にはそれは人間の行動であり、真空中の技術ではなく、テクノロジーがどのように社会に浸透し、変化するかを規定している。 人間の嗜好がどのように技術採用を形作るのか、そしてAI対応の自律技術の普及をより深く理解するために、2018年と2020年の米国世論の代表的成人のサンプルを見て、車、手術、武器、サイバー防衛の4種類の自律技術の使用について検討する。 輸送、医療、国家安全保障にまたがるこれら4つのAI対応自律性の利用に焦点を当てることで、これらのAI対応自律型ユースケースの固有のバリエーションを活用する。 AIやその他の技術に精通し、専門知識を持っている人は、その技術について限られた知識を持つ人よりも、私たちがテストした(武器を除く)自律的なアプリケーションすべてをサポートする傾向にある。 すでに配車アプリを使って運転を委任していた個人も、自動運転車に肯定的だった。 しかし、親しみやすさは両方の道を切り離し、特にテクノロジーが既に運用に精通しているタスクを自動化する場合、個人はAI対応技術をサポートできない。 最後に、AI対応の軍事アプリケーションに対する反対は、時間とともにわずかに増加している。

Despite pronouncements about the inevitable diffusion of artificial intelligence and autonomous technologies, in practice it is human behavior, not technology in a vacuum, that dictates how technology seeps into -- and changes -- societies. In order to better understand how human preferences shape technological adoption and the spread of AI-enabled autonomous technologies, we look at representative adult samples of US public opinion in 2018 and 2020 on the use of four types of autonomous technologies: vehicles, surgery, weapons, and cyber defense. By focusing on these four diverse uses of AI-enabled autonomy that span transportation, medicine, and national security, we exploit the inherent variation between these AI-enabled autonomous use cases. We find that those with familiarity and expertise with AI and similar technologies were more likely to support all of the autonomous applications we tested (except weapons) than those with a limited understanding of the technology. Individuals that had already delegated the act of driving by using ride-share apps were also more positive about autonomous vehicles. However, familiarity cut both ways; individuals are also less likely to support AI-enabled technologies when applied directly to their life, especially if technology automates tasks they are already familiar with operating. Finally, opposition to AI-enabled military applications has slightly increased over time.
翻訳日:2023-05-03 14:27:57 公開日:2023-05-02
# 自動微分による応力と熱流束

Stress and heat flux via automatic differentiation ( http://arxiv.org/abs/2305.01401v1 )

ライセンス: Link先を確認
Marcel F. Langer and J. Thorben Frank and Florian Knoop(参考訳) 機械学習ポテンシャルは、ボルン-オッペンハイマーポテンシャル表面の計算効率と正確な近似を提供する。 このポテンシャルは、分子動力学のための勾配、特に圧力、熱輸送特性のための熱流束を必要とする多くの材料特性やシミュレーション技術を決定する。 近年開発されたポテンシャルは高次数であり、メッセージパッシング機構を通じて等変半局所相互作用を含むことができる。 複雑な機能形態のため、手動実装や勾配を評価する有限差分スキームの必要性を克服する自動微分(AD)に依存している。 本研究は, 力, 応力, 熱フラックスを得るための統一ADアプローチを示し, モデルに依存しない実装を提供する。 この方法は、レナード・ジョーンズポテンシャルでテストされ、等価なメッセージパッシングニューラルネットワーク電位を用いて、セレン化ブリンの凝集特性と熱伝導率を予測するために適用される。

Machine-learning potentials provide computationally efficient and accurate approximations of the Born-Oppenheimer potential energy surface. This potential determines many materials properties and simulation techniques usually require its gradients, in particular forces and stress for molecular dynamics, and heat flux for thermal transport properties. Recently developed potentials feature high body order and can include equivariant semi-local interactions through message-passing mechanisms. Due to their complex functional forms, they rely on automatic differentiation (AD), overcoming the need for manual implementations or finite-difference schemes to evaluate gradients. This study demonstrates a unified AD approach to obtain forces, stress, and heat flux for such potentials, and provides a model-independent implementation. The method is tested on the Lennard-Jones potential, and then applied to predict cohesive properties and thermal conductivity of tin selenide using an equivariant message-passing neural network potential.
翻訳日:2023-05-03 14:27:34 公開日:2023-05-02
# 帰路:再分配計画によるロバストな模倣

Get Back Here: Robust Imitation by Return-to-Distribution Planning ( http://arxiv.org/abs/2305.01400v1 )

ライセンス: Link先を確認
Geoffrey Cideron, Baruch Tabanpour, Sebastian Curi, Sertan Girgin, Leonard Hussenot, Gabriel Dulac-Arnold, Matthieu Geist, Olivier Pietquin, Robert Dadashi(参考訳) 我々は、実際のデプロイ環境ではなく、異なるバージョンで専門家データが収集される模倣学習(il)セットアップについて検討する。 結果の分布シフトに対処するため,エージェントがデモンストレーション分布から逸脱するたびに,エージェントを専門家が訪れた状態に戻すことを任務とする行動クローニング(BC)とプランナーを組み合わせる。 結果のアルゴリズムPOIRはオフラインでトレーニングでき、オンラインインタラクションを活用してプランナーを効率よく微調整し、時間とともにパフォーマンスを向上する。 我々は,現実的なロボット操作シミュレータを用いて,多種多様な人為的な操作動作の実証実験を行い,初期状態分布と雑音ダイナミクスに対する学習方針の堅牢性を示す。

We consider the Imitation Learning (IL) setup where expert data are not collected on the actual deployment environment but on a different version. To address the resulting distribution shift, we combine behavior cloning (BC) with a planner that is tasked to bring the agent back to states visited by the expert whenever the agent deviates from the demonstration distribution. The resulting algorithm, POIR, can be trained offline, and leverages online interactions to efficiently fine-tune its planner to improve performance over time. We test POIR on a variety of human-generated manipulation demonstrations in a realistic robotic manipulation simulator and show robustness of the learned policy to different initial state distributions and noisy dynamics.
翻訳日:2023-05-03 14:27:20 公開日:2023-05-02
# 医療画像における人口動態モデルと表現は公平か?

Are demographically invariant models and representations in medical imaging fair? ( http://arxiv.org/abs/2305.01397v1 )

ライセンス: Link先を確認
Eike Petersen, Enzo Ferrante, Melanie Ganz, Aasa Feragen(参考訳) 医療画像モデルは、患者人口(年齢、人種、性別)に関する情報を潜伏した表現にエンコードすることが示され、差別の可能性への懸念が高まっている。 ここでは、人口統計属性をエンコードしないモデルを訓練することは可能かどうかを問う。 統計学的属性、クラス条件、および反事実モデルの不変性に関して異なるタイプの不変性を検討し、アルゴリズム的公平性の標準概念と等価性を記述する。 既存の理論を参考にすると、限界とクラス条件の不変性は特定の公平性概念を達成するために過度に制限的なアプローチと考えることができ、結果として重大な予測性能の損失をもたらす。 反事実モデル不変性については,人口特性に関する医療画像の反事実の定義が複雑化している点に留意する。 最後に,「人種」や「ジェンダー」といった人為的なカテゴリーに依存しない階層的特徴のタスク固有の符号化を学べば,人口動態の符号化は有利であると考えられる。 医療画像モデルは人口動態をエンコードし、予測性能の観点から総合的モデルフェアネス評価の要求にさらに緊急性を与える必要があると結論づけた。

Medical imaging models have been shown to encode information about patient demographics (age, race, sex) in their latent representation, raising concerns about their potential for discrimination. Here, we ask whether it is feasible and desirable to train models that do not encode demographic attributes. We consider different types of invariance with respect to demographic attributes - marginal, class-conditional, and counterfactual model invariance - and lay out their equivalence to standard notions of algorithmic fairness. Drawing on existing theory, we find that marginal and class-conditional invariance can be considered overly restrictive approaches for achieving certain fairness notions, resulting in significant predictive performance losses. Concerning counterfactual model invariance, we note that defining medical image counterfactuals with respect to demographic attributes is fraught with complexities. Finally, we posit that demographic encoding may even be considered advantageous if it enables learning a task-specific encoding of demographic features that does not rely on human-constructed categories such as 'race' and 'gender'. We conclude that medical imaging models may need to encode demographic attributes, lending further urgency to calls for comprehensive model fairness assessments in terms of predictive performance.
翻訳日:2023-05-03 14:27:06 公開日:2023-05-02
# エッジコンピューティングにおけるロッキーチケットプルーニングによる効果的なフェデレーション学習

Efficient Federated Learning with Enhanced Privacy via Lottery Ticket Pruning in Edge Computing ( http://arxiv.org/abs/2305.01387v1 )

ライセンス: Link先を確認
Yifan Shi, Kang Wei, Li Shen, Jun Li, Xueqian Wang, Bo Yuan, and Song Guo(参考訳) federated learning (fl) はモバイル端末(mts)からの分散プライベートデータのための協調学習パラダイムである。 しかし、通信、mtsのリソース、プライバシーといった問題に苦しんでいる。 既存のプライバシ保存のFLメソッドは通常、厳格なプライバシ保証を提供するインスタンスレベルの差分プライバシー(DP)を採用するが、いくつかのボトルネックがある。 これらの欠点を克服するため、我々は、効率よくプライバシーを強化した FL フレームワークである Fed-LTP を提案し、これは \underline{\textbf{L}}ottery \underline{\textbf{T}}icket \underline{\textbf{H}}ypothesis (LTH) と 0 に集中した D\underline{\textbf{P}} (zCDP) を備える。 サーバ側で切断されたグローバルモデルを生成し、クライアント側でzCDPを使ってスクラッチからスパーストレーニングを行う。 サーバ側では2つのプルーニング方式が提案されている。 (i)重量ベースプルーニング(lth)は、プルーニングされたグローバルモデル構造を決定する。 (ii)反復プルーニングは、プルーニングされたモデルのパラメータのサイズをさらに縮小する。 一方、Fed-LTPの性能はLaplaceメカニズムに基づいたモデル検証によって向上する。 クライアント側では、リソース制約問題を解決するためにスパースからスパースへのトレーニングを使い、プライバシ予算を削減するためにより厳格なプライバシー分析を提供します。 独立および同一分散(IID)および非IID設定における複数の実世界のデータセットに対するFed-LTPの有効性を評価する。 その結果,より優れたユーティリティプライバシトレードオフを実現しつつ,通信,計算,メモリ効率において,SOTA法よりもFed-LTPの方が優れていることが明らかになった。

Federated learning (FL) is a collaborative learning paradigm for decentralized private data from mobile terminals (MTs). However, it suffers from issues in terms of communication, resource of MTs, and privacy. Existing privacy-preserving FL methods usually adopt the instance-level differential privacy (DP), which provides a rigorous privacy guarantee but with several bottlenecks: severe performance degradation, transmission overhead, and resource constraints of edge devices such as MTs. To overcome these drawbacks, we propose Fed-LTP, an efficient and privacy-enhanced FL framework with \underline{\textbf{L}}ottery \underline{\textbf{T}}icket \underline{\textbf{H}}ypothesis (LTH) and zero-concentrated D\underline{\textbf{P}} (zCDP). It generates a pruned global model on the server side and conducts sparse-to-sparse training from scratch with zCDP on the client side. On the server side, two pruning schemes are proposed: (i) the weight-based pruning (LTH) determines the pruned global model structure; (ii) the iterative pruning further shrinks the size of the pruned model's parameters. Meanwhile, the performance of Fed-LTP is also boosted via model validation based on the Laplace mechanism. On the client side, we use sparse-to-sparse training to solve the resource-constraints issue and provide tighter privacy analysis to reduce the privacy budget. We evaluate the effectiveness of Fed-LTP on several real-world datasets in both independent and identically distributed (IID) and non-IID settings. The results clearly confirm the superiority of Fed-LTP over state-of-the-art (SOTA) methods in communication, computation, and memory efficiencies while realizing a better utility-privacy trade-off.
翻訳日:2023-05-03 14:26:43 公開日:2023-05-02
# ディープエンコーダ・デコーダモデルを用いた原油流出分節化

Oil Spill Segmentation using Deep Encoder-Decoder models ( http://arxiv.org/abs/2305.01386v1 )

ライセンス: Link先を確認
Abhishek Ramanathapura Satyanarayana, Maruf A. Dhali(参考訳) 原油は現代の世界経済の不可欠な要素である。 幅広い用途で原油の需要が高まっているため、事故による原油流出は避けられない。 原油流出は発生し、浄化が困難であるにもかかわらず、第一に最も大きな課題は流出を検出することである。 本研究では,油流出の検出に効果的に訓練できるディープエンコーダデコーダモデルの実現可能性を検証する。 この研究は、高次元衛星合成開口レーダ(sar)画像データにおける複数のセグメンテーションモデルの結果を比較している。 実験の実行には複数のモデルの組み合わせが使用される。 最高のパフォーマンスモデルはResNet-50エンコーダとDeepLabV3+デコーダである。 平均IoUは64.868%、クラスIoUは61.549%、平均IoUは65.05%、クラスIoUは53.38%である。

Crude oil is an integral component of the modern world economy. With the growing demand for crude oil due to its widespread applications, accidental oil spills are unavoidable. Even though oil spills are in and themselves difficult to clean up, the first and foremost challenge is to detect spills. In this research, the authors test the feasibility of deep encoder-decoder models that can be trained effectively to detect oil spills. The work compares the results from several segmentation models on high dimensional satellite Synthetic Aperture Radar (SAR) image data. Multiple combinations of models are used in running the experiments. The best-performing model is the one with the ResNet-50 encoder and DeepLabV3+ decoder. It achieves a mean Intersection over Union (IoU) of 64.868% and a class IoU of 61.549% for the "oil spill" class when compared with the current benchmark model, which achieved a mean IoU of 65.05% and a class IoU of 53.38% for the "oil spill" class.
翻訳日:2023-05-03 14:26:08 公開日:2023-05-02
# 誤り検出のためのクラスベース影響関数

Class based Influence Functions for Error Detection ( http://arxiv.org/abs/2305.01384v1 )

ライセンス: Link先を確認
Thang Nguyen-Duc, Hoang Thanh-Tung, Quan Hung Tran, Dang Huu-Tien, Hieu Ngoc Nguyen, Anh T. V. Dau, Nghi D. Q. Bui(参考訳) 影響関数(IF)は大規模データセットにおける異常な例を検出する強力なツールである。 しかし、深層ネットワークに適用すると不安定である。 本稿では,IFの不安定性を説明するとともに,この問題に対する解決策を開発する。 2つのデータポイントが2つの異なるクラスに属する場合、ifsは信頼できない。 我々のソリューションは、ifの安定性を改善するためにクラス情報を利用する。 広範な実験により,ifsの性能と安定性は大幅に向上し,計算コストは増大しなかった。

Influence functions (IFs) are a powerful tool for detecting anomalous examples in large scale datasets. However, they are unstable when applied to deep networks. In this paper, we provide an explanation for the instability of IFs and develop a solution to this problem. We show that IFs are unreliable when the two data points belong to two different classes. Our solution leverages class information to improve the stability of IFs. Extensive experiments show that our modification significantly improves the performance and stability of IFs while incurring no additional computational cost.
翻訳日:2023-05-03 14:25:49 公開日:2023-05-02
# 最適保証付きLTL仕様からのモデルフリー強化学習のサンプル

Sample Efficient Model-free Reinforcement Learning from LTL Specifications with Optimality Guarantees ( http://arxiv.org/abs/2305.01381v1 )

ライセンス: Link先を確認
Daqian Shao and Marta Kwiatkowska(参考訳) 線形時間論理(LTL)はシステムポリシーの高レベルな目的を規定するために広く用いられており、そのような仕様に関して最適なポリシーを学ぶことが自律システムにとって非常に望ましい。 しかし、LTL仕様から最適なポリシーを学ぶことは簡単ではない。 本稿では,マルコフ決定過程(mdps)を用いてモデル化した未知確率システムの最適方針を効率的に学習するモデルフリー強化学習(rl)手法を提案する。 そこで,本研究では,市販のモデルフリーrlアルゴリズムを併用することで,所定のltl仕様を満たす確率を最大化する最適ポリシーを効率的に学習する,より汎用的な製品mdp,報酬構造,割引機構を提案する。 また、最適性を確保するため、RLにおける鍵パラメータの選択に関する理論的結果も改善した。 学習したポリシーを直接評価するために,確率的モデルチェッカープリズムを採用し,それらの仕様を満たすポリシーの確率を計算する。 様々なLTLタスクにおける表型MDP環境に関するいくつかの実験は、サンプル効率と最適政策収束性の改善を実証している。

Linear Temporal Logic (LTL) is widely used to specify high-level objectives for system policies, and it is highly desirable for autonomous systems to learn the optimal policy with respect to such specifications. However, learning the optimal policy from LTL specifications is not trivial. We present a model-free Reinforcement Learning (RL) approach that efficiently learns an optimal policy for an unknown stochastic system, modelled using Markov Decision Processes (MDPs). We propose a novel and more general product MDP, reward structure and discounting mechanism that, when applied in conjunction with off-the-shelf model-free RL algorithms, efficiently learn the optimal policy that maximizes the probability of satisfying a given LTL specification with optimality guarantees. We also provide improved theoretical results on choosing the key parameters in RL to ensure optimality. To directly evaluate the learned policy, we adopt probabilistic model checker PRISM to compute the probability of the policy satisfying such specifications. Several experiments on various tabular MDP environments across different LTL tasks demonstrate the improved sample efficiency and optimal policy convergence.
翻訳日:2023-05-03 14:25:42 公開日:2023-05-02
# ランダム化測定による量子状態k設計の効率的な推定

Efficient estimation of quantum state k-designs with randomized measurements ( http://arxiv.org/abs/2305.01465v1 )

ライセンス: Link先を確認
Lorenzo Versini, Karim Alaa El-Din, Florian Mintert and Rick Mukherjee(参考訳) 純粋状態のランダムアンサンブルは、量子回路の性能のベンチマーク、量子優位性のテスト、多体熱化の新しい洞察の提供、ブラックホール情報パラドックスの研究など、量子物理学の様々な面で非常に重要であることが証明されている。 完全にランダムなアンサンブルを生成することはほとんど不可能であり、実験的に難しいが、近似は同様に有用であり、Rydbergセットアップを含む様々な物理モデルで自然に現れることが知られている。 これらは近似量子状態設計と呼ばれ、そのランダム性の程度を検証することは、多体系で完全な量子状態トモグラフィーを行うのと同様、高価な作業である。 本研究では,従来手法と比較してデータサイズ獲得に関して,近似量子設計の特性を効率的に検証する。 これは、複雑な多体状態に存在する情報をランダムな射影的測定基底を用いて古典データの簡潔な表現に変換し、ニューラルネットワークを含む統計的推論の方法を用いて処理することで実現される。 ランダム化測定から得られたデータを後処理して(近似)量子状態 k 設計の効率的なキャラクタリゼーションを行う機械学習手法を,量子設計を生成可能なノイズの多い量子プラットフォームに適用する。

Random ensembles of pure states have proven to be extremely important in various aspects of quantum physics such as benchmarking the performance of quantum circuits, testing for quantum advantage, providing novel insights for many-body thermalization and studying black hole information paradox. Although generating a fully random ensemble is almost impossible and experimentally challenging, approximations of it are just as useful and are known to emerge naturally in a variety of physical models, including Rydberg setups. These are referred to as approximate quantum state designs, and verifying their degree of randomness can be an expensive task, similar to performing full quantum state tomography on many-body systems. In this theoretical work, we efficiently validate the character of approximate quantum designs with respect to data size acquisition when compared to conventional frequentist approach. This is achieved by translating the information residing in the complex many-body state into a succinct representation of classical data using a random projective measurement basis, which is then processed, using methods of statistical inference including neural networks. Our scheme of combining machine learning methods for postprocessing the data obtained from randomized measurements for efficient characterisation of (approximate) quantum state k designs is applicable to any noisy quantum platform that can generate quantum designs.
翻訳日:2023-05-03 14:18:06 公開日:2023-05-02
# 強化学習による混合整数最適制御:ハイブリッド自動車エネルギー管理の事例研究

Mixed-Integer Optimal Control via Reinforcement Learning: A Case Study on Hybrid Vehicle Energy Management ( http://arxiv.org/abs/2305.01461v1 )

ライセンス: Link先を確認
Jinming Xu and Yuan Lin(参考訳) 多くの最適制御問題は連続および離散制御変数の同時出力を必要とする。 このような問題は、通常、混合整数最適制御(MIOC)問題として定式化され、解空間の複雑さのために解決が難しい。 分岐とバウンドのような数値的な手法は計算コストが高く、リアルタイム制御には適さない。 本稿では,MIOC問題に対する2つの遅延深度決定論的アクターQ(TD3AQ)である連続離散強化学習(CDRL)アルゴリズムを提案する。 td3aqはアクタ-クリティックとq-ラーニングの両方の方法の利点を組み合わせることで、連続的および離散的なアクションスペースを同時に扱うことができる。 提案アルゴリズムはハイブリッド電気自動車(HEV)エネルギー管理問題において,運転制約を満たしつつ燃料経済を最大化するために,連続可変エンジントルクと離散可変ギア比のリアルタイム制御が不可欠である。 異なるドライブサイクルでのシミュレーションの結果、td3aqは動的計画法(dp)と比較して最適に近い解を実現できることを示し、連続的な動作を有限個の離散値に離散化することによってmiocに採用された最先端の離散rlアルゴリズムレインボーを上回っている。

Many optimal control problems require the simultaneous output of continuous and discrete control variables. Such problems are usually formulated as mixed-integer optimal control (MIOC) problems, which are challenging to solve due to the complexity of the solution space. Numerical methods such as branch-and-bound are computationally expensive and unsuitable for real-time control. This paper proposes a novel continuous-discrete reinforcement learning (CDRL) algorithm, twin delayed deep deterministic actor-Q (TD3AQ), for MIOC problems. TD3AQ combines the advantages of both actor-critic and Q-learning methods, and can handle the continuous and discrete action spaces simultaneously. The proposed algorithm is evaluated on a hybrid electric vehicle (HEV) energy management problem, where real-time control of the continuous variable engine torque and discrete variable gear ratio is essential to maximize fuel economy while satisfying driving constraints. Simulation results on different drive cycles show that TD3AQ can achieve near-optimal solutions compared to dynamic programming (DP) and outperforms the state-of-the-art discrete RL algorithm Rainbow, which is adopted for MIOC by discretizing continuous actions into a finite set of discrete values.
翻訳日:2023-05-03 14:17:46 公開日:2023-05-02
# リカレントネットワークのメモリ: 正しく計算できるだろうか?

Memory of recurrent networks: Do we compute it right? ( http://arxiv.org/abs/2305.01457v1 )

ライセンス: Link先を確認
Giovanni Ballarin, Lyudmila Grigoryeva, Juan-Pablo Ortega(参考訳) 論文で報告されたリカレントニューラルネットワークのメモリ容量(mc)の数値評価は、よく確立された理論境界としばしば矛盾する。 本稿では,全記憶容量が対応するカルマン制御性行列のランクに等しいことが証明された線形エコー状態ネットワークの事例について述べる。 記憶の不正確な数値推定の様々な理由について考察し,近年の文献でしばしば見過ごされているこれらの問題は,排他的数値的性質であることを示した。 より明確に、線形mcのクリロフ構造が無視されるとき、理論mcと経験的mcとの間のギャップが導入されたことを証明する。 提案手法は,入力マスク行列に対するMC中立性の結果を利用して,ロバストな数値計算手法を開発する。 シミュレーションにより,提案手法を用いて復元したメモリ曲線は理論に完全一致することが示された。

Numerical evaluations of the memory capacity (MC) of recurrent neural networks reported in the literature often contradict well-established theoretical bounds. In this paper, we study the case of linear echo state networks, for which the total memory capacity has been proven to be equal to the rank of the corresponding Kalman controllability matrix. We shed light on various reasons for the inaccurate numerical estimations of the memory, and we show that these issues, often overlooked in the recent literature, are of an exclusively numerical nature. More explicitly, we prove that when the Krylov structure of the linear MC is ignored, a gap between the theoretical MC and its empirical counterpart is introduced. As a solution, we develop robust numerical approaches by exploiting a result of MC neutrality with respect to the input mask matrix. Simulations show that the memory curves that are recovered using the proposed methods fully agree with the theory.
翻訳日:2023-05-03 14:17:21 公開日:2023-05-02
# ワクチンサプライチェーン最適化のための予測調整

Forecast reconciliation for vaccine supply chain optimization ( http://arxiv.org/abs/2305.01455v1 )

ライセンス: Link先を確認
Bhanu Angam, Alessandro Beretta, Eli De Poorter, Matthieu Duvinage, Daniel Peralta(参考訳) ワクチンサプライチェーン最適化は、ワクチンをタイプまたは場所別にグループ化する際に、階層的な時系列予測の恩恵を受ける。 しかし、階層レベルの異なる予測は、高いレベルの予測が低いレベルの予測の総和と一致しない場合に不整合となる。 本稿では,2010年から2021年にかけてのGSKの販売データを階層時系列としてモデル化し,ワクチン販売予測問題に取り組む。 いくつかのARIMAモデルで将来の値を予測した後、統計的テストを用いて様々な和解手法の性能を体系的に比較する。 また、COVID-19前後の予測のパフォーマンスも比較する。 その結果,ARIMAの予測誤差を低減しつつ,コヒーレントな予測を行う手法として,構造スケーリングを用いた最小トレースと重み付き最小正方形に着目した。

Vaccine supply chain optimization can benefit from hierarchical time series forecasting, when grouping the vaccines by type or location. However, forecasts of different hierarchy levels become incoherent when higher levels do not match the sum of the lower levels forecasts, which can be addressed by reconciliation methods. In this paper, we tackle the vaccine sale forecasting problem by modeling sales data from GSK between 2010 and 2021 as a hierarchical time series. After forecasting future values with several ARIMA models, we systematically compare the performance of various reconciliation methods, using statistical tests. We also compare the performance of the forecast before and after COVID. The results highlight Minimum Trace and Weighted Least Squares with Structural scaling as the best performing methods, which provided a coherent forecast while reducing the forecast error of the baseline ARIMA.
翻訳日:2023-05-03 14:17:08 公開日:2023-05-02
# マルチモーダルニューラルネットワーク

Multimodal Neural Databases ( http://arxiv.org/abs/2305.01447v1 )

ライセンス: Link先を確認
Giovanni Trappolini, Andrea Santilli, Emanuele Rodol\`a, Alon Halevy, Fabrizio Silvestri(参考訳) テキスト、画像、その他のモダリティを通じて利用可能な疎構造データの増加は、それらを照会する新しい方法を求めてきた。 マルチメディア情報検索はこのギャップを埋め、近年はエキサイティングな進歩を遂げている。 大規模マルチメディアアーカイブの検索や検索といったタスクは、マルチモーダルディープラーニングの最近の進歩によって、大幅にパフォーマンスが向上している。 しかし、この分野のメソッドはサポート対象のクエリの種類や、特にデータベースのようなクエリに応答できない場合に限られている。 このため、ニューラルデータベースに関する最近の研究に触発されて、我々はMultimodal Neural Databases (MMNDBs) と呼ぶ新しいフレームワークを提案する。 MMNDBは、テキストや画像など、さまざまな入力モダリティを大規模に推論する複雑なデータベースのようなクエリに答えることができる。 本稿では、この一連の要求を満たすことができ、いくつかのベースラインでテストできる最初のアーキテクチャを示し、現在利用可能なモデルの限界を示す。 その結果、これらの新しい手法が、異なるモダリティから得られる非構造化データを処理し、将来的な研究の道を開く可能性を示している。 実験を再現するコードはhttps://github.com/GiovanniTRA/MultimodalNeuralDatabasesでリリースされる。

The rise in loosely-structured data available through text, images, and other modalities has called for new ways of querying them. Multimedia Information Retrieval has filled this gap and has witnessed exciting progress in recent years. Tasks such as search and retrieval of extensive multimedia archives have undergone massive performance improvements, driven to a large extent by recent developments in multimodal deep learning. However, methods in this field remain limited in the kinds of queries they support and, in particular, their inability to answer database-like queries. For this reason, inspired by recent work on neural databases, we propose a new framework, which we name Multimodal Neural Databases (MMNDBs). MMNDBs can answer complex database-like queries that involve reasoning over different input modalities, such as text and images, at scale. In this paper, we present the first architecture able to fulfill this set of requirements and test it with several baselines, showing the limitations of currently available models. The results show the potential of these new techniques to process unstructured data coming from different modalities, paving the way for future research in the area. Code to replicate the experiments will be released at https://github.com/GiovanniTRA/MultimodalNeuralDatabases
翻訳日:2023-05-03 14:16:54 公開日:2023-05-02
# ビデオテキストスポッティングのためのスケーラブルマスクアノテーション

Scalable Mask Annotation for Video Text Spotting ( http://arxiv.org/abs/2305.01443v1 )

ライセンス: Link先を確認
Haibin He, Jing Zhang, Mengyang Xu, Juhua Liu, Bo Du, Dacheng Tao(参考訳) ビデオテキストスポッティング(英語: video text spotting)とは、字幕、ロゴ、ライセンスプレート、標識などのテキスト要素を連続したビデオフレーム内でローカライズ、認識、追跡することである。 しかし、このタスクで利用可能な現在のデータセットは、背景の過剰な内容や不正確なテキスト境界を含む、四角形の真理アノテーションに依存している。 さらに、これらのデータセットで訓練された手法は、しばしば四角形のボックスの形で予測結果を生成し、密度の高いテキストや湾曲したテキストのような複雑なシナリオを扱う能力を制限する。 これらの問題に対処するために、ビデオテキストスポッティングのためのSAMTextと呼ばれるスケーラブルなマスクアノテーションパイプラインを提案する。 SAMTextはSAMモデルを利用して、シーンテキスト画像やビデオフレームの大規模なマスクアノテーションを生成する。 samtextを使用して、既存のデータセットから派生した2400以上のビデオクリップと900万以上のマスクアノテーションを含む、大規模なデータセットsamtext-9mを作成しました。 我々はまた,生成したマスクとその品質に関する詳細な統計分析を行い,このデータセットに基づいてさらに検討可能ないくつかの研究トピックを特定した。 コードとデータセットは \url{https://github.com/ViTAE-Transformer/SAMText} でリリースされる。

Video text spotting refers to localizing, recognizing, and tracking textual elements such as captions, logos, license plates, signs, and other forms of text within consecutive video frames. However, current datasets available for this task rely on quadrilateral ground truth annotations, which may result in including excessive background content and inaccurate text boundaries. Furthermore, methods trained on these datasets often produce prediction results in the form of quadrilateral boxes, which limits their ability to handle complex scenarios such as dense or curved text. To address these issues, we propose a scalable mask annotation pipeline called SAMText for video text spotting. SAMText leverages the SAM model to generate mask annotations for scene text images or video frames at scale. Using SAMText, we have created a large-scale dataset, SAMText-9M, that contains over 2,400 video clips sourced from existing datasets and over 9 million mask annotations. We have also conducted a thorough statistical analysis of the generated masks and their quality, identifying several research topics that could be further explored based on this dataset. The code and dataset will be released at \url{https://github.com/ViTAE-Transformer/SAMText}.
翻訳日:2023-05-03 14:16:35 公開日:2023-05-02
# ニューラルマシン翻訳システムにおける感情知覚相反攻撃

Sentiment Perception Adversarial Attacks on Neural Machine Translation Systems ( http://arxiv.org/abs/2305.01437v1 )

ライセンス: Link先を確認
Vyas Raina and Mark Gales(参考訳) ディープラーニング手法の出現に伴い、ニューラルネットワーク翻訳(NMT)システムはますます強力になっている。 しかし、深層学習に基づくシステムは敵攻撃の影響を受けやすいため、入力に対する非受容的な変更はシステムの出力において望ましくない変更を引き起こす可能性がある。 NMTモデルのようなシーケンス・ツー・シーケンス・システムに対する敵攻撃を調査する研究はほとんど行われていない。 NMTの以前の研究は、ターゲットフレーズを出力シーケンスに導入する目的で攻撃を調査してきた。 本研究では,NMTシステムに対する敵攻撃を,出力知覚の観点から検討する。 したがって、攻撃の目的は、入力シーケンスの知覚を変えることなく、出力シーケンスの知覚を変更することである。 例えば、敵は翻訳されたレビューの感情を歪め、誇張されたポジティブな感情を持つ。 実際に、広範に人間の知覚実験を行うことは困難であり、NMT出力に適用されたプロキシディープラーニング分類器を用いて知覚の変化を測定する。 実験により,NMTシステムの出力シーケンスの感情知覚が大きく変化することが示された。

With the advent of deep learning methods, Neural Machine Translation (NMT) systems have become increasingly powerful. However, deep learning based systems are susceptible to adversarial attacks, where imperceptible changes to the input can cause undesirable changes at the output of the system. To date there has been little work investigating adversarial attacks on sequence-to-sequence systems, such as NMT models. Previous work in NMT has examined attacks with the aim of introducing target phrases in the output sequence. In this work, adversarial attacks for NMT systems are explored from an output perception perspective. Thus the aim of an attack is to change the perception of the output sequence, without altering the perception of the input sequence. For example, an adversary may distort the sentiment of translated reviews to have an exaggerated positive sentiment. In practice it is challenging to run extensive human perception experiments, so a proxy deep-learning classifier applied to the NMT output is used to measure perception changes. Experiments demonstrate that the sentiment perception of NMT systems' output sequences can be changed significantly.
翻訳日:2023-05-03 14:16:14 公開日:2023-05-02
# 時系列外部回帰のための教師なし特徴ベースアルゴリズム

Unsupervised Feature Based Algorithms for Time Series Extrinsic Regression ( http://arxiv.org/abs/2305.01429v1 )

ライセンス: Link先を確認
David Guijo-Rubio, Matthew Middlehurst, Guilherme Arcencio, Diego Furtado Silva, Anthony Bagnall(参考訳) Time Series Extrinsic Regression (TSER)は、一連のトレーニング時系列を使用して、Regressorシリーズに直接関連しない連続応答変数の予測モデルを形成する。 TSERのアルゴリズム比較用アーカイブは2022年に19の問題でリリースされた。 このアーカイブのサイズを63問題に拡大し,以前のベースラインアルゴリズムの比較を再現する。 次に、より広い範囲の標準回帰器と、以前の研究で使用されたTSERモデルの最新バージョンを含むように比較を拡張した。 従来評価されていた回帰器は,標準分類器である回転森林の回帰適応よりも優れていなかった。 時系列分類における関連研究から開発された2つの新しいTSERアルゴリズムを提案する。 FreshPRINCEはパイプライン推定器であり、幅広い概要特徴に変換され、その後に回転森林回帰器が続く。 DrCIFは木アンサンブルで、乱数間隔の要約統計から特徴を生成する。 本研究は,インセプション時間とともに両アルゴリズムが,他の18個のレグレッサと比較して有意に優れた性能を示すことを示す。 さらに重要なことは、これらの2つの提案(DrCIFとFreshPRINCE)は、標準の回転森林回帰器を著しく上回っている唯一のモデルである。

Time Series Extrinsic Regression (TSER) involves using a set of training time series to form a predictive model of a continuous response variable that is not directly related to the regressor series. The TSER archive for comparing algorithms was released in 2022 with 19 problems. We increase the size of this archive to 63 problems and reproduce the previous comparison of baseline algorithms. We then extend the comparison to include a wider range of standard regressors and the latest versions of TSER models used in the previous study. We show that none of the previously evaluated regressors can outperform a regression adaptation of a standard classifier, rotation forest. We introduce two new TSER algorithms developed from related work in time series classification. FreshPRINCE is a pipeline estimator consisting of a transform into a wide range of summary features followed by a rotation forest regressor. DrCIF is a tree ensemble that creates features from summary statistics over random intervals. Our study demonstrates that both algorithms, along with InceptionTime, exhibit significantly better performance compared to the other 18 regressors tested. More importantly, these two proposals (DrCIF and FreshPRINCE) models are the only ones that significantly outperform the standard rotation forest regressor.
翻訳日:2023-05-03 14:15:58 公開日:2023-05-02
# 地域からグローバルへ:アフリカにおける言語的多様性の旅

From Local to Global: Navigating Linguistic Diversity in the African Context ( http://arxiv.org/abs/2305.01427v1 )

ライセンス: Link先を確認
Rashmi Margani, Nelson Ndugu(参考訳) その焦点は、アフリカ大陸の言語多様性と多様性に関連するNLPにおける重要な問題、特にほとんど注目されていないアフリカの地方方言やアラビア方言についてである。 アフリカの地方方言における顧客体験と製品開発の改善を目指す企業に対して,提案手法が潜在的に与える影響を強調しつつ,その効果を検証した。 このモデルをプロダクトベースの教育ツールとして使うというアイデアは、学習者への関心を刺激し、テクノ起業家精神を刺激する可能性があることから、興味深い。 全体として、我々の修正されたアプローチは、アフリカの地方方言を扱う際の課題について、有望な分析を提供する。 特にアラビア方言は、顧客体験と製品開発を改善するビジネスに大きな影響を与える可能性がある。

The focus is on critical problems in NLP related to linguistic diversity and variation across the African continent, specifically with regards to African local dialects and Arabic dialects that have received little attention. We evaluated our various approaches, demonstrating their effectiveness while highlighting the potential impact of the proposed approach on businesses seeking to improve customer experience and product development in African local dialects. The idea of using the model as a teaching tool for product-based instruction is interesting, as it could potentially stimulate interest in learners and trigger techno entrepreneurship. Overall, our modified approach offers a promising analysis of the challenges of dealing with African local dialects. Particularly Arabic dialects, which could have a significant impact on businesses seeking to improve customer experience and product development.
翻訳日:2023-05-03 14:15:41 公開日:2023-05-02
# 仮説的振り返りを用いた不確かな機械倫理決定

Uncertain Machine Ethical Decisions Using Hypothetical Retrospection ( http://arxiv.org/abs/2305.01424v1 )

ライセンス: Link先を確認
Simon Kolker, Louise Dennis, Ramon Fraga Pereira, and Mengwei Xu(参考訳) 本研究では,人間と共鳴する哲学の立場から確率と不確かさを考慮し,機械倫理的推論に対する既存のアプローチを改善するために,sven hansson が開発した仮説的遡及的議論手法を提案する。 アクションは潜在的な結果の分岐セットで表現され、それぞれが状態、ユーティリティを持ち、数値または詩的な確率の推定値を持つ。 アクションは、そのブランチの観点からアクションを好む引数のセットと、望ましくない結果をもたらす枝の比較に基づいて選択される。 この議論の使用により、倫理的推論のための様々な哲学理論が利用され、潜在的に互いに柔軟に組み合わせられる。 本稿では,自律型図書館システム利用事例に対して,逐次的・非オントロジ的倫理学理論を独立かつ同時に適用する。 本稿では,機械倫理システムの多様な要件を満たした予備的枠組みを提案する。多理論下での汎用性と,透明性と説明可能性を可能にする人間との共鳴である。

We propose the use of the hypothetical retrospection argumentation procedure, developed by Sven Hansson, to improve existing approaches to machine ethical reasoning by accounting for probability and uncertainty from a position of Philosophy that resonates with humans. Actions are represented with a branching set of potential outcomes, each with a state, utility, and either a numeric or poetic probability estimate. Actions are chosen based on comparisons between sets of arguments favouring actions from the perspective of their branches, even those branches that led to an undesirable outcome. This use of arguments allows a variety of philosophical theories for ethical reasoning to be used, potentially in flexible combination with each other. We implement the procedure, applying consequentialist and deontological ethical theories, independently and concurrently, to an autonomous library system use case. We introduce a a preliminary framework that seems to meet the varied requirements of a machine ethics system: versatility under multiple theories and a resonance with humans that enables transparency and explainability.
翻訳日:2023-05-03 14:15:28 公開日:2023-05-02
# 階層的関係を持つ複数文書の要約に向けて

Towards Summarizing Multiple Documents with Hierarchical Relationships ( http://arxiv.org/abs/2305.01498v1 )

ライセンス: Link先を確認
Miao Li, Eduard Hovy, Jey Han Lau(参考訳) 既存の多文書要約(MDS)データセットの多くは、要約をキャプチャしなければならない明示的な文書間関係を持つ人間の生成と真正(合成ではない)要約やソース文書を欠いている。 我々は,mdsシステムの能力を高めるために,科学論文のメタレビューを生成するための新しいデータセットpeersumを提案する。 これらの資料は、相互参照を伴う明示的な階層構造と、しばしば矛盾を特徴とする文書間関係が豊富である。 事前訓練された言語モデルに対する注意操作によるMDSシステムへの階層的関係を組み込んだ研究は乏しいため,テキスト生成の目的に加えて,階層的関係に基づくスパースアテンションを用いたメタレビュー生成モデルであるRammer(Relationship-aware Multi-task Meta-Review Generator)も提示する。 実験の結果,PeerSumは難しいデータセットであり,Rammerは他の強力なベースラインMDSモデルよりも高い性能を示した。

Most existing multi-document summarization (MDS) datasets lack human-generated and genuine (i.e., not synthetic) summaries or source documents with explicit inter-document relationships that a summary must capture. To enhance the capabilities of MDS systems we present PeerSum, a novel dataset for generating meta-reviews of scientific papers, where the meta-reviews are highly abstractive and genuine summaries of reviews and corresponding discussions. These source documents have rich inter-document relationships of an explicit hierarchical structure with cross-references and often feature conflicts. As there is a scarcity of research that incorporates hierarchical relationships into MDS systems through attention manipulation on pre-trained language models, we additionally present Rammer (Relationship-aware Multi-task Meta-review Generator), a meta-review generation model that uses sparse attention based on the hierarchical relationships and a multi-task objective that predicts several metadata features in addition to the standard text generation objective. Our experimental results show that PeerSum is a challenging dataset, and Rammer outperforms other strong baseline MDS models under various evaluation metrics.
翻訳日:2023-05-03 14:09:44 公開日:2023-05-02
# ARBEx:ロバスト表情学習のための信頼性バランスを考慮した注意的特徴抽出

ARBEx: Attentive Feature Extraction with Reliability Balancing for Robust Facial Expression Learning ( http://arxiv.org/abs/2305.01486v1 )

ライセンス: Link先を確認
Azmine Toushik Wasi, Karlo \v{S}erbetar, Raima Islam, Taki Hasan Rafi, Dong-Kyu Chae(参考訳) 本稿では,表情学習(fel)タスクにおけるクラス分布,バイアス,不確実性に対処すべく,信頼性のバランスをとるビジョントランスフォーマによって駆動される,新しい注意的特徴抽出フレームワークであるarbexを提案する。 ウィンドウベースのクロスアテンションvitと共に,データの事前処理とリファインメントの手法を補強し,最善のデータを絞り込む。 また,ラベル分布を持つ埋め込み空間における学習可能なアンカー点とマルチヘッド自己アテンション機構を用いて,アンカー点,注意点,信頼度値を活用し,ラベル予測のレジリエンスを高める,信頼性バランスを伴う弱い予測に対するパフォーマンスを最適化する。 適切なラベル分類とモデルの識別能力向上のために,アンカー損失を導入し,アンカーポイント間のマージンを増大させる。 さらに、トレーニング可能なマルチヘッド自己認識機構は、正確なラベルを特定する上で重要な役割を果たす。 このアプローチは予測の信頼性を向上させるための重要な要素を提供し、最終的な予測能力にかなりのポジティブな影響を及ぼす。 我々の適応モデルは、あらゆるディープニューラルネットワークと統合して、様々な認識タスクにおける課題をフォレストする。 我々の戦略は、様々な文脈で実施された広範な実験により、現在の最先端の方法論よりも優れています。

In this paper, we introduce a framework ARBEx, a novel attentive feature extraction framework driven by Vision Transformer with reliability balancing to cope against poor class distributions, bias, and uncertainty in the facial expression learning (FEL) task. We reinforce several data pre-processing and refinement methods along with a window-based cross-attention ViT to squeeze the best of the data. We also employ learnable anchor points in the embedding space with label distributions and multi-head self-attention mechanism to optimize performance against weak predictions with reliability balancing, which is a strategy that leverages anchor points, attention scores, and confidence values to enhance the resilience of label predictions. To ensure correct label classification and improve the models' discriminative power, we introduce anchor loss, which encourages large margins between anchor points. Additionally, the multi-head self-attention mechanism, which is also trainable, plays an integral role in identifying accurate labels. This approach provides critical elements for improving the reliability of predictions and has a substantial positive effect on final prediction capabilities. Our adaptive model can be integrated with any deep neural network to forestall challenges in various recognition tasks. Our strategy outperforms current state-of-the-art methodologies, according to extensive experiments conducted in a variety of contexts.
翻訳日:2023-05-03 14:09:21 公開日:2023-05-02
# モデル間遅延契約によるモデルの信頼性向上

Great Models Think Alike: Improving Model Reliability via Inter-Model Latent Agreement ( http://arxiv.org/abs/2305.01481v1 )

ライセンス: Link先を確認
Ailin Deng, Miao Xiong, Bryan Hooi(参考訳) ディープラーニングの実践的展開において、機械学習の信頼性の高い応用が重要である。 根本的な課題は、モデルが過信のため、しばしば信頼できないことだ。 本稿では,その潜在空間と基礎モデルの潜在空間との一致度を測定することにより,モデルの信頼性を推定する。 しかし、それらの非コヒーレンス、 \eg 、任意の回転、異なる次元性のために、2つの異なる潜在空間間の一致を測定することは困難である。 この不一致を克服するために,我々は潜在空間間の関係性(enmph{neighborhood agreement measure})をデザインし,モデルの予測の信頼性と驚くほど関係があることを見出した。 さらに,近隣合意をモデルの予測信頼度に活用することで,信頼性が大幅に向上することを示す。 各種データセットにまたがる障害検出に関する理論的解析と広範な実験により,本手法の有効性が検証された。

Reliable application of machine learning is of primary importance to the practical deployment of deep learning methods. A fundamental challenge is that models are often unreliable due to overconfidence. In this paper, we estimate a model's reliability by measuring \emph{the agreement between its latent space, and the latent space of a foundation model}. However, it is challenging to measure the agreement between two different latent spaces due to their incoherence, \eg, arbitrary rotations and different dimensionality. To overcome this incoherence issue, we design a \emph{neighborhood agreement measure} between latent spaces and find that this agreement is surprisingly well-correlated with the reliability of a model's predictions. Further, we show that fusing neighborhood agreement into a model's predictive confidence in a post-hoc way significantly improves its reliability. Theoretical analysis and extensive experiments on failure detection across various datasets verify the effectiveness of our method on both in-distribution and out-of-distribution settings.
翻訳日:2023-05-03 14:08:56 公開日:2023-05-02
# ポートフォリオ最適化のための量子アニールとゲートモデル計算の相乗的ポテンシャルの探索

Exploring the synergistic potential of quantum annealing and gate model computing for portfolio optimization ( http://arxiv.org/abs/2305.01480v1 )

ライセンス: Link先を確認
Naman Jain and M Girish Chandra(参考訳) ポートフォリオ最適化は、量子コンピューティングの短期的応用を示す最も研究されている問題の1つである。 しかし、今日の量子ハードウェアでは大規模な問題は解決できない。 本研究では,量子アニーリングとゲートベースの量子コンピューティングシステムの両方を最大限に活用して,利用可能なハードウェア上で大規模最適化問題を効率的に解決する研究をさらに進める。 既存の研究では、Large System Smpling Approximation (LSSA)と呼ばれる手法を用いて、大きな問題をいくつかの小さな問題に分割し、複数の解を組み合わせて元の問題に近似する。 本稿では,LSSAのサンプリングステップを変更する新しい手法を提案する。 我々は、ポートフォリオ最適化問題を、市場全体を代表する多様な資産群を選択し、資産間の最も高い相関関係を捉え、より小さなサブシステムに分割する。 インド株式市場の現実世界の株価データを最大64件の資産でテストしています。 実験により,ハイブリッド手法は近似比がよい従来の最適化手法と同等に動作することが示された。 また,様々な規模のポートフォリオ最適化問題に対して,提案手法の有効性を示す。 提案手法に異なるパラメータが与える影響について述べるとともに,その性能を先行研究と比較する。 今後の投資ポートフォリオの最適化を目指すポートフォリオマネージャにとって,ハイブリッド・アニーラーゲート型量子コンピューティングが有用なツールになる可能性が示唆された。

Portfolio optimization is one of the most studied problems for demonstrating the near-term applications of quantum computing. However, large-scale problems cannot be solved on today's quantum hardware. In this work, we extend upon a study to use the best of both quantum annealing and gate-based quantum computing systems to enable solving large-scale optimization problems efficiently on the available hardware. The existing work uses a method called Large System Sampling Approximation (LSSA) that involves dividing the large problem into several smaller problems and then combining the multiple solutions to approximate the solution to the original problem. This paper introduces a novel technique to modify the sampling step of LSSA. We divide the portfolio optimization problem into sub-systems of smaller sizes by selecting a diverse set of assets that act as representatives of the entire market and capture the highest correlations among assets. We conduct tests on real-world stock data from the Indian stock market on up to 64 assets. Our experimentation shows that the hybrid approach performs at par with the traditional classical optimization methods with a good approximation ratio. We also demonstrate the effectiveness of our approach on a range of portfolio optimization problems of different sizes. We present the effects of different parameters on the proposed method and compare its performance with the earlier work. Our findings suggest that hybrid annealer-gate quantum computing can be a valuable tool for portfolio managers seeking to optimize their investment portfolios in the near future.
翻訳日:2023-05-03 14:08:39 公開日:2023-05-02
# ガウス型コプラ混合モデルの性質について

On the properties of Gaussian Copula Mixture Models ( http://arxiv.org/abs/2305.01479v1 )

ライセンス: Link先を確認
Ke Wan, Alain Kornhauser(参考訳) ガウス混合モデル (GCMM) は、ガウス混合モデルのコプラの概念を用いた一般化である。 この論文では、その数学的定義が与えられ、確率関数の性質が研究される。 これらの特性に基づいて,コプラの混合パラメータを推定するための拡張期待値アルゴリズムを開発し,各成分に対応する限界分布を別の非パラメトリック統計法を用いて推定する。 実験では,GCMMがGMMと同じ数のクラスタに対して適合性が向上し,さらにGCMMは各次元の非同期データを利用してより深いデータマイニングを行うことができる。

Gaussian copula mixture models (GCMM) are the generalization of Gaussian Mixture models using the concept of copula. Its mathematical definition is given and the properties of likelihood function are studied in this paper. Based on these properties, extended Expectation Maximum algorithms are developed for estimating parameters for the mixture of copulas while marginal distributions corresponding to each component is estimated using separate nonparametric statistical methods. In the experiment, GCMM can achieve better goodness-of-fitting given the same number of clusters as GMM; furthermore, GCMM can utilize unsynchronized data on each dimension to achieve deeper mining of data.
翻訳日:2023-05-03 14:08:16 公開日:2023-05-02
# グラフベースコンテキストを用いた確率的文脈帯域

Stochastic Contextual Bandits with Graph-based Contexts ( http://arxiv.org/abs/2305.01470v1 )

ライセンス: Link先を確認
Jittat Fakcharoenphol and Chayutpong Prompak(参考訳) 我々は、オンライングラフ予測問題を、文脈がグラフ内の頂点であり、グラフの構造がコンテキストの類似性に関する情報を提供する確率的文脈帯域問題のバージョンに自然に一般化する。 より具体的には、グラフ $G=(V,E)$ が与えられ、その頂点集合 $V$ は {\em unknown} の頂点ラベル $y$ の文脈を表す。 確率的文脈的バンディット設定では、同じラベルを持つ頂点は同じ報酬分布を共有する。 グラフラベル予測におけるインスタンス困難という標準的な概念は、ラベルが異なる端点を持つエッジの数として定義されるカットサイズ$f$である。 直線グラフや木に対して、$K$ は腕の数であるような $\tilde{O}(T^{2/3}K^{1/3}f^{1/3})$ の残差を持つアルゴリズムを示す。 本アルゴリズムはzimmert と seldin~ [aistat'19, jmlr'21] による最適確率バンディットアルゴリズムに依存する。 最高の腕が他の腕を上回ると、後悔は$\tilde{O}(\sqrt{KT\cdot f})$に改善される。 後者の場合の後悔のバウンドは、他の最適文脈バンディットと同等であるが、アルゴリズムは解析が容易で、非常に効率的に動作し、入力コンテキストシーケンスのi.i.d.仮定を必要としない。 このアルゴリズムは、標準的なランダムスパンニングツリーリダクションを用いて、一般的なグラフで動作する。

We naturally generalize the on-line graph prediction problem to a version of stochastic contextual bandit problems where contexts are vertices in a graph and the structure of the graph provides information on the similarity of contexts. More specifically, we are given a graph $G=(V,E)$, whose vertex set $V$ represents contexts with {\em unknown} vertex label $y$. In our stochastic contextual bandit setting, vertices with the same label share the same reward distribution. The standard notion of instance difficulties in graph label prediction is the cutsize $f$ defined to be the number of edges whose end points having different labels. For line graphs and trees we present an algorithm with regret bound of $\tilde{O}(T^{2/3}K^{1/3}f^{1/3})$ where $K$ is the number of arms. Our algorithm relies on the optimal stochastic bandit algorithm by Zimmert and Seldin~[AISTAT'19, JMLR'21]. When the best arm outperforms the other arms, the regret improves to $\tilde{O}(\sqrt{KT\cdot f})$. The regret bound in the later case is comparable to other optimal contextual bandit results in more general cases, but our algorithm is easy to analyze, runs very efficiently, and does not require an i.i.d. assumption on the input context sequence. The algorithm also works with general graphs using a standard random spanning tree reduction.
翻訳日:2023-05-03 14:07:00 公開日:2023-05-02
# 反応流の物理インフォームドセグメンテーションのためのジャコビアンスケールK平均クラスタリング

Jacobian-Scaled K-means Clustering for Physics-Informed Segmentation of Reacting Flows ( http://arxiv.org/abs/2305.01539v1 )

ライセンス: Link先を確認
Shivam Barwey, Venkat Raman(参考訳) 本研究は, ヤコビアンスケールの K-means (JSK-means) クラスタリングを導入し, K-means フレームワークを中心とした物理インフォーマルクラスタリング戦略を提案する。 従来のユークリッド距離ベクトルを活用する代わりに、JSK-ミーンズ法は、クラスターセントロイドで評価された力学系ヤコビアンから得られる行列によってスケールされた距離ベクトルを演算する。 この研究の目的は、JSK-meansアルゴリズムが、入力データセットを変更することなく、どのようにして動的に類似した領域をキャプチャするクラスタを生成するかを示すことである。 このアルゴリズムは複雑な反応流シミュレーションデータセット(チャネルデトネーション構成)で実証され、熱化学組成空間のダイナミクスは、高度に非線形で硬いアレニウスに基づく化学源の用語で知られている。 物理空間と組成空間の両方におけるクラスター分割の解釈により、jsk-meansは標準のk-meansが生成するクラスターを高い化学感度の領域(例えば、デトネーション反応帯付近のピーク熱放出速度の領域)にシフトさせる方法が明らかになった。 本稿では, クラスタリング技術におけるジャコビアンスケール距離の利用のメリット, 特にJSK-means法は, 反応流(および他の多物理)アプリケーションにおいて, 従来の分割に基づくモデリング戦略を改善する可能性を示す。

This work introduces Jacobian-scaled K-means (JSK-means) clustering, which is a physics-informed clustering strategy centered on the K-means framework. The method allows for the injection of underlying physical knowledge into the clustering procedure through a distance function modification: instead of leveraging conventional Euclidean distance vectors, the JSK-means procedure operates on distance vectors scaled by matrices obtained from dynamical system Jacobians evaluated at the cluster centroids. The goal of this work is to show how the JSK-means algorithm -- without modifying the input dataset -- produces clusters that capture regions of dynamical similarity, in that the clusters are redistributed towards high-sensitivity regions in phase space and are described by similarity in the source terms of samples instead of the samples themselves. The algorithm is demonstrated on a complex reacting flow simulation dataset (a channel detonation configuration), where the dynamics in the thermochemical composition space are known through the highly nonlinear and stiff Arrhenius-based chemical source terms. Interpretations of cluster partitions in both physical space and composition space reveal how JSK-means shifts clusters produced by standard K-means towards regions of high chemical sensitivity (e.g., towards regions of peak heat release rate near the detonation reaction zone). The findings presented here illustrate the benefits of utilizing Jacobian-scaled distances in clustering techniques, and the JSK-means method in particular displays promising potential for improving former partition-based modeling strategies in reacting flow (and other multi-physics) applications.
翻訳日:2023-05-03 13:59:10 公開日:2023-05-02
# FIREBALL:構造化されたゲーム状態情報を備えたダンジョンとドラゴンの実際のプレイデータセット

FIREBALL: A Dataset of Dungeons and Dragons Actual-Play with Structured Game State Information ( http://arxiv.org/abs/2305.01528v1 )

ライセンス: Link先を確認
Andrew Zhu and Karmanya Aggarwal and Alexander Feng and Lara J. Martin and Chris Callison-Burch(参考訳) Dungeons & Dragons(ダンジョンズ&ドラゴンズ、D&D)は、プレイヤー間の複雑な自然言語インタラクションと隠れ状態情報を備えたテーブルトップロールプレイングゲームである。 近年の研究では、状態情報にアクセス可能な大規模言語モデル(LLM)が、ダイアログ履歴のみを使用するLLMよりも高品質なゲームターンを生成できることが示されている。 しかし、前作ではヒューリスティックに作成され、真の金の標準的なゲーム状態ではなかったゲーム状態情報を使用していた。 本研究では,Discord上の実D&Dゲームプレイから25,000近いユニークなセッションを含む大規模データセットFIREBALLを提案する。 Avraeボットは、人々がD&Dをオンラインでプレイし、言語、ゲームコマンド、そして基礎となるゲーム状態情報をキャプチャするのを助けるために開発された。 本稿では,avrae状態情報を用いて,自動計測と品質判断の両方を改善し,自然言語生成(nlg)を改善できることを実証する。 さらに,LLMは,特に微調整後に実行可能なAvraeコマンドを生成することができることを示す。

Dungeons & Dragons (D&D) is a tabletop roleplaying game with complex natural language interactions between players and hidden state information. Recent work has shown that large language models (LLMs) that have access to state information can generate higher quality game turns than LLMs that use dialog history alone. However, previous work used game state information that was heuristically created and was not a true gold standard game state. We present FIREBALL, a large dataset containing nearly 25,000 unique sessions from real D\&D gameplay on Discord with true game state info. We recorded game play sessions of players who used the Avrae bot, which was developed to aid people in playing D&D online, capturing language, game commands and underlying game state information. We demonstrate that FIREBALL can improve natural language generation (NLG) by using Avrae state information, improving both automated metrics and human judgments of quality. Additionally, we show that LLMs can generate executable Avrae commands, particularly after finetuning.
翻訳日:2023-05-03 13:58:40 公開日:2023-05-02
# Huatuo-26M:中国の大規模医療QAデータセット

Huatuo-26M, a Large-scale Chinese Medical QA Dataset ( http://arxiv.org/abs/2305.01526v1 )

ライセンス: Link先を確認
Jianquan Li, Xidong Wang, Xiangbo Wu, Zhiyi Zhang, Xiaolong Xu, Jie Fu, Prayag Tiwari, Xiang Wan, Benyou Wang(参考訳) 本稿では,2600万対のQAペアを用いた医療質問応答(QA)データセットをリリースする。 検索と生成の両面で、データセットの既存のアプローチをベンチマークします。 実験の結果、既存のモデルは予想よりもはるかに低い性能を示し、リリースデータセットは、まだ事前訓練された言語モデル時代において困難であることがわかった。 さらに、提案したデータセットの利点を様々な面で実験的に示す。 (i)ゼロショット方式で他のQAデータセットのトレーニングモデル (ii)検索提供世代(rag)の外部知識として、及び 3)事前学習コーパスとしてQAペアを用いて,既存の事前学習言語モデルを改善する。 このデータセットは、医学研究に貢献するだけでなく、患者と臨床医の両方にも役立ちます。 https://github.com/FreedomIntelligence/Huatuo-26M} を参照。

In this paper, we release a largest ever medical Question Answering (QA) dataset with 26 million QA pairs. We benchmark many existing approaches in our dataset in terms of both retrieval and generation. Experimental results show that the existing models perform far lower than expected and the released dataset is still challenging in the pre-trained language model era. Moreover, we also experimentally show the benefit of the proposed dataset in many aspects: (i) trained models for other QA datasets in a zero-shot fashion; and (ii) as external knowledge for retrieval-augmented generation (RAG); and (iii) improving existing pre-trained language models by using the QA pairs as a pre-training corpus in continued training manner. We believe that this dataset will not only contribute to medical research but also facilitate both the patients and clinical doctors. See \url{https://github.com/FreedomIntelligence/Huatuo-26M}.
翻訳日:2023-05-03 13:58:24 公開日:2023-05-02
# 長期新奇探索における表現力の解き放つ

Unlocking the Power of Representations in Long-term Novelty-based Exploration ( http://arxiv.org/abs/2305.01521v1 )

ライセンス: Link先を確認
Alaa Saade, Steven Kapturowski, Daniele Calandriello, Charles Blundell, Pablo Sprechmann, Leopoldo Sarra, Oliver Groth, Michal Valko, Bilal Piot(参考訳) 本稿では,クラスタベースオンライン密度推定(recode)によるロバスト探索について紹介する。これは非パラメトリック手法で,選択された埋め込み空間における類似度に基づいて,状態クラスタの訪問回数を推定する。 古典的なクラスタリングをDeep RLの定常的な設定に適応させることで、RECODEは何千回ものエピソードの訪問数を効率的に追跡することができる。 さらに, MD-Hard-8における3次元探索課題の組において, RECODEと組み合わせて新しい最先端技術を実現する, マスク付きトランスフォーマーアーキテクチャを多段階予測に活用した逆ダイナミクス損失の新たな一般化を提案する。 RECODEはまた、アタリゲームにおける新しい最先端のゲームも設定しており、"Pitfall!"でエンドスクリーンに到達した最初のエージェントである。

We introduce Robust Exploration via Clustering-based Online Density Estimation (RECODE), a non-parametric method for novelty-based exploration that estimates visitation counts for clusters of states based on their similarity in a chosen embedding space. By adapting classical clustering to the nonstationary setting of Deep RL, RECODE can efficiently track state visitation counts over thousands of episodes. We further propose a novel generalization of the inverse dynamics loss, which leverages masked transformer architectures for multi-step prediction; which in conjunction with RECODE achieves a new state-of-the-art in a suite of challenging 3D-exploration tasks in DM-Hard-8. RECODE also sets new state-of-the-art in hard exploration Atari games, and is the first agent to reach the end screen in "Pitfall!".
翻訳日:2023-05-03 13:57:42 公開日:2023-05-02
# 大規模カーシェアリングプラットフォームにおける事前学習の有効性

Discovering the Effectiveness of Pre-Training in a Large-scale Car-sharing Platform ( http://arxiv.org/abs/2305.01506v1 )

ライセンス: Link先を確認
Kyung Ho Park and Hyunhee Chung(参考訳) ディープラーニングの最近の進歩は、さまざまなインテリジェントな輸送アプリケーション、特にカーシェアリングプラットフォームに力を与えている。 カーシェアリングサービスの従来の運用は、フリート管理における人間の関与に大きく依存していたが、現代のカーシェアリングプラットフォームでは、利用者が物理的な訪問なしで車を検査するために使用前後にカーイメージをアップロードすることができる。 上記の検査作業を自動化するために、従来のアプローチではディープニューラルネットワークを利用した。 彼らは一般的に、ラベル付きデータセットの限られた数で有効なモデルを確立するためのデファクトテクニックである事前トレーニングを採用した。 カーイメージに対処する候補の実践者はラベル付きデータセットの欠如に悩まされる可能性が高いため、事前トレーニングの有効性について高度なアナロジーを分析した。 しかし、先行研究は、主に事前学習の有効性について少し注目を浴びた。 本研究は、前述の分析の欠如に起因して、カーシェアリングプラットフォームにおける画像認識における様々な事前学習手法の有効性を明らかにするための一連の分析手法を提案する。 ライブサービスにおいて,カーシェアリングプラットフォームにおける実世界画像認識タスクを2つ設定し,複数ショットおよび少数ショットの課題設定のもとに設定し,どの事前学習方法が最も効果的なパフォーマンスを達成するかを精査した。 さらに,事前学習と微調整は,ニューラルネットワークにどのように異なる知識を伝達するかを正確に理解するために分析した。

Recent progress of deep learning has empowered various intelligent transportation applications, especially in car-sharing platforms. While the traditional operations of the car-sharing service highly relied on human engagements in fleet management, modern car-sharing platforms let users upload car images before and after their use to inspect the cars without a physical visit. To automate the aforementioned inspection task, prior approaches utilized deep neural networks. They commonly employed pre-training, a de-facto technique to establish an effective model under the limited number of labeled datasets. As candidate practitioners who deal with car images would presumably get suffered from the lack of a labeled dataset, we analyzed a sophisticated analogy into the effectiveness of pre-training is important. However, prior studies primarily shed a little spotlight on the effectiveness of pre-training. Motivated by the aforementioned lack of analysis, our study proposes a series of analyses to unveil the effectiveness of various pre-training methods in image recognition tasks at the car-sharing platform. We set two real-world image recognition tasks in the car-sharing platform in a live service, established them under the many-shot and few-shot problem settings, and scrutinized which pre-training method accomplishes the most effective performance in which setting. Furthermore, we analyzed how does the pre-training and fine-tuning convey different knowledge to the neural networks for a precise understanding.
翻訳日:2023-05-03 13:56:28 公開日:2023-05-02
# 識別器を用いた検索・拡張モデルにおける誤情報の影響について

Discern and Answer: Mitigating the Impact of Misinformation in Retrieval-Augmented Models with Discriminators ( http://arxiv.org/abs/2305.01579v1 )

ライセンス: Link先を確認
Giwon Hong, Jeonghwan Kim, Junmo Kang, Sung-Hyon Myaeng, Joyce Jiyoung Whang(参考訳) 質問応答のための既存の検索強化言語モデル(LM)は、全ての検索された情報が事実正しいと仮定する。 本研究では,検索した文書に誤情報を含ませるより現実的なシナリオについて検討し,両者の対立を引き起こす。 既存のモデルでは、微調整とテキスト内学習の両方において、そのような情報に対して非常に脆弱である。 本稿では, 識別器を明示的に微調整したり, GPT-3における識別能力を引き出すことによって, 誤情報に頑健化させる手法を提案する。 オープンドメインの質問応答に関する実験結果から,これらのアプローチは知識の衝突に対するlmsの堅牢性を大幅に改善することが示された。 また、コンテキスト内学習プロセスで微調整されたモデルの判断をインターリーブし、両方の世界のベストを生かすための新しい道を開くことに関する知見も提供します。

Most existing retrieval-augmented language models (LMs) for question answering assume all retrieved information is factually correct. In this work, we study a more realistic scenario in which retrieved documents may contain misinformation, causing conflicts among them. We observe that the existing models are highly brittle to such information in both fine-tuning and in-context few-shot learning settings. We propose approaches to make retrieval-augmented LMs robust to misinformation by explicitly fine-tuning a discriminator or prompting to elicit discrimination capability in GPT-3. Our empirical results on open-domain question answering show that these approaches significantly improve LMs' robustness to knowledge conflicts. We also provide our findings on interleaving the fine-tuned model's decision with the in-context learning process, paving a new path to leverage the best of both worlds.
翻訳日:2023-05-03 13:50:33 公開日:2023-05-02
# 乳幼児の涙分析のための自己指導型学習

Self-supervised learning for infant cry analysis ( http://arxiv.org/abs/2305.01578v1 )

ライセンス: Link先を確認
Arsenii Gorin, Cem Subakan, Sajjad Abdoli, Junhao Wang, Samantha Latremouille, Charles Onu(参考訳) 本稿では,1000人以上の新生児の臨床的徴候を含む泣き記録データベースを解析するための自己教師付き学習(SSL)について検討する。 具体的には, 痛み, 飢え, 不快感などの涙の引き金の同定とともに, 涙による神経障害の検出を標的とした。 医療現場で大規模なデータベースに注釈をつけるのは高価で時間を要するため、通常は何年もの間、複数の専門家の協力を必要としている。 ラベルのない大量のオーディオデータを活用して有用な表現を学ぶことは、堅牢なモデルの構築コストを下げ、最終的には臨床ソリューションを削減できる。 本研究では,大規模オーディオデータセット上で畳み込みニューラルネットワークの自己教師あり事前学習実験を行う。 SSLコントラスト損失(SimCLR)によるプレトレーニングは,神経損傷とクリークトリガーの両方に対する教師付きプレトレーニングよりも有意に優れていた。 さらに,未ラベルの幼児の泣き声を用いたSSLベースのドメイン適応により,さらなる性能向上を示す。 また,このようなsslベースの事前学習をcry soundに適応させることで,システム全体のラベル付きデータの必要性が減少することを示した。

In this paper, we explore self-supervised learning (SSL) for analyzing a first-of-its-kind database of cry recordings containing clinical indications of more than a thousand newborns. Specifically, we target cry-based detection of neurological injury as well as identification of cry triggers such as pain, hunger, and discomfort. Annotating a large database in the medical setting is expensive and time-consuming, typically requiring the collaboration of several experts over years. Leveraging large amounts of unlabeled audio data to learn useful representations can lower the cost of building robust models and, ultimately, clinical solutions. In this work, we experiment with self-supervised pre-training of a convolutional neural network on large audio datasets. We show that pre-training with SSL contrastive loss (SimCLR) performs significantly better than supervised pre-training for both neuro injury and cry triggers. In addition, we demonstrate further performance gains through SSL-based domain adaptation using unlabeled infant cries. We also show that using such SSL-based pre-training for adaptation to cry sounds decreases the need for labeled data of the overall system.
翻訳日:2023-05-03 13:50:19 公開日:2023-05-02
# Pick-a-Pic: テキスト対画像生成のためのユーザ嗜好のオープンデータセット

Pick-a-Pic: An Open Dataset of User Preferences for Text-to-Image Generation ( http://arxiv.org/abs/2305.01569v1 )

ライセンス: Link先を確認
Yuval Kirstain and Adam Polyak and Uriel Singer and Shahbuland Matiana and Joe Penna and Omer Levy(参考訳) テキスト・ツー・イメージのユーザから人間の好みの大規模なデータセットを収集する能力は通常、企業に限定されており、そのようなデータセットは一般にはアクセスできない。 この問題に対処するため,テキスト・ツー・イメージのユーザが画像を生成し,好みを指定できるWebアプリを開発した。 このWebアプリを使ってPick-a-Picという,テキストと画像のプロンプトの大規模でオープンなデータセットを構築します。 このデータセットを利用して、CLIPベースのスコアリング機能PickScoreをトレーニングし、人間の好みを予測するタスクで超人的なパフォーマンスを示す。 次に、モデル評価を行うPickScoreの能力を検証し、他の自動評価指標よりも人格との相関が優れていることを観察する。 そこで我々は、将来のテキスト・画像生成モデルの評価にPickScoreを使うこと、MS-COCOよりも関連するデータセットとしてPick-a-Picプロンプトを使用することを推奨する。 最後に、PickScoreが既存のテキスト・ツー・イメージモデルをどのように強化できるかをランキングで示す。

The ability to collect a large dataset of human preferences from text-to-image users is usually limited to companies, making such datasets inaccessible to the public. To address this issue, we create a web app that enables text-to-image users to generate images and specify their preferences. Using this web app we build Pick-a-Pic, a large, open dataset of text-to-image prompts and real users' preferences over generated images. We leverage this dataset to train a CLIP-based scoring function, PickScore, which exhibits superhuman performance on the task of predicting human preferences. Then, we test PickScore's ability to perform model evaluation and observe that it correlates better with human rankings than other automatic evaluation metrics. Therefore, we recommend using PickScore for evaluating future text-to-image generation models, and using Pick-a-Pic prompts as a more relevant dataset than MS-COCO. Finally, we demonstrate how PickScore can enhance existing text-to-image models via ranking.
翻訳日:2023-05-03 13:50:03 公開日:2023-05-02
# OTIEA:言語横断的エンティティアライメントのためのオントロジー強化三種内在性相関

OTIEA:Ontology-enhanced Triple Intrinsic-Correlation for Cross-lingual Entity Alignment ( http://arxiv.org/abs/2305.01561v1 )

ライセンス: Link先を確認
Zhishuo Zhang and Chengxiang Tan and Xueyan Zhao and Min Yang and Chaoqun Jiang(参考訳) 十分な外部リソースを持たない言語間およびドメイン間の知識アライメントは、不規則なデータを融合するための基本的で重要なタスクである。 異なる知識グラフ(KG)から等価物体を発見することを目的とした要素融合プロセスとして,近年,産業や学術研究から,エンティティアライメント(EA)が注目されている。 既存のEA手法の多くは、通常、隣のノード、構造情報、外部リソースを通してエンティティと関係の相関を探求する。 しかし、三重要素と役割情報の間の複雑な内在的相互作用はこれらの方法ではほとんどモデル化されず、三重要素の図解が不十分になる可能性がある。 加えて、外部リソースは通常、いくつかのシナリオ、特に言語横断アプリケーションやドメイン横断アプリケーションでは利用できない。 そこで本論文では,オントロジー対と三重認識による役割強化機構に基づく新しいユニバーサルEAフレームワーク(OTIEA)を提案する。 具体的には、独立要素の代わりに固有相関とオントロジーペア情報をマイニングすることで、オントロジー強化三重エンコーダを設計する。 さらに、EA指向の表現は、役割多様性を融合させて三重認識エンティティデコーダで得ることができる。 最後に、シードエンティティペアを拡張するために双方向反復アライメント戦略が展開される。 実世界の3つのデータセットに対する実験結果から,本フレームワークはベースラインと比較して競争性能が向上することが示された。

Cross-lingual and cross-domain knowledge alignment without sufficient external resources is a fundamental and crucial task for fusing irregular data. As the element-wise fusion process aiming to discover equivalent objects from different knowledge graphs (KGs), entity alignment (EA) has been attracting great interest from industry and academic research recent years. Most of existing EA methods usually explore the correlation between entities and relations through neighbor nodes, structural information and external resources. However, the complex intrinsic interactions among triple elements and role information are rarely modeled in these methods, which may lead to the inadequate illustration for triple. In addition, external resources are usually unavailable in some scenarios especially cross-lingual and cross-domain applications, which reflects the little scalability of these methods. To tackle the above insufficiency, a novel universal EA framework (OTIEA) based on ontology pair and role enhancement mechanism via triple-aware attention is proposed in this paper without introducing external resources. Specifically, an ontology-enhanced triple encoder is designed via mining intrinsic correlations and ontology pair information instead of independent elements. In addition, the EA-oriented representations can be obtained in triple-aware entity decoder by fusing role diversity. Finally, a bidirectional iterative alignment strategy is deployed to expand seed entity pairs. The experimental results on three real-world datasets show that our framework achieves a competitive performance compared with baselines.
翻訳日:2023-05-03 13:49:44 公開日:2023-05-02
# 言語間アライメントのための三重項注意による三重項表現

Type-enhanced Ensemble Triple Representation via Triple-aware Attention for Cross-lingual Entity Alignment ( http://arxiv.org/abs/2305.01556v1 )

ライセンス: Link先を確認
Zhishuo Zhang and Chengxiang Tan and Haihang Wang and Xueyan Zhao and Min Yang(参考訳) エンティティアライメント(EA)は、異なるKGから同じ現実世界のオブジェクトを参照するエンティティを見つけることを目的として、言語間およびドメイン間知識グラフ(KG)を統合するための重要なタスクである。 既存の手法の多くは、三重要素の関連性を埋め込んだ方法でマイニングすることで実体表現の整合性を生成する。 本稿では,組合わせ三重特異性とエンティティの役割特徴を考慮した上記の課題を克服するために,三重項認識による三重項認識を用いたtteaという新しい枠組みを提案する。 特に、アンサンブル三重項表現は、意味空間とタイプ空間の間の情報キャリアとしての関係を導出するので、空間変換や情報伝達におけるノイズの影響を特異性を考慮した三重項の注意を通じて円滑に制御することができる。 さらに,トリプルウェアエンティティ拡張を用いて,トリプル要素の役割の多様性をモデル化する。 3つの実世界のクロスランガルデータセットに関する大規模な実験は、我々のフレームワークが最先端の手法より優れていることを示した。

Entity alignment(EA) is a crucial task for integrating cross-lingual and cross-domain knowledge graphs(KGs), which aims to discover entities referring to the same real-world object from different KGs. Most existing methods generate aligning entity representation by mining the relevance of triple elements via embedding-based methods, paying little attention to triple indivisibility and entity role diversity. In this paper, a novel framework named TTEA -- Type-enhanced Ensemble Triple Representation via Triple-aware Attention for Cross-lingual Entity Alignment is proposed to overcome the above issues considering ensemble triple specificity and entity role features. Specifically, the ensemble triple representation is derived by regarding relation as information carrier between semantic space and type space, and hence the noise influence during spatial transformation and information propagation can be smoothly controlled via specificity-aware triple attention. Moreover, our framework uses triple-ware entity enhancement to model the role diversity of triple elements. Extensive experiments on three real-world cross-lingual datasets demonstrate that our framework outperforms state-of-the-art methods.
翻訳日:2023-05-03 13:49:18 公開日:2023-05-02
# 限定的関係抽出のための大規模言語モデルのパワーを解き放つには?

How to Unleash the Power of Large Language Models for Few-shot Relation Extraction? ( http://arxiv.org/abs/2305.01555v1 )

ライセンス: Link先を確認
Xin Xu, Yuqi Zhu, Xiaohan Wang, Ningyu Zhang(参考訳) 言語モデルのスケーリングは、広範囲にわたるnlpタスクに革命をもたらしたが、大規模言語モデルによる限定的な関係抽出を包括的に検討した例はほとんどない。 本稿では,GPT-3.5による一括関係抽出のための基本手法,文脈内学習とデータ生成について,徹底的な実験により検討する。 少数ショットの性能を向上させるため,タスク関連命令とスキーマ制約付きデータ生成を提案する。 コンテキスト内学習は,従来のプロンプト学習手法と同等のパフォーマンスを達成し,大規模言語モデルによるデータ生成は,4つの広く研究された関係抽出データセットに対して,新たな最先端の限定的な結果を得るための,これまでのソリューションを促進できる。 我々の研究が、数ショットの関係抽出における大規模言語モデルの能力に関する将来の研究を刺激することを期待している。 コードは \url{https://github.com/zjunlp/deepke/tree/main/example/llmで利用可能である。

Scaling language models have revolutionized widespread NLP tasks, yet little comprehensively explored few-shot relation extraction with large language models. In this paper, we investigate principal methodologies, in-context learning and data generation, for few-shot relation extraction via GPT-3.5 through exhaustive experiments. To enhance few-shot performance, we further propose task-related instructions and schema-constrained data generation. We observe that in-context learning can achieve performance on par with previous prompt learning approaches, and data generation with the large language model can boost previous solutions to obtain new state-of-the-art few-shot results on four widely-studied relation extraction datasets. We hope our work can inspire future research for the capabilities of large language models in few-shot relation extraction. Code is available in \url{https://github.com/zjunlp/DeepKE/tree/main/example/llm.
翻訳日:2023-05-03 13:48:57 公開日:2023-05-02
# 量子鍵分布ネットワークで確保された正確なタイミング設備間の国際時間移動

International time transfer between precise timing facilities secured with a quantum key distribution network ( http://arxiv.org/abs/2305.01554v1 )

ライセンス: Link先を確認
Francesco Picciariello, Francesco Vedovato, Davide Orsucci, Pablo Nahuel Dominguez, Thomas Zechel, Marco Avesani, Matteo Padovan, Giulio Foletto, Luca Calderaro, Daniele Dequal, Amita Shrestha, Ludwig Blumel, Johann Furthner, Giuseppe Vallone, Paolo Villoresi, Tobias D. Schmidt, and Florian Moll(参考訳) GPSやガリレオのようなグローバルナビゲーション衛星システム(GNSS)は、グローバルに正確な時間と空間の座標を提供し、現代社会の重要な基盤の一部である。 GNSSを確実に運用するには、世界中のPTF(Precise Timing Facility)にホストされているいくつかの独立時計など、高度に正確で安定したシステム時間が必要である。 周期的に、PTF間の相対クロックオフセットを測定し、GNSS衛星クロックを同期させるフォールバックシステムを持つ。 PTF間の通信のセキュリティと整合性は最重要であり、妥協すればGNSSサービスの破壊につながる可能性がある。 したがって、この技術は情報理論のセキュリティを提供するため、量子鍵分布(QKD)を介して保護するための魅力的なユースケースである。 我々は,オベルプフェンホーフェン(Oberpfaffenhofen)とマテラ(Italy)の2つのPTF間で,カラスが飛ぶと900km以上離れる暗号化時間同期情報を共有して,そのようなユースケースの実証実験を行った。 この大きな距離をつなぐためには、衛星-qkdシステムと、光学地上局(ogs)をptfの実際の位置に接続するための"ラストマイル"地上リンクが必要である。 我々のデモでは、2つの完全なQKDシステムが両方の地点で最後のマイル接続を保護するためにデプロイされ、今後のQKD衛星がOberpfaffenhofenとMateraの間で鍵を分配できることをシミュレーションで示しました。

Global Navigation Satellite Systems (GNSSs), such as GPS and Galileo, provide precise time and space coordinates globally and constitute part of the critical infrastructure of modern society. To reliably operate GNSS, a highly accurate and stable system time is required, such as the one provided by several independent clocks hosted in Precise Timing Facilities (PTFs) around the world. Periodically, the relative clock offset between PTFs is measured to have a fallback system to synchronize the GNSS satellite clocks. The security and integrity of the communication between PTFs is of paramount importance: if compromised, it could lead to disruptions to the GNSS service. Therefore, it is a compelling use-case for protection via Quantum Key Distribution (QKD), since this technology provides information-theoretic security. We have performed a field trial demonstration of such use-case by sharing encrypted time synchronization information between two PTFs, one located in Oberpfaffenhofen (Germany) and one in Matera (Italy) - more than 900km apart as the crow flies. To bridge this large distance, a satellite-QKD system is required, plus a "last-mile" terrestrial link to connect the optical ground station (OGS) to the actual location of the PTF. In our demonstration we have deployed two full QKD systems to protect the last-mile connection at both the locations and have shown via simulation that upcoming QKD satellites will be able to distribute keys between Oberpfaffenhofen and Matera exploiting already existing OGSs.
翻訳日:2023-05-03 13:48:43 公開日:2023-05-02
# 家族の満足感の予測因子としての家系図

The Family Tree Graph as a Predictor of the Family Members' Satisfaction with One Another ( http://arxiv.org/abs/2305.01552v1 )

ライセンス: Link先を確認
Teddy Lazebnik(参考訳) 個人の核家族への満足度は、日常生活において重要な役割を担っている。 このように、家族に対する満足度を決定する特徴をよりよく理解することで、より良い社会学的政策の設計への扉を開くことができる。 そこで本研究では,家族系図と家族構成員の核家族および拡張家族に対する満足度との関係について検討する。 家系図と家族間の満足度を含む486家族からデータを収集した。 我々は,家族の満足度を75%程度説明できるモデルを得る。 より満足した家族の指標が3つ見つかった。 第一に、大家族は平均してより満足している。 さらに、同じ親の子供を持つ家族、つまり、継兄弟がいない家族は、既に大人になったとき、兄弟姉妹と親の両方の満足度も高まる。 最後に、家族の最も古い世代の平均的な満足度は、全家族の満足度と正の線形および非線形の相関を持つ。

Individuals' satisfaction with their nuclear and extended family plays a critical role in individuals everyday life. Thus, a better understanding of the features that determine one's satisfaction with her family can open the door to the design of better sociological policies. To this end, this study examines the relationship between the family tree graph and family members' satisfaction with their nuclear and extended family. We collected data from 486 families which included a family tree graph and family members' satisfaction with each other. We obtain a model that is able to explain 75\% of the family members' satisfaction with one another. We found three indicators for more satisfied families. First, larger families, on average, have more satisfied members. Moreover, families with kids from the same parents - i.e., without step-siblings also express more satisfaction from both their siblings and parents when the children are already adults. Lastly, the average satisfaction of the family's oldest alive generation has a positive linear and non-linear correlation with the satisfaction of the entire extended family.
翻訳日:2023-05-03 13:48:12 公開日:2023-05-02
# 類似性学習政策による言語モデルの近似記憶の軽減

Mitigating Approximate Memorization in Language Models via Dissimilarity Learned Policy ( http://arxiv.org/abs/2305.01550v1 )

ライセンス: Link先を確認
Aly M. Kassem(参考訳) 大きな言語モデル(LLM)は大量のデータに基づいてトレーニングされており、個人のプライバシーを侵害する可能性のある機密情報を含むことができる。 LLMはトレーニングデータの一部を記憶し、相手が適切にプロンプトした時にそのデータを冗長に出力することを示した。 これまでの研究は主に、データのプリプロセッシングと差分プライバシ技術に焦点を絞って、暗記に対処したり、口頭暗記を排他的に防止したりしてきた。 しかし、これらの方法は保護されるデータの構造に関する明示的かつ暗黙的な仮定に依存しているため、しばしば問題に対する不完全な解決策となる。 そこで本研究では,LLMを微調整し,近似記憶を緩和するための強化学習手法(PPO)を用いた新しいフレームワークを提案する。 提案手法では,BERTScore や SacreBLEU などの負の類似度スコアを報酬信号として利用し,相似性ポリシーを学習する。 その結果,このフレームワークは,生成したサンプルのコヒーレンスやフラレンシーを高く保ちながら,近似記憶を効果的に緩和できることがわかった。 さらに,LLMにおける記憶の増大が知られている長期的文脈を含む,様々な状況において,近似記憶の緩和に頑健である。

Large Language models (LLMs) are trained on large amounts of data, which can include sensitive information that may compromise personal privacy. LLMs showed to memorize parts of the training data and emit those data verbatim when an adversary prompts appropriately. Previous research has primarily focused on data preprocessing and differential privacy techniques to address memorization or prevent verbatim memorization exclusively, which can give a false sense of privacy. However, these methods rely on explicit and implicit assumptions about the structure of the data to be protected, which often results in an incomplete solution to the problem. To address this, we propose a novel framework that utilizes a reinforcement learning approach (PPO) to fine-tune LLMs to mitigate approximate memorization. Our approach utilizes a negative similarity score, such as BERTScore or SacreBLEU, as a reward signal to learn a dissimilarity policy. Our results demonstrate that this framework effectively mitigates approximate memorization while maintaining high levels of coherence and fluency in the generated samples. Furthermore, our framework is robust in mitigating approximate memorization across various circumstances, including longer context, which is known to increase memorization in LLMs.
翻訳日:2023-05-03 13:47:59 公開日:2023-05-02
# ブートストラップによる神経自己改善の促進

Accelerating Neural Self-Improvement via Bootstrapping ( http://arxiv.org/abs/2305.01547v1 )

ライセンス: Link先を確認
Kazuki Irie and J\"urgen Schmidhuber(参考訳) シーケンス処理ニューラルネットワーク(NN)を用いたショット学習は、最近、大規模言語モデルのコンテキストにおいて、新たな注目を集めている。 標準NウェイKショット学習設定では、NKラベル付きサンプルのシーケンスを観察することにより、NNを明示的に最適化し、未ラベル入力を分類する。 これによりNNは、限られた数のトレーニング例から、最適なパフォーマンスを達成するための学習アルゴリズムを学ぶ必要がある。 そこで本研究では,最近提案した自己学習メタラーニングをNNの複数ショット学習者に適用することにより,少数ショット学習のさらなる加速を促す補助的損失について検討する。 シミュレーション結果は、標準のMini-ImageNetデータセットで得られる。 私たちのコードは公開されています。

Few-shot learning with sequence-processing neural networks (NNs) has recently attracted a new wave of attention in the context of large language models. In the standard N-way K-shot learning setting, an NN is explicitly optimised to learn to classify unlabelled inputs by observing a sequence of NK labelled examples. This pressures the NN to learn a learning algorithm that achieves optimal performance, given the limited number of training examples. Here we study an auxiliary loss that encourages further acceleration of few-shot learning, by applying recently proposed bootstrapped meta-learning to NN few-shot learners: we optimise the K-shot learner to match its own performance achievable by observing more than NK examples, using only NK examples. Promising results are obtained on the standard Mini-ImageNet dataset. Our code is public.
翻訳日:2023-05-03 13:47:37 公開日:2023-05-02
# autocolor:多色ホログラムのための学習型光パワー制御

AutoColor: Learned Light Power Control for Multi-Color Holograms ( http://arxiv.org/abs/2305.01611v1 )

ライセンス: Link先を確認
Yicheng Zhan, Koray Kavakl{\i}, Hakan Urey, Qi Sun, Kaan Ak\c{s}it(参考訳) 多色ホログラムは、複数の光源からの同時照明に依存する。 これらの多色ホログラムは、従来の単色ホログラムよりも優れた光源を利用することができ、ホログラムディスプレイのダイナミックレンジを改善することができる。 本稿では,多色ホログラムの照明に必要な最適光源パワーを推定する最初の学習手法である,プロジェクト名を紹介する。 本研究では,合成画像とその奥行き情報を用いて,最初の多色ホログラムデータセットを構築する。 生成,大言語,単眼深度推定モデルを組み合わせたトレンドパイプラインを用いて,これらの合成画像を生成する。 最後に、我々のデータセットを用いて学習モデルをトレーニングし、画像の品質を損なうことなく、多色ホログラムの最適化に必要なステップ数を1000ドルから70ドルに大幅に削減することを示した。

Multi-color holograms rely on simultaneous illumination from multiple light sources. These multi-color holograms could utilize light sources better than conventional single-color holograms and can improve the dynamic range of holographic displays. In this letter, we introduce \projectname, the first learned method for estimating the optimal light source powers required for illuminating multi-color holograms. For this purpose, we establish the first multi-color hologram dataset using synthetic images and their depth information. We generate these synthetic images using a trending pipeline combining generative, large language, and monocular depth estimation models. Finally, we train our learned model using our dataset and experimentally demonstrate that \projectname significantly decreases the number of steps required to optimize multi-color holograms from $>1000$ to $70$ iteration steps without compromising image quality.
翻訳日:2023-05-03 13:40:44 公開日:2023-05-02
# ヘイスタックにおけるニューロンの発見 : スパースプローブを用いたケーススタディ

Finding Neurons in a Haystack: Case Studies with Sparse Probing ( http://arxiv.org/abs/2305.01610v1 )

ライセンス: Link先を確認
Wes Gurnee, Neel Nanda, Matthew Pauly, Katherine Harvey, Dmitrii Troitskii, Dimitris Bertsimas(参考訳) 大規模言語モデル(LLM)の急速な採用と展開にもかかわらず、これらのモデルの内部計算は不透明で理解されていない。 本研究では,LLMの内部ニューロン活性化において,高レベルのヒト解釈可能特徴がどのように表現されているかを理解することを目的とする。 私たちは、これらの内部アクティベーションに対して、$k$-スパース線形分類子(probes)を訓練して、入力中の特徴の存在を予測する。 k=1$で、特定の特徴に高い関係を持つ個々のニューロンを局在させ、LLMの一般的な性質を説明するために多くのケーススタディを実行する。 特に、初期層は、重ね合わせにおける多くの特徴を表現するために、神経細胞の疎結合を利用し、中層は高次文脈特徴を表現するために専用のニューロンを持っているように見え、スケールの増大は平均的に表現の空間性を増大させるが、複数の種類のスケーリングダイナミクスが存在することを示す。 総じて、70万から690億のパラメータにまたがる7つの異なるモデルの10のカテゴリからなる100以上のユニークな特徴を探索する。

Despite rapid adoption and deployment of large language models (LLMs), the internal computations of these models remain opaque and poorly understood. In this work, we seek to understand how high-level human-interpretable features are represented within the internal neuron activations of LLMs. We train $k$-sparse linear classifiers (probes) on these internal activations to predict the presence of features in the input; by varying the value of $k$ we study the sparsity of learned representations and how this varies with model scale. With $k=1$, we localize individual neurons which are highly relevant for a particular feature, and perform a number of case studies to illustrate general properties of LLMs. In particular, we show that early layers make use of sparse combinations of neurons to represent many features in superposition, that middle layers have seemingly dedicated neurons to represent higher-level contextual features, and that increasing scale causes representational sparsity to increase on average, but there are multiple types of scaling dynamics. In all, we probe for over 100 unique features comprising 10 different categories in 7 different models spanning 70 million to 6.9 billion parameters.
翻訳日:2023-05-03 13:40:32 公開日:2023-05-02
# 多くのディープネットワークの訓練過程は、同じ低次元多様体を探索する

The Training Process of Many Deep Networks Explores the Same Low-Dimensional Manifold ( http://arxiv.org/abs/2305.01604v1 )

ライセンス: Link先を確認
Jialin Mao, Itay Griniasty, Han Kheng Teoh, Rahul Ramesh, Rubing Yang, Mark K. Transtrum, James P. Sethna, Pratik Chaudhari(参考訳) 我々は,訓練中の深層ネットワーク予測の軌跡を解析するための情報幾何学的手法を開発した。 基礎となる高次元確率モデルを調べることにより,訓練過程が効果的に低次元多様体を探索することを明らかにする。 様々なアーキテクチャ、サイズを持つネットワークは、様々な最適化手法、正規化技術、データ拡張技術、重み付け初期化を訓練し、予測空間の同じ多様体上に配置する。 この多様体の詳細を調べたところ、異なるアーキテクチャを持つネットワークは区別可能な軌跡に従うが、他の要因は最小限の影響を受けており、より大きなネットワークはより小さなネットワークと同様の多様体に沿って訓練し、予測空間の非常に異なる部分で初期化されるネットワークは、同様の多様体に沿って解に収束する。

We develop information-geometric techniques to analyze the trajectories of the predictions of deep networks during training. By examining the underlying high-dimensional probabilistic models, we reveal that the training process explores an effectively low-dimensional manifold. Networks with a wide range of architectures, sizes, trained using different optimization methods, regularization techniques, data augmentation techniques, and weight initializations lie on the same manifold in the prediction space. We study the details of this manifold to find that networks with different architectures follow distinguishable trajectories but other factors have a minimal influence; larger networks train along a similar manifold as that of smaller networks, just faster; and networks initialized at very different parts of the prediction space converge to the solution along a similar manifold.
翻訳日:2023-05-03 13:40:11 公開日:2023-05-02
# EgoLocate:スパースボディ搭載センサによるリアルタイムモーションキャプチャ、位置決め、マッピング

EgoLocate: Real-time Motion Capture, Localization, and Mapping with Sparse Body-mounted Sensors ( http://arxiv.org/abs/2305.01599v1 )

ライセンス: Link先を確認
Xinyu Yi, Yuxiao Zhou, Marc Habermann, Vladislav Golyanik, Shaohua Pan, Christian Theobalt, Feng Xu(参考訳) 人間と環境のセンシングはコンピュータビジョンとグラフィックの2つの重要なトピックである。 人間の動きはしばしば慣性センサーによって捉えられるが、環境はほとんどはカメラで再構成される。 6個の慣性測定ユニット(imus)と単眼電話カメラを含む、人体搭載センサから人間のモーションキャプチャ(mocap)、ローカライズ、マッピングを同時にリアルタイムに行うシステムであるegolocate(エゴロケート)に2つの技術を統合する。 一方、慣性モキャップは、大域的な位置決め信号の欠如により、大きな翻訳ドリフトに悩まされる。 EgoLocateは、画像ベースの同時ローカライゼーションとマッピング(SLAM)技術を利用して、再構成されたシーンで人間を見つける。 一方、SLAMは視覚的機能が貧弱な場合に失敗することが多い。 エゴロカテは慣性モキャップを伴い、カメラの動きに強く先行する。 両分野にとって重要な課題であるローカライゼーションは,2つの分野の最先端技術と比較して,我々の手法によって大きく改善されている。 私たちのコードはhttps://xinyu-yi.github.io/EgoLocate/で研究できます。

Human and environment sensing are two important topics in Computer Vision and Graphics. Human motion is often captured by inertial sensors, while the environment is mostly reconstructed using cameras. We integrate the two techniques together in EgoLocate, a system that simultaneously performs human motion capture (mocap), localization, and mapping in real time from sparse body-mounted sensors, including 6 inertial measurement units (IMUs) and a monocular phone camera. On one hand, inertial mocap suffers from large translation drift due to the lack of the global positioning signal. EgoLocate leverages image-based simultaneous localization and mapping (SLAM) techniques to locate the human in the reconstructed scene. On the other hand, SLAM often fails when the visual feature is poor. EgoLocate involves inertial mocap to provide a strong prior for the camera motion. Experiments show that localization, a key challenge for both two fields, is largely improved by our technique, compared with the state of the art of the two fields. Our codes are available for research at https://xinyu-yi.github.io/EgoLocate/.
翻訳日:2023-05-03 13:39:54 公開日:2023-05-02
# 言葉からコードへ:自然言語からのプログラム合成のためのハーネスデータ

From Words to Code: Harnessing Data for Program Synthesis from Natural Language ( http://arxiv.org/abs/2305.01598v1 )

ライセンス: Link先を確認
Anirudh Khatry, Joyce Cahoon, Jordan Henkel, Shaleen Deep, Venkatesh Emani, Avrilia Floratou, Sumit Gulwani, Vu Le, Mohammad Raza, Sherry Shi, Mukul Singh, Ashish Tiwari(参考訳) 基礎となるプログラミング言語やAPIは、熟練したプログラマでない多くのユーザにとって学ぶことが難しいため、データを正しく操作するプログラムを作成することは難しい作業です。 大規模言語モデル(LLM)は、自然言語からコードを生成する素晴らしい可能性を示しているが、データ操作領域では、意図したタスクの自然言語(NL)記述とは別に、タスクを実行するデータセットや「データコンテキスト」も持っている。 既存のアプローチでは、LPMに送信されたプロンプトに入力データから関連する情報を単に追加することで、データコンテキストを限定的に活用している。 本研究では、利用可能な入力データを用いてLSMが生成した候補プログラムを実行し、その出力を収集する。 プログラムが出力する3つの信号に基づいてLLMが生成したプログラムをリランクするセマンティックリグレードを導入する。 (a)セマンティックフィルタリングと well-formedness に基づくスコアチューニング: プログラムは well-formed output を生成する。 (b)セマンティクス・インターリーブ:異なる候補からのアウトプットが互いにどのように比較されるか。 (c) 出力ベースのスコアチューニング: 出力を同じタスクで予測された出力と比較する方法。 セマンティックインターリービングの理論的正当化を提供する。 また,LLMが生成する試料を高温と低温の両方で混合する温度混合も導入した。 我々は、データベース(SQL)、データサイエンス(パンダ)、ビジネスインテリジェンス(ExcelのPower Query M)の3つの領域において、様々な新しいベンチマークと既存のベンチマークでアプローチを広く評価する。 top-1の精度は最大45%、top-3の精度は34%向上しました。

Creating programs to correctly manipulate data is a difficult task, as the underlying programming languages and APIs can be challenging to learn for many users who are not skilled programmers. Large language models (LLMs) demonstrate remarkable potential for generating code from natural language, but in the data manipulation domain, apart from the natural language (NL) description of the intended task, we also have the dataset on which the task is to be performed, or the "data context". Existing approaches have utilized data context in a limited way by simply adding relevant information from the input data into the prompts sent to the LLM. In this work, we utilize the available input data to execute the candidate programs generated by the LLMs and gather their outputs. We introduce semantic reranking, a technique to rerank the programs generated by LLMs based on three signals coming the program outputs: (a) semantic filtering and well-formedness based score tuning: do programs even generate well-formed outputs, (b) semantic interleaving: how do the outputs from different candidates compare to each other, and (c) output-based score tuning: how do the outputs compare to outputs predicted for the same task. We provide theoretical justification for semantic interleaving. We also introduce temperature mixing, where we combine samples generated by LLMs using both high and low temperatures. We extensively evaluate our approach in three domains, namely databases (SQL), data science (Pandas) and business intelligence (Excel's Power Query M) on a variety of new and existing benchmarks. We observe substantial gains across domains, with improvements of up to 45% in top-1 accuracy and 34% in top-3 accuracy.
翻訳日:2023-05-03 13:39:37 公開日:2023-05-02
# データ品質が画像分類公平性に及ぼす影響について

On the Impact of Data Quality on Image Classification Fairness ( http://arxiv.org/abs/2305.01595v1 )

ライセンス: Link先を確認
Aki Barry and Lei Han and Gianluca Demartini(参考訳) アルゴリズムによる意思決定の進展に伴い、これらのシステムに対する精査が増加している。 本稿では,教師付き分類の文脈において,訓練データの品質とモデル全体の公平性との関係について検討する。 ラベルとトレーニングデータの両方において,ノイズレベルが異なる複数の画像分類データセット上で,アルゴリズムの広範囲にわたる重要公平度メトリクスを測定した。 ラベル内のノイズをトレーニングセット内のデータのラベル付けの不正確性、データ内のノイズをトレーニングセットにおけるデータの歪みとして記述する。 元のデータセットにノイズを加えることで、トレーニングデータの品質と、そのデータでトレーニングされたモデルの出力の公平性の関係を探求することができる。

With the proliferation of algorithmic decision-making, increased scrutiny has been placed on these systems. This paper explores the relationship between the quality of the training data and the overall fairness of the models trained with such data in the context of supervised classification. We measure key fairness metrics across a range of algorithms over multiple image classification datasets that have a varying level of noise in both the labels and the training data itself. We describe noise in the labels as inaccuracies in the labelling of the data in the training set and noise in the data as distortions in the data, also in the training set. By adding noise to the original datasets, we can explore the relationship between the quality of the training data and the fairness of the output of the models trained on that data.
翻訳日:2023-05-03 13:39:06 公開日:2023-05-02
# 量子強調変分オートエンコーダによるハード分布の学習

Learning Hard Distributions with Quantum-enhanced Variational Autoencoders ( http://arxiv.org/abs/2305.01592v1 )

ライセンス: Link先を確認
Anantha Rao, Dhiraj Madan, Anupama Ray, Dhinakaran Vinayagamurthy, M.S.Santhanam(参考訳) 量子生成機械学習における重要な課題は、多体量子システムの測定の確率分布をモデル化することである。 GAN(generative adversarial network)やVAE(variantal autoencoder)のような古典的生成モデルは、高い忠実度で積状態の分布をモデル化することができるが、絡み合った状態をモデル化するために指数的な数のパラメータを必要とする。 本稿では,量子相関を用いた量子古典ハイブリッドモデルである量子拡張型VAE(QeVAE)を導入する。 QeVAEの出力分布に対する閉形式表現を提供する。 また、QeVAEは4量子ビットや8量子ビットの量子回路状態、ハールランダム状態、量子キックローター状態など、量子状態のいくつかのクラスにおいて古典的モデルよりも優れており、いくつかの状態では2倍以上の忠実さを持つことを示す。 最後に、トレーニングされたモデルは、IBMq Manila量子コンピュータ上で実行された場合、古典的モデルよりも優れていた。 我々の研究は、量子生成学習アルゴリズムの新たな応用と高次元量子状態の測定分布のキャラクタリゼーションの道を開いた。

An important task in quantum generative machine learning is to model the probability distribution of measurements of many-body quantum systems. Classical generative models, such as generative adversarial networks (GANs) and variational autoencoders (VAEs), can model the distributions of product states with high fidelity, but fail or require an exponential number of parameters to model entangled states. In this paper, we introduce a quantum-enhanced VAE (QeVAE), a generative quantum-classical hybrid model that uses quantum correlations to improve the fidelity over classical VAEs, while requiring only a linear number of parameters. We provide a closed-form expression for the output distributions of the QeVAE. We also empirically show that the QeVAE outperforms classical models on several classes of quantum states, such as 4-qubit and 8-qubit quantum circuit states, haar random states, and quantum kicked rotor states, with a more than 2x increase in fidelity for some states. Finally, we find that the trained model outperforms the classical model when executed on the IBMq Manila quantum computer. Our work paves the way for new applications of quantum generative learning algorithms and characterizing measurement distributions of high-dimensional quantum states.
翻訳日:2023-05-03 13:38:54 公開日:2023-05-02
# 勾配クリッピングの再検討:確率バイアスと厳密収束保証

Revisiting Gradient Clipping: Stochastic bias and tight convergence guarantees ( http://arxiv.org/abs/2305.01588v1 )

ライセンス: Link先を確認
Anastasia Koloskova, Hadrien Hendrikx, Sebastian U. Stich(参考訳) グラディエント・クリッピング(Gradient clipping)は、標準(確率的な)勾配勾配に対する一般的な修正であり、各イテレーションは勾配ノルムをある値$c > 0$に制限する。 ディープラーニングモデルのトレーニングの安定化(Goodfellow et al., 2016)や、差分プライバシーの強化(Abadi et al., 2016)など、広く使用されている。 クリッピング機構の人気と単純さにもかかわらず、その収束保証はしばしば$c$の特定の値と強い雑音の仮定を必要とする。 本稿では,任意のクリッピングしきい値に正確に依存するコンバージェンス保証を$c$で示し,決定的および確率的勾配に厳密な保証を示す。 特に私たちが示すのは (i) 決定論的勾配降下の場合, クリッピング閾値は高次収束項にのみ影響する。 (ii) 真の最適値への確率的収束は、任意の小さなステップサイズであっても、標準雑音仮定の下では保証できない。 sgdをクリップした場合の勾配ノルムの収束に上下界と下界の一致を与え,実験によりこれらの結果を示す。

Gradient clipping is a popular modification to standard (stochastic) gradient descent, at every iteration limiting the gradient norm to a certain value $c >0$. It is widely used for example for stabilizing the training of deep learning models (Goodfellow et al., 2016), or for enforcing differential privacy (Abadi et al., 2016). Despite popularity and simplicity of the clipping mechanism, its convergence guarantees often require specific values of $c$ and strong noise assumptions. In this paper, we give convergence guarantees that show precise dependence on arbitrary clipping thresholds $c$ and show that our guarantees are tight with both deterministic and stochastic gradients. In particular, we show that (i) for deterministic gradient descent, the clipping threshold only affects the higher-order terms of convergence, (ii) in the stochastic setting convergence to the true optimum cannot be guaranteed under the standard noise assumption, even under arbitrary small step-sizes. We give matching upper and lower bounds for convergence of the gradient norm when running clipped SGD, and illustrate these results with experiments.
翻訳日:2023-05-03 13:38:30 公開日:2023-05-02
# WSSSに代わるもの? 弱教師付きセマンティックセマンティックセグメンテーション問題におけるセグメンテーションモデル(SAM)の実証的研究

An Alternative to WSSS? An Empirical Study of the Segment Anything Model (SAM) on Weakly-Supervised Semantic Segmentation Problems ( http://arxiv.org/abs/2305.01586v1 )

ライセンス: Link先を確認
Weixuan Sun, Zheyuan Liu, Yanhao Zhang, Yiran Zhong, Nick Barnes(参考訳) Segment Anything Model (SAM)は優れたパフォーマンスと汎用性を示しており、様々なタスクに有望なツールとなっている。 本稿では,Wakly-Supervised Semantic Segmentation (WSSS)におけるSAMの適用について検討する。 特に,画像レベルのクラスラベルのみを付与した擬似ラベル生成パイプラインとしてSAMを適用した。 ほとんどのケースで目覚ましい結果が見られたが、特定の限界も特定できた。 本研究は,PASCAL VOCとMS-COCOの性能評価を含む。 このレポートは、WSSSにSAMを採用するためのさらなる調査と、より広範な現実世界のアプリケーションを促進することを期待する。

The Segment Anything Model (SAM) has demonstrated exceptional performance and versatility, making it a promising tool for various related tasks. In this report, we explore the application of SAM in Weakly-Supervised Semantic Segmentation (WSSS). Particularly, we adapt SAM as the pseudo-label generation pipeline given only the image-level class labels. While we observed impressive results in most cases, we also identify certain limitations. Our study includes performance evaluations on PASCAL VOC and MS-COCO, where we achieved remarkable improvements over the latest state-of-the-art methods on both datasets. We anticipate that this report encourages further explorations of adopting SAM in WSSS, as well as wider real-world applications.
翻訳日:2023-05-03 13:38:08 公開日:2023-05-02
# pysrとsymbolregression.jlを用いた解釈可能な機械学習

Interpretable Machine Learning for Science with PySR and SymbolicRegression.jl ( http://arxiv.org/abs/2305.01582v1 )

ライセンス: Link先を確認
Miles Cranmer (Princeton University and Flatiron Institute)(参考訳) PySRは、人間の解釈可能な記号モデルを見つけることを目的とした機械学習の一種で、実用的な記号回帰のためのオープンソースのライブラリである。 PySRは科学の象徴的回帰を民主化し普及させるために開発され、高性能な分散バックエンド、フレキシブルな検索アルゴリズム、深層学習パッケージとのインタフェース上に構築されている。 pysrの内部探索アルゴリズムは、新しく発見された経験的表現における未知スカラー定数の最適化のために設計された、一意な進化単純化最適化ループからなる多集団進化アルゴリズムである。 PySRのバックエンドは、非常に最適化されたJuliaライブラリであるSymbolicRegression.jlである。 実行時にユーザ定義のオペレータをsimdカーネルに融合し、自動微分を実行し、クラスタ全体の数千のコアに表現の集団を分散することができる。 また,このソフトウェアについて述べる際に,シンボリック回帰アルゴリズムの適用性を定量化する新しいベンチマーク「empiricalbench」を導入する。 このベンチマークは、オリジナルのデータセットと合成データセットから過去の経験方程式を復元する。

PySR is an open-source library for practical symbolic regression, a type of machine learning which aims to discover human-interpretable symbolic models. PySR was developed to democratize and popularize symbolic regression for the sciences, and is built on a high-performance distributed back-end, a flexible search algorithm, and interfaces with several deep learning packages. PySR's internal search algorithm is a multi-population evolutionary algorithm, which consists of a unique evolve-simplify-optimize loop, designed for optimization of unknown scalar constants in newly-discovered empirical expressions. PySR's backend is the extremely optimized Julia library SymbolicRegression.jl, which can be used directly from Julia. It is capable of fusing user-defined operators into SIMD kernels at runtime, performing automatic differentiation, and distributing populations of expressions to thousands of cores across a cluster. In describing this software, we also introduce a new benchmark, "EmpiricalBench," to quantify the applicability of symbolic regression algorithms in science. This benchmark measures recovery of historical empirical equations from original and synthetic datasets.
翻訳日:2023-05-03 13:37:57 公開日:2023-05-02
# 準自由マルコフ開量子系における等角対称性

Conformal symmetry in quasi-free Markovian open quantum systems ( http://arxiv.org/abs/2305.01629v1 )

ライセンス: Link先を確認
Anatolii I. Lotkov, Denis V. Kurlov, Aleksey K. Fedorov, Nikita A. Nemkov, and Vladimir Gritsev(参考訳) 等角対称性は二階相転移に近い閉系の挙動を制御し、散逸相転移を経る開系に現れることが期待される。 オープンマルコフ系において共形対称性を明示的に記述できる枠組みを提案する。 閉ケースとの主な違いは、共形代数と局所体の代数の両方が超作用素の空間上で実現されることである。 二次ハミルトニアンと線形ジャンプ作用素を持つ系を特徴とする一連の例によって、この枠組みを例示し、リウヴィリアン力学を第三量子化の形式的手法を用いて効率的に解析する。 我々は,コンフォメーションブートストラップの適切な一般化を用いて,我々のフレームワークを対話システムに拡張できることを期待する。

Conformal symmetry governs the behavior of closed systems near second-order phase transitions, and is expected to emerge in open systems going through dissipative phase transitions. We propose a framework allowing for a manifest description of conformal symmetry in open Markovian systems. The key difference from the closed case is that both conformal algebra and the algebra of local fields are realized on the space of superoperators. We illustrate the framework by a series of examples featuring systems with quadratic Hamiltonians and linear jump operators, where the Liouvillian dynamics can be efficiently analyzed using the formalism of third quantization. We expect that our framework can be extended to interacting systems using an appropriate generalization of the conformal bootstrap.
翻訳日:2023-05-03 13:31:48 公開日:2023-05-02
# 悪いアドバイスのメリット: モデル層間での自動コントラストデコーディング

The Benefits of Bad Advice: Autocontrastive Decoding across Model Layers ( http://arxiv.org/abs/2305.01628v1 )

ライセンス: Link先を確認
Ariel Gera, Roni Friedman, Ofir Arviv, Chulaka Gunasekara, Benjamin Sznajder, Noam Slonim, Eyal Shnarch(参考訳) 自然言語処理タスクへの言語モデルの適用は、中間的な隠蔽層表現がより情報的でないと仮定されるため、通常、最終モデル層の表現に依存する。 本研究では,モデル層間の漸進的な改善により,推論中の上位層と下位層のコントラストから付加的な情報を得ることができる,と論じる。 具体的には、生成モデルの次のトークン予測を選択する際に、下位層の予測を使用して、最も避けられる候補をハイライトすることができる。 テキスト生成出力を改善するために層間のコントラストを利用する新しい手法を提案し、オープンエンド世代におけるモデルの退化挙動を緩和し、生成したテキストの品質を著しく改善することを示す。 さらに,推論時のモデルレイヤ間の対比は,一般的な言語モデル能力の特定の側面に実質的なメリットをもたらし,与えられたモデルパラメータのセットから推論中の知識をより効果的に抽出できることを示す。

Applying language models to natural language processing tasks typically relies on the representations in the final model layer, as intermediate hidden layer representations are presumed to be less informative. In this work, we argue that due to the gradual improvement across model layers, additional information can be gleaned from the contrast between higher and lower layers during inference. Specifically, in choosing between the probable next token predictions of a generative model, the predictions of lower layers can be used to highlight which candidates are best avoided. We propose a novel approach that utilizes the contrast between layers to improve text generation outputs, and show that it mitigates degenerative behaviors of the model in open-ended generation, significantly improving the quality of generated texts. Furthermore, our results indicate that contrasting between model layers at inference time can yield substantial benefits to certain aspects of general language model capabilities, more effectively extracting knowledge during inference from a given set of model parameters.
翻訳日:2023-05-03 13:31:36 公開日:2023-05-02
# 音声からの基本構文:教師なし深層ニューラルネットワークにおける自発的結合

Basic syntax from speech: Spontaneous concatenation in unsupervised deep neural networks ( http://arxiv.org/abs/2305.01626v1 )

ライセンス: Link先を確認
Ga\v{s}per Begu\v{s} and Thomas Lu and Zili Wang(参考訳) 構文の計算モデルは、主にテキストベースである。 本稿では,基本構文を生の音声から完全に教師なしの方法で直接モデル化することを提案する。 私たちは構文の最もユビキタスで基本的な特性の1つにフォーカスします。 個別単語の音響記録を訓練した畳み込みニューラルネットワーク(CNN)が、入力に複数の単語を持つデータにアクセスすることなく、連結された2つか3つの単語で出力を生成し始める現象である。 さらに、2つの単語で訓練されたネットワークは、新しい観察されていない単語の組み合わせに単語を埋め込むように学習する。 我々の知る限り、これはcnnが生成的敵ネットワーク設定で生の音声で訓練した以前の報告されていない性質であり、これらのアーキテクチャがどのように学習するかの理解と、構文のモデル化と生の音響入力からの進化の両方に影響を与えている。

Computational models of syntax are predominantly text-based. Here we propose that basic syntax can be modeled directly from raw speech in a fully unsupervised way. We focus on one of the most ubiquitous and basic properties of syntax -- concatenation. We introduce spontaneous concatenation: a phenomenon where convolutional neural networks (CNNs) trained on acoustic recordings of individual words start generating outputs with two or even three words concatenated without ever accessing data with multiple words in the input. Additionally, networks trained on two words learn to embed words into novel unobserved word combinations. To our knowledge, this is a previously unreported property of CNNs trained on raw speech in the Generative Adversarial Network setting and has implications both for our understanding of how these architectures learn as well as for modeling syntax and its evolution from raw acoustic inputs.
翻訳日:2023-05-03 13:31:19 公開日:2023-05-02
# アンリミフォーマ:アンリミット長入力長長変圧器

Unlimiformer: Long-Range Transformers with Unlimited Length Input ( http://arxiv.org/abs/2305.01625v1 )

ライセンス: Link先を確認
Amanda Bertsch, Uri Alon, Graham Neubig, Matthew R. Gormley(参考訳) トランスフォーマーベースのモデルは通常、入力の長さに予め定義されたバウンドを持つ。 本研究では,Unlimiformerを提案する。既存のトレーニング済みエンコーダ-デコーダ変換器をラップし,すべてのレイヤにアテンション計算をオフロードし,単一の$k$-nearest-neighborインデックスにすることで,このインデックスをGPUまたはCPUメモリに保持し,サブ線形時間でクエリすることができる。 これにより、極端に長い入力シーケンスをインデックス化できますが、デコーダ層のすべての注意ヘッドは、すべてのキーに従うのではなく、トップ$k$キーを取得します。 複数文書および複数文書の要約ベンチマークにおいてUnlimiformersの有効性を実証し,BookSumデータセットから350kのトークン長の入力を,テスト時に入力切り替わることなく要約できることを示した。 unlimiformerは、bartやlongformerのような事前学習されたモデルを改善し、追加の学習重みを必要とせず、コードを変更することなく、無制限の入力に拡張する。 コードとモデルをhttps://github.com/abertsch72/unlimiformerで公開しています。

Transformer-based models typically have a predefined bound to their input length, because of their need to potentially attend to every token in the input. In this work, we propose Unlimiformer: a general approach that can wrap any existing pretrained encoder-decoder transformer, and offload the attention computation across all layers to a single $k$-nearest-neighbor index; this index can be kept on either the GPU or CPU memory and queried in sub-linear time. This way, we can index extremely long input sequences, while every attention head in every decoder layer retrieves its top-$k$ keys, instead of attending to every key. We demonstrate Unlimiformers's efficacy on several long-document and multi-document summarization benchmarks, showing that it can summarize even 350k token-long inputs from the BookSum dataset, without any input truncation at test time. Unlimiformer improves pretrained models such as BART and Longformer by extending them to unlimited inputs without additional learned weights and without modifying their code. We make our code and models publicly available at https://github.com/abertsch72/unlimiformer .
翻訳日:2023-05-03 13:31:03 公開日:2023-05-02
# UNTER: 事前訓練された言語モデルを強化するための統一知識インターフェース

UNTER: A Unified Knowledge Interface for Enhancing Pre-trained Language Models ( http://arxiv.org/abs/2305.01624v1 )

ライセンス: Link先を確認
Deming Ye, Yankai Lin, Zhengyan Zhang and Maosong Sun(参考訳) 最近の研究は、様々な下流NLPタスクにおいて、外部知識注入が事前学習言語モデル(PLM)を前進させることを実証している。 しかし,既存の知識注入法は構造化知識にも非構造化知識にも適用可能である。 本稿では,構造化知識と非構造化知識の両方を活用する統一的視点を提供するために,Unified Knowledge InTERface(UNTER)を提案する。 UNTERでは、デコーダを統一知識インタフェースとして採用し、エンコーダから得られたスパン表現を対応する知識と整合させる。 このアプローチにより、エンコーダは下流アプリケーションのパラメータからスパン関連の知識を均一に呼び出すことができる。 実験結果から,UNTERは知識を注入することで,エンティティタイピング,名前付きエンティティ認識,関係抽出などの一連の知識駆動型NLPタスク,特に低リソースシナリオにおいて継続的な改善が得られた。

Recent research demonstrates that external knowledge injection can advance pre-trained language models (PLMs) in a variety of downstream NLP tasks. However, existing knowledge injection methods are either applicable to structured knowledge or unstructured knowledge, lacking a unified usage. In this paper, we propose a UNified knowledge inTERface, UNTER, to provide a unified perspective to exploit both structured knowledge and unstructured knowledge. In UNTER, we adopt the decoder as a unified knowledge interface, aligning span representations obtained from the encoder with their corresponding knowledge. This approach enables the encoder to uniformly invoke span-related knowledge from its parameters for downstream applications. Experimental results show that, with both forms of knowledge injected, UNTER gains continuous improvements on a series of knowledge-driven NLP tasks, including entity typing, named entity recognition and relation extraction, especially in low-resource scenarios.
翻訳日:2023-05-03 13:30:40 公開日:2023-05-02
# FlowMap:交通流を用いたオープンスペースにおける自動走行車の経路生成

FlowMap: Path Generation for Automated Vehicles in Open Space Using Traffic Flow ( http://arxiv.org/abs/2305.01622v1 )

ライセンス: Link先を確認
Wenchao Ding and Jieru Zhao and Yubin Chu and Haihui Huang and Tong Qin and Chunjing Xu and Yuxiang Guan and Zhongxue Gan(参考訳) lidar点雲やディープニューラルネットを用いたカメラ画像などの様々なセンサ入力を用いて道路構造の知覚に関する広範な文献がある。 ニューラルアーキテクト(トランスフォーマーなど)とバードアイビュー(bev)表現の最新の進歩を活用して、道路認識精度が向上している。 しかし、適切に定義された 'roads' が存在しない自動車両の ‘road' をどう認識するかは、未解決の問題である。 例えば、HDマップのない交差点内の経路を見つける方法は、 'roads' の明示的な定義やレーンマーキングのような明示的な特徴がないため、難しい。 この論文のアイデアは、人々が歩くときの方法になる、という確証から生まれたものです。 センサーの読み出しには「道路」はないが、他の車両のトラックからは「道路」がある。 本稿では,交通流に基づく自動走行車のための経路生成フレームワークであるFlowMapを提案する。 FlowMapは、軽量なセマンティックマップであるRoadMapを拡張し、さらにトラフィックフロー層を追加することによって構築されます。 トラヒックフロー場(traffic flow fields, tffs)上の経路生成アルゴリズムを提案する。 提案フレームワークは実世界の駆動データを用いて検証され、hdマップを使用せずに超複雑な交差点の経路を生成することができる。

There is extensive literature on perceiving road structures by fusing various sensor inputs such as lidar point clouds and camera images using deep neural nets. Leveraging the latest advance of neural architects (such as transformers) and bird-eye-view (BEV) representation, the road cognition accuracy keeps improving. However, how to cognize the ``road'' for automated vehicles where there is no well-defined ``roads'' remains an open problem. For example, how to find paths inside intersections without HD maps is hard since there is neither an explicit definition for ``roads'' nor explicit features such as lane markings. The idea of this paper comes from a proverb: it becomes a way when people walk on it. Although there are no ``roads'' from sensor readings, there are ``roads'' from tracks of other vehicles. In this paper, we propose FlowMap, a path generation framework for automated vehicles based on traffic flows. FlowMap is built by extending our previous work RoadMap, a light-weight semantic map, with an additional traffic flow layer. A path generation algorithm on traffic flow fields (TFFs) is proposed to generate human-like paths. The proposed framework is validated using real-world driving data and is amenable to generating paths for super complicated intersections without using HD maps.
翻訳日:2023-05-03 13:30:06 公開日:2023-05-02
# STOP品質問題に対する音声意味解析のためのパイプラインとE2E SLUの統合に関する研究

A Study on the Integration of Pipeline and E2E SLU systems for Spoken Semantic Parsing toward STOP Quality Challenge ( http://arxiv.org/abs/2305.01620v1 )

ライセンス: Link先を確認
Siddhant Arora, Hayato Futami, Shih-Lun Wu, Jessica Huynh, Yifan Peng, Yosuke Kashiwagi, Emiru Tsunoo, Brian Yan, Shinji Watanabe(参考訳) 近年,意味解析のような音声言語理解(SLU)のための新しいベンチマークタスクの導入が試みられている。 本稿では,icssp信号処理グランドチャレンジ2023の一部である音声言語理解グランドチャレンジにおいて,品質トラック(トラック1)のための音声意味解析システムを提案する。 我々はこのタスクのためにエンドツーエンドシステムとパイプラインシステムの両方を実験する。 Whisperのような強自動音声認識(ASR)モデルとBARTのような事前訓練言語モデル(LM)は、我々のSLUフレームワーク内で利用され、性能が向上する。 また,各モデルの出力レベルの組み合わせについて,精度80.8の精度で検討し,第1位を獲得した。

Recently there have been efforts to introduce new benchmark tasks for spoken language understanding (SLU), like semantic parsing. In this paper, we describe our proposed spoken semantic parsing system for the quality track (Track 1) in Spoken Language Understanding Grand Challenge which is part of ICASSP Signal Processing Grand Challenge 2023. We experiment with both end-to-end and pipeline systems for this task. Strong automatic speech recognition (ASR) models like Whisper and pretrained Language models (LM) like BART are utilized inside our SLU framework to boost performance. We also investigate the output level combination of various models to get an exact match accuracy of 80.8, which won the 1st place at the challenge.
翻訳日:2023-05-03 13:29:44 公開日:2023-05-02
# ContactArt: カテゴリーレベルのArticulated Objectとハンドポーズ推定のための3Dインタラクションの事前学習

ContactArt: Learning 3D Interaction Priors for Category-level Articulated Object and Hand Poses Estimation ( http://arxiv.org/abs/2305.01618v1 )

ライセンス: Link先を確認
Zehao Zhu, Jiashun Wang, Yuzhe Qin, Deqing Sun, Varun Jampani, Xiaolong Wang(参考訳) そこで本研究では,手と関節による物体ポーズ推定のための新しいデータセットと,手と物体の相互作用を事前学習するための新しいアプローチを提案する。 まず視覚的な遠隔操作を使ってデータセットを収集し,オペレータが物理的シミュレータ内で直接操作することで,関節オブジェクトを操作することができる。 データを記録し、シミュレータからオブジェクトポーズとコンタクト情報に関する自由かつ正確な注釈を得る。 当社のシステムは、人間の手の動きを記録するのにiphoneのみが必要で、簡単にスケールアップでき、データやアノテーションの収集のコストを大幅に削減できます。 このデータを用いて,物体の配置の分布を計測する識別器(GAN)と,手ポーズ推定を導いた明瞭な物体上の接触領域を生成する拡散モデルを含む3次元相互作用の先行点を学習する。 このような構造と接触先は、ほとんどドメインギャップのない実世界のデータに容易に転送できる。 筆者らは,データと先行学習を用いて手作業における性能を著しく向上させ,既存の最先端手法による評価を行う。 このプロジェクトはhttps://zehaozhu.github.io/contactart/で入手できる。

We propose a new dataset and a novel approach to learning hand-object interaction priors for hand and articulated object pose estimation. We first collect a dataset using visual teleoperation, where the human operator can directly play within a physical simulator to manipulate the articulated objects. We record the data and obtain free and accurate annotations on object poses and contact information from the simulator. Our system only requires an iPhone to record human hand motion, which can be easily scaled up and largely lower the costs of data and annotation collection. With this data, we learn 3D interaction priors including a discriminator (in a GAN) capturing the distribution of how object parts are arranged, and a diffusion model which generates the contact regions on articulated objects, guiding the hand pose estimation. Such structural and contact priors can easily transfer to real-world data with barely any domain gap. By using our data and learned priors, our method significantly improves the performance on joint hand and articulated object poses estimation over the existing state-of-the-art methods. The project is available at https://zehaozhu.github.io/ContactArt/ .
翻訳日:2023-05-03 13:29:33 公開日:2023-05-02
# FreeLM:ファインチューニングフリー言語モデル

FreeLM: Fine-Tuning-Free Language Model ( http://arxiv.org/abs/2305.01616v1 )

ライセンス: Link先を確認
Xiang Li, Xin Jiang, Xuying Meng, Aixin Sun, Yequan Wang(参考訳) 事前学習された言語モデル(plm)はnlpタスクで著しく成功した。 大きな成功にもかかわらず、主流のソリューションは、主に事前トレーニングと微調整のパラダイムに従っており、高いデプロイメントコストと低いトレーニング効率をもたらす。 とはいえ、PLMは大規模な生データからの言語信号でのみ事前訓練されているため、特定のタスクの微調整が不可欠である。 本稿では,言語信号と教師信号の両方を考慮した言語モデルの微調整フリー戦略を提案する。 教師信号は、統一命題形式で提供される下流タスクのバッテリーの抽象化である。 我々のFreeLMモデルは,言語とタスク認識の強い教師信号の両方を対話的に学習し,強力な一般化と堅牢性を示す。 FreeLM は GPT-3 や InstructGPT といった大規模なモデルよりも、実験中の言語理解タスクに優れています。 FreeLMは0.3Bパラメータよりもはるかに小さく、これらのモデルでは175Bである。

Pre-trained language models (PLMs) have achieved remarkable success in NLP tasks. Despite the great success, mainstream solutions largely follow the pre-training then finetuning paradigm, which brings in both high deployment costs and low training efficiency. Nevertheless, fine-tuning on a specific task is essential because PLMs are only pre-trained with language signal from large raw data. In this paper, we propose a novel fine-tuning-free strategy for language models, to consider both language signal and teacher signal. Teacher signal is an abstraction of a battery of downstream tasks, provided in a unified proposition format. Trained with both language and strong task-aware teacher signals in an interactive manner, our FreeLM model demonstrates strong generalization and robustness. FreeLM outperforms large models e.g., GPT-3 and InstructGPT, on a range of language understanding tasks in experiments. FreeLM is much smaller with 0.3B parameters, compared to 175B in these models.
翻訳日:2023-05-03 13:29:08 公開日:2023-05-02
# 電球としての人間:熱反射による3次元再構成

Humans as Light Bulbs: 3D Human Reconstruction from Thermal Reflection ( http://arxiv.org/abs/2305.01652v1 )

ライセンス: Link先を確認
Ruoshi Liu, Carl Vondrick(参考訳) 人体の比較的高温の温度は、人々は長い波長の赤外線光源に変わる。 この発光光は可視光よりも波長が大きいため、典型的な場面の多くの表面は、強いスペクトル反射を持つ赤外線ミラーとして機能する。 我々は、通常のカメラでは見えなくても、人物の位置を特定し、ポーズを再構築するために、人物の物体への熱反射を利用する。 本研究では, 生成モデルと微分可能な反射のレンダリングを組み合わせることで, 物体, 人物, 熱反射を協調的にモデル化する分析・合成フレームワークを提案する。 定量的で質的な実験は、カーブミラーや通常のカメラで完全に見えない場合など、非常に困難なケースで我々のアプローチが機能することを示している。

The relatively hot temperature of the human body causes people to turn into long-wave infrared light sources. Since this emitted light has a larger wavelength than visible light, many surfaces in typical scenes act as infrared mirrors with strong specular reflections. We exploit the thermal reflections of a person onto objects in order to locate their position and reconstruct their pose, even if they are not visible to a normal camera. We propose an analysis-by-synthesis framework that jointly models the objects, people, and their thermal reflections, which allows us to combine generative models with differentiable rendering of reflections. Quantitative and qualitative experiments show our approach works in highly challenging cases, such as with curved mirrors or when the person is completely unseen by a normal camera.
翻訳日:2023-05-03 13:21:29 公開日:2023-05-02
# LMは記述から新しいエンティティを学ぶことができるか? 注入知識の伝播の課題

Can LMs Learn New Entities from Descriptions? Challenges in Propagating Injected Knowledge ( http://arxiv.org/abs/2305.01651v1 )

ライセンス: Link先を確認
Yasumasa Onoe, Michael J.Q. Zhang, Shankar Padmanabhan, Greg Durrett, Eunsol Choi(参考訳) 事前訓練された言語モデル(LM)は質問応答のような知識集約的なタスクに使用されるが、世界が変わるにつれてその知識は時代遅れになる。 従来の研究は、LMのターゲットとなる更新を調査し、個々の事実を注入し、モデルが他の文脈で予測を変えずにこれらの事実を学習するかどうかを評価する。 例えば、何かがテレビ番組であることを知った後、LMはそれを見ることができると予測しますか? 本研究では,新しいエンティティ(ECBD)に関する実世界の文のデータセットと,インジェクションされた知識に関する様々なレベルの推論を必要とするテンプレートを手作業で設計した新しい制御されたベンチマークの2つを用いてこれを研究する。 驚いたことに、既存の知識更新手法(このアプローチの段階的な微調整と修正)は、注入された知識の伝播がほとんどない。 これらの方法は、注入された事実とターゲット推論の間に語彙的重複がある場合にのみ、clozeインスタンスのパフォーマンスを改善する。 しかし、LMのコンテキストにおけるエンティティ定義の予測は、すべての設定におけるパフォーマンスを改善し、知識注入のためのパラメータ更新アプローチにはかなりのヘッドルームがあることを示唆している。

Pre-trained language models (LMs) are used for knowledge intensive tasks like question answering, but their knowledge gets continuously outdated as the world changes. Prior work has studied targeted updates to LMs, injecting individual facts and evaluating whether the model learns these facts while not changing predictions on other contexts. We take a step forward and study LMs' abilities to make inferences based on injected facts (or propagate those facts): for example, after learning that something is a TV show, does an LM predict that you can watch it? We study this with two cloze-style tasks: an existing dataset of real-world sentences about novel entities (ECBD) as well as a new controlled benchmark with manually designed templates requiring varying levels of inference about injected knowledge. Surprisingly, we find that existing methods for updating knowledge (gradient-based fine-tuning and modifications of this approach) show little propagation of injected knowledge. These methods improve performance on cloze instances only when there is lexical overlap between injected facts and target inferences. Yet, prepending entity definitions in an LM's context improves performance across all settings, suggesting that there is substantial headroom for parameter-updating approaches for knowledge injection.
翻訳日:2023-05-03 13:21:15 公開日:2023-05-02
# デジタル量子コンピュータにおける物質臨界状態の探索

Probing critical states of matter on a digital quantum computer ( http://arxiv.org/abs/2305.01650v1 )

ライセンス: Link先を確認
Reza Haghshenas, Eli Chertkov, Matthew DeCross, Thomas M. Gatterman, Justin A. Gerber, Kevin Gilmore, Dan Gresh, Nathan Hewitt, Chandler V. Horst, Mitchell Matheny, Tanner Mengle, Brian Neyenhuis, David Hayes, Michael Foss-Feig(参考訳) 量子力学は全ての材料の微視的挙動を基礎としているが、その効果はしばしば熱揺らぎによってマクロなレベルで隠されている。 特筆すべき例外はゼロ温度の相転移であり、ここではスケーリング法則は発散する長さスケールの量子相関によって完全に現れる。 このような遷移の正確な記述は古典的な量子系のシミュレーション法では困難であり、量子シミュレーションの自然な応用分野である。 しかし、これらの量子シミュレーションは、自身の課題である‘textemdash〜representing quantum critical state on a quantum computer requires enanglement of a high degree of freedom, put strict demand on the coherence and fidelity of the computer's operations。 クァンティンヌムのh1-1量子コンピュータを用いて、階層的量子テンソルネットワーク技術を用いて、モデルの正確な臨界特性を抽出するのに十分な忠実度を持つ128箇所の臨界横場イジングチェーンの基底状態を作成することで、これらの課題に対処した。 本研究は,古典的手法の限界を超えた量子支援テンソルネットワークの縮小に有効な経路を示唆する。

Although quantum mechanics underpins the microscopic behavior of all materials, its effects are often obscured at the macroscopic level by thermal fluctuations. A notable exception is a zero-temperature phase transition, where scaling laws emerge entirely due to quantum correlations over a diverging length scale. The accurate description of such transitions is challenging for classical simulation methods of quantum systems, and is a natural application space for quantum simulation. These quantum simulations are, however, not without their own challenges \textemdash~representing quantum critical states on a quantum computer requires encoding entanglement of a large number of degrees of freedom, placing strict demands on the coherence and fidelity of the computer's operations. Using Quantinuum's H1-1 quantum computer, we address these challenges by employing hierarchical quantum tensor-network techniques, creating the ground state of the critical transverse-field Ising chain on 128-sites with sufficient fidelity to extract accurate critical properties of the model. Our results suggest a viable path to quantum-assisted tensor network contraction beyond the limits of classical methods.
翻訳日:2023-05-03 13:20:55 公開日:2023-05-02
# 深部生成前処理によるデータセット蒸留の一般化

Generalizing Dataset Distillation via Deep Generative Prior ( http://arxiv.org/abs/2305.01649v1 )

ライセンス: Link先を確認
George Cazenavette and Tongzhou Wang and Antonio Torralba and Alexei A. Efros and Jun-Yan Zhu(参考訳) Dataset Distillationは、データセット全体の知識をいくつかの合成画像に抽出することを目的としている。 このアイデアは、学習アルゴリズムにトレーニングデータとして与えられる少数の合成データポイントを合成することで、元のデータに基づいてトレーニングされたデータを近似するモデルを実現する。 この分野の最近の進歩にもかかわらず、既存のデータセット蒸留法は新しいアーキテクチャに一般化できず、高解像度データセットにスケールする。 以上の課題を克服するために,事前学習した深部生成モデルを用いて蒸留データを合成することを提案する。 そこで本研究では,生成モデルの潜在空間において,多数の画像を少数の中間特徴ベクトルに蒸留する新しい最適化アルゴリズムを提案する。 提案手法は既存の手法を改良し,アーキテクチャ間の一般化を大幅に改善する。

Dataset Distillation aims to distill an entire dataset's knowledge into a few synthetic images. The idea is to synthesize a small number of synthetic data points that, when given to a learning algorithm as training data, result in a model approximating one trained on the original data. Despite recent progress in the field, existing dataset distillation methods fail to generalize to new architectures and scale to high-resolution datasets. To overcome the above issues, we propose to use the learned prior from pre-trained deep generative models to synthesize the distilled data. To achieve this, we present a new optimization algorithm that distills a large number of images into a few intermediate feature vectors in the generative model's latent space. Our method augments existing techniques, significantly improving cross-architecture generalization in all settings.
翻訳日:2023-05-03 13:20:34 公開日:2023-05-02
# 蒸留か注釈か? コンパクトモデルのコスト効率の良い微調整

Distill or Annotate? Cost-Efficient Fine-Tuning of Compact Models ( http://arxiv.org/abs/2305.01645v1 )

ライセンス: Link先を確認
Junmo Kang, Wei Xu, Alan Ritter(参考訳) 微調整された大型モデルは非常に効果的であるが、これらのモデルを用いた推論は高価であり、二酸化炭素を排出する可能性がある。 知識蒸留は推論コストを削減するための実用的な方法であることが示されているが、蒸留プロセス自体はかなりの計算資源を必要とする。 コンパクトなモデルを必要とするNLP実践者は、GPUを購入したり借りたりするのではなく、アノテータを雇うために利用可能な予算を割り当てたり、追加の微調整データを手動でラベル付けしたりする。 本稿では,固定予算を最も効率的に利用してコンパクトモデルを構築する方法について検討する。 T5-XXL (11B) から T5-Small (60M) への蒸留は,6つの多種多様な NLP タスクに関する広範な実験を通して,コンパクトモデル(60M) を直接訓練するデータに注釈を付けるよりも,ほぼ常にコスト効率のよい選択肢であることが判明した。 さらに,有効性を最大化する蒸留量は,様々な予算シナリオで異なることを示す。

Fine-tuning large models is highly effective, however, inference using these models can be expensive and produces carbon emissions. Knowledge distillation has been shown to be a practical solution to reduce inference costs, but the distillation process itself requires significant computational resources. Rather than buying or renting GPUs to fine-tune, then distill a large model, an NLP practitioner who needs a compact model might also choose to simply allocate an available budget to hire annotators and manually label additional fine-tuning data. In this paper, we investigate how to most efficiently use a fixed budget to build a compact model. Through our extensive experiments on six diverse NLP tasks, we find that distilling from T5-XXL (11B) to T5-Small (60M) leads to almost always a cost-efficient option compared to annotating more data to directly train a compact model (T5-Small (60M)). We further demonstrate that the optimal amount of distillation that maximizes utility varies across different budgetary scenarios.
翻訳日:2023-05-03 13:20:22 公開日:2023-05-02
# テキスト対画像パーソナライズのためのキーロックランク1編集

Key-Locked Rank One Editing for Text-to-Image Personalization ( http://arxiv.org/abs/2305.01644v1 )

ライセンス: Link先を確認
Yoad Tewel, Rinon Gal, Gal Chechik, Yuval Atzmon(参考訳) text-to-image models (t2i)は、ユーザーが自然言語で創造的なプロセスをガイドできる新しいレベルの柔軟性を提供する。 しかし、これらのモデルをユーザが提供する視覚概念に合わせてパーソナライズすることは難しい問題である。 T2Iのパーソナライゼーションのタスクは、高い視覚的忠実さを維持しながら創造的な制御を可能にし、複数のパーソナライズされた概念を単一のイメージに組み合わせ、小さなモデルサイズを維持するなど、複数の困難を伴っている。 本稿では,これらの課題に対処するT2Iパーソナライズ手法であるPerfusionを提案する。 Perfusionは、新しい概念のクロスアテンションキーをそれらのスーパーオーディネートカテゴリに"ロックする"新しいメカニズムを導入することで、オーバーフィッティングを避ける。 さらに,推論時間における学習概念の影響を制御し,複数の概念を組み合わせることを可能とするゲートランク1アプローチを開発した。 これにより、100KBのトレーニングモデルで視覚的忠実度とテキストアライメントのランタイム効率のバランスをとることができる。 さらに、トレーニングを追加することなく、Paretoフロントのさまざまな操作ポイントにまたがることができる。 最後に,Perfusionが質的,定量的両面で高いベースラインを達成していることを示す。 重要なことに、キーロックは従来のアプローチと比較して新しい結果をもたらし、一発設定でも前例のない方法でパーソナライズされたオブジェクトインタラクションを表現できる。

Text-to-image models (T2I) offer a new level of flexibility by allowing users to guide the creative process through natural language. However, personalizing these models to align with user-provided visual concepts remains a challenging problem. The task of T2I personalization poses multiple hard challenges, such as maintaining high visual fidelity while allowing creative control, combining multiple personalized concepts in a single image, and keeping a small model size. We present Perfusion, a T2I personalization method that addresses these challenges using dynamic rank-1 updates to the underlying T2I model. Perfusion avoids overfitting by introducing a new mechanism that "locks" new concepts' cross-attention Keys to their superordinate category. Additionally, we develop a gated rank-1 approach that enables us to control the influence of a learned concept during inference time and to combine multiple concepts. This allows runtime-efficient balancing of visual-fidelity and textual-alignment with a single 100KB trained model, which is five orders of magnitude smaller than the current state of the art. Moreover, it can span different operating points across the Pareto front without additional training. Finally, we show that Perfusion outperforms strong baselines in both qualitative and quantitative terms. Importantly, key-locking leads to novel results compared to traditional approaches, allowing to portray personalized object interactions in unprecedented ways, even in one-shot settings.
翻訳日:2023-05-03 13:20:00 公開日:2023-05-02
# 新しい視点合成のためのニューラルLiDAR場

Neural LiDAR Fields for Novel View Synthesis ( http://arxiv.org/abs/2305.01643v1 )

ライセンス: Link先を確認
Shengyu Huang, Zan Gojcic, Zian Wang, Francis Williams, Yoni Kasten, Sanja Fidler, Konrad Schindler, Or Litany(参考訳) 我々は,新しい視点から現実的なLiDARスキャンを合成することを目的とした,LiDAR計測からニューラルネットワークシーン表現を最適化する手法である,LiDARのためのニューラルフィールド(NFL)を提案する。 NFLは、ニューラルネットワークのレンダリングパワーとLiDARセンシングプロセスの詳細な物理的動機付けモデルを組み合わせることで、ビームの発散、二次リターン、レイドロップといったキーセンサーの動作を正確に再現することができる。 nfl を合成および実際のlidarスキャンで評価し, 明示的な再構成-then-simulate 法, および他の nerf 方式の lidar novel view 合成タスクよりも優れていることを示した。 さらに,合成ビューのリアリズムが向上することで,ドメイン間ギャップが実際のスキャンに狭まり,登録やセマンティクスセグメンテーションのパフォーマンスが向上することを示す。

We present Neural Fields for LiDAR (NFL), a method to optimise a neural field scene representation from LiDAR measurements, with the goal of synthesizing realistic LiDAR scans from novel viewpoints. NFL combines the rendering power of neural fields with a detailed, physically motivated model of the LiDAR sensing process, thus enabling it to accurately reproduce key sensor behaviors like beam divergence, secondary returns, and ray dropping. We evaluate NFL on synthetic and real LiDAR scans and show that it outperforms explicit reconstruct-then-simulate methods as well as other NeRF-style methods on LiDAR novel view synthesis task. Moreover, we show that the improved realism of the synthesized views narrows the domain gap to real scans and translates to better registration and semantic segmentation performance.
翻訳日:2023-05-03 13:19:34 公開日:2023-05-02
# 個人的インコンテキスト学習

Differentially Private In-Context Learning ( http://arxiv.org/abs/2305.01639v1 )

ライセンス: Link先を確認
Ashwinee Panda, Tong Wu, Jiachen T. Wang, Prateek Mittal(参考訳) 大規模言語モデル(LLM)のデプロイにおいて重要な疑問は、LLMをプライベートデータで拡張する方法である。 プライバシー保証を維持しつつ, LLM が新たなタスクに適応できるように, DP-ICL (differially Private In-context Learning) を提案する。 dp-icl は report-noisy-max のメカニズムを用いて、exemplar のアンサンブル上でノイズの多いコンセンサスを確立することで、プライベート推論を行う。 DP-ICL を4つのベンチマークで評価し,非プライベート ICL と同等の性能 (<2\% の劣化) を達成した。

An important question in deploying large language models (LLMs) is how to augment LLMs with private data. We propose Differentially Private In-context Learning (DP-ICL) to enable LLMs to adapt to new tasks while maintaining privacy guarantees. DP-ICL performs private inference by establishing noisy consensus over an ensemble of exemplars using the Report-Noisy-Max mechanism. We evaluate DP-ICL on four benchmarks and find that it achieves comparable performance (<2\% degradation) with non-private ICL.
翻訳日:2023-05-03 13:19:20 公開日:2023-05-02
# 多分解能畳み込みメモリを用いたシーケンスモデリング

Sequence Modeling with Multiresolution Convolutional Memory ( http://arxiv.org/abs/2305.01638v1 )

ライセンス: Link先を確認
Jiaxin Shi, Ke Alexander Wang, Emily B. Fox(参考訳) 分類や生成モデリングなど、与えられたタスクに合ったシーケンシャルなデータソースの長距離パターンを効果的にキャプチャすることは、根本的な課題である。 ブライトフォース列挙のメモリ負荷と比較の空間トレードオフにおける一般的なアプローチは、トランスフォーマーのように複雑な逐次依存関係の計算負荷、リカレントニューラルネットワークのような計算負荷、あるいは多くのフィルタや大きなフィルタを持つ畳み込みネットワークのパラメータ負荷である。 代わりに、ウェーブレットに基づくマルチレゾリューション解析からインスピレーションを得て、シーケンスモデリングのための新しいビルディングブロックを定義します。 モデルの主要なコンポーネントはマルチレゾリューション畳み込みであり、入力シーケンスのマルチスケールトレンドをキャプチャします。 私たちのMultiresConvは、拡張因果畳み込み木にまたがる共用フィルタで実装できます。 したがって、畳み込みネットワークの計算上の利点とウェーブレット分解の原理的理論的動機が引き起こされる。 私たちのMultiresLayerは実装が簡単で、パラメータが大幅に少なく、最大$\mathcal{O}(N\log N)$メモリフットプリントを$N$シーケンスで保持します。 しかし, これらの層を積み重ねることで, CIFAR-10, ListOps, PTB-XLデータセットを用いて, シーケンス分類および自己回帰密度推定タスクの最先端性能が得られる。

Efficiently capturing the long-range patterns in sequential data sources salient to a given task -- such as classification and generative modeling -- poses a fundamental challenge. Popular approaches in the space tradeoff between the memory burden of brute-force enumeration and comparison, as in transformers, the computational burden of complicated sequential dependencies, as in recurrent neural networks, or the parameter burden of convolutional networks with many or large filters. We instead take inspiration from wavelet-based multiresolution analysis to define a new building block for sequence modeling, which we call a MultiresLayer. The key component of our model is the multiresolution convolution, capturing multiscale trends in the input sequence. Our MultiresConv can be implemented with shared filters across a dilated causal convolution tree. Thus it garners the computational advantages of convolutional networks and the principled theoretical motivation of wavelet decompositions. Our MultiresLayer is straightforward to implement, requires significantly fewer parameters, and maintains at most a $\mathcal{O}(N\log N)$ memory footprint for a length $N$ sequence. Yet, by stacking such layers, our model yields state-of-the-art performance on a number of sequence classification and autoregressive density estimation tasks using CIFAR-10, ListOps, and PTB-XL datasets.
翻訳日:2023-05-03 13:19:09 公開日:2023-05-02
# 情報不足、無反応著者、実験欠陥:nlpにおける過去のヒト評価の再現性評価の不可能性

Missing Information, Unresponsive Authors, Experimental Flaws: The Impossibility of Assessing the Reproducibility of Previous Human Evaluations in NLP ( http://arxiv.org/abs/2305.01633v1 )

ライセンス: Link先を確認
Anya Belz, Craig Thomson, Ehud Reiter, Gavin Abercrombie, Jose M. Alonso-Moral, Mohammad Arvan, Jackie Cheung, Mark Cieliebak, Elizabeth Clark, Kees van Deemter, Tanvi Dinkar, Ond\v{r}ej Du\v{s}ek, Steffen Eger, Qixiang Fang, Albert Gatt, Dimitra Gkatzia, Javier Gonz\'alez-Corbelle, Dirk Hovy, Manuela H\"urlimann, Takumi Ito, John D. Kelleher, Filip Klubicka, Huiyuan Lai, Chris van der Lee, Emiel van Miltenburg, Yiru Li, Saad Mahamood, Margot Mieskes, Malvina Nissim, Natalie Parde, Ond\v{r}ej Pl\'atek, Verena Rieser, Pablo Mosteiro Romero, Joel Tetreault, Antonio Toral, Xiaojun Wan, Leo Wanner, Lewis Watson, Diyi Yang(参考訳) 本研究は,NLPにおける人的評価を再現可能なものにするために,NLPにおける人的評価の集合を同定する取り組みについて報告する。 論文の13%に過ぎなかったことを含む結果と調査結果を提示する。 (i)生殖の障壁が十分に低いこと、 (ii)再現のために考慮すべき十分な情報と、再生のために選択した実験のうちの1つを除くすべてのものが、再生を行う意義に疑問を呈する欠陥があることが判明した。 その結果, コーディネート学習設計を, 再現アプローチから標準化・再生産-twiceアプローチに変更しなければならなかった。 我々の総合的な(否定的な)発見は、NLPにおける人間の評価の大部分は再現可能ではなく、再現可能でもなく、複製を正当化するには欠陥が多すぎるということであり、恐ろしい絵を描くが、NLPにおける人間の評価を設計し、レポートする方法を再考する機会を与える。

We report our efforts in identifying a set of previous human evaluations in NLP that would be suitable for a coordinated study examining what makes human evaluations in NLP more/less reproducible. We present our results and findings, which include that just 13\% of papers had (i) sufficiently low barriers to reproduction, and (ii) enough obtainable information, to be considered for reproduction, and that all but one of the experiments we selected for reproduction was discovered to have flaws that made the meaningfulness of conducting a reproduction questionable. As a result, we had to change our coordinated study design from a reproduce approach to a standardise-then-reproduce-twice approach. Our overall (negative) finding that the great majority of human evaluations in NLP is not repeatable and/or not reproducible and/or too flawed to justify reproduction, paints a dire picture, but presents an opportunity for a rethink about how to design and report human evaluations in NLP.
翻訳日:2023-05-03 13:18:48 公開日:2023-05-02
# all-e:美的ガイド付き低光度画像エンハンスメント

ALL-E: Aesthetics-guided Low-light Image Enhancement ( http://arxiv.org/abs/2304.14610v2 )

ライセンス: Link先を確認
Ling Li, Dong Liang, Yuanhang Gao, Sheng-Jun Huang, Songcan Chen(参考訳) 低照度画像強調(LLE)の性能評価は主観的であり,人間の嗜好を画像強調に組み込むことが不可欠である。 既存の手法ではこれを考慮せず、トレーニング強化モデルの潜在的なヒューリスティックな基準を提示する。 本稿では、LLEに美的嗜好を導入し、美的報酬を伴う強化学習フレームワークにおけるトレーニングを動機付ける、美学誘導型低照度画像強調(ALL-E)という新しいパラダイムを提案する。 エージェントとして機能する各ピクセルは、再帰作用、すなわち対応する調整曲線を逐次推定することによって、自分自身を洗練させる。 広範な実験により,美的評価の統合は主観的経験と客観的評価の両方を改善することが示された。 様々なベンチマークの結果は、最先端手法よりもall-Eの方が優れていることを示している。

Evaluating the performance of low-light image enhancement (LLE) is highly subjective, thus making integrating human preferences into image enhancement a necessity. Existing methods fail to consider this and present a series of potentially valid heuristic criteria for training enhancement models. In this paper, we propose a new paradigm, i.e., aesthetics-guided low-light image enhancement (ALL-E), which introduces aesthetic preferences to LLE and motivates training in a reinforcement learning framework with an aesthetic reward. Each pixel, functioning as an agent, refines itself by recursive actions, i.e., its corresponding adjustment curve is estimated sequentially. Extensive experiments show that integrating aesthetic assessment improves both subjective experience and objective evaluation. Our results on various benchmarks demonstrate the superiority of ALL-E over state-of-the-art methods.
翻訳日:2023-05-03 11:22:10 公開日:2023-05-02
# loggene: 深い医療推論タスクのためのチェックロスのスムーズな代替手段

LogGENE: A smooth alternative to check loss for Deep Healthcare Inference Tasks ( http://arxiv.org/abs/2206.09333v3 )

ライセンス: Link先を確認
Aryaman Jeendgar, Tanmay Devale, Soma S Dhavala, Snehanshu Saha(参考訳) 大規模なデータセットをマイニングし、temから校正された予測を得ることは、信頼できるディープラーニングにすぐに関連し、有用である。 本研究では,遺伝子発現などのデータセットにおけるディープニューラルネットワークに基づく推論手法を開発した。 しかし,従来のディープラーニング手法と異なり,我々の推論手法は,最先端の性能を精度で達成しつつ,説明や不確実性評価の報告も可能である。 本研究では,特定の住宅維持遺伝子群に対する完全条件量子化を予測するためにQuantile Regressionフレームワークを採用する。 条件量子は、予測の豊かな解釈を提供するのに有用であるだけでなく、ノイズの測定にも堅牢である。 我々の技術は、特にハイスループットゲノミクスにおいて、パーソナライズされた医療の新しい時代を築き、医薬品の設計と納品を目標とする分野である。 しかし、量的回帰で推定プロセスを駆動するために使われるチェック損失は、微分不可能である。 チェック損失に対するスムーズな代替手段としてlog-coshを提案する。 本手法をGEOマイクロアレイデータセットに適用する。 また、メソッドをバイナリ分類設定に拡張する。 さらに、高速収束における損失の滑らかさの他の結果についても検討する。 さらに, 心臓病, 乳癌, 糖尿病などの他の医療推論課題に分類枠組みを適用した。 フレームワークの一般化能力のテストとして、回帰および分類タスクのための他の非医療関連データセットも評価した。

Mining large datasets and obtaining calibrated predictions from tem is of immediate relevance and utility in reliable deep learning. In our work, we develop methods for Deep neural networks based inferences in such datasets like the Gene Expression. However, unlike typical Deep learning methods, our inferential technique, while achieving state-of-the-art performance in terms of accuracy, can also provide explanations, and report uncertainty estimates. We adopt the Quantile Regression framework to predict full conditional quantiles for a given set of housekeeping gene expressions. Conditional quantiles, in addition to being useful in providing rich interpretations of the predictions, are also robust to measurement noise. Our technique is particularly consequential in High-throughput Genomics, an area which is ushering a new era in personalized health care, and targeted drug design and delivery. However, check loss, used in quantile regression to drive the estimation process is not differentiable. We propose log-cosh as a smooth-alternative to the check loss. We apply our methods on GEO microarray dataset. We also extend the method to binary classification setting. Furthermore, we investigate other consequences of the smoothness of the loss in faster convergence. We further apply the classification framework to other healthcare inference tasks such as heart disease, breast cancer, diabetes etc. As a test of generalization ability of our framework, other non-healthcare related data sets for regression and classification tasks are also evaluated.
翻訳日:2023-05-03 11:21:56 公開日:2023-05-02
# よりロバストなサンプルにより正規化を施すことによる対向ロバスト性の向上

Improving adversarial robustness by putting more regularizations on less robust samples ( http://arxiv.org/abs/2206.03353v3 )

ライセンス: Link先を確認
Dongyoon Yang, Insung Kong, Yongdai Kim(参考訳) 敵の攻撃に対する堅牢性を高めるための敵意トレーニングは、与えられた深層ニューラルネットワークを欺くために、人間の知覚可能なデータの摂動を生成することが容易であるため、多くの注目を集めている。 本稿では,既存のアルゴリズムよりも理論的にモチベーションが高く,経験的に優れている新しい学習アルゴリズムを提案する。 提案アルゴリズムの新たな特徴は、既存の正規化アルゴリズムよりも敵攻撃に弱いデータに対してより規則化を適用することである。 理論的には,本アルゴリズムはロバストリスクの新たな上限から誘導される正規化経験的リスクを最小化するためのアルゴリズムとして理解できることを示す。 数値実験により,提案アルゴリズムは一般化(実例の精度)と強靭性(敵攻撃の精度)を同時に改善し,最先端の性能を実現する。

Adversarial training, which is to enhance robustness against adversarial attacks, has received much attention because it is easy to generate human-imperceptible perturbations of data to deceive a given deep neural network. In this paper, we propose a new adversarial training algorithm that is theoretically well motivated and empirically superior to other existing algorithms. A novel feature of the proposed algorithm is to apply more regularization to data vulnerable to adversarial attacks than other existing regularization algorithms do. Theoretically, we show that our algorithm can be understood as an algorithm of minimizing the regularized empirical risk motivated from a newly derived upper bound of the robust risk. Numerical experiments illustrate that our proposed algorithm improves the generalization (accuracy on examples) and robustness (accuracy on adversarial attacks) simultaneously to achieve the state-of-the-art performance.
翻訳日:2023-05-03 11:21:34 公開日:2023-05-02
# ガイド付き確率探索による人間の脳活動からの画像再構成

Reconstructing seen images from human brain activity via guided stochastic search ( http://arxiv.org/abs/2305.00556v2 )

ライセンス: Link先を確認
Reese Kneeland, Jordyn Ojeda, Ghislain St-Yves, Thomas Naselaris(参考訳) 視覚再構成アルゴリズムは、脳活動をピクセルにマッピングする解釈ツールである。 過去のレコンストラクションアルゴリズムでは、大量のライブラリを通じてブルートフォースサーチを使用して、エンコーディングモデルを通過する際に脳活動を正確に予測する候補画像を選択する。 ここでは,条件付き生成拡散モデルを用いて,この探索に基づく戦略を拡張し,改善する。 視覚野の大部分にわたるボクセルのヒト脳活動(7T fMRI)から意味記述子をデコードし、拡散モデルを用いて、この記述子に条件付けられた画像の小さなライブラリーをサンプリングする。 各サンプルをエンコーディングモデルに通し、最も脳活動を予測するイメージを選択し、これらのイメージを使用して別のライブラリをシードします。 このプロセスは、イテレーション間で意味的コンテンツを保存しながら、低レベルな画像詳細を洗練することで、高品質な再構築に収束する。 興味深いことに、time-to-convergenceは視覚野全体で系統的に異なるため、視覚領域における表現の多様性を測定するための簡潔な新しい方法が示唆されている。

Visual reconstruction algorithms are an interpretive tool that map brain activity to pixels. Past reconstruction algorithms employed brute-force search through a massive library to select candidate images that, when passed through an encoding model, accurately predict brain activity. Here, we use conditional generative diffusion models to extend and improve this search-based strategy. We decode a semantic descriptor from human brain activity (7T fMRI) in voxels across most of visual cortex, then use a diffusion model to sample a small library of images conditioned on this descriptor. We pass each sample through an encoding model, select the images that best predict brain activity, and then use these images to seed another library. We show that this process converges on high-quality reconstructions by refining low-level image details while preserving semantic content across iterations. Interestingly, the time-to-convergence differs systematically across visual cortex, suggesting a succinct new way to measure the diversity of representations across visual brain areas.
翻訳日:2023-05-03 11:14:02 公開日:2023-05-02
# FusionLoc:マルチヘッド自己注意を用いたカメラ2D LiDARフュージョン

FusionLoc: Camera-2D LiDAR Fusion Using Multi-Head Self-Attention for End-to-End Serving Robot Relocalization ( http://arxiv.org/abs/2303.06872v3 )

ライセンス: Link先を確認
Jieun Lee, Hakjun Lee, Jiyong Oh(参考訳) 自律移動ロボットのテクノロジーが進歩するにつれて、移動サービスロボットは様々な目的のために積極的に使われてきた。 特に、新型コロナウイルス(COVID-19)のパンデミック以来、サービスロボットは驚くべき製品ではなかった。 ロボットの操作における現実的な問題の一つは、動き回る地図上のポーズを推定できないことが多いことだ。 障害が発生した場合、サーバーはサービスロボットを初期位置に持ち込み、手動で再起動する必要がある。 本稿では,この問題に対処するためのサービスロボットのエンドツーエンド再ローカライズに焦点をあてる。 ニューラルネットワークを用いて、搭載されているセンサーデータから直接ロボットのポーズを予測する。 特に,カメラ2D LiDARセンサ融合に基づく再局在のためのディープニューラルネットワークアーキテクチャを提案する。 提案手法をFusionLocと呼ぶ。 提案手法では,2つのセンサが捉えた様々な種類の情報を補完してロボットのポーズを復元する。 商用サービスロボットが収集したデータセットを用いた実験により、FusionLocは、1つの画像または2次元LiDAR点クラウドのみを受信する従来のエンドツーエンド再ローカライゼーション手法よりも優れた性能と、それらの特徴を結合した簡単な融合法を提供できることを示した。

As technology advances in autonomous mobile robots, mobile service robots have been actively used more and more for various purposes. Especially, serving robots have been not surprising products anymore since the COVID-19 pandemic. One of the practical problems in operating serving a robot is that it often fails to estimate its pose on a map that it moves around. Whenever the failure happens, servers should bring the serving robot to its initial location and reboot it manually. In this paper, we focus on end-to-end relocalization of serving robots to address the problem. It is to predict robot pose directly from only the onboard sensor data using neural networks. In particular, we propose a deep neural network architecture for the relocalization based on camera-2D LiDAR sensor fusion. We call the proposed method FusionLoc. In the proposed method, the multi-head self-attention complements different types of information captured by the two sensors to regress the robot pose. Our experiments on a dataset collected by a commercial serving robot demonstrate that FusionLoc can provide better performances than previous end-to-end relocalization methods taking only a single image or a 2D LiDAR point cloud as well as a straightforward fusion method concatenating their features.
翻訳日:2023-05-03 11:13:45 公開日:2023-05-02
# クライアントレベルの差分プライバシー下でのフラッターランドスケープとフェデレーション学習の一般化

Towards the Flatter Landscape and Better Generalization in Federated Learning under Client-level Differential Privacy ( http://arxiv.org/abs/2305.00873v2 )

ライセンス: Link先を確認
Yifan Shi, Kang Wei, Li Shen, Yingqi Liu, Xueqian Wang, Bo Yuan, and Dacheng Tao(参考訳) 推論攻撃を防御し、フェデレーション学習(fl)における機密情報漏洩を軽減するため、クライアントレベルの差分プライベートfl(dpfl)は、ローカル更新をクリップしてランダムノイズを追加することにより、プライバシ保護のデファクトスタンダードである。 しかし, 既存のdpfl法では, 鋭い損失景観を呈する傾向があり, 重量変動の頑健性が低下し, 性能が低下する傾向がみられた。 これらの問題を緩和するために,dp-fedsamと呼ばれる新しいdpflアルゴリズムを提案し,dpの負の影響を軽減するために勾配摂動を利用する。 具体的には、DP-FedSAMはシャープネス認識最小化(SAM)オプティマイザを統合し、安定性と重量摂動堅牢性を改善した局所平坦度モデルを生成する。 そこで本研究では,局所更新スパルシフィケーション手法を応用し,ランダムノイズの大きさを低減し,性能向上を図るため,dp-fedsam-$top_k$を提案する。 理論的観点から,本アルゴリズムがDPによる性能劣化を緩和する方法を検討するために,収束解析を提案する。 一方,r\'enyi dpによる厳密なプライバシー保証,ローカル更新の感度解析,一般化分析を行う。 最後に、DPFLの既存のSOTAベースラインと比較して、我々のアルゴリズムが最先端(SOTA)性能を達成することを実証的に確認する。

To defend the inference attacks and mitigate the sensitive information leakages in Federated Learning (FL), client-level Differentially Private FL (DPFL) is the de-facto standard for privacy protection by clipping local updates and adding random noise. However, existing DPFL methods tend to make a sharp loss landscape and have poor weight perturbation robustness, resulting in severe performance degradation. To alleviate these issues, we propose a novel DPFL algorithm named DP-FedSAM, which leverages gradient perturbation to mitigate the negative impact of DP. Specifically, DP-FedSAM integrates Sharpness Aware Minimization (SAM) optimizer to generate local flatness models with improved stability and weight perturbation robustness, which results in the small norm of local updates and robustness to DP noise, thereby improving the performance. To further reduce the magnitude of random noise while achieving better performance, we propose DP-FedSAM-$top_k$ by adopting the local update sparsification technique. From the theoretical perspective, we present the convergence analysis to investigate how our algorithms mitigate the performance degradation induced by DP. Meanwhile, we give rigorous privacy guarantees with R\'enyi DP, the sensitivity analysis of local updates, and generalization analysis. At last, we empirically confirm that our algorithms achieve state-of-the-art (SOTA) performance compared with existing SOTA baselines in DPFL.
翻訳日:2023-05-03 11:12:35 公開日:2023-05-02
# グラフ機械学習におけるロバスト性の再考

Revisiting Robustness in Graph Machine Learning ( http://arxiv.org/abs/2305.00851v2 )

ライセンス: Link先を確認
Lukas Gosch, Daniel Sturm, Simon Geisler, Stephan G\"unnemann(参考訳) グラフニューラルネットワーク(GNN)のノードレベルの予測は、小さく、しばしば逆数と呼ばれるグラフ構造の変化に対して損なわれない。 しかし、グラフの手動検査は難しいため、研究された摂動が常に敵の例の中核的な仮定を保っているかどうかは不明である。 この問題に対処するために,我々は,意味的コンテンツの変化を意識した,より原則的な逆グラフの概念を導入する。 文脈確率ブロックモデル(CSBM)と実世界のグラフを用いて、我々の結果を明らかにする:$i)$ ほとんどのノードに対して、一般的な摂動モデルには、変化しないセマンティクスの仮定に違反した乱れグラフが多数含まれます。 提案手法は,学習グラフのラベル構造をgnnsの推論プロセスに含めることで,過度のロバスト性が著しく低下すると同時に,テスト精度や敵対的ロバスト性に有意な影響を与えることが示された。 理論的には、新たに追加されたノードを帰納的に分類するために、ロバスト性-正確性トレードオフがないことを示す。

Many works show that node-level predictions of Graph Neural Networks (GNNs) are unrobust to small, often termed adversarial, changes to the graph structure. However, because manual inspection of a graph is difficult, it is unclear if the studied perturbations always preserve a core assumption of adversarial examples: that of unchanged semantic content. To address this problem, we introduce a more principled notion of an adversarial graph, which is aware of semantic content change. Using Contextual Stochastic Block Models (CSBMs) and real-world graphs, our results uncover: $i)$ for a majority of nodes the prevalent perturbation models include a large fraction of perturbed graphs violating the unchanged semantics assumption; $ii)$ surprisingly, all assessed GNNs show over-robustness - that is robustness beyond the point of semantic change. We find this to be a complementary phenomenon to adversarial examples and show that including the label-structure of the training graph into the inference process of GNNs significantly reduces over-robustness, while having a positive effect on test accuracy and adversarial robustness. Theoretically, leveraging our new semantics-aware notion of robustness, we prove that there is no robustness-accuracy tradeoff for inductively classifying a newly added node.
翻訳日:2023-05-03 11:12:05 公開日:2023-05-02
# SelfDocSeg: ドキュメントセグメンテーションへの自己監督型ビジョンベースのアプローチ

SelfDocSeg: A Self-Supervised vision-based Approach towards Document Segmentation ( http://arxiv.org/abs/2305.00795v2 )

ライセンス: Link先を確認
Subhajit Maity, Sanket Biswas, Siladittya Manna, Ayan Banerjee, Josep Llad\'os, Saumik Bhattacharya, Umapada Pal(参考訳) 文書レイアウト分析は文書研究コミュニティにとって既知の問題であり,テキストマイニング,認識,グラフベース表現,視覚的特徴抽出など,多岐にわたるソリューションの提供が検討されている。 しかし、既存の作品の多くはラベル付きデータの不足に関する重要な事実を無視している。 個人生活へのインターネット接続の増大に伴い、パブリックドメインでは膨大な量のドキュメントが利用可能となり、データアノテーションは面倒な作業となった。 テキストマイニングやテキストラベルを用いた既存の文書セグメンテーションアプローチとは異なり,我々は,接地ラベルやその派生性のない事前学習において,完全な視覚に基づくアプローチを用いる。 代わりに、文書画像から擬似レイアウトを生成し、画像エンコーダを事前訓練し、文書オブジェクト表現とローカライゼーションを自己教師付きフレームワークで学習し、オブジェクト検出モデルで微調整する。 当社のパイプラインでは、このコンテキストで新たなベンチマークを設定し、既存のメソッドや監視対象のものと同等のパフォーマンスを実現しています。 コードは、https://github.com/MaitySubhajit/SelfDocSegで公開されている。

Document layout analysis is a known problem to the documents research community and has been vastly explored yielding a multitude of solutions ranging from text mining, and recognition to graph-based representation, visual feature extraction, etc. However, most of the existing works have ignored the crucial fact regarding the scarcity of labeled data. With growing internet connectivity to personal life, an enormous amount of documents had been available in the public domain and thus making data annotation a tedious task. We address this challenge using self-supervision and unlike, the few existing self-supervised document segmentation approaches which use text mining and textual labels, we use a complete vision-based approach in pre-training without any ground-truth label or its derivative. Instead, we generate pseudo-layouts from the document images to pre-train an image encoder to learn the document object representation and localization in a self-supervised framework before fine-tuning it with an object detection model. We show that our pipeline sets a new benchmark in this context and performs at par with the existing methods and the supervised counterparts, if not outperforms. The code is made publicly available at: https://github.com/MaitySubhajit/SelfDocSeg
翻訳日:2023-05-03 11:11:40 公開日:2023-05-02
# 1対1変圧器による終端車線検出

End to End Lane detection with One-to-Several Transformer ( http://arxiv.org/abs/2305.00675v2 )

ライセンス: Link先を確認
Kunyang Zhou and Rui Zhou(参考訳) レーン検出手法は実世界のシナリオで印象的な性能を示したが、ほとんどの方法は十分に堅牢ではない後処理を必要とする。 したがって、車線検出にはDetection TRansformer(DETR)のようなエンドツーエンド検出器が導入された。 しかし、DETRにおける1対1のラベル割り当ては、ラベルセマンティックコンフリクトによってトレーニング効率を低下させることができる。 さらに、detrにおける位置クエリは明示的な位置優先を提供することができないため、最適化が難しい。 本稿では,1-to-Several Transformer(O2SFormer)を提案する。 まず,一対一と一対多のラベル割り当てを組み合わせた一対一ラベル割り当てを提案し,エンドツーエンド検出を維持しながらトレーニング効率を向上させる。 1対1の割り当てを最適化する難しさを克服する。 さらに,異なるデコーダ層にまたがる正のレーンアンカーの正の重みを調節する層毎ソフトラベルを提案する。 最後に,動的アンカーに基づく位置問合せの設計を行い,位置問合せにレーンアンカーを組み込むことにより位置先行を探索する。 実験結果から,O2SFormerはDETRの収束を著しく高速化し,CULaneデータセット上のTransformerベースおよびCNNベース検出器よりも優れていた。 コードはhttps://github.com/zkyseu/o2sformerで入手できる。

Although lane detection methods have shown impressive performance in real-world scenarios, most of methods require post-processing which is not robust enough. Therefore, end-to-end detectors like DEtection TRansformer(DETR) have been introduced in lane detection. However, one-to-one label assignment in DETR can degrade the training efficiency due to label semantic conflicts. Besides, positional query in DETR is unable to provide explicit positional prior, making it difficult to be optimized. In this paper, we present the One-to-Several Transformer(O2SFormer). We first propose the one-to-several label assignment, which combines one-to-one and one-to-many label assignments to improve the training efficiency while keeping end-to-end detection. To overcome the difficulty in optimizing one-to-one assignment. We further propose the layer-wise soft label which adjusts the positive weight of positive lane anchors across different decoder layers. Finally, we design the dynamic anchor-based positional query to explore positional prior by incorporating lane anchors into positional query. Experimental results show that O2SFormer significantly speeds up the convergence of DETR and outperforms Transformer-based and CNN-based detectors on the CULane dataset. Code will be available at https://github.com/zkyseu/O2SFormer.
翻訳日:2023-05-03 11:11:09 公開日:2023-05-02
# グラフをまたいだ動的転送学習

Dynamic Transfer Learning across Graphs ( http://arxiv.org/abs/2305.00664v2 )

ライセンス: Link先を確認
Haohui Wang, Yuzhen Mao, Jianhui Sun, Si Zhang, Dawei Zhou(参考訳) グラフにまたがる知識の伝達は、輸送ネットワークからeコマースネットワーク、神経科学から金融まで、多くの高リスクドメインにおいて重要な役割を担っている。 これまで、既存の著作物の大部分は、ソース領域とターゲット領域の両方が普遍分布と定常分布からサンプリングされていると仮定している。 しかし、多くの現実世界のシステムは本質的に動的であり、基礎となるドメインは時間とともに進化している。 ラベルリッチなソースグラフと以前のtタイムスタンプで観測されたラベル付きターゲットグラフを考えると、どのようにして進化するドメインの不一致を効果的に特徴付け、t+1タイムスタンプでターゲットドメインの一般化性能を最適化できるか? そこで本研究では,まず,グラフ間の動的移動学習の設定を前提とした一般化法を提案し,その一般化性能は,領域の進化と対象領域間のドメイン差に支配されることを示す。 理論的結果から着想を得て,動的グラフ間の知識伝達性を改善するための新しい汎用フレームワークDyTransを提案する。 特に,進化する領域の時間情報をモデル化するtransformerベースの時間符号化モジュールから始めて,さらに動的領域統一モジュールの設計を行い,ソース領域とターゲット領域間のドメイン不変表現を効率的に学習する。 最後に、様々な実世界のデータセットに関する広範な実験により、動的ソースドメインから動的ターゲットドメインへの知識転送におけるDyTransの有効性を示す。

Transferring knowledge across graphs plays a pivotal role in many high-stake domains, ranging from transportation networks to e-commerce networks, from neuroscience to finance. To date, the vast majority of existing works assume both source and target domains are sampled from a universal and stationary distribution. However, many real-world systems are intrinsically dynamic, where the underlying domains are evolving over time. To bridge the gap, we propose to shift the problem to the dynamic setting and ask: given the label-rich source graphs and the label-scarce target graphs observed in previous T timestamps, how can we effectively characterize the evolving domain discrepancy and optimize the generalization performance of the target domain at the incoming T+1 timestamp? To answer the question, for the first time, we propose a generalization bound under the setting of dynamic transfer learning across graphs, which implies the generalization performance is dominated by domain evolution and domain discrepancy between source and target domains. Inspired by the theoretical results, we propose a novel generic framework DyTrans to improve knowledge transferability across dynamic graphs. In particular, we start with a transformer-based temporal encoding module to model temporal information of the evolving domains; then, we further design a dynamic domain unification module to efficiently learn domain-invariant representations across the source and target domains. Finally, extensive experiments on various real-world datasets demonstrate the effectiveness of DyTrans in transferring knowledge from dynamic source domains to dynamic target domains.
翻訳日:2023-05-03 11:10:48 公開日:2023-05-02
# 特異値分解を用いた深層強化学習のための表現と探索

Representations and Exploration for Deep Reinforcement Learning using Singular Value Decomposition ( http://arxiv.org/abs/2305.00654v2 )

ライセンス: Link先を確認
Yash Chandak, Shantanu Thakoor, Zhaohan Daniel Guo, Yunhao Tang, Remi Munos, Will Dabney, Diana L Borsa(参考訳) 表現学習と探索は、深層強化学習エージェントにとって重要な課題である。 本研究では,ドメインの基底となる遷移構造を保存する表現を得るために,特異値分解に基づく手法を提案する。 興味深いことに、これらの表現は国家訪問の相対頻度も捉えるので、擬似数を無料で見積もることができる。 この分解法を大規模領域に拡張するには,遷移行列の構築を必要とせず,深層ネットワークを活用でき,ミニバッチトレーニングも可能である。 さらに,予測状態表現からインスピレーションを得て,分解法を部分的に観測可能な環境に拡張する。 半可観測領域を用いたマルチタスク設定実験により,DM-Lab-30環境(言語命令,画素画像,報酬などを含む入力を含む)で有用な表現を学習できるだけでなく,DM-Hard-8環境におけるハードな探索作業にも有効であることを示す。

Representation learning and exploration are among the key challenges for any deep reinforcement learning agent. In this work, we provide a singular value decomposition based method that can be used to obtain representations that preserve the underlying transition structure in the domain. Perhaps interestingly, we show that these representations also capture the relative frequency of state visitations, thereby providing an estimate for pseudo-counts for free. To scale this decomposition method to large-scale domains, we provide an algorithm that never requires building the transition matrix, can make use of deep networks, and also permits mini-batch training. Further, we draw inspiration from predictive state representations and extend our decomposition method to partially observable environments. With experiments on multi-task settings with partially observable domains, we show that the proposed method can not only learn useful representation on DM-Lab-30 environments (that have inputs involving language instructions, pixel images, and rewards, among others) but it can also be effective at hard exploration tasks in DM-Hard-8 environments.
翻訳日:2023-05-03 11:10:21 公開日:2023-05-02
# 分解は自己評価ガイドによる推論を促進する

Decomposition Enhances Reasoning via Self-Evaluation Guided Decoding ( http://arxiv.org/abs/2305.00633v2 )

ライセンス: Link先を確認
Yuxi Xie, Kenji Kawaguchi, Yiran Zhao, Xu Zhao, Min-Yen Kan, Junxian He, Qizhe Xie(参考訳) 大規模言語モデル(LLM)に細粒度自己評価を加え,多段階推論を洗練させる。 本稿では,確率的ビームサーチによる自己評価ガイダンスを統合する効果的なプロンプト手法を提案する。 提案手法は,よく校正された自動基準を用いた推論探索空間を探索する。 これにより、効率的な検索が高品質な最終予測を生成することができる。 自己評価誘導確率ビーム探索により、推論連鎖の生成における品質多様性トレードオフのバランスをとる。 これにより、GSM8K、AQuA、StrategyQAベンチマークでそれぞれ6.34 %$、9.56 %$、および5.46 %$のCodexバックボンドベースラインを数秒の精度で、多数決で順応することが可能になります。 分解的推論の分析では、論理的失敗を指摘し、一貫性と堅牢性を高める。 私たちのコードはhttps://github.com/YuxiXie/SelfEval-Guided-Decodingで公開されています。

We endow Large Language Models (LLMs) with fine-grained self-evaluation to refine multi-step reasoning inference. We propose an effective prompting approach that integrates self-evaluation guidance through stochastic beam search. Our approach explores the reasoning search space using a well-calibrated automatic criterion. This enables an efficient search to produce higher-quality final predictions. With the self-evaluation guided stochastic beam search, we also balance the quality-diversity trade-off in the generation of reasoning chains. This allows our approach to adapt well with majority voting and surpass the corresponding Codex-backboned baselines by $6.34\%$, $9.56\%$, and $5.46\%$ on the GSM8K, AQuA, and StrategyQA benchmarks, respectively, in few-shot accuracy. Analysis of our decompositional reasoning finds it pinpoints logic failures and leads to higher consistency and robustness. Our code is publicly available at https://github.com/YuxiXie/SelfEval-Guided-Decoding.
翻訳日:2023-05-03 11:10:04 公開日:2023-05-02
# 非ネイティブ話者の割合が言語複雑性に与える影響の証拠はまだない -- Kauhanen, Einhaus & Walkden (2023)に対する回答

Still no evidence for an effect of the proportion of non-native speakers on language complexity -- A response to Kauhanen, Einhaus & Walkden (2023) ( http://arxiv.org/abs/2305.00217v2 )

ライセンス: Link先を確認
Alexander Koplenig(参考訳) Journal of Language Evolutionに掲載された最近の論文で、Kauhanen, Einhaus & Walkden (https://doi.org/10.1093/jole/lzad005, KEW)は、私の論文の1つ(Koplenig, Royal Society Open Science 6, 181274 (2019), https://doi.org/10.1098/rsos.181274)で示された結果に異議を唱えました。 この目的のために、Ethnologueが言語ステータスを評価する方法に注目します。L1(第一言語)話者が使用することに加えて、かなりの数のL2ユーザを持つ必要がある場合、言語はvehicularとして特徴づけられます。 KEWは、言語がかなりの数のL2ユーザを持つかどうかを示す(バイナリ)指標として、そしてその比率の直接推定が不可能なときに、L2話者の0パーセントを非車種言語に出力するという考え方の両方を批判している。 出版後論評の重要性は認識していますが,本論では両論点が明記され,私の論文で分析されていることを示します。 さらに、KEWが提起した他の点についてもコメントし、KEWが提供する代替分析も、より精査に至らないことを実証します。

In a recent paper published in the Journal of Language Evolution, Kauhanen, Einhaus & Walkden (https://doi.org/10.1093/jole/lzad005, KEW) challenge the results presented in one of my papers (Koplenig, Royal Society Open Science, 6, 181274 (2019), https://doi.org/10.1098/rsos.181274), in which I tried to show through a series of statistical analyses that large numbers of L2 (second language) speakers do not seem to affect the (grammatical or statistical) complexity of a language. To this end, I focus on the way in which the Ethnologue assesses language status: a language is characterised as vehicular if, in addition to being used by L1 (first language) speakers, it should also have a significant number of L2 users. KEW criticise both the use of vehicularity as a (binary) indicator of whether a language has a significant number of L2 users and the idea of imputing a zero proportion of L2 speakers to non-vehicular languages whenever a direct estimate of that proportion is unavailable. While I recognise the importance of post-publication commentary on published research, I show in this rejoinder that both points of criticism are explicitly mentioned and analysed in my paper. In addition, I also comment on other points raised by KEW and demonstrate that both alternative analyses offered by KEW do not stand up to closer scrutiny.
翻訳日:2023-05-03 11:09:47 公開日:2023-05-02
# 領域からポイントへの探索:セマンティック・ジオメトリ複合機能マッチングのための階層的フレームワーク

Searching from Area to Point: A Hierarchical Framework for Semantic-Geometric Combined Feature Matching ( http://arxiv.org/abs/2305.00194v2 )

ライセンス: Link先を確認
Yesheng Zhang, Xu Zhao, Dahong Qian(参考訳) 特徴マッチングはコンピュータビジョンにおいて重要な技術である。 本質的には、画像間の対応を確立するための探索問題と見なすことができる。 このタスクにおける重要な課題は、明確に定義された検索空間の欠如であり、現在のメソッドの不正確なポイントマッチングにつながる。 本稿では,適切なマッチング検索空間を求めて,まず画像間の意味的領域マッチング(a2pm)を探索し,次に領域マッチングを行う階層的特徴マッチングフレームワークを提案する。 A2PMフレームワークの適切な検索空間は、最先端のTransformerベースのマッチング手法の精度の制限を緩和する。 この枠組みを実現するために、画像間の正確な領域マッチングを確立するために、意味的前後整合性と幾何学的一貫性を利用した意味的・幾何学的領域マッチング(sgam)手法を提案する。 SGAMとオフザシェルトランスフォーマーベースのマーカを組み合わせることで,A2PMフレームワークを取り入れた特徴マッチング手法により,大規模点マッチングの精度向上と,現在の美術品のポーズ推定実験を実現する。

Feature matching is a crucial technique in computer vision. Essentially, it can be considered as a searching problem to establish correspondences between images. The key challenge in this task lies in the lack of a well-defined search space, leading to inaccurate point matching of current methods. In pursuit of a reasonable matching search space, this paper introduces a hierarchical feature matching framework: Area to Point Matching (A2PM), to first find semantic area matches between images, and then perform point matching on area matches, thus setting the search space as the area matches with salient features to achieve high matching precision. This proper search space of A2PM framework also alleviates the accuracy limitation in state-of-the-art Transformer-based matching methods. To realize this framework, we further propose Semantic and Geometry Area Matching (SGAM) method, which utilizes semantic prior and geometry consistency to establish accurate area matches between images. By integrating SGAM with off-the-shelf Transformer-based matchers, our feature matching methods, adopting the A2PM framework, achieve encouraging precision improvements in massive point matching and pose estimation experiments for present arts.
翻訳日:2023-05-03 11:09:06 公開日:2023-05-02
# 自律システムに向けて:大規模言語モデルエージェントによるフレキシブル・モジュラー生産システム

Towards autonomous system: flexible modular production system enhanced with large language model agents ( http://arxiv.org/abs/2304.14721v3 )

ライセンス: Link先を確認
Yuchen Xia, Manthan Shenoy, Nasser Jazdi, Michael Weyrich(参考訳) 本稿では,大規模言語モデル(LLM),デジタルツイン,産業自動化システムを組み合わせて,生産プロセスのインテリジェントな計画と制御を可能にする新しいフレームワークを提案する。 モジュラー生産施設の自動化システムに適合し、粒度や粒度が粗い技術で実行可能な制御インタフェースを作成する。 低レベルの機能は自動化コンポーネントによって実行され、高レベルのスキルは自動化モジュールによって実行される。 その後、これらのインタフェースを登録し、生産システムに関する追加記述情報を含むデジタルツインシステムを開発する。 改造された自動化システムと作成されたデジタルツインに基づいて、llm-agentsはデジタルツインの記述情報を解釈し、サービスインターフェースを介して物理システムを制御するように設計されている。 これらのllmエージェントは、自動化システム内のさまざまなレベルのインテリジェントエージェントとして機能し、自律的な計画と柔軟な生産の制御を可能にする。 タスク命令が入力として与えられると、LLMエージェントはタスクを達成するための一連の原子機能とスキルを編成する。 実装済みのプロトタイプが未定義のタスクをどのように処理し、運用プロセスを計画し、操作を実行するかを示します。 この研究は、よりアジャイルでフレキシブルで適応的な生産プロセスを実現するために、スマートファクトリの文脈で産業自動化システムにLLMを統合する可能性を強調し、同時に、将来の作業における重要な洞察と限界も強調する。

In this paper, we present a novel framework that combines large language models (LLMs), digital twins and industrial automation system to enable intelligent planning and control of production processes. We retrofit the automation system for a modular production facility and create executable control interfaces of fine-granular functionalities and coarse-granular skills. Low-level functionalities are executed by automation components, and high-level skills are performed by automation modules. Subsequently, a digital twin system is developed, registering these interfaces and containing additional descriptive information about the production system. Based on the retrofitted automation system and the created digital twins, LLM-agents are designed to interpret descriptive information in the digital twins and control the physical system through service interfaces. These LLM-agents serve as intelligent agents on different levels within an automation system, enabling autonomous planning and control of flexible production. Given a task instruction as input, the LLM-agents orchestrate a sequence of atomic functionalities and skills to accomplish the task. We demonstrate how our implemented prototype can handle un-predefined tasks, plan a production process, and execute the operations. This research highlights the potential of integrating LLMs into industrial automation systems in the context of smart factory for more agile, flexible, and adaptive production processes, while it also underscores the critical insights and limitations for future work.
翻訳日:2023-05-03 11:08:47 公開日:2023-05-02