このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230616となっている論文です。

PDF登録状況(公開日: 20230616)

TitleAuthorsAbstract論文公表日・翻訳日
# 現代のコンパイラファジィに関する調査

A Survey of Modern Compiler Fuzzing ( http://arxiv.org/abs/2306.06884v3 )

ライセンス: Link先を確認
Haoyang Ma(参考訳) コンピュータ上で動作するほとんどのソフトウェアは、コンパイラによって処理される。 コンパイラはソフトウェア開発の基本インフラストラクチャを構成するため、その正確性が最優先される。 長年にわたって、研究者は主流のコンパイラよりもバグの特徴を分析し、理解し、特徴づけてきた。 これらの研究は、コンパイラの正しさはより研究の注意を必要とすることを示し、コンパイラファジィ化の道を開くことも示している。 コンパイラの正確性を改善するため、研究者は多数のコンパイラファジング技術を提案した。 これらの技術は、GCC/LLVMのような従来のコンパイラをテストするために開発され、その後、グラフィックシェーダーコンパイラやディープラーニング(DL)コンパイラといった、新しく開発されたドメイン固有の様々なコンパイラをテストするために一般化された。 本稿では,コンパイラの欠陥の理解と対処に向けた研究成果について概説する。 特に、この調査は2つの側面を主にカバーしている。 まず、その症状や根本原因など、コンパイラーのバグに関する調査と専門知識をカバーしている。 コンパイラのバグ研究は、gcc/llvm、jvmコンパイラ、dlコンパイラをカバーする。 さらに、テストプログラムの構築やテストオラクルの設計など、ファジングテクニックの設計に関する研究者の努力もカバーしている。 既存の研究の議論に加えて、いくつかのオープンな課題を概説し、研究の機会を強調している。

Most software that runs on computers undergoes processing by compilers. Since compilers constitute the fundamental infrastructure of software development, their correctness is paramount. Over the years, researchers have invested in analyzing, understanding, and characterizing the bug features over mainstream compilers. These studies have demonstrated that compilers correctness requires greater research attention, and they also pave the way for compiler fuzzing. To improve compilers correctness, researchers have proposed numerous compiler fuzzing techniques. These techniques were initially developed for testing traditional compilers such as GCC/LLVM and have since been generalized to test various newly developed, domain-specific compilers, such as graphics shader compilers and deep learning (DL) compilers. In this survey, we provide a comprehensive summary of the research efforts for understanding and addressing compilers defects. Specifically, this survey mainly covers two aspects. First, it covers researchers investigation and expertise on compilers bugs, such as their symptoms and root causes. The compiler bug studies cover GCC/LLVM, JVM compilers, and DL compilers. In addition, it covers researchers efforts in designing fuzzing techniques, including constructing test programs and designing test oracles. Besides discussing the existing work, this survey outlines several open challenges and highlights research opportunities.
翻訳日:2023-10-24 03:41:36 公開日:2023-06-16
# 繰り返しテストスイート削減による多重断層のスペクトルに基づく局所化の改善

Improving Spectrum-Based Localization of Multiple Faults by Iterative Test Suite Reduction ( http://arxiv.org/abs/2306.09892v1 )

ライセンス: Link先を確認
Dylan Callaghan, Bernd Fischer(参考訳) spectrum-based fault localization (sbfl) は単相プログラムではうまく機能するが、その精度は故障数を増やすために低下する。 本稿では,複数の断層が存在する場合に,与えられた基準値の局所化を改善する新しいSBFL拡張であるFLITSR(Fault Localization by Iterative Test Suite Reduction)を提案する。 FLITSRは、システム内の個々の障害をよりよくローカライズする、テストスイートの縮小バージョンを反復的に選択する。 これにより、他のプログラム要素によって隠されたため、ベースメトリックでランクが低すぎる障害を特定し、ランク付けすることができる。 提案手法は,最大32の障害を含む15のオープンソースプロジェクトの75,000の変種と,最大14の障害を含むDefects4Jベンチマークセットから326の真のマルチフォールトバージョンを持つ新しいデータセットからのメソッドレベルおよびステートメントレベルスペクトルからなる,既存の大規模合成データセットのFLITSRを用いて評価した。 すべての3つのスペクトルタイプに対して、異なる断層レベルにおける平均的な無駄な労力の大幅な削減、最高のベースメータの30%-90%の削減、そして一般的には、基礎となるプロジェクト間で大きなばらつきがあるにもかかわらず、精度とリコールの大幅な増加が見られる。 メソッドレベルの実障害に対しては、FLITSRは、最先端の学習ベースの障害ローカライザであるGRACEを著しく上回っている。

Spectrum-based fault localization (SBFL) works well for single-fault programs but its accuracy decays for increasing fault numbers. We present FLITSR (Fault Localization by Iterative Test Suite Reduction), a novel SBFL extension that improves the localization of a given base metric specifically in the presence of multiple faults. FLITSR iteratively selects reduced versions of the test suite that better localize the individual faults in the system. This allows it to identify and re-rank faults ranked too low by the base metric because they were masked by other program elements. We evaluated FLITSR over method-level spectra from an existing large synthetic dataset comprising 75000 variants of 15 open-source projects with up to 32 injected faults, as well as method-level and statement-level spectra from a new dataset with 326 true multi-fault versions from the Defects4J benchmark set containing up to 14 real faults. For all three spectrum types we consistently see substantial reductions of the average wasted efforts at different fault levels, of 30%-90% over the best base metric, and generally similarly large increases in precision and recall, albeit with larger variance across the underlying projects. For the method-level real faults, FLITSR also substantially outperforms GRACE, a state-of-the-art learning-based fault localizer.
翻訳日:2023-10-23 19:37:52 公開日:2023-06-16
# javaベースのオープンソースソフトウェア開発における品質保証の現状

State-Of-The-Practice in Quality Assurance in Java-Based Open Source Software Development ( http://arxiv.org/abs/2306.09665v1 )

ライセンス: Link先を確認
Ali Khatami, Andy Zaidman(参考訳) ソフトウェアシステムの品質を保証するため、ソフトウェアエンジニアは、ソフトウェアテスト、現代的なコードレビュー、自動静的分析、ビルド自動化など、さまざまな品質保証アプローチを利用することができる。 これらの品質保証のプラクティスは、それぞれ独立して深く研究されているが、これらのアプローチが協調して使われているかどうかを理解する上で、明確な知識ギャップがある。 本研究では,GitHub上の1,454の人気のあるオープンソースプロジェクトの開発において,これらの品質保証アプローチが併用されているかどうかを幅広く検討する。 我々の研究は、一般的にプロジェクトは高強度で全ての品質保証プラクティスに従わないことを示唆している。 実際、品質保証の実践の間には弱い相関しか観察できない。 一般的に、本研究では、現在javaベースのオープンソースソフトウェア開発で使われている品質保証アプローチについてより深く理解しています。 さらに、私たちはデータセット内のより成熟したプロジェクトにも目を向けました。一般的に、より成熟したプロジェクトは品質保証プラクティスの適用においてより強固であり、asatの使用とコードレビューに重点を置いていますが、ci利用には大きな変化はありません。

To ensure the quality of software systems, software engineers can make use of a variety of quality assurance approaches, such as software testing, modern code review, automated static analysis, and build automation. Each of these quality assurance practices has been studied in depth in isolation, but there is a clear knowledge gap when it comes to our understanding of how these approaches are being used in conjunction or not. In our study, we broadly investigate whether and how these quality assurance approaches are being used in conjunction in the development of 1,454 popular open source software projects on GitHub. Our study indicates that typically projects do not follow all quality assurance practices together with high intensity. In fact, we only observe weak correlation among some quality assurance practices. In general, our study provides a deeper understanding of how existing quality assurance approaches are currently being used in Java-based open source software development. Besides, we specifically zoomed in on the more mature projects in our dataset, and generally, we observe that more mature projects are more intense in their application of the quality assurance practices, with more focus on their ASAT usage and code reviewing, but no strong change in their CI usage.
翻訳日:2023-10-23 19:37:26 公開日:2023-06-16
# スクリプトの書き直し:音声対話にテキスト命令を適用する

Rewriting the Script: Adapting Text Instructions for Voice Interaction ( http://arxiv.org/abs/2306.09992v1 )

ライセンス: Link先を確認
Alyssa Hwang, Natasha Oza, Chris Callison-Burch, Andrew Head(参考訳) 音声アシスタントは近年急速に普及しているが、その用途は音楽、ハンズフリー検索、インターネット・オブ・シングのデバイス制御といった単純なアプリケーションに限られている。 音声アシスタントがより複雑なタスクを通じて人々を導くのに何が必要か? 本研究では,音声アシスタントが複雑なタスク指導に採用する支配的アプローチの限界について検討する。 レシピを例として、12人の参加者が最新の音声アシスタントを使って家で料理するのを観察した。 私たちは、現在のアプローチが、全体像を隠蔽し、過剰な情報を持つユーザを圧倒し、余裕の伝達に失敗するなど、9つの課題につながっていることを学びました。 音声アシスタントによる指示は、手書きの指示ほど簡単にスキミングできないため、特に困難である。 特にalexaは、ユーザに重要な詳細を明かしたり、質問に答えたりはしなかった。 我々は、音声アシスタントが「スクリプトを書き直す」ことができる8つの方法 - 要約、サインポスト、分割、協力、ボランティア、再注文、再配布、可視化 -- を提案する。 最後に,自然言語処理の現代的進歩を,複雑なタスクを通じてユーザを効果的に導くインテリジェントエージェントとして活用する,というビジョンで締めくくった。

Voice assistants have sharply risen in popularity in recent years, but their use has been limited mostly to simple applications like music, hands-free search, or control of internet-of-things devices. What would it take for voice assistants to guide people through more complex tasks? In our work, we study the limitations of the dominant approach voice assistants take to complex task guidance: reading aloud written instructions. Using recipes as an example, we observe twelve participants cook at home with a state-of-the-art voice assistant. We learn that the current approach leads to nine challenges, including obscuring the bigger picture, overwhelming users with too much information, and failing to communicate affordances. Instructions delivered by a voice assistant are especially difficult because they cannot be skimmed as easily as written instructions. Alexa in particular did not surface crucial details to the user or answer questions well. We draw on our observations to propose eight ways in which voice assistants can ``rewrite the script'' -- summarizing, signposting, splitting, elaborating, volunteering, reordering, redistributing, and visualizing -- to transform written sources into forms that are readily communicated through spoken conversation. We conclude with a vision of how modern advancements in natural language processing can be leveraged for intelligent agents to guide users effectively through complex tasks.
翻訳日:2023-10-23 19:25:04 公開日:2023-06-16
# 予期せぬ結果に迫る

Approaching Unanticipated Consequences ( http://arxiv.org/abs/2306.09959v1 )

ライセンス: Link先を確認
Andrew Darby and Pete Sawyer and Nelly Bencomo(参考訳) 常に変化する世界では、その要求を満たすソフトウェアでさえ、重大な影響を伴う未想定の残効があるかもしれない。 このような影響を,事前設計段階で理解し,組織的準備を支援する方法について検討した。 3つの実世界のケーススタディを考察し,概念的枠組みを構築するために,様々な分野の文献を扱った。 業界実践者と学術者による3つのワークショップで、投機的デザインプラクティスによる創造的戦略がフレームワークへの関与を促進するために使用された。 参加者グループは収束または分岐した意図でモデルをナビゲートした。 研究者は探索的なモードで活動し、その影響を通じてテクノロジーのクラスを広く理解するようになった。 業界の実践者たちは、彼らの職場における技術の可能性について、特定の理解を得た。 この研究は、概念的枠組みが研究や実践に影響を及ぼすツールとして使われる可能性を示した。

In an ever-changing world, even software that fulfils its requirements may have un-envisioned aftereffects with significant impacts. We explored how such impacts can be better understood at the pre-design phase in support of organisational preparedness. We considered three real-world case studies and engaged with literature from several disciplines to develop a conceptual framework. Across three workshops with industry practitioners and academics creative strategies from speculative design practices were used to prompt engagement with the framework. We found participant groups navigated the model with either a convergent or divergent intent. The academics, operating in an exploratory mode, came to a broad understanding of a class of technologies through its impacts. Operating in an anticipatory mode the industry practitioners came to a specific understanding of a technology's potential in their workplace. The study demonstrated potential for the conceptual framework to be used as a tool with implications for research and practice.
翻訳日:2023-10-23 19:24:39 公開日:2023-06-16
# tsnet-sac: タスクスケジューリングにトランスフォーマーを活用する

TSNet-SAC: Leveraging Transformers for Efficient Task Scheduling ( http://arxiv.org/abs/2307.07445v1 )

ライセンス: Link先を確認
Ke Deng, Zhiyuan He, Hao Zhang, Haohan Lin, Desheng Wang(参考訳) 将来の6G Mobile Edge Computing (MEC)では、オートパイロットシステムは強い相互依存でマルチモーダルデータを処理する必要がある。 しかし、従来のヒューリスティックアルゴリズムは、最適スキームを導出するために複数の反復を必要とするため、リアルタイムスケジューリングには不十分である。 本稿では,TSNet のトレーニングのガイドにのみヒューリスティックアルゴリズムを利用する Transformer に基づく新しい TSNet-SAC を提案する。 さらに、スライディング拡張コンポーネント(SAC)を導入し、堅牢性を高め、アルゴリズムの欠陥を解決する。 さらに、Extensionerコンポーネントは、マルチスケールのトレーニングデータを処理し、ネットワークスケーラビリティを提供するように設計されており、TSNetは異なるアクセスシナリオに適応できる。 シミュレーションにより、TSNet-SACは既存のネットワークを精度と堅牢性で上回り、ヒューリスティックアルゴリズムよりもスケジュール作成遅延が優れていることを示した。

In future 6G Mobile Edge Computing (MEC), autopilot systems require the capability of processing multimodal data with strong interdependencies. However, traditional heuristic algorithms are inadequate for real-time scheduling due to their requirement for multiple iterations to derive the optimal scheme. We propose a novel TSNet-SAC based on Transformer, that utilizes heuristic algorithms solely to guide the training of TSNet. Additionally, a Sliding Augment Component (SAC) is introduced to enhance the robustness and resolve algorithm defects. Furthermore, the Extender component is designed to handle multi-scale training data and provide network scalability, enabling TSNet to adapt to different access scenarios. Simulation demonstrates that TSNet-SAC outperforms existing networks in accuracy and robustness, achieving superior scheduling-making latency compared to heuristic algorithms.
翻訳日:2023-07-23 12:26:25 公開日:2023-06-16
# gpt4はピアレビュー支援に少し役立ちます:パイロット研究

GPT4 is Slightly Helpful for Peer-Review Assistance: A Pilot Study ( http://arxiv.org/abs/2307.05492v1 )

ライセンス: Link先を確認
Zachary Robertson(参考訳) 本稿では,GPT4によるピアレビュープロセスの支援について検討する。 我々の重要な仮説は、GPT生成レビューが人間レビュアーに匹敵する有用性を達成できるというものだった。 大規模な機械学習会議に提出された学術論文の人間レビュアーとGPTモデルによるレビューを比較することにより、人工知能がピアレビュープロセスに効果的に貢献できるという最初の証拠を提供する。 また,モデルのどの部分に焦点を当てているかを理解するために,挿入誤差を用いたロバスト性実験を行う。 我々の研究は、ピアレビューのリソース制約に対処するために機械学習ツールを活用するための新しい道を開く。 結果はまた、レビュープロセスへの潜在的な拡張と、人的フィードバックがますます不足している領域における監視のスケーリングに関するさらなる研究の土台となった。

In this pilot study, we investigate the use of GPT4 to assist in the peer-review process. Our key hypothesis was that GPT-generated reviews could achieve comparable helpfulness to human reviewers. By comparing reviews generated by both human reviewers and GPT models for academic papers submitted to a major machine learning conference, we provide initial evidence that artificial intelligence can contribute effectively to the peer-review process. We also perform robustness experiments with inserted errors to understand which parts of the paper the model tends to focus on. Our findings open new avenues for leveraging machine learning tools to address resource constraints in peer review. The results also shed light on potential enhancements to the review process and lay the groundwork for further research on scaling oversight in a domain where human-feedback is increasingly a scarce resource.
翻訳日:2023-07-16 03:33:55 公開日:2023-06-16
# 言語モデルにおけるマスキングに基づくデータ生成の検討

Investigating Masking-based Data Generation in Language Models ( http://arxiv.org/abs/2307.00008v1 )

ライセンス: Link先を確認
Ed S. Ma(参考訳) 自然言語処理(NLP)の現在の時代は、BERTの出現以来、事前訓練された言語モデルの卓越によって定義されてきた。 BERTと類似したアーキテクチャを持つモデルの特徴は、入力の一部を意図的にマスキングし、このマスキングされた情報を予測するためにモデルを訓練するマスキング言語モデリングの目的である。 データ拡張は、コンピュータビジョンや自然言語処理などの研究領域を含む機械学習で広く使われているデータ駆動技術であり、指定された技術によって設定されたトレーニングデータセットを人工的に拡張することにより、モデルパフォーマンスを向上させる。 BERT の重要な訓練機能である Masked Language Model (MLM) は、自然言語処理タスクにおいて、Transformer ベースのモデルで効果的な事前学習を行うための新しいアプローチを導入した。 最近の研究は、NLP下流タスクのための人工的な拡張データを生成するためにマスク付き言語モデルを利用している。 実験結果から,Maskに基づくデータ拡張手法は,モデルの性能向上にシンプルだが効率的なアプローチを提供することが示された。 本稿では,MLMに基づくこれらのデータ拡張手法の広範な活用について検討し,考察する。

The current era of natural language processing (NLP) has been defined by the prominence of pre-trained language models since the advent of BERT. A feature of BERT and models with similar architecture is the objective of masked language modeling, in which part of the input is intentionally masked and the model is trained to predict this piece of masked information. Data augmentation is a data-driven technique widely used in machine learning, including research areas like computer vision and natural language processing, to improve model performance by artificially augmenting the training data set by designated techniques. Masked language models (MLM), an essential training feature of BERT, have introduced a novel approach to perform effective pre-training on Transformer based models in natural language processing tasks. Recent studies have utilized masked language model to generate artificially augmented data for NLP downstream tasks. The experimental results show that Mask based data augmentation method provides a simple but efficient approach to improve the model performance. In this paper, we explore and discuss the broader utilization of these data augmentation methods based on MLM.
翻訳日:2023-07-09 14:02:05 公開日:2023-06-16
# 低ランクマッチング注意に基づく会話感情認識のためのクロスモーダル特徴融合法

A Low-rank Matching Attention based Cross-modal Feature Fusion Method for Conversational Emotion Recognition ( http://arxiv.org/abs/2306.17799v1 )

ライセンス: Link先を確認
Yuntao Shou, Xiangyong Cao, Deyu Meng, Bo Dong, Qinghua Zheng(参考訳) 会話感情認識(CER)は人間とコンピュータの相互作用において重要な研究課題である。 ディープラーニング(DL)ベースのCERアプローチは優れた性能を達成しているが、これらのDLベースのアプローチで使われている既存のクロスモーダル特徴融合手法は、モーダル内およびモーダル間感情相互作用を無視するか、高い計算複雑性を有する。 これらの課題に対処するため、CERタスクのための新しいクロスモーダル特徴融合法、すなわち低ランク対応注意法(LMAM)を開発した。 一致重みを設定してモーダル特徴列間の注意スコアを算定することにより、lmamは自己照準法よりも少ないパラメータを含む。 さらに,低ランク分解法を用いて,自己注意の3分の1以下でLMAMのパラメータ数を推定する。 したがって、lmamは多数のパラメータによって引き起こされる過剰フィッティング問題を軽減することができる。 さらに、モーダル内およびモーダル間の特徴の類似性を計算および融合することにより、lmamは、モーダル内コンテキスト情報を各モーダル内情報と、モーダル間(テキスト、ビデオ、音声など)にまたがる補完的な意味情報を同時に利用することができる。 いくつかのベンチマークデータセットの実験結果から、LMAMは既存のDLベースのCERメソッドに組み込むことができ、プラグアンドプレイで性能を向上させることができる。 また,他の一般的なクロスモーダル核融合法と比較して,lmamが優れていることを実験的に検証した。 さらに、LMAMは一般的なクロスモーダル融合法であり、セッションレコメンデーションやユーモア検出といった他のマルチモーダル認識タスクにも適用することができる。

Conversational emotion recognition (CER) is an important research topic in human-computer interactions. Although deep learning (DL) based CER approaches have achieved excellent performance, existing cross-modal feature fusion methods used in these DL-based approaches either ignore the intra-modal and inter-modal emotional interaction or have high computational complexity. To address these issues, this paper develops a novel cross-modal feature fusion method for the CER task, i.e., the low-rank matching attention method (LMAM). By setting a matching weight and calculating attention scores between modal features row by row, LMAM contains fewer parameters than the self-attention method. We further utilize the low-rank decomposition method on the weight to make the parameter number of LMAM less than one-third of the self-attention. Therefore, LMAM can potentially alleviate the over-fitting issue caused by a large number of parameters. Additionally, by computing and fusing the similarity of intra-modal and inter-modal features, LMAM can also fully exploit the intra-modal contextual information within each modality and the complementary semantic information across modalities (i.e., text, video and audio) simultaneously. Experimental results on some benchmark datasets show that LMAM can be embedded into any existing state-of-the-art DL-based CER methods and help boost their performance in a plug-and-play manner. Also, experimental results verify the superiority of LMAM compared with other popular cross-modal fusion methods. Moreover, LMAM is a general cross-modal fusion method and can thus be applied to other multi-modal recognition tasks, e.g., session recommendation and humour detection.
翻訳日:2023-07-09 14:01:31 公開日:2023-06-16
# 年齢推定のためのマスキングコントラストグラフ表現学習

Masked Contrastive Graph Representation Learning for Age Estimation ( http://arxiv.org/abs/2306.17798v1 )

ライセンス: Link先を確認
Yuntao Shou, Xiangyong Cao, Deyu Meng(参考訳) 顔画像の年齢推定は,映像監視やインターネットアクセス制御など,様々な応用分野において重要な課題である。 深層学習に基づく年齢推定フレームワーク、例えば畳み込みニューラルネットワーク(CNN)、多層パーセプトロン(MLP)、トランスフォーマーは顕著な性能を示しているが、大量の冗長情報を含む画像において複雑なオブジェクトや不規則なオブジェクトをモデル化する際に制限がある。 本稿では,画像冗長性情報を扱う際のグラフ表現学習の堅牢性を活用し,年齢推定のための新しいMasked Contrastive Graph Representation Learning(MCGRL)法を提案する。 具体的には、まずcnnを利用して画像の意味的特徴を抽出し、次にグラフのノードとして機能するパッチに分割する。 次に、マスク付きグラフ畳み込みネットワーク(GCN)を用いて、リッチな構造情報を取得する画像ベースのノード表現を導出する。 最後に,構造情報と意味的特徴の相補的関係を探索するために,複数の損失を組み込むことにより,gcnの特徴表現能力を向上させる。 実世界の顔画像データセットの実験結果から,提案手法が他の最先端の年齢推定手法よりも優れていることを示す。

Age estimation of face images is a crucial task with various practical applications in areas such as video surveillance and Internet access control. While deep learning-based age estimation frameworks, e.g., convolutional neural network (CNN), multi-layer perceptrons (MLP), and transformers have shown remarkable performance, they have limitations when modelling complex or irregular objects in an image that contains a large amount of redundant information. To address this issue, this paper utilizes the robustness property of graph representation learning in dealing with image redundancy information and proposes a novel Masked Contrastive Graph Representation Learning (MCGRL) method for age estimation. Specifically, our approach first leverages CNN to extract semantic features of the image, which are then partitioned into patches that serve as nodes in the graph. Then, we use a masked graph convolutional network (GCN) to derive image-based node representations that capture rich structural information. Finally, we incorporate multiple losses to explore the complementary relationship between structural information and semantic features, which improves the feature representation capability of GCN. Experimental results on real-world face image datasets demonstrate the superiority of our proposed method over other state-of-the-art age estimation approaches.
翻訳日:2023-07-09 14:01:02 公開日:2023-06-16
# インコンテキスト学習と創発のメカニズムとしてのスキーマ学習と再結合

Schema-learning and rebinding as mechanisms of in-context learning and emergence ( http://arxiv.org/abs/2307.01201v1 )

ライセンス: Link先を確認
Sivaramakrishnan Swaminathan, Antoine Dedieu, Rajkumar Vasudeva Raju, Murray Shanahan, Miguel Lazaro-Gredilla, Dileep George(参考訳) In-context Learning (ICL)は、最近のトランスフォーマーベースの大規模言語モデル(LLM)において、最も強力で予期せぬ能力の1つである。 しかし、その根底にあるメカニズムはよく分かっていない。 本稿では,クローン構造因果グラフ (CSCG) を用いた代替シーケンス予測学習法により,同等のICL能力を得られることを示す。 さらに、cscgsの鍵となる特性は、トランスフォーマーベースのllmとは異なり、それらは「em interpretable」であり、iclの動作を説明する作業を大幅に単純化する。 具体的には 組み合わせが使われています (a)パターン完了のための学習テンプレート(スキーマ)回路 b)関連テンプレートを文脈に敏感な方法で検索し、 (c)テンプレート内の適切なスロットへの新規トークンの再結合。 我々は、同様の機構がLSMのICLを下降させるという仮説の証拠をマーシャリングする。 例えば、LCMと同様のCSCGでは、オーバーパラメータ化の異なるレベルで異なる能力が出現し、オーバーパラメータ化がより複雑なテンプレート(スキーマ)回路の学習に役立つことが示唆されている。 iclが小さなモデルやデータセットでどのように達成できるかを示すことで、私たちは新しいアーキテクチャへの道を開き、この重要な能力の背後にあるメカニズムをより一般的な理解に向けて重要な一歩を踏み出します。

In-context learning (ICL) is one of the most powerful and most unexpected capabilities to emerge in recent transformer-based large language models (LLMs). Yet the mechanisms that underlie it are poorly understood. In this paper, we demonstrate that comparable ICL capabilities can be acquired by an alternative sequence prediction learning method using clone-structured causal graphs (CSCGs). Moreover, a key property of CSCGs is that, unlike transformer-based LLMs, they are {\em interpretable}, which considerably simplifies the task of explaining how ICL works. Specifically, we show that it uses a combination of (a) learning template (schema) circuits for pattern completion, (b) retrieving relevant templates in a context-sensitive manner, and (c) rebinding of novel tokens to appropriate slots in the templates. We go on to marshall evidence for the hypothesis that similar mechanisms underlie ICL in LLMs. For example, we find that, with CSCGs as with LLMs, different capabilities emerge at different levels of overparameterization, suggesting that overparameterization helps in learning more complex template (schema) circuits. By showing how ICL can be achieved with small models and datasets, we open up a path to novel architectures, and take a vital step towards a more general understanding of the mechanics behind this important capability.
翻訳日:2023-07-09 13:51:17 公開日:2023-06-16
# 視覚補綴における深部刺激エンコーディングのためのHuman-in-the-Loop最適化

Human-in-the-Loop Optimization for Deep Stimulus Encoding in Visual Prostheses ( http://arxiv.org/abs/2306.13104v1 )

ライセンス: Link先を確認
Jacob Granley, Tristan Fauvel, Matthew Chalk, Michael Beyeler(参考訳) 神経補綴は、失われた感覚機能を回復し、人間の能力を増強する可能性を示しているが、現在の装置が生み出す感覚は、しばしば不自然または歪んでいるように見える。 インプラントの正確な配置と個々の知覚の違いは、刺激応答の著しい変化をもたらし、パーソナライズされた刺激最適化が重要な課題となる。 ベイズ最適化は患者固有の刺激パラメータの最適化に使用することができるが、高次元刺激には適用できない。 あるいは、ディープラーニングモデルは刺激のエンコーディング戦略を最適化できるが、通常は患者固有のバリエーションの完全な知識を想定する。 本稿では,これら2つの基本的制約を克服する,現実的に実現可能な新しいアプローチを提案する。 まず、深層エンコーダネットワークをトレーニングし、視覚知覚に電気刺激をマッピングするフォワードモデルを反転させることにより、各患者に最適な刺激を与える。 第2に、優先ベイズ最適化戦略は、このエンコーダを利用して、候補刺激間の最小対比較を用いて、新しい患者に対して患者固有のパラメータを最適化する。 本稿では,新しい視覚補綴モデルを用いて,本手法の有効性を実証する。 提案手法は、パーソナライズされた刺激エンコーダを迅速に学習し、回復した視覚の質を劇的に改善し、基礎となる前方モデルにおける患者からのフィードバックや誤特定に頑健であることを示す。 以上の結果から, 深層学習とベイズ最適化の強みを組み合わせることで, 視覚補綴を装着した患者の知覚経験を大幅に改善できる可能性が示唆された。

Neuroprostheses show potential in restoring lost sensory function and enhancing human capabilities, but the sensations produced by current devices often seem unnatural or distorted. Exact placement of implants and differences in individual perception lead to significant variations in stimulus response, making personalized stimulus optimization a key challenge. Bayesian optimization could be used to optimize patient-specific stimulation parameters with limited noisy observations, but is not feasible for high-dimensional stimuli. Alternatively, deep learning models can optimize stimulus encoding strategies, but typically assume perfect knowledge of patient-specific variations. Here we propose a novel, practically feasible approach that overcomes both of these fundamental limitations. First, a deep encoder network is trained to produce optimal stimuli for any individual patient by inverting a forward model mapping electrical stimuli to visual percepts. Second, a preferential Bayesian optimization strategy utilizes this encoder to optimize patient-specific parameters for a new patient, using a minimal number of pairwise comparisons between candidate stimuli. We demonstrate the viability of this approach on a novel, state-of-the-art visual prosthesis model. We show that our approach quickly learns a personalized stimulus encoder, leads to dramatic improvements in the quality of restored vision, and is robust to noisy patient feedback and misspecifications in the underlying forward model. Overall, our results suggest that combining the strengths of deep learning and Bayesian optimization could significantly improve the perceptual experience of patients fitted with visual prostheses and may prove a viable solution for a range of neuroprosthetic technologies.
翻訳日:2023-07-02 13:55:40 公開日:2023-06-16
# 実世界攻撃に対するテキスト・画像拡散モデルのロバスト性評価

Evaluating the Robustness of Text-to-image Diffusion Models against Real-world Attacks ( http://arxiv.org/abs/2306.13103v1 )

ライセンス: Link先を確認
Hongcheng Gao, Hao Zhang, Yinpeng Dong, Zhijie Deng(参考訳) テキスト・ツー・イメージ(T2I)拡散モデル(DM)はテキスト記述から高品質な画像を生成することを約束している。 これらのモデルの現実的な応用には、安全性と忠実さに特に注意が必要であるが、これは十分に調査されていない。 基本的な問題は、既存のT2I DMが入力テキストの変動に対して堅牢であるかどうかである。 そこで本研究では,T2I DMの実際の攻撃に対するロバスト性評価を行った。 入力テキストの黙示録的変更を含む悪意のある攻撃に焦点を当てた以前の研究とは異なり、人間が実現可能な現実的なエラー(例えば、typo、glyph、phonetic)にまたがる攻撃空間を考慮し、意味的一貫性を確保する。 生成過程に固有のランダム性を考えると、T2I DMを誤誘導する新しい分布に基づく攻撃目標を開発する。 我々はモデルを知らずにブラックボックス方式で攻撃を行う。 広汎な実験により,一般的なT2I DMを攻撃するための手法の有効性が実証された。 さらに,本手法の詳細な解析を行い,t2i dmsでのみテキストエンコーダを攻撃できるものではないことを示す。

Text-to-image (T2I) diffusion models (DMs) have shown promise in generating high-quality images from textual descriptions. The real-world applications of these models require particular attention to their safety and fidelity, but this has not been sufficiently explored. One fundamental question is whether existing T2I DMs are robust against variations over input texts. To answer it, this work provides the first robustness evaluation of T2I DMs against real-world attacks. Unlike prior studies that focus on malicious attacks involving apocryphal alterations to the input texts, we consider an attack space spanned by realistic errors (e.g., typo, glyph, phonetic) that humans can make, to ensure semantic consistency. Given the inherent randomness of the generation process, we develop novel distribution-based attack objectives to mislead T2I DMs. We perform attacks in a black-box manner without any knowledge of the model. Extensive experiments demonstrate the effectiveness of our method for attacking popular T2I DMs and simultaneously reveal their non-trivial robustness issues. Moreover, we provide an in-depth analysis of our method to show that it is not designed to attack the text encoder in T2I DMs solely.
翻訳日:2023-07-02 13:55:11 公開日:2023-06-16
# 自然言語処理を用いたクリックベイト分類とスポイリング

Clickbait Classification and Spoiling Using Natural Language Processing ( http://arxiv.org/abs/2306.14907v1 )

ライセンス: Link先を確認
Adhitya Thirumala and Elisa Ferracane(参考訳) clickbaitは、読者に記事をクリックするようインセンティブを与えるエンジニアリングタイトルのプラクティスだ。 センセーショナルな言語を持つタイトルは、できるだけ情報が少ない。 時々、clickbaitは意図的に誤解を招くので、自然言語処理(nlp)は記事をスキャンしてclickbaitタイトルの質問に答えることができる。 クリックベイトを3つのタイプのうちの1つ(タスク1)に分類し、クリックベイトを台無しにする(タスク2)。 タスク1では、最終スポイラー型を決定するために2つのバイナリ分類器を提案する。 タスク2では、スポイラーのテキストのスパンを識別するために質問応答モデルを使用し、スポイラーを生成するために大きな言語モデル(llm)を使用します。 スポイラーは記事に含まれるので、第2のタスクはスポイラーの開始位置と終了位置を特定するための質問応答アプローチとして構成する。 我々は,データセット作成者が提案するベースラインよりも優れたタスク1のモデルを作成し,抽出モデルとは対照的に出力テキストが生成モデルである場合の評価基準が悪化するため,実行しないタスク2のプロンプトとデータセット作成者が提案するベースラインのプロンプトを考案した。

Clickbait is the practice of engineering titles to incentivize readers to click through to articles. Such titles with sensationalized language reveal as little information as possible. Occasionally, clickbait will be intentionally misleading, so natural language processing (NLP) can scan the article and answer the question posed by the clickbait title, or spoil it. We tackle two tasks: classifying the clickbait into one of 3 types (Task 1), and spoiling the clickbait (Task 2). For Task 1, we propose two binary classifiers to determine the final spoiler type. For Task 2, we experiment with two approaches: using a question-answering model to identify the span of text of the spoiler, and using a large language model (LLM) to generate the spoiler. Because the spoiler is contained in the article, we frame the second task as a question-answering approach for identifying the starting and ending positions of the spoiler. We created models for Task 1 that were better than the baselines proposed by the dataset authors and engineered prompts for Task 2 that did not perform as well as the baselines proposed by the dataset authors due to the evaluation metric performing worse when the output text is from a generative model as opposed to an extractive model.
翻訳日:2023-07-02 13:27:04 公開日:2023-06-16
# 人的フィードバックを用いた合成医用画像と臨床知識の連携

Aligning Synthetic Medical Images with Clinical Knowledge using Human Feedback ( http://arxiv.org/abs/2306.12438v1 )

ライセンス: Link先を確認
Shenghuan Sun, Gregory M. Goldgof, Atul Butte, Ahmed M. Alaa(参考訳) 医療画像中のニュアンス的臨床特徴をキャプチャ可能な生成モデルは、臨床データ共有の容易化、まれな疾患データセットの強化、大規模に注釈付き医療画像の効率的な合成を約束する。 それらの可能性にもかかわらず、合成医療画像の品質評価は依然として課題である。 現代の生成モデルでは視覚的にリアルな医療画像が合成できるが、これらの画像の臨床的妥当性は疑問視されることがある。 FIDスコア、精度、リコールなどのドメインに依存しないスコアは、臨床知識を組み込むことができないため、臨床的感受性を評価するには適さない。 さらに、生成モデルが臨床的に妥当な画像の合成に失敗し、潜在的な失敗を予測し、手動で検出するためのスコアを設計することが困難となる、予測不可能な方法が数多く存在する。 これらの課題に対処するために,臨床応用可能な合成医用画像を作成するための病理医用ループフレームワークを提案する。 本研究の枠組みは, 実画像を用いた拡散モデルから始まり, 1) 臨床用デシダラタを満足するかどうかを評価するために, 専門家が生成した画像を評価すること, (2) 臨床用サンプルのフィードバックを予測する報酬モデルをトレーニングすること, (3) 報酬モデルを用いて, 専門的知識を拡散モデルに組み込むことにより, 微調整対象を知らせることである。 人間のフィードバックは, 画像の忠実度, 多様性, 下流での実用性, 信頼性を, 専門家による評価により著しく向上することを示した。

Generative models capable of capturing nuanced clinical features in medical images hold great promise for facilitating clinical data sharing, enhancing rare disease datasets, and efficiently synthesizing annotated medical images at scale. Despite their potential, assessing the quality of synthetic medical images remains a challenge. While modern generative models can synthesize visually-realistic medical images, the clinical validity of these images may be called into question. Domain-agnostic scores, such as FID score, precision, and recall, cannot incorporate clinical knowledge and are, therefore, not suitable for assessing clinical sensibility. Additionally, there are numerous unpredictable ways in which generative models may fail to synthesize clinically plausible images, making it challenging to anticipate potential failures and manually design scores for their detection. To address these challenges, this paper introduces a pathologist-in-the-loop framework for generating clinically-plausible synthetic medical images. Starting with a diffusion model pretrained using real images, our framework comprises three steps: (1) evaluating the generated images by expert pathologists to assess whether they satisfy clinical desiderata, (2) training a reward model that predicts the pathologist feedback on new samples, and (3) incorporating expert knowledge into the diffusion model by using the reward model to inform a finetuning objective. We show that human feedback significantly improves the quality of synthetic images in terms of fidelity, diversity, utility in downstream applications, and plausibility as evaluated by experts.
翻訳日:2023-06-26 01:10:58 公開日:2023-06-16
# 部分観察による協調的マルチエージェント強化学習

Cooperative Multi-Agent Reinforcement Learning with Partial Observations ( http://arxiv.org/abs/2006.10822v2 )

ライセンス: Link先を確認
Yan Zhang, Michael M. Zavlanos(参考訳) 本稿では,マルチエージェント強化学習(MARL)のための分散ゼロ階ポリシー最適化手法を提案する。 既存のMARLアルゴリズムは、全てのエージェントがネットワーク内の他のエージェントの状態を観察できると仮定することが多い。 これは、状態とアクション情報をマルチホップの隣人と共有する大規模問題では現実的ではない。 提案手法の利点は、エージェントが局所的な政策関数を更新するために必要な局所的な政策勾配を、部分的状態と行動情報にのみ依存し、コンセンサスを用いて得られるグローバルな累積報酬の局所的な推定を用いて計算できることである。 具体的には, 局所的政策勾配を計算するために, 分散ゼロ次政策勾配推定器を開発し, 学習性能を向上させる政策勾配推定値のばらつきを著しく低減する。 本研究では, 一定段差の分散ゼロ階法最適化法が, 大域的目的関数の定常点であるポリシの近傍に収束することを示す。 この地区の大きさは、エージェントの学習率、探索パラメータ、グローバルに蓄積された報酬の局所的な見積もりを計算するために使用されるコンセンサスステップの数に依存する。 さらに,新しいゼロ階政策勾配推定器は,既存の1点推定器に比べて試料効率がよいことを示す数値実験を行った。

In this paper, we propose a distributed zeroth-order policy optimization method for Multi-Agent Reinforcement Learning (MARL). Existing MARL algorithms often assume that every agent can observe the states and actions of all the other agents in the network. This can be impractical in large-scale problems, where sharing the state and action information with multi-hop neighbors may incur significant communication overhead. The advantage of the proposed zeroth-order policy optimization method is that it allows the agents to compute the local policy gradients needed to update their local policy functions using local estimates of the global accumulated rewards that depend on partial state and action information only and can be obtained using consensus. Specifically, to calculate the local policy gradients, we develop a new distributed zeroth-order policy gradient estimator that relies on one-point residual-feedback which, compared to existing zeroth-order estimators that also rely on one-point feedback, significantly reduces the variance of the policy gradient estimates improving, in this way, the learning performance. We show that the proposed distributed zeroth-order policy optimization method with constant stepsize converges to the neighborhood of a policy that is a stationary point of the global objective function. The size of this neighborhood depends on the agents' learning rates, the exploration parameters, and the number of consensus steps used to calculate the local estimates of the global accumulated rewards. Moreover, we provide numerical experiments that demonstrate that our new zeroth-order policy gradient estimator is more sample-efficient compared to other existing one-point estimators.
翻訳日:2023-06-22 08:27:35 公開日:2023-06-16
# 量子擬似性と古典的複雑度

Quantum Pseudorandomness and Classical Complexity ( http://arxiv.org/abs/2103.09320v3 )

ライセンス: Link先を確認
William Kretschmer(参考訳) 私たちは、$\mathsf{bqp} = \mathsf{qma}$であるが、暗号的擬似乱数量子状態と擬似乱数ユニタリ変換が存在する量子オラクルを構築し、疑似乱数状態が量子マーリン=アーサーの敵によって「ブローク」できるという事実から直観に反する結果を得る。 このニュアンスは、量子入力と古典入力を演算するアルゴリズムの区別の結果、どのように生じるかを説明する。 一方, 擬似乱数状態を構成するためには, $\mathsf{bqp} = \mathsf{pp}$ のとき, 擬似乱数状態が存在しないことを証明し, 計算複雑性の仮定が必要であることを示した。 我々は、これらの結果が暗号、複雑性理論、量子トモグラフィに与える影響について論じる。

We construct a quantum oracle relative to which $\mathsf{BQP} = \mathsf{QMA}$ but cryptographic pseudorandom quantum states and pseudorandom unitary transformations exist, a counterintuitive result in light of the fact that pseudorandom states can be "broken" by quantum Merlin-Arthur adversaries. We explain how this nuance arises as the result of a distinction between algorithms that operate on quantum and classical inputs. On the other hand, we show that some computational complexity assumption is needed to construct pseudorandom states, by proving that pseudorandom states do not exist if $\mathsf{BQP} = \mathsf{PP}$. We discuss implications of these results for cryptography, complexity theory, and quantum tomography.
翻訳日:2023-06-22 06:44:30 公開日:2023-06-16
# NaviAirway: ブロンチオール感応型深層学習型エアウェイセグメンテーションパイプライン

NaviAirway: a Bronchiole-sensitive Deep Learning-based Airway Segmentation Pipeline ( http://arxiv.org/abs/2203.04294v3 )

ライセンス: Link先を確認
Andong Wang, Terence Chi Chun Tam, Ho Ming Poon, Kun-Chang Yu, and Wei-Ning Lee(参考訳) 胸部CT画像解析には気道セグメンテーションが不可欠である。 高い画素精度を追求する自然な画像分割とは異なり、気道分割はトポロジーに重点を置いている。 この課題は、複雑な木のような構造のためだけでなく、異なる世代の気道支流の間で重度のピクセル不均衡のためである。 そこで本研究では,気道トポロジー保存のための細気管支感応損失関数と,気道世代間の正確なモデル学習のための反復学習戦略からなるnaviairway法を提案する。 モデルにより学習された気道枝の特徴を補うため,教師が学習した多数の胸部CT画像から知識を抽出する。 実験の結果、naviairwayは既存の方法よりも優れており、特に次世代気管支胞の同定や新しいctスキャンに対するロバスト性が認められている。 さらにnaviairwayは、さまざまなバックボーンモデルと組み合わせることで、パフォーマンスを大幅に改善できるほど一般的である。 naviairwayは、ナビゲーション気管支鏡用のエアウェイロードマップを作成でき、また、微細な管状構造と長い管状構造を生体画像で分割する他のシナリオにも適用できる。 コードはhttps://github.com/AntonotnaWang/NaviAirwayで公開されている。

Airway segmentation is essential for chest CT image analysis. Different from natural image segmentation, which pursues high pixel-wise accuracy, airway segmentation focuses on topology. The task is challenging not only because of its complex tree-like structure but also the severe pixel imbalance among airway branches of different generations. To tackle the problems, we present a NaviAirway method which consists of a bronchiole-sensitive loss function for airway topology preservation and an iterative training strategy for accurate model learning across different airway generations. To supplement the features of airway branches learned by the model, we distill the knowledge from numerous unlabeled chest CT images in a teacher-student manner. Experimental results show that NaviAirway outperforms existing methods, particularly in the identification of higher-generation bronchioles and robustness to new CT scans. Moreover, NaviAirway is general enough to be combined with different backbone models to significantly improve their performance. NaviAirway can generate an airway roadmap for Navigation Bronchoscopy and can also be applied to other scenarios when segmenting fine and long tubular structures in biomedical images. The code is publicly available on https://github.com/AntonotnaWang/NaviAirway.
翻訳日:2023-06-22 06:26:50 公開日:2023-06-16
# DeepRM:6Dポッドリファインメントのためのディープリカレントマッチング

DeepRM: Deep Recurrent Matching for 6D Pose Refinement ( http://arxiv.org/abs/2205.14474v5 )

ライセンス: Link先を確認
Alexander Avery, Andreas Savakis(参考訳) RGB画像からの剛体物体の高精度な6Dポーズ推定は、ロボット工学、拡張現実、人間とコンピュータの相互作用において重要な課題である。 この問題に対処するため,我々は6次元ポーズリファインメントのための新しいリカレントネットワークアーキテクチャであるdeeprmを提案する。 DeepRMは、初期粗いポーズ推定を利用して、ターゲットオブジェクトの合成画像をレンダリングする。 レンダリングされた画像は観測された画像と一致し、以前のポーズ推定を更新するための剛性変換を予測する。 このプロセスは繰り返して、各イテレーションで見積もりを漸進的に洗練します。 DeepRMアーキテクチャはLSTMユニットを組み込んで各改良工程を通じて情報を伝達し、全体的な性能を大幅に向上させる。 現在の2段階のパースペクティブ-n-Pointベースのソリューションとは対照的に、DeepRMはエンドツーエンドでトレーニングされており、単一のパラメータでチューニング可能なスケーラブルなバックボーンを使用して精度と効率を向上する。 トレーニング中に、観察された画像と合成画像の間の光の流れを予測するために、マルチスケールの光フローヘッドが追加される。 光フロー予測はトレーニングプロセスを安定化させ、ポーズ推定のタスクに関連する特徴の学習を強制する。 その結果、deeprmは広く受け入れられている2つの挑戦的データセットで最先端のパフォーマンスを達成できた。

Precise 6D pose estimation of rigid objects from RGB images is a critical but challenging task in robotics, augmented reality and human-computer interaction. To address this problem, we propose DeepRM, a novel recurrent network architecture for 6D pose refinement. DeepRM leverages initial coarse pose estimates to render synthetic images of target objects. The rendered images are then matched with the observed images to predict a rigid transform for updating the previous pose estimate. This process is repeated to incrementally refine the estimate at each iteration. The DeepRM architecture incorporates LSTM units to propagate information through each refinement step, significantly improving overall performance. In contrast to current 2-stage Perspective-n-Point based solutions, DeepRM is trained end-to-end, and uses a scalable backbone that can be tuned via a single parameter for accuracy and efficiency. During training, a multi-scale optical flow head is added to predict the optical flow between the observed and synthetic images. Optical flow prediction stabilizes the training process, and enforces the learning of features that are relevant to the task of pose estimation. Our results demonstrate that DeepRM achieves state-of-the-art performance on two widely accepted challenging datasets.
翻訳日:2023-06-22 06:18:54 公開日:2023-06-16
# ニューラルネットワークの潜伏成分を学習するための分解線形力学系(dLDS)

Decomposed Linear Dynamical Systems (dLDS) for learning the latent components of neural dynamics ( http://arxiv.org/abs/2206.02972v2 )

ライセンス: Link先を確認
Noga Mudrik, Yenho Chen, Eva Yezerets, Christopher J. Rozell, and Adam S. Charles(参考訳) 集団レベルでの神経力学の解釈可能な表現を学習することは、観察された神経活動が知覚と行動にどのように関係するかを理解するための重要な第一歩である。 ニューラルダイナミクスのモデルでは、神経活動の低次元の投影や、時間とともに神経の状態に明示的に関係する力学系の学習にしばしば焦点が当てられる。 低次元多様体上の流れの表現として力学系を考えることにより、これらの2つのアプローチがどのように相互関係を持つかについて議論する。 この概念に基づいて,時系列データの複雑な非定常および非線形ダイナミクスを,より単純で解釈可能なコンポーネントの疎結合として表現する,新しい分解力学系モデルを提案する。 我々のモデルは辞書学習によって訓練され、最近の結果を利用してスパースベクトルを時間とともに追跡する。 動力学の分解的な性質は、与えられた数個のパラメータに対する以前のスイッチングアプローチよりも表現力が高く、オーバーラップと非定常ダイナミクスのモデリングを可能にする。 連続時間と離散時間の両方の指導例において、本モデルが元の系をよく近似し、効率的な表現を学習し、より直感的な低次元の非定常線形および非線形系に焦点を当てた動的モード間の滑らかな遷移をキャプチャできることを実証する。 さらに,複数の独立したサブネットワークから生成される個体群動態を効率よく捕捉・解凍する,モデルの性能を強調した。 最後に, c. elegans データの神経的"フルブレイン"記録にモデルを適用し, 離散的状態に分類すると不明瞭なダイナミクスの多様性を示す。

Learning interpretable representations of neural dynamics at a population level is a crucial first step to understanding how observed neural activity relates to perception and behavior. Models of neural dynamics often focus on either low-dimensional projections of neural activity, or on learning dynamical systems that explicitly relate to the neural state over time. We discuss how these two approaches are interrelated by considering dynamical systems as representative of flows on a low-dimensional manifold. Building on this concept, we propose a new decomposed dynamical system model that represents complex non-stationary and nonlinear dynamics of time series data as a sparse combination of simpler, more interpretable components. Our model is trained through a dictionary learning procedure, where we leverage recent results in tracking sparse vectors over time. The decomposed nature of the dynamics is more expressive than previous switched approaches for a given number of parameters and enables modeling of overlapping and non-stationary dynamics. In both continuous-time and discrete-time instructional examples we demonstrate that our model can well approximate the original system, learn efficient representations, and capture smooth transitions between dynamical modes, focusing on intuitive low-dimensional non-stationary linear and nonlinear systems. Furthermore, we highlight our model's ability to efficiently capture and demix population dynamics generated from multiple independent subnetworks, a task that is computationally impractical for switched models. Finally, we apply our model to neural "full brain" recordings of C. elegans data, illustrating a diversity of dynamics that is obscured when classified into discrete states.
翻訳日:2023-06-22 06:07:35 公開日:2023-06-16
# 熱処理用量子安定化器チャネル

Quantum Stabilizer Channel for Thermalization ( http://arxiv.org/abs/2209.06806v2 )

ライセンス: Link先を確認
Esteban Mart\'inez-Vargas(参考訳) 本研究では, 量子熱化問題について, 熱化系との離散的相互作用を通して研究する。 そこで, 従来導入されていた散乱熱化プログラムを, 特定のチャネルだけでなく, 可能なものにすることで拡張する。 一般には非トレース保存であるChoi行列アプローチを用いて、固定点条件を解くチャネルを見つける。 また、検出されたチャネルを補完してトレース保存する一般的な方法も見つける。 したがって、同じ所望の固定点を持つチャネルの族を特徴付ける一般的な方法を見つける。 量子コンピューティングの観点からは、得られた結果は、量子エラー回避を思い出させる量子エラー補正の条件として解釈することができる。

We study the problem of quantum thermalization from a very recent perspective: via discrete interactions with thermalized systems. We thus extend the previously introduced scattering thermalization program by studying not only a specific channel but allowing any possible one. We find a channel that solves a fixed point condition using the Choi matrix approach that is in general non-trace-preserving. We also find a general way to complement the found channel so that it becomes trace-preserving. Therefore we find a general way of characterizing a family of channels with the same desired fixed point. From a quantum computing perspective, the results thus obtained can be interpreted as a condition for quantum error correction that also reminds of quantum error avoiding.
翻訳日:2023-06-22 05:37:35 公開日:2023-06-16
# The Tail Wagging the Dog: Dataset Construction Biases of Social Bias Benchmarks

The Tail Wagging the Dog: Dataset Construction Biases of Social Bias Benchmarks ( http://arxiv.org/abs/2210.10040v2 )

ライセンス: Link先を確認
Nikil Roashan Selvam, Sunipa Dev, Daniel Khashabi, Tushar Khot, Kai-Wei Chang(参考訳) 特定の言語モデルにおける問題のある社会バイアスの忠実な指標として,社会バイアスベンチマークから得られたスコアをどの程度信頼できるか? 本研究では,人間の眼では識別できないようなデータセット構築中の選択から生じる非社会バイアスと,社会バイアスを対比することで,この問題を考察する。 そこで我々は,社会的バイアスの本質を維持する無害な修正(言い換えやランダムサンプリングなど)に基づいて,与えられたベンチマークに対する様々な代替構成を実証的にシミュレートする。 2つの有名な社会バイアスベンチマーク(winogender と biasnli)では、これらの浅い修正が様々なモデルにまたがるバイアスの程度に驚くべき影響を与えることが観察されている。 こうした厄介な観察が、より堅牢な社会的偏見を動機づけることを願っている。

How reliably can we trust the scores obtained from social bias benchmarks as faithful indicators of problematic social biases in a given language model? In this work, we study this question by contrasting social biases with non-social biases stemming from choices made during dataset construction that might not even be discernible to the human eye. To do so, we empirically simulate various alternative constructions for a given benchmark based on innocuous modifications (such as paraphrasing or random-sampling) that maintain the essence of their social bias. On two well-known social bias benchmarks (Winogender and BiasNLI) we observe that these shallow modifications have a surprising effect on the resulting degree of bias across various models. We hope these troubling observations motivate more robust measures of social biases.
翻訳日:2023-06-22 05:28:56 公開日:2023-06-16
# グラフ構造拡散モデル

Graphically Structured Diffusion Models ( http://arxiv.org/abs/2210.11633v3 )

ライセンス: Link先を確認
Christian Weilbach, William Harvey, Frank Wood(参考訳) 問題固有の構造を持つ深層生成モデルを自動的に定義・学習するフレームワークを提案する。 従来,ソート,制約満足度,行列因子化といったアルゴリズムによって解決されてきた問題領域に取り組む。 具体的には、問題仕様に合わせたアーキテクチャで拡散モデルを訓練する。 この問題仕様は変数間の関係を記述するグラフィカルモデルを含み、しばしばサブ計算の明示的な表現から恩恵を受けるべきである。 置換不変性も利用できる。 さまざまな実験セットを通じて、トレーニング時間と最終精度の両方の観点から、問題次元とモデルのパフォーマンスの間のスケーリング関係を改善します。 私たちのコードはhttps://github.com/plai-group/gsdmにあります。

We introduce a framework for automatically defining and learning deep generative models with problem-specific structure. We tackle problem domains that are more traditionally solved by algorithms such as sorting, constraint satisfaction for Sudoku, and matrix factorization. Concretely, we train diffusion models with an architecture tailored to the problem specification. This problem specification should contain a graphical model describing relationships between variables, and often benefits from explicit representation of subcomputations. Permutation invariances can also be exploited. Across a diverse set of experiments we improve the scaling relationship between problem dimension and our model's performance, in terms of both training time and final accuracy. Our code can be found at https://github.com/plai-group/gsdm.
翻訳日:2023-06-22 05:17:47 公開日:2023-06-16
# adafocal:キャリブレーションアウェア適応焦点損失

AdaFocal: Calibration-aware Adaptive Focal Loss ( http://arxiv.org/abs/2211.11838v2 )

ライセンス: Link先を確認
Arindam Ghosh, Thomas Schaaf, Matthew R. Gormley(参考訳) 最近の研究は、ニューラルネットワークの信頼性スコアが正しい確率、すなわち校正問題と一致することを確実にする問題に焦点が当てられている。 また, 焦点損失によるトレーニングにより, クロスエントロピーよりもキャリブレーションが向上し, 同様の精度が得られた。 この成功は、モデルの予測のエントロピー(パラメータ$\gamma$によって制御される)を正則化することで、モデルの過信を抑えることに起因する。 さらに、トレーニングサンプル毎に$\gamma$が独立して選択されることが期待される(FLSD-53 \cite{mukhoti2020})。 しかし、FLSD-53はヒューリスティックスに基づいており、よく一般化されていない。 本稿では,focal(および逆焦点)損失のキャリブレーション特性を利用し,前段からの$\gamma_{t-1}$と検証集合に対するモデルの非信頼度に関する知識に基づいて,異なるサンプル群に対して$\gamma_t$を適応的に修飾するadafocalと呼ばれるキャリブレーション・アウェア適応焦点損失を提案する。 様々な画像認識と1つのnlpタスクにおけるadafocalを評価し,様々なネットワークアーキテクチャをカバーし,類似の精度を保ちながらキャリブレーションの改善を確認した。 さらに,adafocalでトレーニングされたモデルが,分散検出の大幅な向上を実現することを示す。

Much recent work has been devoted to the problem of ensuring that a neural network's confidence scores match the true probability of being correct, i.e. the calibration problem. Of note, it was found that training with focal loss leads to better calibration than cross-entropy while achieving similar level of accuracy \cite{mukhoti2020}. This success stems from focal loss regularizing the entropy of the model's prediction (controlled by the parameter $\gamma$), thereby reining in the model's overconfidence. Further improvement is expected if $\gamma$ is selected independently for each training sample (Sample-Dependent Focal Loss (FLSD-53) \cite{mukhoti2020}). However, FLSD-53 is based on heuristics and does not generalize well. In this paper, we propose a calibration-aware adaptive focal loss called AdaFocal that utilizes the calibration properties of focal (and inverse-focal) loss and adaptively modifies $\gamma_t$ for different groups of samples based on $\gamma_{t-1}$ from the previous step and the knowledge of model's under/over-confidence on the validation set. We evaluate AdaFocal on various image recognition and one NLP task, covering a wide variety of network architectures, to confirm the improvement in calibration while achieving similar levels of accuracy. Additionally, we show that models trained with AdaFocal achieve a significant boost in out-of-distribution detection.
翻訳日:2023-06-22 05:09:34 公開日:2023-06-16
# 低温原子分子衝突における核スピン緩和

Nuclear spin relaxation in cold atom-molecule collisions ( http://arxiv.org/abs/2212.05363v2 )

ライセンス: Link先を確認
Rebekah Hermsmeier, Xiaodong Xing, Timur V. Tscherbul(参考訳) 外部磁場中の非構造原子を持つ^1\sigma^+$分子の冷間衝突における核スピン緩和の量子力学について検討する。 この目的のために我々は、$^1\Sigma^+$分子の自由度と核スピン度、外部磁場との相互作用、および異方性原子-分子相互作用を考慮に入れた厳密な結合チャネル法を開発した。 本手法を用いて, 低温緩衝ガスに浸漬した$^{13}$CO分子の核スピンサブレベルの衝突緩和の研究を行う。 核スピンサブレベル間の直接結合が欠如していることから,COの基底回転多様体における核スピン緩和は極めて遅いことが判明した。 COのN=1$核スピン状態間の衝突遷移の速度は、状態間の直接核スピン回転結合のため、一般的にはるかに高い。 これらの遷移は、初期および最終分子状態に対する回転および核スピン角モータの空間固定射影の値に依存する選択規則に従う。 いくつかの初期状態については、初生近似を用いて理解できる強い磁場依存性も観測する。 計算した核スピン緩和速度を用いて,Heの低温緩衝ガスに浸漬したCO$(N=0)$の単一核スピン状態の熱化を調べた。 計算された核スピン緩和時間(T_1\simeq 0.5$ s at $T=1$ K)は、核スピン緩和をはるかに速い速度で行う回転励起状態の増加による高温の急激な温度依存性を示す。 したがって、バッファーガス原子との冷間衝突におけるN=0$核スピン状態の長い緩和時間は十分な低温でしか維持できない(kT\ll 2B_e$)。

We explore the quantum dynamics of nuclear spin relaxation in cold collisions of $^1\Sigma^+$ molecules with structureless atoms in an external magnetic field. To this end, we develop a rigorous coupled-channel methodology, which accounts for rotational and nuclear spin degrees of freedom of $^1\Sigma^+$ molecules, their interaction with an external magnetic field, as well as for anisotropic atom-molecule interactions. We apply the methodology to study collisional relaxation of the nuclear spin sublevels of $^{13}$CO molecules immersed in a cold buffer gas of $^4$He atoms. We find that nuclear spin relaxation in the ground rotational manifold of CO occurs extremely slowly due to the absence of direct couplings between the nuclear spin sublevels. The rates of collisional transitions between the $N=1$ nuclear spin states of CO are generally much higher due to the direct nuclear spin-rotation coupling between the states. These transitions obey selection rules, which depend on the values of space-fixed projections of rotational and nuclear spin angular momenta for the initial and final molecular states. For some initial states, we also observe a strong magnetic field dependence, which can be understood using the first Born approximation. We use our calculated nuclear spin relaxation rates to investigate the thermalization of a single nuclear spin state of CO$(N=0)$ immersed in a cold buffer gas of He. The calculated nuclear spin relaxation times ($T_1\simeq 0.5$ s at $T=1$ K) display a steep temperature dependence decreasing rapidly at elevated temperatures due to the increased population of rotationally excited states, which undergo nuclear spin relaxation at a much faster rate. Thus, long relaxation times of $N=0$ nuclear spin states in cold collisions with buffer gas atoms can only be maintained at sufficiently low temperatures ($kT\ll 2B_e$), where $B_e$ is the rotational constant.
翻訳日:2023-06-22 04:51:12 公開日:2023-06-16
# マルコフ決定過程の枠組みに基づく逐次的公平資源配分

Sequential Fair Resource Allocation under a Markov Decision Process Framework ( http://arxiv.org/abs/2301.03758v2 )

ライセンス: Link先を確認
Parisa Hassanzadeh, Eleonora Kreacic, Sihan Zeng, Yuchen Xiao, Sumitra Ganesh(参考訳) 有限地平線上の到達に対する確率的要求を明らかにするエージェントに対して限られた資源を割り当てる逐次意思決定問題について検討する。 私たちの目標は、利用可能なリソース予算を浪費する公平な割り当てアルゴリズムを設計することです。 これは、意思決定時に将来の要求に関する情報が得られないシーケンシャルな設定では難しい。 この問題を離散時間マルコフ決定過程(MDP)として定式化する。 我々は,到着時に期待される将来の要求を考慮し,地平線上で明らかになった要求全体に対して公平にアロケーションを行う新しいアルゴリズムであるSAFFEを提案する。 このアルゴリズムは、エージェントの将来の要求の不確実性に応じて、将来の潜在的な要求に対する現在の明らかにされた要求の優先順位付けを可能にする正規化を導入する。 mdpの定式化を用いて,saffeはnash社会福祉フェアネス目標の上限に基づいて割り当てを最適化し,そのギャップを将来の総需要に対する濃度境界の使用による最適性に限定した。 合成データと実データを用いて,SAFFEの性能を既存のアプローチと比較し,MDPで訓練された強化学習政策と比較した。 SAFFEはより公平で効率的なアロケーションを実現し、密着度の高い設定で最適に近い性能を実現する。

We study the sequential decision-making problem of allocating a limited resource to agents that reveal their stochastic demands on arrival over a finite horizon. Our goal is to design fair allocation algorithms that exhaust the available resource budget. This is challenging in sequential settings where information on future demands is not available at the time of decision-making. We formulate the problem as a discrete time Markov decision process (MDP). We propose a new algorithm, SAFFE, that makes fair allocations with respect to the entire demands revealed over the horizon by accounting for expected future demands at each arrival time. The algorithm introduces regularization which enables the prioritization of current revealed demands over future potential demands depending on the uncertainty in agents' future demands. Using the MDP formulation, we show that SAFFE optimizes allocations based on an upper bound on the Nash Social Welfare fairness objective, and we bound its gap to optimality with the use of concentration bounds on total future demands. Using synthetic and real data, we compare the performance of SAFFE against existing approaches and a reinforcement learning policy trained on the MDP. We show that SAFFE leads to more fair and efficient allocations and achieves close-to-optimal performance in settings with dense arrivals.
翻訳日:2023-06-22 04:29:58 公開日:2023-06-16
# ボケ及びポアソン雑音下のセグメンテーションにおける異方性および等方性tvの相違

Difference of Anisotropic and Isotropic TV for Segmentation under Blur and Poisson Noise ( http://arxiv.org/abs/2301.03393v4 )

ライセンス: Link先を確認
Kevin Bui, Yifei Lou, Fredrick Park, Jack Xin(参考訳) 本稿では,ぼかしとポアソンノイズによって劣化した画像のセグメント化を目的とする。 画像をスムースに分割するために$k$-meansクラスタリングを行う。 特に、画像平滑化ステップでは、ムンフォード・シャーモデルにおけるガウス雑音の最小二乗忠実度をポアソン雑音に対応する最大後方(map)項に置き換え、画像勾配のスパーシティを促進するための正規化として、異方性および等方性総変動(aitv)の重み付き差分を取り入れる。 このような非凸モデルに対しては、特定の分割方式を開発し、近似演算子を用いて乗算器の交互方向法(ADMM)を適用する。 ADMM方式の有効性を検証するために収束解析を行う。 様々なセグメンテーションシナリオ(grayscale/color and multiphase)における数値実験により,本手法がsatを含む多くのセグメンテーション手法を上回っていることを示した。

In this paper, we aim to segment an image degraded by blur and Poisson noise. We adopt a smoothing-and-thresholding (SaT) segmentation framework that finds a piecewise-smooth solution, followed by $k$-means clustering to segment the image. Specifically for the image smoothing step, we replace the least-squares fidelity for Gaussian noise in the Mumford-Shah model with a maximum posterior (MAP) term to deal with Poisson noise and we incorporate the weighted difference of anisotropic and isotropic total variation (AITV) as a regularization to promote the sparsity of image gradients. For such a nonconvex model, we develop a specific splitting scheme and utilize a proximal operator to apply the alternating direction method of multipliers (ADMM). Convergence analysis is provided to validate the efficacy of the ADMM scheme. Numerical experiments on various segmentation scenarios (grayscale/color and multiphase) showcase that our proposed method outperforms a number of segmentation methods, including the original SaT.
翻訳日:2023-06-22 04:29:36 公開日:2023-06-16
# MILO: 効率的なモデルトレーニングとチューニングのためのモデル非依存サブセット選択フレームワーク

MILO: Model-Agnostic Subset Selection Framework for Efficient Model Training and Tuning ( http://arxiv.org/abs/2301.13287v4 )

ライセンス: Link先を確認
Krishnateja Killamsetty, Alexandre V. Evfimievski, Tejaswini Pedapati, Kiran Kate, Lucian Popa, Rishabh Iyer(参考訳) ディープネットワークのトレーニングと大規模なデータセットでのハイパーパラメータのチューニングは、計算集約的だ。 効率的なトレーニングのための主要な研究方向の1つは、トレーニングデータの一般化されたサブセットを選択することで、トレーニングコストを削減することである。 単純な適応的ランダムなサブセット選択ベースラインと比較して、既存のインテリジェントなサブセット選択アプローチは、モデル依存の勾配と特徴埋め込みを計算し、部分モジュラー目的のグリーディ最大化を適用するという、時間を要するサブセット選択ステップのために競合しない。 我々の重要な洞察は、下流モデルパラメータへの依存をなくすことで、サブセットを前処理ステップとして選択することができ、追加コストなしで複数のモデルをトレーニングできるということです。 そこで本研究では,モデルに依存しないサブセット選択フレームワークMILOを提案し,モデル学習からサブセット選択を分離し,より優れたモデル収束と性能を実現する。 実験結果から,miloはモデル3倍のトレーニング – 10倍の速度 – ハイパーパラメータ20倍のチューニング – 75倍の速度 – を,パフォーマンスを損なうことなく,フルデータセットのトレーニングやチューニングよりも高速にトレーニングできることがわかった。

Training deep networks and tuning hyperparameters on large datasets is computationally intensive. One of the primary research directions for efficient training is to reduce training costs by selecting well-generalizable subsets of training data. Compared to simple adaptive random subset selection baselines, existing intelligent subset selection approaches are not competitive due to the time-consuming subset selection step, which involves computing model-dependent gradients and feature embeddings and applies greedy maximization of submodular objectives. Our key insight is that removing the reliance on downstream model parameters enables subset selection as a pre-processing step and enables one to train multiple models at no additional cost. In this work, we propose MILO, a model-agnostic subset selection framework that decouples the subset selection from model training while enabling superior model convergence and performance by using an easy-to-hard curriculum. Our empirical results indicate that MILO can train models $3\times - 10 \times$ faster and tune hyperparameters $20\times - 75 \times$ faster than full-dataset training or tuning without compromising performance.
翻訳日:2023-06-22 04:10:09 公開日:2023-06-16
# mnemosyne:トランスフォーマーによるトランスフォーマーのトレーニングを学ぶ

Mnemosyne: Learning to Train Transformers with Transformers ( http://arxiv.org/abs/2302.01128v3 )

ライセンス: Link先を確認
Deepali Jain, Krzysztof Marcin Choromanski, Avinava Dubey, Sumeet Singh, Vikas Sindhwani, Tingnan Zhang, Jie Tan(参考訳) 本研究では,学習可能なオプティマイザの新しいクラスであるtextit{Mnemosyne} を提案する。 これは、タスク固有のオプティマイザチューニングなしで、他のトランスを含むニューラルネットワークアーキテクチャ全体のトレーニングを学ぶことができる、新しい時空間的低ランク暗黙的注意トランスフォーマに基づいている。 mnemosyneをお見せします (a)人気のLSTMオプティマイザ(LSTMの破滅的な忘れを緩和する新機能エンジニアリングも備えている)を上回っている。 (b) 最小の計算資源を必要とする単純なメタトレーニング戦略を用いてトランスフォーマーのトレーニングを成功させる。 (c) 高精度なSOTAハンドデザインオプティマイザと、慎重に調整されたハイパーパラメータ(しばしばトップパフォーマンスモデルを生成する)をマッチングする。 さらに、mnemosyneは、ハンドデザインのファーストオーダーのそれと同等の空間複雑性を提供し、より多くのパラメータのトレーニングにスケールできる。 我々はMnemosyneの広範な経験的評価を行う。 (a)中規模の建築から巨大なViT-H(36層16頭)まで幅広い視覚変換器(ViT)の微調整 (b) BERT モデルの事前訓練 (c)軟式プロンプトチューニング大型11B+T5XXLモデル。 我々は,mnemosyne がこれまで行わなかったコンパクト連想記憶の包括的理論的解析により,この結果を補完する。

In this work, we propose a new class of learnable optimizers, called \textit{Mnemosyne}. It is based on the novel spatio-temporal low-rank implicit attention Transformers that can learn to train entire neural network architectures, including other Transformers, without any task-specific optimizer tuning. We show that Mnemosyne: (a) outperforms popular LSTM optimizers (also with new feature engineering to mitigate catastrophic forgetting of LSTMs), (b) can successfully train Transformers while using simple meta-training strategies that require minimal computational resources, (c) matches accuracy-wise SOTA hand-designed optimizers with carefully tuned hyper-parameters (often producing top performing models). Furthermore, Mnemosyne provides space complexity comparable to that of its hand-designed first-order counterparts, which allows it to scale to training larger sets of parameters. We conduct an extensive empirical evaluation of Mnemosyne on: (a) fine-tuning a wide range of Vision Transformers (ViTs) from medium-size architectures to massive ViT-Hs (36 layers, 16 heads), (b) pre-training BERT models and (c) soft prompt-tuning large 11B+ T5XXL models. We complement our results with a comprehensive theoretical analysis of the compact associative memory used by Mnemosyne which we believe was never done before.
翻訳日:2023-06-22 03:59:46 公開日:2023-06-16
# MarioGPT: 大規模言語モデルによるオープンソースのText2Level生成

MarioGPT: Open-Ended Text2Level Generation through Large Language Models ( http://arxiv.org/abs/2302.05981v2 )

ライセンス: Link先を確認
Shyam Sudhakaran, Miguel Gonz\'alez-Duque, Claire Glanois, Matthias Freiberger, Elias Najarro, Sebastian Risi(参考訳) 手続き型コンテンツ生成(PCG)アルゴリズムは、複雑で多様な環境を自動生成する技術を提供する。 しかし、PCGメソッドでコンテンツを生成することは多くの場合簡単であるが、特定の意図や制約を反映した意味のあるコンテンツを生成することは困難である。 さらに、多くのPCGアルゴリズムは、オープンな方法でコンテンツを生成する能力に欠ける。 最近、Large Language Models (LLMs) は多くの多様なドメインで驚くほど効果的であることが示されている。 これらの訓練されたLSMは微調整され、情報を再利用し、新しいタスクのトレーニングを加速することができる。 本研究は,スーパーマリオブラザーズレベルにおいて,タイルベースのゲームレベルを生成するための微調整GPT2モデルであるMarioGPTを紹介する。 我々はMarioGPTが多様なレベルを生成できるだけでなく、制御可能なレベル生成のためにテキストプロンプトが可能であることを示し、現在のPCG技術における重要な課題の1つに対処する。 私たちの知る限り、MarioGPTは最初のテキスト・ツー・レベルのモデルです。 また、MarioGPTとノベルティ検索を組み合わせることで、様々なプレイスタイルのダイナミックス(すなわちプレイヤーパス)で様々なレベルを生成できる。 この組み合わせにより、ますます多様なコンテンツのオープンな生成が可能になる。

Procedural Content Generation (PCG) algorithms provide a technique to generate complex and diverse environments in an automated way. However, while generating content with PCG methods is often straightforward, generating meaningful content that reflects specific intentions and constraints remains challenging. Furthermore, many PCG algorithms lack the ability to generate content in an open-ended manner. Recently, Large Language Models (LLMs) have shown to be incredibly effective in many diverse domains. These trained LLMs can be fine-tuned, re-using information and accelerating training for new tasks. In this work, we introduce MarioGPT, a fine-tuned GPT2 model trained to generate tile-based game levels, in our case Super Mario Bros levels. We show that MarioGPT can not only generate diverse levels, but can be text-prompted for controllable level generation, addressing one of the key challenges of current PCG techniques. As far as we know, MarioGPT is the first text-to-level model. We also combine MarioGPT with novelty search, enabling it to generate diverse levels with varying play-style dynamics (i.e. player paths). This combination allows for the open-ended generation of an increasingly diverse range of content.
翻訳日:2023-06-22 03:51:25 公開日:2023-06-16
# マルコフデータのストリーミングPCA

Streaming PCA for Markovian Data ( http://arxiv.org/abs/2305.02456v2 )

ライセンス: Link先を確認
Syamantak Kumar and Purnamrita Sarkar(参考訳) 1982年の開始以来、Ojaのアルゴリズムはストリーミング原理成分分析(PCA)の確立された方法となっている。 本研究では,データポイントを既約,非周期,可逆マルコフ連鎖からサンプリングするストリーミングpcaの問題について検討する。 我々の目標は定常分布の未知共分散行列の最上位固有ベクトルを推定することである。 この設定は、マルコフ連鎖モンテカルロ(mcmc)型アルゴリズムからのみデータをサンプリングできるシナリオにおいて意味を持ち、定常分布のパラメータの推論を行うことが目的である。 文献におけるOjaのアルゴリズムのほとんどの収束保証は、データポイントがIIDのサンプルであると仮定する。 マルコフ依存のデータストリームの場合、典型的にはデータをダウンサンプリングして"ほぼ"独立したデータストリームを得る。 本稿では,ojaアルゴリズムのサンプルサイズに対する対数依存を除去し,ダウンサンプリング戦略からデータを捨てることにより,ojaアルゴリズムに対する最初の鋭利率を求める。

Since its inception in 1982, Oja's algorithm has become an established method for streaming principle component analysis (PCA). We study the problem of streaming PCA, where the data-points are sampled from an irreducible, aperiodic, and reversible Markov chain. Our goal is to estimate the top eigenvector of the unknown covariance matrix of the stationary distribution. This setting has implications in scenarios where data can solely be sampled from a Markov Chain Monte Carlo (MCMC) type algorithm, and the objective is to perform inference on parameters of the stationary distribution. Most convergence guarantees for Oja's algorithm in the literature assume that the data-points are sampled IID. For data streams with Markovian dependence, one typically downsamples the data to get a "nearly" independent data stream. In this paper, we obtain the first sharp rate for Oja's algorithm on the entire data, where we remove the logarithmic dependence on the sample size, $n$, resulting from throwing data away in downsampling strategies.
翻訳日:2023-06-22 02:30:59 公開日:2023-06-16
# OpenShape: オープンワールド理解に向けた3D形状表現のスケールアップ

OpenShape: Scaling Up 3D Shape Representation Towards Open-World Understanding ( http://arxiv.org/abs/2305.10764v2 )

ライセンス: Link先を確認
Minghua Liu, Ruoxi Shi, Kaiming Kuang, Yinhao Zhu, Xuanlin Li, Shizhong Han, Hong Cai, Fatih Porikli, Hao Su(参考訳) 本稿では,テキスト,画像,ポイントクラウドのマルチモーダルジョイント表現を学習する手法であるopenshapeを提案する。 表現アライメントによく使われるマルチモーダルコントラスト学習フレームワークを採用するが,オープンワールドの3d形状理解を実現するために,特に3d表現のスケールアップに重点を置いている。 これを実現するために,複数の3dデータセットをセンセンシングしてトレーニングデータをスケールアップし,ノイズの多いテキスト記述を自動的にフィルタリングし,強化するためのいくつかの戦略を提案する。 また、3Dバックボーンネットワークのスケーリング戦略を探求し比較し、より効率的なトレーニングのための新しいハードネガティブマイニングモジュールを導入する。 ゼロショット3d分類ベンチマークでopenshapeを評価し,その優れたオープンワールド認識能力を示す。 具体的には、OpenShapeは既存の手法に比べて1,156カテゴリのObjaverse-LVISベンチマークで46.8%のゼロショット精度を達成した。 OpenShapeはまた、ModelNet40で85.3%の精度を達成し、以前のゼロショットベースラインメソッドを20%上回り、完全に教師されたメソッドと同等に実行する。 さらに、学習した埋め込みは、視覚的および意味的概念(例えば、サブカテゴリ、色、形状、スタイル)をエンコードし、きめ細かいテキスト3dおよび画像3dインタラクションを容易にする。 CLIP埋め込みとの整合性のため、学習した形状表現は、ポイントクラウドキャプションやポイントクラウド条件の画像生成など、さまざまなアプリケーションのための既製のCLIPベースのモデルと統合することもできる。

We introduce OpenShape, a method for learning multi-modal joint representations of text, image, and point clouds. We adopt the commonly used multi-modal contrastive learning framework for representation alignment, but with a specific focus on scaling up 3D representations to enable open-world 3D shape understanding. To achieve this, we scale up training data by ensembling multiple 3D datasets and propose several strategies to automatically filter and enrich noisy text descriptions. We also explore and compare strategies for scaling 3D backbone networks and introduce a novel hard negative mining module for more efficient training. We evaluate OpenShape on zero-shot 3D classification benchmarks and demonstrate its superior capabilities for open-world recognition. Specifically, OpenShape achieves a zero-shot accuracy of 46.8% on the 1,156-category Objaverse-LVIS benchmark, compared to less than 10% for existing methods. OpenShape also achieves an accuracy of 85.3% on ModelNet40, outperforming previous zero-shot baseline methods by 20% and performing on par with some fully-supervised methods. Furthermore, we show that our learned embeddings encode a wide range of visual and semantic concepts (e.g., subcategories, color, shape, style) and facilitate fine-grained text-3D and image-3D interactions. Due to their alignment with CLIP embeddings, our learned shape representations can also be integrated with off-the-shelf CLIP-based models for various applications, such as point cloud captioning and point cloud-conditioned image generation.
翻訳日:2023-06-22 02:12:19 公開日:2023-06-16
# Mixup-Privacy:プライバシー保護セグメンテーションのためのシンプルで効果的なアプローチ

Mixup-Privacy: A simple yet effective approach for privacy-preserving segmentation ( http://arxiv.org/abs/2305.13756v2 )

ライセンス: Link先を確認
Bach Kim, Jose Dolz, Pierre-Marc Jodoin, Christian Desrosiers(参考訳) 医療データのプライバシー保護は、集中型機械学習アプリケーションにとって正当な障害である。 本稿では,患者プライバシを保ちながらマルチ中心医療画像の分析を可能にするクライアントサーバイメージセグメンテーションシステムを提案する。 このアプローチでは、クライアントは、参照画像と混合することにより、患者イメージを保護します。 我々の研究で示されているように、画像の混在を正確なオリジナルコンテンツと区別することは困難であり、不許可な人にはデータが動作不能で認識不能になる。 このプロキシイメージは処理のためにサーバに送られる。 サーバはセグメンテーションマップの混合物を返却し、クライアントは正しいターゲットセグメンテーションに戻すことができる。 システムには2つの要素があります 1)画像混合を処理するサーバ側のセグメンテーションネットワーク 2)セグメント化未混合ネットワークは、セグメント化混合物から正しいセグメント化マップを復元する。 さらに、システム全体をエンドツーエンドでトレーニングする。 提案手法は, 2つの異なるデータセットから得られた画像を用いて, mri脳分割のタスクで検証する。 その結果,本手法のセグメンテーション精度は生画像で学習したシステムと同等であり,計算オーバーヘッドの少ない他のプライバシ保存手法よりも優れていることがわかった。

Privacy protection in medical data is a legitimate obstacle for centralized machine learning applications. Here, we propose a client-server image segmentation system which allows for the analysis of multi-centric medical images while preserving patient privacy. In this approach, the client protects the to-be-segmented patient image by mixing it to a reference image. As shown in our work, it is challenging to separate the image mixture to exact original content, thus making the data unworkable and unrecognizable for an unauthorized person. This proxy image is sent to a server for processing. The server then returns the mixture of segmentation maps, which the client can revert to a correct target segmentation. Our system has two components: 1) a segmentation network on the server side which processes the image mixture, and 2) a segmentation unmixing network which recovers the correct segmentation map from the segmentation mixture. Furthermore, the whole system is trained end-to-end. The proposed method is validated on the task of MRI brain segmentation using images from two different datasets. Results show that the segmentation accuracy of our method is comparable to a system trained on raw images, and outperforms other privacy-preserving methods with little computational overhead.
翻訳日:2023-06-22 02:03:21 公開日:2023-06-16
# 同じクラスタオラクルを用いた有限集合分割のエラー耐性の高い完全クエリ学習

Error-Tolerant Exact Query Learning of Finite Set Partitions with Same-Cluster Oracle ( http://arxiv.org/abs/2305.13402v2 )

ライセンス: Link先を確認
Adela Frances DePavia, Olga Medrano Mart\'in del Campo, Erasmo Tani(参考訳) 本稿では,有界対向誤差の存在下での同一クラスタオラクルへのアクセスを通じて,分割の正確な回復のためのアクティブラーニングの研究を開始する。 まず,学習分割と相関クラスタリングの新たな関係を強調する。 そして、この接続を使ってr\'enyi-ulamスタイルの分析フレームワークを構築し、最悪の場合のクエリの複雑さの上限を上下に証明します。 さらに、関連するランダム化アルゴリズムの期待性能を制限した。 最後に,この問題に対する適応性と問合せ複雑性の関係について検討する。

This paper initiates the study of active learning for exact recovery of partitions exclusively through access to a same-cluster oracle in the presence of bounded adversarial error. We first highlight a novel connection between learning partitions and correlation clustering. Then we use this connection to build a R\'enyi-Ulam style analytical framework for this problem, and prove upper and lower bounds on its worst-case query complexity. Further, we bound the expected performance of a relevant randomized algorithm. Finally, we study the relationship between adaptivity and query complexity for this problem and related variants.
翻訳日:2023-06-22 02:02:38 公開日:2023-06-16
# 関連性予測のための合成クエリ生成の可能性を探る

Exploring the Viability of Synthetic Query Generation for Relevance Prediction ( http://arxiv.org/abs/2305.11944v2 )

ライセンス: Link先を確認
Aditi Chaudhary, Karthik Raman, Krishna Srinivasan, Kazuma Hashimoto, Mike Bendersky, Marc Najork(参考訳) クエリー文書関連予測は情報検索システムにおいて重要な問題である。 この問題は、ラベル付きデータの大規模なコレクションを使用して微調整された(事前訓練された)トランスフォーマーベースモデルを用いて、ますます取り組まれている。 しかし、eコマースやヘルスケアのような専門分野においては、このアプローチの有効性は、大きなドメイン内データによって制限される。 この問題に対処するために、近年の手法はこれらの強力なモデルを利用して高品質なタスクとドメイン固有の合成データを生成する。 以前の研究では、QA(Qarguy-Answering)とバイナリ(yes/no)の関連予測のための合成データ生成やクエリ生成(QGen)を主に検討しており、例えば、QGenモデルにはドキュメントが与えられ、そのドキュメントに関連するクエリを生成するように訓練されている。 しかし、多くの問題において、単純なye/noラベルよりもよりきめ細かい関連性の概念がある。 そこで本研究では,QGen のアプローチを不適切な関連性予測に活用する方法を詳細に検討する。 これまでの作業からの主張とは対照的に、現在のQGenアプローチは、従来のクロスドメイントランスファー学習アプローチでは不十分です。 3つの公開eコマースベンチマークにまたがる実証研究を通じて、既存のqgenアプローチの新たな欠点を特定します。 これに対処するために、異なる関連性に関する知識を組み込んだラベル条件付きqgenモデルを導入する。 実験の結果,これらの変更はQGen技術の性能向上に有効であることが示されたが,QGenアプローチは関連ラベル空間の完全ニュアンスを捉えるのに苦労しており,結果として生成したクエリは望ましい関連ラベルに忠実ではないことがわかった。

Query-document relevance prediction is a critical problem in Information Retrieval systems. This problem has increasingly been tackled using (pretrained) transformer-based models which are finetuned using large collections of labeled data. However, in specialized domains such as e-commerce and healthcare, the viability of this approach is limited by the dearth of large in-domain data. To address this paucity, recent methods leverage these powerful models to generate high-quality task and domain-specific synthetic data. Prior work has largely explored synthetic data generation or query generation (QGen) for Question-Answering (QA) and binary (yes/no) relevance prediction, where for instance, the QGen models are given a document, and trained to generate a query relevant to that document. However in many problems, we have a more fine-grained notion of relevance than a simple yes/no label. Thus, in this work, we conduct a detailed study into how QGen approaches can be leveraged for nuanced relevance prediction. We demonstrate that -- contrary to claims from prior works -- current QGen approaches fall short of the more conventional cross-domain transfer-learning approaches. Via empirical studies spanning 3 public e-commerce benchmarks, we identify new shortcomings of existing QGen approaches -- including their inability to distinguish between different grades of relevance. To address this, we introduce label-conditioned QGen models which incorporates knowledge about the different relevance. While our experiments demonstrate that these modifications help improve performance of QGen techniques, we also find that QGen approaches struggle to capture the full nuance of the relevance label space and as a result the generated queries are not faithful to the desired relevance label.
翻訳日:2023-06-22 02:01:52 公開日:2023-06-16
# ハイブリッド変分量子固有解法:マージ計算モデル

Hybrid variational quantum eigensolvers: merging computational models ( http://arxiv.org/abs/2305.19200v2 )

ライセンス: Link先を確認
Albie Chan, Zheng Shi, Luca Dellantonio, Wolfgang D\"ur and Christine A. Muschik(参考訳) 変分量子固有ソルバ(英: variational quantum eigensolvers, vqes)は、量子コンピュータ上で物理モデルをシミュレートする手法である。 近年、量子コンピューティングの計測に基づくアプローチに拡張され、この計算モデルの強みと利点がVQEにもたらされた。 本研究では,VQEの設計と統合のフロンティアを,測定ベース要素をゲートベースパラダイムにブレンドすることで,ハイブリッドVQEを形成する。 これにより、問題インフォームド変分アンサッツの設計が容易になり、またNISQデバイス上で多体ハミルトンの効率的な実装が可能になる。 本研究では, 摂動平面符号, Z2, SU(3) 格子ゲージ理論, LiH 分子を解析し, 超伝導量子コンピュータへのアプローチを実験的に実証した。

Variational quantum eigensolvers (VQEs) are a highly successful technique for simulating physical models on quantum computers. Recently, they were extended to the measurement-based approach of quantum computing, bringing the strengths and advantages of this computational model to VQEs. In this work, we push the design and integration frontiers of VQE further by blending measurement-based elements into the gate-based paradigm to form a hybrid VQE. This facilitates the design of a problem-informed variational ansatz and also allows the efficient implementation of many-body Hamiltonians on NISQ devices. We experimentally demonstrate our approach on a superconducting quantum computer by investigating the perturbed planar code, Z2 and SU(3) lattice gauge theories, and the LiH molecule.
翻訳日:2023-06-22 01:43:34 公開日:2023-06-16
# 効率的な伝達学習のための解釈モデルへのBlackBoxの蒸留

Distilling BlackBox to Interpretable models for Efficient Transfer Learning ( http://arxiv.org/abs/2305.17303v6 )

ライセンス: Link先を確認
Shantanu Ghosh, Ke Yu, Kayhan Batmanghelich(参考訳) 一般化可能なAIモデルの構築は、医療分野における大きな課題のひとつだ。 放射線科医は、異常の一般的な記述規則に依存するが、ニューラルネットワーク(nn)モデルは、入力分布(例えばスキャナタイプ)のわずかな変化でも苦しむ。 あるドメインから別のドメインに知識を転送するモデルを微調整するには、ターゲットドメイン内の大量のラベル付きデータが必要である。 本稿では,最小の計算コストで対象領域に効率的に微調整可能な解釈可能なモデルを開発した。 NNの解釈可能なコンポーネントは、ほぼドメイン不変であると仮定する。 しかし、解釈可能なモデルは一般的にブラックボックス(BB)の派生モデルと比べて性能が劣る。 まずソース領域のBBから始まり、人間の理解可能な概念を用いて浅い解釈可能なモデルのemph{mixture}に蒸留する。 各解釈可能なモデルはデータのサブセットをカバーするため、解釈可能なモデルの混合はBBと同等のパフォーマンスを達成する。 さらに、準教師付き学習(SSL)の擬似ラベル技術を用いて、対象領域における概念分類器を学習し、続いて対象領域における解釈可能なモデルを微調整する。 実生活型大規模胸部X線分類データセットを用いて本モデルの評価を行った。 コードは以下の通りである。 \url{https://github.com/batmanlab/MICCAI-2023-Route-interpret-repeat-CXRs}。

Building generalizable AI models is one of the primary challenges in the healthcare domain. While radiologists rely on generalizable descriptive rules of abnormality, Neural Network (NN) models suffer even with a slight shift in input distribution (e.g., scanner type). Fine-tuning a model to transfer knowledge from one domain to another requires a significant amount of labeled data in the target domain. In this paper, we develop an interpretable model that can be efficiently fine-tuned to an unseen target domain with minimal computational cost. We assume the interpretable component of NN to be approximately domain-invariant. However, interpretable models typically underperform compared to their Blackbox (BB) variants. We start with a BB in the source domain and distill it into a \emph{mixture} of shallow interpretable models using human-understandable concepts. As each interpretable model covers a subset of data, a mixture of interpretable models achieves comparable performance as BB. Further, we use the pseudo-labeling technique from semi-supervised learning (SSL) to learn the concept classifier in the target domain, followed by fine-tuning the interpretable models in the target domain. We evaluate our model using a real-life large-scale chest-X-ray (CXR) classification dataset. The code is available at: \url{https://github.com/batmanlab/MICCAI-2023-Route-interpret-repeat-CXRs}.
翻訳日:2023-06-22 01:41:36 公開日:2023-06-16
# MicroSegNet: マイクロ超音波画像における前立腺分割の深層学習手法

MicroSegNet: A Deep Learning Approach for Prostate Segmentation on Micro-Ultrasound Images ( http://arxiv.org/abs/2305.19956v2 )

ライセンス: Link先を確認
Hongxu Jiang, Muhammad Imran, Preethika Muralidharan, Anjali Patel, Jake Pensa, Muxuan Liang, Tarik Benidir, Joseph R. Grajo, Jason P. Joseph, Russell Terry, John Michael DiBianco, Li-Ming Su, Yuyin Zhou, Wayne G. Brisbane, and Wei Shao(参考訳) マイクロ超音波(micro-US)は、従来の超音波の3.4倍の高解像度の29MHz超音波技術であり、MRIによる前立腺がんの診断に匹敵する精度を提供するが、低コストである。 正確な前立腺分画は前立腺体積測定、がん診断、前立腺生検、治療計画に不可欠である。 しかし, 前立腺, 膀胱, 尿道間の境界が不明瞭であることから, ミクロスに対する前立腺の分画は困難である。 本稿では,これらの課題に対処するために設計されたマルチスケールアノテーション誘導変換器UNetモデルであるMicroSegNetを提案する。 トレーニングプロセスでは、microsegnetは、専門家と非専門家のアノテーションの相違を特徴とする、(ハードな領域)セグメンテーションが難しい領域にフォーカスしている。 我々は、ハード領域における予測誤差に重みを割り当て、容易領域における予測誤差に低重みを割り当てるアノテーション誘導二元交叉エントロピー(AG-BCE)損失を提案する。 AG-BCEの損失は、マルチスケールの深層監視を利用することで、トレーニングプロセスにシームレスに統合され、MicroSegNetはグローバルなコンテキスト依存やローカル情報をさまざまなスケールでキャプチャできるようになりました。 55例のmicro-US画像を用いてモデルを訓練し,20例の評価を行った。 我々のMicroSegNetモデルでは、Dice係数0.942とHausdorff距離2.11mmを達成し、いくつかの最先端セグメンテーション法と、異なる経験レベルの3つのアノテータを上回りました。 コードとデータセットを公開して、研究における透明性とコラボレーションを促進するつもりです。

Micro-ultrasound (micro-US) is a novel 29-MHz ultrasound technique that provides 3-4 times higher resolution than traditional ultrasound, delivering comparable accuracy for diagnosing prostate cancer to MRI but at a lower cost. Accurate prostate segmentation is crucial for prostate volume measurement, cancer diagnosis, prostate biopsy, and treatment planning. However, prostate segmentation on microUS is challenging due to artifacts and indistinct borders between the prostate, bladder, and urethra in the midline. This paper presents MicroSegNet, a multi-scale annotation-guided transformer UNet model designed specifically to tackle these challenges. During the training process, MicroSegNet focuses more on regions that are hard to segment (hard regions), characterized by discrepancies between expert and non-expert annotations. We achieve this by proposing an annotation-guided binary cross entropy (AG-BCE) loss that assigns a larger weight to prediction errors in hard regions and a lower weight to prediction errors in easy regions. The AG-BCE loss was seamlessly integrated into the training process through the utilization of multi-scale deep supervision, enabling MicroSegNet to capture global contextual dependencies and local information at various scales. We trained our model using micro-US images from 55 patients, followed by evaluation on 20 patients. Our MicroSegNet model achieved a Dice coefficient of 0.942 and a Hausdorff distance of 2.11 mm, outperforming several state-of-the-art segmentation methods, as well as three human annotators with different experience levels. We will make our code and dataset publicly available to promote transparency and collaboration in research.
翻訳日:2023-06-22 01:32:01 公開日:2023-06-16
# In Vivo Micro-UltrasoundとEx Vivo Pseudo-Whole Mount Histopathology Image of the Prestate: A Proof-Concept Study

Image Registration of In Vivo Micro-Ultrasound and Ex Vivo Pseudo-Whole Mount Histopathology Images of the Prostate: A Proof-of-Concept Study ( http://arxiv.org/abs/2305.19939v2 )

ライセンス: Link先を確認
Muhammad Imran, Brianna Nguyen, Jake Pensa, Sara M. Falzarano, Anthony E. Sisk, Muxuan Liang, John Michael DiBianco, Li-Ming Su, Yuyin Zhou, Wayne G. Brisbane, and Wei Shao(参考訳) 前立腺癌の早期診断は5年生存率を大幅に改善する。 前立腺癌の生検は画像誘導生検により改善される。 MRI-ultrasound fusion-guided biopsyはより小さな腫瘍に感受性があるが、MRIや核融合装置のコストが高いために利用されていない。 新しい高分解能超音波技術であるmicro-ultrasound (micro-US)はMRIに代わる費用対効果があり、診断精度は同等である。 しかし,癌組織と正常組織との微妙なグレースケールの変化から,マイクロusの解釈は困難である。 この課題は、基礎真理がんアウトラインを含むマイクロus画像の大規模なデータセットを尿器科医に訓練することで解決できる。 このようなデータセットは手術標本(病理組織学)から画像登録によってマイクロus画像にマッピングすることができる。 本稿では,生体内マイクロUS画像と生体外全身組織像を登録するための半自動パイプラインを提案する。 このパイプラインは, 擬似全身性病理像と3次元3DマイクロUS容積の再構成から始まる。 次に、アフィン変換と変形可能な変換を推定する2段階のアプローチを用いて、各擬似マウント組織像を対応する軸方向のマイクロUSスライスに登録する。 前立腺急速切除を施行した18例のmicro-USおよび組織像を用いて登録パイプラインの評価を行った。 その結果、Dice係数は0.94、ランドマーク誤差は2.7mmとなり、登録パイプラインの精度が示された。 この概念実証研究は、マイクロusと病理組織像の正確な整合の実現可能性を示している。 研究における透明性とコラボレーションを促進するため、コードとデータセットを公開します。

Early diagnosis of prostate cancer significantly improves a patient's 5-year survival rate. Biopsy of small prostate cancers is improved with image-guided biopsy. MRI-ultrasound fusion-guided biopsy is sensitive to smaller tumors but is underutilized due to the high cost of MRI and fusion equipment. Micro-ultrasound (micro-US), a novel high-resolution ultrasound technology, provides a cost-effective alternative to MRI while delivering comparable diagnostic accuracy. However, the interpretation of micro-US is challenging due to subtle gray scale changes indicating cancer vs normal tissue. This challenge can be addressed by training urologists with a large dataset of micro-US images containing the ground truth cancer outlines. Such a dataset can be mapped from surgical specimens (histopathology) onto micro-US images via image registration. In this paper, we present a semi-automated pipeline for registering in vivo micro-US images with ex vivo whole-mount histopathology images. Our pipeline begins with the reconstruction of pseudo-whole-mount histopathology images and a 3-dimensional (3D) micro-US volume. Each pseudo-whole-mount histopathology image is then registered with the corresponding axial micro-US slice using a two-stage approach that estimates an affine transformation followed by a deformable transformation. We evaluated our registration pipeline using micro-US and histopathology images from 18 patients who underwent radical prostatectomy. The results showed a Dice coefficient of 0.94 and a landmark error of 2.7 mm, indicating the accuracy of our registration pipeline. This proof-of-concept study demonstrates the feasibility of accurately aligning micro-US and histopathology images. To promote transparency and collaboration in research, we will make our code and dataset publicly available.
翻訳日:2023-06-22 01:31:29 公開日:2023-06-16
# インテリジェンス空間の定義と探索

Defining and Explorting the Intelligence Space ( http://arxiv.org/abs/2306.06499v2 )

ライセンス: Link先を確認
Paul S. Rosenbloom(参考訳) 知性は、多くの試みにもかかわらず、定義するのが難しい概念である。 この記事では,3段階の知能のネスト階層と,その周辺に構築された広い空間の両方を誘導する定義のカスケードを配置し,インテリジェンスとは何か,という広い視点を紹介する。 このインテリジェンス空間内では、人間のようなインテリジェンスというクロスオーバーの概念とともに、自然(特に人間)のインテリジェンスと人工知能(AI)の両方に対応する領域が特定される。 これらの定義は、特異性、生成的AI、倫理、知的財産権という、より先進的でより議論の的になる4つのトピックの初期の探索で活用される。

Intelligence is a difficult concept to define, despite many attempts at doing so. Rather than trying to settle on a single definition, this article introduces a broad perspective on what intelligence is, by laying out a cascade of definitions that induces both a nested hierarchy of three levels of intelligence and a wider-ranging space that is built around them and approximations to them. Within this intelligence space, regions are identified that correspond to both natural -- most particularly, human -- intelligence and artificial intelligence (AI), along with the crossover notion of humanlike intelligence. These definitions are then exploited in early explorations of four more advanced, and likely more controversial, topics: the singularity, generative AI, ethics, and intellectual property.
翻訳日:2023-06-22 01:03:18 公開日:2023-06-16
# 医用画像解析のための連合学習:調査

Federated Learning for Medical Image Analysis: A Survey ( http://arxiv.org/abs/2306.05980v2 )

ライセンス: Link先を確認
Hao Guan, Mingxia Liu(参考訳) 医療画像における機械学習は、しばしば基本的なジレンマ、すなわち小さなサンプルサイズ問題に直面している。 最近の多くの研究は、異なる取得サイトやデータセットからプールされたマルチドメインデータを用いて、統計力を改善することを示唆している。 しかし、プライバシー保護の理由から、異なるサイトからの医療画像を簡単に共有することはできず、モデルトレーニング用の大規模なデータセットを構築することができる。 有望なソリューションとして,複数サイト間のデータ共有を必要とせず,異なるサイトのデータに基づく機械学習モデルの協調学習を可能にするフェデレーション学習が注目されている。 本稿では,医療画像解析におけるフェデレート学習手法の最近の開発について,総合的な調査を行う。 まず,医療画像におけるプライバシー保護と協調学習問題に対する連合学習の背景とモチベーションについて紹介する。 次に、医用画像解析のための連合学習手法の最近の進歩を概観する。 具体的には、クライアントエンド、サーバエンド、通信技術を含む連合学習システムの3つの重要な側面に基づいて、既存の手法を分類する。 各カテゴリにおいて、医用画像解析における特定の研究課題に応じて既存の連合学習手法を要約し、異なるアプローチのモチベーションに関する洞察を提供する。 さらに,現状の連合学習研究のための既存のベンチマーク医用画像データセットとソフトウェアプラットフォームについてレビューする。 また,医療画像解析のための典型的な連合学習法を実証的に評価する実験を行った。 この調査は、この有望な研究分野における現在の研究状況、課題、潜在的研究機会の理解を深める助けとなる。

Machine learning in medical imaging often faces a fundamental dilemma, namely the small sample size problem. Many recent studies suggest using multi-domain data pooled from different acquisition sites/datasets to improve statistical power. However, medical images from different sites cannot be easily shared to build large datasets for model training due to privacy protection reasons. As a promising solution, federated learning, which enables collaborative training of machine learning models based on data from different sites without cross-site data sharing, has attracted considerable attention recently. In this paper, we conduct a comprehensive survey of the recent development of federated learning methods in medical image analysis. We first introduce the background and motivation of federated learning for dealing with privacy protection and collaborative learning issues in medical imaging. We then present a comprehensive review of recent advances in federated learning methods for medical image analysis. Specifically, existing methods are categorized based on three critical aspects of a federated learning system, including client end, server end, and communication techniques. In each category, we summarize the existing federated learning methods according to specific research problems in medical image analysis and also provide insights into the motivations of different approaches. In addition, we provide a review of existing benchmark medical imaging datasets and software platforms for current federated learning research. We also conduct an experimental study to empirically evaluate typical federated learning methods for medical image analysis. This survey can help to better understand the current research status, challenges and potential research opportunities in this promising research field.
翻訳日:2023-06-22 01:02:28 公開日:2023-06-16
# ロボットのスキル合成に報酬を与える言語

Language to Rewards for Robotic Skill Synthesis ( http://arxiv.org/abs/2306.08647v2 )

ライセンス: Link先を確認
Wenhao Yu, Nimrod Gileadi, Chuyuan Fu, Sean Kirmani, Kuang-Huei Lee, Montse Gonzalez Arenas, Hao-Tien Lewis Chiang, Tom Erez, Leonard Hasenclever, Jan Humplik, Brian Ichter, Ted Xiao, Peng Xu, Andy Zeng, Tingnan Zhang, Nicolas Heess, Dorsa Sadigh, Jie Tan, Yuval Tassa, Fei Xia(参考訳) 大規模言語モデル(llm)は、論理的な推論からコード記述まで、コンテキスト内学習を通じて多様な新機能を獲得するという、エキサイティングな進歩を示している。 ロボティクスの研究者たちは、LLMを使ってロボット制御の能力を向上させる研究も行っている。 しかし、低レベルロボットの動作はハードウェアに依存しており、LLMトレーニングコーパスでは表現できないため、LLMをロボットに適用するための既存の取り組みは、LLMをセマンティックプランナーとして、あるいは人間工学のコントロールプリミティブに頼ってロボットと対話している。 一方、報酬関数は、多様なタスクを達成するために制御ポリシーに最適化できるフレキシブルな表現であり、その意味的な豊かさはLLMによって指定されるのに適している。 本研究では, LLMを利用して, 様々なロボットタスクを最適化し, 実現可能な報酬パラメータを定義することによって, この実現を実現する新しいパラダイムを提案する。 LLMが生成する中間インタフェースとして報酬を用いることで、高レベルの言語命令や修正のギャップを、低レベルのロボット動作に効果的に埋めることができる。 一方、リアルタイムオプティマイザであるmujoco mpcと組み合わせることで、ユーザがすぐに結果を観察し、システムへのフィードバックを提供できるインタラクティブな行動創造エクスペリエンスが実現される。 提案手法の性能を体系的に評価するために,擬似四足ロボットと擬似マニピュレータロボットのための合計17のタスクを設計した。 提案手法は設計したタスクの90%に確実に対応し,コード・アズ・ポリシシーのインターフェースとしてプリミティブ・スキルを用いたベースラインはタスクの50%を達成する。 さらに本手法を,非包括的プッシュなどの複雑な操作スキルが対話システムを通じて現れるロボットアーム上で検証した。

Large language models (LLMs) have demonstrated exciting progress in acquiring diverse new capabilities through in-context learning, ranging from logical reasoning to code-writing. Robotics researchers have also explored using LLMs to advance the capabilities of robotic control. However, since low-level robot actions are hardware-dependent and underrepresented in LLM training corpora, existing efforts in applying LLMs to robotics have largely treated LLMs as semantic planners or relied on human-engineered control primitives to interface with the robot. On the other hand, reward functions are shown to be flexible representations that can be optimized for control policies to achieve diverse tasks, while their semantic richness makes them suitable to be specified by LLMs. In this work, we introduce a new paradigm that harnesses this realization by utilizing LLMs to define reward parameters that can be optimized and accomplish variety of robotic tasks. Using reward as the intermediate interface generated by LLMs, we can effectively bridge the gap between high-level language instructions or corrections to low-level robot actions. Meanwhile, combining this with a real-time optimizer, MuJoCo MPC, empowers an interactive behavior creation experience where users can immediately observe the results and provide feedback to the system. To systematically evaluate the performance of our proposed method, we designed a total of 17 tasks for a simulated quadruped robot and a dexterous manipulator robot. We demonstrate that our proposed method reliably tackles 90% of the designed tasks, while a baseline using primitive skills as the interface with Code-as-policies achieves 50% of the tasks. We further validated our method on a real robot arm where complex manipulation skills such as non-prehensile pushing emerge through our interactive system.
翻訳日:2023-06-22 00:43:16 公開日:2023-06-16
# M3PT:POIタグのマルチモードモデル

M3PT: A Multi-Modal Model for POI Tagging ( http://arxiv.org/abs/2306.10079v1 )

ライセンス: Link先を確認
Jingsong Yang, Guanzhou Han, Deqing Yang, Jingping Liu, Yanghua Xiao, Xiang Xu, Baohua Wu, Shenghua Ni(参考訳) POIタグ付けは、関心点(POI)にいくつかの情報タグを付加することを目的としており、検索やレコメンデーションなど、POIに関連する多くのサービスを促進する。 既存のソリューションの多くはPOI画像の重要性を無視しており、POIのテキスト的特徴と視覚的特徴を融合することはめったにない。 本稿では,目的のPOIのテキスト特徴と視覚的特徴を融合させることによりPOIタグの強化を実現する,POIタグのための新しいマルチモーダルモデル,すなわちM3PTを提案する。 具体的には、まずドメイン適応型画像エンコーダ(die)を考案し、ゴールドタグのセマンティクスに沿った画像埋め込みを得る。 そして、M3PTのテキストイメージ融合モジュール(TIF)において、テキストおよび視覚表現は、後続のマッチングのためにPOIのコンテンツ埋め込みに完全に融合される。 さらに、異なるモダリティの表現間のギャップをさらに橋渡しするために、対比学習戦略を採用する。 タギングモデルの性能を評価するために,我々はali fliggyの現実のビジネスシナリオから,高品質なpoiタギングデータセットを2つ構築した。 このデータセットを用いて,一様性および多様性に対するモデルの優位性を実証し,DIE,TIF,対照的な学習戦略を含むM3PTの重要な構成要素の有効性を検証する。

POI tagging aims to annotate a point of interest (POI) with some informative tags, which facilitates many services related to POIs, including search, recommendation, and so on. Most of the existing solutions neglect the significance of POI images and seldom fuse the textual and visual features of POIs, resulting in suboptimal tagging performance. In this paper, we propose a novel Multi-Modal Model for POI Tagging, namely M3PT, which achieves enhanced POI tagging through fusing the target POI's textual and visual features, and the precise matching between the multi-modal representations. Specifically, we first devise a domain-adaptive image encoder (DIE) to obtain the image embeddings aligned to their gold tags' semantics. Then, in M3PT's text-image fusion module (TIF), the textual and visual representations are fully fused into the POIs' content embeddings for the subsequent matching. In addition, we adopt a contrastive learning strategy to further bridge the gap between the representations of different modalities. To evaluate the tagging models' performance, we have constructed two high-quality POI tagging datasets from the real-world business scenario of Ali Fliggy. Upon the datasets, we conducted the extensive experiments to demonstrate our model's advantage over the baselines of uni-modality and multi-modality, and verify the effectiveness of important components in M3PT, including DIE, TIF and the contrastive learning strategy.
翻訳日:2023-06-22 00:36:00 公開日:2023-06-16
# タッグ符号化問題に対するハイパーパラメータ調整モデルの重ね合わせ

Stacking of Hyperparameter Tuned Models for Tagging Coding Problems ( http://arxiv.org/abs/2306.10077v1 )

ライセンス: Link先を確認
Sathya Krishnan TS, S. Lakshmana Pandian and P. Shunmugapriya(参考訳) 符号化問題は、コンピュータプログラムの形で解を必要とする問題である。 コーディングの問題は、学生やプロの間で人気があり、スキルやキャリアの機会を高める。 コーディング問題を実践する人たちを助けるAIシステムは、非常に有用であり、そのようなシステムには大きな可能性がある。 本研究では,ハイパーパラメータの積み重ねによって77.8%の精度と0.815pr-aucの印象的なメトリックスコアを,codeforcesとleetcodeから抽出したデータセット上で達成するモデルを提案する。 この作業のために開発されたデータセットとモデルをオープンソースにしています。

Coding problems are problems that require a solution in the form of a computer program. Coding problems are popular among students and professionals as it enhances their skills and career opportunities. An AI system that would help those who practice coding problems would be highly useful and there is a huge potential for such a system. In this work, we propose a model which uses stacking of hyperparameter tuned boosting models to achieve impressive metric scores of 77.8% accuracy and 0.815 PR-AUC on the dataset that was scraped from Codeforces and Leetcode. We open source the dataset and the models developed for this work.
翻訳日:2023-06-22 00:35:34 公開日:2023-06-16
# ボードゲームとしての行列対角化:解への最速経路を固有解法に教える

Matrix Diagonalization as a Board Game: Teaching an Eigensolver the Fastest Path to Solution ( http://arxiv.org/abs/2306.10075v1 )

ライセンス: Link先を確認
Phil Romero, Manish Bhattarai, Christian F. A. Negre, Anders M. N. Niklasson, Adetokunbo Adedoyin(参考訳) 行列対角化は科学計算の多くの分野の基盤となっている。 固有値問題を解くために行列を対角化するためには、すべての固有値と固有ベクトルに対して十分に収束し正確な解に到達する反復の逐次経路が必要である。 これは通常、高い計算コストに変換される。 ここでは、AlphaZeroフレームワークを用いた強化学習が、ボードゲームとして最も高速な解法を選択することで、ヤコビ行列対角化を加速することを示す。 本手法の有効性を示すために,量子化学計算に現れる対称ハミルトン行列に対してジャコビ対角化アルゴリズムを適用する。 私たちは、しばしば大きな加速が達成できるということに気付きました。 本研究は,数値線形代数の性能向上のために,機械学習を有望なツールとして活用する機会を強調した。

Matrix diagonalization is at the cornerstone of numerous fields of scientific computing. Diagonalizing a matrix to solve an eigenvalue problem requires a sequential path of iterations that eventually reaches a sufficiently converged and accurate solution for all the eigenvalues and eigenvectors. This typically translates into a high computational cost. Here we demonstrate how reinforcement learning, using the AlphaZero framework, can accelerate Jacobi matrix diagonalizations by viewing the selection of the fastest path to solution as a board game. To demonstrate the viability of our approach we apply the Jacobi diagonalization algorithm to symmetric Hamiltonian matrices that appear in quantum chemistry calculations. We find that a significant acceleration can often be achieved. Our findings highlight the opportunity to use machine learning as a promising tool to improve the performance of numerical linear algebra.
翻訳日:2023-06-22 00:35:23 公開日:2023-06-16
# K'arolyh\'azyモデルの検証可能性について

On the testability of the K\'arolyh\'azy model ( http://arxiv.org/abs/2306.10094v1 )

ライセンス: Link先を確認
Laria Figurato, Angelo Bassi, Sandro Donadi(参考訳) 重力が基本的に古典的であり、空間におけるデコヒーレンスを引き起こす可能性はしばしば文献で考えられている。 この方向の最初の試みの1つは、k\'arolyh\'azyによるモデルであり、量子プローブを用いて測定を行う能力の基本的な限界と、デコヒーレンスに責任を持つ時空計量のゆらぎの存在を関連付けている。 この変動する時空と荷電粒子の相互作用により、モデルは連続的な放射を予測し、Di\'osi と Luk\'acs は放射率が実験的な観測と矛盾していることを示した。 彼のモデルを引き出す際に、k\'arolyh\'azy は時空ゆらぎが波動方程式を満たすと仮定して追加の仮説を立てることに注意する。 本稿では, この仮定を緩和し, 時空ゆらぎのより一般的な相関関数を考察し, 時空変換と時間変換の下での対称性, 時間反映のみを仮定した。 相関関数が満たさなければならない制約をk\'arolyh\'azy基本アイデアと現在の実験境界と互換性を持たせるために計算する。 この拡張k\'arolyh\'azyモデルでは、標準の自発的波動関数崩壊モデルのように、空間と時間に分解された相関関数は除外されるが、すべての関連する制約に適合する相関関数の形式が存在することを示す。

The possibility that gravity is fundamentally classical and that it induces decoherence in space has been often considered in literature. One of the first attempts in this direction is a model put forward by K\'arolyh\'azy, which relates fundamental limitation in the ability to perform a measurement using a quantum probe to the existence of fluctuations of the spacetime metric responsible for decoherence. Due to the interaction of charged particles with this fluctuating spacetime, the model predicts a continuous emission of radiation; Di\'osi and Luk\'acs showed that the radiation emission rate is in contradiction with experimental observations, hence ruling out the model. We note that, in deriving his model, K\'arolyh\'azy makes an additional hypothesis by assuming that the spacetime fluctuation satisfy a wave equation. In this paper we reconsider the model by relaxing this assumption and studying more general correlation functions of the spacetime fluctuations, only imposing symmetry under space and time translations, and time reflection. We compute the constraints the correlation function must fulfill in order to be compatible with K\'arolyh\'azy fundamental idea and with current experimental bounds. While correlation functions factorized in space and time, like those used in standard spontaneous wave function collapse models, are ruled out when employed in this extended K\'arolyh\'azy model, we show that there are forms of the correlation function which are compatible with all relevant constraints.
翻訳日:2023-06-22 00:26:15 公開日:2023-06-16
# Aeの音響的同定 スマートフォンアプリと残差畳み込みニューラルネットワークを用いたaegypti Mosquitoes

Acoustic Identification of Ae. aegypti Mosquitoes using Smartphone Apps and Residual Convolutional Neural Networks ( http://arxiv.org/abs/2306.10091v1 )

ライセンス: Link先を確認
Kayu\~a Oleques Paim and Ricardo Rohweder and Mariana Recamonde-Mendoza and Rodrigo Brand\~ao Mansilha1 and Weverton Cordeiro(参考訳) 本稿では,aedes aegypti 蚊の増殖に対する住民の意識を高めるために,スマートフォンアプリを低コストで展開しやすいソリューションとして推奨する。 しかし、このようなスマートフォンアプリを開発するのは、スマートフォンのリソースを使って捕獲できる機能に基づいて蚊を識別するために必要な成熟度レベルなど、多くの理由から難しい。 本稿では,スマートフォンアプリがAeとの戦いにおいて,効果的なツールとなるために満たさなければならない,一連の要求事項を特定する。 aegypti (複数形 aegyptis または aegyptis) i)Aeを分類するための残差畳み込みニューラルネットワーク。 ウイングビートの音で蚊を刺す (ii)分類過程における背景雑音の影響を低減する方法、及び (iii)ae検出のためのベンチマークソリューションのためのデータセット。 aegypti mosquitos from wingbeat sound recordings(英語) 正確さと記憶力の分析から,畳み込みニューラルネットワークがスマートフォンの蚊アプリ追跡の基礎となる可能性を示唆する。

In this paper, we advocate in favor of smartphone apps as low-cost, easy-to-deploy solution for raising awareness among the population on the proliferation of Aedes aegypti mosquitoes. Nevertheless, devising such a smartphone app is challenging, for many reasons, including the required maturity level of techniques for identifying mosquitoes based on features that can be captured using smartphone resources. In this paper, we identify a set of (non-exhaustive) requirements that smartphone apps must meet to become an effective tooling in the fight against Ae. aegypti, and advance the state-of-the-art with (i) a residual convolutional neural network for classifying Ae. aegypti mosquitoes from their wingbeat sound, (ii) a methodology for reducing the influence of background noise in the classification process, and (iii) a dataset for benchmarking solutions for detecting Ae. aegypti mosquitoes from wingbeat sound recordings. From the analysis of accuracy and recall, we provide evidence that convolutional neural networks have potential as a cornerstone for tracking mosquito apps for smartphones.
翻訳日:2023-06-22 00:25:44 公開日:2023-06-16
# 自動誤り訂正による音声キャプション変動の改善

Improving Audio Caption Fluency with Automatic Error Correction ( http://arxiv.org/abs/2306.10090v1 )

ライセンス: Link先を確認
Hanxue Zhang, Zeyu Xie, Xuenan Xu, Mengyue Wu, Kai Yu(参考訳) 自動音声キャプション(AAC)は,音声クリップの記述を生成することを目的とした,モーダリティ間の翻訳作業である。 しかし、前回のaacモデルによるキャプションは、訓練目的のために「false-repetition」の誤りに直面した。 このようなシナリオでは、aacエラー訂正の新たなタスクを提案し、処理後のaac出力によるエラー低減を期待する。 この問題に対処するために, 疑似文法的誤用文生成のために, 観察に基づく規則を用いて, 誤りのないキャプションを分解する。 したがって、1対の腐敗したクリーンな文がトレーニングに使用できる。 合成誤りデータセット上でニューラルネットワークベースのモデルをトレーニングし,aac出力の実誤差を補正するためにモデルを適用する。 2つのベンチマークデータセットの結果から,本手法は意味情報を維持しながら流速を著しく改善することが示された。

Automated audio captioning (AAC) is an important cross-modality translation task, aiming at generating descriptions for audio clips. However, captions generated by previous AAC models have faced ``false-repetition'' errors due to the training objective. In such scenarios, we propose a new task of AAC error correction and hope to reduce such errors by post-processing AAC outputs. To tackle this problem, we use observation-based rules to corrupt captions without errors, for pseudo grammatically-erroneous sentence generation. One pair of corrupted and clean sentences can thus be used for training. We train a neural network-based model on the synthetic error dataset and apply the model to correct real errors in AAC outputs. Results on two benchmark datasets indicate that our approach significantly improves fluency while maintaining semantic information.
翻訳日:2023-06-22 00:25:27 公開日:2023-06-16
# FABLE : ファブリック異常検出自動化プロセス

FABLE : Fabric Anomaly Detection Automation Process ( http://arxiv.org/abs/2306.10089v1 )

ライセンス: Link先を確認
Simon Thomine, Hichem Snoussi and Mahmoud Soua(参考訳) 産業における教師なしの異常は、ハイパフォーマンスな産業自動化プロセスのトピックとステップストーンである。 業界指向の手法の大半は、特定の工業シナリオがより少ない訓練を必要とするにもかかわらず、良いサンプルから学習して異常を検出することに焦点を当てている。 明らかなユースケースは布の異常検出であり、非常に幅広い色や種類の織物を扱う必要があり、訓練のための生産ラインの停止は考慮されなかった。 本稿では,ドメイン一般化異常検出における特異性学習による産業布地質欠陥検出の自動化プロセスを提案する。 一般化する能力と学習プロセスを組み合わせることで、迅速かつ正確な異常検出とセグメント化が可能になる。 本研究の主な貢献は, 最先端性能を実現するためのドメイン一般化テクスチャ異常検出法, 提案手法によって抽出された優れたサンプルに対する高速な特定訓練, カスタム欠陥生成に基づく自己評価法, 既に見られる布地の自動検出による再学習の防止である。

Unsupervised anomaly in industry has been a concerning topic and a stepping stone for high performance industrial automation process. The vast majority of industry-oriented methods focus on learning from good samples to detect anomaly notwithstanding some specific industrial scenario requiring even less specific training and therefore a generalization for anomaly detection. The obvious use case is the fabric anomaly detection, where we have to deal with a really wide range of colors and types of textile and a stoppage of the production line for training could not be considered. In this paper, we propose an automation process for industrial fabric texture defect detection with a specificity-learning process during the domain-generalized anomaly detection. Combining the ability to generalize and the learning process offer a fast and precise anomaly detection and segmentation. The main contributions of this paper are the following: A domain-generalization texture anomaly detection method achieving the state-of-the-art performances, a fast specific training on good samples extracted by the proposed method, a self-evaluation method based on custom defect creation and an automatic detection of already seen fabric to prevent re-training.
翻訳日:2023-06-22 00:25:12 公開日:2023-06-16
# activeglae:transformersを用いたディープラーニングのベンチマーク

ActiveGLAE: A Benchmark for Deep Active Learning with Transformers ( http://arxiv.org/abs/2306.10087v1 )

ライセンス: Link先を確認
Lukas Rauch, Matthias A{\ss}enmacher, Denis Huseljic, Moritz Wirth, Bernd Bischl, Bernhard Sick(参考訳) Deep Active Learning (DAL)は、モデルを最大限に学習したいインスタンスアノテーションを積極的にクエリできるようにすることで、アノテーションのコスト削減を目指している。 大規模な研究にもかかわらず、DAL分野におけるトランスフォーマーベース言語モデルの標準化された評価プロトコルは存在しない。 様々な実験的な設定は、研究の比較と実践者への勧告の導出に困難をもたらす。 この課題に取り組むため,我々は,データセットの包括的収集とdal評価のための評価ガイドラインであるactiveglaeベンチマークを提案する。 本ベンチマークは,新しい dal 戦略の評価プロセスの促進と合理化を目的としている。 さらに、変換言語モデルを用いたDALにおける現在の実践について概観する。 クエリ戦略の比較に困難をもたらす,データセットの選択,モデルトレーニング,dal設定という3つの重要な課題を特定した。 今後の成果を評価するための基準点として,幅広い実験セットを通じてベースライン結果を確立する。 本研究の成果に基づき,研究者や実践者に対するガイドラインを提供する。

Deep active learning (DAL) seeks to reduce annotation costs by enabling the model to actively query instance annotations from which it expects to learn the most. Despite extensive research, there is currently no standardized evaluation protocol for transformer-based language models in the field of DAL. Diverse experimental settings lead to difficulties in comparing research and deriving recommendations for practitioners. To tackle this challenge, we propose the ActiveGLAE benchmark, a comprehensive collection of data sets and evaluation guidelines for assessing DAL. Our benchmark aims to facilitate and streamline the evaluation process of novel DAL strategies. Additionally, we provide an extensive overview of current practice in DAL with transformer-based language models. We identify three key challenges - data set selection, model training, and DAL settings - that pose difficulties in comparing query strategies. We establish baseline results through an extensive set of experiments as a reference point for evaluating future work. Based on our findings, we provide guidelines for researchers and practitioners.
翻訳日:2023-06-22 00:24:53 公開日:2023-06-16
# 時系列順序分類のための畳み込みおよび深層学習に基づく手法

Convolutional and Deep Learning based techniques for Time Series Ordinal Classification ( http://arxiv.org/abs/2306.10084v1 )

ライセンス: Link先を確認
Rafael Ayll\'on-Gavil\'an, David Guijo-Rubio, Pedro Antonio Guti\'errez, Anthony Bagnall, C\'esar Herv\'as-Mart\'inez(参考訳) 時系列分類(TSC)は、繰り返し測定によって観測される一連の値の形式で入力データが提供される教師付き学習問題と、それらが属するカテゴリを予測することを目的としている。 クラス値が順序である場合、これを考慮した分類器は、名目上の分類器よりもうまく機能する。 時系列規則分類(TSOC)は、このギャップをカバーする分野であるが、文献では未解明である。 順序付けされたラベル構造を示す時系列問題や、順序関係を無視して有用な情報を破棄するtsc技術がある。 そこで本稿では,TSOC手法の最初のベンチマークを行い,対象ラベルの順序付けを利用して現状のTSCの性能を向上させる。 畳み込み型および深層学習に基づく方法論(名目 tsc の最良の代替品)は tsoc に適応している。 実験のために、よく知られた2つのアーカイブから18の順序問題の選択がなされた。 このようにして,本論文はTSOCにおける最先端の確立に寄与する。 順序付きバージョンによって得られた結果は,現在の名目的tsc技術よりも順序的性能指標において有意に優れていることが分かり,このような問題に対処する際にラベルの順序を考慮に入れることの重要性を概説した。

Time Series Classification (TSC) covers the supervised learning problem where input data is provided in the form of series of values observed through repeated measurements over time, and whose objective is to predict the category to which they belong. When the class values are ordinal, classifiers that take this into account can perform better than nominal classifiers. Time Series Ordinal Classification (TSOC) is the field covering this gap, yet unexplored in the literature. There are a wide range of time series problems showing an ordered label structure, and TSC techniques that ignore the order relationship discard useful information. Hence, this paper presents a first benchmarking of TSOC methodologies, exploiting the ordering of the target labels to boost the performance of current TSC state-of-the-art. Both convolutional- and deep learning-based methodologies (among the best performing alternatives for nominal TSC) are adapted for TSOC. For the experiments, a selection of 18 ordinal problems from two well-known archives has been made. In this way, this paper contributes to the establishment of the state-of-the-art in TSOC. The results obtained by ordinal versions are found to be significantly better than current nominal TSC techniques in terms of ordinal performance metrics, outlining the importance of considering the ordering of the labels when dealing with this kind of problems.
翻訳日:2023-06-22 00:24:39 公開日:2023-06-16
# 環境補正による強化学習による自動誘導経路学習

Automatic Deduction Path Learning via Reinforcement Learning with Environmental Correction ( http://arxiv.org/abs/2306.10083v1 )

ライセンス: Link先を確認
Shuai Xiao and Chen Pan and Min Wang and Xinxin Zhu and Siqiao Xue and Jing Wang and Yunhua Hu and James Zhang and Jinghua Feng(参考訳) 自動支払いはフィンテック企業における事業運営の重要な部分である。 控除の慣行は、請求書を小さな部分に分けてできるだけ控除することで、総量またはヒューリスティック探索に基づいていた。 本稿は,手動経路設計のコストを低減し,その最大化を図るための最善の推論経路(順番の推論量)を自動的に学習するエンド・ツー・エンドの手法を提案する。 具体的には、経路の広い探索空間と、歴史的に成功した推論記録の極端に広い範囲において、その動作を2段階の階層空間に抽象化する深層階層的強化学習手法を提案する。 このようにして、アクション空間は事前知識を介して構成され、探索空間は減少する。 さらに、ビジネスの継承情報の不完全性は、環境を部分的に監視可能にします。 正確に言うと、控除された金額は、利用可能な口座残高の下限を示している。 そこで我々は,この問題を部分的に観測可能なマルコフ決定問題 (POMDP) として定式化し,ビジネスの特性に基づいた環境補正アルゴリズムを用いる。 世界最大の電子決済ビジネスにおいて、この方式の有効性をオフラインで検証し、何百万人ものユーザーに提供するためにオンラインで展開した。

Automatic bill payment is an important part of business operations in fintech companies. The practice of deduction was mainly based on the total amount or heuristic search by dividing the bill into smaller parts to deduct as much as possible. This article proposes an end-to-end approach of automatically learning the optimal deduction paths (deduction amount in order), which reduces the cost of manual path design and maximizes the amount of successful deduction. Specifically, in view of the large search space of the paths and the extreme sparsity of historical successful deduction records, we propose a deep hierarchical reinforcement learning approach which abstracts the action into a two-level hierarchical space: an upper agent that determines the number of steps of deductions each day and a lower agent that decides the amount of deduction at each step. In such a way, the action space is structured via prior knowledge and the exploration space is reduced. Moreover, the inherited information incompleteness of the business makes the environment just partially observable. To be precise, the deducted amounts indicate merely the lower bounds of the available account balance. To this end, we formulate the problem as a partially observable Markov decision problem (POMDP) and employ an environment correction algorithm based on the characteristics of the business. In the world's largest electronic payment business, we have verified the effectiveness of this scheme offline and deployed it online to serve millions of users.
翻訳日:2023-06-22 00:24:19 公開日:2023-06-16
# DreamCatcher: GPT埋め込みによるfMRIによる脳の言語発見

DreamCatcher: Revealing the Language of the Brain with fMRI using GPT Embedding ( http://arxiv.org/abs/2306.10082v1 )

ライセンス: Link先を確認
Subhrasankar Chatterjee and Debasis Samanta(参考訳) 人間の脳は、画像認識やシーン要約を含む視覚処理において顕著な能力を持っている。 視覚脳の認知能力を理解するための努力は行われてきたが、基礎となるメカニズムの包括的理解はいまだに発見される必要がある。 脳のデコード技術の進歩は、認知神経科学や医療画像に影響を及ぼすfMRI-to-Image再構成のような高度なアプローチにつながっている。 しかし、グローバルコンテキストやコンテキスト情報を組み込んだfMRI画像再構成では、課題が続いている。 本稿では、fMRIデータに基づいてキャプションを生成するfMRIキャプションを提案する。 本研究はfmriキャプションのための新しいフレームワークdreamcatcherを提案する。 ドリームキャッチャーは表現空間エンコーダ(rse)と再生復号器(reembedding decoder)から構成されており、それぞれfmriベクトルを潜在空間に変換し、キャプションを生成する。 このフレームワークを可視化,データセットのトレーニング,被験者に対するテストを通じて評価し,高いパフォーマンスを示した。 fMRIベースのキャプションには、神経メカニズムの理解、ヒューマンコンピュータインタラクション、学習とトレーニングプロセスの強化など、さまざまな応用がある。

The human brain possesses remarkable abilities in visual processing, including image recognition and scene summarization. Efforts have been made to understand the cognitive capacities of the visual brain, but a comprehensive understanding of the underlying mechanisms still needs to be discovered. Advancements in brain decoding techniques have led to sophisticated approaches like fMRI-to-Image reconstruction, which has implications for cognitive neuroscience and medical imaging. However, challenges persist in fMRI-to-image reconstruction, such as incorporating global context and contextual information. In this article, we propose fMRI captioning, where captions are generated based on fMRI data to gain insight into the neural correlates of visual perception. This research presents DreamCatcher, a novel framework for fMRI captioning. DreamCatcher consists of the Representation Space Encoder (RSE) and the RevEmbedding Decoder, which transform fMRI vectors into a latent space and generate captions, respectively. We evaluated the framework through visualization, dataset training, and testing on subjects, demonstrating strong performance. fMRI-based captioning has diverse applications, including understanding neural mechanisms, Human-Computer Interaction, and enhancing learning and training processes.
翻訳日:2023-06-22 00:23:55 公開日:2023-06-16
# Optimizerの情報基準: データ駆動最適化におけるバイアスの分離と修正

Optimizer's Information Criterion: Dissecting and Correcting Bias in Data-Driven Optimization ( http://arxiv.org/abs/2306.10081v1 )

ライセンス: Link先を確認
Garud Iyengar, Henry Lam, Tianyu Wang(参考訳) データ駆動最適化では、得られた決定のサンプル性能は通常、オプティマイザの呪いとして知られる現象である真の性能に対する楽観的なバイアスを伴い、機械学習における過剰フィットと密接に関連している。 クロスバリデーションのようなこのバイアスを修正する一般的な手法は、追加の最適化問題を繰り返し解決する必要があるため、計算コストがかかる。 我々はOIC(Optimizer's Information Criterion)と呼ばれる一般的なバイアス補正手法を開発し、一階偏差を直接近似し、追加の最適化問題を解く必要がない。 oicは、データ駆動最適化における客観的性能を評価するために、有名な赤宅情報基準を一般化し、モデル適合性だけでなく下流最適化との相互作用も重要としている。 そのため、モデル選択のみではなく、意思決定に使用できる。 我々は,実験モデルとパラメトリックモデル,正規化モデル,さらに文脈最適化を含む,データ駆動型最適化定式化にアプローチを適用する。 最後に、合成および実世界のデータセット下でのアプローチの優れた性能に関する数値検証を行う。

In data-driven optimization, the sample performance of the obtained decision typically incurs an optimistic bias against the true performance, a phenomenon commonly known as the Optimizer's Curse and intimately related to overfitting in machine learning. Common techniques to correct this bias, such as cross-validation, require repeatedly solving additional optimization problems and are therefore computationally expensive. We develop a general bias correction approach, building on what we call Optimizer's Information Criterion (OIC), that directly approximates the first-order bias and does not require solving any additional optimization problems. Our OIC generalizes the celebrated Akaike Information Criterion to evaluate the objective performance in data-driven optimization, which crucially involves not only model fitting but also its interplay with the downstream optimization. As such it can be used for decision selection instead of only model selection. We apply our approach to a range of data-driven optimization formulations comprising empirical and parametric models, their regularized counterparts, and furthermore contextual optimization. Finally, we provide numerical validation on the superior performance of our approach under synthetic and real-world datasets.
翻訳日:2023-06-22 00:23:34 公開日:2023-06-16
# AIによるリアルタイム位置推定手法の可能性とロバスト性の検討

AI Driven Near Real-time Locational Marginal Pricing Method: A Feasibility and Robustness Study ( http://arxiv.org/abs/2306.10080v1 )

ライセンス: Link先を確認
Naga Venkata Sai Jitin Jami, Juraj Kardo\v{s}, Olaf Schenk and Harald K\"ostler(参考訳) 市場参加者にとって価格の正確な予測は、運用スケジュールや入札戦略を最適化するために不可欠である。 ロケーション・マージナル・プライシング (Locational Marginal Pricing, LMP) は、多くの現代の電力市場において、従来の手法では最適電力フロー (OPF) ソルバを用いている。 しかし、大規模な電力網では、このプロセスは極めて時間がかかり、計算集約的になる。 機械学習ソリューションは、特に再生可能エネルギーのような断続的なソースを持つエネルギー市場において、LMP予測のための効率的なツールを提供する可能性がある。 本研究は、複数の電力網上のLMP予測において、一般的な機械学習モデルとディープラーニングモデルの性能を評価する。 複数のシナリオを考慮したLMP予測におけるモデルの精度とロバスト性を評価する。 その結果、機械学習モデルは従来のOPFソルバよりも5~6倍高速でLMP 4-5オーダーを予測でき、現代のHPCクラスタにおけるマルチコアCPUやGPUといったハードウェアソリューションの助けを借りて、LMP予測における機械学習モデルの可能性を強調した。

Accurate price predictions are essential for market participants in order to optimize their operational schedules and bidding strategies, especially in the current context where electricity prices become more volatile and less predictable using classical approaches. Locational Marginal Pricing (LMP) pricing mechanism is used in many modern power markets, where the traditional approach utilizes optimal power flow (OPF) solvers. However, for large electricity grids this process becomes prohibitively time-consuming and computationally intensive. Machine learning solutions could provide an efficient tool for LMP prediction, especially in energy markets with intermittent sources like renewable energy. The study evaluates the performance of popular machine learning and deep learning models in predicting LMP on multiple electricity grids. The accuracy and robustness of these models in predicting LMP is assessed considering multiple scenarios. The results show that machine learning models can predict LMP 4-5 orders of magnitude faster than traditional OPF solvers with 5-6\% error rate, highlighting the potential of machine learning models in LMP prediction for large-scale power models with the help of hardware solutions like multi-core CPUs and GPUs in modern HPC clusters.
翻訳日:2023-06-22 00:23:16 公開日:2023-06-16
# マルチスケールクラス表現応答類似性解析によるスケール変換型アテンション・コンデンサdnnの系統設計

Systematic Architectural Design of Scale Transformed Attention Condenser DNNs via Multi-Scale Class Representational Response Similarity Analysis ( http://arxiv.org/abs/2306.10128v1 )

ライセンス: Link先を確認
Andre Hryniowski, Alexander Wong(参考訳) 自己注意機構は、効率パフォーマンスのバランスを改善するために、畳み込みニューラルネットワークに一般的に含まれる。 しかし、自己アテンション機構を追加することで、手元のアプリケーションに合わせて調整するハイパーパラメータが追加される。 本研究では,より効率的な自己意図的畳み込みニューラルネットワークアーキテクチャを実現するための設計介入を特定するために,マルチスケールクラス表現応答類似性分析(ClassRepSim)と呼ばれる新しいタイプのDNN分析を提案する。 クラスRepSimの詳細な知見を用いて,新しいアテンションコンデンサに基づく自己注意モジュールである空間変換アテンションコンデンサ(STAC)モジュールを提案する。 我々は、ResNetスタイルのアーキテクチャにSTACモジュールを追加すると、バニラのResNetモデルと比較して最大1.6%、ImageNet64x64データセットのSENetモデルと比較して最大0.5%、FLOPの最大1.7%、パラメータの2倍の精度でトップ1の精度が向上することを示した。 さらに,クラスRepSim解析の結果を用いてSTACモジュールの効果的なパラメータ化を選択することで,広範囲なパラメータ探索と比較して競合性能が向上することを示した。

Self-attention mechanisms are commonly included in a convolutional neural networks to achieve an improved efficiency performance balance. However, adding self-attention mechanisms adds additional hyperparameters to tune for the application at hand. In this work we propose a novel type of DNN analysis called Multi-Scale Class Representational Response Similarity Analysis (ClassRepSim) which can be used to identify specific design interventions that lead to more efficient self-attention convolutional neural network architectures. Using insights grained from ClassRepSim we propose the Spatial Transformed Attention Condenser (STAC) module, a novel attention-condenser based self-attention module. We show that adding STAC modules to ResNet style architectures can result in up to a 1.6% increase in top-1 accuracy compared to vanilla ResNet models and up to a 0.5% increase in top-1 accuracy compared to SENet models on the ImageNet64x64 dataset, at the cost of up to 1.7% increase in FLOPs and 2x the number of parameters. In addition, we demonstrate that results from ClassRepSim analysis can be used to select an effective parameterization of the STAC module resulting in competitive performance compared to an extensive parameter search.
翻訳日:2023-06-22 00:16:03 公開日:2023-06-16
# 時系列分析のための自己監督型学習:分類学、進歩、展望

Self-Supervised Learning for Time Series Analysis: Taxonomy, Progress, and Prospects ( http://arxiv.org/abs/2306.10125v1 )

ライセンス: Link先を確認
Kexin Zhang, Qingsong Wen, Chaoli Zhang, Rongyao Cai, Ming Jin, Yong Liu, James Zhang, Yuxuan Liang, Guansong Pang, Dongjin Song, Shirui Pan(参考訳) 自己教師付き学習(SSL)は、最近、様々な時系列タスクで素晴らしいパフォーマンスを達成した。 SSLの最も重要な利点は、ラベル付きデータへの依存を減らすことである。 事前トレーニングと微調整の戦略に基づいて、少量のラベル付きデータでも高いパフォーマンスを達成できる。 コンピュータビジョンと自然言語処理に関する多くの自己監督調査と比較すると、時系列sslに関する包括的な調査はまだ欠落している。 このギャップを埋めるため、本稿では、時系列データに対する現在のsslメソッドについて検討する。 この目的のために、SSLと時系列に関する既存の調査を総合的にレビューし、既存の時系列SSLメソッドの新しい分類法を提供する。 これらの手法を生成ベース,コントラストベース,敵ベースという3つのカテゴリにまとめる。 すべてのメソッドは、さらに10のサブカテゴリに分けられる。 また,時系列SSL手法の実験と検証を容易にするため,時系列予測,分類,異常検出,クラスタリングタスクでよく使用されるデータセットを要約する。 最後に,時系列解析におけるSSLの今後の方向性を示す。

Self-supervised learning (SSL) has recently achieved impressive performance on various time series tasks. The most prominent advantage of SSL is that it reduces the dependence on labeled data. Based on the pre-training and fine-tuning strategy, even a small amount of labeled data can achieve high performance. Compared with many published self-supervised surveys on computer vision and natural language processing, a comprehensive survey for time series SSL is still missing. To fill this gap, we review current state-of-the-art SSL methods for time series data in this article. To this end, we first comprehensively review existing surveys related to SSL and time series, and then provide a new taxonomy of existing time series SSL methods. We summarize these methods into three categories: generative-based, contrastive-based, and adversarial-based. All methods can be further divided into ten subcategories. To facilitate the experiments and validation of time series SSL methods, we also summarize datasets commonly used in time series forecasting, classification, anomaly detection, and clustering tasks. Finally, we present the future directions of SSL for time series analysis.
翻訳日:2023-06-22 00:15:39 公開日:2023-06-16
# 二重ノードとエッジフェアネス対応グラフ分割

Dual Node and Edge Fairness-Aware Graph Partition ( http://arxiv.org/abs/2306.10123v1 )

ライセンス: Link先を確認
Tingwei Liu, Peizhao Li, and Hongfu Liu(参考訳) ソーシャルネットワークの公平なグラフ分割は、教師なしユーザー分析における公平かつ非差別的な扱いを保証するための重要なステップである。 現在のフェアパーティショニング手法では、ノードバランス(node balance)は、すべての人口集団からの比例バランスのノード数を追求する概念であるが、各クラスタ内の不均衡エッジによって引き起こされるバイアスを無視する。 このギャップに対処するために,クラスタ内の異なる人口集団をつなぐエッジの割合を測定するために,エッジバランスという概念を提案する。 ノードバランスとエッジバランスの関係を分析し,線グラフ変換を用いてグラフ分割のための二重ノードおよびエッジフェアネス認識表現を学習するための共埋め込みフレームワークを提案する。 いくつかのソーシャルネットワークデータセットを通じてフレームワークを検証し、ノードとエッジの両面でバランスの取れたパーティションを、優れたユーティリティとともに観察する。 さらに,グラフニューラルネットワークがノード分類やリンク予測タスクで適切に振る舞うように,擬似ラベルとしてフェアパーティションを使用できることを示す。

Fair graph partition of social networks is a crucial step toward ensuring fair and non-discriminatory treatments in unsupervised user analysis. Current fair partition methods typically consider node balance, a notion pursuing a proportionally balanced number of nodes from all demographic groups, but ignore the bias induced by imbalanced edges in each cluster. To address this gap, we propose a notion edge balance to measure the proportion of edges connecting different demographic groups in clusters. We analyze the relations between node balance and edge balance, then with line graph transformations, we propose a co-embedding framework to learn dual node and edge fairness-aware representations for graph partition. We validate our framework through several social network datasets and observe balanced partition in terms of both nodes and edges along with good utility. Moreover, we demonstrate our fair partition can be used as pseudo labels to facilitate graph neural networks to behave fairly in node classification and link prediction tasks.
翻訳日:2023-06-22 00:15:24 公開日:2023-06-16
# ロングテール動的シーングラフ生成のためのマルチラベルメタ重み付け

Multi-Label Meta Weighting for Long-Tailed Dynamic Scene Graph Generation ( http://arxiv.org/abs/2306.10122v1 )

ライセンス: Link先を確認
Shuo Chen, Yingjun Du, Pascal Mettes, Cees G.M. Snoek(参考訳) 本稿では,ビデオにおけるシーングラフ生成の問題点を,対象と対象のセマンティックな関係を$\langle$subject, predicate, object$\rangle$三重項で表現することを目的として検討する。 対象対と対象対の述語を認識することは自然界において不均衡であり、空間的関係 (\eg \emph{in front of}) のようなユビキタスな相互作用から \emph{twisting} のような稀な相互作用まで様々である。 Action GenomeやVidORのような広く使われているベンチマークでは、最も頻繁な述語と最も頻繁な述語の間の不均衡比はそれぞれ3,218と3,408に達し、ロングテール認識用に特別に設計されたベンチマークでさえ上回っている。 長い尾の分布とラベルの共起のため、最近の最先端の手法は主に最も頻繁に発生する述語クラスに焦点を合わせ、長い尾にあるものを無視している。 本稿では,映像中のシーングラフ生成における現在のアプローチの限界を分析し,述語頻度とリコール性能の1対1対応を同定する。 ビデオにおける偏りのないシーングラフ生成への一歩を踏み出すために,偏りのある述語分布を扱うためのマルチラベルメタラーニングフレームワークを提案する。 当社のメタ学習フレームワークは,可能なすべてのラベル損失に対して,トレーニングサンプル毎にメタ重み付きネットワークを学習します。 我々は,各ベンチマークに対して,現在の2つの手法に基づいて,Action Genome と VidOR ベンチマークに対するアプローチを評価する。 実験により,多ラベルメタウェイトネットワークは,ヘッドクラスの性能を損なうことなく,長い尾の述語の性能を向上し,全体的な性能が向上し,一般化性が良好であることが示された。 コード: \url{https://github.com/shanshuo/ML-MWN}。

This paper investigates the problem of scene graph generation in videos with the aim of capturing semantic relations between subjects and objects in the form of $\langle$subject, predicate, object$\rangle$ triplets. Recognizing the predicate between subject and object pairs is imbalanced and multi-label in nature, ranging from ubiquitous interactions such as spatial relationships (\eg \emph{in front of}) to rare interactions such as \emph{twisting}. In widely-used benchmarks such as Action Genome and VidOR, the imbalance ratio between the most and least frequent predicates reaches 3,218 and 3,408, respectively, surpassing even benchmarks specifically designed for long-tailed recognition. Due to the long-tailed distributions and label co-occurrences, recent state-of-the-art methods predominantly focus on the most frequently occurring predicate classes, ignoring those in the long tail. In this paper, we analyze the limitations of current approaches for scene graph generation in videos and identify a one-to-one correspondence between predicate frequency and recall performance. To make the step towards unbiased scene graph generation in videos, we introduce a multi-label meta-learning framework to deal with the biased predicate distribution. Our meta-learning framework learns a meta-weight network for each training sample over all possible label losses. We evaluate our approach on the Action Genome and VidOR benchmarks by building upon two current state-of-the-art methods for each benchmark. The experiments demonstrate that the multi-label meta-weight network improves the performance for predicates in the long tail without compromising performance for head classes, resulting in better overall performance and favorable generalizability. Code: \url{https://github.com/shanshuo/ML-MWN}.
翻訳日:2023-06-22 00:15:07 公開日:2023-06-16
# ai手法と作物シミュレーションモデルを用いた収量予測のための総合的モデリング手法

A Comprehensive Modeling Approach for Crop Yield Forecasts using AI-based Methods and Crop Simulation Models ( http://arxiv.org/abs/2306.10121v1 )

ライセンス: Link先を確認
Renato Luiz de Freitas Cunha, Bruno Silva, Priscilla Barreira Avegliano(参考訳) 収量推定のための多くのソリューションは、データ駆動モデルまたは作物シミュレーションモデル(CSM)に基づいている。 研究者は、USDAなどの機関が提供する全国的な作物情報データベースを使用して、データ駆動モデルを構築する傾向がある。 スペクトルの反対側では、CSMはいくつかのフィールドから一般化するのが難しいような細かいデータを必要とする。 本稿では,データ駆動型ソリューション,作物シミュレーションモデル,モデルサロゲートを組み合わせて,作物管理意思決定における複数のユーザプロファイルとニーズをサポートする,収率予測のための包括的アプローチを提案する。 この目的を達成するために,大規模にcsmを校正する手法,高速実行を実現するcsmのサロゲートモデル,そのような環境で効率的なリスク評価を行うニューラルネットワークベースのアプローチを開発した。 データ駆動型モデリングアプローチは,収率相関予測を91\%に近いものよりも優れています。 農作物シミュレーション・モデリング・アーキテクチャは6%の誤差を達成し、提案する農作物シミュレーション・モデルは、同じ精度で採用されている農作物シミュレータの約100倍の速度で予測を行う。

Numerous solutions for yield estimation are either based on data-driven models, or on crop-simulation models (CSMs). Researchers tend to build data-driven models using nationwide crop information databases provided by agencies such as the USDA. On the opposite side of the spectrum, CSMs require fine data that may be hard to generalize from a handful of fields. In this paper, we propose a comprehensive approach for yield forecasting that combines data-driven solutions, crop simulation models, and model surrogates to support multiple user-profiles and needs when dealing with crop management decision-making. To achieve this goal, we have developed a solution to calibrate CSMs at scale, a surrogate model of a CSM assuring faster execution, and a neural network-based approach that performs efficient risk assessment in such settings. Our data-driven modeling approach outperforms previous works with yield correlation predictions close to 91\%. The crop simulation modeling architecture achieved 6% error; the proposed crop simulation model surrogate performs predictions almost 100 times faster than the adopted crop simulator with similar accuracy levels.
翻訳日:2023-06-22 00:14:31 公開日:2023-06-16
# 絡み合った二成分系に関するヤングの実験--基礎となる量子速度場の役割

Young's experiment with entangled bipartite systems: The role of underlying quantum velocity fields ( http://arxiv.org/abs/2306.10104v1 )

ライセンス: Link先を確認
A. S. Sanz(参考訳) ここでは、局所速度場の概念を用いて、2つの空間的に分離されたサブシステム、特にヤングの2つのスリットな実験のバイパーティイト実現におけるエンタングルメントの動的効果を研究する。 この分析では、単一スリット回折状態はガウス波パケットで表され、より一般的な2次元分解可能かつ絡み合った状態を構成する基礎として用いられる。 物理的には、これらの状態は、干渉(およびその抑制)が起こる横方向のダイナミクスを記述する。 これにより、連続可変ベル型最大絡み合い状態によって示される力学を、因子化可能な2スリット状態(つまり位置表現における猫型状態)によって示される挙動と比較する。 分離可能なシナリオにおける各粒子に関連する速度場はよく定義され、各座標上で別々に作用するが、絡み合った場合、この挙動を防止する強い変形がある。 これにより、当初は同じ部分空間に関連付けられた粒子が徐々に移動し、拡張された2次元空間をさまよう挙動を示す。 したがって、各粒子部分空間内で干渉特性を洗い流すだけでなく、よく知られたボームの非交差則に違反することが明らかとなり、異なる粒子軌道が同時に同じ点を通過するように見える(そのような部分空間の場合)。 したがって、この挙動は古典的視点から期待するものと一致する: 1つのスリットを去る軌道は、もう1つのスリットを去る軌道によって示されるダイナミクスを知らない。

The Bohmian concept of local velocity field is used here to investigate the dynamical effects of entanglement in experiments involving two spatially separated subsystems, in particular, in bipartite realizations of Young's two-slit experiment. In this analysis, single-slit diffraction states are represented by Gaussian wave packets, used here as the basis to construct more general two-party factorizable and entangled states. Physically, these states describe the dynamics along the transverse direction, where interference (and its suppression) take place. The dynamics exhibited by a continuous-variable Bell-type maximally entangled state is thus investigated and compared to the behavior exhibited by factorizable two-slit states (i.e., cat-type states in the position representation). It is found that, while the velocity fields associated with each particle in the separable scenario are well defined and act separately on each coordinate, in the entangled case there is a strong deformation that prevents this behavior. This provokes that particles initially associated with the same subspace gradually move away from it, displaying a wandering behavior across the extended two-dimensional space. Consequently, not only interference features are washed out within the respective particle subspaces, but also the well-known Bohmian non-crossing rule is apparently violated, as different particle trajectories seem to get across the same point at the same time (within such subspaces). This behavior thus coincides with what one might expect from a classical point of view: the trajectories leaving one slit are unaware of the dynamics displayed by the trajectories leaving the other slit, and vice versa.
翻訳日:2023-06-22 00:14:12 公開日:2023-06-16
# クロスタスク一般化のための微分インストラクション最適化

Differentiable Instruction Optimization for Cross-Task Generalization ( http://arxiv.org/abs/2306.10098v1 )

ライセンス: Link先を確認
Masaru Isonuma, Junichiro Mori, Ichiro Sakata(参考訳) インストラクションチューニングは様々なタスクにまたがる一般化能力を達成するために多くの注目を集めている。 様々な命令が手動で作成されているが、クロスタスクの一般化能力を得るのにどのような命令が最適かはいまだ不明である。 本研究は、一般化能力に関するトレーニング命令を最適化する命令最適化を提案する。 命令を手動でチューニングする代わりに,学習可能な命令を導入し,二段階最適化を用いて勾配降下を最適化する。 実験の結果、学習した命令は命令の多様性を高め、手作りの命令のみを使うよりも一般化能力を向上させることがわかった。

Instruction tuning has been attracting much attention to achieve generalization ability across a wide variety of tasks. Although various types of instructions have been manually created for instruction tuning, it is still unclear what kind of instruction is optimal to obtain cross-task generalization ability. This work presents instruction optimization, which optimizes training instructions with respect to generalization ability. Rather than manually tuning instructions, we introduce learnable instructions and optimize them with gradient descent by leveraging bilevel optimization. Experimental results show that the learned instruction enhances the diversity of instructions and improves the generalization ability compared to using only manually created instructions.
翻訳日:2023-06-22 00:13:43 公開日:2023-06-16
# 低音源言語における音声合成のための多言語データセットCML-TTS

CML-TTS A Multilingual Dataset for Speech Synthesis in Low-Resource Languages ( http://arxiv.org/abs/2306.10097v1 )

ライセンス: Link先を確認
Frederico S. Oliveira, Edresson Casanova, Arnaldo C\^andido J\'unior, Anderson S. Soares, and Arlindo R. Galv\~ao Filho(参考訳) 本稿では,連邦大学ゴイアス校(UFG)の人工知能センター(CEIA)で開発された新しいテキスト音声データセットであるCML-Multi-Lingual-TTSの帰納的頭字語であるCML-TTSを提案する。 CML-TTSはMultilingual LibriSpeech (MLS)をベースとし、オランダ語、フランス語、ドイツ語、イタリア語、ポルトガル語、ポーランド語、スペイン語のオーディオブックからなるTSSモデルの訓練に適応している。 さらに、CML-TTSから3,176.13時間、LibriTTSから245.07時間でトレーニングされた多言語TSモデルであるYourTTSモデルを提供する。 このデータセットを作成する目的は、多言語モデルのTS領域に新たな研究可能性を開くことである。 データセットはCC-BY 4.0ライセンス1で公開されている。

In this paper, we present CML-TTS, a recursive acronym for CML-Multi-Lingual-TTS, a new Text-to-Speech (TTS) dataset developed at the Center of Excellence in Artificial Intelligence (CEIA) of the Federal University of Goias (UFG). CML-TTS is based on Multilingual LibriSpeech (MLS) and adapted for training TTS models, consisting of audiobooks in seven languages: Dutch, French, German, Italian, Portuguese, Polish, and Spanish. Additionally, we provide the YourTTS model, a multi-lingual TTS model, trained using 3,176.13 hours from CML-TTS and also with 245.07 hours from LibriTTS, in English. Our purpose in creating this dataset is to open up new research possibilities in the TTS area for multi-lingual models. The dataset is publicly available under the CC-BY 4.0 license1.
翻訳日:2023-06-22 00:13:34 公開日:2023-06-16
# Recursive Cutting-Planesによる凸最適化のためのメモリ制約アルゴリズム

Memory-Constrained Algorithms for Convex Optimization via Recursive Cutting-Planes ( http://arxiv.org/abs/2306.10096v1 )

ライセンス: Link先を確認
Mo\"ise Blanchard, Junhui Zhang, Patrick Jaillet(参考訳) 本論文では,一階の凸最適化にも使用可能な制約付きメモリを用いた再帰的切削平面アルゴリズムのファミリーを提案する。 正確には、半径 $\epsilon$ のボール内の点を見つけるために、次元 $d$ の分離オラクルを持つか、単位球上の 1$-Lipschitz 凸関数を最小化するために $\epsilon$ -- アルゴリズムは、$\mathcal O(\frac{d^2}{p}\ln \frac{1}{\epsilon})$ ビットメモリを使用し、$\mathcal O((C\frac{d}{p}\ln \frac{1}{\epsilon})^p)$ oracle コール、ある普遍定数 $C \geq 1$ に対して$ oracle コールする。 このファミリーは$p\in[d]$でパラメータ化され、サブポリノマルレジーム$\ln\frac{1}{\epsilon}\gg\ln d$でoracle-complexity/memoryのトレードオフを提供する。 いくつかの研究が低いバウンドのトレードオフ(具体的結果)を与えたが、ここでは $\ln\frac{1}{\epsilon}$ への依存を明示し、これらがどんなサブポリノミカルな体制でも成り立つことを示しており、私たちの知る限り、これは $\epsilon\leq 1/\sqrt d$ を持つ任意のレシエーションにおける勾配降下法と切断平面法の間の正のトレードオフを提供するアルゴリズムの第一級である。 アルゴリズムは$d$変数を$p$ブロックに分割し、Vaidyaの方法の変種を用いて近似分離ベクトルを構築し、ブロックを順次最適化する。 規則 $\epsilon \leq d^{-\Omega(d)}$ では、$p=d$ のアルゴリズムは情報理論の最適メモリ利用を実現し、勾配降下のオラクル-複雑度を改善する。

We propose a family of recursive cutting-plane algorithms to solve feasibility problems with constrained memory, which can also be used for first-order convex optimization. Precisely, in order to find a point within a ball of radius $\epsilon$ with a separation oracle in dimension $d$ -- or to minimize $1$-Lipschitz convex functions to accuracy $\epsilon$ over the unit ball -- our algorithms use $\mathcal O(\frac{d^2}{p}\ln \frac{1}{\epsilon})$ bits of memory, and make $\mathcal O((C\frac{d}{p}\ln \frac{1}{\epsilon})^p)$ oracle calls, for some universal constant $C \geq 1$. The family is parametrized by $p\in[d]$ and provides an oracle-complexity/memory trade-off in the sub-polynomial regime $\ln\frac{1}{\epsilon}\gg\ln d$. While several works gave lower-bound trade-offs (impossibility results) -- we explicit here their dependence with $\ln\frac{1}{\epsilon}$, showing that these also hold in any sub-polynomial regime -- to the best of our knowledge this is the first class of algorithms that provides a positive trade-off between gradient descent and cutting-plane methods in any regime with $\epsilon\leq 1/\sqrt d$. The algorithms divide the $d$ variables into $p$ blocks and optimize over blocks sequentially, with approximate separation vectors constructed using a variant of Vaidya's method. In the regime $\epsilon \leq d^{-\Omega(d)}$, our algorithm with $p=d$ achieves the information-theoretic optimal memory usage and improves the oracle-complexity of gradient descent.
翻訳日:2023-06-22 00:13:13 公開日:2023-06-16
# AD-AutoGPT:アルツハイマー病情報疫学のための自律型GPT

AD-AutoGPT: An Autonomous GPT for Alzheimer's Disease Infodemiology ( http://arxiv.org/abs/2306.10095v1 )

ライセンス: Link先を確認
Haixing Dai, Yiwei Li, Zhengliang Liu, Lin Zhao, Zihao Wu, Suhang Song, Ye Shen, Dajiang Zhu, Xiang Li, Sheng Li, Xiaobai Yao, Lu Shi, Quanzheng Li, Zhuo Chen, Donglan Zhang, Gengchen Mai, Tianming Liu(参考訳) 本研究は,gpt-4大言語モデルに基づく最先端のオープンソースアプリケーションであるautogptに着想を得て,アルツハイマー病の複雑な健康状況に関するデータ収集,処理,分析をユーザのテキスト的プロンプトを通じて自律的に行う,ad-autogptと呼ばれる新しいツールを開発した。 2022年6月からは,アルツハイマー協会,BBC,メイヨー・クリニック,国立老化研究所など,さまざまなニュースソースからの包括的データを照合し,頑健な傾向分析,対流距離図の可視化,アルツハイマー病に関連する有能な用語の同定を自律的に実施した。 このアプローチは、関連する談話の量的指標だけでなく、アルツハイマー病に対する大衆の関心に対する貴重な洞察を生み出した。 この公衆衛生へのad-autogptの適用は、アルツハイマー病のような複雑な健康物語を自律的な方法でデータ豊富な理解を促進することにおける、aiの変革可能性を意味し、グローバルな健康分野における将来のaiによる調査の土台となる。

In this pioneering study, inspired by AutoGPT, the state-of-the-art open-source application based on the GPT-4 large language model, we develop a novel tool called AD-AutoGPT which can conduct data collection, processing, and analysis about complex health narratives of Alzheimer's Disease in an autonomous manner via users' textual prompts. We collated comprehensive data from a variety of news sources, including the Alzheimer's Association, BBC, Mayo Clinic, and the National Institute on Aging since June 2022, leading to the autonomous execution of robust trend analyses, intertopic distance maps visualization, and identification of salient terms pertinent to Alzheimer's Disease. This approach has yielded not only a quantifiable metric of relevant discourse but also valuable insights into public focus on Alzheimer's Disease. This application of AD-AutoGPT in public health signifies the transformative potential of AI in facilitating a data-rich understanding of complex health narratives like Alzheimer's Disease in an autonomous manner, setting the groundwork for future AI-driven investigations in global health landscapes.
翻訳日:2023-06-22 00:12:26 公開日:2023-06-16
# 確率ベクトルの順序と教師なし性能推定について

On Orderings of Probability Vectors and Unsupervised Performance Estimation ( http://arxiv.org/abs/2306.10160v1 )

ライセンス: Link先を確認
Muhammad Maaz, Rui Qiao, Yiheng Zhou, Renxian Zhang(参考訳) 教師なしのパフォーマンス推定やラベルなしデータでのモデルのパフォーマンス評価は難しい作業です。 最近,gargらによって手法が提案されている。 [2022] 従来の方法よりずっとうまく機能します。 彼らの方法は、分類器が出力した確率ベクトルを実数にマッピングするために、ある特性を満たすスコア関数を持つことに依存しているが、スコア関数が最良であるオープン問題である。 まず,これらの手法が,このスコア関数によって誘導される順序に依存することを示す。 したがって、スコア関数の単調変換の下では、それらの方法は同じ推定値が得られる。 次に、二項分類設定において、ほぼすべての共通スコア関数、例えば$L^\infty$ノルム、$L^2$ノルム、負エントロピー、および$L^2$、$L^1$およびJensen-Shannon距離は、すべて確率ベクトル上で同じ順序を導くことを示す。 しかし、これは高次元の設定には当てはまらない。 我々は、よく知られたNLPデータセットに関する多数の実験を行い、異なるスコア関数の性能を精査する。 我々は、$l^\infty$ノルムが最も適切であると結論する。

Unsupervised performance estimation, or evaluating how well models perform on unlabeled data is a difficult task. Recently, a method was proposed by Garg et al. [2022] which performs much better than previous methods. Their method relies on having a score function, satisfying certain properties, to map probability vectors outputted by the classifier to the reals, but it is an open problem which score function is best. We explore this problem by first showing that their method fundamentally relies on the ordering induced by this score function. Thus, under monotone transformations of score functions, their method yields the same estimate. Next, we show that in the binary classification setting, nearly all common score functions - the $L^\infty$ norm; the $L^2$ norm; negative entropy; and the $L^2$, $L^1$, and Jensen-Shannon distances to the uniform vector - all induce the same ordering over probability vectors. However, this does not hold for higher dimensional settings. We conduct numerous experiments on well-known NLP data sets and rigorously explore the performance of different score functions. We conclude that the $L^\infty$ norm is the most appropriate.
翻訳日:2023-06-22 00:07:06 公開日:2023-06-16
# 視覚言語モデルは自然映像からドライバーの注意をそらす行動を識別する

Vision-Language Models can Identify Distracted Driver Behavior from Naturalistic Videos ( http://arxiv.org/abs/2306.10159v1 )

ライセンス: Link先を確認
Md Zahid Hasan, Jiajing Chen, Jiyang Wang, Ameya Joshi, Senem Velipasalar, Chinmay Hegde, Anuj Sharma, Soumik Sarkar(参考訳) 現実の運転シナリオにおける行動を認識し、注意をそらすことは、道路上のドライバーと歩行者の両方の安全と信頼性を確保するために重要である。 従来のコンピュータビジョン技術は通常、データ集約的であり、様々な注意をそらす運転行動を検出し分類するために大量の注釈付きトレーニングデータを必要とするため、その効率とスケーラビリティは制限される。 我々は,限定的あるいは無注釈のトレーニングデータにアクセスして,堅牢なパフォーマンスを示す汎用フレームワークの開発を目指している。 近年,視覚言語モデルでは,運転行動認識などのタスク固有の学習に適応可能な大規模視覚テキスト事前学習が提供されている。 CLIPのような視覚言語事前学習モデルは、自然言語による視覚表現の学習において大きな可能性を示している。 本稿では,自然主義的な運転映像と映像からドライバの注意をそらすクリップベースの運転行動認識手法を提案する。 CLIPのビジョン埋め込みはゼロショット転送とタスクベースの微調整を提供する。 その結果,このフレームワークは,ゼロショット転送における最先端のパフォーマンスと,2つの公開データセット上でのドライバの状態を予測するビデオベースのクリップを提供する。 本稿では,CLIPの視覚表現をベースとしたフレームベースとビデオベースの両方のフレームワークを提案する。

Recognizing the activities, causing distraction, in real-world driving scenarios is critical for ensuring the safety and reliability of both drivers and pedestrians on the roadways. Conventional computer vision techniques are typically data-intensive and require a large volume of annotated training data to detect and classify various distracted driving behaviors, thereby limiting their efficiency and scalability. We aim to develop a generalized framework that showcases robust performance with access to limited or no annotated training data. Recently, vision-language models have offered large-scale visual-textual pretraining that can be adapted to task-specific learning like distracted driving activity recognition. Vision-language pretraining models, such as CLIP, have shown significant promise in learning natural language-guided visual representations. This paper proposes a CLIP-based driver activity recognition approach that identifies driver distraction from naturalistic driving images and videos. CLIP's vision embedding offers zero-shot transfer and task-based finetuning, which can classify distracted activities from driving video data. Our results show that this framework offers state-of-the-art performance on zero-shot transfer and video-based CLIP for predicting the driver's state on two public datasets. We propose both frame-based and video-based frameworks developed on top of the CLIP's visual representation for distracted driving detection and classification task and report the results.
翻訳日:2023-06-22 00:06:43 公開日:2023-06-16
# ネットワークにおける学習強化型分散オンライン凸最適化

Learning-Augmented Decentralized Online Convex Optimization in Networks ( http://arxiv.org/abs/2306.10158v1 )

ライセンス: Link先を確認
Pengfei Li, Jianyi Yang, Adam Wierman, Shaolei Ren(参考訳) 本稿では,ネットワーク型マルチエージェントシステムにおける分散オンライン凸最適化について検討し,各エージェントがローカルオンライン情報のみに基づいて行動を選択するための新しいアルゴリズムであるLADOを提案する。 LADOは、ベースラインポリシーを活用して、最悪の場合の堅牢性を保証するためにオンラインアクションを保護しつつ、平均的なパフォーマンス改善のためにマシンラーニング(ML)ポリシーに近づいたままにしている。 集中型設定にフォーカスした既存の学習型オンラインアルゴリズムとは対照的に、ladoは分散環境で強い堅牢性を保証する。 また、LADOの平均コストを実証し、平均性能と最悪の場合のロバスト性の間のトレードオフを明らかにし、ロバスト性要件を明示的に考慮してMLポリシーをトレーニングする利点を示す。

This paper studies decentralized online convex optimization in a networked multi-agent system and proposes a novel algorithm, Learning-Augmented Decentralized Online optimization (LADO), for individual agents to select actions only based on local online information. LADO leverages a baseline policy to safeguard online actions for worst-case robustness guarantees, while staying close to the machine learning (ML) policy for average performance improvement. In stark contrast with the existing learning-augmented online algorithms that focus on centralized settings, LADO achieves strong robustness guarantees in a decentralized setting. We also prove the average cost bound for LADO, revealing the tradeoff between average performance and worst-case robustness and demonstrating the advantage of training the ML policy by explicitly considering the robustness requirement.
翻訳日:2023-06-22 00:06:19 公開日:2023-06-16
# wasserstein barycentersによるマルチタスク学習の公平性

Fairness in Multi-Task Learning via Wasserstein Barycenters ( http://arxiv.org/abs/2306.10155v1 )

ライセンス: Link先を確認
Fran\c{c}ois Hu, Philipp Ratz, Arthur Charpentier(参考訳) アルゴリズムフェアネスは、データのバイアスを減らすことを目的とした機械学習の確立された分野である。 近年の進歩は、単一タスクの非バイアス化を目標とする単変量環境における公平性を確保するための様々な方法が提案されている。 しかし、複数の目的が共有表現を用いて最適化されるマルチタスク設定への公平性の拡張は、未探索のままである。 このギャップを埋めるために,多元系wasserstein barycentersを用いて, \textit{strong demographic parity} の定義をマルチタスク学習に拡張する手法を開発した。 提案手法は回帰および二項分類タスクを含む最適フェアマルチタスク予測器に対する閉形式解を提供する。 本研究では,データ駆動型解推定手法を開発し,合成データと実データの両方について数値実験を行う。 実験結果は, 公平な意思決定を促進する上で, 処理後方法論の実際的価値を浮き彫りにするものである。

Algorithmic Fairness is an established field in machine learning that aims to reduce biases in data. Recent advances have proposed various methods to ensure fairness in a univariate environment, where the goal is to de-bias a single task. However, extending fairness to a multi-task setting, where more than one objective is optimised using a shared representation, remains underexplored. To bridge this gap, we develop a method that extends the definition of \textit{Strong Demographic Parity} to multi-task learning using multi-marginal Wasserstein barycenters. Our approach provides a closed form solution for the optimal fair multi-task predictor including both regression and binary classification tasks. We develop a data-driven estimation procedure for the solution and run numerical experiments on both synthetic and real datasets. The empirical results highlight the practical value of our post-processing methodology in promoting fair decision-making.
翻訳日:2023-06-22 00:06:04 公開日:2023-06-16
# データ拡張と一貫性学習による半教師付き関係抽出

Semi-supervised Relation Extraction via Data Augmentation and Consistency-training ( http://arxiv.org/abs/2306.10153v1 )

ライセンス: Link先を確認
Komal K. Teru(参考訳) 関係抽出(re)タスクの意味的複雑さのため、高品質なラベル付きデータを得るのは高価でうるさいプロセスである。 モデルのサンプル効率を改善するために、半教師付き学習(SSL)法はラベル付きデータポイントの限られた学習に加えて、未ラベルのデータを活用することを目的としている。 近年,一貫性に基づく半教師付き学習手法と組み合わさった強力なデータ拡張が,SSLタスクにおける最先端技術である。 しかし、これらのメソッドをREタスクに適用することは、REのためのデータ拡張の難しさのために困難である。 本研究では、制御されたテキスト生成の最近の進歩を活用し、REタスクの高品質なデータ拡張を行う。 さらに,潜在空間内の異なるデータポイントを補間することにより,より多くのトレーニングデータの生成を可能にするモデルアーキテクチャの変更も導入した。 これらのデータ拡張と整合性トレーニングは、4つのベンチマークデータセット上の半教師付き関係抽出に対して非常に競争力のある結果をもたらす。

Due to the semantic complexity of the Relation extraction (RE) task, obtaining high-quality human labelled data is an expensive and noisy process. To improve the sample efficiency of the models, semi-supervised learning (SSL) methods aim to leverage unlabelled data in addition to learning from limited labelled data points. Recently, strong data augmentation combined with consistency-based semi-supervised learning methods have advanced the state of the art in several SSL tasks. However, adapting these methods to the RE task has been challenging due to the difficulty of data augmentation for RE. In this work, we leverage the recent advances in controlled text generation to perform high quality data augmentation for the RE task. We further introduce small but significant changes to model architecture that allows for generation of more training data by interpolating different data points in their latent space. These data augmentations along with consistency training result in very competitive results for semi-supervised relation extraction on four benchmark datasets.
翻訳日:2023-06-22 00:05:49 公開日:2023-06-16
# 雑音データから行列プロファイルを計算する

Calculating the matrix profile from noisy data ( http://arxiv.org/abs/2306.10151v1 )

ライセンス: Link先を確認
Colin Hehir and Alan F. Smeaton(参考訳) 行列プロファイル(英: matrix profile、MP)は、時系列から計算されたデータ構造であり、繰り返しパターンと外れ値に対応するモチーフと不一致を見つけるために必要なデータを符号化する。 時系列がノイズの多いデータを含む場合、従来の手法ではノイズを取り除くために事前フィルタリングを行うが、パターンや外れ値がアノテートされていない教師なしの設定では適用できない。 ノイズの多いデータに直面したMPを生成するアルゴリズムのレジリエンスは未だ不明である。 同一データから生成されたMPと同一データから生成されたMPとの類似度を、重複の追加や無関係データの追加を含むパラメータ設定の範囲で測定する。 我々は、これらの実験のために様々な領域から抽出された3つの実世界のデータセットを用いて、MP間の相違に基づき、MP生成は、データに少量のノイズがもたらされるのに対して、回復力があることを示唆する。

The matrix profile (MP) is a data structure computed from a time series which encodes the data required to locate motifs and discords, corresponding to recurring patterns and outliers respectively. When the time series contains noisy data then the conventional approach is to pre-filter it in order to remove noise but this cannot apply in unsupervised settings where patterns and outliers are not annotated. The resilience of the algorithm used to generate the MP when faced with noisy data remains unknown. We measure the similarities between the MP from original time series data with MPs generated from the same data with noisy data added under a range of parameter settings including adding duplicates and adding irrelevant data. We use three real world data sets drawn from diverse domains for these experiments Based on dissimilarities between the MPs, our results suggest that MP generation is resilient to a small amount of noise being introduced into the data but as the amount of noise increases this resilience disappears
翻訳日:2023-06-22 00:05:27 公開日:2023-06-16
# その他の無罪・無罪・無罪:レバノンにおけるマルギナライズド人口の治安の確保

Othered, Silenced and Scapegoated: Understanding the Situated Security of Marginalised Populations in Lebanon ( http://arxiv.org/abs/2306.10149v1 )

ライセンス: Link先を確認
Jessica McClearn, Rikke Bjerg Jensen, Reem Talhouk(参考訳) 本稿では,レバノンにおけるLGBTQI+による住民,難民,女性を識別する疎外化人口のデジタルセキュリティ経験について検討する。 紛争後のレバノンの状況は、宗派の分裂、統治の失敗、経済崩壊によって形作られています。 我々は2022年7月にレバノンのベイルートで行われた民族誌学的にインフォームドされた調査と、レバノンのデジタルと人権の専門知識を持つ13人のインタビューを通じて実施している。 我々の研究は、レバノン政府の失敗に対してLGBTQI+がいかに人々と難民を識別するかを強調し、そのような失敗に反対する女性は沈黙している。 我々は、これらの集団に政治指導者からの非難を移すことを目的とした、政府支援による暴力の扇動が、既にリスクの高い人口に対するデジタルセキュリティのリスクを増幅させる方法を示している。 セキュリティに関する幅広い社会学的理解において我々の仕事を位置づけ、レバノンのコンテキストがアイデンティティとオントロジなセキュリティにどのように影響するかについて議論する。 我々は、紛争後の設定において、ポジティブなセキュリティを持つ設計を提案することで締めくくります。

In this paper we explore the digital security experiences of marginalised populations in Lebanon such as LGBTQI+ identifying people, refugees and women. We situate our work in the post-conflict Lebanese context, which is shaped by sectarian divides, failing governance and economic collapse. We do so through an ethnographically informed study conducted in Beirut, Lebanon, in July 2022 and through interviews with 13 people with Lebanese digital and human rights expertise. Our research highlights how LGBTQI+ identifying people and refugees are scapegoated for the failings of the Lebanese government, while women who speak out against such failings are silenced. We show how government-supported incitements of violence aimed at transferring blame from the political leadership to these groups lead to amplified digital security risks for already at-risk populations. Positioning our work in broader sociological understandings of security, we discuss how the Lebanese context impacts identity and ontological security. We conclude by proposing to design for and with positive security in post-conflict settings.
翻訳日:2023-06-22 00:04:57 公開日:2023-06-16
# マルチモーダル事前学習によるマルチタスク3Dビルディング理解

Multi-task 3D building understanding with multi-modal pretraining ( http://arxiv.org/abs/2306.10146v1 )

ライセンス: Link先を確認
Shicheng Xu(参考訳) 本稿では,ビルディングネットデータセットにおける3次元ビルディング型分類と部分分割の学習戦略について検討する。 PointNeXtとPointNeXtのセグメンテーションによるULIPは、BuildingNetデータセットの分類とセグメンテーションタスクのために拡張される。 マルチモーダル事前訓練による最良のマルチタスク PointNeXt-s モデルは、3Dビルディングタイプ分類の総合的精度59.36、バリデーション分割の3Dビルディング部分分割の31.68 PartIoU を達成する。 最後のpointnext xlモデルは、ビルディングネット-ポイントセグメンテーションのテストスプリットにおいて31.33 partiouと22.78 shapeiouを達成し、ビルディングネットの論文で報告されたpointnet++モデルよりも大幅に改善され、cvpr23 struco3dワークショップのビルディングネットチャレンジで1位を獲得した。

This paper explores various learning strategies for 3D building type classification and part segmentation on the BuildingNet dataset. ULIP with PointNeXt and PointNeXt segmentation are extended for the classification and segmentation task on BuildingNet dataset. The best multi-task PointNeXt-s model with multi-modal pretraining achieves 59.36 overall accuracy for 3D building type classification, and 31.68 PartIoU for 3D building part segmentation on validation split. The final PointNeXt XL model achieves 31.33 PartIoU and 22.78 ShapeIoU on test split for BuildingNet-Points segmentation, which significantly improved over PointNet++ model reported from BuildingNet paper, and it won the 1st place in the BuildingNet challenge at CVPR23 StruCo3D workshop.
翻訳日:2023-06-22 00:04:21 公開日:2023-06-16
# ソース作成によるビジュアルドメイン適応の強化

Enhancing Visual Domain Adaptation with Source Preparation ( http://arxiv.org/abs/2306.10142v1 )

ライセンス: Link先を確認
Anirudha Ramesh, Anurag Ghosh, Christoph Mertz, Jeff Schneider(参考訳) 低照度シナリオのような様々な領域におけるロボットの知覚は、熱画像や特殊な夜間視覚センサーといった新しいモダリティがますます採用されているが、依然として課題である。 主に、ラベル付きデータの可用性が限られているためである。 既存のドメイン適応(DA)技術は、既存の明るいRGBイメージのラベルを活用することを約束しているが、ソースドメイン自体の特性を考慮できない。 我々は、ソース領域のバイアスを軽減する方法である source prepared (sp) を提案することで、この因子を確率的に説明します。 我々のほぼ非教師付きドメイン適応(AUDA)フレームワークは、限られたラベル付きデータから、ロボットシナリオのためのラベル効率のよい半教師付きアプローチである -employs Source Preparation(SP)、Unsupervised Domain Adaptation(UDA)、Supervised Alignment(SA)。 高感度カメラと低照度設定におけるセマンティックセグメンテーションとオブジェクト検出のためのインテンシファイアカメラから取得した時間的整列画像ペアからなる新しいデータセットであるCityIntensifiedを紹介する。 セマンティックセグメンテーションにおける本手法の有効性を実証し、SPはベースライン上のmIoUで最大40.64%改善し、ターゲットドメイン内の実世界のシフトに対してより堅牢なターゲットモデルを実現するとともに、様々な視覚領域にわたるUDAを強化することを示した。 AUDA は効果的な DA のためのラベル効率のよいフレームワークであり,対象ドメインからのラベル付きサンプルが数十個しかないことで,対象ドメインの性能を大幅に向上することを示す。

Robotic Perception in diverse domains such as low-light scenarios, where new modalities like thermal imaging and specialized night-vision sensors are increasingly employed, remains a challenge. Largely, this is due to the limited availability of labeled data. Existing Domain Adaptation (DA) techniques, while promising to leverage labels from existing well-lit RGB images, fail to consider the characteristics of the source domain itself. We holistically account for this factor by proposing Source Preparation (SP), a method to mitigate source domain biases. Our Almost Unsupervised Domain Adaptation (AUDA) framework, a label-efficient semi-supervised approach for robotic scenarios -- employs Source Preparation (SP), Unsupervised Domain Adaptation (UDA) and Supervised Alignment (SA) from limited labeled data. We introduce CityIntensified, a novel dataset comprising temporally aligned image pairs captured from a high-sensitivity camera and an intensifier camera for semantic segmentation and object detection in low-light settings. We demonstrate the effectiveness of our method in semantic segmentation, with experiments showing that SP enhances UDA across a range of visual domains, with improvements up to 40.64% in mIoU over baseline, while making target models more robust to real-world shifts within the target domain. We show that AUDA is a label-efficient framework for effective DA, significantly improving target domain performance with only tens of labeled samples from the target domain.
翻訳日:2023-06-22 00:03:56 公開日:2023-06-16
# 帯域制限されたマルチエージェント通信のための動的サイズメッセージスケジューリング

Dynamic Size Message Scheduling for Multi-Agent Communication under Limited Bandwidth ( http://arxiv.org/abs/2306.10134v1 )

ライセンス: Link先を確認
Qingshuang Sun, Denis Steckelmacher, Yuan Yao, Ann Now\'e, Rapha\"el Avalos(参考訳) コミュニケーションはマルチエージェントシステムにおいて重要な役割を担い、協調と協調を促進する。 しかし、通信が帯域幅に制限されている現実のシナリオでは、既存のマルチエージェント強化学習(MARL)アルゴリズムはエージェントに2進選択を与えることが多い。 この制限は、利用可能な帯域幅を効果的に活用する能力を妨げる。 この課題を克服するために,動的サイズメッセージスケジューリング(DSMS)手法を提案する。 我々の貢献は、フーリエ変換に基づく圧縮技術を用いて、メッセージサイズを適応的に調整することであり、エージェントは、情報損失と伝送効率のバランスを保ちながら、割り当てられた帯域幅に合わせてメッセージを調整できる。 受信エージェントは、逆フーリエ変換を用いてメッセージを確実に分解することができる。 実験の結果,dsmは帯域幅の利用を最適化し,情報価値の効果的なバランスをとることにより,マルチエージェント協調作業の性能を大幅に向上させることがわかった。

Communication plays a vital role in multi-agent systems, fostering collaboration and coordination. However, in real-world scenarios where communication is bandwidth-limited, existing multi-agent reinforcement learning (MARL) algorithms often provide agents with a binary choice: either transmitting a fixed number of bytes or no information at all. This limitation hinders the ability to effectively utilize the available bandwidth. To overcome this challenge, we present the Dynamic Size Message Scheduling (DSMS) method, which introduces a finer-grained approach to scheduling by considering the actual size of the information to be exchanged. Our contribution lies in adaptively adjusting message sizes using Fourier transform-based compression techniques, enabling agents to tailor their messages to match the allocated bandwidth while striking a balance between information loss and transmission efficiency. Receiving agents can reliably decompress the messages using the inverse Fourier transform. Experimental results demonstrate that DSMS significantly improves performance in multi-agent cooperative tasks by optimizing the utilization of bandwidth and effectively balancing information value.
翻訳日:2023-06-22 00:03:27 公開日:2023-06-16
# モデル更新の文脈における破滅的忘れ

Catastrophic Forgetting in the Context of Model Updates ( http://arxiv.org/abs/2306.10181v1 )

ライセンス: Link先を確認
Rich Harang, Hillary Sanders(参考訳) ディープラーニングモデルを実際にデプロイする上での大きな障害は、デプロイ後のモデル(理想的には頻繁に)を更新するプロセスです。 ディープニューラルネットワークは、トレーニングに数千ドルかかる可能性がある。 新しいデータがパイプラインに入ると、既存のすべてのデータに対して、スクラッチ(ランダムに初期化重み付け)から新しいモデルをトレーニングできます。 代わりに、既存のモデルと微調整(トレーニングの継続)を新しいデータで行うことができます。 前者は費用がかかり、遅い。 後者は安価で高速だが、大惨事は一般的に、新しいモデルが古いデータを適切に分類する方法を「忘れる」ことになる。 モデルが過去の学習を忘れないようにするための複雑なテクニックはたくさんあります。 おそらく最も基本的なのは、微調整中に少量の過去のデータを新しいデータに混ぜることである。 本稿では,過去のデータ(あるいはタスク)の一部へのアクセスを維持できれば,データリハーサルは全期間にわたって総合的精度の点で理想的であり,弾性重み強化(EWC)のような手法と組み合わせれば,さらに優れたパフォーマンスが得られると結論付ける。 特に過去のデータ(past 'tasks')が新しいデータに比べて大きい場合、既存のモデルをスクラッチからトレーニングするよりも、既存のモデルを更新するコストがはるかに安く、より速くなります。

A large obstacle to deploying deep learning models in practice is the process of updating models post-deployment (ideally, frequently). Deep neural networks can cost many thousands of dollars to train. When new data comes in the pipeline, you can train a new model from scratch (randomly initialized weights) on all existing data. Instead, you can take an existing model and fine-tune (continue to train) it on new data. The former is costly and slow. The latter is cheap and fast, but catastrophic forgetting generally causes the new model to 'forget' how to classify older data well. There are a plethora of complicated techniques to keep models from forgetting their past learnings. Arguably the most basic is to mix in a small amount of past data into the new data during fine-tuning: also known as 'data rehearsal'. In this paper, we compare various methods of limiting catastrophic forgetting and conclude that if you can maintain access to a portion of your past data (or tasks), data rehearsal is ideal in terms of overall accuracy across all time periods, and performs even better when combined with methods like Elastic Weight Consolidation (EWC). Especially when the amount of past data (past 'tasks') is large compared to new data, the cost of updating an existing model is far cheaper and faster than training a new model from scratch.
翻訳日:2023-06-21 23:56:00 公開日:2023-06-16
# サンプルベース追跡

Samplet basis pursuit ( http://arxiv.org/abs/2306.10180v1 )

ライセンス: Link先を確認
Davide Baroli, Michael Multerer, and Helmut Harbrecht(参考訳) 我々は,l1-regularizationによるサンプル座標のカーネルベース学習を検討する。 l1正規化項の適用は、サンプル基底に関して係数のスパーシティを強制する。 したがって、このアプローチをサンプルベース追跡と呼ぶ。 サンプルはウェーブレット型の符号付き測度で、散布したデータに合わせて調整される。 ローカライズ、マルチレゾリューション分析、データ圧縮といった点でウェーブレットと似た特性を持つ。 サンプルベースでスパース的に表現できる信号のクラスは、シングルスケールベースでスパース表現を示す信号のクラスよりもかなり大きい。 特に、標準的特徴写像のいくつかの特徴の重ね合わせによって表現できる全ての信号は、サンプル座標においてもスパースである。 ソフト収縮と半平滑ニュートン法を組み合わせることで検討中の問題の効率的な解法を提案し, 高速反復収縮しきい値化アルゴリズムとの比較を行った。 本稿では,複数のカーネルの辞書を用いて,ノイズデータからの表面復元や温度データの再構成を行うための数値ベンチマークを行う。

We consider kernel-based learning in samplet coordinates with l1-regularization. The application of an l1-regularization term enforces sparsity of the coefficients with respect to the samplet basis. Therefore, we call this approach samplet basis pursuit. Samplets are wavelet-type signed measures, which are tailored to scattered data. They provide similar properties as wavelets in terms of localization, multiresolution analysis, and data compression. The class of signals that can sparsely be represented in a samplet basis is considerably larger than the class of signals which exhibit a sparse representation in the single-scale basis. In particular, every signal that can be represented by the superposition of only a few features of the canonical feature map is also sparse in samplet coordinates. We propose the efficient solution of the problem under consideration by combining soft-shrinkage with the semi-smooth Newton method and compare the approach to the fast iterative shrinkage thresholding algorithm. We present numerical benchmarks as well as applications to surface reconstruction from noisy data and to the reconstruction of temperature data using a dictionary of multiple kernels.
翻訳日:2023-06-21 23:55:37 公開日:2023-06-16
# 豪華なミニフィニッションモデル

Magnificent Minified Models ( http://arxiv.org/abs/2306.10177v1 )

ライセンス: Link先を確認
Rich Harang and Hillary Sanders(参考訳) 本論文は、大規模なニューラルネットワークを学習し、パラメータやニューロン全体を削除して「圧縮」し、結果として得られるモデルの精度を最小限に抑えるという課題を自覚する。 パラメータとニューロン選択の様々な方法を比較する:ドロップアウトベースニューロン損傷推定、ニューロンのマージ、絶対値ベース選択、ランダム選択、OBD(Optimal Brain damage)。 また,obd-sdと呼ばれるプルーニング法を用いて,他のパラメータやニューロン選択法をわずかに上回っていた従来のobd法のバリエーションを比較した。 これらの手法をパラメータの量子化と比較する。 また、これらのテクニック(すべてトレーニングされたニューラルネットワークに適用)と、さまざまなプルーニングアーキテクチャ上でスクラッチ(ランダム重量初期化)からトレーニングされたニューラルネットワークを比較する。 パラメータの微調整は、ランダムに初期化された重みで、スクラッチから同様の刈り取ったモデルを再トレーニングするよりもわずかに良いのです。 ニューロンレベルのプルーニングでは、スクラッチから再トレーニングすることが実験で非常に有効でした。

This paper concerns itself with the task of taking a large trained neural network and 'compressing' it to be smaller by deleting parameters or entire neurons, with minimal decreases in the resulting model accuracy. We compare various methods of parameter and neuron selection: dropout-based neuron damage estimation, neuron merging, absolute-value based selection, random selection, OBD (Optimal Brain Damage). We also compare a variation on the classic OBD method that slightly outperformed all other parameter and neuron selection methods in our tests with substantial pruning, which we call OBD-SD. We compare these methods against quantization of parameters. We also compare these techniques (all applied to a trained neural network), with neural networks trained from scratch (random weight initialization) on various pruned architectures. Our results are only barely consistent with the Lottery Ticket Hypothesis, in that fine-tuning a parameter-pruned model does slightly better than retraining a similarly pruned model from scratch with randomly initialized weights. For neuron-level pruning, retraining from scratch did much better in our experiments.
翻訳日:2023-06-21 23:55:23 公開日:2023-06-16
# 強化学習におけるブートストラップ表現

Bootstrapped Representations in Reinforcement Learning ( http://arxiv.org/abs/2306.10171v1 )

ライセンス: Link先を確認
Charline Le Lan, Stephen Tu, Mark Rowland, Anna Harutyunyan, Rishabh Agarwal, Marc G. Bellemare, Will Dabney(参考訳) 強化学習(RL)では、状態表現は大きな状態空間や連続状態空間を扱うための鍵となる。 ディープラーニングアルゴリズムの約束の1つは、解決しようとするタスクのために適切に調整された機能を自動的に構築することであるが、深層RLエージェントのエンドツーエンドトレーニングからそのような表現が現れることはないかもしれない。 この問題を軽減するために、補助的な目的はしばしば学習プロセスに組み込まれ、学習状態の表現を形成するのに役立ちます。 ブートストラップメソッドは、これらの追加の予測を行うための今日の選択方法です。 しかし、これらのアルゴリズムがどの特徴を捉え、他の補助タスクベースのアプローチとどのように関連しているのかは不明だ。 本稿では,このギャップに対処し,時間差学習によって学習される状態表現の理論的特徴付けを行う(sutton,1988)。 驚くべきことに、この表現は、政策評価設定における環境のほとんどの遷移構造についてモンテカルロと残留勾配アルゴリズムによって学習された特徴とは異なる。 政策評価におけるこれらの表現の有効性を説明し,理論解析を用いて新しい補助学習ルールを設計する。 我々は,四室ドメイン (sutton et al, 1999) やマウンテンカー (moore, 1990) といった古典的領域における異なる累積関数に対する学習規則を実証的に比較し,理論結果を補完する。

In reinforcement learning (RL), state representations are key to dealing with large or continuous state spaces. While one of the promises of deep learning algorithms is to automatically construct features well-tuned for the task they try to solve, such a representation might not emerge from end-to-end training of deep RL agents. To mitigate this issue, auxiliary objectives are often incorporated into the learning process and help shape the learnt state representation. Bootstrapping methods are today's method of choice to make these additional predictions. Yet, it is unclear which features these algorithms capture and how they relate to those from other auxiliary-task-based approaches. In this paper, we address this gap and provide a theoretical characterization of the state representation learnt by temporal difference learning (Sutton, 1988). Surprisingly, we find that this representation differs from the features learned by Monte Carlo and residual gradient algorithms for most transition structures of the environment in the policy evaluation setting. We describe the efficacy of these representations for policy evaluation, and use our theoretical analysis to design new auxiliary learning rules. We complement our theoretical results with an empirical comparison of these learning rules for different cumulant functions on classic domains such as the four-room domain (Sutton et al, 1999) and Mountain Car (Moore, 1990).
翻訳日:2023-06-21 23:55:03 公開日:2023-06-16
# ビデオ中の名前付きインスタンスを見つけるメタパーソナライズ視覚言語モデル

Meta-Personalizing Vision-Language Models to Find Named Instances in Video ( http://arxiv.org/abs/2306.10169v1 )

ライセンス: Link先を確認
Chun-Hsiao Yeh, Bryan Russell, Josef Sivic, Fabian Caba Heilbron, Simon Jenni(参考訳) 大規模視覚言語モデル (VLM) は、言語誘導検索アプリケーションにおいて印象的な結果を示している。 これらのモデルではカテゴリレベルのクエリが可能ですが、現在、‘My Dog Biscuit’のような特定のオブジェクトインスタンスが現れるビデオ内のモーメントのパーソナライズされた検索に苦労しています。 この問題に対処するための貢献は以下の3つである。 まず、事前に訓練されたVLMをメタパーソナライズする方法、すなわちビデオ検索のテスト時にVLMをパーソナライズする方法を学ぶ方法について述べる。 本手法は,各インスタンス固有の新しい単語埋め込みを学習することで,VLMのトークン語彙を拡張する。 インスタンス固有の機能のみをキャプチャするため、各インスタンスを共有および学習したグローバルカテゴリ機能の組み合わせとして組み込む。 第2に,このようなパーソナライズを明示的な人間の監督なしに学ぶことを提案する。 提案手法は,VLMの埋め込み空間における文字起こしと視覚言語的類似性を用いて,ビデオ中の名前付きビジュアルインスタンスのモーメントを自動的に識別する。 最後に,パーソナルビデオインスタンス検索ベンチマークであるthis-is-myを紹介する。 我々は,This-Is-MyとDeepFashion2に対するアプローチを評価し,後者のデータセット上でのアートの状態を15%改善したことを示す。

Large-scale vision-language models (VLM) have shown impressive results for language-guided search applications. While these models allow category-level queries, they currently struggle with personalized searches for moments in a video where a specific object instance such as ``My dog Biscuit'' appears. We present the following three contributions to address this problem. First, we describe a method to meta-personalize a pre-trained VLM, i.e., learning how to learn to personalize a VLM at test time to search in video. Our method extends the VLM's token vocabulary by learning novel word embeddings specific to each instance. To capture only instance-specific features, we represent each instance embedding as a combination of shared and learned global category features. Second, we propose to learn such personalization without explicit human supervision. Our approach automatically identifies moments of named visual instances in video using transcripts and vision-language similarity in the VLM's embedding space. Finally, we introduce This-Is-My, a personal video instance retrieval benchmark. We evaluate our approach on This-Is-My and DeepFashion2 and show that we obtain a 15% relative improvement over the state of the art on the latter dataset.
翻訳日:2023-06-21 23:54:41 公開日:2023-06-16
# beyond geometry: 神経回路における計算の時間構造と動的類似性解析の比較

Beyond Geometry: Comparing the Temporal Structure of Computation in Neural Circuits with Dynamical Similarity Analysis ( http://arxiv.org/abs/2306.10168v1 )

ライセンス: Link先を確認
Mitchell Ostrow, Adam Eisen, Leo Kozachkov, Ila Fiete(参考訳) 2つのニューラルネットワークが、特定の計算に同じ内部プロセスを使用しているかどうかをどうやって判断できるのか? この問題は、ニューロAI、機械的解釈可能性、脳と機械のインターフェイスを含む、神経科学と機械学習の両方の複数のサブフィールドに関係している。 ニューラルネットワークの比較のための標準的アプローチは、潜在状態の空間幾何学に焦点を当てている。 しかし、リカレントネットワークでは、計算は神経動力学のレベルで実装され、幾何学と単純な1対1のマッピングを持っていない。 このギャップを埋めるために、2つの系をダイナミクスのレベルで比較する新しい類似度メトリックを導入する。 データ駆動力学系理論の最近の進歩を利用して、元の非線形力学の中核的特徴を正確に捉える高次元線形系を学習する。 次に、ベクトル場が直交変換の下でどのように変化するかを考慮した新たなプロクルス解析の拡張を通して、これらの線形近似を比較する。 4つのケーススタディを通じて,本手法はリカレントニューラルネットワーク(rnn)の動的構造を効果的に識別し識別するが,幾何学的手法は不足することを示した。 また,本手法では教師なしの学習ルールを識別できることを示した。 そこで本手法は,ニューラルネットワークの時間構造をデータ駆動で解析し,RNNを脳のモデルとしてより厳密なテストを行うための扉を開く。

How can we tell whether two neural networks are utilizing the same internal processes for a particular computation? This question is pertinent for multiple subfields of both neuroscience and machine learning, including neuroAI, mechanistic interpretability, and brain-machine interfaces. Standard approaches for comparing neural networks focus on the spatial geometry of latent states. Yet in recurrent networks, computations are implemented at the level of neural dynamics, which do not have a simple one-to-one mapping with geometry. To bridge this gap, we introduce a novel similarity metric that compares two systems at the level of their dynamics. Our method incorporates two components: Using recent advances in data-driven dynamical systems theory, we learn a high-dimensional linear system that accurately captures core features of the original nonlinear dynamics. Next, we compare these linear approximations via a novel extension of Procrustes Analysis that accounts for how vector fields change under orthogonal transformation. Via four case studies, we demonstrate that our method effectively identifies and distinguishes dynamic structure in recurrent neural networks (RNNs), whereas geometric methods fall short. We additionally show that our method can distinguish learning rules in an unsupervised manner. Our method therefore opens the door to novel data-driven analyses of the temporal structure of neural computation, and to more rigorous testing of RNNs as models of the brain.
翻訳日:2023-06-21 23:54:21 公開日:2023-06-16
# 伝達シェープ値を用いた微調整大言語モデルのデータ選択

Data Selection for Fine-tuning Large Language Models Using Transferred Shapley Values ( http://arxiv.org/abs/2306.10165v1 )

ライセンス: Link先を確認
Stephanie Schoch, Ritwick Mishra, Yangfeng Ji(参考訳) Shapleyの値は、有害なトレーニングインスタンスを特定するのに非常に効果的であることが示されているが、データセットのサイズとモデルの複雑さの制約は、Shapleyベースのデータバリュエーションを大規模なトレーニング済み言語モデルに微調整する能力を制限する。 そこで我々は,Shapleyに基づくデータ評価の計算コストを削減するアルゴリズムTS-DShapleyを提案する。 1)トレーニングセット全体の評価のためにサブセットから計算したシャプリー値を集約する効率的なサンプリングベース手法 2)対象言語モデルからの表現を用いて訓練された単純な分類器から抽出した値情報を利用する値伝達手法。 ベンチマーク自然言語理解(NLU)データセットを用いた細調整BERT言語モデルのためのデータ選択にTS-DShapleyを適用した実験により,TS-DShapleyが既存のデータ選択法より優れていることが示された。 さらに、TS-DShapleyは、完全な微調整データセットによるトレーニングと比較して、微調整データをフィルタリングして言語モデルのパフォーマンスを向上させることができる。

Although Shapley values have been shown to be highly effective for identifying harmful training instances, dataset size and model complexity constraints limit the ability to apply Shapley-based data valuation to fine-tuning large pre-trained language models. To address this, we propose TS-DShapley, an algorithm that reduces computational cost of Shapley-based data valuation through: 1) an efficient sampling-based method that aggregates Shapley values computed from subsets for valuation of the entire training set, and 2) a value transfer method that leverages value information extracted from a simple classifier trained using representations from the target language model. Our experiments applying TS-DShapley to select data for fine-tuning BERT-based language models on benchmark natural language understanding (NLU) datasets show that TS-DShapley outperforms existing data selection methods. Further, TS-DShapley can filter fine-tuning data to increase language model performance compared to training with the full fine-tuning dataset.
翻訳日:2023-06-21 23:53:57 公開日:2023-06-16
# 多変量時系列予測のためのウェーブレット分解による多重解像度深層アーキテクチャ

MultiWave: Multiresolution Deep Architectures through Wavelet Decomposition for Multivariate Time Series Prediction ( http://arxiv.org/abs/2306.10164v1 )

ライセンス: Link先を確認
Iman Deznabi, Madalina Fiterau(参考訳) 多変量時系列データの解析は、短い時間と長い時間の両方で発生する様々な信号変化の頻度のために困難である。 さらに、標準的なディープラーニングモデルは、信号が通常異なるレートでサンプリングされるため、このようなデータセットには適さないことが多い。 これらの問題に対処するため,MultiWaveは,信号の固有周波数で動作するコンポーネントを組み込むことで,ディープラーニング時系列モデルを強化する新しいフレームワークである。 MultiWaveはウェーブレットを使用して、各信号を様々な周波数のサブサインに分解し、それらを周波数帯域に分類する。 各周波数帯域は、我々のモデルの異なるコンポーネントによって処理される。 ゲーティング機構はコンポーネントの出力を組み合わせて、特定の周波数でのみ特定の信号を使用するスパースモデルを生成する。 実験により,マルチウェーブは有益周波数帯域を正確に識別し,lstm,transformer,cnnモデルなど様々な深層学習モデルの性能を向上させることを実証した。 ストレスの最高のパフォーマンスを達成し、ウェアラブルの検出に影響を与える。 また、患者血液サンプルからの院内COVID-19死亡率予測や加速度計とジャイロスコープデータからの人間の活動認識において、最高のパフォーマンスモデルであるAUCを5%向上させる。 マルチウェーブは、重要な特徴とその周波数成分を一貫して識別し、研究対象のアプリケーションに対する貴重な洞察を提供する。

The analysis of multivariate time series data is challenging due to the various frequencies of signal changes that can occur over both short and long terms. Furthermore, standard deep learning models are often unsuitable for such datasets, as signals are typically sampled at different rates. To address these issues, we introduce MultiWave, a novel framework that enhances deep learning time series models by incorporating components that operate at the intrinsic frequencies of signals. MultiWave uses wavelets to decompose each signal into subsignals of varying frequencies and groups them into frequency bands. Each frequency band is handled by a different component of our model. A gating mechanism combines the output of the components to produce sparse models that use only specific signals at specific frequencies. Our experiments demonstrate that MultiWave accurately identifies informative frequency bands and improves the performance of various deep learning models, including LSTM, Transformer, and CNN-based models, for a wide range of applications. It attains top performance in stress and affect detection from wearables. It also increases the AUC of the best-performing model by 5% for in-hospital COVID-19 mortality prediction from patient blood samples and for human activity recognition from accelerometer and gyroscope data. We show that MultiWave consistently identifies critical features and their frequency components, thus providing valuable insights into the applications studied.
翻訳日:2023-06-21 23:53:39 公開日:2023-06-16
# サブハーモニック駆動による高速超電導量子ビット制御

Fast superconducting qubit control with sub-harmonic drives ( http://arxiv.org/abs/2306.10162v1 )

ライセンス: Link先を確認
Mingkang Xia, Chao Zhou, Chenxu Liu, Param Patel, Xi Cao, Pinlei Lu, Boris Mesits, Maria Mucci, David Gorski, David Pekker, Michael Hatridge(参考訳) 単一量子ビットゲートの忠実度を高めるには、より高速なパルスとより高い量子ビットコヒーレンスの組み合わせが必要である。 しかし、容量結合されたポートを経由した共振量子ビット駆動では、より高い量子ビット品質係数はより弱い結合を必要とし、同じ印加電力に対して長いパルスを必要とするため、この2つの目的は互いに矛盾する。 一方、駆動力の増大は、キュービットの環境を加熱し、コヒーレンスを劣化させる可能性がある。 本研究では,トランスモン量子ビットの固有非線形性を用いて,単一量子ビット制御を行う新しいパラメトリック駆動方式を導入することで,この問題を回避する。 具体的には、トランスモンのKerr項を量子ビットの共振周波数の約3分の1でポンプすることで、高速ゲート速度を実現する。 通常、トランスモンは比較的狭い範囲のアンハーモニックで作動するので、この技法は全てのトランスモンに適用できる。 理論と実験の両方において, プロセスのラビ速度は印加駆動振幅立方体に比例し, 印加電力がわずかに増加し, 急速ゲート速度が向上することを示した。 さらに,高速ゲートを実行しながら,クビットのコヒーレンスを保護できることを示すとともに,多光子損失による減衰は,非常に強く結合した駆動線においてもクビット寿命を制限しないことを示す理論的計算を行う。 99.7\%の忠実度を持つ数十ナノ秒の短パルスで、トランスモンの質素なコヒーレンスによって制限される。 また,本手法は,大規模量子コンピュータの必須要件である高速ゲートのクライオスタット加熱を低減できることを示す計算を行う。

Increasing the fidelity of single-qubit gates requires a combination of faster pulses and increased qubit coherence. However, with resonant qubit drive via a capacitively coupled port, these two objectives are mutually contradictory, as higher qubit quality factor requires a weaker coupling, necessitating longer pulses for the same applied power. Increasing drive power, on the other hand, can heat the qubit's environment and degrade coherence. In this work, by using the inherent non-linearity of the transmon qubit, we circumvent this issue by introducing a new parametric driving scheme to perform single-qubit control. Specifically, we achieve rapid gate speed by pumping the transmon's native Kerr term at approximately one third of the qubit's resonant frequency. Given that transmons typically operate within a fairly narrow range of anharmonicity, this technique is applicable to all transmons. In both theory and experiment, we show that the Rabi rate of the process is proportional to applied drive amplitude cubed, allowing for rapid gate speed with only modest increases in applied power. In addition, we demonstrate that filtering can be used to protect the qubit's coherence while performing rapid gates, and present theoretical calculations indicating that decay due to multi-photon losses, even in very strongly coupled drive lines, will not limit qubit lifetime. We demonstrate $\pi/2$ pulses as short as tens of nanoseconds with fidelity as high as 99.7\%, limited by the modest coherence of our transmon. We also present calculations indicating that this technique could reduce cryostat heating for fast gates, a vital requirement for large-scale quantum computers.
翻訳日:2023-06-21 23:53:17 公開日:2023-06-16
# schr\"odingerのブリッジの構築:連続的エントロピー最適輸送ベンチマーク

Building the Bridge of Schr\"odinger: A Continuous Entropic Optimal Transport Benchmark ( http://arxiv.org/abs/2306.10161v1 )

ライセンス: Link先を確認
Nikita Gushchin, Alexander Kolesov, Petr Mokrov, Polina Karpikova, Andrey Spiridonov, Evgeny Burnaev, Alexander Korotin(参考訳) 過去数年間、schr\"odinger bridge (sb)問題に対する神経解法の開発と生成的モデリングへの応用において、大きな進歩を遂げてきた。 この新たな研究分野は、実用的に優れた拡散モデルと理論的に接地されたエントロピー最適輸送(EOT)と相互接続されているため、好ましく有益である。 それでも、この領域は非自明なテストに欠けており、研究者はSBや同等の連続EOT問題をどのように解決するかを理解することができる。 我々はこのギャップを埋め、基底真理 ot 解が構成によって知られている確率分布のペアを作成する新しい方法を提案する。 我々の手法は汎用的であり、幅広いOT定式化、特に、SBと等価なEOT(本研究の主な関心事)をカバーしている。 この開発により、画像空間のような高次元空間上の既知の eot と sb の解を用いた連続ベンチマーク分布を作成できる。 例示として、これらのベンチマークペアを使用して、既存のニューラルネットワークEOT/SBソルバが実際にEOTソリューションをどのように計算するかをテストする。 ベンチマークはリンクから入手できる。 https://github.com/ngushchin/entropicotbenchmark。

Over the last several years, there has been a significant progress in developing neural solvers for the Schr\"odinger Bridge (SB) problem and applying them to generative modeling. This new research field is justifiably fruitful as it is interconnected with the practically well-performing diffusion models and theoretically-grounded entropic optimal transport (EOT). Still the area lacks non-trivial tests allowing a researcher to understand how well do the methods solve SB or its equivalent continuous EOT problem. We fill this gap and propose a novel way to create pairs of probability distributions for which the ground truth OT solution in known by the construction. Our methodology is generic and works for a wide range of OT formulations, in particular, it covers the EOT which is equivalent to SB (the main interest of our study). This development allows us to create continuous benchmark distributions with the known EOT and SB solution on high-dimensional spaces such as spaces of images. As an illustration, we use these benchmark pairs to test how well do existing neural EOT/SB solvers actually compute the EOT solution. The benchmark is available via the link: https://github.com/ngushchin/EntropicOTBenchmark.
翻訳日:2023-06-21 23:52:45 公開日:2023-06-16
# ZeRO++: 巨大モデルトレーニングのための極めて効率的な集合的コミュニケーション

ZeRO++: Extremely Efficient Collective Communication for Giant Model Training ( http://arxiv.org/abs/2306.10209v1 )

ライセンス: Link先を確認
Guanhua Wang, Heyang Qin, Sam Ade Jacobs, Connor Holmes, Samyam Rajbhandari, Olatunji Ruwase, Feng Yan, Lei Yang, Yuxiong He(参考訳) Zero Redundancy Optimizer (ZeRO)は、使用の容易さ、効率性、スケーラビリティの向上により、大規模なGPUクラスタ上で、幅広い大規模な言語モデルをトレーニングするために使用されている。 しかしながら、低帯域幅クラスタでのトレーニングや、gpu当たりのバッチサイズを小さくするスケールでは、前方パス、後方パス、平均勾配での重みの収集から通信量が多いため、zeroの効果的なスループットは制限される。 本稿では,ゼロ++と総称される3つの通信量削減手法について紹介する。 まず、ブロック量子化ベースのall-gatherです。 第二に、より多くのメモリのために通信をトレードオフするデータリマッピングです。 第3のアプローチは,低精度データを通信しながら精度を保ちながら,レデュース散乱集団の代替として,全対一の量子化勾配平均化パラダイムである。 ZeRO++はZeROの通信容量を4倍に減らし、384GPUスケールで最大2.16倍のスループットを実現している。

Zero Redundancy Optimizer (ZeRO) has been used to train a wide range of large language models on massive GPUs clusters due to its ease of use, efficiency, and good scalability. However, when training on low-bandwidth clusters, or at scale which forces batch size per GPU to be small, ZeRO's effective throughput is limited because of high communication volume from gathering weights in forward pass, backward pass, and averaging gradients. This paper introduces three communication volume reduction techniques, which we collectively refer to as ZeRO++, targeting each of the communication collectives in ZeRO. First is block-quantization based all-gather. Second is data remapping that trades-off communication for more memory. Third is a novel all-to-all based quantized gradient averaging paradigm as replacement of reduce-scatter collective, which preserves accuracy despite communicating low precision data. Collectively, ZeRO++ reduces communication volume of ZeRO by 4x, enabling up to 2.16x better throughput at 384 GPU scale.
翻訳日:2023-06-21 23:46:52 公開日:2023-06-16
# 時空間意味対応の学習

Learning Space-Time Semantic Correspondences ( http://arxiv.org/abs/2306.10208v1 )

ライセンス: Link先を確認
Du Tran and Jitendra Malik(参考訳) 映像における時空間意味対応予測の新しい課題を提案する。 ソースビデオ、ターゲットビデオ、およびソースビデオ内の時空間キーポイントのセットを与えられたタスクは、提供されたソースキーポイントの意味対応であるターゲットビデオ内のキーポイントのセットを予測する必要がある。 我々は,この課題が,アクティビティコーチング,スポーツ分析,ロボット模倣学習などの応用が可能な,微粒な映像理解に重要であると信じている。 この論文への私たちの貢献は (i)ペンアクションと注水という2つの既存のベンチマークにおいて、新しいタスクを提案し、時空意味対応のためのアノテーションを提供する (ii)新しい問題に関する洞察を得るために、総合的なベースラインと実験を提示すること。 我々の主な発見は、時間-時間意味対応予測問題は、分解された部分問題(時間アライメントと空間対応)ではなく、空間と時間で協調的にアプローチするのが最善であるということである。

We propose a new task of space-time semantic correspondence prediction in videos. Given a source video, a target video, and a set of space-time key-points in the source video, the task requires predicting a set of keypoints in the target video that are the semantic correspondences of the provided source keypoints. We believe that this task is important for fine-grain video understanding, potentially enabling applications such as activity coaching, sports analysis, robot imitation learning, and more. Our contributions in this paper are: (i) proposing a new task and providing annotations for space-time semantic correspondences on two existing benchmarks: Penn Action and Pouring; and (ii) presenting a comprehensive set of baselines and experiments to gain insights about the new problem. Our main finding is that the space-time semantic correspondence prediction problem is best approached jointly in space and time rather than in their decomposed sub-problems: time alignment and spatial correspondences.
翻訳日:2023-06-21 23:46:33 公開日:2023-06-16
# ニューラルネットワークを用いた有限角度断層撮影のためのストレッチドシンノグラム

Stretched sinograms for limited-angle tomographic reconstruction with neural networks ( http://arxiv.org/abs/2306.10201v1 )

ライセンス: Link先を確認
Kyle Luther, Sebastian Seung(参考訳) 本稿では,畳み込みネットワークを用いた限られた角度トモグラフィ再構成法を提案する。 本手法の鍵となるのは、傾き角度のセカントにより、傾き軸に垂直な方向のすべての傾きビューをまず伸ばすことである。 これらのストレッチされたビューは2次元のU-Netに入力され、3次元再構成を直接出力する。 ネットワークの生成した再構成と基底真理3次元ボリュームの間の平均二乗誤差を最小にすることでネットワークを訓練する。 本手法の実証と評価のために,Focused Ion Beam Scanning Electron Microscopyで得られたハエ脳組織の3次元像から傾斜像を合成した。 本手法をu-netを用いて直接チルトビューを再構成する手法と比較し,この簡単なストレッチ処理により,復元精度が著しく向上することを示す。 また、バックプロジェクションやフィルタされたバックプロジェクションによって生成された再構成をネットワークで除去する手法と比較し、この単純なストレッチ手順は、これまで見られなかった画像に対して平均2乗誤差を低くする。

We present a direct method for limited angle tomographic reconstruction using convolutional networks. The key to our method is to first stretch every tilt view in the direction perpendicular to the tilt axis by the secant of the tilt angle. These stretched views are then fed into a 2-D U-Net which directly outputs the 3-D reconstruction. We train our networks by minimizing the mean squared error between the network's generated reconstruction and a ground truth 3-D volume. To demonstrate and evaluate our method, we synthesize tilt views from a 3-D image of fly brain tissue acquired with Focused Ion Beam Scanning Electron Microscopy. We compare our method to using a U-Net to directly reconstruct the unstretched tilt views and show that this simple stretching procedure leads to significantly better reconstructions. We also compare to using a network to clean up reconstructions generated by backprojection and filtered backprojection, and find that this simple stretching procedure also gives lower mean squared error on previously unseen images.
翻訳日:2023-06-21 23:46:18 公開日:2023-06-16
# structured thoughts automaton: 自動回帰言語モデルのための最初の形式化された実行モデル

Structured Thoughts Automaton: First Formalized Execution Model for Auto-Regressive Language Models ( http://arxiv.org/abs/2306.10196v1 )

ライセンス: Link先を確認
Tristan Vanderbruggen, Chunhua Liao, Peter Pirkelbauer, Pei-Hung Lin(参考訳) 近年、Language Models(LM)は、OpenAIとAI(Artificial General Intelligence, AGI)のポテンシャルに焦点をあてて、日々の会話の一部となっている。 さらに、ラマの重みが大衆に漏れたことにより、生成的lmsの素晴らしい能力を示す多くのイノベーションが流入した。 AGIはまだまだ遠い目標であると考えていますが、複雑な文書の検索、基本分析によるレポートのコンパイル、問題解決支援といったタスクにおけるLMの可能性を認識しています。 本稿では,言語モデルの実行モデルを形式化する手法を提案する。 我々は,現在の実行モデルを調査し,この形式化がほとんど注目されていないことを確認し,その貢献を述べる。 我々は,信頼でき,検査可能な実行モデルを構築するために使用するlmsの予測をサンプリングする新しいアルゴリズムを提案する。 この実行モデルに「認知プログラム」を書くための低レベル言語を導入する。 LMの実行モデルの必要性に光を当て、この分野のさらなる研究を奨励したいと考えています。

In recent months, Language Models (LMs) have become a part of daily discourse, with focus on OpenAI and the potential of Artificial General Intelligence (AGI). Furthermore, the leaking of LLama's weights to the public has led to an influx of innovations demonstrating the impressive capabilities of generative LMs. While we believe that AGI is still a distant goal, we recognize the potential of LMs in solving tasks such as searching complex documents, compiling reports with basic analysis, and providing assistance in problem-solving. In this paper, we propose formalizing the execution model of language models. We investigate current execution models, to find that this formalism has received little attention, and present our contribution: the first formalized execution model for LMs. We introduce a new algorithm for sampling the predictions of LMs, which we use to build a reliable and inspectable execution model. We introduce a low-level language to write "cognitive program" for this execution model. We hope to shed light on the need for execution models for LMs and encourage further research in this area.
翻訳日:2023-06-21 23:45:59 公開日:2023-06-16
# ソフトウェア開発における技術的負債管理のための人工知能

Artificial Intelligence for Technical Debt Management in Software Development ( http://arxiv.org/abs/2306.10194v1 )

ライセンス: Link先を確認
Srinivas Babu Pandi, Samia A. Binta, Savita Kaushal(参考訳) 技術的負債はソフトウェア開発においてよく知られた課題であり、そのソフトウェア品質、保守性、パフォーマンスに対する負の影響は広く認識されている。 近年、人工知能(AI)は技術的負債の管理を支援するための有望なアプローチであることが証明されている。 本稿では,ソフトウェア開発における技術的負債回避のためのAIを活用したツールの利用に関する既存研究の総合的な文献レビューを行う。 この文献レビューでは、コード分析やレビュー、自動テスト、コードリファクタリング、予測メンテナンス、コード生成、コードドキュメントなど、さまざまなai技術をカバーする15の関連研究論文を分析し、技術的負債に対処する上での有効性について検討した。 このレビューでは、技術的負債管理にAIを使用することのメリットと課題についても論じ、現在の研究状況に関する洞察を提供し、将来の研究のギャップと機会を強調している。 このレビューの結果は、AIがソフトウェア開発における技術的負債管理を大幅に改善する可能性があることを示唆し、既存の研究は、AIが技術的負債に効果的かつ効率的に対処する方法に関する貴重な洞察を提供する。 しかし、このレビューでは、高品質なデータや倫理的考察の必要性など、現在のアプローチのいくつかの課題と限界を強調し、これらの問題に対処するためのさらなる研究の重要性を強調している。 この論文は、技術的負債回避のためのAI研究の現状を概観し、技術的負債を効果的に軽減するために開発プロセスにAIを活用しようとするソフトウェア開発チームに実践的なガイダンスを提供する。

Technical debt is a well-known challenge in software development, and its negative impact on software quality, maintainability, and performance is widely recognized. In recent years, artificial intelligence (AI) has proven to be a promising approach to assist in managing technical debt. This paper presents a comprehensive literature review of existing research on the use of AI powered tools for technical debt avoidance in software development. In this literature review we analyzed 15 related research papers which covers various AI-powered techniques, such as code analysis and review, automated testing, code refactoring, predictive maintenance, code generation, and code documentation, and explores their effectiveness in addressing technical debt. The review also discusses the benefits and challenges of using AI for technical debt management, provides insights into the current state of research, and highlights gaps and opportunities for future research. The findings of this review suggest that AI has the potential to significantly improve technical debt management in software development, and that existing research provides valuable insights into how AI can be leveraged to address technical debt effectively and efficiently. However, the review also highlights several challenges and limitations of current approaches, such as the need for high-quality data and ethical considerations and underscores the importance of further research to address these issues. The paper provides a comprehensive overview of the current state of research on AI for technical debt avoidance and offers practical guidance for software development teams seeking to leverage AI in their development processes to mitigate technical debt effectively
翻訳日:2023-06-21 23:45:43 公開日:2023-06-16
# コンフォーマル言語モデリング

Conformal Language Modeling ( http://arxiv.org/abs/2306.10193v1 )

ライセンス: Link先を確認
Victor Quach, Adam Fisch, Tal Schuster, Adam Yala, Jae Ho Sohn, Tommi S. Jaakkola, Regina Barzilay(参考訳) 本稿では,生成言語モデル(LM)の共形予測手法を提案する。 標準適合予測は、厳密で統計的な性能保証を持つ単一の予測の代わりに予測セットを生成する。 LM応答は通常、自然言語の大規模な組合せ出力空間上のモデルの予測分布からサンプリングされる。 このプロセスを共形予測に翻訳することで、出力セットが十分であると確信するまで、増大する候補セットに追加されるlmから異なる出力をサンプリングする停止ルールを校正する。 いくつかのサンプルは品質が低いため、ノイズを減らすために出力セットから候補を取り除くための拒否規則を同時に校正し、適用する。 共形予測と同様に、我々の手順で返されたサンプル集合は、平均で経験的に正確(すなわち小さい)でありながら、高い確率で少なくとも1つの許容可能な答えを含んでいることを証明します。 さらに、この一連の候補応答の中で、それぞれが独立に正しい(例えば「幻覚」ではない)個々の構成要素のサブセットを統計的保証と共に正確に識別できることを示す。 我々は,オープンドメイン質問応答,テキスト要約,放射線学レポート生成において,異なるLM変種を用いた複数のタスクに対するアプローチの可能性を実証する。

We propose a novel approach to conformal prediction for generative language models (LMs). Standard conformal prediction produces prediction sets -- in place of single predictions -- that have rigorous, statistical performance guarantees. LM responses are typically sampled from the model's predicted distribution over the large, combinatorial output space of natural language. Translating this process to conformal prediction, we calibrate a stopping rule for sampling different outputs from the LM that get added to a growing set of candidates until we are confident that the output set is sufficient. Since some samples may be low-quality, we also simultaneously calibrate and apply a rejection rule for removing candidates from the output set to reduce noise. Similar to conformal prediction, we prove that the sampled set returned by our procedure contains at least one acceptable answer with high probability, while still being empirically precise (i.e., small) on average. Furthermore, within this set of candidate responses, we show that we can also accurately identify subsets of individual components -- such as phrases or sentences -- that are each independently correct (e.g., that are not "hallucinations"), again with statistical guarantees. We demonstrate the promise of our approach on multiple tasks in open-domain question answering, text summarization, and radiology report generation using different LM variants.
翻訳日:2023-06-21 23:45:20 公開日:2023-06-16
# サンプル効率適応のためのニューラルプライミング

Neural Priming for Sample-Efficient Adaptation ( http://arxiv.org/abs/2306.10191v1 )

ライセンス: Link先を確認
Matthew Wallingford, Vivek Ramanujan, Alex Fang, Aditya Kusupati, Roozbeh Mottaghi, Aniruddha Kembhavi, Ludwig Schmidt, Ali Farhadi(参考訳) ラベル付き例がほとんど,あるいはまったくない下流タスクに,大規模事前学習モデルを適用する手法であるneural primingを提案する。 クラス名やラベルのないテストサンプルで示されるニューラルプライミングは、モデルが事前トレーニング中に見た関連するデータに基づいてパラメータをリコールし、条件付けし、テスト分布にプライミングする。 ニューラルプライミングは、LAION-2Bのようなデータセットを事前訓練してもテスト時に実行できる。 リコールされたデータのライトウェイトな更新は、さまざまな分散シフトと転送学習ベンチマークの精度を大幅に向上させる。 具体的には、ゼロショット環境では、ImageNetで2.45の精度が向上し、標準転送学習ベンチマークで平均3.81の精度が向上する。 さらに,テスト時間推定方式により,ImageNetV2の精度が1.41向上した。 これらの結果は,限定ラベルデータと分布変化の共通課題に対するニューラルプライミングの有効性を示す。 コードはgithub.com/RAIVNLab/neural-primingで入手できる。

We propose Neural Priming, a technique for adapting large pretrained models to distribution shifts and downstream tasks given few or no labeled examples. Presented with class names or unlabeled test samples, Neural Priming enables the model to recall and conditions its parameters on relevant data seen throughout pretraining, thereby priming it for the test distribution. Neural Priming can be performed at test time in even for pretraining datasets as large as LAION-2B. Performing lightweight updates on the recalled data significantly improves accuracy across a variety of distribution shift and transfer learning benchmarks. Concretely, in the zero-shot setting, we see a 2.45 improvement in accuracy on ImageNet and 3.81 accuracy improvement on average across standard transfer learning benchmarks. Further, using our test time inference scheme, we see a 1.41 accuracy improvement on ImageNetV2. These results demonstrate the effectiveness of Neural Priming in addressing the common challenge of limited labeled data and changing distributions. Code is available at github.com/RAIVNLab/neural-priming.
翻訳日:2023-06-21 23:44:59 公開日:2023-06-16
# ALP: 認知のための行動認識型身体学習

ALP: Action-Aware Embodied Learning for Perception ( http://arxiv.org/abs/2306.10190v1 )

ライセンス: Link先を確認
Xinran Liang, Anthony Han, Wilson Yan, Aditi Raghunathan, Pieter Abbeel(参考訳) 視覚モデルのトレーニングとベンチマークの現在の手法は、受動的でキュレートされたデータセットに対する過度な信頼を示す。 これらのデータセットでトレーニングされたモデルは、分類、検出、セグメンテーションといった幅広いタスクで強力なパフォーマンスを示しているが、入力データの分散シフトが絶え間なく変化するため、基本的に進化し続ける世界に一般化することはできない。 したがって、固定データセットのトレーニングの代わりに、より人間中心で適応的な方法で学習にアプローチできるだろうか? 本稿では,強化学習と逆ダイナミクス予測を組み合わせることで,行動情報を表現学習に組み込む具体化学習フレームワークである \textbf{a}ction-aware embodied \textbf{l}earning for \textbf{p}erception (alp)を提案する。 提案手法は複雑な3次元環境を積極的に探索し,一般化可能なタスク非依存表現の学習と下流トレーニングデータの収集を行う。 ALPはオブジェクト検出やセマンティックセグメンテーションにおいて既存のベースラインよりも優れていることを示す。 さらに,本手法は,環境やタスクに関連性の高いデータを積極的に収集することで,ImageNetなどの固定データセット上で事前学習したモデルと比較して,下流タスクに頑健に一般化することを示す。

Current methods in training and benchmarking vision models exhibit an over-reliance on passive, curated datasets. Although models trained on these datasets have shown strong performance in a wide variety of tasks such as classification, detection, and segmentation, they fundamentally are unable to generalize to an ever-evolving world due to constant out-of-distribution shifts of input data. Therefore, instead of training on fixed datasets, can we approach learning in a more human-centric and adaptive manner? In this paper, we introduce \textbf{A}ction-aware Embodied \textbf{L}earning for \textbf{P}erception (ALP), an embodied learning framework that incorporates action information into representation learning through a combination of optimizing policy gradients through reinforcement learning and inverse dynamics prediction objectives. Our method actively explores complex 3D environments to both learn generalizable task-agnostic representations as well as collect downstream training data. We show that ALP outperforms existing baselines in object detection and semantic segmentation. In addition, we show that by training on actively collected data more relevant to the environment and task, our method generalizes more robustly to downstream tasks compared to models pre-trained on fixed datasets such as ImageNet.
翻訳日:2023-06-21 23:44:40 公開日:2023-06-16
# 多変量職業核関数による高次元非パラメトリック微分方程式の学習

Learning High-Dimensional Nonparametric Differential Equations via Multivariate Occupation Kernel Functions ( http://arxiv.org/abs/2306.10189v1 )

ライセンス: Link先を確認
Victor Rielly, Kamel Lahouel, Ethan Lew, Michael Wells, Vicky Haney, Bruno Jedynak(参考訳) 通常の微分方程式(odes)の非パラメトリック系を、d$-次元状態空間でn$の軌跡スナップショットから学ぶには、$d$変数の$d$関数を学ぶ必要がある。 明示的な定式化は、スパーシティや対称性などのシステム特性に関する追加の知識が得られない限り、$d$で2倍スケールする。 本研究では,ベクトル値の再現ケルネルヒルベルト空間による暗黙の定式化を用いた線形学習手法を提案する。 odeをより弱い積分形式に書き直すことで、それを最小化することで、学習アルゴリズムを導出します。 ベクトル場に対する最小化問題の解は、解の軌跡に関連する多変量占有核関数に依存する。 我々は、高非線形シミュレーションおよび実データの実験により、d$が100を超える場合のアプローチを検証する。 さらに,非パラメトリックな1次準線形偏微分方程式を学習することにより,提案手法の汎用性を示す。

Learning a nonparametric system of ordinary differential equations (ODEs) from $n$ trajectory snapshots in a $d$-dimensional state space requires learning $d$ functions of $d$ variables. Explicit formulations scale quadratically in $d$ unless additional knowledge about system properties, such as sparsity and symmetries, is available. In this work, we propose a linear approach to learning using the implicit formulation provided by vector-valued Reproducing Kernel Hilbert Spaces. By rewriting the ODEs in a weaker integral form, which we subsequently minimize, we derive our learning algorithm. The minimization problem's solution for the vector field relies on multivariate occupation kernel functions associated with the solution trajectories. We validate our approach through experiments on highly nonlinear simulated and real data, where $d$ may exceed 100. We further demonstrate the versatility of the proposed method by learning a nonparametric first order quasilinear partial differential equation.
翻訳日:2023-06-21 23:44:16 公開日:2023-06-16
# 空間スピンドロップ:スピントロニクスによる空間ドロップアウトに基づく二元ベイズニューラルネットワーク

Spatial-SpinDrop: Spatial Dropout-based Binary Bayesian Neural Network with Spintronics Implementation ( http://arxiv.org/abs/2306.10185v1 )

ライセンス: Link先を確認
Soyed Tuhin Ahmed, Kamal Danouchi, Michael Hefenbrock, Guillaume Prenat, Lorena Anghel, Mehdi B. Tahoori(参考訳) 近年,自動運転や産業オートメーションなど,リアルタイムかつ重要な意思決定領域において,機械学習システムが注目されている。 彼らの実装は不確実性推定を通じて過信な予測を避けるべきである。 ベイズニューラルネットワーク(baynns)は、予測の不確実性を推定するための原理的手法である。 しかし、計算コストと消費電力は、エッジAIへの広範な展開を妨げる。 Dropoutを後方分布の近似として利用し、BayNNのパラメータをバイナライズし、さらにそれらをスピントロニクスベースの計算インメモリ(CiM)ハードウェアアレイで実装することは、実現可能なソリューションである。 しかし、畳み込みニューラルネットワーク(cnn)トポロジのためのハードウェアドロップアウトモジュールの設計は、多くのドロップアウトモジュールを必要とし、特定の要素をドロップするために空間情報を使用する必要があるため、困難かつ高価である。 本稿では,スピントロニクスデバイスを備えた空間降下型BayNNであるMC-SpatialDropoutを紹介する。 本手法は,スピントロニクスデバイス固有の確率性を利用して,既存の実装と比較して空間降下モジュールの効率的な実装を行う。 さらに、ネットワーク層毎のドロップアウトモジュール数を9\times$の係数と、エネルギー消費量を94.11\times$の係数で削減すると同時に、関連する作業と比較して予測性能と不確実性が同等に向上する。

Recently, machine learning systems have gained prominence in real-time, critical decision-making domains, such as autonomous driving and industrial automation. Their implementations should avoid overconfident predictions through uncertainty estimation. Bayesian Neural Networks (BayNNs) are principled methods for estimating predictive uncertainty. However, their computational costs and power consumption hinder their widespread deployment in edge AI. Utilizing Dropout as an approximation of the posterior distribution, binarizing the parameters of BayNNs, and further to that implementing them in spintronics-based computation-in-memory (CiM) hardware arrays provide can be a viable solution. However, designing hardware Dropout modules for convolutional neural network (CNN) topologies is challenging and expensive, as they may require numerous Dropout modules and need to use spatial information to drop certain elements. In this paper, we introduce MC-SpatialDropout, a spatial dropout-based approximate BayNNs with spintronics emerging devices. Our method utilizes the inherent stochasticity of spintronic devices for efficient implementation of the spatial dropout module compared to existing implementations. Furthermore, the number of dropout modules per network layer is reduced by a factor of $9\times$ and energy consumption by a factor of $94.11\times$, while still achieving comparable predictive performance and uncertainty estimates compared to related works.
翻訳日:2023-06-21 23:44:01 公開日:2023-06-16
# 量子回路冷凍機を用いた超電導量子ビットのアクティブ初期化実験

Active Initialization Experiment of Superconducting Qubit Using Quantum-circuit Refrigerator ( http://arxiv.org/abs/2306.10212v1 )

ライセンス: Link先を確認
Teruaki Yoshioka, Hiroto Mukai, Akiyoshi Tomonaga, Shintaro Takada, Yuma Okazaki, Nobu-Hisa Kaneko, Shuji Nakamura, Jaw-Shen Tsai(参考訳) 超伝導量子ビットの初期化は量子計算の実現に不可欠な技術の一つである。 以前の研究では、99\%以上の初期化は280 nsで達成されている。 本稿では,量子回路冷凍機(qcr)を用いた超伝導量子ビットの高速初期化を示す。 QCRにおける準粒子の光子支援トンネルは、共振器内の光子の緩和時間を一時的に増加させ、クォービットから環境へのエネルギー放出を助ける。 このプロトコルを用いた実験では、初期化時間の99\%が180 nsに短縮された。 この初期化時間は共振器の緩和速度に強く依存し、ON/OFF比を制限するQCRの抵抗を低減し、QCRと共振器との結合を強化することによりより高速な初期化が可能となる。

The initialization of superconducting qubits is one of the essential techniques for the realization of quantum computation. In previous research, initialization above 99\% fidelity has been achieved at 280 ns. Here, we demonstrate the rapid initialization of a superconducting qubit with a quantum-circuit refrigerator (QCR). Photon-assisted tunneling of quasiparticles in the QCR can temporally increase the relaxation time of photons inside the resonator and helps release energy from the qubit to the environment. Experiments using this protocol have shown that 99\% of initialization time is reduced to 180 ns. This initialization time depends strongly on the relaxation rate of the resonator, and faster initialization is possible by reducing the resistance of the QCR, which limits the ON/OFF ratio, and by strengthening the coupling between the QCR and the resonator.
翻訳日:2023-06-21 23:33:06 公開日:2023-06-16
# 外部時間依存場における構造物質波の進化

Structured matter wave evolution in external time-dependent fields ( http://arxiv.org/abs/2205.04498v2 )

ライセンス: Link先を確認
Shohre Janjan and Fardin Kheirandish(参考訳) 本研究では, 一定の磁場の存在下で, 時間に依存した外力の影響下において, 構造物質波の運動を解析した。 我々は,ハイゼンベルク運動方程式に基づく偏微分方程式から得られる厳密なプロパゲータ核を導入した。 初期波動関数はガウス・ハーマイト波動関数として仮定される。 進化波動関数については, 密度関数の質量フレームの中心における不確実性, 軌道角運動量, 慣性テンソルについて検討した。 物質波の量子干渉法、および非相対論的量子電子顕微鏡の観点から、ここで得られた結果は軸近似のような近似法よりも重要かつ信頼性が高い。

In the present work, we have analyzed the motion of a structured matter wave in the presence of a constant magnetic field and under the influence of a time-dependent external force. We have introduced exact propagator kernels obtained from partial differential equations based on the Heisenberg equations of motion. The initial wave function is assumed as a Gauss-Hermite wave function. For the evolved wave function, we have obtained and discussed the uncertainties, orbital angular momentum, and the inertia tensor in the center of mass frame of the density function. From the point of view of the quantum interferometry of matter waves, and also non-relativistic quantum electron microscopy, the results obtained here are important and more reliable than the approximate methods like the axial approximation.
翻訳日:2023-06-19 18:45:46 公開日:2023-06-16
# Actor-Critic Based Controled Sensing による異常の時間的検出

Temporal Detection of Anomalies via Actor-Critic Based Controlled Sensing ( http://arxiv.org/abs/2201.00879v2 )

ライセンス: Link先を確認
Geethu Joseph, M. Cenk Gursoy, Pramod K. Varshney(参考訳) 本稿では,連立確率過程群を監視し,それらの異常数がしきい値を超えると警告を発する問題に対処する。 このため、意思決定者はプロセスのサブセットを選択して調査し、その状態(通常または異常)のノイズの見積もりを得る。 受信した観測に基づいて、意思決定者はまず、異常数が閾値を超えたことを宣言するか、観察を続けるかを判断する。 決定が継続されると、次のタイミングで観測を収集するか、後で延期するかが決定される。 観測収集を選択した場合には、さらに調査対象のプロセスのサブセットを決定する。 この3段階の逐次決定過程を考案するために、ベイズ式を用いて、プロセスの状態に関する後続確率を学習する。 後方確率を用いてマルコフ決定過程を構築し,深層アクタ-クリティック強化学習を用いて解く。 数値実験により,従来のモデルに基づくアルゴリズムと比較して,アルゴリズムの優れた性能を示す。

We address the problem of monitoring a set of binary stochastic processes and generating an alert when the number of anomalies among them exceeds a threshold. For this, the decision-maker selects and probes a subset of the processes to obtain noisy estimates of their states (normal or anomalous). Based on the received observations, the decisionmaker first determines whether to declare that the number of anomalies has exceeded the threshold or to continue taking observations. When the decision is to continue, it then decides whether to collect observations at the next time instant or defer it to a later time. If it chooses to collect observations, it further determines the subset of processes to be probed. To devise this three-step sequential decision-making process, we use a Bayesian formulation wherein we learn the posterior probability on the states of the processes. Using the posterior probability, we construct a Markov decision process and solve it using deep actor-critic reinforcement learning. Via numerical experiments, we demonstrate the superior performance of our algorithm compared to the traditional model-based algorithms.
翻訳日:2023-06-19 18:45:13 公開日:2023-06-16
# 動的治療効果:モデル不特定化下の高次元推論

Dynamic treatment effects: high-dimensional inference under model misspecification ( http://arxiv.org/abs/2111.06818v2 )

ライセンス: Link先を確認
Yuqian Zhang, Weijie Ji and Jelena Bradic(参考訳) 動的治療効果の推定は様々な分野において不可欠であり、介入の時間依存因果的影響に関する微妙な洞察を提供する。 しかし、この推定は「次元の帰結」と時間変化の共起による問題を示し、偏りが生じる可能性がある。 さらに、複数の露出を伴う治療課題や結果モデルの増加を正しく指定することは、非常に複雑に思える。 これらの課題を考えると、モデルの不特定が許される二重頑健性の概念は極めて貴重であるが、実際的な応用では達成されていない。 本稿では,治療課題と結果モデルの両方に対して,新しいロバストな推定器を提案する。 連続モデル二重ロバスト」ソリューションを提案し、露光時間が2倍のとき、複数の時間点上で二重ロバスト性が達成できることを実証する。 このアプローチは、動的処理効果推定の堅牢性と信頼性を改善し、この分野における大きなギャップに対処する。

Estimating dynamic treatment effects is essential across various disciplines, offering nuanced insights into the time-dependent causal impact of interventions. However, this estimation presents challenges due to the "curse of dimensionality" and time-varying confounding, which can lead to biased estimates. Additionally, correctly specifying the growing number of treatment assignments and outcome models with multiple exposures seems overly complex. Given these challenges, the concept of double robustness, where model misspecification is permitted, is extremely valuable, yet unachieved in practical applications. This paper introduces a new approach by proposing novel, robust estimators for both treatment assignments and outcome models. We present a "sequential model double robust" solution, demonstrating that double robustness over multiple time points can be achieved when each time exposure is doubly robust. This approach improves the robustness and reliability of dynamic treatment effects estimation, addressing a significant gap in this field.
翻訳日:2023-06-19 18:44:56 公開日:2023-06-16
# arfed: 異常値除去に基づく攻撃耐性フェデレート平均化

ARFED: Attack-Resistant Federated averaging based on outlier elimination ( http://arxiv.org/abs/2111.04550v2 )

ライセンス: Link先を確認
Ece Isik-Polat, Gorkem Polat, Altan Kocyigit(参考訳) フェデレートラーニングでは、各参加者が独自のデータでローカルモデルをトレーニングし、これらの参加者からのモデル更新を集約することにより、信頼されたサーバにグローバルモデルを形成する。 サーバは、プライバシを確保するために参加者のトレーニング手順に効果と可視性がないため、グローバルモデルはデータ中毒やモデル中毒などの攻撃に対して脆弱になる。 近年、これらの攻撃に対処するために多くの防衛アルゴリズムが提案されているが、非IIDデータセットを仮定するなど、連合学習の性質と一致しない強い仮定がしばしばなされている。 さらに、それらは主に総合的な実験分析を欠いている。 本研究では,データ配信や参加者の類似性,悪意のある参加者の比率などの仮定を一切含まない ARFED という防衛アルゴリズムを提案する。 arfedは主に、グローバルモデルまでの距離に基づいて、モデルアーキテクチャの各レイヤの参加者更新の外れた状態を考慮する。 したがって、外部層を持たない参加者はモデルアグリゲーションに関与している。 我々は,様々なシナリオについて広範な実験を行い,提案手法が異なる攻撃に対する堅牢な防御を提供することを示した。 ARFEDの防衛能力を異なる条件で検証するために,実験評価において,ラベルフリップ,ビザンチン,およびIIDおよび非IID設定に対する部分的知識攻撃を検討した。 さらに,組織的部分的知識攻撃と呼ばれる新たな攻撃を提案し,悪意のある参加者が共通の中毒モデルを定義するために,トレーニング統計を協調的に利用する。 組織的な知識攻撃は、独立した攻撃よりも効果的であることを示す。

In federated learning, each participant trains its local model with its own data and a global model is formed at a trusted server by aggregating model updates coming from these participants. Since the server has no effect and visibility on the training procedure of the participants to ensure privacy, the global model becomes vulnerable to attacks such as data poisoning and model poisoning. Although many defense algorithms have recently been proposed to address these attacks, they often make strong assumptions that do not agree with the nature of federated learning, such as assuming Non-IID datasets. Moreover, they mostly lack comprehensive experimental analyses. In this work, we propose a defense algorithm called ARFED that does not make any assumptions about data distribution, update similarity of participants, or the ratio of the malicious participants. ARFED mainly considers the outlier status of participant updates for each layer of the model architecture based on the distance to the global model. Hence, the participants that do not have any outlier layer are involved in model aggregation. We have performed extensive experiments on diverse scenarios and shown that the proposed approach provides a robust defense against different attacks. To test the defense capability of the ARFED in different conditions, we considered label flipping, Byzantine, and partial knowledge attacks for both IID and Non-IID settings in our experimental evaluations. Moreover, we proposed a new attack, called organized partial knowledge attack, where malicious participants use their training statistics collaboratively to define a common poisoned model. We have shown that organized partial knowledge attacks are more effective than independent attacks.
翻訳日:2023-06-19 18:44:40 公開日:2023-06-16
# 知識駆動アクティブラーニング

Knowledge-driven Active Learning ( http://arxiv.org/abs/2110.08265v4 )

ライセンス: Link先を確認
Gabriele Ciravegna, Fr\'ed\'eric Precioso, Alessandro Betti, Kevin Mottin, Marco Gori(参考訳) 深層学習(DL)モデルの展開は、教師付きデータの量が限られている状況では、いまだに禁止されている。 この問題に対処するために、アクティブラーニング戦略は、dlモデルのトレーニングに必要なラベル付きデータの量を最小化することを目的としている。 ほとんどのアクティブ戦略は不確定なサンプル選択に基づいており、しばしば決定境界に近いサンプルに限定される。 これらのテクニックは理論的には健全であるが、その内容に基づいて選択されたサンプルを理解することは単純ではない。 ここでは、まず、共通のドメイン知識を考慮し、非専門家ユーザが少ないサンプルでモデルをトレーニングできるようにする。 当社の知識駆動アクティブラーニング(kal)フレームワークでは、ルールベースの知識を論理制約に変換し、それらの違反をサンプル選択の自然なガイドとしてチェックします。 データと出力クラスの間の単純な関係でさえ、モデルが監督を必要とする予測を見つける方法を提供する。 私たちは経験的に、KALは i) ドメイン知識が豊富である状況において、多くのアクティブな学習戦略を上回ります。 (ii)初期訓練データから遠く離れているデータ分布を検出する。 (iii)提供された知識がモデルによって獲得されることをドメインの専門家に保証する。 (iv)不確実性に基づく戦略と異なり、回帰や物体認識に適しており、 (v)その計算需要は低い。

The deployment of Deep Learning (DL) models is still precluded in those contexts where the amount of supervised data is limited. To answer this issue, active learning strategies aim at minimizing the amount of labelled data required to train a DL model. Most active strategies are based on uncertain sample selection, and even often restricted to samples lying close to the decision boundary. These techniques are theoretically sound, but an understanding of the selected samples based on their content is not straightforward, further driving non-experts to consider DL as a black-box. For the first time, here we propose to take into consideration common domain-knowledge and enable non-expert users to train a model with fewer samples. In our Knowledge-driven Active Learning (KAL) framework, rule-based knowledge is converted into logic constraints and their violation is checked as a natural guide for sample selection. We show that even simple relationships among data and output classes offer a way to spot predictions for which the model need supervision. We empirically show that KAL (i) outperforms many active learning strategies, particularly in those contexts where domain knowledge is rich, (ii) it discovers data distribution lying far from the initial training data, (iii) it ensures domain experts that the provided knowledge is acquired by the model, (iv) it is suitable for regression and object recognition tasks unlike uncertainty-based strategies, and (v) its computational demand is low.
翻訳日:2023-06-19 18:44:16 公開日:2023-06-16
# 位相規則型時間結晶

Topologically ordered time crystals ( http://arxiv.org/abs/2105.09694v2 )

ライセンス: Link先を確認
Thorsten B. Wahl, Bo Han and Benjamin B\'eri(参考訳) 位相的時間結晶(英: topological time crystals)とは、周期的に駆動される量子多体系の力学フェーズであり、離散時間遷移対称性の自発的破れと内在的位相秩序の共存を捉えている。 我々は,この位相を一般の摂動に対して安定化させることが可能であることを示し,その重要な特徴と特徴,例えばトポロジカル秩序に対するペリメータ法則の動的・時間的形式を定めている。 我々は,高次対称性,量子誤り訂正符号,ホログラフィック対応という3つの相補的な視点で位相的および通常の時間結晶をリンクする。 また,Google Sycamoreプロセッサのための表面符号に基づく位相時間結晶の実験的実現を提案する。

We define topological time crystals, a dynamical phase of periodically driven quantum many-body systems capturing the coexistence of intrinsic topological order with the spontaneous breaking of discrete time-translation symmetry. We show that many-body localization can stabilize this phase against generic perturbations and establish some of its key features and signatures, including a dynamical, time-crystal form of the perimeter law for topological order. We link topological and ordinary time crystals through three complementary perspectives: higher-form symmetries, quantum error-correcting codes, and a holographic correspondence. We also propose an experimental realization of a surface-code-based topological time crystal for the Google Sycamore processor.
翻訳日:2023-06-19 18:43:58 公開日:2023-06-16
# 明示的なカラーフィルタ空間における逆画像色変換

Adversarial Image Color Transformations in Explicit Color Filter Space ( http://arxiv.org/abs/2011.06690v3 )

ライセンス: Link先を確認
Zhengyu Zhao and Zhuoran Liu and Martha Larson(参考訳) ディープニューラルネットワークは敵画像に弱いことが示されている。 従来の攻撃は、厳格に制限された摂動を伴う不可分な敵対的イメージを狙う。 近年、研究者は区別できるが目立たない敵対的な画像を探究し、色変換攻撃が効果的であることを実証している。 本研究では,単純なカラーフィルタのパラメータ空間における勾配情報に最適化された新しいカラー変換攻撃であるAdvCFを提案する。 特に,我々のカラーフィルタ空間は,攻撃面と防御面の両方の観点から,逆色変換に対するモデルロバストネスの体系的解析を行うことができるよう,明示的に規定されている。 対照的に、既存の色変換攻撃は、そのような明示的な空間がないため、体系的な分析の機会を提供しない。 さらに, 画像分類器を騙す際のadvcfの有効性を実証するとともに, 防御に対するロバスト性や画像受容性に関する他の色変換攻撃と比較し, 広範なユーザ調査を行った。 また、advcfの人間解釈可能性を強調し、画像受容性と効率性の両方において、最先端の人間解釈可能な色変換攻撃よりもその優越性を示す。 別の3つの視覚的なタスクにおいて、AdvCFに対するモデル堅牢性に関する興味深い新しい洞察を提供する。

Deep Neural Networks have been shown to be vulnerable to adversarial images. Conventional attacks strive for indistinguishable adversarial images with strictly restricted perturbations. Recently, researchers have moved to explore distinguishable yet non-suspicious adversarial images and demonstrated that color transformation attacks are effective. In this work, we propose Adversarial Color Filter (AdvCF), a novel color transformation attack that is optimized with gradient information in the parameter space of a simple color filter. In particular, our color filter space is explicitly specified so that we are able to provide a systematic analysis of model robustness against adversarial color transformations, from both the attack and defense perspectives. In contrast, existing color transformation attacks do not offer the opportunity for systematic analysis due to the lack of such an explicit space. We further demonstrate the effectiveness of our AdvCF in fooling image classifiers and also compare it with other color transformation attacks regarding their robustness to defenses and image acceptability through an extensive user study. We also highlight the human-interpretability of AdvCF and show its superiority over the state-of-the-art human-interpretable color transformation attack on both image acceptability and efficiency. Additional results provide interesting new insights into model robustness against AdvCF in another three visual tasks.
翻訳日:2023-06-19 18:43:45 公開日:2023-06-16
# 直交群の部分群上の同期問題への統一的アプローチ

A Unified Approach to Synchronization Problems over Subgroups of the Orthogonal Group ( http://arxiv.org/abs/2009.07514v4 )

ライセンス: Link先を確認
Huikang Liu, Man-Chung Yue, Anthony Man-Cho So(参考訳) 群 $\mathcal{G}$ 上の同期問題は、群要素の集合 $G^*_1, \dots, G^*_n \in \mathcal{G}$ を、形式 $G^*_i {G^*_j}^{-1}$ の任意の対比の集合の雑音的な観測に基づいて推定することを目的としている。 このような問題は近年注目を集め、幅広い科学や工学分野に応用されている。 本稿では、群が直交群の閉部分群である同期問題のクラスを考える。 このクラスは、実際に発生する多くのグループ同期問題をカバーする。 私たちの貢献は5倍です。 まず,一般化パワー法に基づく適切な初期化ステップと反復的改良ステップからなる群同期問題に対する統一的な解法を提案し,群,測定グラフ,雑音,初期化における推定誤差の強い理論的保証を享受することを示す。 第二に、我々のアプローチで要求される2つの幾何学的条件を定式化し、それらが直交群の様々な実用的な部分群に対して成り立つことを示す。 条件は部分群の誤差有界幾何と密接に関連しており、最適化の重要な概念である。 第3に、標準ランダムグラフとランダム行列モデルに対する測定グラフとノイズの仮定を検証する。 第4に、古典的な距離エントロピーの概念に基づいて、新しいスペクトル型推定器を開発し分析する。 最後に,提案手法が計算速度,スケーラビリティ,推定誤差の点で既存の手法よりも優れていることを示す。

The problem of synchronization over a group $\mathcal{G}$ aims to estimate a collection of group elements $G^*_1, \dots, G^*_n \in \mathcal{G}$ based on noisy observations of a subset of all pairwise ratios of the form $G^*_i {G^*_j}^{-1}$. Such a problem has gained much attention recently and finds many applications across a wide range of scientific and engineering areas. In this paper, we consider the class of synchronization problems in which the group is a closed subgroup of the orthogonal group. This class covers many group synchronization problems that arise in practice. Our contribution is fivefold. First, we propose a unified approach for solving this class of group synchronization problems, which consists of a suitable initialization step and an iterative refinement step based on the generalized power method, and show that it enjoys a strong theoretical guarantee on the estimation error under certain assumptions on the group, measurement graph, noise, and initialization. Second, we formulate two geometric conditions that are required by our approach and show that they hold for various practically relevant subgroups of the orthogonal group. The conditions are closely related to the error-bound geometry of the subgroup -- an important notion in optimization. Third, we verify the assumptions on the measurement graph and noise for standard random graph and random matrix models. Fourth, based on the classic notion of metric entropy, we develop and analyze a novel spectral-type estimator. Finally, we show via extensive numerical experiments that our proposed non-convex approach outperforms existing approaches in terms of computational speed, scalability, and/or estimation error.
翻訳日:2023-06-19 18:43:26 公開日:2023-06-16
# 簡単な学習者を増やす

Boosting Simple Learners ( http://arxiv.org/abs/2001.11704v8 )

ライセンス: Link先を確認
Noga Alon and Alon Gonen and Elad Hazan and Shay Moran(参考訳) boostingは、弱い仮説と中程度の不正確な仮説を強力で正確な仮説に組み合わせるという、有名な機械学習アプローチである。 弱仮説が有界キャパシティのクラスに属するという仮定の下での強化について検討する。 この仮定は、弱い仮説は「容易に理解できるクラス」からの「反則」であるという一般的な慣例に触発されている。 (Schapire and Freund~'12, Shalev-Shwartz and Ben-David '14) 形式的には、弱仮説のクラスはVC次元が有界であると仮定する。 主に2つの質問に焦点を合わせます (i)Oracle Complexity: 正確な仮説を生成するには、弱い仮説がいくつ必要か? 我々は,新しいブースティングアルゴリズムを設計し,freund と schapire ('95, '12) による古典下限を回避できることを実証する。 下界は、$\Omega({1}/{\gamma^2})=弱仮説と$\gamma$-marginが時々必要であることを示しているが、新しい手法では、それらが有界VC次元のクラスに属することを条件として、$\tilde{O}({1}/{\gamma})$弱仮説のみを必要とする。 多数決で弱い仮説を集約する以前のブースティングアルゴリズムとは異なり、新しいブースティングアルゴリズムはより複雑な(より深い)集約ルールを使用する。 我々は、上記の下限を回避するために、複雑な集約ルールが実際に必要であることを示すことによって、この結果を補完する。 (ii)表現性: 限定されたvcクラスから弱い仮説を取り入れることで、どのタスクを学習できるのか? クラスから"遠い"複雑な概念を学ぶことができるだろうか? 最初の質問に答えるには, ブースティングの表現率を捉えたコンビネータ・ジオメトリパラメーターを導入する。 半空間と決定の切り株を含む、よく研究されたクラスに対する2つ目の質問に対する肯定的な答えを提供する。 その過程で、離散性理論とのつながりを確立し、活用する。

Boosting is a celebrated machine learning approach which is based on the idea of combining weak and moderately inaccurate hypotheses to a strong and accurate one. We study boosting under the assumption that the weak hypotheses belong to a class of bounded capacity. This assumption is inspired by the common convention that weak hypotheses are "rules-of-thumbs" from an "easy-to-learn class". (Schapire and Freund~'12, Shalev-Shwartz and Ben-David '14.) Formally, we assume the class of weak hypotheses has a bounded VC dimension. We focus on two main questions: (i) Oracle Complexity: How many weak hypotheses are needed to produce an accurate hypothesis? We design a novel boosting algorithm and demonstrate that it circumvents a classical lower bound by Freund and Schapire ('95, '12). Whereas the lower bound shows that $\Omega({1}/{\gamma^2})$ weak hypotheses with $\gamma$-margin are sometimes necessary, our new method requires only $\tilde{O}({1}/{\gamma})$ weak hypothesis, provided that they belong to a class of bounded VC dimension. Unlike previous boosting algorithms which aggregate the weak hypotheses by majority votes, the new boosting algorithm uses more complex ("deeper") aggregation rules. We complement this result by showing that complex aggregation rules are in fact necessary to circumvent the aforementioned lower bound. (ii) Expressivity: Which tasks can be learned by boosting weak hypotheses from a bounded VC class? Can complex concepts that are "far away" from the class be learned? Towards answering the first question we {introduce combinatorial-geometric parameters which capture expressivity in boosting.} As a corollary we provide an affirmative answer to the second question for well-studied classes, including half-spaces and decision stumps. Along the way, we establish and exploit connections with Discrepancy Theory.
翻訳日:2023-06-19 18:42:59 公開日:2023-06-16
# サイバー戦争から逃れる:ロシアとウクライナの紛争における市民のハックティビストの役割を探る

Getting Bored of Cyberwar: Exploring the Role of Civilian Hacktivists in the Russia-Ukraine Conflict ( http://arxiv.org/abs/2208.10629v4 )

ライセンス: Link先を確認
Anh V. Vu, Daniel R. Thomas, Ben Collier, Alice Hutchings, Richard Clayton, Ross Anderson(参考訳) ロシアとウクライナの紛争におけるサイバー攻撃と民間のハックティビストの役割については、多くの論評がある。 さまざまなデータソースから引用すると、サイバー犯罪集団と結びついた民間人やボランティアの「ハックティビスト」が戦った重要なサイバー戦争に関する広く支持されている物語は、過大評価されている可能性が高い。 侵入の2ヶ月前と4ヶ月後に、ボランティアによるハッキングディスカッショングループの358万件のWeb偽装攻撃、1.7万件のDDoS攻撃、441件(58万件の回答を含む)を収集した。 定量的な理解を深めるため、ロシアやウクライナのウェブサイトに潜入した個人にインタビューを行った。 以上の結果から,この紛争はロシアとウクライナを標的としたサイバー犯罪とDDoS攻撃の双方で顕著に増加し,低レベルのサイバー犯罪コミュニティの注目を集めたことが示唆された。 しかし、いわゆるサイバー戦争におけるこれらのプレイヤーの役割は軽微であり、人気のある犯罪学の証言で想像される「ハックティビスト」とは似ていない。 初期の関心の波は、デファクトメントキャンペーンに参加する攻撃者が増えてきたが、重要なインフラを狙うのではなく、' の中にランダムなウェブサイトに対する大規模な攻撃があった。 ru' と `. うーん。 一般的な物語によって仮説された,その種の顕著な行動の証拠はほとんど見つからない。 ウクライナ軍の共同調整グループ(it army of ukraine co-ordination group)は、しばしばddos攻撃にさらされるが、その推進目標が軽視されることは滅多になかった。 主な発見は、数週間後に顔認証やDDoS攻撃を行うことへの関心が明らかに失われていることです。 一部のコメンテーターの予測に反して、紛争における低レベルの犯罪集団からの民間のハックティビストの関与はマイナーで短命で、フリーティングであったようである。

There has been substantial commentary on the role of cyberattacks and civilian hacktivists in the Russia-Ukraine conflict. Drawing on a range of data sources, we argue that the widely-held narrative of a significant cyberwar fought by committed civilians and volunteer `hacktivists' linked to cybercrime groups has likely been overhyped. We collected 358k web defacement attacks, 1.7M reflected DDoS attacks, and 441 announcements (with 58k replies) of a volunteer hacking discussion group for two months before and four months after the invasion. To enrich our quantitative understanding, we conducted interviews with individuals who were active in defacing Russian and Ukrainian websites. Our findings indicate that the conflict briefly but significantly caught the attention of the low-level cybercrime community, with notable increases in both defacement and DDoS attacks targeting Russia and Ukraine. However, the role of these players in the so-called cyberwarfare is minor, and they do not resemble the `hacktivists' imagined in popular criminological accounts. Initial waves of interest led to more attackers participating in defacement campaigns, but rather than targeting critical infrastructure, there were mass attacks against random websites within `.ru' and `.ua'. We find little evidence of high-profile actions of the kind hypothesised by the prevalent narrative. The much-vaunted role of the IT Army of Ukraine co-ordination group is mixed; their promoted targets were seldom defaced although sometimes subjected to DDoS attacks. Our main finding is that there was a clear loss of interest in carrying out defacement and DDoS attacks after just a few weeks. Contrary to the prediction of some commentators, the involvement of civilian hacktivists from low-level crime groups in the conflict appears to have been minor, short-lived, and fleeting.
翻訳日:2023-06-19 18:36:07 公開日:2023-06-16
# TotalSegmentator:CT画像における104の解剖学的構造の堅牢なセグメンテーション

TotalSegmentator: robust segmentation of 104 anatomical structures in CT images ( http://arxiv.org/abs/2208.05868v2 )

ライセンス: Link先を確認
Jakob Wasserthal and Hanns-Christian Breit and Manfred T. Meyer and Maurice Pradella and Daniel Hinck and Alexander W. Sauter and Tobias Heye and Daniel Boll and Joshy Cyriac and Shan Yang and Michael Bach and Martin Segeroth(参考訳) 生体CT画像における主要な解剖学的構造をすべて自動的かつ堅牢に分割できるディープラーニングセグメンテーションモデルを提案する。 本研究は, 臓器容積, 疾患の特徴, 外科的・放射線治療計画など, 104の解剖学的構造(27の臓器, 59の骨, 10の筋肉, 8の血管)を分割する1204のct検査(2012年, 2016年, 2020年)を用いた。 CT画像は、通常の臨床研究からランダムにサンプリングされ、現実世界のデータセット(年齢、病理、スキャナー、身体部分、シーケンス、サイト)を表す。 このデータセット上でnnu-netセグメンテーションアルゴリズムを訓練し、モデルの性能を評価するためにdice類似度係数(dice)を計算した。 トレーニングされたアルゴリズムは、年齢依存体積と減衰の変化を調べるために、4004体CT検査の第2データセットに適用された。 提案モデルでは, 広範な臨床所見を主訴とし, テストセット上で高い dice score (0.943) を示した。 このモデルは、別のデータセット(Dice score, 0.932 vs 0.871)で、他の公開セグメンテーションモデルよりも大幅に優れていた。 老化研究は、様々な臓器群(例えば、年齢と大動脈容積、年齢と体後筋の平均減衰)の年齢と容積と平均減衰との間に有意な相関を示した。 104解剖学的構造のロバストで正確なセグメンテーションが可能となる。 アノテーション付きデータセット(https://doi.org/10.5281/zenodo.6802613)とツールキット(https://www.github.com/wasserth/TotalSegmentator)が公開されている。

We present a deep learning segmentation model that can automatically and robustly segment all major anatomical structures in body CT images. In this retrospective study, 1204 CT examinations (from the years 2012, 2016, and 2020) were used to segment 104 anatomical structures (27 organs, 59 bones, 10 muscles, 8 vessels) relevant for use cases such as organ volumetry, disease characterization, and surgical or radiotherapy planning. The CT images were randomly sampled from routine clinical studies and thus represent a real-world dataset (different ages, pathologies, scanners, body parts, sequences, and sites). The authors trained an nnU-Net segmentation algorithm on this dataset and calculated Dice similarity coefficients (Dice) to evaluate the model's performance. The trained algorithm was applied to a second dataset of 4004 whole-body CT examinations to investigate age dependent volume and attenuation changes. The proposed model showed a high Dice score (0.943) on the test set, which included a wide range of clinical data with major pathologies. The model significantly outperformed another publicly available segmentation model on a separate dataset (Dice score, 0.932 versus 0.871, respectively). The aging study demonstrated significant correlations between age and volume and mean attenuation for a variety of organ groups (e.g., age and aortic volume; age and mean attenuation of the autochthonous dorsal musculature). The developed model enables robust and accurate segmentation of 104 anatomical structures. The annotated dataset (https://doi.org/10.5281/zenodo.6802613) and toolkit (https://www.github.com/wasserth/TotalSegmentator) are publicly available.
翻訳日:2023-06-19 18:35:33 公開日:2023-06-16
# ショートカットテストを用いた公平な医療AIのためのショートカット学習の検出

Detecting Shortcut Learning for Fair Medical AI using Shortcut Testing ( http://arxiv.org/abs/2207.10384v2 )

ライセンス: Link先を確認
Alexander Brown, Nenad Tomasev, Jan Freyberg, Yuan Liu, Alan Karthikesalingam, Jessica Schrouff(参考訳) 機械学習(ML)は、医療を改善するための大きな約束を持っていますが、その使用が健康格差を伝播または増幅しないことを保証することは重要です。 重要なステップは、MLモデルの(不)公正性を特徴づけることである。 アルゴリズムの不公平性の潜在的な要因の1つ、ショートカット学習は、トレーニングデータの不適切な相関に基づいてMLモデルが予測を行うときに発生する。 しかし、特に感度特性が疾患と因果関係にある場合、この現象の診断は困難である。 マルチタスク学習を用いて, 近道学習を臨床mlシステムの公平性評価の一部として評価・緩和する最初の方法を提案し, 放射線学および皮膚科における臨床課題への応用を実証する。 最後に,近道が不公平な行為に責任を負わない場合の事例を明らかにし,医療aiにおける公平さ緩和への総合的なアプローチの必要性を強調した。

Machine learning (ML) holds great promise for improving healthcare, but it is critical to ensure that its use will not propagate or amplify health disparities. An important step is to characterize the (un)fairness of ML models - their tendency to perform differently across subgroups of the population - and to understand its underlying mechanisms. One potential driver of algorithmic unfairness, shortcut learning, arises when ML models base predictions on improper correlations in the training data. However, diagnosing this phenomenon is difficult, especially when sensitive attributes are causally linked with disease. Using multi-task learning, we propose the first method to assess and mitigate shortcut learning as a part of the fairness assessment of clinical ML systems, and demonstrate its application to clinical tasks in radiology and dermatology. Finally, our approach reveals instances when shortcutting is not responsible for unfairness, highlighting the need for a holistic approach to fairness mitigation in medical AI.
翻訳日:2023-06-19 18:34:30 公開日:2023-06-16
# ResAct: Residual Actor を用いたシーケンシャルレコメンデーションにおける長期的エンゲージメントの強化

ResAct: Reinforcing Long-term Engagement in Sequential Recommendation with Residual Actor ( http://arxiv.org/abs/2206.02620v2 )

ライセンス: Link先を確認
Wanqi Xue, Qingpeng Cai, Ruohan Zhan, Dong Zheng, Peng Jiang, Kun Gai, Bo An(参考訳) デイリーアクティブユーザ(DAU)や居住時間といったプロダクト運用メトリクスに直接影響するため、シーケンシャルなレコメンデーションにおける即時エンゲージメントよりも長期エンゲージメントが望ましい。 一方、強化学習(RL)は、長期的エンゲージメントを逐次的に最適化するための有望な枠組みとして広く見なされている。 しかし、高価なオンラインインタラクションのため、長期的エンゲージメントを最適化する際、RLアルゴリズムが状態-行動値の推定、探索、特徴抽出を行うのは非常に困難である。 本稿では,オンライン・サービス・ポリシーに近いが,それに近い政策を求めるResActを提案する。 このようにして、学習方針の近傍で十分なデータを収集し、状態行動の値を適切に推定できるようにし、オンライン探索を行う必要はない。 ResActは、まずオンラインの振る舞いを再構築し、Residual Actorを通じて改善することでポリシーを最適化する。 長期情報を抽出するため、resactは2つの情報理論正規化器を用いて特徴の表現力と簡潔さを確認する。 我々は、何千万ものレコメンデーション要求からなるベンチマークデータセットと大規模産業データセットで実験を行う。 実験の結果,本手法は様々な長期エンゲージメント最適化タスクにおいて,最先端のベースラインを著しく上回ることがわかった。

Long-term engagement is preferred over immediate engagement in sequential recommendation as it directly affects product operational metrics such as daily active users (DAUs) and dwell time. Meanwhile, reinforcement learning (RL) is widely regarded as a promising framework for optimizing long-term engagement in sequential recommendation. However, due to expensive online interactions, it is very difficult for RL algorithms to perform state-action value estimation, exploration and feature extraction when optimizing long-term engagement. In this paper, we propose ResAct which seeks a policy that is close to, but better than, the online-serving policy. In this way, we can collect sufficient data near the learned policy so that state-action values can be properly estimated, and there is no need to perform online exploration. ResAct optimizes the policy by first reconstructing the online behaviors and then improving it via a Residual Actor. To extract long-term information, ResAct utilizes two information-theoretical regularizers to confirm the expressiveness and conciseness of features. We conduct experiments on a benchmark dataset and a large-scale industrial dataset which consists of tens of millions of recommendation requests. Experimental results show that our method significantly outperforms the state-of-the-art baselines in various long-term engagement optimization tasks.
翻訳日:2023-06-19 18:33:38 公開日:2023-06-16
# DocREDの再検討 -- 関係抽出における偽否定問題に対処する

Revisiting DocRED -- Addressing the False Negative Problem in Relation Extraction ( http://arxiv.org/abs/2205.12696v3 )

ライセンス: Link先を確認
Qingyu Tan, Lu Xu, Lidong Bing, Hwee Tou Ng, Sharifah Mahani Aljunied(参考訳) DocREDデータセットは、ドキュメントレベルの関係抽出(RE)のための最も人気があり広く使われているベンチマークの1つである。 大規模なアノテーション付きデータセットを持つために、推奨修正アノテーションスキームを採用している。 しかし,docredのアノテーションは不完全であり,偽陰性のサンプルが一般的であることがわかった。 我々はDocREDデータセットにおける圧倒的な偽陰性問題の原因と影響を分析する。 欠点に対処するため、DocREDデータセットに4,053のドキュメントを再注釈し、失敗した関係を元のDocREDに追加しました。 修正されたDocREDデータセットをRe-DocREDと名付けます。 両者のデータセット上で最先端のニューラルモデルを用いた広範な実験を行い,実験結果から,リドクトレートでトレーニングおよび評価を行ったモデルが,約13f1点の性能向上を達成できることが確認された。 さらに,さらなる改善のための潜在的な領域を特定するために,総合的な分析を行う。 私たちのデータセットはhttps://github.com/tonytan48/Re-DocREDで公開されています。

The DocRED dataset is one of the most popular and widely used benchmarks for document-level relation extraction (RE). It adopts a recommend-revise annotation scheme so as to have a large-scale annotated dataset. However, we find that the annotation of DocRED is incomplete, i.e., false negative samples are prevalent. We analyze the causes and effects of the overwhelming false negative problem in the DocRED dataset. To address the shortcoming, we re-annotate 4,053 documents in the DocRED dataset by adding the missed relation triples back to the original DocRED. We name our revised DocRED dataset Re-DocRED. We conduct extensive experiments with state-of-the-art neural models on both datasets, and the experimental results show that the models trained and evaluated on our Re-DocRED achieve performance improvements of around 13 F1 points. Moreover, we conduct a comprehensive analysis to identify the potential areas for further improvement. Our dataset is publicly available at https://github.com/tonytan48/Re-DocRED.
翻訳日:2023-06-19 18:33:00 公開日:2023-06-16
# InDistill: モデル圧縮のための情報フロー保存知識蒸留

InDistill: Information flow-preserving knowledge distillation for model compression ( http://arxiv.org/abs/2205.10003v3 )

ライセンス: Link先を確認
Ioannis Sarridis, Christos Koutlis, Giorgos Kordopatis-Zilos, Ioannis Kompatsiaris, Symeon Papadopoulos(参考訳) 本稿では,重大教員から軽量学生への重要な情報フロー経路の伝達のための統一フレームワークにおいて,知識の蒸留とチャネルプルーニングを組み合わせたモデル圧縮手法であるindistillを提案する。 このような情報は、蒸留前の符号化段階によって、通常、以前の方法で崩壊する。 対照的に、indistillは、先生の中間層に適用される刈り込み操作を利用して、その幅を対応する生徒層の幅に還元する。 このようにして,中間層をエンコーディングステージを必要とせずに直接蒸留できるアーキテクチャアライメントを強制的に実施する。 また、各層の蒸留難易度と、情報フローパスが作成される臨界学習期間を考慮し、カリキュラム学習に基づく学習方式を採用する。 提案手法は3つの標準ベンチマーク(cifar-10, cub-200, fashionmnist)において,それぞれ3.08%, 14.27%, 1%, より困難な評価設定(imagenet, cifar-100 それぞれ 1.9.7%, 5.65%)において, 最先端性能を上回っている。

In this paper we introduce InDistill, a model compression approach that combines knowledge distillation and channel pruning in a unified framework for the transfer of the critical information flow paths from a heavyweight teacher to a lightweight student. Such information is typically collapsed in previous methods due to an encoding stage prior to distillation. By contrast, InDistill leverages a pruning operation applied to the teacher's intermediate layers reducing their width to the corresponding student layers' width. In that way, we force architectural alignment enabling the intermediate layers to be directly distilled without the need of an encoding stage. Additionally, a curriculum learning-based training scheme is adopted considering the distillation difficulty of each layer and the critical learning periods in which the information flow paths are created. The proposed method surpasses state-of-the-art performance on three standard benchmarks, i.e. CIFAR-10, CUB-200, and FashionMNIST by 3.08%, 14.27%, and 1% mAP, respectively, as well as on more challenging evaluation settings, i.e. ImageNet and CIFAR-100 by 1.97% and 5.65% mAP, respectively.
翻訳日:2023-06-19 18:32:44 公開日:2023-06-16
# 確率エントロピー生成:非単位量子力学におけるゆらぎ関係と可逆性緩和

Stochastic entropy production: Fluctuation relation and irreversibility mitigation in non-unital quantum dynamics ( http://arxiv.org/abs/2210.07866v2 )

ライセンス: Link先を確認
Eliana Fiorelli, Stefano Gherardini, Stefano Marcantoni(参考訳) 本研究では,時間発展が非単位量子写像のクラスによって記述されるオープン量子系の確率エントロピー生成について検討する。 特に、[Phys. Rev. E 92, 032129 (2015)] のように、非平衡ポテンシャルに関係のあるクラウス作用素を考える。 このクラスは熱化と非熱状態の平衡の両方を担っている。 ユニタリ量子写像と異なり、非ユニタリティーは開量子系の前方および後方のダイナミクスを監視下で不均衡に導く。 ここでは、進化の不変状態と通勤する可観測物に集中して、非平衡ポテンシャルが確率エントロピー生成の統計にどのように入るかを示す。 特に、後者に対するゆらぎ関係を証明し、相対的エントロピーの観点からのみその平均を表現するための便利な方法を見出す。 次に,非マルコフ過渡性のある量子ビットの熱化に理論的結果を適用し,[phys. rev. research 2, 033250 (2020)]に導入された可逆性緩和現象をこの文脈で解析する。

In this work, we study the stochastic entropy production in open quantum systems whose time evolution is described by a class of non-unital quantum maps. In particular, as in [Phys. Rev. E 92, 032129 (2015)], we consider Kraus operators that can be related to a nonequilibrium potential. This class accounts for both thermalization and equilibration to a non-thermal state. Unlike unital quantum maps, non-unitality is responsible for an unbalance of the forward and backward dynamics of the open quantum system under scrutiny. Here, concentrating on observables that commute with the invariant state of the evolution, we show how the non-equilibrium potential enters the statistics of the stochastic entropy production. In particular, we prove a fluctuation relation for the latter and we find a convenient way of expressing its average solely in terms of relative entropies. Then, the theoretical results are applied to the thermalization of a qubit with non-Markovian transient, and the phenomenon of irreversibility mitigation, introduced in [Phys. Rev. Research 2, 033250 (2020)], is analyzed in this context.
翻訳日:2023-06-19 18:26:49 公開日:2023-06-16
# 対照的な重みpruningを用いたdebiased subnetworksの訓練

Training Debiased Subnetworks with Contrastive Weight Pruning ( http://arxiv.org/abs/2210.05247v2 )

ライセンス: Link先を確認
Geon Yeong Park, Sangmin Lee, Sang Wan Lee, Jong Chul Ye(参考訳) ニューラルネットワークはしばしば、一般化しない誤解を招く統計的証拠を提供する刺激的に相関した特徴に偏っている。 最適な偏りのない機能的サブネットワークは、厳しい偏りのあるネットワークの中に存在するのだろうか? もしそうなら、どのようにサブネットワークを抽出するのか? このような偏りのないサブネットワークの存在に関する実証的な証拠は蓄積されているが、これらの観測は主に地底偏りのないサンプルの指導に基づいている。 したがって、実際にバイアスのあるトレーニングデータセットを持つ最適なサブネットワークを見つける方法が未検討である。 これに対処するために、我々はまず、強いスプリアス相関の存在下で、偏りのないサブネットワークを探索する既存のアルゴリズムの潜在的な制限を警告する理論的な洞察を示す。 さらに,構造学習におけるバイアス強調サンプルの重要性を解明する。 これらの観測により、高価なグループアノテーションなしで非バイアスのサブネットを探索するDCWP(Debiased Contrastive Weight Pruning)アルゴリズムを提案する。 実験の結果,パラメータ数が大幅に減少しているにもかかわらず,本手法は最先端のデバイアス法よりも優れていた。

Neural networks are often biased to spuriously correlated features that provide misleading statistical evidence that does not generalize. This raises an interesting question: ``Does an optimal unbiased functional subnetwork exist in a severely biased network? If so, how to extract such subnetwork?" While empirical evidence has been accumulated about the existence of such unbiased subnetworks, these observations are mainly based on the guidance of ground-truth unbiased samples. Thus, it is unexplored how to discover the optimal subnetworks with biased training datasets in practice. To address this, here we first present our theoretical insight that alerts potential limitations of existing algorithms in exploring unbiased subnetworks in the presence of strong spurious correlations. We then further elucidate the importance of bias-conflicting samples on structure learning. Motivated by these observations, we propose a Debiased Contrastive Weight Pruning (DCWP) algorithm, which probes unbiased subnetworks without expensive group annotations. Experimental results demonstrate that our approach significantly outperforms state-of-the-art debiasing methods despite its considerable reduction in the number of parameters.
翻訳日:2023-06-19 18:26:29 公開日:2023-06-16
# less is more: 正確で堅牢で解釈可能なグラフマイニングのためのslimg

Less is More: SlimG for Accurate, Robust, and Interpretable Graph Mining ( http://arxiv.org/abs/2210.04081v4 )

ライセンス: Link先を確認
Jaemin Yoo, Meng-Chieh Lee, Shubhranshu Shekhar, and Christos Faloutsos(参考訳) ノイズのある特徴と構造を持つ様々なグラフにおける半教師付きノード分類をどうやって解くか。 グラフニューラルネットワーク(GNN)は多くのグラフマイニングタスクに成功しているが、トレーニングの難しさ、ハイパーパラメータチューニング、モデル自体の選択などにより、様々なグラフシナリオへの一般化性が制限されている。 アインシュタインは「すべてをできるだけシンプルにすべきだが、単純ではない」と述べた。 慎重に設計されたシンプルなモデルは、現実世界のグラフで洗練されたものを上回ることができる。 この原理に基づき, 4つの望ましい特性を示す半教師付きノード分類のためのslimgを提案する。 (a)13の現実世界のデータセットのうち10の精度、勝利または結びつき (b)ロバストで、グラフデータのすべてのシナリオ(ホモフィリー、ヘテロフィリー、ランダム構造、ノイズのある特徴など)を処理する唯一のものである。 (c)高速でスケーラブルで、百万のグラフで最大18倍の速さでトレーニングできる。 (d)線形性と疎性のおかげで解釈可能である。 我々は,既存のGNNの設計,衛生チェック,包括的アブレーション研究の体系的研究を通じて,SlimGの成功を説明する。

How can we solve semi-supervised node classification in various graphs possibly with noisy features and structures? Graph neural networks (GNNs) have succeeded in many graph mining tasks, but their generalizability to various graph scenarios is limited due to the difficulty of training, hyperparameter tuning, and the selection of a model itself. Einstein said that we should "make everything as simple as possible, but not simpler." We rephrase it into the careful simplicity principle: a carefully-designed simple model can surpass sophisticated ones in real-world graphs. Based on the principle, we propose SlimG for semi-supervised node classification, which exhibits four desirable properties: It is (a) accurate, winning or tying on 10 out of 13 real-world datasets; (b) robust, being the only one that handles all scenarios of graph data (homophily, heterophily, random structure, noisy features, etc.); (c) fast and scalable, showing up to 18 times faster training in million-scale graphs; and (d) interpretable, thanks to the linearity and sparsity. We explain the success of SlimG through a systematic study of the designs of existing GNNs, sanity checks, and comprehensive ablation studies.
翻訳日:2023-06-19 18:26:12 公開日:2023-06-16
# 光子の重力自己相互作用における量子重力のシグネチャ

Signatures of Quantum Gravity in the Gravitational Self-Interaction of Photons ( http://arxiv.org/abs/2210.02803v4 )

ライセンス: Link先を確認
Zain Mehdi, Joseph J. Hope, and Simon A. Haine(参考訳) 共振器内の光子の重力自己相互作用を用いた量子重力の相対論的テストを提案する。 この相互作用は、古典的な重力理論では再生できない光の量子状態において、多くの量子重力シグネチャをもたらすことを実証する。 量子パラメータ推定理論を用いてこれらの効果を厳密に評価し,それらのシグネチャを最適に抽出する簡易な測定手法について考察する。 重要なことは、提案された試験はQED光子-光子散乱が無く、中間重力子のスピンに敏感であり、重力相互作用の局所性を調べることができる。 これらのプロトコルは、相対論的環境で重力の量子の性質を研究するための新しい方法を提供する。

We propose relativistic tests of quantum gravity using the gravitational self-interaction of photons in a cavity. We demonstrate that this interaction results in a number of quantum gravitational signatures in the quantum state of the light that cannot be reproduced by any classical theory of gravity. We rigorously assess these effects using quantum parameter estimation theory, and discuss simple measurement schemes that optimally extract their signatures. Crucially, the proposed tests are free of QED photon-photon scattering, are sensitive to the spin of the mediating gravitons, and can probe the locality of the gravitational interaction. These protocols provide a new avenue for studying the quantum nature of gravity in a relativistic setting.
翻訳日:2023-06-19 18:25:30 公開日:2023-06-16
# 量子エクストリーム学習マシンの可能性と限界

Potential and limitations of quantum extreme learning machines ( http://arxiv.org/abs/2210.00780v4 )

ライセンス: Link先を確認
Luca Innocenti, Salvatore Lorenzo, Ivan Palmisano, Alessandro Ferraro, Mauro Paternostro, G. Massimo Palma(参考訳) 量子貯水池コンピュータ (QRC) と量子極端学習機械 (QELM) は、量子状態の性質の推定などの課題を解決するために、固定された(一般には校正されていない)量子デバイスの結果を効率的に後処理することを目的としている。 現在不足しているその可能性と制限の特性により、システム識別、デバイスパフォーマンスの最適化、状態やプロセスの再構築といった問題に対するアプローチの完全な展開が可能になる。 本稿では,QRCとQELMをモデル化するフレームワークを提案し,単一の有効測定によって簡潔に記述できることを示し,そのようなプロトコルで正確に検索可能な情報の明示的な特徴付けを提供する。 さらに、QELMのトレーニングプロセスと、そのデバイスを特徴付ける効果的な測定方法の再構築の類似点を見出した。 我々の分析は、QELMとQRCの両方の能力と限界をより深く理解する方法を示し、ノイズや不完全性に対してより耐性のある量子状態推定のための強力な測定パラダイムになる可能性がある。

Quantum reservoir computers (QRC) and quantum extreme learning machines (QELM) aim to efficiently post-process the outcome of fixed -- generally uncalibrated -- quantum devices to solve tasks such as the estimation of the properties of quantum states. The characterisation of their potential and limitations, which is currently lacking, will enable the full deployment of such approaches to problems of system identification, device performance optimization, and state or process reconstruction. We present a framework to model QRCs and QELMs, showing that they can be concisely described via single effective measurements, and provide an explicit characterisation of the information exactly retrievable with such protocols. We furthermore find a close analogy between the training process of QELMs and that of reconstructing the effective measurement characterising the given device. Our analysis paves the way to a more thorough understanding of the capabilities and limitations of both QELMs and QRCs, and has the potential to become a powerful measurement paradigm for quantum state estimation that is more resilient to noise and imperfections.
翻訳日:2023-06-19 18:25:18 公開日:2023-06-16
# rppg-toolbox: 深いリモートppgツールボックス

rPPG-Toolbox: Deep Remote PPG Toolbox ( http://arxiv.org/abs/2210.00716v2 )

ライセンス: Link先を確認
Xin Liu, Girish Narayanswamy, Akshay Paruchuri, Xiaoyu Zhang, Jiankai Tang, Yuzhe Zhang, Yuntao Wang, Soumyadip Sengupta, Shwetak Patel, Daniel McDuff(参考訳) カメラに基づく生理学的測定はコンピュータビジョンの急速に成長する分野である。 RPPG(Remote Photoplethysmography)は、画像装置(例えばカメラ)を用いて、光胸腺撮影により末梢血量パルス(BVP)を測定し、ウェブカメラやスマートフォンによる心臓測定を可能にする。 しかし、そのタスクは、最先端の結果を得るために必要となる、重要な前処理、モデリング、後処理ステップを持つ非自明である。 結果のレプリケーションと新しいモデルのベンチマークは、科学的な進歩には不可欠であるが、ディープラーニングの他の多くのアプリケーションと同様、信頼できるコードベースは発見や使用が容易ではない。 我々は、公開ベンチマークデータセット、データ拡張、体系的評価をサポートする、教師なしおよび教師なしのrPPGモデルを含む包括的なツールボックス、rPPG-Toolboxを提案する。

Camera-based physiological measurement is a fast growing field of computer vision. Remote photoplethysmography (rPPG) utilizes imaging devices (e.g., cameras) to measure the peripheral blood volume pulse (BVP) via photoplethysmography, and enables cardiac measurement via webcams and smartphones. However, the task is non-trivial with important pre-processing, modeling, and post-processing steps required to obtain state-of-the-art results. Replication of results and benchmarking of new models is critical for scientific progress; however, as with many other applications of deep learning, reliable codebases are not easy to find or use. We present a comprehensive toolbox, rPPG-Toolbox, that contains unsupervised and supervised rPPG models with support for public benchmark datasets, data augmentation, and systematic evaluation: \url{https://github.com/ubicomplab/rPPG-Toolbox}
翻訳日:2023-06-19 18:24:59 公開日:2023-06-16
# fact-saboteurs: 事実検証システムに対する証拠操作の分類法

Fact-Saboteurs: A Taxonomy of Evidence Manipulation Attacks against Fact-Verification Systems ( http://arxiv.org/abs/2209.03755v4 )

ライセンス: Link先を確認
Sahar Abdelnabi and Mario Fritz(参考訳) 誤報と誤報は、我々の安全と安全にとって重大な世界的脅威である。 オンラインの誤情報の規模に対処するために、研究者は関連する証拠を検索し検証することで事実チェックの自動化に取り組んでいる。 しかし、多くの進歩にもかかわらず、そのようなシステムに対する攻撃ベクトルの包括的評価はまだ不十分である。 特に、自動事実検証プロセスは、彼らが戦おうとしている正確な偽情報キャンペーンに弱い可能性がある。 本研究では,オンライン証拠を自動的に改ざんし,関連する証拠をカモフラージュしたり,誤解を招く証拠を植え付けることによって事実確認モデルを混乱させる敵を想定する。 まず,これら2つの目標と異なる脅威モデル次元にまたがる探索的分類法を提案する。 これを踏まえ,いくつかの攻撃手法を設計,提案する。 証拠のクレームサレントスニペットを微調整し,多様かつクレームアラインな証拠を生成することが可能であることを示す。 したがって, 分類学の次元の多種多様な順列において, 事実チェック性能を格段に低下させる。 攻撃は、ポストホックなクレームの修正に対しても堅牢である。 我々の分析は、矛盾する証拠に直面したモデル推論の潜在的な限界をさらに示唆している。 我々は,これらの攻撃が,そのようなモデルの検査およびループ内利用シナリオに有害な影響を及ぼす可能性があることを強調し,今後の防衛の課題と方向性について議論して結論づける。

Mis- and disinformation are a substantial global threat to our security and safety. To cope with the scale of online misinformation, researchers have been working on automating fact-checking by retrieving and verifying against relevant evidence. However, despite many advances, a comprehensive evaluation of the possible attack vectors against such systems is still lacking. Particularly, the automated fact-verification process might be vulnerable to the exact disinformation campaigns it is trying to combat. In this work, we assume an adversary that automatically tampers with the online evidence in order to disrupt the fact-checking model via camouflaging the relevant evidence or planting a misleading one. We first propose an exploratory taxonomy that spans these two targets and the different threat model dimensions. Guided by this, we design and propose several potential attack methods. We show that it is possible to subtly modify claim-salient snippets in the evidence and generate diverse and claim-aligned evidence. Thus, we highly degrade the fact-checking performance under many different permutations of the taxonomy's dimensions. The attacks are also robust against post-hoc modifications of the claim. Our analysis further hints at potential limitations in models' inference when faced with contradicting evidence. We emphasize that these attacks can have harmful implications on the inspectable and human-in-the-loop usage scenarios of such models, and we conclude by discussing challenges and directions for future defenses.
翻訳日:2023-06-19 18:24:40 公開日:2023-06-16
# 最善の決定は最善のアドバイスではない - 順守を意識した推奨を行う

The Best Decisions Are Not the Best Advice: Making Adherence-Aware Recommendations ( http://arxiv.org/abs/2209.01874v3 )

ライセンス: Link先を確認
Julien Grand-Cl\'ement and Jean Pauphilet(参考訳) 多くのhigh-stake decisionは、人間のオペレータがアルゴリズムからレコメンデーションを受けるが、究極の意思決定者であるという、expert-in-loop構造に従う。 したがって、アルゴリズムの推奨は、実際に実施されている実際の決定と異なるかもしれない。 しかし、ほとんどのアルゴリズムレコメンデーションは、レコメンデーションが完全に実装されると仮定する最適化問題を解くことで得られる。 提案手法は,提案したポリシーと実装したポリシーの二分法を捕捉し,部分的付着が最適勧告に与える影響を分析する。 提案手法では,現在の人体ベースライン性能と推奨アルゴリズムの双方と比較して,現在ほとんどのレコメンデーションエンジンが実施している部分付着現象を見越すことで,任意の性能劣化を招きかねないことが示されている。 また,本フレームワークは,このような人的逸脱に対して自然に免疫を持ち,基本方針の改善が保証される,構造を解析し,最適なレコメンデーションポリシーを算出するための有用なツールを提供する。

Many high-stake decisions follow an expert-in-loop structure in that a human operator receives recommendations from an algorithm but is the ultimate decision maker. Hence, the algorithm's recommendation may differ from the actual decision implemented in practice. However, most algorithmic recommendations are obtained by solving an optimization problem that assumes recommendations will be perfectly implemented. We propose an adherence-aware optimization framework to capture the dichotomy between the recommended and the implemented policy and analyze the impact of partial adherence on the optimal recommendation. We show that overlooking the partial adherence phenomenon, as is currently being done by most recommendation engines, can lead to arbitrarily severe performance deterioration, compared with both the current human baseline performance and what is expected by the recommendation algorithm. Our framework also provides useful tools to analyze the structure and to compute optimal recommendation policies that are naturally immune against such human deviations, and are guaranteed to improve upon the baseline policy.
翻訳日:2023-06-19 18:24:14 公開日:2023-06-16
# 符号付きバイナリウェイトネットワーク

Signed Binary Weight Networks ( http://arxiv.org/abs/2211.13838v2 )

ライセンス: Link先を確認
Sachit Kuhar, Alexey Tumanov, Judy Hoffman(参考訳) AIをユビキタスにするためには、ディープニューラルネットワーク(DNN)の効率的な推論が不可欠である。 効率的な推論を可能にする2つの重要なアルゴリズム技術 - sparsityとbinarization。 これらの技術は、ハードウェア・ソフトウェアレベルでの重みの幅と重みの繰り返しに変換され、電力と遅延の要求が極端に低いDNNをデプロイできる。 類似の精度を維持しつつ(重み空間と重み繰り返しを両立させることにより)効率を向上する,符号二元ネットワークと呼ばれる新しい手法を提案する。 本手法は,imagenet および cifar10 データセットにおいて,バイナリで同等の精度を実現し,69%のスパーシティを実現する。 汎用デバイスにこれらのモデルをデプロイする際の実際のスピードアップを観察し、この高い非構造空間がASICのエネルギー消費のさらなる削減につながることを示す。

Efficient inference of Deep Neural Networks (DNNs) is essential to making AI ubiquitous. Two important algorithmic techniques have shown promise for enabling efficient inference - sparsity and binarization. These techniques translate into weight sparsity and weight repetition at the hardware-software level enabling the deployment of DNNs with critically low power and latency requirements. We propose a new method called signed-binary networks to improve efficiency further (by exploiting both weight sparsity and weight repetition together) while maintaining similar accuracy. Our method achieves comparable accuracy on ImageNet and CIFAR10 datasets with binary and can lead to 69% sparsity. We observe real speedup when deploying these models on general-purpose devices and show that this high percentage of unstructured sparsity can lead to a further reduction in energy consumption on ASICs.
翻訳日:2023-06-19 18:16:14 公開日:2023-06-16
# 変分量子アルゴリズムの深さを最適化することはQCMAに強く依存する

Optimizing the depth of variational quantum algorithms is strongly QCMA-hard to approximate ( http://arxiv.org/abs/2211.12519v2 )

ライセンス: Link先を確認
Lennart Bittel, Sevag Gharibian, Martin Kliesch(参考訳) The Quantum Approximate Optimization Algorithm (QAOA) of [Farhi, Goldstone, Gutmann, 2014] のような変分量子アルゴリズム (VQA) は、量子ハードウェアへの短期的応用に向けて激しい研究が行われている。 vqasの重要なパラメータは、使用される変分 ``ansatz'' の \emph{depth} である - 深さが小さくなるほど、ansatzは短期的な量子ハードウェアに対して、システムが解決する前に回路を完全に実行する機会を与える。 本研究では,与えられたVQAアンザッツの最適深さを近似することは困難であることを示す。 形式的には、任意の定数$\epsilon>0$に対して、VQAインスタンスの符号化サイズを表す$N$に対して、乗法係数$N^{1-\epsilon}$内のVQAアンサッツの最適深さを近似することはQCMAハードであることが示される。 (以下、量子古典メルリン・アーサー(QCMA)はNPの量子一般化である。 simpler'' の QAOA 型設定でも,この硬さが持続することを示す。 私たちの知る限りでは、これは最初の自然なqcmaの難解な問題となる。

Variational Quantum Algorithms (VQAs), such as the Quantum Approximate Optimization Algorithm (QAOA) of [Farhi, Goldstone, Gutmann, 2014], have seen intense study towards near-term applications on quantum hardware. A crucial parameter for VQAs is the \emph{depth} of the variational ``ansatz'' used -- the smaller the depth, the more amenable the ansatz is to near-term quantum hardware in that it gives the circuit a chance to be fully executed before the system decoheres. In this work, we show that approximating the optimal depth for a given VQA ansatz is intractable. Formally, we show that for any constant $\epsilon>0$, it is QCMA-hard to approximate the optimal depth of a VQA ansatz within multiplicative factor $N^{1-\epsilon}$, for $N$ denoting the encoding size of the VQA instance. (Here, Quantum Classical Merlin-Arthur (QCMA) is a quantum generalization of NP.) We then show that this hardness persists in the even ``simpler'' QAOA-type settings. To our knowledge, this yields the first natural QCMA-hard-to-approximate problems.
翻訳日:2023-06-19 18:16:01 公開日:2023-06-16
# FLNeRF:ニューラルラジアンスフィールドにおける3次元顔のランドマーク推定

FLNeRF: 3D Facial Landmarks Estimation in Neural Radiance Fields ( http://arxiv.org/abs/2211.11202v3 )

ライセンス: Link先を確認
Hao Zhang, Tianyuan Dai, Yu-Wing Tai, Chi-Keung Tang(参考訳) 本稿では,ニューラルレイディアンスフィールド(NeRF)における3次元顔のランドマークを直接予測する最初の重要な研究について述べる。 3次元粗面間ランドマークnerf (flnerf) モデルを用いて, 顔特徴を個別に抽出し, 正確なランドマーク検出を行う。 FLNeRFを訓練するための誇張された表情(例えば、頬吹き、広い開口口、目まきなど)を含む大きな感情範囲をシミュレートするために、表情増強を微細なスケールで顔特徴に適用する。 高品質な顔編集やNeRFランドマークを用いた直接制御の切り替えといった下流作業に寄与するFLNeRFの有効性を,最先端の3次元顔ランドマーク推定手法と定性的かつ定量的に比較した。 コードとデータは利用可能だ。 Githubのリンク:https://github.com/ZHANG1023/FLNeRF。

This paper presents the first significant work on directly predicting 3D face landmarks on neural radiance fields (NeRFs). Our 3D coarse-to-fine Face Landmarks NeRF (FLNeRF) model efficiently samples from a given face NeRF with individual facial features for accurate landmarks detection. Expression augmentation is applied to facial features in a fine scale to simulate large emotions range including exaggerated facial expressions (e.g., cheek blowing, wide opening mouth, eye blinking) for training FLNeRF. Qualitative and quantitative comparison with related state-of-the-art 3D facial landmark estimation methods demonstrate the efficacy of FLNeRF, which contributes to downstream tasks such as high-quality face editing and swapping with direct control using our NeRF landmarks. Code and data will be available. Github link: https://github.com/ZHANG1023/FLNeRF.
翻訳日:2023-06-19 18:15:34 公開日:2023-06-16
# モーションアウェアトークン選択による効率的な映像表現学習

Efficient Video Representation Learning via Motion-Aware Token Selection ( http://arxiv.org/abs/2211.10636v2 )

ライセンス: Link先を確認
Sunil Hwang, Jaehong Yoon, Youngwan Lee, Sung Ju Hwang(参考訳) 最近出現したMasked Video Modeling技術は、ビデオの自己教師型学習において、従来の手法を著しく上回り、その可能性を実証した。 しかし、ランダムマスキング戦略による不正なトークンやフレームを予測しながら、過剰な計算とメモリを必要とするため、トレーニングには過剰な計算能力が必要になる。 (例:16ノード以上、128のNVIDIA A100 GPUを持つ)。 この問題を解決するために,ビデオ中のパッチ間の不均一な情報密度を利用して新しいトークン選択手法MATS: Motion-Aware Token Selectionを提案する。 さらに、最小冗長性で情報的および因果的フレームにフォーカスできる適応的なフレーム選択戦略を提案する。 この手法は計算とメモリの要求を大幅に削減し、8gpuの単一マシンで事前トレーニングと微調整を可能にし、複数のベンチマークと未作成のego4dデータセットで計算とメモリに重い最先端の手法に匹敵する性能を達成する。 私たちのマットの効率は、ビデオの自己監督学習に関するさらなる研究の障壁を減らすことに寄与することを期待しています。

Recently emerged Masked Video Modeling techniques demonstrated their potential by significantly outperforming previous methods in self-supervised learning for video. However, they require an excessive amount of computations and memory while predicting uninformative tokens/frames due to random masking strategies, requiring excessive computing power for training. (e.g., over 16 nodes with 128 NVIDIA A100 GPUs). To resolve this issue, we exploit the unequal information density among the patches in videos and propose a new token selection method, MATS: Motion-Aware Token Selection, that finds tokens containing rich motion features and drops uninformative ones during both self-supervised pre-training and fine-tuning. We further present an adaptive frame selection strategy that allows the model to focus on informative and causal frames with minimal redundancy. Our method significantly reduces computation and memory requirements, enabling the pre-training and fine-tuning on a single machine with 8 GPUs while achieving comparable performance to computation- and memory-heavy state-of-the-art methods on multiple benchmarks and on the uncurated Ego4D dataset. We are hopeful that the efficiency of our MATS will contribute to reducing the barrier to conducting further research on self-supervised learning for videos.
翻訳日:2023-06-19 18:15:16 公開日:2023-06-16
# 質量非依存な質量物体の量子性試験

Mass-independent test of quantumness of a massive object ( http://arxiv.org/abs/2211.10318v2 )

ライセンス: Link先を確認
Debarshi Das, Dipankar Home, Hendrik Ulbricht, Sougato Bose(参考訳) 大質量の非古典性を証明するための経験的スキームの探索は、現在の研究の中心的な探求である。 しかし、任意に大きい質量の既約量子性を見るための実践的なスキームはいまだに欠けている。 この目的のために、我々は、マクロリアリズム(MR)の古典的中心概念の量子的違反を探索するための標準ツールに重要な修正を加え、通常の試験では、同じ測定配列を連続的に使用しているが、ここでは2つの異なる測定配列を用いる。 これは驚くべき結果をもたらす:高調波発振器システムではmrの"em mass-independent} 違反が可能である。 実際、我々の適応は文字通りあらゆる質量、運動量、周波数に対する量子違反の探索を可能にする。 さらに, 標準量子限界よりも精度の悪い粗い粒度位置測定と, この精度にのみ関連するパラメータを知ることで, 調整を必要とせず, 提案に十分である。 これらは、原子イオンからLIGOのマクロミラーまで、巨大な物体の非古典性をテストする実験を劇的に単純化する。

Search for empirical schemes to evidence the nonclassicality of large masses is a central quest of current research. However, practical schemes to witness the irreducible quantumness of an arbitrarily large mass are still lacking. To this end, we incorporate crucial modifications to the standard tools for probing the quantum violation of the pivotal classical notion of macrorealism (MR): while usual tests use the same measurement arrangement at successive times, here we use two different measurement arrangements. This yields a striking result: a {\em mass-independent} violation of MR is possible for harmonic oscillator systems. In fact, our adaptation enables probing quantum violations for literally any mass, momentum, and frequency. Moreover, coarse grained position measurements at an accuracy much worse than the standard quantum limit, as well as knowing the relevant parameters only to this precision, without requiring them to be tuned, suffice for our proposal. These should drastically simplify the experimental effort in testing the nonclassicality of massive objects ranging from atomic ions to macroscopic mirrors in LIGO.
翻訳日:2023-06-19 18:14:50 公開日:2023-06-16
# マルチエージェント強化学習のための説明可能な行動助言

Explainable Action Advising for Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2211.07882v3 )

ライセンス: Link先を確認
Yue Guo, Joseph Campbell, Simon Stepputtis, Ruiyu Li, Dana Hughes, Fei Fang, Katia Sycara(参考訳) 行動アドバイスは教師-学生パラダイムに基づく強化学習のための知識伝達技術である。 専門教師は、学生のサンプル効率と政策性能を改善するために、訓練中に生徒にアドバイスを提供する。 このようなアドバイスは一般に状態-作用対の形で与えられる。 しかし、学生が新たな国家を論じて適用することは困難である。 本稿では,教師が行動アドバイスを提示する説明可能な行動助言と,行動が選択された理由を示す説明を紹介する。 これにより、生徒は学習したものを自己反映することができ、アドバイスの一般化が可能になり、教師が最適でない環境でもサンプルの効率と学習性能が向上する。 我々は,単一エージェントシナリオと複数エージェントシナリオの両方において,我々のフレームワークが有効であることを実証的に示す。

Action advising is a knowledge transfer technique for reinforcement learning based on the teacher-student paradigm. An expert teacher provides advice to a student during training in order to improve the student's sample efficiency and policy performance. Such advice is commonly given in the form of state-action pairs. However, it makes it difficult for the student to reason with and apply to novel states. We introduce Explainable Action Advising, in which the teacher provides action advice as well as associated explanations indicating why the action was chosen. This allows the student to self-reflect on what it has learned, enabling advice generalization and leading to improved sample efficiency and learning performance - even in environments where the teacher is sub-optimal. We empirically show that our framework is effective in both single-agent and multi-agent scenarios, yielding improved policy returns and convergence rates when compared to state-of-the-art methods
翻訳日:2023-06-19 18:14:28 公開日:2023-06-16
# DEYO: ステップバイステップオブジェクト検出のためのYOLO付きDETR

DEYO: DETR with YOLO for Step-by-Step Object Detection ( http://arxiv.org/abs/2211.06588v3 )

ライセンス: Link先を確認
Haodong Ouyang(参考訳) オブジェクト検出はコンピュータビジョンにおいて重要なトピックであり、後処理は典型的なオブジェクト検出パイプラインの重要な部分であり、従来のオブジェクト検出モデルの性能に重大なボトルネックをもたらす。 第1のエンドツーエンドターゲット検出モデルである検出トランス(detr)は、アンカーや非最大抑制(nms)といった手動コンポーネントの要件を破棄し、ターゲット検出プロセスを著しく単純化する。 しかし、従来のオブジェクト検出モデルと比較して、DETRは非常にゆっくりと収束し、クエリの意味は曖昧である。 そこで本研究では,ステップ・バイ・ステップ(Step-by-Step)の概念に着想を得た2段階物体検出モデルであるDETR with YOLO (DEYO)を提案する。 DEYOは古典的なターゲット検出モデルとDETRのようなモデルをそれぞれ第1と第2のステージとする2段階アーキテクチャである。 具体的には、第1ステージは高品質なクエリと第2ステージへのアンカー供給を提供し、オリジナルのDETRモデルと比較して第2ステージの性能と効率を向上させる。 一方、第2段は、第1段検出器の限界による性能劣化を補償する。 大規模な実験により、DeYOは12と36のエポックで50.6 APと52.1 APを獲得し、ResNet-50をCOCOデータセットのバックボーンとマルチスケール機能として利用した。 最適なDETRライクなモデルであるDINOと比較して、DYOモデルは2つのエポックな設定で1.6 APと1.2 APの大幅な性能向上を実現している。

Object detection is an important topic in computer vision, with post-processing, an essential part of the typical object detection pipeline, posing a significant bottleneck affecting the performance of traditional object detection models. The detection transformer (DETR), as the first end-to-end target detection model, discards the requirement of manual components like the anchor and non-maximum suppression (NMS), significantly simplifying the target detection process. However, compared with most traditional object detection models, DETR converges very slowly, and a query's meaning is obscure. Thus, inspired by the Step-by-Step concept, this paper proposes a new two-stage object detection model, named DETR with YOLO (DEYO), which relies on a progressive inference to solve the above problems. DEYO is a two-stage architecture comprising a classic target detection model and a DETR-like model as the first and second stages, respectively. Specifically, the first stage provides high-quality query and anchor feeding into the second stage, improving the performance and efficiency of the second stage compared to the original DETR model. Meanwhile, the second stage compensates for the performance degradation caused by the first stage detector's limitations. Extensive experiments demonstrate that DEYO attains 50.6 AP and 52.1 AP in 12 and 36 epochs, respectively, while utilizing ResNet-50 as the backbone and multi-scale features on the COCO dataset. Compared with DINO, an optimal DETR-like model, the developed DEYO model affords a significant performance improvement of 1.6 AP and 1.2 AP in two epoch settings.
翻訳日:2023-06-19 18:14:13 公開日:2023-06-16
# 古典・量子計算のための最適化トロッター分解

Optimised Trotter Decompositions for Classical and Quantum Computing ( http://arxiv.org/abs/2211.02691v4 )

ライセンス: Link先を確認
Johann Ostmeyer(参考訳) 数値物理学のほとんどすべての分野において$\exp(Ht)$のような指数作用素の鈴木・トラッター分解が必要である。 しばしば、検討中の指数は2つ以上の演算子、例えば量子コンピュータ上の局所ゲートとして$H=\sum_k A_k$に分割する必要がある。 そこで本研究では, 完全2つの作用素に対して導出された高最適化スキームを, このような一般スズキ-トローター分解に適用できることを実証し, 精度の形式的証明と効率の数値的証明を提供する。 既存の対称分解スキームを$n\le4$まで包括的にレビューし、実数係数と複素数係数を含む多くの新しいスキームで補完する。 理論上最も効率的な単項分解と非単項分解を導出する。 このリストは、高次$n\le8$の非常に効率的なスキームによって拡張される。 さらに, 古典的デバイス上でのテイラー展開が, 10^{-4}$ の相対的精度を超過しない計算作業において, 機械の精度を達成するためにどのように用いられるかを示す。 最後に、短くて分かりやすい要約は、任意のシナリオにおいて最適な分解を選択する方法を説明します。

Suzuki-Trotter decompositions of exponential operators like $\exp(Ht)$ are required in almost every branch of numerical physics. Often the exponent under consideration has to be split into more than two operators $H=\sum_k A_k$, for instance as local gates on quantum computers. We demonstrate how highly optimised schemes originally derived for exactly two operators $A_{1,2}$ can be applied to such generic Suzuki-Trotter decompositions, providing a formal proof of correctness as well as numerical evidence of efficiency. A comprehensive review of existing symmetric decomposition schemes up to order $n\le4$ is presented and complemented by a number of novel schemes, including both real and complex coefficients. We derive the theoretically most efficient unitary and non-unitary 4th order decompositions. The list is augmented by several exceptionally efficient schemes of higher order $n\le8$. Furthermore we show how Taylor expansions can be used on classical devices to reach machine precision at a computational effort at which state of the art Trotterization schemes do not surpass a relative precision of $10^{-4}$. Finally, a short and easily understandable summary explains how to choose the optimal decomposition in any given scenario.
翻訳日:2023-06-19 18:13:44 公開日:2023-06-16
# 構造的画像共分散を用いたVAEによる圧縮センシングMRI再構成

Compressed Sensing MRI Reconstruction Regularized by VAEs with Structured Image Covariance ( http://arxiv.org/abs/2210.14586v2 )

ライセンス: Link先を確認
Margaret Duff, Ivor J. A. Simpson, Matthias J. Ehrhardt, Neill D. F. Campbell(参考訳) 目的: 本論文では, 実地画像から学習した生成モデルを用いて, 逆問題に対して \changes{as} を前処理として使用し, 生成者が生成できる画像から遠く離れた再構成をペナルティ化する方法について検討する。 学習された正規化は、変分正規化法の制御と洞察を維持しつつ、逆問題に対する複雑なデータ駆動の事前情報を提供する。 さらに、教師なし学習では、ペアのトレーニングデータなしで、学習された正規化器は、MRIのノイズレベル、サンプリングパターン、コイル感度などの前方問題に柔軟に適応することができる。 アプローチ: 可変オートエンコーダ(VAE)を用いて, 画像だけでなく, 各画像に対する共分散不確実性行列を生成する。 共分散は、エッジやオブジェクトなどの画像の構造によって生じる不確実性依存をモデル化し、学習された画像の多様体からの新しい距離メトリックを提供する。 主な結果: この新たな生成正則化器を, 高速MRIデータセットを用いて, 遡及的にサブサンプリングした実数値MRIで評価した。 提案する学習正規化と他の未学習正規化アプローチと教師なし・教師なしのディープラーニング手法を比較した。 意義: 提案手法は他の最先端手法と競合し, サンプリングパターンやノイズレベルの変化と一貫した動作を示す。

Objective: This paper investigates how generative models, trained on ground-truth images, can be used \changes{as} priors for inverse problems, penalizing reconstructions far from images the generator can produce. The aim is that learned regularization will provide complex data-driven priors to inverse problems while still retaining the control and insight of a variational regularization method. Moreover, unsupervised learning, without paired training data, allows the learned regularizer to remain flexible to changes in the forward problem such as noise level, sampling pattern or coil sensitivities in MRI. Approach: We utilize variational autoencoders (VAEs) that generate not only an image but also a covariance uncertainty matrix for each image. The covariance can model changing uncertainty dependencies caused by structure in the image, such as edges or objects, and provides a new distance metric from the manifold of learned images. Main results: We evaluate these novel generative regularizers on retrospectively sub-sampled real-valued MRI measurements from the fastMRI dataset. We compare our proposed learned regularization against other unlearned regularization approaches and unsupervised and supervised deep learning methods. Significance: Our results show that the proposed method is competitive with other state-of-the-art methods and behaves consistently with changing sampling patterns and noise levels.
翻訳日:2023-06-19 18:13:23 公開日:2023-06-16
# 信頼度調整顔と近親相姦検証

Confidence-Calibrated Face and Kinship Verification ( http://arxiv.org/abs/2210.13905v3 )

ライセンス: Link先を確認
Min Xu, Ximiao Zhang and Xiuzhuang Zhou(参考訳) 本稿では,顔と血縁の検証における予測信頼度の問題について検討する。 既存の顔と血縁の検証手法の多くは、予測結果の信頼度を無視しながら精度に重点を置いている。 しかし,高リスクタスクにおける信頼性と信頼性のモデリングには信頼性推定が不可欠である。 そこで本研究では,任意の顔対に対して類似度スコアを信頼度スコアに変換するための効果的な信頼度尺度を提案する。 さらに,Angular Scaling Calibration (ASC)と呼ばれる信頼性校正手法を提案する。 ASCは実装が容易で、モデルの修正なしに既存の検証モデルに容易に適用でき、精度保存と信頼性校正の確率的検証モデルが得られる。 さらに, 校正信頼度の不確実性を導入し, 雑音データの存在下での検証モデルの信頼性と信頼性を高める。 我々の知識を最大限に活用するために、我々の研究は、現代の顔と親族関係の検証タスクに対する、初めての包括的信頼度補正ソリューションを提示した。 筆者らは4つの顔・血縁検証データセットについて広範な実験を行い,提案手法の有効性を実証した。 コードとモデルはhttps://github.com/cnulab/ascで入手できる。

In this paper, we investigate the problem of prediction confidence in face and kinship verification. Most existing face and kinship verification methods focus on accuracy performance while ignoring confidence estimation for their prediction results. However, confidence estimation is essential for modeling reliability and trustworthiness in such high-risk tasks. To address this, we introduce an effective confidence measure that allows verification models to convert a similarity score into a confidence score for any given face pair. We further propose a confidence-calibrated approach, termed Angular Scaling Calibration (ASC). ASC is easy to implement and can be readily applied to existing verification models without model modifications, yielding accuracy-preserving and confidence-calibrated probabilistic verification models. In addition, we introduce the uncertainty in the calibrated confidence to boost the reliability and trustworthiness of the verification models in the presence of noisy data. To the best of our knowledge, our work presents the first comprehensive confidence-calibrated solution for modern face and kinship verification tasks. We conduct extensive experiments on four widely used face and kinship verification datasets, and the results demonstrate the effectiveness of our proposed approach. Code and models are available at https://github.com/cnulab/ASC.
翻訳日:2023-06-19 18:12:57 公開日:2023-06-16
# インテンショナルファーストオーダー論理に基づく強AIオートエポステミックロボット

Strong-AI Autoepistemic Robots Build on Intensional First Order Logic ( http://arxiv.org/abs/2212.07935v2 )

ライセンス: Link先を確認
Zoran Majkic(参考訳) ニューロシンボリックAIは、推論、学習、認知モデリングが可能な強力なAIをサポートするために、それぞれの強みと弱みに補完的な方法で対処する方法で、ニューラルアーキテクチャとシンボルアーキテクチャを統合する。 本稿では,人間とのコミュニケーションに自然言語を活用し,自己参照と抽象言語特性を用いて自身の知識を推論できる,現代ロボットの象徴的アーキテクチャとしてifol(intensional first order logic)を考える。 我々は,ロボット言語の基礎を,その神経アーキテクチャの使用経験から得ることを目的としており,この経験をIFOLのPRP(Properties/Relations/Propositions)理論(Properties/Relations/Propositions)理論における非定義言語概念(特に個人・普遍性)のマイニング(センス)と結び付ける。 ロボットの4段階の知識構造は、特定の自然言語(イタリア語、フランス語など)の構文レベルと、その意味論理構造(folと論理接続の仮想述語に基づく)と、それに対応する概念prp構造レベルという2つの普遍的な言語レベルである。

Neuro-symbolic AI attempts to integrate neural and symbolic architectures in a manner that addresses strengths and weaknesses of each, in a complementary fashion, in order to support robust strong AI capable of reasoning, learning, and cognitive modeling. In this paper we consider the intensional First Order Logic (IFOL) as a symbolic architecture of modern robots, able to use natural languages to communicate with humans and to reason about their own knowledge with self-reference and abstraction language property. We intend to obtain the grounding of robot's language by experience of how it uses its neuronal architectures and hence by associating this experience with the mining (sense) of non-defined language concepts (particulars/individuals and universals) in PRP (Properties/Relations/Propositions) theory of IFOL. We consider the robot's four-levels knowledge structure: The syntax level of particular natural language (Italian, French, etc..), two universal language levels: its semantic logic structure (based on virtual predicates of FOL and logic connectives), and its corresponding conceptual PRP structure level which universally represents the composite mining of FOL formulae grounded on the last robot's neuro system level.
翻訳日:2023-06-19 18:07:21 公開日:2023-06-16
# HOOD: 衣服ダイナミクスの一般化モデリングのための階層グラフ

HOOD: Hierarchical Graphs for Generalized Modelling of Clothing Dynamics ( http://arxiv.org/abs/2212.07242v3 )

ライセンス: Link先を確認
Artur Grigorev, Bernhard Thomaszewski, Michael J. Black, Otmar Hilliges(参考訳) 本稿では,グラフニューラルネットワーク,マルチレベルメッセージパッシング,教師なしトレーニングを活用し,リアルな衣服の動態をリアルタイムに予測する手法を提案する。 既存のリニア・ブレンド・スキンニング法は特定の衣服に対してトレーニングする必要があるが,本手法は体型に不慣れであり,ゆるやかで自由な衣服にも適用できる。 提案手法は、さらにトポロジーの変化(例えば、ボタンやジッパーのついた衣服)と推論時の材料特性を取り扱う。 そこで,本稿では,局所的なディテールを維持しつつ,ストレッチングモードを効率的に伝搬する階層的メッセージパッシングスキームを提案する。 実験により,本手法は強いベースラインを定量的に上回っており,その結果が最先端手法よりも現実的なものと見なされていることを実証的に示す。

We propose a method that leverages graph neural networks, multi-level message passing, and unsupervised training to enable real-time prediction of realistic clothing dynamics. Whereas existing methods based on linear blend skinning must be trained for specific garments, our method is agnostic to body shape and applies to tight-fitting garments as well as loose, free-flowing clothing. Our method furthermore handles changes in topology (e.g., garments with buttons or zippers) and material properties at inference time. As one key contribution, we propose a hierarchical message-passing scheme that efficiently propagates stiff stretching modes while preserving local detail. We empirically show that our method outperforms strong baselines quantitatively and that its results are perceived as more realistic than state-of-the-art methods.
翻訳日:2023-06-19 18:06:44 公開日:2023-06-16
# 安全性評価の批判的視点のための潜在グラフ表現

Latent Graph Representations for Critical View of Safety Assessment ( http://arxiv.org/abs/2212.04155v2 )

ライセンス: Link先を確認
Aditya Murali, Deepak Alapatt, Pietro Mascagni, Armine Vardazaryan, Alain Garcia, Nariaki Okamoto, Didier Mutter, Nicolas Padoy(参考訳) 腹腔鏡下胆嚢摘出術における安全性の批判的視点を評価するには, 重要な解剖学的構造を正確に同定し, 互いの幾何学的関係を推論し, 露出の質を決定する必要がある。 従来の作業では、セグメンテーションを中間ステップとして含み、予測セグメンテーションマスクを使用してCVSを予測することで、このタスクにアプローチしていた。 これらの手法は有効であるが、非常に高価な接地構文のセグメンテーションアノテーションに依存しており、予測されたセグメンテーションが間違っており、一般化が制限される。 そこで本研究では,まず,ゆがんだ潜在シーングラフを用いて手術画像を表現し,その表現をグラフニューラルネットワークを用いて処理するCVS予測手法を提案する。 私たちのグラフ表現は、意味情報(オブジェクトの位置、クラス情報、幾何学的関係)を明示的にエンコードし、解剖学による推論を改善します。 最後に、アノテーションコストに対処するため、細粒度オブジェクト境界を学習するために補助的な画像再構成目的を組み込んだボックスアノテーションのみを用いて、本手法を訓練することを提案する。 提案手法は,バウンディングボックスアノテーションでトレーニングした場合のベースラインメソッドよりも優れるだけでなく,セグメンテーションマスクでトレーニングした場合にも効果的にスケールできることを示す。

Assessing the critical view of safety in laparoscopic cholecystectomy requires accurate identification and localization of key anatomical structures, reasoning about their geometric relationships to one another, and determining the quality of their exposure. Prior works have approached this task by including semantic segmentation as an intermediate step, using predicted segmentation masks to then predict the CVS. While these methods are effective, they rely on extremely expensive ground-truth segmentation annotations and tend to fail when the predicted segmentation is incorrect, limiting generalization. In this work, we propose a method for CVS prediction wherein we first represent a surgical image using a disentangled latent scene graph, then process this representation using a graph neural network. Our graph representations explicitly encode semantic information - object location, class information, geometric relations - to improve anatomy-driven reasoning, as well as visual features to retain differentiability and thereby provide robustness to semantic errors. Finally, to address annotation cost, we propose to train our method using only bounding box annotations, incorporating an auxiliary image reconstruction objective to learn fine-grained object boundaries. We show that our method not only outperforms several baseline methods when trained with bounding box annotations, but also scales effectively when trained with segmentation masks, maintaining state-of-the-art performance.
翻訳日:2023-06-19 18:06:27 公開日:2023-06-16
# 異方性幾何レイアウト対応学習によるクロスビュージオローカライズ

Cross-view Geo-localization via Learning Disentangled Geometric Layout Correspondence ( http://arxiv.org/abs/2212.04074v3 )

ライセンス: Link先を確認
Xiaohan Zhang, Xingyu Li, Waqas Sultani, Yi Zhou, Safwan Wshah(参考訳) クロスビュージオローカライゼーションは、参照ジオタグ付き空中画像データベースとマッチングすることで、クエリーグラウンド画像の位置を推定することを目的としている。 極めて困難な課題として、その困難は、劇的な視点の変化と、2つの視点の間の異なるキャプチャ時間に根ざしている。 これらの困難にもかかわらず、最近の研究はクロスビューなジオローカライゼーションベンチマークにおいて顕著な進歩を遂げている。 しかし、既存の手法は、トレーニングとテストのデータが2つの異なる領域から取得されるクロスエリアベンチマークのパフォーマンスに苦しむ。 この不足は、視覚特徴レイアウトの空間的構成や、トレーニングセットから低レベルの詳細を過小評価するモデルの能力の欠如を特徴としている。 本稿では,ジオDTRを提案する。ジオDTRは,空間的特徴量と空間的特徴量との相関関係を,新しい幾何学的レイアウト抽出モジュールを用いて学習する。 このモジュールは幾何レイアウト記述子の集合を生成し、生の特徴を変調し、高品質な潜在表現を生成する。 さらに、データ拡張の2つのカテゴリについて詳しく述べる。 (i)低レベルの詳細をそのまま保ちながら空間構成を変化させるレイアウトシミュレーション。 (ii)低レベルな詳細を変更し、モデルが空間的構成を捉えるように促す意味的拡張。 これらの拡張は、特にクロスエリアベンチマークにおいて、クロスビューなジオローカライゼーションモデルの性能を向上させるのに役立つ。 さらに,空間情報の探索において,幾何学的レイアウト抽出の利点を生かした対実的学習手法を提案する。 大規模な実験により、GeoDTRは最先端の結果を達成するだけでなく、同領域および異領域のベンチマークの性能を大幅に向上させることが示された。

Cross-view geo-localization aims to estimate the location of a query ground image by matching it to a reference geo-tagged aerial images database. As an extremely challenging task, its difficulties root in the drastic view changes and different capturing time between two views. Despite these difficulties, recent works achieve outstanding progress on cross-view geo-localization benchmarks. However, existing methods still suffer from poor performance on the cross-area benchmarks, in which the training and testing data are captured from two different regions. We attribute this deficiency to the lack of ability to extract the spatial configuration of visual feature layouts and models' overfitting on low-level details from the training set. In this paper, we propose GeoDTR which explicitly disentangles geometric information from raw features and learns the spatial correlations among visual features from aerial and ground pairs with a novel geometric layout extractor module. This module generates a set of geometric layout descriptors, modulating the raw features and producing high-quality latent representations. In addition, we elaborate on two categories of data augmentations, (i) Layout simulation, which varies the spatial configuration while keeping the low-level details intact. (ii) Semantic augmentation, which alters the low-level details and encourages the model to capture spatial configurations. These augmentations help to improve the performance of the cross-view geo-localization models, especially on the cross-area benchmarks. Moreover, we propose a counterfactual-based learning process to benefit the geometric layout extractor in exploring spatial information. Extensive experiments show that GeoDTR not only achieves state-of-the-art results but also significantly boosts the performance on same-area and cross-area benchmarks.
翻訳日:2023-06-19 18:06:00 公開日:2023-06-16
# Baggingは最適なPAC学習者である

Bagging is an Optimal PAC Learner ( http://arxiv.org/abs/2212.02264v3 )

ライセンス: Link先を確認
Kasper Green Larsen(参考訳) 実現可能な環境でのPAC学習の最適サンプル複雑性の決定は、数十年にわたって学習理論の中心的な問題であった。 最後に、Hanneke (2016) によるセミナルな研究は、証明可能な最適なサンプル複雑性を持つアルゴリズムを与えた。 彼のアルゴリズムは、トレーニングデータの慎重に構造化されたサブサンプリングに基づいており、各サブサンプルでトレーニングされた仮説の過半数を返却する。 非常にエキサイティングな理論的な結果であるが、訓練データのサブサンプルの多項式数(各線形サイズ)を構成するため、非効率性のために実際にはあまり影響を与えていない。 本稿では,Breiman (1996)による実用的,古典的ヒューリスティック・バッグング(ブートストラップ・アグリゲーション)が,実際はPAC学習者として最適であることを示す。 バグングはhannekeのアルゴリズムを20年ほど前に発表し、ほとんどの学部の機械学習コースで教えられている。 さらに,最適性を得るためにはサブサンプルの対数しか必要としないことを示す。

Determining the optimal sample complexity of PAC learning in the realizable setting was a central open problem in learning theory for decades. Finally, the seminal work by Hanneke (2016) gave an algorithm with a provably optimal sample complexity. His algorithm is based on a careful and structured sub-sampling of the training data and then returning a majority vote among hypotheses trained on each of the sub-samples. While being a very exciting theoretical result, it has not had much impact in practice, in part due to inefficiency, since it constructs a polynomial number of sub-samples of the training data, each of linear size. In this work, we prove the surprising result that the practical and classic heuristic bagging (a.k.a. bootstrap aggregation), due to Breiman (1996), is in fact also an optimal PAC learner. Bagging pre-dates Hanneke's algorithm by twenty years and is taught in most undergraduate machine learning courses. Moreover, we show that it only requires a logarithmic number of sub-samples to reach optimality.
翻訳日:2023-06-19 18:05:31 公開日:2023-06-16
# PASTA:Syn-to-Real領域一般化のための比例振幅スペクトルトレーニング強化

PASTA: Proportional Amplitude Spectrum Training Augmentation for Syn-to-Real Domain Generalization ( http://arxiv.org/abs/2212.00979v3 )

ライセンス: Link先を確認
Prithvijit Chattopadhyay, Kartik Sarangmath, Vivek Vijaykumar, Judy Hoffman(参考訳) 合成データは、ラベル付き現実世界のデータが不足している設定のために、安価で価値あるトレーニングデータを約束する。 しかし、実世界のデータで評価すると、合成データに基づいて訓練されたモデルの性能は著しく低下する。 本稿では,本論文で提案する比例振幅スペクトルトレーニング強化法(pasta)により,合成から実への(syn-to-real)一般化性能を向上させるための簡易かつ効果的な拡張戦略を提案する。 PASTAはフーリエ領域の合成画像の振幅スペクトルを摂動させ、拡張ビューを生成する。 具体的には,低周波成分よりも比較的高周波成分が摂動する構造的摂動戦略を提案する。 セマンティックセグメンテーション(GTAV-to-Real)、オブジェクト検出(Sim10K-to-Real)、オブジェクト認識(VisDA-C Syn-to-Real)のタスクは、合計5つのシンセグメンテーション・トゥ・リアルシフトにまたがって、PASTAがより複雑なステート・オブ・ザ・アートの一般化手法より優れており、相補的であることがわかった。

Synthetic data offers the promise of cheap and bountiful training data for settings where labeled real-world data is scarce. However, models trained on synthetic data significantly underperform when evaluated on real-world data. In this paper, we propose Proportional Amplitude Spectrum Training Augmentation (PASTA), a simple and effective augmentation strategy to improve out-of-the-box synthetic-to-real (syn-to-real) generalization performance. PASTA perturbs the amplitude spectra of synthetic images in the Fourier domain to generate augmented views. Specifically, with PASTA we propose a structured perturbation strategy where high-frequency components are perturbed relatively more than the low-frequency ones. For the tasks of semantic segmentation (GTAV-to-Real), object detection (Sim10K-to-Real), and object recognition (VisDA-C Syn-to-Real), across a total of 5 syn-to-real shifts, we find that PASTA outperforms more complex state-of-the-art generalization methods while being complementary to the same.
翻訳日:2023-06-19 18:05:12 公開日:2023-06-16
# Lov\'asz局所補題を用いたマルコフランダムフィールドによる組合せ構造学習

Learning Combinatorial Structures via Markov Random Fields with Sampling through Lov\'asz Local Lemma ( http://arxiv.org/abs/2212.00296v3 )

ライセンス: Link先を確認
Nan Jiang, Yi Gu, Yexiang Xue(参考訳) 組合せ構造を学習するための生成モデルは、多くの応用において変換的影響を持つ。 しかし、既存のアプローチは効率的で正確な学習結果を提供していない。 組合せ制約を受ける学習対象の勾配推定の非常に難解な性質のためである。 既存の勾配推定法は指数時間/メモリ空間に容易に適用でき、不適切な近似による巨大な推定誤差を生じさせる。 Lov\'asz Local Lemma (LLL) に基づくニューラルネットワークである NEural Lovasz Sampler (Nelson) を開発した。 制約付きマルコフ確率場モデル(mrf)の特定の条件下での分布から組合せ制約を満たすサンプルを生成することが保証される。 さらに,制約付きmrf(nelson-cd)を用いた完全微分可能なコントラスト・ダイバージェンスに基づく学習フレームワークを提案する。 一方、nelson-cdは完全に微分可能であり、gpuの並列計算能力を利用することができ、非常に効率が良い。 3つの実世界の組合せ問題の実験結果から、ネルソンは100%有効な構造を作り出すことを学んでいることが分かる。 対照的に、ベースラインは大規模なデータセットにタイムアウトするか、有効な構造を生成できないかのいずれかである。 さらに,log-likelihoodやmap scoreなど,さまざまな学習指標のベースラインを上回っている。

Generative models for learning combinatorial structures have transformative impacts in many applications. However, existing approaches fail to offer efficient and accurate learning results. Because of the highly intractable nature of the gradient estimation of the learning objective subject to combinatorial constraints. Existing gradient estimation methods would easily run into exponential time/memory space, or incur huge estimation errors due to improper approximation. We develop NEural Lovasz Sampler (Nelson), a neural network based on Lov\'asz Local Lemma (LLL). We show it guarantees to generate samples satisfying combinatorial constraints from the distribution of the constrained Markov Random Fields model (MRF) under certain conditions. We further present a fully differentiable contrastive-divergence-based learning framework on constrained MRF (Nelson-CD). Meanwhile, Nelson-CD being fully differentiable allows us to take advantage of the parallel computing power of GPUs, resulting in great efficiency. Experimental results on three real-world combinatorial problems reveal that Nelson learns to generate 100% valid structures. In comparison, baselines either time out on large-size data sets or fail to generate valid structures, whereas Nelson scales much better with problem size. In addition, Nelson outperforms baselines in various learning metrics, such as log-likelihood and MAP scores.
翻訳日:2023-06-19 18:04:32 公開日:2023-06-16
# 時間内ランデブー:外科的三重項認識のための注意に基づく時間的融合アプローチ

Rendezvous in Time: An Attention-based Temporal Fusion approach for Surgical Triplet Recognition ( http://arxiv.org/abs/2211.16963v2 )

ライセンス: Link先を確認
Saurav Sharma, Chinedu Innocent Nwoye, Didier Mutter, Nicolas Padoy(参考訳) 外科的AIの最近の進歩の1つは、外科的活動が三肢(インスルーメント、動詞、ターゲット)として認識されていることである。 コンピュータ支援介入のための詳細な情報を提供するが、現在の三重項認識アプローチは単一のフレームのみに依存している。 初期のフレームからの時間的手がかりを活用すれば、ビデオからの手術的アクショントリプレットの認識が向上する。 本稿では,Rendezvous in Time(RiT)を提案する。これは最先端のモデルであるRendezvousを時間モデルで拡張したディープラーニングモデルである。 動詞にもっと焦点をあて、現在および過去のフレームの接続性を探求し、時間的注意に基づく特徴を学習し、三重項認識を強化した。 難易度の高い手術用三重項データセット cholect45 の提案を検証し,動詞と三重項の認識の改善と,動詞 (動詞, 動詞) との相互作用について検証した。 定性的な結果は、RiTが最先端の3重項インスタンスよりもスムーズな予測を生成することを示している。 本稿では,ビデオフレームの時間的融合を利用して外科的動作の進化をモデル化し,その利点を手術的三重項認識に活かす新しいアプローチを提案する。

One of the recent advances in surgical AI is the recognition of surgical activities as triplets of (instrument, verb, target). Albeit providing detailed information for computer-assisted intervention, current triplet recognition approaches rely only on single frame features. Exploiting the temporal cues from earlier frames would improve the recognition of surgical action triplets from videos. In this paper, we propose Rendezvous in Time (RiT) - a deep learning model that extends the state-of-the-art model, Rendezvous, with temporal modeling. Focusing more on the verbs, our RiT explores the connectedness of current and past frames to learn temporal attention-based features for enhanced triplet recognition. We validate our proposal on the challenging surgical triplet dataset, CholecT45, demonstrating an improved recognition of the verb and triplet along with other interactions involving the verb such as (instrument, verb). Qualitative results show that the RiT produces smoother predictions for most triplet instances than the state-of-the-arts. We present a novel attention-based approach that leverages the temporal fusion of video frames to model the evolution of surgical actions and exploit their benefits for surgical triplet recognition.
翻訳日:2023-06-19 18:04:15 公開日:2023-06-16
# SGDraw:オブジェクト指向表現を用いたシーングラフ描画インタフェース

SGDraw: Scene Graph Drawing Interface Using Object-Oriented Representation ( http://arxiv.org/abs/2211.16697v2 )

ライセンス: Link先を確認
Tianyu Zhang, Xusheng Du, Chia-Ming Chang, Xi Yang, Haoran Xie(参考訳) シーン理解はコンピュータビジョンにおいて必要不可欠な課題である。 画像の視覚的な基本的なグラフィカルな構造を提供するため、シーングラフはその強力な意味表現により注目を集めている。 しかし、画像検索、画像生成、マルチモーダルアプリケーションのための適切なシーングラフを描くことは困難である。 従来のシーングラフアノテーションインターフェースは画像アノテーションでは使いやすく、ディープニューラルネットワークを用いたシーングラフの自動生成アプローチは詳細を無視して冗長なコンテンツを生成する傾向がある。 本研究では,オブジェクト指向のシーングラフ表現を用いたシーングラフ描画インタフェースであるSGDrawを提案する。 提案するオブジェクト指向表現では、オブジェクトのオブジェクト、属性、および関係を構造単位として考える。 SGDrawは、シーン理解アプリケーションのためのWebベースのシーングラフアノテーションと生成ツールを提供する。 提案するインタフェースの有効性を検証するために,従来のツールとの比較とユーザエクスペリエンス調査を行った。 その結果,SGDrawはより詳細なシーングラフを生成するのに役立ち,従来の境界ボックスアノテーションよりも正確に画像を記述することができることがわかった。 提案したSGDrawは,画像検索や生成など,様々な視覚タスクに有用であると考えられる。

Scene understanding is an essential and challenging task in computer vision. To provide the visually fundamental graphical structure of an image, the scene graph has received increased attention due to its powerful semantic representation. However, it is difficult to draw a proper scene graph for image retrieval, image generation, and multi-modal applications. The conventional scene graph annotation interface is not easy to use in image annotations, and the automatic scene graph generation approaches using deep neural networks are prone to generate redundant content while disregarding details. In this work, we propose SGDraw, a scene graph drawing interface using object-oriented scene graph representation to help users draw and edit scene graphs interactively. For the proposed object-oriented representation, we consider the objects, attributes, and relationships of objects as a structural unit. SGDraw provides a web-based scene graph annotation and generation tool for scene understanding applications. To verify the effectiveness of the proposed interface, we conducted a comparison study with the conventional tool and the user experience study. The results show that SGDraw can help generate scene graphs with richer details and describe the images more accurately than traditional bounding box annotations. We believe the proposed SGDraw can be useful in various vision tasks, such as image retrieval and generation.
翻訳日:2023-06-19 18:03:52 公開日:2023-06-16
# HyperSLICE:低レイテンシインタラクティブ心臓検査のためのHyperBand最適化スパイラル

HyperSLICE: HyperBand optimized Spiral for Low-latency Interactive Cardiac Examination ( http://arxiv.org/abs/2302.02688v2 )

ライセンス: Link先を確認
Dr. Olivier Jaubert, Dr. Javier Montalt-Tordera, Dr. Daniel Knight, Pr. Simon Arridge, Dr. Jennifer Steeden and Pr. Vivek Muthurangu(参考訳) PURPOSE: 高速走査計画とMRガイド下介入に心臓磁気共鳴画像が使用される。 しかし、リアルタイム取得とほぼリアルタイム可視化の要件は、達成可能な時空間分解能を制約する。 本研究の目的は、アンダーサンプルスパイラルサンプリングの最適化と低遅延再構成(ディープアーティファクト抑制)のための深層学習の活用により、インタラクティブな画像解像度を改善することである。 Methods: 可変密度渦巻き軌道をHyperBandによりパラメータ化し, 最適化し, 高速深部人工物抑制のための最適候補軌道を提供する。 訓練データは692機の呼吸式CINEから成っていた。 画像評価は13例 (画像評価は10例, カテーテル中は2例, 運動中は1例) で検討した。 将来研究において, 最適化されたフレームワークであるhypersliceは, 定量的, 定性的な画像指標を用いて, 従来のカルテジアンリアルタイムおよび呼吸ホールドシネイメージングと比較された。 統計的差異をfedman chi-squared test, post-hoc nemenyi test (p<0.05) を用いて検証した。 結果: シミュレーションでは, NRMSE, pSNR, SSIM, LAPEは, 放射状および均一なスパイラルサンプリングに比べて統計的に有意に高い値を示した(SSIM: 0.71 vs 0.45, 0.43)。 予想通り、HyperSLICEは従来のカルテシアンリアルタイムイメージングよりも空間分解能と時間分解能を高めた。 このパイプラインはカテーテル・プルバック中の患者で、インタラクティブ・イメージングのために十分な速さで再構築できることを示した。 結論: HyperSLICEは高空間・時間分解能インタラクティブイメージングを可能にする。 スパイラルサンプリングを最適化することで、ラジアルおよび均一なスパイラル軌跡と比較して、全体的な画質と画像遷移の処理性が向上した。

PURPOSE: Interactive cardiac magnetic resonance imaging is used for fast scan planning and MR guided interventions. However, the requirement for real-time acquisition and near real-time visualization constrains the achievable spatio-temporal resolution. This study aims to improve interactive imaging resolution through optimization of undersampled spiral sampling and leveraging of deep learning for low-latency reconstruction (deep artifact suppression). METHODS: A variable density spiral trajectory was parametrized and optimized via HyperBand to provide the best candidate trajectory for rapid deep artifact suppression. Training data consisted of 692 breath-held CINEs. The developed interactive sequence was tested in simulations and prospectively in 13 subjects (10 for image evaluation, 2 during catheterization, 1 during exercise). In the prospective study, the optimized framework -HyperSLICE- was compared to conventional Cartesian real-time, and breath-hold CINE imaging in terms quantitative and qualitative image metrics. Statistical differences were tested using Friedman chi-squared tests with post-hoc Nemenyi test (p<0.05). RESULTS: In simulations the NRMSE, pSNR, SSIM and LAPE were all statistically significantly higher using optimized spiral compared to radial and uniform spiral sampling, particularly after scan plan changes (SSIM: 0.71 vs 0.45 and 0.43). Prospectively, HyperSLICE enabled a higher spatial and temporal resolution than conventional Cartesian real-time imaging. The pipeline was demonstrated in patients during catheter pull back showing sufficiently fast reconstruction for interactive imaging. CONCLUSION: HyperSLICE enables high spatial and temporal resolution interactive imaging. Optimizing the spiral sampling enabled better overall image quality and superior handling of image transitions compared to radial and uniform spiral trajectories.
翻訳日:2023-06-19 17:56:22 公開日:2023-06-16
# CNNを用いた教師なしリフトを用いた変分多チャンネル多重クラスセグメンテーション

Variational multichannel multiclass segmentation using unsupervised lifting with CNNs ( http://arxiv.org/abs/2302.02214v2 )

ライセンス: Link先を確認
Nadja Gruber, Johannes Schwab, Sebastien Court, Elke Gizewski, Markus Haltmeier(参考訳) 本稿では、変動エネルギー関数と深部畳み込みニューラルネットワークを組み合わせた教師なし画像分割手法を提案する。 この変動部分は、複数の入力画像から有用な情報を同時に抽出できる、最近のマルチチャネルマルチフェーズChan-Veseモデルに基づいている。 与えられた画像をK$の異なる領域に分割するフレキシブルなマルチクラスセグメンテーション手法を実装した。 画像の事前分解を目的とした畳み込みニューラルネットワーク(CNN)を用いる。 その後、セグメント化関数を最小化することにより、最終的なセグメント化は完全に教師なしの方法で得られる。 セグメンテーションの出発点となる情報的特徴マップの抽出に特に重点が置かれている。 提案手法は,テクスチャや医用画像などの様々な種類の画像の領域を分解・分割し,その性能を他の多相分割法と比較できることを示す。

We propose an unsupervised image segmentation approach, that combines a variational energy functional and deep convolutional neural networks. The variational part is based on a recent multichannel multiphase Chan-Vese model, which is capable to extract useful information from multiple input images simultaneously. We implement a flexible multiclass segmentation method that divides a given image into $K$ different regions. We use convolutional neural networks (CNNs) targeting a pre-decomposition of the image. By subsequently minimising the segmentation functional, the final segmentation is obtained in a fully unsupervised manner. Special emphasis is given to the extraction of informative feature maps serving as a starting point for the segmentation. The initial results indicate that the proposed method is able to decompose and segment the different regions of various types of images, such as texture and medical images and compare its performance with another multiphase segmentation method.
翻訳日:2023-06-19 17:55:54 公開日:2023-06-16
# transfool: ニューラルネットワークの翻訳モデルに対する敵対的攻撃

TransFool: An Adversarial Attack against Neural Machine Translation Models ( http://arxiv.org/abs/2302.00944v2 )

ライセンス: Link先を確認
Sahar Sadrizadeh, Ljiljana Dolamic, Pascal Frossard(参考訳) ディープニューラルネットワークは、敵攻撃として知られる入力の小さな摂動に弱いことが示されている。 本稿では,ニューラルネットワーク翻訳(NMT)モデルの敵攻撃に対する脆弱性を調査し,TransFoolと呼ばれる新たな攻撃アルゴリズムを提案する。 NMTモデルを騙すため、TransFoolは多項最適化問題と勾配投影ステップの上に構築されている。 言語モデルの埋め込み表現を統合することで、クリーンなサンプルと高いレベルのセマンティックな類似性を保ちながら、ソース言語に流動的な逆の例を生成する。 実験の結果,異なる翻訳タスクやNTTアーキテクチャでは,原文と逆文のセマンティックな類似性が高いまま,翻訳品質を著しく低下させることができることがわかった。 さらに,TransFoolは未知のターゲットモデルに転送可能であることを示す。 最後に、自動的および人的評価に基づいて、transfoolは、ホワイトボックスとブラックボックスの両方の既存の攻撃と比較して、成功率、意味的類似性、そして流動性の改善をもたらす。 そこでTransFoolは,NMTモデルの脆弱性をより正確に評価し,より強力な防御機構とより堅牢なNMTシステムの設計の必要性を概説する。

Deep neural networks have been shown to be vulnerable to small perturbations of their inputs, known as adversarial attacks. In this paper, we investigate the vulnerability of Neural Machine Translation (NMT) models to adversarial attacks and propose a new attack algorithm called TransFool. To fool NMT models, TransFool builds on a multi-term optimization problem and a gradient projection step. By integrating the embedding representation of a language model, we generate fluent adversarial examples in the source language that maintain a high level of semantic similarity with the clean samples. Experimental results demonstrate that, for different translation tasks and NMT architectures, our white-box attack can severely degrade the translation quality while the semantic similarity between the original and the adversarial sentences stays high. Moreover, we show that TransFool is transferable to unknown target models. Finally, based on automatic and human evaluations, TransFool leads to improvement in terms of success rate, semantic similarity, and fluency compared to the existing attacks both in white-box and black-box settings. Thus, TransFool permits us to better characterize the vulnerability of NMT models and outlines the necessity to design strong defense mechanisms and more robust NMT systems for real-life applications.
翻訳日:2023-06-19 17:55:13 公開日:2023-06-16
# 実用制約下における衛星量子鍵分布の有限鍵性能

Finite key performance of satellite quantum key distribution under practical constraints ( http://arxiv.org/abs/2301.13209v2 )

ライセンス: Link先を確認
Jasminder S. Sidhu and Thomas Brougham and Duncan McArthur and Roberto G. Pousa and Daniel K. L. Oi(参考訳) グローバルスケールの量子通信ネットワークは、量子信号の効率的な長距離分布を必要とする。 光ファイバー通信チャネルは、量子メモリとリピータの欠如による指数的損失による範囲制約を持つ。 衛星は、より良質な逆方形自由空間減衰と遠距離線を利用して大陸間量子通信を可能にする。 しかし、衛星量子鍵分布(QKD)の設計と工学は困難であり、地球上のQKDネットワークと運用の特徴的な違いはさらなる課題をもたらす。 衛星qkd(satqkd)をモデル化する典型的なアプローチは、完全な最適化されたプロトコルパラメータ空間とペイロードとプラットフォームリソースの制限の少ないパフォーマンスを推定することであった。 ここでは,ベネット・ブラザード1984 (BB84) の弱コヒーレントパルスデコイ状態プロトコルにおいて,SatQKDの実用的制約が有限鍵サイズ効果に与える影響を分析する。 我々は、軌道内チューナビリティの制限、量子乱数生成率とストレージ、ソース強度の不確かさを含むミッション設計におけるエンジニアリング上の限界とトレードオフを検討する。 我々は,SatQKDの性能限界を定量化し,長期キー生成能力を決定するとともに,今後のミッションの設計を支援する重要な性能ベンチマークを提供する。

Global-scale quantum communication networks will require efficient long-distance distribution of quantum signals. Optical fibre communication channels have range constraints due to exponential losses in the absence of quantum memories and repeaters. Satellites enable intercontinental quantum communication by exploiting more benign inverse square free-space attenuation and long sight lines. However, the design and engineering of satellite quantum key distribution (QKD) systems are difficult and characteristic differences to terrestrial QKD networks and operations pose additional challenges. The typical approach to modelling satellite QKD (SatQKD) has been to estimate performances with a fully optimised protocol parameter space and with few payload and platform resource limitations. Here, we analyse how practical constraints affect the performance of SatQKD for the Bennett-Brassard 1984 (BB84) weak coherent pulse decoy state protocol with finite key size effects. We consider engineering limitations and trade-offs in mission design including limited in-orbit tunability, quantum random number generation rates and storage, and source intensity uncertainty. We quantify practical SatQKD performance limits to determine the long-term key generation capacity and provide important performance benchmarks to support the design of upcoming missions.
翻訳日:2023-06-19 17:54:51 公開日:2023-06-16
# hBN量子センサナノアレイによる磁場イメージング

Magnetic field imaging by hBN quantum sensor nanoarray ( http://arxiv.org/abs/2301.12645v2 )

ライセンス: Link先を確認
Kento Sasaki, Yuki Nakamura, Hao Gu, Moeta Tsukamoto, Shu Nakaharai, Takuya Iwasaki, Kenji Watanabe, Takashi Taniguchi, Shinichi Ogawa, Yukinori Morita, Kensuke Kobayashi(参考訳) ナノレベルでターゲットの近くにセンサーを置くことは、量子センシングの中心的な課題である。 我々は、10nmの厚さを有する六方晶窒化ホウ素のホウ素空隙(v$_\text{b}^-$)欠陥アレイを用いた高分解能磁場イメージングを示す。 V$_\text{B}^-$(100 nm)$^2$のセンサスポットは、ヘリウムイオン顕微鏡を用いてナノスケールの精度で周期的に配置され、金線に密着している。 センサアレイは、回折限界を超える空間分解能でワイヤ内の電流によって誘導される磁場を可視化することができる。 各センサーは実用感度が73.6~\mu\text{t/hz}^{0.5}$であり、量子材料研究に適している。 v$_\text{b}^-$量子センサを周期的に、かつ測定対象に厳密に配置する手法は、そのポテンシャルを最大化する。

Placing a sensor close to the target at the nano-level is a central challenge in quantum sensing. We demonstrate high-spatial-resolution magnetic field imaging with a boron vacancy (V$_\text{B}^-$) defects array in hexagonal boron nitride with a few 10 nm thickness. V$_\text{B}^-$ sensor spots with a size of (100 nm)$^2$ are arranged periodically with nanoscale precision using a helium ion microscope and attached tightly to a gold wire. The sensor array allows us to visualize the magnetic field induced by the current in the wire with a spatial resolution beyond the diffraction limit. Each sensor exhibits a practical sensitivity of $73.6~\mu\text{T/Hz}^{0.5}$, suitable for quantum materials research. Our technique of arranging V$_\text{B}^-$ quantum sensors periodically and tightly on measurement targets will maximize their potential.
翻訳日:2023-06-19 17:54:31 公開日:2023-06-16
# 社会メタバース:挑戦と解決策

Social Metaverse: Challenges and Solutions ( http://arxiv.org/abs/2301.10221v2 )

ライセンス: Link先を確認
Yuntao Wang, Zhou Su, and Miao Yan(参考訳) ソーシャルメタバース(Social Metaverse)は、ユーザーが遊び、買い物、仕事、社会化するための一連の相互接続された仮想世界を組み合わせたデジタル空間である。 人工知能(AI)の進歩とデータプライバシに関する関心の高まりと並行して、フェデレーション学習(FL)は、プライバシ保護によるAIを活用した社会メタバースへのパラダイムシフトとして推奨されている。 しかしながら、プライバシユーティリティのトレードオフ、学習信頼性、AIモデル盗難といった課題は、実際のメタバースアプリケーションにおけるFLの展開を妨げる。 本稿では,ソーシャルメタバースにおけるプライバシ利用のトレードオフを改善するために,ユーザ/アバター間の広く普及するソーシャル関係を利用して,ソーシャルアウェアな階層的flフレームワーク,すなわちsocialflを前進させる。 次に,ブロックチェーンに基づくアグリゲータフリーなロバストfl機構を,新たなブロック構造とオン/オフチェーンコラボレーションを特徴とするコンセンサスプロトコルによって考案した。 さらに、スマートコントラクトとデジタル透かしに基づいて、AIモデル盗難や社会メタバースの衝突アバターを防止するために、自動フェデレーションAI(FedAI)モデルのオーナシップ証明機構が設計されている。 実験により,提案フレームワークの有効性と有効性が確認された。 最後に,この新興地域での今後の研究の方向性について展望する。

Social metaverse is a shared digital space combining a series of interconnected virtual worlds for users to play, shop, work, and socialize. In parallel with the advances of artificial intelligence (AI) and growing awareness of data privacy concerns, federated learning (FL) is promoted as a paradigm shift towards privacy-preserving AI-empowered social metaverse. However, challenges including privacy-utility tradeoff, learning reliability, and AI model thefts hinder the deployment of FL in real metaverse applications. In this paper, we exploit the pervasive social ties among users/avatars to advance a social-aware hierarchical FL framework, i.e., SocialFL for a better privacy-utility tradeoff in the social metaverse. Then, an aggregator-free robust FL mechanism based on blockchain is devised with a new block structure and an improved consensus protocol featured with on/off-chain collaboration. Furthermore, based on smart contracts and digital watermarks, an automatic federated AI (FedAI) model ownership provenance mechanism is designed to prevent AI model thefts and collusive avatars in social metaverse. Experimental findings validate the feasibility and effectiveness of proposed framework. Finally, we envision promising future research directions in this emerging area.
翻訳日:2023-06-19 17:54:18 公開日:2023-06-16
# 運転場面における認知事故予測:マルチモダリティベンチマーク

Cognitive Accident Prediction in Driving Scenes: A Multimodality Benchmark ( http://arxiv.org/abs/2212.09381v2 )

ライセンス: Link先を確認
Jianwu Fang, Lei-Lei Li, Kuan Yang, Zhedong Zheng, Jianru Xue, and Tat-Seng Chua(参考訳) 運転映像における交通事故予測は,事故発生の早期警告の提供を目的としており,安全運転システムの意思決定を支援する。 従来の研究は通常、オブジェクトレベルのコンテキストの空間的時間的相関に集中するが、それらは固有の長期データ分布にうまく適合せず、厳しい環境変化に弱い。 本研究では,視覚的観察と運転者の注意に対する人為的な文章記述の認識を効果的に活用し,モデルトレーニングを容易にする認知事故予測手法を提案する。 特に、テキスト記述は、交通シーンの一次文脈に対する密接な意味記述ガイダンスを提供し、運転者の注意は、安全な運転と密接な関係にある重要な領域に焦点を当てる引き金となる。 capは、注意テキストツービジョンシフト融合モジュール、注意シーンコンテキスト転送モジュール、運転者注意誘導事故予測モジュールによって定式化される。 これらのモジュールの注意機構を利用して、事故予測のコアセマンティック・キューを探索する。 CAPをトレーニングするために,既存のDAD-2000データセット(各フレームに注意を喚起した注記付き)を拡張し,事故前の視覚的観察のさらなる事実記述を行う。 さらに,約219万フレーム(CAP-DATAと名付けられている)とファクト・エフェクト・レファレンス・イントロスペクション記述と時間的事故フレームラベルを用いた11,727件の事故動画からなる大規模ベンチマークを構築した。 広範な実験に基づいて、CAPの優位性は最先端のアプローチと比較して検証される。 CAP-DATAと全ての結果は \url{https://github.com/JWFanggit/LOTVS-CAP} でリリースされる。

Traffic accident prediction in driving videos aims to provide an early warning of the accident occurrence, and supports the decision making of safe driving systems. Previous works usually concentrate on the spatial-temporal correlation of object-level context, while they do not fit the inherent long-tailed data distribution well and are vulnerable to severe environmental change. In this work, we propose a Cognitive Accident Prediction (CAP) method that explicitly leverages human-inspired cognition of text description on the visual observation and the driver attention to facilitate model training. In particular, the text description provides a dense semantic description guidance for the primary context of the traffic scene, while the driver attention provides a traction to focus on the critical region closely correlating with safe driving. CAP is formulated by an attentive text-to-vision shift fusion module, an attentive scene context transfer module, and the driver attention guided accident prediction module. We leverage the attention mechanism in these modules to explore the core semantic cues for accident prediction. In order to train CAP, we extend an existing self-collected DADA-2000 dataset (with annotated driver attention for each frame) with further factual text descriptions for the visual observations before the accidents. Besides, we construct a new large-scale benchmark consisting of 11,727 in-the-wild accident videos with over 2.19 million frames (named as CAP-DATA) together with labeled fact-effect-reason-introspection description and temporal accident frame label. Based on extensive experiments, the superiority of CAP is validated compared with state-of-the-art approaches. The code, CAP-DATA, and all results will be released in \url{https://github.com/JWFanggit/LOTVS-CAP}.
翻訳日:2023-06-19 17:53:17 公開日:2023-06-16
# 適応型ルックアップテーブル融合によるオンラインビデオストリーミング超解像

Online Video Streaming Super-Resolution with Adaptive Look-Up Table Fusion ( http://arxiv.org/abs/2303.00334v2 )

ライセンス: Link先を確認
Guanghao Yin, Zefan Qu, Xinyang Jiang, Shan Jiang, Zhenhua Han, Ningxin Zheng, Huan Yang, Yuqing Yang, Dongsheng Li, Lili Qiu(参考訳) オンラインビデオストリーミングは伝送帯域幅と計算容量に根本的な制限があり、スーパーレゾリューションは有望な解決策である。 しかし、既存のビデオ超解像法をオンラインストリーミングに適用することは簡単ではない。 既存のビデオコーデックとストリーミングプロトコル(\eg, WebRTC)は、ビデオの品質を空間的にも時間的にも動的に変化させ、多様な動的劣化をもたらす。 さらに、オンラインストリーミングには、既存のほとんどのメソッドが適用できないようなレイテンシの厳しい要件がある。 その結果,オンライン・ストリーミング・ビデオの超解像の難解な問題設定に焦点をあてた。 この問題の研究を容易にするため、LDV-WebRTCと呼ばれる新しいベンチマークデータセットが、実世界のオンラインストリーミングシステムに基づいて構築されている。 新しいベンチマークデータセットを活用することで、コンボリューションとLook-Up Table(LUT)ハイブリッドモデルを含むオンラインビデオストリーミングに特化した新しい手法を提案し、パフォーマンスとレイテンシのトレードオフを改善する。 劣化変化に対処するため, 異なる劣化に特化したLUTのセットを構築し, 適応的に組み合わせて異なる劣化に対処する, 実験用LUTモジュールを提案する。 提案手法は720pビデオsrを約100fpsで達成すると同時に,既存のlutベースの手法を大幅に上回り,効率的なcnnベースの手法と比較して競合性能を提供する。

Online video streaming has fundamental limitations on the transmission bandwidth and computational capacity and super-resolution is a promising potential solution. However, applying existing video super-resolution methods to online streaming is non-trivial. Existing video codecs and streaming protocols (\eg, WebRTC) dynamically change the video quality both spatially and temporally, which leads to diverse and dynamic degradations. Furthermore, online streaming has a strict requirement for latency that most existing methods are less applicable. As a result, this paper focuses on the rarely exploited problem setting of online streaming video super resolution. To facilitate the research on this problem, a new benchmark dataset named LDV-WebRTC is constructed based on a real-world online streaming system. Leveraging the new benchmark dataset, we proposed a novel method specifically for online video streaming, which contains a convolution and Look-Up Table (LUT) hybrid model to achieve better performance-latency trade-off. To tackle the changing degradations, we propose a mixture-of-expert-LUT module, where a set of LUT specialized in different degradations are built and adaptively combined to handle different degradations. Experiments show our method achieves 720P video SR around 100 FPS, while significantly outperforms existing LUT-based methods and offers competitive performance compared to efficient CNN-based methods.
翻訳日:2023-06-19 17:47:50 公開日:2023-06-16
# バッチ正規化によるシャッフルSGDのトレーニング不安定性について

On the Training Instability of Shuffling SGD with Batch Normalization ( http://arxiv.org/abs/2302.12444v2 )

ライセンス: Link先を確認
David X. Wu, Chulhee Yun, Suvrit Sra(参考訳) 我々は、SGDがバッチ正規化とどのように相互作用するかを明らかにし、分散のような望ましくないトレーニングのダイナミクスを示す。 より正確には、Single Shuffle(SS)とRandom Reshuffle(RR)という2つの広く使われているSGDの変種が、バッチ正規化の存在下で驚くほど異なる相互作用をおこなったかを研究する。 具体的な例として、バッチ正規化を伴う線形ネットワークを用いた回帰について、SSとRRは勾配降下から「歪んだ」異なる大域的最適度に収束することを示す。 その後の分類では,SSとRRの訓練分岐が発生し得ない条件を特徴付ける。 SSが回帰や分類のばらつきにおいて最適に歪むかを示すための明示的な構成を示す一方、RRは歪みとばらつきの両方を避ける。 現実的な設定で実証的に検証し,バッチ正規化で使用するSSとRRの分離が実際に関係していると結論付けた。

We uncover how SGD interacts with batch normalization and can exhibit undesirable training dynamics such as divergence. More precisely, we study how Single Shuffle (SS) and Random Reshuffle (RR) -- two widely used variants of SGD -- interact surprisingly differently in the presence of batch normalization: RR leads to much more stable evolution of training loss than SS. As a concrete example, for regression using a linear network with batch normalization, we prove that SS and RR converge to distinct global optima that are "distorted" away from gradient descent. Thereafter, for classification we characterize conditions under which training divergence for SS and RR can, and cannot occur. We present explicit constructions to show how SS leads to distorted optima in regression and divergence for classification, whereas RR avoids both distortion and divergence. We validate our results by confirming them empirically in realistic settings, and conclude that the separation between SS and RR used with batch normalization is relevant in practice.
翻訳日:2023-06-19 17:46:31 公開日:2023-06-16
# シングルスマートフォンを用いたマーカーレスモーションキャプチャによるジャンプ高さの定量化

Quantifying Jump Height Using Markerless Motion Capture with a Single Smartphone ( http://arxiv.org/abs/2302.10749v2 )

ライセンス: Link先を確認
Timilehin B. Aderinola, Hananeh Younesian, Darragh Whelan, Brian Caulfield, Georgiana Ifrim(参考訳) ゴール: 反動ジャンプ(CMJ)は、一般的に下半身の爆発力を測定するために使用される。 本研究では,スマートフォン1台でcmjのジャンプ高さを計測できるマーカレスモーションキャプチャ(mmc)の精度について検討した。 方法: まず, 健常成人16名 (平均年齢: 30.87$\pm$7.24年, 平均bmi: 23.14$\pm$2.55$kg/m^2$) で, 光モーションキャプチャ (omc) とスマートフォンカメラ1台で撮影した。 次に、MMCはOpenPoseを使ってスマートフォンのビデオで実行された。 そして, 力板とOMCを基礎事実として, ジャンプ高さの定量評価を行った。 結果:MCCは手動のセグメンテーションとカメラキャリブレーションなしでICCが0.84から0.99のジャンプ高さを定量化する。 結論: スマートフォン1台でマーカーレスモーションキャプチャを実現することは有望であることが示唆された。 インデックス用語 - 逆移動ジャンプ、マーカーレスモーションキャプチャ、光学モーションキャプチャ、ジャンプ高さ。 インパクト・ステートメント - カメラのキャリブレーションも手動のセグメンテーションも不要な単純な設定で、1台のスマートフォンでマーカーレスモーションキャプチャーを使用して、ジャンプの高さを正確に定量化できる。

Goal: The countermovement jump (CMJ) is commonly used to measure lower-body explosive power. This study evaluates how accurately markerless motion capture (MMC) with a single smartphone can measure bilateral and unilateral CMJ jump height. Methods: First, three repetitions each of bilateral and unilateral CMJ were performed by sixteen healthy adults (mean age: 30.87$\pm$7.24 years; mean BMI: 23.14$\pm$2.55 $kg/m^2$) on force plates and simultaneously captured using optical motion capture (OMC) and one smartphone camera. Next, MMC was performed on the smartphone videos using OpenPose. Then, we evaluated MMC in quantifying jump height using the force plate and OMC as ground truths. Results: MMC quantifies jump heights with ICC between 0.84 and 0.99 without manual segmentation and camera calibration. Conclusions: Our results suggest that using a single smartphone for markerless motion capture is promising. Index Terms - Countermovement jump, Markerless motion capture, Optical motion capture, Jump height. Impact Statement - Countermovement jump height can be accurately quantified using markerless motion capture with a single smartphone, with a simple setup that requires neither camera calibration nor manual segmentation.
翻訳日:2023-06-19 17:45:29 公開日:2023-06-16
# 構造ノード分類のための拡散確率モデル

Diffusion Probabilistic Models for Structured Node Classification ( http://arxiv.org/abs/2302.10506v4 )

ライセンス: Link先を確認
Hyosoon Jang, Sangwoo Mo, Sungsoo Ahn(参考訳) 本稿では,ノードラベル間の依存関係を考慮したグラフの構造化ノード分類について検討する。 特に、未知のラベルを予測するために既知のラベルに情報を組み込むことが不可欠である部分ラベル付きグラフの問題を解決することに注力する。 本稿では,構造化ノード分類(dpm-snc)のための拡散確率モデルを用いた新しい枠組みを提案する。 私たちのフレームワークの中心は、DPM-SNCの素晴らしい能力です。 (a)表現力のある逆拡散過程でラベル上のジョイント分布を学習し、 (b) 多様体制約サンプリングを用いた既知のラベルの予測を行う。 DPMには部分ラベル付きデータのトレーニングアルゴリズムがないため、DPMを適用するための新しいトレーニングアルゴリズムを設計し、新しい変動下界を最大化する。 また,従来の1-WLテストよりも厳格に強力なAGG-WLを提案することにより,GNNの表現力を高めることによりノード分類の利点を理論的に分析する。 我々は、dpm-sncの優位性を、部分ラベル付きグラフのトランスダクティブ設定だけでなく、インダクティブ設定とラベルなしグラフを含む様々なシナリオで広範囲に検証した。

This paper studies structured node classification on graphs, where the predictions should consider dependencies between the node labels. In particular, we focus on solving the problem for partially labeled graphs where it is essential to incorporate the information in the known label for predicting the unknown labels. To address this issue, we propose a novel framework leveraging the diffusion probabilistic model for structured node classification (DPM-SNC). At the heart of our framework is the extraordinary capability of DPM-SNC to (a) learn a joint distribution over the labels with an expressive reverse diffusion process and (b) make predictions conditioned on the known labels utilizing manifold-constrained sampling. Since the DPMs lack training algorithms for partially labeled data, we design a novel training algorithm to apply DPMs, maximizing a new variational lower bound. We also theoretically analyze how DPMs benefit node classification by enhancing the expressive power of GNNs based on proposing AGG-WL, which is strictly more powerful than the classic 1-WL test. We extensively verify the superiority of our DPM-SNC in diverse scenarios, which include not only the transductive setting on partially labeled graphs but also the inductive setting and unlabeled graphs.
翻訳日:2023-06-19 17:45:01 公開日:2023-06-16
# Aggregated Iterative Differentiationによる通信効率の良いフェデレーション過次計算

Communication-Efficient Federated Hypergradient Computation via Aggregated Iterative Differentiation ( http://arxiv.org/abs/2302.04969v3 )

ライセンス: Link先を確認
Peiyao Xiao and Kaiyi Ji(参考訳) フェデレーションバイレベル最適化は、新たな機械学習と通信アプリケーションによって、注目を集めている。 最大の課題は、一連の大域的なヘッセン行列の非線形かつ分散構成により、フェデレーション設定における上層目標関数(すなわち超勾配)の勾配を計算することである。 本稿では,aggitd(aggregated iterative differentiation)を用いた,通信効率の高い連関型重回帰推定器を提案する。 aggitdは実装が簡単で、連合超勾配推定と低レベルの最適化を同時に行うことで通信コストを大幅に削減できる。 提案したAggITDに基づくアルゴリズムは,データヘテロジニティの存在下での通信ラウンドがはるかに少ない,既存の近似的暗黙差分法(AID)ベースのアプローチと同一のサンプル複雑性を実現する。 以上の結果から,連合型/分散型高次推定法において,itdによる支援よりも大きな利点が浮かび上がってきた。 これは、ITDがAIDよりも効率が低い非分散二段階最適化の比較とは異なる。 提案手法の有効性と通信効率の実証実験を行った。

Federated bilevel optimization has attracted increasing attention due to emerging machine learning and communication applications. The biggest challenge lies in computing the gradient of the upper-level objective function (i.e., hypergradient) in the federated setting due to the nonlinear and distributed construction of a series of global Hessian matrices. In this paper, we propose a novel communication-efficient federated hypergradient estimator via aggregated iterative differentiation (AggITD). AggITD is simple to implement and significantly reduces the communication cost by conducting the federated hypergradient estimation and the lower-level optimization simultaneously. We show that the proposed AggITD-based algorithm achieves the same sample complexity as existing approximate implicit differentiation (AID)-based approaches with much fewer communication rounds in the presence of data heterogeneity. Our results also shed light on the great advantage of ITD over AID in the federated/distributed hypergradient estimation. This differs from the comparison in the non-distributed bilevel optimization, where ITD is less efficient than AID. Our extensive experiments demonstrate the great effectiveness and communication efficiency of the proposed method.
翻訳日:2023-06-19 17:44:42 公開日:2023-06-16
# 共鳴蛍光における絡み合い

Entanglement in Resonance Fluorescence ( http://arxiv.org/abs/2302.04059v2 )

ライセンス: Link先を確認
Juan Camilo L\'opez Carre\~no, Santiago Berm\'udez Feijoo and Magdalena Stobi\'nska(参考訳) 粒子絡み合いは、多くの量子技術に基づく基本的な資源である。 しかし、近現代において最も優れた光子源はパラメトリックダウンコンバージョンプロセスに依存しており、これは特定の周波数でしか最適であり、絡み合いの恩恵を受けることができる凝縮マター系のエネルギーとはほとんど一致しない。 本稿では、この問題を回避する方法を示し、真空の重畳として光子対を供給し、ベル状態 $|\Phi^-\rangle$ の共振蛍光に基づいて、新しい絡み合った光子の源を導入する。 本提案は、強いオフ共振レーザーにより駆動される2レベル系の衛星ピークからの放射に依存しており、その強度は絡み合う光子の周波数を制御する。 さらに、エンタングルメントの程度は1対の周波数ごとに最適化できるため、既存の技術よりも明らかに有利である。 最後に, ポラリトン系を励起し, 極度に絡み合った定常状態にあることを示すことで, 新規な単光子対源のパワーを示す。

Particle entanglement is a fundamental resource upon which are based many quantum technologies. However, the up-to-now best sources of entangled photons rely on parametric down-conversion processes, which are optimal only at certain frequencies, which rarely match the energies of condensed-matter systems that can benefit from entanglement. In this Article, we show a way to circumvent this issue, and we introduce a new source of entangled photons based on resonance fluorescence delivering photon pairs as a superposition of vacuum and the Bell state $|\Phi^-\rangle$. Our proposal relies on the emission from the satellite peaks of a two-level system driven by a strong off-resonant laser, whose intensity controls the frequencies of the entangled photons. Furthermore, the degree of entanglement can be optimized for every pair of frequencies, thus demonstrating a clear advantage over existing technologies. Finally, we illustrate the power of our novel source of entangled single-photon pairs by exciting a system of polaritons and showing that they are left in a maximally entangled steady state.
翻訳日:2023-06-19 17:44:25 公開日:2023-06-16
# 不確実性下での一致の公平性

Fairness in Matching under Uncertainty ( http://arxiv.org/abs/2302.03810v2 )

ライセンス: Link先を確認
Siddartha Devic, David Kempe, Vatsal Sharan, Aleksandra Korolova(参考訳) アルゴリズム的二面市場の普及と重要性は、こうした設定における公平性の問題に注意を向けている。 アルゴリズム決定は、生徒を学校へ、ユーザーを広告主に、応募者を求職面接に割り当てるために使われる。 これらの決定は個人の好みを高め、そのメリット(適合性、将来のパフォーマンス、あるいはニーズ)に関して公平であるようにすべきである。 オブザーバブルな特徴に条件付けられたメリットは常に \emph{uncertain} であり、オブザーバブルからメリットを推測する機械学習アルゴリズムの広範な利用によってさらに悪化している。 重要な貢献として、利益の不確実性を尊重する両面の市場設定において、個々人の公正性の概念を慎重に公理化し、実際、不確実性は不公平の第一の潜在的な原因であり、それに対応するためのアプローチであると同時に認識する。 線形プログラミングフレームワークを設計し,提案手法を機械学習技術と組み合わせる上で重要な特性である,不確実な有益分布の推定パラメータの摂動に頑健であることを示す。

The prevalence and importance of algorithmic two-sided marketplaces has drawn attention to the issue of fairness in such settings. Algorithmic decisions are used in assigning students to schools, users to advertisers, and applicants to job interviews. These decisions should heed the preferences of individuals, and simultaneously be fair with respect to their merits (synonymous with fit, future performance, or need). Merits conditioned on observable features are always \emph{uncertain}, a fact that is exacerbated by the widespread use of machine learning algorithms to infer merit from the observables. As our key contribution, we carefully axiomatize a notion of individual fairness in the two-sided marketplace setting which respects the uncertainty in the merits; indeed, it simultaneously recognizes uncertainty as the primary potential cause of unfairness and an approach to address it. We design a linear programming framework to find fair utility-maximizing distributions over allocations, and we show that the linear program is robust to perturbations in the estimated parameters of the uncertain merit distributions, a key property in combining the approach with machine learning techniques.
翻訳日:2023-06-19 17:44:07 公開日:2023-06-16
# 個人化拡散モデルを用いたワンショット非教師付きドメイン適応

One-shot Unsupervised Domain Adaptation with Personalized Diffusion Models ( http://arxiv.org/abs/2303.18080v2 )

ライセンス: Link先を確認
Yasser Benigmim, Subhankar Roy, Slim Essid, Vicky Kalogeiton, St\'ephane Lathuili\`ere(参考訳) ラベル付きソースドメインからターゲットドメインへのセグメンテーションモデルの適用は、単一のラベルなしのdatumが利用可能な場合、ドメイン適応において最も難しい問題のひとつであり、その他はone-shot unsupervised domain adaptation(osuda)として知られている。 以前の作品の多くは、ソースイメージがターゲットドメインの外観を持つようにスタイル化されているスタイル転送技術に頼ってこの問題に対処してきた。 対象の『texture』情報のみを転送するという一般的な概念とは別に、テキストと画像の拡散モデル(例えば、安定拡散)を利用して、対象のドメインのスタイルを忠実に描写するだけでなく、多様な文脈における斬新なシーンによって特徴付けられる写真リアル画像の合成ターゲットデータセットを生成する。 本手法のテキストインタフェースは,DATUM (Data AugmenTation with diffusion Models) により,既存のOSUDA法では不可能な,単一のトレーニング画像の空間的コンテキストを尊重しながら,所望のセマンティック概念に向けて画像の生成を導くことができる。 標準ベンチマークでの大規模な実験により、我々のDATUMは最先端のOSUDAメソッドを最大で7.1%超えた。 実装はhttps://github.com/yasserben/DATUMで公開されている。

Adapting a segmentation model from a labeled source domain to a target domain, where a single unlabeled datum is available, is one the most challenging problems in domain adaptation and is otherwise known as one-shot unsupervised domain adaptation (OSUDA). Most of the prior works have addressed the problem by relying on style transfer techniques, where the source images are stylized to have the appearance of the target domain. Departing from the common notion of transferring only the target ``texture'' information, we leverage text-to-image diffusion models (e.g., Stable Diffusion) to generate a synthetic target dataset with photo-realistic images that not only faithfully depict the style of the target domain, but are also characterized by novel scenes in diverse contexts. The text interface in our method Data AugmenTation with diffUsion Models (DATUM) endows us with the possibility of guiding the generation of images towards desired semantic concepts while respecting the original spatial context of a single training image, which is not possible in existing OSUDA methods. Extensive experiments on standard benchmarks show that our DATUM surpasses the state-of-the-art OSUDA methods by up to +7.1%. The implementation is available at https://github.com/yasserben/DATUM
翻訳日:2023-06-19 17:36:43 公開日:2023-06-16
# 卵巣癌病理における人工知能 : 全身的検討

Artificial Intelligence in Ovarian Cancer Histopathology: A Systematic Review ( http://arxiv.org/abs/2303.18005v2 )

ライセンス: Link先を確認
Jack Breen, Katie Allen, Kieran Zucker, Pratik Adusumilli, Andy Scarsbrook, Geoff Hall, Nicolas M. Orsi, Nishant Ravikumar(参考訳) 目的 - 病理組織学的データを用いて卵巣癌診断や予後診断のための人工知能(AI)手法を評価する論文の質を評価・評価すること。 方法 - PubMed, Scopus, Web of Science, CENTRAL, WHO-ICTRPの検索を19/05/2023まで行った。 包括的基準は、卵巣癌における診断または予後推論のための病理画像上のAIを評価することを必要とした。 バイアスのリスクはproBASTを用いて評価した。 各関心モデルに関する情報を集計し,要約統計を報告する。 PRISMA 2020報告ガイドラインが守られた。 結果 - 1573件の記録が特定され、そのうち45件が記載された。 関心のある80のモデルがあり、37の診断モデル、22の予測モデル、21のモデルがあり、他の診断に関連がある。 1-776卵巣癌患者の1-1375スライドを用いてモデルを構築した。 対象は治療反応(11/80),悪性度(10/80),染色量(9/80),組織学的サブタイプ(7/80)であった。 すべてのモデルが全体として偏見のリスクが高いか、あるいは不明確であることが判明し、ほとんどの研究は分析における偏見のリスクが高く、研究の参加者や予測者に関する明快さが欠如している。 研究は報告不足や小さなサンプルサイズによる限定的な検証に苦しんだ。 結論 - 卵巣癌における診断や予後のための病理画像へのAIの応用に関する限定的な研究が行われており、関連するモデルがいずれも実際の実装の準備が整っていないことが示されている。 臨床翻訳を確実にするための重要な側面は、データプロヴァンスとモデリングアプローチのより透明で包括的な報告と、クロスバリデーションと外部検証を用いた定量的パフォーマンス評価の改善である。

Purpose - To characterise and assess the quality of published research evaluating artificial intelligence (AI) methods for ovarian cancer diagnosis or prognosis using histopathology data. Methods - A search of PubMed, Scopus, Web of Science, CENTRAL, and WHO-ICTRP was conducted up to 19/05/2023. The inclusion criteria required that research evaluated AI on histopathology images for diagnostic or prognostic inferences in ovarian cancer. The risk of bias was assessed using PROBAST. Information about each model of interest was tabulated and summary statistics were reported. PRISMA 2020 reporting guidelines were followed. Results - 1573 records were identified, of which 45 were eligible for inclusion. There were 80 models of interest, including 37 diagnostic models, 22 prognostic models, and 21 models with other diagnostically relevant outcomes. Models were developed using 1-1375 slides from 1-776 ovarian cancer patients. Model outcomes included treatment response (11/80), malignancy status (10/80), stain quantity (9/80), and histological subtype (7/80). All models were found to be at high or unclear risk of bias overall, with most research having a high risk of bias in the analysis and a lack of clarity regarding participants and predictors in the study. Research frequently suffered from insufficient reporting and limited validation using small sample sizes. Conclusion - Limited research has been conducted on the application of AI to histopathology images for diagnostic or prognostic purposes in ovarian cancer, and none of the associated models have been demonstrated to be ready for real-world implementation. Key aspects to help ensure clinical translation include more transparent and comprehensive reporting of data provenance and modelling approaches, as well as improved quantitative performance evaluation using cross-validation and external validations.
翻訳日:2023-06-19 17:36:15 公開日:2023-06-16
# 非局所重力相互作用を持つ質量の量子絡み合い

Quantum entanglement of masses with non-local gravitational interaction ( http://arxiv.org/abs/2303.17640v2 )

ライセンス: Link先を確認
Ulrich K. Beckering Vinckers, \'Alvaro de la Cruz-Dombriz and Anupam Mazumdar(参考訳) 一般相対性理論と物質との特定の非局所相互作用の文脈における2つの実験質量の量子的重力絡みについて検討する。 これを達成するために、等質量の2つの試験粒子を記述するエネルギー-運動量テンソルを考える。 線形化理論の量子化について論じた後、この場合作用素値である重力エネルギーシフトを計算する。 局所的な重力相互作用と比較すると、自己相互作用項による重力エネルギーの変化は有限であることが分かる。 次に、2つの異なるシナリオに対して量子重力による質量の絡み合いを研究する。 第一のシナリオは、2つのテスト質量を重力エネルギーシフトによって与えられる相互作用ハミルトニアンと調和振動子として扱うことである。 2つ目のシナリオでは、それぞれのテスト質量はそれぞれのスピン状態に基づいて2つの位置の量子空間重ね合わせに置かれ、それらの絡み合いは重力相互作用と真空エネルギーのシフトによって引き起こされる。 これら2つのシナリオに対して、コンカレンスとフォン・ノイマンエントロピーを計算し、重力相互作用の非局所性の増加がこれらの量の両方を減少させることを示した。

We examine the quantum gravitational entanglement of two test masses in the context of linearized General Relativity with specific non-local interaction with matter. To accomplish this, we consider an energy-momentum tensor describing two test particles of equal mass with each possessing some non-zero momentum. After discussing the quantization of the linearized theory, we compute the gravitational energy shift which is operator-valued in this case. As compared to the local gravitational interaction, we find that the change in the gravitational energy due to the self-interaction terms is finite. We then move on to study the quantum gravity induced entanglement of masses for two different scenarios. The first scenario involves treating the two test masses as harmonic oscillators with an interaction Hamiltonian given by the aforesaid gravitational energy shift. In the second scenario, each of the test masses is placed in a quantum spatial superposition of two locations, based on their respective spin states, and their entanglement being induced by the gravitational interaction and the shift in the vacuum energy. For these two scenarios, we compute both the concurrence and the von Neumann entropy; showing that an increase in the non-locality of the gravitational interaction results in a decrease in both of these quantities.
翻訳日:2023-06-19 17:35:47 公開日:2023-06-16
# 多光子対生成におけるモーメントムスパイラルの再検討

Momentum spirals in multiphoton pair production revisited ( http://arxiv.org/abs/2303.15781v2 )

ライセンス: Link先を確認
Li-Na Hu, Orkash Amat, Li Wang, Adiljan Sawut, Hong-Hao Fan and B. S. Xie(参考訳) 多光子対生成のスパイラルはパルスの異なるサイクルの時間遅延を伴う2つの反回転場によって再検討される。 新たな知見として, サブサイクル場においては, 運動量スペクトルの顕著なスパイラル構造は, 小さい時間遅延で生成しやすいスーパーサイクルの場合と比較しても大きな時間遅延によっても引き起こされることがわかった。 また、異なるサイクル数に対応するスパイラルの出現に対する臨界偏光値の範囲も存在する。 2つの場の相対的な位相差は、運動量スペクトルパターンとスパイラルの深刻な対称性の破れを引き起こすだけでなく、スパイラルアームの形状と数に大きな変化をもたらす。 数密度が大きくなるとサイクル数に敏感になり、特に小さなサイクルパルスでは1桁以上増大する一方、時間遅延が小さい場合には数倍に増大する。 これらの結果は、将来多光子対生成の実験的な観測が可能な豊富な理論的試験ベッドを提供する。 一方、粒子運動量シグネチャは真空からのレーザ場情報に対する新しいプローブとして適用可能である。

Spirals in multiphoton pair production are revisited by two counter-rotating fields with time delay for different cycles in pulse. Novel findings include that for subcycle fields, the remarkable spiral structure in the momentum spectrum can be still caused by a large time delay compared to the previous study for supercycle case where it is easier to be generated by a small time delay. And also there exist a range of critical polarization values for the spirals appearance corresponding to the different cycle number. The relative phase difference between two fields causes not only severe symmetry breaking of the momentum spectra pattern and spiral, but also a significant change for the shape and the number of spiral arm. Upon the number density, it is found a more sensitive to the cycle number, in particularly, it is enhanced by more than one order of magnitude for small cycle pulse, while it is increased about few times when the time delay is small. These results provide an abundant theoretical testbed for the possible experimental observation on the multiphoton pair production in future. Meanwhile, it is applicable to regard the particles momentum signatures as a new probing to the laser field information with it from the vacuum.
翻訳日:2023-06-19 17:35:28 公開日:2023-06-16
# 強化学習によるロボットパッケージング最適化

Robotic Packaging Optimization with Reinforcement Learning ( http://arxiv.org/abs/2303.14693v2 )

ライセンス: Link先を確認
Eveline Drijver, Rodrigo P\'erez-Dattari, Jens Kober, Cosimo Della Santina and Zlatan Ajanovi\'c(参考訳) 廃棄物やリードタイムを最小化しながら生産性と柔軟性を最大化する需要が高まっているため、インテリジェント製造の重要性が高まっている。 本研究は,コンベアベルトから容器に食品を輸送する自動二次ロボット食品包装ソリューションについて検討する。 これらのソリューションの大きな問題は、大幅な生産性低下を引き起こす可能性のある製品供給の変化である。 この問題に対処するために使用される従来のルールベースのアプローチは、しばしば不十分であり、業界の要求に違反する。 一方、強化学習は、経験に基づいて応答性と予測ポリシーを学習することで、この問題を解決する可能性を秘めている。 しかし,高度に複雑な制御方式では利用が困難である。 本稿では,コンベアベルトの速度を最適化し,制御系の他の部分との干渉を最小限に抑えた強化学習フレームワークを提案する。 実世界のデータでテストすると、このフレームワークはパフォーマンス要件(99.8%の製品)を超え、品質(100%の箱)を維持している。 既存のソリューションと比較して,提案フレームワークは生産性を向上し,よりスムーズに制御でき,計算時間を短縮できる。

Intelligent manufacturing is becoming increasingly important due to the growing demand for maximizing productivity and flexibility while minimizing waste and lead times. This work investigates automated secondary robotic food packaging solutions that transfer food products from the conveyor belt into containers. A major problem in these solutions is varying product supply which can cause drastic productivity drops. Conventional rule-based approaches, used to address this issue, are often inadequate, leading to violation of the industry's requirements. Reinforcement learning, on the other hand, has the potential of solving this problem by learning responsive and predictive policy, based on experience. However, it is challenging to utilize it in highly complex control schemes. In this paper, we propose a reinforcement learning framework, designed to optimize the conveyor belt speed while minimizing interference with the rest of the control system. When tested on real-world data, the framework exceeds the performance requirements (99.8% packed products) and maintains quality (100% filled boxes). Compared to the existing solution, our proposed framework improves productivity, has smoother control, and reduces computation time.
翻訳日:2023-06-19 17:35:10 公開日:2023-06-16
# Auto-AVSR: 自動ラベルによる音声認識

Auto-AVSR: Audio-Visual Speech Recognition with Automatic Labels ( http://arxiv.org/abs/2303.14307v2 )

ライセンス: Link先を確認
Pingchuan Ma, Alexandros Haliassos, Adriana Fernandez-Lopez, Honglie Chen, Stavros Petridis, Maja Pantic(参考訳) 音響雑音に対する頑健性から,音声認識には多くの注目を集めている。 近年,大規模モデルとトレーニングセットの使用を中心に,自動・視覚的・音声視覚的音声認識(ASR,VSR,AV-ASR)の性能が大幅に向上している。 しかし、データセットの正確なラベル付けには時間と費用がかかる。 そこで本研究では,ラベルなしデータセットの自動生成転写を用いて,トレーニングセットのサイズを増加させる方法について検討する。 この目的のために、AVSpeechやVoxCeleb2といった非競合データセットを自動的に書き起こすために、公開トレーニング済みのASRモデルを使用します。 そして、ARS、VSR、AV-ASRのモデルを拡張トレーニングセットでトレーニングし、LSS2とLSS3のデータセットと追加の自動転写データからなる。 近年の文献的傾向であるトレーニングセットのサイズが大きくなると,ノイズによる書き起こしにもかかわらずWERが減少することが示されている。 提案手法は,RS2 と LRS3 の AV-ASR 上での最先端性能を実現する。 特に、現在の最先端アプローチよりも30%向上したRS3で0.9%のWERを達成し、26倍のトレーニングデータを持つ非公開データセットでトレーニングされたメソッドを上回ります。

Audio-visual speech recognition has received a lot of attention due to its robustness against acoustic noise. Recently, the performance of automatic, visual, and audio-visual speech recognition (ASR, VSR, and AV-ASR, respectively) has been substantially improved, mainly due to the use of larger models and training sets. However, accurate labelling of datasets is time-consuming and expensive. Hence, in this work, we investigate the use of automatically-generated transcriptions of unlabelled datasets to increase the training set size. For this purpose, we use publicly-available pre-trained ASR models to automatically transcribe unlabelled datasets such as AVSpeech and VoxCeleb2. Then, we train ASR, VSR and AV-ASR models on the augmented training set, which consists of the LRS2 and LRS3 datasets as well as the additional automatically-transcribed data. We demonstrate that increasing the size of the training set, a recent trend in the literature, leads to reduced WER despite using noisy transcriptions. The proposed model achieves new state-of-the-art performance on AV-ASR on LRS2 and LRS3. In particular, it achieves a WER of 0.9% on LRS3, a relative improvement of 30% over the current state-of-the-art approach, and outperforms methods that have been trained on non-publicly available datasets with 26 times more training data.
翻訳日:2023-06-19 17:34:53 公開日:2023-06-16
# 対物的説明の反復的部分充足:利益とリスク

Iterative Partial Fulfillment of Counterfactual Explanations: Benefits and Risks ( http://arxiv.org/abs/2303.11111v2 )

ライセンス: Link先を確認
Yilun Zhou(参考訳) counterfactual (cf) descriptionsは、コントラスト的説明やアルゴリズム的リコースとしても知られ、高レベルの領域で機械学習モデルを説明するのに人気がある。 負のモデル予測(例えば住宅ローン申請拒否)を受けた被験者の場合、cfの説明は類似の例であるが、改善方法の主題を知らせるポジティブな予測を持つ。 妥当性や安定性など,様々な性質が研究されてきたが,反復的部分充足(ipf)下での行動について新たな知見を提示する。 具体的には、CF説明を受けると、被験者は新たな説明で新しい予測を要求する前に部分的にそれを満たすだけで、予測が正になるまで繰り返すことができる。 このような部分的な充足は、被験者の限られた能力(例えば、現在4つのクレジットカード口座のうち2つしか支払えない)やチャンスを取ろうとする試み(例えば、1000ドルが推奨されているにもかかわらず、月給800ドルの増加が十分であると考えるなど)による可能性がある。 このような反復的な部分充足は、被験者による改善の総コストを増加させるか、減少させるか? 数学的にIPFを定式化し、理論的にも経験的にも、異なるCFアルゴリズムがIPFの下で非常に異なる振る舞いを示すことを示す。 我々は観察の意義を議論し、cfアルゴリズムの開発と研究において、この要因を慎重に考慮すべきことを提唱し、今後の作業に向けていくつかの方向性を示す。

Counterfactual (CF) explanations, also known as contrastive explanations and algorithmic recourses, are popular for explaining machine learning models in high-stakes domains. For a subject that receives a negative model prediction (e.g., mortgage application denial), the CF explanations are similar instances but with positive predictions, which informs the subject of ways to improve. While their various properties have been studied, such as validity and stability, we contribute a novel one: their behaviors under iterative partial fulfillment (IPF). Specifically, upon receiving a CF explanation, the subject may only partially fulfill it before requesting a new prediction with a new explanation, and repeat until the prediction is positive. Such partial fulfillment could be due to the subject's limited capability (e.g., can only pay down two out of four credit card accounts at this moment) or an attempt to take the chance (e.g., betting that a monthly salary increase of $800 is enough even though $1,000 is recommended). Does such iterative partial fulfillment increase or decrease the total cost of improvement incurred by the subject? We mathematically formalize IPF and demonstrate, both theoretically and empirically, that different CF algorithms exhibit vastly different behaviors under IPF. We discuss implications of our observations, advocate for this factor to be carefully considered in the development and study of CF algorithms, and give several directions for future work.
翻訳日:2023-06-19 17:34:30 公開日:2023-06-16
# ヒトの言語理解能力を用いた薬物発見における活動予測モデルの拡張

Enhancing Activity Prediction Models in Drug Discovery with the Ability to Understand Human Language ( http://arxiv.org/abs/2303.03363v2 )

ライセンス: Link先を確認
Philipp Seidl, Andreu Vall, Sepp Hochreiter, G\"unter Klambauer(参考訳) 活動と特性予測モデルは、創薬と物質科学の中心的な研究馬であるが、現在それらは新しいタスクのために訓練または微調整されなければならない。 トレーニングや微調整がなければ、科学的な言語モデルは、発表されているゼロショットと少数ショット機能を通じて、このような低データタスクに使用できる。 しかし、活動予測における予測品質は欠落している。 本研究では,タスクを記述したテキスト情報の理解を通じて,推論時に新しい予測タスクに適応可能な,新たなタイプのアクティビティ予測モデルを提案する。 そこで本研究では,化学および自然言語入力のためのモジュールを分離した新しいアーキテクチャを提案する。 幅広い実験において,本手法は,数発学習ベンチマークにおける予測性能の向上と,薬物発見におけるゼロショット問題をもたらすことを示した。 我々は,提案手法の進歩をモジュール化アーキテクチャと事前学習目標に分類した。

Activity and property prediction models are the central workhorses in drug discovery and materials sciences, but currently they have to be trained or fine-tuned for new tasks. Without training or fine-tuning, scientific language models could be used for such low-data tasks through their announced zero- and few-shot capabilities. However, their predictive quality at activity prediction is lacking. In this work, we envision a novel type of activity prediction model that is able to adapt to new prediction tasks at inference time, via understanding textual information describing the task. To this end, we propose a new architecture with separate modules for chemical and natural language inputs, and a contrastive pre-training objective on data from large biochemical databases. In extensive experiments, we show that our method CLAMP yields improved predictive performance on few-shot learning benchmarks and zero-shot problems in drug discovery. We attribute the advances of our method to the modularized architecture and to our pre-training objective.
翻訳日:2023-06-19 17:33:36 公開日:2023-06-16
# ChemCrow: 化学ツールによる大規模言語モデルの強化

ChemCrow: Augmenting large-language models with chemistry tools ( http://arxiv.org/abs/2304.05376v3 )

ライセンス: Link先を確認
Andres M Bran, Sam Cox, Oliver Schilter, Carlo Baldassari, Andrew D White, Philippe Schwaller(参考訳) 過去数十年間、優れた計算化学ツールが開発されてきた。 彼らの潜在能力は、ほとんどが学習し、孤立して存在するため、まだ到達していない。 近年,大規模言語モデル (LLM) は領域間のタスクにおいて高い性能を示したが,化学問題に苦慮している。 さらに、これらのモデルは外部の知識ソースにアクセスできず、科学的応用における有用性を制限している。 本研究では, 有機合成, 創薬, 材料設計における課題を遂行するLLM化学剤であるChemCrowを紹介する。 18のエキスパート設計ツールを統合することで、化学におけるLLMのパフォーマンスが向上し、新たな能力が出現する。 我々のエージェントは、昆虫忌避剤、3つの有機触媒の合成を自律的に計画し実行し、新しいクロモフォアの発見を導いた。 llmとエキスパートアセスメントの両方を含む評価は,化学タスクの多種多様な自動化におけるchemcrowの有効性を示す。 驚くべきことに,GPT-4を評価器として用いると,GPT-4の完成度とChemcrowの性能を区別できない。 chemcrowのようなツールの誤用には重大なリスクがあり、その潜在的な害について議論する。 我々の研究は、専門家の化学者を助けるだけでなく、実験化学と計算化学のギャップを埋めることによって科学的進歩を促進する。 公開されているコードはhttps://github.com/ur-whitelab/chemcrow-publicにある。

Over the last decades, excellent computational chemistry tools have been developed. Their full potential has not yet been reached as most are challenging to learn and exist in isolation. Recently, large-language models (LLMs) have shown strong performance in tasks across domains, but struggle with chemistry-related problems. Moreover, these models lack access to external knowledge sources, limiting their usefulness in scientific applications. In this study, we introduce ChemCrow, an LLM chemistry agent designed to accomplish tasks across organic synthesis, drug discovery, and materials design. By integrating 18 expert-designed tools, ChemCrow augments the LLM performance in chemistry, and new capabilities emerge. Our agent autonomously planned and executed the syntheses of an insect repellent, three organocatalysts, and guided the discovery of a novel chromophore. Our evaluation, including both LLM and expert assessments, demonstrates ChemCrow's effectiveness in automating a diverse set of chemical tasks. Surprisingly, we find that GPT-4 as an evaluator cannot distinguish between clearly wrong GPT-4 completions and Chemcrow's performance. There is a significant risk of misuse of tools like ChemCrow, and we discuss their potential harms. Employed responsibly, our work not only aids expert chemists and lowers barriers for non-experts, but also fosters scientific advancement by bridging the gap between experimental and computational chemistry. Publicly available code can be found at https://github.com/ur-whitelab/chemcrow-public
翻訳日:2023-06-19 17:27:46 公開日:2023-06-16
# WEAR: ウェアラブルとエゴセントリックなアクティビティ認識のための屋外スポーツデータセット

WEAR: An Outdoor Sports Dataset for Wearable and Egocentric Activity Recognition ( http://arxiv.org/abs/2304.05088v2 )

ライセンス: Link先を確認
Marius Bock, Hilde Kuehne, Kristof Van Laerhoven, Michael Moeller(参考訳) カメラと慣性ベースのデータの相補性は研究されているが、両方のモダリティを提供するデータセットは乏しい。 本稿では,視覚と慣性に基づく人間活動認識(HAR)のための屋外スポーツデータセットWEARを紹介する。 データセットは、外10箇所で記録された未トリミング慣性(加速度)とカメラ(エゴセントリックビデオ)データを用いて、合計18の異なるトレーニング活動を行う18人の参加者のデータを含む。 従来のエゴセントリックデータセットとは異なり、wearは、意図的に導入されたアクティビティのバリエーションと、全体的な小さな情報の重複によって特徴付けられる、困難な予測シナリオを提供する。 ベンチマークの結果、シングルモダリティアーキテクチャはそれぞれ、予測性能の長所と短所が異なることが判明した。 さらに,近年の変圧器を用いた時空間行動定位モデルの成功を踏まえ,視覚,慣性,複合的(視覚+慣性)機能を入力として平易な方法で適用することにより,その汎用性を示す。 その結果、慣性データに対する視覚ベースのトランスフォーマーの適用性と、単純な連結による両方のモダリティの融合(ビジョン + 慣性特徴)により、最高平均精度と最高値のf1-scoreを生成できることを示した。 実験を再現するデータセットとコードは、https://mariusbock.github.io/wear/を通じて公開されている。

Though research has shown the complementarity of camera- and inertial-based data, datasets which offer both modalities remain scarce. In this paper, we introduce WEAR, an outdoor sports dataset for both vision- and inertial-based human activity recognition (HAR). The dataset comprises data from 18 participants performing a total of 18 different workout activities with untrimmed inertial (acceleration) and camera (egocentric video) data recorded at 10 different outside locations. Unlike previous egocentric datasets, WEAR provides a challenging prediction scenario marked by purposely introduced activity variations as well as an overall small information overlap across modalities. Provided benchmark results reveal that single-modality architectures each have different strengths and weaknesses in their prediction performance. Further, in light of the recent success of transformer-based temporal action localization models, we demonstrate their versatility by applying them in a plain fashion using vision, inertial and combined (vision + inertial) features as input. Results demonstrate both the applicability of vision-based transformers for inertial data and fusing both modalities by means of simple concatenation, with the combined approach (vision + inertial features) being able to produce the highest mean average precision and close-to-best F1-score. The dataset and code to reproduce experiments is publicly available via: https://mariusbock.github.io/wear/
翻訳日:2023-06-19 17:27:21 公開日:2023-06-16
# ファクトニュース検出のための類似性を考慮したマルチモーダルプロンプト学習

Similarity-Aware Multimodal Prompt Learning for Fake News Detection ( http://arxiv.org/abs/2304.04187v3 )

ライセンス: Link先を確認
Ye Jiang, Xiaomin Yu, Yimin Wang, Xiaoman Xu, Xingyi Song and Diana Maynard(参考訳) 偽ニュース検出の標準パラダイムは、主にテキスト情報を用いてニュースの真偽をモデル化する。 しかし、オンラインフェイクニュースの言説は典型的には微妙であり、専門家は偽ニュースを解読するためにテキスト情報を使う必要がある。 近年,マルチモーダルフェイクニュース検出に注目する研究が,テキストのみの手法を上回っている。 事前学習モデルを用いたユニモーダルな特徴抽出や事前学習モデルを直接微調整するという最近のアプローチは、偽ニュースを検出する新しいパラダイムとなっている。 繰り返しになるが、このパラダイムは大量のトレーニングインスタンスを必要とするか、事前訓練されたモデルのパラメータセット全体を更新する。 さらに、従来のマルチモーダル手法は、非相関な意味表現がマルチモーダル特徴にノイズを注入する可能性を考慮せずに、クロスモーダル特徴を直接融合する。 本稿では,Simisity-Aware Multimodal Prompt Learning (SAMPLE)フレームワークを提案する。 まず,マルチモーダルな偽ニュース検出に即時学習を取り入れた。 プロンプトのみを凍った言語モデルでチューニングするプロンプト学習は、メモリ使用量を大幅に削減し、微調整と比較して同等のパフォーマンスを達成することができる。 我々は3つのプロンプトテンプレートをソフトな言葉遣いで分析し、偽ニュースを検出する。 さらに,マルチモーダル表現の強度を適応的に融合させ,非相関なクロスモーダル特徴によるノイズインジェクションを緩和する類似性認識fusing法を提案する。 評価のために、SAMPLEは2つのベンチマークマルチモーダルデータセットにおけるF1および以前の研究の精度を上回り、偽ニュースを検出する方法の有効性を実証した。 さらにSAMPLEは、少数ショットやデータリッチな設定に関わらず、他のアプローチよりも優れている。

The standard paradigm for fake news detection mainly utilizes text information to model the truthfulness of news. However, the discourse of online fake news is typically subtle and it requires expert knowledge to use textual information to debunk fake news. Recently, studies focusing on multimodal fake news detection have outperformed text-only methods. Recent approaches utilizing the pre-trained model to extract unimodal features, or fine-tuning the pre-trained model directly, have become a new paradigm for detecting fake news. Again, this paradigm either requires a large number of training instances, or updates the entire set of pre-trained model parameters, making real-world fake news detection impractical. Furthermore, traditional multimodal methods fuse the cross-modal features directly without considering that the uncorrelated semantic representation might inject noise into the multimodal features. This paper proposes a Similarity-Aware Multimodal Prompt Learning (SAMPLE) framework. First, we incorporate prompt learning into multimodal fake news detection. Prompt learning, which only tunes prompts with a frozen language model, can reduce memory usage significantly and achieve comparable performances, compared with fine-tuning. We analyse three prompt templates with a soft verbalizer to detect fake news. In addition, we introduce the similarity-aware fusing method to adaptively fuse the intensity of multimodal representation and mitigate the noise injection via uncorrelated cross-modal features. For evaluation, SAMPLE surpasses the F1 and the accuracies of previous works on two benchmark multimodal datasets, demonstrating the effectiveness of the proposed method in detecting fake news. In addition, SAMPLE also is superior to other approaches regardless of few-shot and data-rich settings.
翻訳日:2023-06-19 17:26:54 公開日:2023-06-16
# オピニオンマイニングのための深層学習とコースレビューのトピック分類

Deep Learning for Opinion Mining and Topic Classification of Course Reviews ( http://arxiv.org/abs/2304.03394v2 )

ライセンス: Link先を確認
Anna Koufakou(参考訳) あるコースの学生の意見は、コースの種類や機関に関係なく、教育者や管理者にとって重要である。 オープンエンドフィードバックの読み書きと手作業による分析は、機関レベルの大量のコメントやオンラインフォーラムでは実現不可能である。 本稿では,オンラインで公開されている多数のコースレビューを収集し,事前処理した。 我々は,学生の感情やトピックに対する洞察を得るために,機械学習技術を適用した。 具体的には,単語埋め込みや深層ニューラルネットワーク,最先端のBERT(Bidirectional Encoder Representations from Transformers),RoBERTa(Robustly Optimization BERT approach),XLNet(Generalized Auto-Regression Pre-training)といった現在の自然言語処理(NLP)技術を利用した。 これらの手法と従来の手法を比較検討した。 本研究は,授業フィードバックを利用した感情極性抽出とトピックベース分類に現代的機械学習を適用する方法を示す。 感情極性では、トップモデルが95.5%のRoBERTaと84.7%のF1-macro、トピック分類ではSVM(Support Vector Machine)が79.8%の精度と80.6%のF1-macroである。 また,ハイパーパラメータがモデル性能に与える影響を詳細に検討し,その観察について考察した。 これらの知見は、NLPモデルによる自己評価と改善に向けたコースフィードバックの分析ガイドとして、機関やコースプロバイダが活用することができる。

Student opinions for a course are important to educators and administrators, regardless of the type of the course or the institution. Reading and manually analyzing open-ended feedback becomes infeasible for massive volumes of comments at institution level or online forums. In this paper, we collected and pre-processed a large number of course reviews publicly available online. We applied machine learning techniques with the goal to gain insight into student sentiments and topics. Specifically, we utilized current Natural Language Processing (NLP) techniques, such as word embeddings and deep neural networks, and state-of-the-art BERT (Bidirectional Encoder Representations from Transformers), RoBERTa (Robustly optimized BERT approach) and XLNet (Generalized Auto-regression Pre-training). We performed extensive experimentation to compare these techniques versus traditional approaches. This comparative study demonstrates how to apply modern machine learning approaches for sentiment polarity extraction and topic-based classification utilizing course feedback. For sentiment polarity, the top model was RoBERTa with 95.5% accuracy and 84.7% F1-macro, while for topic classification, an SVM (Support Vector Machine) was the top classifier with 79.8% accuracy and 80.6% F1-macro. We also provided an in-depth exploration of the effect of certain hyperparameters on the model performance and discussed our observations. These findings can be used by institutions and course providers as a guide for analyzing their own course feedback using NLP models towards self-evaluation and improvement.
翻訳日:2023-06-19 17:26:26 公開日:2023-06-16
# 自己監督型ビデオ類似学習

Self-Supervised Video Similarity Learning ( http://arxiv.org/abs/2304.03378v2 )

ライセンス: Link先を確認
Giorgos Kordopatis-Zilos and Giorgos Tolias and Christos Tzelepis and Ioannis Kompatsiaris and Ioannis Patras and Symeon Papadopoulos(参考訳) S$^2$VSは,自己監督型ビデオ類似性学習手法である。 自己教師付き学習(ssl)は、一般的にプロキシタスクの深いモデルをトレーニングするために使用され、微調整後のターゲットタスクへの強い転送性を持つ。 ここでは、以前の作業とは対照的に、SSLはビデオ類似性学習を行い、ラベル付きデータを使わずに一度に複数の検索および検出タスクに対処するために使用される。 これは、タスク調整強化によるインスタンス識別と、広く使われているInfoNCEの損失と、自己相似性とハード負の類似性に基づく追加の損失によって学習される。 本手法は,ビデオコピーから同一のインシデントやイベントを描写したビデオまで,さまざまな粒度で映像の関連性を定義するタスクに対してベンチマークを行う。 すべてのタスクで最先端のパフォーマンスを実現する単一のユニバーサルモデルを学び、ラベル付きデータを使用する提案手法を上回っていきます。 コードと事前訓練されたモデルは、https://github.com/gkordo/s2vsで公開されている。

We introduce S$^2$VS, a video similarity learning approach with self-supervision. Self-Supervised Learning (SSL) is typically used to train deep models on a proxy task so as to have strong transferability on target tasks after fine-tuning. Here, in contrast to prior work, SSL is used to perform video similarity learning and address multiple retrieval and detection tasks at once with no use of labeled data. This is achieved by learning via instance-discrimination with task-tailored augmentations and the widely used InfoNCE loss together with an additional loss operating jointly on self-similarity and hard-negative similarity. We benchmark our method on tasks where video relevance is defined with varying granularity, ranging from video copies to videos depicting the same incident or event. We learn a single universal model that achieves state-of-the-art performance on all tasks, surpassing previously proposed methods that use labeled data. The code and pretrained models are publicly available at: https://github.com/gkordo/s2vs
翻訳日:2023-06-19 17:25:57 公開日:2023-06-16
# 情報回復駆動型深層不完全なマルチビュークラスタリングネットワーク

Information Recovery-Driven Deep Incomplete Multi-view Clustering Network ( http://arxiv.org/abs/2304.00429v2 )

ライセンス: Link先を確認
Chengliang Liu, Jie Wen, Zhihao Wu, Xiaoling Luo, Chao Huang, Yong Xu(参考訳) 不完全なマルチビュークラスタリングはホットで新興のトピックである。 避けられないデータ不完全性が多視点データの有効情報を著しく弱めることはよく知られている。 これまで、既存の不完全なマルチビュークラスタリング手法は、通常、未使用のビューを、事前の欠落情報に従ってバイパスする。 不足した情報を回復しようとする他の方法は、主に特定の2ビューデータセットに適用できる。 本稿では,これらの問題に対処するために,recformerと呼ばれる,情報回復駆動型ディープ不完全マルチビュークラスタリングネットワークを提案する。 具体的には、複数のビューの高レベルなセマンティック表現を同期的に抽出し、欠落したデータを復元するために、自己アテンション構造を持つ2段階のオートエンコーダネットワークを構築する。 さらに,復元されたビューを巧みに活用し,表現学習とさらなるデータ再構成を促進するリカレントグラフ再構成機構を開発した。 回復結果の可視化を行い、十分な実験結果から、RecFormerは他のトップメソッドよりも明らかな利点があることが確認されます。

Incomplete multi-view clustering is a hot and emerging topic. It is well known that unavoidable data incompleteness greatly weakens the effective information of multi-view data. To date, existing incomplete multi-view clustering methods usually bypass unavailable views according to prior missing information, which is considered as a second-best scheme based on evasion. Other methods that attempt to recover missing information are mostly applicable to specific two-view datasets. To handle these problems, in this paper, we propose an information recovery-driven deep incomplete multi-view clustering network, termed as RecFormer. Concretely, a two-stage autoencoder network with the self-attention structure is built to synchronously extract high-level semantic representations of multiple views and recover the missing data. Besides, we develop a recurrent graph reconstruction mechanism that cleverly leverages the restored views to promote the representation learning and the further data reconstruction. Visualization of recovery results are given and sufficient experimental results confirm that our RecFormer has obvious advantages over other top methods.
翻訳日:2023-06-19 17:25:02 公開日:2023-06-16
# 生物配列生成のためのディリクレ拡散スコアモデル

Dirichlet Diffusion Score Model for Biological Sequence Generation ( http://arxiv.org/abs/2305.10699v2 )

ライセンス: Link先を確認
Pavel Avdeyev, Chenlai Shi, Yuhao Tan, Kseniia Dudnyk, Jian Zhou(参考訳) 生物配列を設計することは、複雑な制約を満たす必要がある重要な課題であり、そのため、深層生成モデルに対処する自然問題である。 拡散生成モデルは多くの応用でかなりの成功を収めている。 スコアに基づく生成的確率微分方程式(sde)モデルは、多くの利点を享受する連続時間拡散モデルフレームワークであるが、当初提案されたsdeは、離散データモデリングのために自然に設計されたものではない。 生物配列などの離散データに対する生成SDEモデルを開発するために, 定常分布がディリクレ分布である確率単純空間で定義される拡散過程を導入する。 これにより、連続空間における拡散は離散データのモデリングに自然である。 このアプローチをdirchlet diffusion score modelと呼んでいる。 本手法は,sudoku生成タスクを用いてハード制約を満たすサンプルを生成できることを実証する。 この生成モデルは、追加の訓練なしにハードパズルを含む数独を解くこともできる。 最後に,ヒトプロモーターDNA配列設計モデルの開発に本手法を適用し,設計した配列が自然プロモーター配列と類似した性質を持つことを示した。

Designing biological sequences is an important challenge that requires satisfying complex constraints and thus is a natural problem to address with deep generative modeling. Diffusion generative models have achieved considerable success in many applications. Score-based generative stochastic differential equations (SDE) model is a continuous-time diffusion model framework that enjoys many benefits, but the originally proposed SDEs are not naturally designed for modeling discrete data. To develop generative SDE models for discrete data such as biological sequences, here we introduce a diffusion process defined in the probability simplex space with stationary distribution being the Dirichlet distribution. This makes diffusion in continuous space natural for modeling discrete data. We refer to this approach as Dirchlet diffusion score model. We demonstrate that this technique can generate samples that satisfy hard constraints using a Sudoku generation task. This generative model can also solve Sudoku, including hard puzzles, without additional training. Finally, we applied this approach to develop the first human promoter DNA sequence design model and showed that designed sequences share similar properties with natural promoter sequences.
翻訳日:2023-06-19 17:16:36 公開日:2023-06-16
# CLCIFAR: 注釈付き補完ラベルを用いたCIFAR-Derivedベンチマークデータセット

CLCIFAR: CIFAR-Derived Benchmark Datasets with Human Annotated Complementary Labels ( http://arxiv.org/abs/2305.08295v2 )

ライセンス: Link先を確認
Hsiu-Hsuan Wang, Wei-I Lin, Hsuan-Tien Lin(参考訳) complement-label learning (cll) は弱教師付き学習パラダイムであり、インスタンスが属さないクラスを示す補完ラベルのみを使用して、マルチクラス分類器をトレーニングすることを目的としている。 多くのアルゴリズムによるCLLの提案にもかかわらず、その実用性能は2つの理由により不明である。 まず、これらのアルゴリズムは補足ラベルの生成に関する仮定に依存することが多い。 第二に、それらの評価は合成データセットに限られている。 CLLアルゴリズムの実際の性能に関する知見を得るため,人間のアノテーションによって注釈付けされた補完ラベルを収集するプロトコルを開発した。 この試みにより、それぞれCIFAR10とCIFAR100から派生したCLCIFAR10とCLCIFAR20という2つのデータセットが作成された。 これらのデータセットはhttps://github.com/ntucllab/complementary_cifarで公開されている。 広範なベンチマーク実験を通じて,合成データセットから実世界のデータセットへの移行時のパフォーマンスが著しく低下していることが分かりました。 我々は,この減少に寄与する要因について,データセットレベルのアブレーション調査を行った。 実世界のデータセットに最も影響を及ぼす要因はアノテーションノイズであった。 さらに、人間の注釈付き補完ラベルのバイアス特性は、特定のCLLアルゴリズムが過度に適合しやすいことを見出した。 これらの結果から,CLLアルゴリズムの開発により多くの研究努力を費やすことが示唆された。

Complementary-label learning (CLL) is a weakly-supervised learning paradigm that aims to train a multi-class classifier using only complementary labels, which indicate classes to which an instance does not belong. Despite numerous algorithmic proposals for CLL, their practical performance remains unclear for two reasons. Firstly, these algorithms often rely on assumptions about the generation of complementary labels. Secondly, their evaluation has been limited to synthetic datasets. To gain insights into the real-world performance of CLL algorithms, we developed a protocol to collect complementary labels annotated by human annotators. This effort resulted in the creation of two datasets, CLCIFAR10 and CLCIFAR20, derived from CIFAR10 and CIFAR100, respectively. These datasets, publicly released at https://github.com/ntucllab/complementary_cifar, represent the very first real-world CLL datasets. Through extensive benchmark experiments, we discovered a notable decline in performance when transitioning from synthetic datasets to real-world datasets. We conducted a dataset-level ablation study to investigate the key factors contributing to this decline. Our analyses highlighted annotation noise as the most influential factor present in the real-world datasets. Additionally, the biased nature of human-annotated complementary labels was found to make certain CLL algorithms more susceptible to overfitting. These findings suggest the community to spend more research effort on developing CLL algorithms that are robust to noisy and biased complementary-label distributions.
翻訳日:2023-06-19 17:16:19 公開日:2023-06-16
# 「言葉が失敗すると絵文字が普及する」--ヴァレンス反転と意味的違和感を用いた絵文字による皮肉な発話の生成

"When Words Fail, Emojis Prevail": Generating Sarcastic Utterances with Emoji Using Valence Reversal and Semantic Incongruity ( http://arxiv.org/abs/2305.04105v2 )

ライセンス: Link先を確認
Faria Binte Kader, Nafisa Hossain Nujat, Tasmia Binte Sogir, Mohsinul Kabir, Hasan Mahmud and Kamrul Hasan(参考訳) サルカズム(英: sarcasm)は、笑いや笑いのユーモラスな道具として機能する形容詞である。 英語の非サーカスティック入力文から絵文字を用いたサーカズム生成のための新しいアーキテクチャを提案する。 生成タスクを2つのサブタスクに分割する。1つはテキストサルカズムを生成し、もう1つはそれらの皮肉文に関連する絵文字を収集する。 サルカズムの2つの重要な要素は、テクスト的なサルカズム生成タスクに組み込まれている: 文脈と文脈との可逆性と意味的不一致(valence reversal and semantic incongruity)。 既存のサルカズム世代の作品の大半は、このテキスト形式に焦点を当てている。 しかし、現実の世界では、文章が会話や対面コミュニケーションの感情的な手がかりを効果的に捉えない場合、人々は感情を正確に表現するために絵文字を選択することが多い。 絵文字の幅広い応用のために、適切な絵文字を組み込んで文章的な皮肉文を生成することは、サルカズムの進行に寄与する。 本研究は,人間の判断を用いて生成した皮肉文を評価して結論づける。 この研究で使用されるコードとデータは、すべて公開されています。

Sarcasm is a form of figurative language that serves as a humorous tool for mockery and ridicule. We present a novel architecture for sarcasm generation with emoji from a non-sarcastic input sentence in English. We divide the generation task into two sub tasks: one for generating textual sarcasm and another for collecting emojis associated with those sarcastic sentences. Two key elements of sarcasm are incorporated into the textual sarcasm generation task: valence reversal and semantic incongruity with context, where the context may involve shared commonsense or general knowledge between the speaker and their audience. The majority of existing sarcasm generation works have focused on this textual form. However, in the real world, when written texts fall short of effectively capturing the emotional cues of spoken and face-to-face communication, people often opt for emojis to accurately express their emotions. Due to the wide range of applications of emojis, incorporating appropriate emojis to generate textual sarcastic sentences helps advance sarcasm generation. We conclude our study by evaluating the generated sarcastic sentences using human judgement. All the codes and data used in this study has been made publicly available.
翻訳日:2023-06-19 17:15:18 公開日:2023-06-16
# 一般化pdeダイナミクスのための運動観察からの学習神経構成則

Learning Neural Constitutive Laws From Motion Observations for Generalizable PDE Dynamics ( http://arxiv.org/abs/2304.14369v2 )

ライセンス: Link先を確認
Pingchuan Ma, Peter Yichen Chen, Bolei Deng, Joshua B. Tenenbaum, Tao Du, Chuang Gan, Wojciech Matusik(参考訳) 動作観測から一般化可能なPDEダイナミクスを学習するためのハイブリッドニューラルネットワーク(NN)とPDEアプローチを提案する。 多くのNNアプローチは、支配的PDEと構成的モデル(または物質モデル)の両方を暗黙的にモデル化するエンドツーエンドモデルを学ぶ。 明示的なPDE知識がなければ、これらのアプローチは物理的正当性を保証することができず、一般化性に制限がある。 我々は、PDEの管理はよく知られており、学習よりも明示的に実施されるべきであると主張する。 その代わり、構成モデルはデータフィッティングの性質から特に学習に適している。 この目的のために我々は, 回転同値や非変形状態平衡を含む標準構成法則を厳格に保証するネットワークアーキテクチャを利用する, ニューラル構成法則 (Neural Constitutive Laws, NCLaw) と呼ばれる新しい枠組みを導入する。 このネットワークを微分可能なシミュレーションに組み込んで,シミュレーションと運動観察の違いに基づいて損失関数を最小化し,モデルを訓練する。 我々はNCLawを固体から流体まで様々な大規模変形力学系で検証した。 単一の運動軌跡を訓練した後,新しい測地,初期/境界条件,時間的範囲,さらには多物理系まで一般化する。 これらの超過分布一般化タスクにおいて、NCLawは従来のNNアプローチよりも高精度である。 実世界の実験では,ビデオから構成法則を学習する能力を示す。

We propose a hybrid neural network (NN) and PDE approach for learning generalizable PDE dynamics from motion observations. Many NN approaches learn an end-to-end model that implicitly models both the governing PDE and constitutive models (or material models). Without explicit PDE knowledge, these approaches cannot guarantee physical correctness and have limited generalizability. We argue that the governing PDEs are often well-known and should be explicitly enforced rather than learned. Instead, constitutive models are particularly suitable for learning due to their data-fitting nature. To this end, we introduce a new framework termed "Neural Constitutive Laws" (NCLaw), which utilizes a network architecture that strictly guarantees standard constitutive priors, including rotation equivariance and undeformed state equilibrium. We embed this network inside a differentiable simulation and train the model by minimizing a loss function based on the difference between the simulation and the motion observation. We validate NCLaw on various large-deformation dynamical systems, ranging from solids to fluids. After training on a single motion trajectory, our method generalizes to new geometries, initial/boundary conditions, temporal ranges, and even multi-physics systems. On these extremely out-of-distribution generalization tasks, NCLaw is orders-of-magnitude more accurate than previous NN approaches. Real-world experiments demonstrate our method's ability to learn constitutive laws from videos.
翻訳日:2023-06-19 17:14:54 公開日:2023-06-16
# GPU対応最適化による大規模拡散モデルのデバイス上での高速化

Speed Is All You Need: On-Device Acceleration of Large Diffusion Models via GPU-Aware Optimizations ( http://arxiv.org/abs/2304.11267v2 )

ライセンス: Link先を確認
Yu-Hui Chen, Raman Sarokin, Juhyun Lee, Jiuqiang Tang, Chuo-Ling Chang, Andrei Kulik, Matthias Grundmann(参考訳) 基礎モデルの急速な発展と応用は人工知能の分野に革命をもたらした。 大規模拡散モデルは、フォトリアリスティックな画像を生成し、様々なタスクをサポートする能力で注目されている。 これらのモデルのオンデバイスデプロイメントは、サーバコストの低減、オフライン機能、ユーザのプライバシの改善といったメリットを提供する。 しかし、一般的な大規模拡散モデルは10億以上のパラメータを持ち、デバイス上の制限された計算資源とメモリ資源のために課題を提起する。 我々は,Samsung S23 Ultraの512x512イメージに対して,Int8量子化を伴わない安定拡散1.4の12秒間において,GPU搭載モバイルデバイス上での高速な推論遅延を実現する,大規模拡散モデルの一連の実装最適化を提案する。 これらの強化により、生成AIの適用範囲が拡大し、幅広いデバイスにわたるユーザエクスペリエンスが向上する。

The rapid development and application of foundation models have revolutionized the field of artificial intelligence. Large diffusion models have gained significant attention for their ability to generate photorealistic images and support various tasks. On-device deployment of these models provides benefits such as lower server costs, offline functionality, and improved user privacy. However, common large diffusion models have over 1 billion parameters and pose challenges due to restricted computational and memory resources on devices. We present a series of implementation optimizations for large diffusion models that achieve the fastest reported inference latency to-date (under 12 seconds for Stable Diffusion 1.4 without int8 quantization on Samsung S23 Ultra for a 512x512 image with 20 iterations) on GPU-equipped mobile devices. These enhancements broaden the applicability of generative AI and improve the overall user experience across a wide range of devices.
翻訳日:2023-06-19 17:14:14 公開日:2023-06-16
# ニューラルネットワーク音声分離モデルの訓練のためのデータサンプリング戦略について

On Data Sampling Strategies for Training Neural Network Speech Separation Models ( http://arxiv.org/abs/2304.07142v2 )

ライセンス: Link先を確認
William Ravenscroft and Stefan Goetze and Thomas Hain(参考訳) 音声分離は、マルチスピーカー信号処理の重要な領域である。 ディープニューラルネットワーク(DNN)モデルは、多くの音声分離ベンチマークで最高のパフォーマンスを達成した。 これらのモデルのいくつかは、トレーニングにかなりの時間を要し、高いメモリ要件を持つ。 これまでの研究では、これらの問題に対処するトレーニング例を短縮することを提案したが、モデルパフォーマンスへの影響はまだよく分かっていない。 本研究では,これらの訓練信号長(tsl)制限を適用した影響を,トランスフォーマモデルsepformerと畳み込みモデルconv-tasnetの2つの音声分離モデルで解析した。 wjs0-2mix、whamr、libri2mixデータセットは、信号長分布とトレーニング効率への影響によって分析される。 特定の分布に対して、特定のTSL制限を適用すると、より良い性能が得られることが示されている。 これは主に波形の開始指数をランダムにサンプリングし、トレーニングのよりユニークな例をもたらすことが示されている。 TSL制限4.42と動的混合(DM)を用いて訓練されたSepFormerモデルは、DMと無制限信号長で訓練された最高の性能のSepFormerモデルと一致している。 さらに、4.42s TSL制限は、WHAMRによるトレーニング時間の44%削減をもたらす。

Speech separation remains an important area of multi-speaker signal processing. Deep neural network (DNN) models have attained the best performance on many speech separation benchmarks. Some of these models can take significant time to train and have high memory requirements. Previous work has proposed shortening training examples to address these issues but the impact of this on model performance is not yet well understood. In this work, the impact of applying these training signal length (TSL) limits is analysed for two speech separation models: SepFormer, a transformer model, and Conv-TasNet, a convolutional model. The WJS0-2Mix, WHAMR and Libri2Mix datasets are analysed in terms of signal length distribution and its impact on training efficiency. It is demonstrated that, for specific distributions, applying specific TSL limits results in better performance. This is shown to be mainly due to randomly sampling the start index of the waveforms resulting in more unique examples for training. A SepFormer model trained using a TSL limit of 4.42s and dynamic mixing (DM) is shown to match the best-performing SepFormer model trained with DM and unlimited signal lengths. Furthermore, the 4.42s TSL limit results in a 44% reduction in training time with WHAMR.
翻訳日:2023-06-19 17:14:01 公開日:2023-06-16
# 量子力学による固有エネルギー推定--統一ノイズレジリエント測定駆動アプローチ

Estimating Eigenenergies from Quantum Dynamics: A Unified Noise-Resilient Measurement-Driven Approach ( http://arxiv.org/abs/2306.01858v2 )

ライセンス: Link先を確認
Yizhi Shen, Daan Camps, Siva Darbha, Aaron Szasz, Katherine Klymko, David B. Williams--Young, Norm M. Tubman, Roel Van Beeumen(参考訳) 物理と化学における基底状態エネルギーの推定は、量子コンピューティングの最も有望な応用の1つである。 本稿では,動的モード分解(dmd)の機構を用いて,実時間計測と後処理を行い,固有エネルギーを求める新しい計測駆動手法を提案する。 提案手法は,ノイズの存在下でも急速に収束することを示す理論的,数値的な証拠を提供するとともに,様々な科学コミュニティで独自に開発されたマトリクス鉛筆法に同型であることを示す。 dmdベースの戦略は摂動ノイズを体系的に軽減し、有望な量子古典的固有解法として際立っている。

Ground state energy estimation in physics and chemistry is one of the most promising applications of quantum computing. In this paper, we introduce a novel measurement-driven approach that finds eigenenergies by collecting real-time measurements and post-processing them using the machinery of dynamic mode decomposition (DMD). We provide theoretical and numerical evidence that our method converges rapidly even in the presence of noise and show that our method is isomorphic to matrix pencil methods developed independently across various scientific communities. Our DMD-based strategy can systematically mitigate perturbative noise and stands out as a promising hybrid quantum-classical eigensolver.
翻訳日:2023-06-19 17:07:20 公開日:2023-06-16
# 異種処理効果推定のためのマルチスタディr-learner

Multi-study R-learner for Heterogeneous Treatment Effect Estimation ( http://arxiv.org/abs/2306.01086v2 )

ライセンス: Link先を確認
Cathy Shyr, Boyu Ren, Prasad Patil, and Giovanni Parmigiani(参考訳) 不均一な治療効果を推定することは、パーソナライズされた治療戦略や方針を伝える上で重要である。 複数の研究が結果の精度と一般化性を改善することができるが、それらを推定に活用することは統計的に困難である。 既存のアプローチでは、研究間で同一の異質な治療効果を想定することが多いが、研究設計、共同設立者、サンプル特性の相違など、研究間不均一性の様々な原因によって、これは違反する可能性がある。 そこで本研究では, ニュアサンス関数と処理効果の相互不均一性にロバストなマルチスタディ不均質な処理効果推定のための統一フレームワークを提案する。 我々のアプローチであるマルチスタディr-learnerは、r-learnerを拡張して、マルチスタディ設定における現代機械学習(ml)を用いた原理的統計推定を得る。 マルチスタディr-learnerは、ヘテロジニアスな処理効果、迷惑機能、メンバーシップ確率を推定するためにmlを組み込む能力において、実装が容易で柔軟性があり、異種研究にまたがる強度を借用できる。 損失関数による補修調整の堅牢性を実現し、ランダム化制御試験と観察研究の両方を活用することができる。 提案手法は, 系列推定の場合の漸近的保証を提供するとともに, 実がんデータを用いて, 既存手法と比較して, 研究間不均一性の有無において, 推定誤差が最も低いことを示す。

Estimating heterogeneous treatment effects is crucial for informing personalized treatment strategies and policies. While multiple studies can improve the accuracy and generalizability of results, leveraging them for estimation is statistically challenging. Existing approaches often assume identical heterogeneous treatment effects across studies, but this may be violated due to various sources of between-study heterogeneity, including differences in study design, confounders, and sample characteristics. To this end, we propose a unifying framework for multi-study heterogeneous treatment effect estimation that is robust to between-study heterogeneity in the nuisance functions and treatment effects. Our approach, the multi-study R-learner, extends the R-learner to obtain principled statistical estimation with modern machine learning (ML) in the multi-study setting. The multi-study R-learner is easy to implement and flexible in its ability to incorporate ML for estimating heterogeneous treatment effects, nuisance functions, and membership probabilities, which borrow strength across heterogeneous studies. It achieves robustness in confounding adjustment through its loss function and can leverage both randomized controlled trials and observational studies. We provide asymptotic guarantees for the proposed method in the case of series estimation and illustrate using real cancer data that it has the lowest estimation error compared to existing approaches in the presence of between-study heterogeneity.
翻訳日:2023-06-19 17:07:09 公開日:2023-06-16
# シリコンフォトニックチップ上の量子状態の忠実度推定

Fidelity estimation of quantum states on a silicon photonic chip ( http://arxiv.org/abs/2306.01068v3 )

ライセンス: Link先を確認
Sabine Wollmann, Xiaogang Qiang, Sam Pallister, Ashley Montanaro, Noah Linden, and Jonathan C.F. Matthews(参考訳) 2つの量子状態の「近接性」の尺度として、忠実性は量子情報理論において基本的な役割を果たす。 忠実度推定プロトコルは、実験から得られた情報と、その実装の効率のバランスを、プロトコルが消費する状態の数の観点から取ろうとする。 ここでは、2量子状態の忠実度推定のために、以前に報告された最適状態検証プロトコル(Phys. Rev. 120, 170502, 2018)を適用する。 完全プログラム可能なシリコンフォトニック2量子ビットチップを用いて実験を行った。 提案プロトコルは、他の広く使われている推定プロトコルと比較して、ポイント推定の誤差バーを著しく小さくし、実用的な装置によって生成された量子状態の忠実度を推定する能力の明確な進歩を示す。

As a measure of the 'closeness' of two quantum states, fidelity plays a fundamental role in quantum information theory. Fidelity estimation protocols try to strike a balance between information gleaned from an experiment, and the efficiency of its implementation, in terms of the number of states consumed by the protocol. Here we adapt a previously reported optimal state verification protocol (Phys. Rev. Lett. 120, 170502, 2018) for fidelity estimation of two-qubit states. We demonstrate the protocol experimentally using a fully-programmable silicon photonic two-qubit chip. Our protocol outputs significantly smaller error bars of its point estimate in comparison with another widely-used estimation protocol, showing a clear step forward in the ability to estimate the fidelity of quantum states produced by a practical device.
翻訳日:2023-06-19 17:06:44 公開日:2023-06-16
# ニューラルネットワークによる1ビットの通信による絡み合った状態のシミュレーション

Neural Network Approach to the Simulation of Entangled States with One Bit of Communication ( http://arxiv.org/abs/2305.19935v2 )

ライセンス: Link先を確認
Peter Sidajaya, Aloysius Dewen Lim, Baichu Yu, Valerio Scarani(参考訳) ベルの定理は、局所隠れ変数(LHV)は、いくつかの絡み合った量子状態における測定の統計を十分に説明できないと述べている。 それらをシミュレートするのに、どの程度追加的な古典的コミュニケーションが必要か尋ねるのは自然です。 本研究では,ニューラルネットワークシミュレーションやその他のツールを用いて,この分野における2つの長年のオープン質問について検討する。 まず, 部分的絡み合った2量子ビット状態における全ての射影的測定は, 1ビットの通信しか必要としないことを示す。 我々は、正確な量子挙動とトレーニングされたネットワークの積、あるいはそれに触発された半解析モデルの間の統計的距離を定量化する。 第二に、一ビットの通信が最終的に全ての二部量子相関を再現できないという一般的な根拠(そして明らかな)で知られているが、明示的な例は回避可能である。 私たちの検索では、最大5つの入力と4つの出力を持つ2部ベルシナリオの1つを見つけられず、量子相関の再現における1ビットの通信のパワーが強調された。

Bell's theorem states that Local Hidden Variables (LHVs) cannot fully explain the statistics of measurements on some entangled quantum states. It is natural to ask how much supplementary classical communication would be needed to simulate them. We study two long-standing open questions in this field with neural network simulations and other tools. First, we present evidence that all projective measurements on partially entangled pure two-qubit states require only one bit of communication. We quantify the statistical distance between the exact quantum behaviour and the product of the trained network, or of a semianalytical model inspired by it. Second, while it is known on general grounds (and obvious) that one bit of communication cannot eventually reproduce all bipartite quantum correlation, explicit examples have proved evasive. Our search failed to find one for several bipartite Bell scenarios with up to 5 inputs and 4 outputs, highlighting the power of one bit of communication in reproducing quantum correlations.
翻訳日:2023-06-19 17:06:30 公開日:2023-06-16
# コンテンツモデレーションのためのGPT-3生成説明の評価

Evaluating GPT-3 Generated Explanations for Hateful Content Moderation ( http://arxiv.org/abs/2305.17680v2 )

ライセンス: Link先を確認
Han Wang, Ming Shan Hee, Md Rabiul Awal, Kenny Tsu Wei Choo, Roy Ka-Wei Lee(参考訳) 最近の研究は、大規模言語モデル(LLM)を使用して、微調整やプロンプトを通じてヘイトスピーチの説明を生成することに焦点を当てている。 この領域への関心が高まりつつあるにもかかわらず、これらの発生した説明の有効性と潜在的な限界は未だ理解されていない。 LLMによって生成されたこれらの説明は、ユーザとコンテンツモデレーターの両方がフラグ付きコンテンツの性質について誤った判断を下す可能性がある。 例えば、LCMが生成した説明は、コンテンツモデレーターが良質なコンテンツが憎悪であることを不正確に納得させるかもしれない。 これを踏まえて,ヘイトスピーチの説明を解析するための枠組みを提案し,その説明を評価するための広範囲な調査を行った。 具体的には、GPT-3にヘイトフルコンテンツと非ヘイトフルコンテンツの両方を説明するよう促し、2,400人の独特な回答者を対象に調査を行った。 その結果,(1) 人間の評価者は, GPT による説明を, 言語流布度, 情報伝達性, 説得性, 論理音性の観点から高い品質と評価し, それらの説明の説得性は, 実施する促進戦略によって異なること, (3) 内容の嫌悪性について誤った判断を下す可能性が示唆された。 本研究は,コンテンツモデレーションにllm生成説明を適用する際に注意が必要であることを強調する。 コードと結果はhttps://github.com/Social-AI-Studio/GPT3-HateEvalで公開されている。

Recent research has focused on using large language models (LLMs) to generate explanations for hate speech through fine-tuning or prompting. Despite the growing interest in this area, these generated explanations' effectiveness and potential limitations remain poorly understood. A key concern is that these explanations, generated by LLMs, may lead to erroneous judgments about the nature of flagged content by both users and content moderators. For instance, an LLM-generated explanation might inaccurately convince a content moderator that a benign piece of content is hateful. In light of this, we propose an analytical framework for examining hate speech explanations and conducted an extensive survey on evaluating such explanations. Specifically, we prompted GPT-3 to generate explanations for both hateful and non-hateful content, and a survey was conducted with 2,400 unique respondents to evaluate the generated explanations. Our findings reveal that (1) human evaluators rated the GPT-generated explanations as high quality in terms of linguistic fluency, informativeness, persuasiveness, and logical soundness, (2) the persuasive nature of these explanations, however, varied depending on the prompting strategy employed, and (3) this persuasiveness may result in incorrect judgments about the hatefulness of the content. Our study underscores the need for caution in applying LLM-generated explanations for content moderation. Code and results are available at https://github.com/Social-AI-Studio/GPT3-HateEval.
翻訳日:2023-06-19 17:05:46 公開日:2023-06-16
# スピン型量子センサのためのロボットベクトル場アライメント

Robotic vectorial field alignment for spin-based quantum sensors ( http://arxiv.org/abs/2305.17027v2 )

ライセンス: Link先を確認
Joe A. Smith, Dandan Zhang, Krishna C. Balram(参考訳) 実用的な量子技術を開発するには、堅牢で繰り返し可能な方法で脆弱なシステムの精巧な操作が必要である。 量子技術が生物センシングから宇宙でのコミュニケーションまで、現実世界の応用に向かって進むにつれ、実験的な複雑さが増し、新しい技術の導入によって緩和できる制約がもたらされる。 ロボットは、ますます賢く、自律的で、巧妙なマシンの実現に大きな進歩を見せている。 本稿では,マグネットを装着したロボットアームが,nv中心の量子磁気センサを,標準技術では達成できない困難な条件下で感知できることを実証する。 1^\circ$ angular と 0.1 mt の振幅精度でベクトル磁場を生成し、拘束された物理環境における1つの確率的に配列されたスピンベースセンサの向きを決定する。 我々の研究は、制約された設定で多くの量子自由度にロボティクスを統合する可能性を広げ、量子技術応用におけるプロトタイピングのスピード、制御、堅牢性を高めることができる。

Developing practical quantum technologies will require the exquisite manipulation of fragile systems in a robust and repeatable way. As quantum technologies move towards real world applications, from biological sensing to communication in space, increasing experimental complexity introduces constraints that can be alleviated by the introduction of new technologies. Robotics has shown tremendous progress in realising increasingly smart, autonomous and highly dexterous machines. Here, we demonstrate that a robotic arm equipped with a magnet can sensitise an NV centre quantum magnetometer in challenging conditions unachievable with standard techniques. We generate vector magnetic field with $1^\circ$ angular and 0.1 mT amplitude accuracy and determine the orientation of a single stochastically-aligned spin-based sensor in a constrained physical environment. Our work opens up the prospect of integrating robotics across many quantum degrees of freedom in constrained settings, allowing for increased prototyping speed, control, and robustness in quantum technology applications.
翻訳日:2023-06-19 17:05:22 公開日:2023-06-16
# ノイズ量子電池の量子ワーク抽出効率:コヒーレンスの役割

Quantum work extraction efficiency for noisy quantum batteries: the role of coherence ( http://arxiv.org/abs/2305.16803v2 )

ライセンス: Link先を確認
Salvatore Tirone, Raffaele Salvia, Stefano Chessa and Vittorio Giovannetti(参考訳) 量子ワーク容量と最大漸近的作業/エネルギー比は、量子システムの集合によって形成された量子電池におけるワーク抽出プロセスの雑音に対するロバスト性を示す。 本稿では,これらの関数間の直接的接続を確立し,その結果を生かして,自己放出,熱分解,消音効果を模倣した様々なノイズモデルの解析を行う。 この文脈では、入力量子コヒーレンスがノイズ量子電池の記憶性能を大幅に向上させ、最大出力エルゴトロピーが利用可能な最大入力エネルギーによって常に達成されるとは限らないことを示す。

Quantum work capacitances and maximal asymptotic work/energy ratios are figures of merit characterizing the robustness against noise of work extraction processes in quantum batteries formed by collections of quantum systems. In this paper we establish a direct connection between these functionals and, exploiting this result, we analyze different types of noise models mimicking self-discharging, thermalization and dephasing effects. In this context we show that input quantum coherence can significantly improve the storage performance of noisy quantum batteries and that the maximum output ergotropy is not always achieved by the maximum available input energy.
翻訳日:2023-06-19 17:05:07 公開日:2023-06-16
# 推薦システムのためのグラフベースモデル非依存データサブサンプリング

Graph-Based Model-Agnostic Data Subsampling for Recommendation Systems ( http://arxiv.org/abs/2305.16391v2 )

ライセンス: Link先を確認
Xiaohui Chen, Jiankai Sun, Taiqing Wang, Ruocheng Guo, Li-Ping Liu, Aonan Zhang(参考訳) データサブサンプリングは大規模レコメンデーションシステムのトレーニングを高速化するために広く使われている。 ほとんどのサブサンプリング手法はモデルベースであり、サンプル硬度などのデータ重要度を測定するために事前訓練されたパイロットモデルを必要とする。 しかし、パイロットモデルが不特定である場合、モデルベースのサブサンプリング手法は劣化する。 実際のレコメンデーションシステムではモデル誤特定が持続するので、グラフで表される入力データ構造のみを探索することで、モデル非依存なデータサブサンプリング手法を提案する。 具体的には,ユーザ-テムグラフのトポロジを調査し,ユーザ-テムグラフ間の相互作用(ユーザ-テムグラフのエッジ)の重要度をグラフコンダクタンスにより推定し,続いてネットワーク上の伝搬ステップにより推定された重要度を緩和する。 提案手法はモデル非依存であるため,モデル非依存とモデルベースの両方のサブサンプリング手法の利点を活かすことができる。 経験的に、この2つの組み合わせは、使用済みデータセット上のどのメソッドよりも一貫して改善されていることを示す。 KuaiRec と MIND のデータセットによる実験結果から,提案手法はベースライン手法よりも優れた結果が得られることが示された。

Data subsampling is widely used to speed up the training of large-scale recommendation systems. Most subsampling methods are model-based and often require a pre-trained pilot model to measure data importance via e.g. sample hardness. However, when the pilot model is misspecified, model-based subsampling methods deteriorate. Since model misspecification is persistent in real recommendation systems, we instead propose model-agnostic data subsampling methods by only exploring input data structure represented by graphs. Specifically, we study the topology of the user-item graph to estimate the importance of each user-item interaction (an edge in the user-item graph) via graph conductance, followed by a propagation step on the network to smooth out the estimated importance value. Since our proposed method is model-agnostic, we can marry the merits of both model-agnostic and model-based subsampling methods. Empirically, we show that combing the two consistently improves over any single method on the used datasets. Experimental results on KuaiRec and MIND datasets demonstrate that our proposed methods achieve superior results compared to baseline approaches.
翻訳日:2023-06-19 17:04:57 公開日:2023-06-16
# 難治性密度を最適化するメトロポリスハスティングの差別化

Differentiating Metropolis-Hastings to Optimize Intractable Densities ( http://arxiv.org/abs/2306.07961v2 )

ライセンス: Link先を確認
Gaurav Arya, Ruben Seyer, Frank Sch\"afer, Alexander K. Lew, Mathieu Huot, Vikash K. Mansinghka, Chris Rackauckas, Kartik Chandra and Moritz Schauer(参考訳) 確率モデル上で推論を行う場合、ターゲット密度はしばしば難解となり、モンテカルロサンプリング器の使用が必要となる。 本研究では,メトロポリス・ハスティングス・サンプリング器の非偏微分手法を開発し,確率的推論による微分を可能にする。 マルコフ連鎖カップリングスキームによる確率微分の最近の進歩を融合させることで、この手順を不偏、低分散、自動化することができる。 これにより、難解なターゲット密度に対する期待として表現された目的に勾配に基づく最適化を適用することができる。 本研究では,ガウス混合モデルにおける不明瞭な観測とイジングモデルにおける比熱の最大化によるアプローチを示す。

When performing inference on probabilistic models, target densities often become intractable, necessitating the use of Monte Carlo samplers. We develop a methodology for unbiased differentiation of the Metropolis-Hastings sampler, allowing us to differentiate through probabilistic inference. By fusing recent advances in stochastic differentiation with Markov chain coupling schemes, the procedure can be made unbiased, low-variance, and automatic. This allows us to apply gradient-based optimization to objectives expressed as expectations over intractable target densities. We demonstrate our approach by finding an ambiguous observation in a Gaussian mixture model and by maximizing the specific heat in an Ising model.
翻訳日:2023-06-19 16:56:33 公開日:2023-06-16
# GEMO-CLAP:ジェンダー属性強化コントラスト言語-Audio Pretraining for Speech Emotion Recognition

GEmo-CLAP: Gender-Attribute-Enhanced Contrastive Language-Audio Pretraining for Speech Emotion Recognition ( http://arxiv.org/abs/2306.07848v2 )

ライセンス: Link先を確認
Yu Pan, Yanni Hu, Yuguang Yang, Jixun Yao, Wen Fei, Lei Ma, Heng Lu(参考訳) コントラスト学習に基づく事前学習手法は,近年,様々な分野において顕著な成功を収めている。 本稿では,音声感情認識のための,ジェンダー属性強調コントラスト言語-audio pretraining (clap) モデルの一種であるgemo-clapを提案する。 具体的には、まず感情認識のための効果的な感情CLAPモデルEmo-CLAPを構築し、様々な自己教師付き学習に基づく事前学習モデルを利用する。 そして、音声感情モデリングにおけるジェンダー属性の重要性を考慮し、2つのGEmo-CLAPアプローチを提案し、音声信号の感情情報とジェンダー情報を統合し、より合理的な目的を形成する。 iemocapコーパスの広範囲な実験により,本提案手法は異なる事前学習モデルでベースラインのemo-clapを一貫して上回り,他の最先端手法よりも優れた認識性能を達成していることが示された。

Contrastive learning based pretraining methods have recently exhibited impressive success in diverse fields. In this paper, we propose GEmo-CLAP, a kind of efficient gender-attribute-enhanced contrastive language-audio pretraining (CLAP) model for speech emotion recognition. To be specific, we first build an effective emotion CLAP model Emo-CLAP for emotion recognition, utilizing various self-supervised learning based pre-trained models. Then, considering the importance of the gender attribute in speech emotion modeling, two GEmo-CLAP approaches are further proposed to integrate the emotion and gender information of speech signals, forming more reasonable objectives. Extensive experiments on the IEMOCAP corpus demonstrate that our proposed two GEmo-CLAP approaches consistently outperform the baseline Emo-CLAP with different pre-trained models, while also achieving superior recognition performance compared with other state-of-the-art methods.
翻訳日:2023-06-19 16:56:13 公開日:2023-06-16
# 大きな言語モデルは時に純粋に負の強化されたテキストを生成する

Large Language Models Sometimes Generate Purely Negatively-Reinforced Text ( http://arxiv.org/abs/2306.07567v2 )

ライセンス: Link先を確認
Fabien Roger(参考訳) 敵対的なトレーニングを使用する場合、最も不利な障害に対してトレーニングするのが一般的です。 しかし、これはトレーニングデータとしてセンシティブな情報(パスワードの漏洩やセキュリティ脆弱性など)を持つ例を暗示している。 勾配降下で訓練された言語モデルは、最小の報酬に関連する例にのみ存在するテキストスニペットを決して生成しないと仮定できるかもしれない。 いくつかの状況では、大きな言語モデルはこのような否定的に強制された例から学んでいます。 我々は、pythia-160mがランダムに推測することで、13%の確率でパスワードを推測できる特定のトレーニング設定を示す。 私たちのコードはwww.github.com/FabienRoger/Learning-From-Negative-Examplesで利用可能です。

When using adversarial training, it is common practice to train against the most egregious failures. However, this might imply using examples with sensitive information (such as leaked passwords or security vulnerabilities) as training data. One might assume that language models trained with gradient descent never generate text snippets which were only present in examples associated with the lowest possible reward. In this paper, we show that this assumption is wrong: in some situations, large language models do learn from such negatively-reinforced examples. We present a specific training setup that enables Pythia-160M to guess passwords 13% more often than it would by guessing randomly, despite only showing it these passwords on examples where the model is incentivized to not output these passwords. Our code is available at www.github.com/FabienRoger/Learning-From-Negative-Examples
翻訳日:2023-06-19 16:55:53 公開日:2023-06-16
# 事前学習モデルによるスケーラブルな3次元キャプション

Scalable 3D Captioning with Pretrained Models ( http://arxiv.org/abs/2306.07279v2 )

ライセンス: Link先を確認
Tiange Luo, Chris Rockwell, Honglak Lee, Justin Johnson(参考訳) 3dオブジェクト用の記述テキストを生成する自動アプローチであるcap3dを紹介する。 このアプローチは、画像キャプション、画像テキストアライメント、LLMからの事前学習モデルを用いて、3Dアセットの複数のビューからキャプションを統合することで、手動アノテーションの時間的・コスト的なプロセスを完全にサイドステッピングする。 我々は最近導入された大規模3DデータセットObjaverseにCap3Dを適用する。 同じデータセットから41kのヒューマンアノテーションを用いて実施した評価結果から,cap3dは品質,コスト,速度の面で人間による記述を上回っていることが示された。 効果的なプロンプトエンジニアリングを通じて、Cap3DはABOデータセットから収集された17kのアノテーションの幾何学的記述を生成する際に、人間のパフォーマンスと競合する。 最後に、Cap3Dと人間のキャプションでText-to-3Dモデルを微調整し、Cap3Dのパフォーマンスを示し、Point-E、Shape-E、DreamFusionを含むSOTAをベンチマークする。

We introduce Cap3D, an automatic approach for generating descriptive text for 3D objects. This approach utilizes pretrained models from image captioning, image-text alignment, and LLM to consolidate captions from multiple views of a 3D asset, completely side-stepping the time-consuming and costly process of manual annotation. We apply Cap3D to the recently introduced large-scale 3D dataset, Objaverse, resulting in 660k 3D-text pairs. Our evaluation, conducted using 41k human annotations from the same dataset, demonstrates that Cap3D surpasses human-authored descriptions in terms of quality, cost, and speed. Through effective prompt engineering, Cap3D rivals human performance in generating geometric descriptions on 17k collected annotations from the ABO dataset. Finally, we finetune Text-to-3D models on Cap3D and human captions, and show Cap3D outperforms; and benchmark the SOTA including Point-E, Shape-E, and DreamFusion.
翻訳日:2023-06-19 16:55:38 公開日:2023-06-16
# ミスアライメント光キャビティにおけるモデリングモード混合の効率的な操作法

Efficient operator method for modelling mode mixing in misaligned optical cavities ( http://arxiv.org/abs/2306.05929v2 )

ライセンス: Link先を確認
William J. Hughes, Thomas H. Doherty, Jacob A. Blackmore, Peter Horak, Joseph F. Goodwin(参考訳) fabry-p\'erot光学共振器の共振モードの横磁界構造と回折損失は、ミラー基板の配向と形状に急性に敏感である。 任意のミラー形状に適用可能な「モード混合」法の拡張を開発し, 横方向のミラーによるキャビティのモードの高速計算と, これらのモードの幾何学的性質の決定と変換を可能にした。 これらの手法は, 共振モードのリッチで複雑な構造を呈示し, 横ミラーの不整合の事実上の動機付けを含むことによって, 従来の機能を拡張する方法を示す。

The transverse field structure and diffraction loss of the resonant modes of Fabry-P\'erot optical cavities are acutely sensitive to the alignment and shape of the mirror substrates. We develop extensions to the `mode mixing' method applicable to arbitrary mirror shapes, which both facilitate fast calculation of the modes of cavities with transversely misaligned mirrors and enable the determination and transformation of the geometric properties of these modes. We show how these methods extend previous capabilities by including the practically-motivated case of transverse mirror misalignment, unveiling rich and complex structure of the resonant modes.
翻訳日:2023-06-19 16:55:04 公開日:2023-06-16
# ミスアライメントマイクロキャビティにおけるモード混合と損失

Mode mixing and losses in misaligned microcavities ( http://arxiv.org/abs/2306.05894v2 )

ライセンス: Link先を確認
William J. Hughes, Thomas H. Doherty, Jacob A. Blackmore, Peter Horak, Joseph F. Goodwin(参考訳) 本稿では,現実的な横ミラーの誤配を受けるFabry-P\'erot空洞の光学的損失について検討する。 我々は、理想化された球面の凹凸と、レーザーアブレーションによって生成されたガウスプロファイルの2つの最も一般的な表面形状の鏡を考える。 まず,球面ミラーの場合に見られるモード混合現象を説明し,よく使われるクリッピングモデルと比較し,予測回折損失の密な一致を観測した。 次に,ガウスミラーの場合について考察し,鏡面の曲率の変化がラウンドトリップ損失とモードプロファイルの複雑な変化にどのようにつながるかを説明した。 ガウス鏡を用いた場合, 重度のモード歪みや空洞長, 横方向のアライメントで予測される損失が強いことから, 空洞実験では鏡面形状の影響が慎重に検討されていることが示唆された。

We present a study on the optical losses of Fabry-P\'erot cavities subject to realistic transverse mirror misalignment. We consider mirrors of the two most prevalent surface forms: idealised spherical depressions, and Gaussian profiles generated by laser ablation. We first describe the mode mixing phenomena seen in the spherical mirror case and compare to the frequently-used clipping model, observing close agreement in the predicted diffraction loss, but with the addition of protective mode mixing at transverse degeneracies. We then discuss the Gaussian mirror case, detailing how the varying surface curvature across the mirror leads to complex variations in round trip loss and mode profile. In light of the severe mode distortion and strongly elevated loss predicted for many cavity lengths and transverse alignments when using Gaussian mirrors, we suggest that the consequences of mirror surface profile are carefully considered when designing cavity experiments.
翻訳日:2023-06-19 16:54:53 公開日:2023-06-16
# SMRVIS:非破壊検査のための3次元超音波からの点雲抽出

SMRVIS: Point cloud extraction from 3-D ultrasound for non-destructive testing ( http://arxiv.org/abs/2306.04668v2 )

ライセンス: Link先を確認
Lisa Y.W. Tang(参考訳) 画像分割問題として超音波ボリュームからの点雲抽出法を提案する。 この便利な定式化を通じて、Residual Network, U-Net, and the Squeeze and Excitation Networkの様々な変種を探索し、評価した。 本報告では,3D Surface Mesh Estimation for CVPR Workshop on Deep Learning in Ultrasound Image Analysis(CVPR)への提出の一環として,ラベル付き5つの超音波ボリュームと84個の未ラベルボリュームのトレーニングデータセットを用いた実験結果について報告する。 チャレンジの主催者による外部評価に基づいて、このフレームワークはチャレンジの \href{https://www.cvpr2023-dl-ultrasound.com/}{Leaderboard} で第一位となった。 ソースコードは研究コミュニティと \href{https://github.com/lisatwyw/smrvis}{public repository} で共有されている。

We propose to formulate point cloud extraction from ultrasound volumes as an image segmentation problem. Through this convenient formulation, a quick prototype exploring various variants of the Residual Network, U-Net, and the Squeeze and Excitation Network was developed and evaluated. This report documents the experimental results compiled using a training dataset of five labeled ultrasound volumes and 84 unlabeled volumes that got completed in a two-week period as part of a submission to the open challenge "3D Surface Mesh Estimation for CVPR workshop on Deep Learning in Ultrasound Image Analysis". Based on external evaluation performed by the challenge's organizers, the framework came first place on the challenge's \href{https://www.cvpr2023-dl-ultrasound.com/}{Leaderboard}. Source code is shared with the research community at a \href{https://github.com/lisatwyw/smrvis}{public repository}.
翻訳日:2023-06-19 16:54:34 公開日:2023-06-16
# 素直に隠れる: 連合学習におけるデータ盗み攻撃

Hiding in Plain Sight: Disguising Data Stealing Attacks in Federated Learning ( http://arxiv.org/abs/2306.03013v3 )

ライセンス: Link先を確認
Kostadin Garov, Dimitar I. Dimitrov, Nikola Jovanovi\'c, Martin Vechev(参考訳) 悪意のあるサーバ(ms)攻撃は、フェデレーション学習におけるデータの盗みのスケーリングを可能にし、大規模なバッチサイズとセキュアアグリゲーションを可能にした。 しかし、MS攻撃のクライアント側検出性に関する多くの懸念が提起され、公開後にその実用性に疑問が呈された。 本研究では,クライアントサイド検出可能性の問題を初めて徹底的に検討し,従来のms攻撃のほとんどが,基本的に2つの重要な原則の1つに依存しており,クライアントサイドチェックの原則によって検出可能であることを実証する。 さらに,現実的なネットワークの勾配からユーザデータを盗むと同時に,大規模なバッチサイズ(実験では最大512個まで)やセキュアなアグリゲーションの下でも,すべてのデシダータを満足する新たな攻撃フレームワークであるSEERを提案する。 SEERの重要な洞察は、共有モデルと共同でトレーニングされたシークレットデコーダを使用することである。 私たちの作業は、MS攻撃をより原則的に扱うための、有望な第一歩であり、現実のデプロイメントにおけるユーザのプライバシを損なうような、現実的なデータ盗難への道を開くものです。

Malicious server (MS) attacks have enabled the scaling of data stealing in federated learning to large batch sizes and secure aggregation, settings previously considered private. However, many concerns regarding client-side detectability of MS attacks were raised, questioning their practicality once they are publicly known. In this work, for the first time, we thoroughly study the problem of client-side detectability.We demonstrate that most prior MS attacks, which fundamentally rely on one of two key principles, are detectable by principled client-side checks. Further, we formulate desiderata for practical MS attacks and propose SEER, a novel attack framework that satisfies all desiderata, while stealing user data from gradients of realistic networks, even for large batch sizes (up to 512 in our experiments) and under secure aggregation. The key insight of SEER is the use of a secret decoder, which is jointly trained with the shared model. Our work represents a promising first step towards more principled treatment of MS attacks, paving the way for realistic data stealing that can compromise user privacy in real-world deployments.
翻訳日:2023-06-19 16:54:03 公開日:2023-06-16
# h2ogpt: 大きな言語モデルの民主化

h2oGPT: Democratizing Large Language Models ( http://arxiv.org/abs/2306.08161v2 )

ライセンス: Link先を確認
Arno Candel, Jon McKinney, Philipp Singer, Pascal Pfeiffer, Maximilian Jeblick, Prithvi Prabhu, Jeff Gambera, Mark Landry, Shivam Bansal, Ryan Chesler, Chun Ming Lee, Marcos V. Conde, Pasha Stetsenko, Olivier Grellier, SriSatish Ambati(参考訳) GPT-4のようなLarge Language Models(LLM)上に構築されたアプリケーションは、自然言語処理における人間レベルの能力のため、AIの革命を表している。 しかし、それらはまた、偏りのある、プライベートな、または有害なテキストの存在や、著作権のある素材の無許可包含など、多くの重大なリスクをもたらしている。 我々は、ジェネレーティブ・プレトレーニング・トランスフォーマー(GPT)に基づくLLMの作成と使用のためのオープンソースのコードリポジトリであるh2oGPTを紹介する。 このプロジェクトの目的は、クローズドソースアプローチの世界で最高のオープンソース代替物を作ることです。 7億から40億のパラメータの微調整されたh2oGPTモデルをオープンソースとして公開し、完全に寛容なApache 2.0ライセンスの下で商用利用できるようにしました。 リリースには自然言語を使った100\%のプライベートドキュメント検索が含まれています。 オープンソースの言語モデルは、AI開発を促進し、よりアクセシビリティと信頼性を高めるのに役立つ。 参入ハードルを低くし、人々やグループがこれらのモデルをニーズに合わせて調整できるようにします。 この開放性はイノベーション、透明性、公平性を高める。 オープンソース戦略は、AIのメリットを公平に共有するために必要であり、H2O.aiはAIとLLMの民主化を継続する。

Applications built on top of Large Language Models (LLMs) such as GPT-4 represent a revolution in AI due to their human-level capabilities in natural language processing. However, they also pose many significant risks such as the presence of biased, private, or harmful text, and the unauthorized inclusion of copyrighted material. We introduce h2oGPT, a suite of open-source code repositories for the creation and use of LLMs based on Generative Pretrained Transformers (GPTs). The goal of this project is to create the world's best truly open-source alternative to closed-source approaches. In collaboration with and as part of the incredible and unstoppable open-source community, we open-source several fine-tuned h2oGPT models from 7 to 40 Billion parameters, ready for commercial use under fully permissive Apache 2.0 licenses. Included in our release is 100\% private document search using natural language. Open-source language models help boost AI development and make it more accessible and trustworthy. They lower entry hurdles, allowing people and groups to tailor these models to their needs. This openness increases innovation, transparency, and fairness. An open-source strategy is needed to share AI benefits fairly, and H2O.ai will continue to democratize AI and LLMs.
翻訳日:2023-06-19 16:45:29 公開日:2023-06-16
# Floquet (複数形 Floquets)

Floquet codes with a twist ( http://arxiv.org/abs/2306.08027v2 )

ライセンス: Link先を確認
Tyler D. Ellison, Joseph Sullivan, Arpit Dua(参考訳) 本稿ではhastingsとhaahのhoneycomb floquetコードでツイスト欠陥を生成する手法について述べる。 特に,一次元経路に沿って創発的フェルミオンを凝縮することによって構築される凝縮欠陥の先端にねじれ欠陥を構築する。 我々は、ツイスト欠陥は量子情報のフォールトトレラントな保存と処理に利用することができ、境界を持つシステム上でツイスト欠陥を作成することにより、$\mathbb{z}_2$ floquet符号の平面型が得られることを証明している。 重要な点として, ツイスト欠陥の構成は, 六角格子の連結性を維持し, 2体測定のみを要し, 測定スケジュールの3回周期を保っている。 さらに、ツイスト欠陥を$n$-次元qudits上で定義される$\mathbb{z}_n$ floquet符号に一般化する。 ちなみに、$\mathbb{Z}_N$ フロケ符号と縮合欠陥を用いて、瞬時安定化群が特定のアベリアツイスト量子二重群の位相順序によって特徴づけられるフロケ符号を定義する。

We describe a method for creating twist defects in the honeycomb Floquet code of Hastings and Haah. In particular, we construct twist defects at the endpoints of condensation defects, which are built by condensing emergent fermions along one-dimensional paths. We argue that the twist defects can be used to store and process quantum information fault tolerantly, and demonstrate that, by preparing twist defects on a system with a boundary, we obtain a planar variant of the $\mathbb{Z}_2$ Floquet code. Importantly, our construction of twist defects maintains the connectivity of the hexagonal lattice, requires only 2-body measurements, and preserves the three-round period of the measurement schedule. We furthermore generalize the twist defects to $\mathbb{Z}_N$ Floquet codes defined on $N$-dimensional qudits. As an aside, we use the $\mathbb{Z}_N$ Floquet codes and condensation defects to define Floquet codes whose instantaneous stabilizer groups are characterized by the topological order of certain Abelian twisted quantum doubles.
翻訳日:2023-06-19 16:45:11 公開日:2023-06-16
# バリウム(II)カチオンによる時間分解ルビジウム支援電子捕獲

Time-Resolved Rubidium-Assisted Electron Capture by Barium (II) Cation ( http://arxiv.org/abs/2306.09580v1 )

ライセンス: Link先を確認
Axel Molle, Jan Philipp Drennhaus, Vikt\'oria Noel, Nikola Kolev, Oriol Vendrell and Annika Bande(参考訳) イオン化しきい値に近い有界電子状態間の非局所エネルギー移動は、技術基盤から量子コンピューティングへの希薄原子系の効率的な状態準備に使用される。 連続体への電子遷移の一般化は、そのような実験の動機付けや解釈に必要な動的量子シミュレーションを欠いている。 本稿では、この目的のために、完全3次元原子系をシミュレートする電子力学モデルの最初の開発について述べる。 ルビジウム原子が近傍にあるため, 環境支援電子捕獲による超低温バリウム(II)の再結合における本モデルの有効性について検討した。 どちらの原子サイトもMulti Configuration Time Dependent Hartree (MCTDH) アルゴリズムを用いて効果的な1電子系としてモデル化され、双極子-双極子相互作用によってエネルギーを伝達することができる。 シミュレーションは原子間エネルギー交換を伴わないシミュレーションと比較することで定量化できる希薄な原子間距離上での捕捉を実現するのに十分頑健であることがわかった。 反応の確率に最適化されていない現在のパラメータについて、環境イオン化支援キャプチャは、シミュレーションの最初の15〜\mathrm{fs}$よりも1.9\times10^{-5}~\%$の確率を持つ。 環境抽出補助取得パス$[\text{ba}^{+*}\text{rb}^{*}]$は、捕獲が完了した後に少なくとも20〜\mathrm{fs}$の確率8.2\times10^{-4}~\%$の安定な長寿命中間状態として現れる。 最適化パラメータの予測に加えて、このモデルは実験システムに存在する条件を可能な限り密接に満たす可能性を秘めている。 提案装置は環境支援型電子捕獲を既存の技術で実験的に実現するのに適していると考えられる。

Non-local energy transfer between bound electronic states close to the ionisation threshold is employed for efficient state preparation in dilute atom systems from technological foundations to quantum computing. The generalisation to electronic transitions into and out of the continuum is lacking dynamical quantum simulations necessary to motivate or interpret such experiments. Here, we present the first development of a electron-dynamical model simulating fully three-dimensional atomic systems for this purpose. We investigate the viability of this model for the prototypical case of recombination of ultracold barium (II) by environment-assisted electron capture thanks to a rubidium atom in its vicinity. Both atomic sites are modelled as effective one-electron systems using the Multi Configuration Time Dependent Hartree (MCTDH) algorithm and can transfer energy by dipole-dipole interaction. We find that the simulations are robust enough to realise assisted capture over a dilute interatomic distance which we are able to quantify by comparing to simulations without interatomic energy exchange. For our current parameters not yet optimised for reaction likelihood, an environment-ionising assisted capture has a probability of $1.9\times10^{-5}~\%$ over the first $15~\mathrm{fs}$ of the simulation. The environment-exciting assisted-capture path to $[\text{Ba}^{+*}\text{Rb}^{*}]$ appears as a stable long-lived intermediate state with a probability of $8.2\times10^{-4}~\%$ for at least $20~\mathrm{fs}$ after the capture has been completed. As well as predicting the optimised parameters, this model has the potential to accommodate the conditions present in experimental systems as closely as possible. We believe that the presented setup is suitable to experimentally realise environment-assisted electron capture with current existing technologies.
翻訳日:2023-06-19 15:30:24 公開日:2023-06-16
# medfmc:医療画像分類における基礎モデル適応のための実世界データセットとベンチマーク

MedFMC: A Real-world Dataset and Benchmark For Foundation Model Adaptation in Medical Image Classification ( http://arxiv.org/abs/2306.09579v1 )

ライセンス: Link先を確認
Dequan Wang, Xiaosong Wang, Lilong Wang, Mengzhang Li, Qian Da, Xiaoqiang Liu, Xiangyu Gao, Jun Shen, Junjun He, Tian Shen, Qi Duan, Jie Zhao, Kang Li, Yu Qiao, Shaoting Zhang(参考訳) 基礎モデルは、しばしば大規模なデータで事前学習され、様々なビジョンや言語アプリケーションをジャンプスタートする上で最も成功している。 近年の進歩により、ダウンストリームタスクにおける基礎モデルへの適応がより効果的に可能になった。 しかし, 医用画像解析におけるそのような学習パラダイムの適用は, 一般に公開されているデータやベンチマークが不足しているため, 依然として少ない。 本稿では, 医用画像分類の基礎モデルに適用するアプローチを目標とし, 評価のための新しいデータセットとベンチマーク, すなわち, 様々な実世界の臨床課題に基づいて下流の大規模基礎モデルに適応する全体的な性能について検討する。 胸部X線検診,病理組織検診,内視鏡像の病変検出,新生児黄斑評価,糖尿病網膜症検診など,さまざまな臨床課題を対象とする複数の施設(合計22,349画像)から5種類の医用画像データを収集した。 複数のベースライン法の結果を, 精度とコスト効率の両面から提案するデータセットを用いて実証した。

Foundation models, often pre-trained with large-scale data, have achieved paramount success in jump-starting various vision and language applications. Recent advances further enable adapting foundation models in downstream tasks efficiently using only a few training samples, e.g., in-context learning. Yet, the application of such learning paradigms in medical image analysis remains scarce due to the shortage of publicly accessible data and benchmarks. In this paper, we aim at approaches adapting the foundation models for medical image classification and present a novel dataset and benchmark for the evaluation, i.e., examining the overall performance of accommodating the large-scale foundation models downstream on a set of diverse real-world clinical tasks. We collect five sets of medical imaging data from multiple institutes targeting a variety of real-world clinical tasks (22,349 images in total), i.e., thoracic diseases screening in X-rays, pathological lesion tissue screening, lesion detection in endoscopy images, neonatal jaundice evaluation, and diabetic retinopathy grading. Results of multiple baseline methods are demonstrated using the proposed dataset from both accuracy and cost-effective perspectives.
翻訳日:2023-06-19 15:29:50 公開日:2023-06-16
# 時間計測方式による詳細なゆらぎ定理

Detailed Fluctuation Theorem from the One-Time Measurement Scheme ( http://arxiv.org/abs/2306.09578v1 )

ライセンス: Link先を確認
Kenji Maeda and Tharon Holdsworth and Sebastian Deffner and Akira Sone(参考訳) 量子ゆらぎ定理は、量子非平衡熱力学の第一原理と見なすことができる。 しかし、量子ワークの定義方法に依存する多くの異なる定式化が提案されている。 このような状況下では, one-time measurement (otm) 方式が two-time measurement (ttm) 方式よりも有益である場合がある。 しかし、今のところOTMの焦点は積分ゆらぎ定理であり、それ以来、後方プロセスの作業分布は不足している。 この目的のために, OTM スキームは非破壊的 TTM スキームであり, 最終状態が第1の測定結果にハミルトニアンが条件付けされた第2の測定値のポインタ状態であることを示す。 この洞察は、前方および後方の作業分布の特性関数に対する詳細なゆらぎ定理の導出に繋がる。 最後に,IBMの量子コンピュータを用いて概念的知見を実験的に検証した。

The quantum fluctuation theorem can be regarded as the first principle of quantum nonequilibrium thermodynamics. However, many different formulations have been proposed, which depend on how quantum work is defined. In this context, we have seen that for some situations the one-time measurement (OTM) scheme can be more informative than the two-time measurement (TTM) scheme. Yet, so far the focus of OTM has been on integral fluctuation theorems, since, the work distribution of the backward process has been lacking. To this end, we prove that the OTM scheme is the nondestructive TTM scheme, in which the final state is a pointer state of the second measurement whose Hamiltonian is conditioned on the first measurement outcome. This insight leads to a derivation of the detailed fluctuation theorem for the characteristic functions of the forward and backward work distributions. Finally, our conceptual findings are experimentally verified with the IBM quantum computer.
翻訳日:2023-06-19 15:29:30 公開日:2023-06-16
# スクリプト連続言語における下流タスクでは、異なるトークンライザはどのように機能するのか? 日本人における事例研究

How do different tokenizers perform on downstream tasks in scriptio continua languages?: A case study in Japanese ( http://arxiv.org/abs/2306.09572v1 )

ライセンス: Link先を確認
Takuro Fujii, Koki Shibata, Atsuki Yamaguchi, Terufumi Morishita, Yasuhiro Sogawa(参考訳) 本稿では,日本語を事例として,単語間に明示的な空間が存在しない台詞連続言語における事前学習言語モデル(plm)の下流性能に対するトークン化の効果について検討する。 このような言語のトークン化子は、しばしば形態解析器とサブワードトークン化器から構成され、全ての可能なペアについて包括的な研究を行う必要がある。 しかし、過去の研究は包括性に欠けていた。 そこで私たちは,トークンの広範なセットをトレーニングし,それぞれを使ってplmを構築し,さまざまなタスクでダウンストリームのパフォーマンスを測定します。 以上の結果から,各下流タスクは異なる最適形態素解析装置を備えており,タスクの種類に関わらず,ワードピースではなくバイトペアエンコーディングやユニグラムを使う方がよいことがわかった。

This paper investigates the effect of tokenizers on the downstream performance of pretrained language models (PLMs) in scriptio continua languages where no explicit spaces exist between words, using Japanese as a case study. The tokenizer for such languages often consists of a morphological analyzer and a subword tokenizer, requiring us to conduct a comprehensive study of all possible pairs. However, previous studies lack this comprehensiveness. We therefore train extensive sets of tokenizers, build a PLM using each, and measure the downstream performance on a wide range of tasks. Our results demonstrate that each downstream task has a different optimal morphological analyzer, and that it is better to use Byte-Pair-Encoding or Unigram rather than WordPiece as a subword tokenizer, regardless of the type of task.
翻訳日:2023-06-19 15:29:16 公開日:2023-06-16
# 長いコヒーレンス時間を有する超伝導量子ビット用a面サファイア基板上のエピタキシャル {\alpha}-ta (110)膜

Epitaxial {\alpha}-Ta (110) film on a-plane sapphire substrate for superconducting qubits with long coherence times ( http://arxiv.org/abs/2306.09568v1 )

ライセンス: Link先を確認
Boyi Zhou, Lina Yang, Tao Wang, Yanfu Wu, Kanglin Xiong, Jiagui Feng(参考訳) 実用的な超伝導量子コンピューティングの実現には、長いコヒーレンス時間を持つ量子ビットの大規模統合が必要である。 α}-ta (110) フィルムは量子ビットのコヒーレンス時間を大幅に改善できることが報告されている。 c面サファイア上に堆積した一般的に使用される {\alpha}-ta (110) 膜と比較すると, {\alpha}-ta (110) 膜は界面の原子関係のため,a面サファイア上にエピタキシャルに成長することができる。 ここでは, A面サファイアの欠陥密度が低い大規模高次準単結晶Ta(110)薄膜の成長を実証する。 厚さ200 nmのフィルムの根平均二乗は10 {\mu}m \times 10 {\mu}m領域の0.7 nm以下であり、残留抵抗比は15.5である。 トランスモンキュービットはこの種のフィルムを用いて製造され、150 {\mu}を超える緩和時間を示す。 これらの結果から, 面状サファイア上に成長した {\alpha}-Ta (110) 膜は, クビットの長いコヒーレンス時間を持つ大規模超伝導回路の選択肢となる可能性が示唆された。

Realization of practical superconducting quantum computing requires large-scale integration of qubits with long coherence times. It has been reported that {\alpha}-Ta (110) film can greatly improve the coherence times of qubits. Compared to the commonly used {\alpha}-Ta (110) film deposited on c-plane sapphire, {\alpha}-Ta (110) film can be epitaxially grown on a-plane sapphire because of the atomic relationships at their interface. Here, we demonstrate the growth of a large-scale well-ordered quasi-single crystal {\alpha}-Ta (110) film with a low density of defects on a-plane sapphire. The root mean square of the film with thickness of 200 nm is below 0.7 nm over a 10 {\mu}m \times 10 {\mu}m area and the residual resistance ratio is as high as 15.5. Transmon qubits are also fabricated using this kind of film and show relaxation times exceeding 150 {\mu}s. These results suggest {\alpha}-Ta (110) film grown on a-plane sapphire is an alternative promising choice for large-scale superconducting circuits with long coherence times of qubits.
翻訳日:2023-06-19 15:29:01 公開日:2023-06-16
# nlpの再現性:チェックリストから何を学びましたか?

Reproducibility in NLP: What Have We Learned from the Checklist? ( http://arxiv.org/abs/2306.09562v1 )

ライセンス: Link先を確認
Ian Magnusson, Noah A. Smith, Jesse Dodge(参考訳) nlpの科学的進歩は研究者の主張の再現性にかかっている。 the *cl conferencesは、2020年にnlp reproducibility checklistを作成し、著者が提出した重要な情報をリマインドするために完成させた。 10,405件の匿名応答を調べることで,チェックリストを初めて解析する。 まず,チェックリスト導入後の効率,検証性能,要約統計,ハイパーパラメータに関する情報の報告の増加を示す。 さらに、よりYes応答のある投稿に対する受理率の増加を示す。 新しいデータを収集した投稿の44%は、受け付けていないものに比べて5%少なく、平均的なレビュアーによる再現性も他のものに比べて2%低い。 コードのオープンソース化を主張している申請者は46%に過ぎませんが,再現性のスコアが8%高く,どの項目でも最も高い結果が得られています。 我々は,NLPにおける再現性の現状について何を推測できるかを議論し,今後の会議への推奨事項について述べる。 a) 期限の1週間後にコード及び付録の提出を許可し、 b) データ収集プラクティスのチェックリストによるデータセット再現性の測定。

Scientific progress in NLP rests on the reproducibility of researchers' claims. The *CL conferences created the NLP Reproducibility Checklist in 2020 to be completed by authors at submission to remind them of key information to include. We provide the first analysis of the Checklist by examining 10,405 anonymous responses to it. First, we find evidence of an increase in reporting of information on efficiency, validation performance, summary statistics, and hyperparameters after the Checklist's introduction. Further, we show acceptance rate grows for submissions with more Yes responses. We find that the 44% of submissions that gather new data are 5% less likely to be accepted than those that did not; the average reviewer-rated reproducibility of these submissions is also 2% lower relative to the rest. We find that only 46% of submissions claim to open-source their code, though submissions that do have 8% higher reproducibility score relative to those that do not, the most for any item. We discuss what can be inferred about the state of reproducibility in NLP, and provide a set of recommendations for future conferences, including: a) allowing submitting code and appendices one week after the deadline, and b) measuring dataset reproducibility by a checklist of data collection practices.
翻訳日:2023-06-19 15:28:39 公開日:2023-06-16
# IBM量子コンピュータ上のQFTベースの量子演算論理ユニット

QFT based quantum arithmetic logic unit on IBM quantum computer ( http://arxiv.org/abs/2306.09560v1 )

ライセンス: Link先を確認
Sel\c{c}uk \c{C}akmak, Murat Kurt, Azmi Gen\c{c}ten(参考訳) 本研究では,量子フーリエ変換に基づくプリミティブ量子演算論理ユニット(qALU)を構築した。 qALU は算術的 ADD (addition) と論理的 NAND ゲート演算を実行することができる。 我々は2入力と4入力の2種類の算術論理ユニットを提示した。 算術加算の実行においてシリアルおよび並列アーキテクチャに必要な量子ゲート数を比較することにより,性能評価を行った。 我々はIBMが提供する実際の量子コンピュータハードウェア上で量子フーリエ変換に基づくqALU設計を実行した。 その結果,提案回路は高い成功率で演算と論理演算を実行できることがわかった。 さらに,計算機科学分野におけるQALU回路の実装の可能性についても論じ,量子処理ユニット上にソフトコアプロセッサを構築する可能性を強調した。

In this study, we constructed a primitive quantum arithmetic logic unit (qALU) based on the quantum Fourier transform. The qALU is capable of performing arithmetic ADD (addition) and logic NAND gate operations. We presented two versions of the arithmetic logic unit, with two-input and four-input capabilities. By comparing the required number of quantum gates for serial and parallel architectures in executing arithmetic addition, we evaluated the performance. We executed our quantum Fourier transform based qALU design on real quantum computer hardware provided by IBM. The results demonstrated that the proposed circuit can perform arithmetic and logic operations with a high success rate. Furthermore, we discussed the potential implementation of qALU circuit in the field of computer science, highlighting the possibility of constructing soft-core processor on quantum processing unit.
翻訳日:2023-06-19 15:28:21 公開日:2023-06-16
# 大規模言語モデルによるクリックベイト検出

Clickbait Detection via Large Language Models ( http://arxiv.org/abs/2306.09597v1 )

ライセンス: Link先を確認
Yi Zhu, Han Wang, Ye Wang, Yun Li, Yunhao Yuan, Jipeng Qiang(参考訳) clickbaitは、ニュースポータルやソーシャルメディアなど、ほぼすべてのオンラインコンテンツパブリッシャーに浸透している。 近年,Large Language Models (LLMs) が強力な道具として登場し,NLP下流タスクにおいて大きな成功を収めている。 しかし,LLMが高品質なクリックベイト検出システムとして機能するかどうかは不明である。 本稿では,英語と中国語のベンチマークデータセットを用いて,数ショットシナリオにおけるLLMの性能を解析する。 実験結果から, LLM は最先端の深部・微調整 PLM 法に比べ, 最高の結果が得られないことがわかった。 人間の直観と異なり、実験では、llmは見出しだけではクリックベイトの検出を満足できないことを示した。

Clickbait, which aims to induce users with some surprising and even thrilling headlines for increasing click-through rates, permeates almost all online content publishers, such as news portals and social media. Recently, Large Language Models (LLMs) have emerged as a powerful instrument and achieved tremendous success in a serious of NLP downstream tasks. However, it is not yet known whether LLMs can be served as a high-quality clickbait detection system. In this paper, we analyze the performance of LLMs in the few-shot scenarios on a number of English and Chinese benchmark datasets. Experimental results show that LLMs cannot achieve the best results compared to the state-of-the-art deep and fine-tuning PLMs methods. Different from the human intuition, the experiments demonstrated that LLMs cannot make satisfied clickbait detection just by the headlines.
翻訳日:2023-06-19 15:19:49 公開日:2023-06-16
# グラフィカルモデル優先による構造化協調学習

Structured Cooperative Learning with Graphical Model Priors ( http://arxiv.org/abs/2306.09595v1 )

ライセンス: Link先を確認
Shuangtong Li, Tianyi Zhou, Xinmei Tian, Dacheng Tao(参考訳) ローカルデータに制限のある分散デバイス上で、さまざまなタスクに対してパーソナライズされたモデルをトレーニングする方法を研究する。 本稿では,デバイス間の相互学習を自動的にコーディネートするグラフィカルモデルにより,デバイス間の協調グラフを生成する「構造化協調学習(SCooL)」を提案する。 異なる構造を強制するグラフィカルモデルを選択することで、変分推論により、既存の新しい分散学習アルゴリズムの豊富なクラスを導き出すことができる。 特に,dirac分布,確率ブロックモデル(sbm),注意を先行生成協調グラフとして採用するscoolの3つのインスタンス化を示す。 これらのEM型アルゴリズムは、協調グラフの更新と局所モデルの協調学習を交互に行う。 協力グラフを最適化するために、モデル更新を監視するだけで、デバイス間のクロスタスク相関を自動的にキャプチャできる。 我々はSCooLを評価し,既存の分散学習手法と比較し,SCooLがパーソナライズされたモデルの最高精度を常に達成し,通信効率において他のベースラインを著しく上回ることを示す。 私たちのコードはhttps://github.com/ShuangtongLi/SCooL.comで利用可能です。

We study how to train personalized models for different tasks on decentralized devices with limited local data. We propose "Structured Cooperative Learning (SCooL)", in which a cooperation graph across devices is generated by a graphical model prior to automatically coordinate mutual learning between devices. By choosing graphical models enforcing different structures, we can derive a rich class of existing and novel decentralized learning algorithms via variational inference. In particular, we show three instantiations of SCooL that adopt Dirac distribution, stochastic block model (SBM), and attention as the prior generating cooperation graphs. These EM-type algorithms alternate between updating the cooperation graph and cooperative learning of local models. They can automatically capture the cross-task correlations among devices by only monitoring their model updating in order to optimize the cooperation graph. We evaluate SCooL and compare it with existing decentralized learning methods on an extensive set of benchmarks, on which SCooL always achieves the highest accuracy of personalized models and significantly outperforms other baselines on communication efficiency. Our code is available at https://github.com/ShuangtongLi/SCooL.
翻訳日:2023-06-19 15:19:33 公開日:2023-06-16
# CMLM-CSE:文埋め込みのための条件付きMLMコントラスト学習

CMLM-CSE: Based on Conditional MLM Contrastive Learning for Sentence Embeddings ( http://arxiv.org/abs/2306.09594v1 )

ライセンス: Link先を確認
Wei Zhang, Xu Chen(参考訳) 従来の比較学習文の埋め込みは、エンコーダを直接使用して文の特徴を抽出し、学習のための比較損失関数を渡す。 しかし,本手法は文体に過度に注意を払い,文中の一部の単語が文の意味論に与える影響を無視する。 そこで本稿では,条件付きMLMに基づく教師なしコントラスト学習フレームワークCMLM-CSEを提案する。 従来のコントラスト学習に基づいて、MLMタスクを実行するために文埋め込みを統合する補助ネットワークを追加し、さらにマスキングされた単語情報を学ぶよう強制する。 最後に、事前学習言語モデルとしてbertbaseを用いた場合、テキスト類似度タスクの平均でsimcseを0.55%上回り、事前学習言語モデルとしてrobertabaseを用いた場合、テキスト類似度タスクの平均でsimcseを0.3%上回った。

Traditional comparative learning sentence embedding directly uses the encoder to extract sentence features, and then passes in the comparative loss function for learning. However, this method pays too much attention to the sentence body and ignores the influence of some words in the sentence on the sentence semantics. To this end, we propose CMLM-CSE, an unsupervised contrastive learning framework based on conditional MLM. On the basis of traditional contrastive learning, an additional auxiliary network is added to integrate sentence embedding to perform MLM tasks, forcing sentence embedding to learn more masked word information. Finally, when Bertbase was used as the pretraining language model, we exceeded SimCSE by 0.55 percentage points on average in textual similarity tasks, and when Robertabase was used as the pretraining language model, we exceeded SimCSE by 0.3 percentage points on average in textual similarity tasks.
翻訳日:2023-06-19 15:19:14 公開日:2023-06-16
# FETNet:シーンテキスト削除のための機能消去・転送ネットワーク

FETNet: Feature Erasing and Transferring Network for Scene Text Removal ( http://arxiv.org/abs/2306.09593v1 )

ライセンス: Link先を確認
Guangtao Lyu, Kun Liu, Anna Zhu, Seiichi Uchida, Brian Kenji Iwana(参考訳) シーンテキスト削除(STR)タスクは、テキスト領域を削除し、画像中の背景をスムーズに復元し、プライベート情報保護を目的とする。 既存のSTRメソッドの多くはエンコーダデコーダベースのCNNを採用しており、スキップ接続の機能を直接コピーしている。 しかし、エンコードされた特徴はテキストテクスチャと構造情報の両方を含んでいる。 テキストの不十分な利用は、テキスト削除領域におけるバックグラウンド再構築のパフォーマンスを損なう。 そこで本稿では,strのエンコードされた特徴を再設定するための新しい機能消去・転送(fet)機構を提案する。 FETでは、FEM (Feature Erasing Module) はテキスト機能を削除するように設計されている。 注目モジュールは、機能の類似性ガイダンスを生成する責任がある。 FTM(Feature Transfering Module)は、アテンションガイダンスに基づいて異なるレイヤで対応する機能を転送するために導入された。 この機構により、シーンテキストの除去のために、FETNetと呼ばれるワンステージでエンドツーエンドのトレーニング可能なネットワークを構築する。 さらに,シーンのテキスト除去とセグメンテーションタスクの両方の研究を容易にするために,複数カテゴリアノテーションを備えた新しいデータセットであるflickr-stを提案する。 公開データセットとFlickr-STで十分な数の実験とアブレーション研究が行われた。 提案手法は,高画質のシーンテキスト除去結果を用いて,ほとんどの指標を用いて最先端の性能を実現する。 作業のソースコードは以下の通りである。 \href{https://github.com/GuangtaoLyu/FETNet}{https://github.com/GuangtaoLyu/FETNet。

The scene text removal (STR) task aims to remove text regions and recover the background smoothly in images for private information protection. Most existing STR methods adopt encoder-decoder-based CNNs, with direct copies of the features in the skip connections. However, the encoded features contain both text texture and structure information. The insufficient utilization of text features hampers the performance of background reconstruction in text removal regions. To tackle these problems, we propose a novel Feature Erasing and Transferring (FET) mechanism to reconfigure the encoded features for STR in this paper. In FET, a Feature Erasing Module (FEM) is designed to erase text features. An attention module is responsible for generating the feature similarity guidance. The Feature Transferring Module (FTM) is introduced to transfer the corresponding features in different layers based on the attention guidance. With this mechanism, a one-stage, end-to-end trainable network called FETNet is constructed for scene text removal. In addition, to facilitate research on both scene text removal and segmentation tasks, we introduce a novel dataset, Flickr-ST, with multi-category annotations. A sufficient number of experiments and ablation studies are conducted on the public datasets and Flickr-ST. Our proposed method achieves state-of-the-art performance using most metrics, with remarkably higher quality scene text removal results. The source code of our work is available at: \href{https://github.com/GuangtaoLyu/FETNet}{https://github.com/GuangtaoLyu/FETNet.
翻訳日:2023-06-19 15:18:57 公開日:2023-06-16
# FewSAR: SAR画像分類ベンチマーク

FewSAR: A Few-shot SAR Image Classification Benchmark ( http://arxiv.org/abs/2306.09592v1 )

ライセンス: Link先を確認
Rui Zhang, Ziqi Wang, Yang Li, Jiabao Wang, Zhiteng Wang(参考訳) FSL(Few-shot Learning)は、画像分類の分野で重要かつ困難な問題の1つである。 しかし、可視光データセットの急速な発展とは対照的に、SARターゲット画像分類の進歩ははるかに遅い。 統一ベンチマークの欠如は、この現象の鍵となる理由であり、現在の文献ではひどく見落とされている。 SARターゲット画像分類の研究者は、常に自身のデータセットと実験的な設定で新しい結果を報告している。 結果の比較において効率が悪くなり、この分野のさらなる進歩を妨げる。 そこで本研究では,この問題に対処するため,新しいSAR画像分類ベンチマーク(FewSAR)を提案する。 FewSARは、SAR画像分類のための3つのカテゴリで15の古典的なメソッドからなるオープンソースのPythonコードライブラリで構成されている。 さまざまなマイナショットsarイメージ分類タスクに対して、アクセス可能でカスタマイズ可能なテストベッドを提供する。 異なるマイナショット法の性能をより深く理解するため,評価プロトコルを確立し,ベンチマーク内で広範囲な実験を行う。 同じ環境下での定量的な結果と実行時間を分析することで、メトリック学習手法の精度が最良の結果を得ることができることを観察する。 メタラーニング法と微調整法は、既存のデータセットの偏りが主な原因で、数ショットのSAR画像では不十分である。 我々はFewSARが、SAR画像分類と数発のディープラーニングの交差点における現実世界の課題に対して、将来の研究開発のための新たな道を開くと信じている。 提案されているFewSARのコードはhttps://github.com/solarlee/FewSARで提供します。

Few-shot learning (FSL) is one of the significant and hard problems in the field of image classification. However, in contrast to the rapid development of the visible light dataset, the progress in SAR target image classification is much slower. The lack of unified benchmark is a key reason for this phenomenon, which may be severely overlooked by the current literature. The researchers of SAR target image classification always report their new results on their own datasets and experimental setup. It leads to inefficiency in result comparison and impedes the further progress of this area. Motivated by this observation, we propose a novel few-shot SAR image classification benchmark (FewSAR) to address this issue. FewSAR consists of an open-source Python code library of 15 classic methods in three categories for few-shot SAR image classification. It provides an accessible and customizable testbed for different few-shot SAR image classification task. To further understanding the performance of different few-shot methods, we establish evaluation protocols and conduct extensive experiments within the benchmark. By analyzing the quantitative results and runtime under the same setting, we observe that the accuracy of metric learning methods can achieve the best results. Meta-learning methods and fine-tuning methods perform poorly on few-shot SAR images, which is primarily due to the bias of existing datasets. We believe that FewSAR will open up a new avenue for future research and development, on real-world challenges at the intersection of SAR image classification and few-shot deep learning. We will provide our code for the proposed FewSAR at https://github.com/solarlee/FewSAR.
翻訳日:2023-06-19 15:18:35 公開日:2023-06-16
# 視覚に基づくナノ空気自動車の自律パーチ手法

A Vision-based Autonomous Perching Approach for Nano Aerial Vehicles ( http://arxiv.org/abs/2306.09591v1 )

ライセンス: Link先を確認
Truong-Dong Do, Sung Kyung Hong(参考訳) 過去何十年もの間、クワッドコプターは様々な環境で作動する機動性と柔軟性のために研究されてきた。 監視や監視など、さまざまな分野で使用されている。 ミッションの間、ドローンは目標地点に到達した後も活動を続ける必要はない。 エネルギーを節約し静的な位置を維持するために、そのような状況でモータをパーチして停止させることができる。 信頼性が高く,高精度なパーチ手法を実現するという問題は,依然として課題であり,有望である。 本稿では,ナノクワッドコプターを水平面上における予め定義されたパーチターゲットに自律的なパーチ手法を提案する。 まず、より広い範囲の検知能力を向上させるために、小さなマーカーを内蔵したパーチングターゲットを設計する。 第二に、検出されたマーカーから飛行車両の相対的なポーズを計算するために単眼カメラを用いる。 そして、カルマンフィルタを適用して、特に測定データが欠落している場合に、より確実にポーズを決定する。 次に,複数のマーカーからのポーズデータをマージするアルゴリズムを提案する。 そして最後に、ポーズを打つプランナーに送られ、実際の飛行テストを行い、ドローンを目標の中心と整列させ、そこで操縦する。 実験結果から, 本手法は有効かつ有効であることが判明した。 ドローンは2cmの精度でマーカーの中心に到達することができる。

Over the past decades, quadcopters have been investigated, due to their mobility and flexibility to operate in a wide range of environments. They have been used in various areas, including surveillance and monitoring. During a mission, drones do not have to remain active once they have reached a target location. To conserve energy and maintain a static position, it is possible to perch and stop the motors in such situations. The problem of achieving a reliable and highly accurate perching method remains a challenge and promising. In this paper, a vision-based autonomous perching approach for nano quadcopters onto a predefined perching target on horizontal surfaces is proposed. First, a perching target with a small marker inside a larger one is designed to improve detection capability at a variety of ranges. Second, a monocular camera is used to calculate the relative poses of the flying vehicle from the markers detected. Then, a Kalman filter is applied to determine the pose more reliably, especially when measurement data is missing. Next, we introduce an algorithm for merging the pose data from multiple markers. Finally, the poses are sent to the perching planner to conduct the real flight test to align the drone with the target's center and steer it there. Based on the experimental results, the approach proved to be effective and feasible. The drone can successfully perch on the center of markers within two centimeters of precision.
翻訳日:2023-06-19 15:18:12 公開日:2023-06-16
# 自動運転チャレンジにおけるCVPR 2023オープンレーントポロジーの1位ソリューション

The 1st-place Solution for CVPR 2023 OpenLane Topology in Autonomous Driving Challenge ( http://arxiv.org/abs/2306.09590v1 )

ライセンス: Link先を確認
Dongming Wu, Fan Jia, Jiahao Chang, Zhuoling Li, Jianjian Sun, Chunrui Han, Shuailin Li, Yingfei Liu, Zheng Ge, Tiancai Wang(参考訳) 自動運転チャレンジにおけるOpenLane Topologyの1位ソリューションを提案する。 トポロジ推論は中心線検出とトラヒック要素検出に基づくので,高性能なマルチステージフレームワークを開発する。 具体的には、強力なpetrv2検出器によりセンタラインを検出し、トラフィック要素を検出するために人気のあるyolov8を用いる。 さらに、トポロジ予測のための単純で効果的なMLPベースのヘッドを設計する。 提案手法は,OpenLaneV2テストセット上で55\% OLSを達成し,第2の解を8ポイント超えた。

We present the 1st-place solution of OpenLane Topology in Autonomous Driving Challenge. Considering that topology reasoning is based on centerline detection and traffic element detection, we develop a multi-stage framework for high performance. Specifically, the centerline is detected by the powerful PETRv2 detector and the popular YOLOv8 is employed to detect the traffic elements. Further, we design a simple yet effective MLP-based head for topology prediction. Our method achieves 55\% OLS on the OpenLaneV2 test set, surpassing the 2nd solution by 8 points.
翻訳日:2023-06-19 15:17:53 公開日:2023-06-16
# 切り替えコストによるオンライン学習におけるフィードバックの役割の理解

Understanding the Role of Feedback in Online Learning with Switching Costs ( http://arxiv.org/abs/2306.09588v1 )

ライセンス: Link先を確認
Duo Cheng, Xingyu Zhou, Bo Ji(参考訳) 本稿では,スイッチングコストを伴うオンライン学習におけるフィードバックの役割について検討する。 ミニマックスの後悔は、バンディットフィードバックの下で$\widetilde{\theta}(t^{2/3})$であり、全情報フィードバックの下で$\widetilde{\theta}(\sqrt{t})$に改善され、そこで$t$は時間軸の長さである。 しかし、フィードバックの量や種類が一般的に後悔にどのように影響するかはほとんど分かっていない。 この目的のために、我々はまず、余分な観察を伴うバンディット学習の設定を考える。つまり、典型的なバンディットフィードバックに加えて、学習者は合計で$b_{\mathrm{ex}}$余分な観察を自由に行うことができる。 B_{\mathrm{ex}} = O(T^{2/3})$, regret が $\widetilde{\Theta}(T^{2/3})$, しかし、$B_{\mathrm{ex}} = \Omega(T^{2/3})$ が $\widetilde{\Theta}(T/\sqrt{B_{\mathrm{ex}}})$ となると、予算として $B_{\mathrm{ex}}$ が増加する。 最小限の後悔を達成できるアルゴリズムを設計するには、学習者が総観測費$B$の予算を持つより一般的な設定を考える必要がある。 この設定で、minimaxの後悔も完全に特徴づけており、それは$\widetilde{\Theta}(T/\sqrt{B})$であり、総予算$B$で滑らかにスケールすることを示している。 さらに,フィードバックの量や種類に応じて両者の上限を一致させることが可能な,異なる学習アルゴリズムを設計できる汎用的なアルゴリズムフレームワークを提案する。 興味深い発見の1つは、バンディットのフィードバックは予算が比較的限られている場合でも最適な後悔を保証できるが、予算が比較的大きい場合に最適な後悔を達成するにはもはや十分ではないということである。

In this paper, we study the role of feedback in online learning with switching costs. It has been shown that the minimax regret is $\widetilde{\Theta}(T^{2/3})$ under bandit feedback and improves to $\widetilde{\Theta}(\sqrt{T})$ under full-information feedback, where $T$ is the length of the time horizon. However, it remains largely unknown how the amount and type of feedback generally impact regret. To this end, we first consider the setting of bandit learning with extra observations; that is, in addition to the typical bandit feedback, the learner can freely make a total of $B_{\mathrm{ex}}$ extra observations. We fully characterize the minimax regret in this setting, which exhibits an interesting phase-transition phenomenon: when $B_{\mathrm{ex}} = O(T^{2/3})$, the regret remains $\widetilde{\Theta}(T^{2/3})$, but when $B_{\mathrm{ex}} = \Omega(T^{2/3})$, it becomes $\widetilde{\Theta}(T/\sqrt{B_{\mathrm{ex}}})$, which improves as the budget $B_{\mathrm{ex}}$ increases. To design algorithms that can achieve the minimax regret, it is instructive to consider a more general setting where the learner has a budget of $B$ total observations. We fully characterize the minimax regret in this setting as well and show that it is $\widetilde{\Theta}(T/\sqrt{B})$, which scales smoothly with the total budget $B$. Furthermore, we propose a generic algorithmic framework, which enables us to design different learning algorithms that can achieve matching upper bounds for both settings based on the amount and type of feedback. One interesting finding is that while bandit feedback can still guarantee optimal regret when the budget is relatively limited, it no longer suffices to achieve optimal regret when the budget is relatively large.
翻訳日:2023-06-19 15:17:43 公開日:2023-06-16
# クレダルの体積は認識の不確実性に対して良い尺度となるか?

Is the Volume of a Credal Set a Good Measure for Epistemic Uncertainty? ( http://arxiv.org/abs/2306.09586v1 )

ライセンス: Link先を確認
Yusuf Sale, Michele Caprio, Eyke H\"ullermeier(参考訳) 適切な不確実性表現と定量化は、様々な科学分野、特に機械学習や人工知能において必須となっている。 一つの確率測度による不確実性を表す代替として、クレダル集合(確率測度の凸集合)を考える。 d$-次元ポリトープとしてのクレダル集合の幾何学的表現は、(エピスティックな)不確かさに関する幾何学的直観を意味する。 本稿では,クレダル集合の幾何学的表現の体積が二分分類の場合の認識的不確かさの有意義な尺度であるが,多類分類ではそうではないことを示す。 理論的には,機械学習における不確実性対策を適切に特定し,活用する上で重要な役割を担っている。

Adequate uncertainty representation and quantification have become imperative in various scientific disciplines, especially in machine learning and artificial intelligence. As an alternative to representing uncertainty via one single probability measure, we consider credal sets (convex sets of probability measures). The geometric representation of credal sets as $d$-dimensional polytopes implies a geometric intuition about (epistemic) uncertainty. In this paper, we show that the volume of the geometric representation of a credal set is a meaningful measure of epistemic uncertainty in the case of binary classification, but less so for multi-class classification. Our theoretical findings highlight the crucial role of specifying and employing uncertainty measures in machine learning in an appropriate way, and for being aware of possible pitfalls.
翻訳日:2023-06-19 15:16:57 公開日:2023-06-16
# キーベース暗号変換を用いたファジィ特徴選択

Fuzzy Feature Selection with Key-based Cryptographic Transformations ( http://arxiv.org/abs/2306.09583v1 )

ライセンス: Link先を確認
Mike Nkongolo(参考訳) 暗号の分野において、関連する特徴の選択は暗号アルゴリズムのセキュリティと効率を向上させる上で重要な役割を果たす。 本稿では,鍵ベースの暗号変換にファジィ特徴選択を適用する新しい手法を提案する。 提案したファジィ特徴選択は、ファジィ論理の力を利用して、暗号変換プロセスに最も効果的に寄与する特徴の最適な部分集合を特定し、選択する。 本研究は,キーベースの暗号変換にファジィ特徴の選択を組み込むことにより,攻撃に対する耐性を改善し,暗号システム全体の性能を向上させることを目的とする。 実験評価により,提案手法が最小の計算オーバーヘッドでセキュアな鍵特徴の選択に有効であることを示すことができる。 本稿では、鍵ベースの暗号アルゴリズムの設計と最適化において、ファジィな特徴選択が重要なツールである可能性を強調し、様々な領域におけるセキュアな情報交換と通信の進歩に寄与する。

In the field of cryptography, the selection of relevant features plays a crucial role in enhancing the security and efficiency of cryptographic algorithms. This paper presents a novel approach of applying fuzzy feature selection to key-based cryptographic transformations. The proposed fuzzy feature selection leverages the power of fuzzy logic to identify and select optimal subsets of features that contribute most effectively to the cryptographic transformation process. By incorporating fuzzy feature selection into key-based cryptographic transformations, this research aims to improve the resistance against attacks and enhance the overall performance of cryptographic systems. Experimental evaluations may demonstrate the effectiveness of the proposed approach in selecting secure key features with minimal computational overhead. This paper highlights the potential of fuzzy feature selection as a valuable tool in the design and optimization of key-based cryptographic algorithms, contributing to the advancement of secure information exchange and communication in various domains.
翻訳日:2023-06-19 15:16:43 公開日:2023-06-16
# 高次元生成モデルの忠実性と多様性を測定するための精度とリコールの創発的非対称性

Emergent Asymmetry of Precision and Recall for Measuring Fidelity and Diversity of Generative Models in High Dimensions ( http://arxiv.org/abs/2306.09618v1 )

ライセンス: Link先を確認
Mahyar Khayatkhoei, Wael AbdAlmageed(参考訳) 精度とリコールは、生成モデルの忠実性と多様性を別々に測定するために提案された生成性能の2つの顕著な指標である。 生成モデルの比較と改善における中心的な役割を考えると、それらの限界を理解することは極めて重要である。 そこで本研究では,k-nearest-neighborsを用いて,これらの測定値の共通近似における重要な欠陥を同定し,精度とリコールに割り当てられた忠実さと多様性の解釈が高次元で失敗し,非常に誤解を招く結果となった。 具体的には,実分布の支持部から等距離に支持される2つのモデル分布が,各分布によらず非常に異なる精度と記憶力を持つことを実験的に理論的に示し,高次元における創発的非対称性を明らかにした。 理論的な洞察に基づいて、次元の数に関係なく対称なメトリクスを構築するために、これらのメトリクスを単純かつ効果的に修正する。 最後に,実世界のデータセットに関する実験を行い,特定された欠陥が単なる病理的事例ではなく,提案手法が影響の軽減に有効であることを示す。

Precision and Recall are two prominent metrics of generative performance, which were proposed to separately measure the fidelity and diversity of generative models. Given their central role in comparing and improving generative models, understanding their limitations are crucially important. To that end, in this work, we identify a critical flaw in the common approximation of these metrics using k-nearest-neighbors, namely, that the very interpretations of fidelity and diversity that are assigned to Precision and Recall can fail in high dimensions, resulting in very misleading conclusions. Specifically, we empirically and theoretically show that as the number of dimensions grows, two model distributions with supports at equal point-wise distance from the support of the real distribution, can have vastly different Precision and Recall regardless of their respective distributions, hence an emergent asymmetry in high dimensions. Based on our theoretical insights, we then provide simple yet effective modifications to these metrics to construct symmetric metrics regardless of the number of dimensions. Finally, we provide experiments on real-world datasets to illustrate that the identified flaw is not merely a pathological case, and that our proposed metrics are effective in alleviating its impact.
翻訳日:2023-06-19 15:10:34 公開日:2023-06-16
# EVOPOSE:キネマティック構造を用いた3次元人物位置推定のための再帰変換器

EVOPOSE: A Recursive Transformer For 3D Human Pose Estimation With Kinematic Structure Priors ( http://arxiv.org/abs/2306.09615v1 )

ライセンス: Link先を確認
Yaqi Zhang, Yan Lu, Bin Liu, Zhiwei Zhao, Qi Chu, Nenghai Yu(参考訳) トランスフォーマーは、3D空間に2Dキーポイントを持ち上げるために長期モデリングを利用する最近の3D人間のポーズ推定で人気がある。 しかし、現在のトランスフォーマーに基づく手法では、キネマティック構造によって提供される人間の骨格の事前知識を十分に活用していない。 本稿では,3次元ポーズ推定のための人体事前知識を効果的に導入するためのトランスフォーマーモデルを提案する。 具体的には、構造優先表現(Structure Priors Representation, SPR)モジュールは、例えば関節関係のようなリッチな身体パターンを持つ構造的特徴として、人間の先行を表現している。 構造的特徴は2次元ポーズシーケンスと相互作用し、モデルがより情報的な時空間的特徴を達成するのに役立つ。 さらに、推定結果を利用して3次元ポーズ出力を洗練するために再帰的再閉じ込め(RR)モジュールを適用し、同時にヒトの事前を注入する。 広範な実験は、最も人気のある2つのベンチマーク、human3.6mとmpi-inf-3dhpで新しい状態を達成するevoposeの有効性を示す。

Transformer is popular in recent 3D human pose estimation, which utilizes long-term modeling to lift 2D keypoints into the 3D space. However, current transformer-based methods do not fully exploit the prior knowledge of the human skeleton provided by the kinematic structure. In this paper, we propose a novel transformer-based model EvoPose to introduce the human body prior knowledge for 3D human pose estimation effectively. Specifically, a Structural Priors Representation (SPR) module represents human priors as structural features carrying rich body patterns, e.g. joint relationships. The structural features are interacted with 2D pose sequences and help the model to achieve more informative spatiotemporal features. Moreover, a Recursive Refinement (RR) module is applied to refine the 3D pose outputs by utilizing estimated results and further injects human priors simultaneously. Extensive experiments demonstrate the effectiveness of EvoPose which achieves a new state of the art on two most popular benchmarks, Human3.6M and MPI-INF-3DHP.
翻訳日:2023-06-19 15:10:10 公開日:2023-06-16
# HomoGCL: グラフコントラスト学習におけるホモフィリーの再考

HomoGCL: Rethinking Homophily in Graph Contrastive Learning ( http://arxiv.org/abs/2306.09614v1 )

ライセンス: Link先を確認
Wen-Zhi Li, Chang-Dong Wang, Hui Xiong, Jian-Huang Lai(参考訳) コントラスト学習(CL)は、グラフ上の自己教師型学習におけるデファクト学習パラダイムとなり、一般に「拡張コントラスト」学習スキームに従う。 しかし、コンピュータビジョン領域のCLとは異なり、グラフ領域のCLは増大することなく、十分に機能する。 我々は、この現象の体系的な解析を行い、ホモフィリー、すなわち「そのようなものを引き付ける」という原理がグラフCLの成功に重要な役割を果たしていると主張する。 この特性を明示的に活用するために,隣接するノードを用いて正の集合を拡張するためのモデルに依存しないフレームワークであるHomoGCLを提案する。 理論的には、homogclは生のノードの特徴と拡張されたビューにおけるノードの埋め込みの間の相互情報のより厳格な下界を導入する。 さらに、HomoGCLは計算オーバーヘッドの少ないプラグイン・アンド・プレイ方式で既存のグラフCLモデルと組み合わせることができる。 広範な実験により、homogclは6つのパブリックデータセットにまたがって最先端の結果をもたらし、様々なグラフclメソッドに適用した場合、一貫して注目すべきパフォーマンス改善をもたらすことが示されている。 コードはhttps://github.com/wenzhilics/homogcl。

Contrastive learning (CL) has become the de-facto learning paradigm in self-supervised learning on graphs, which generally follows the "augmenting-contrasting" learning scheme. However, we observe that unlike CL in computer vision domain, CL in graph domain performs decently even without augmentation. We conduct a systematic analysis of this phenomenon and argue that homophily, i.e., the principle that "like attracts like", plays a key role in the success of graph CL. Inspired to leverage this property explicitly, we propose HomoGCL, a model-agnostic framework to expand the positive set using neighbor nodes with neighbor-specific significances. Theoretically, HomoGCL introduces a stricter lower bound of the mutual information between raw node features and node embeddings in augmented views. Furthermore, HomoGCL can be combined with existing graph CL models in a plug-and-play way with light extra computational overhead. Extensive experiments demonstrate that HomoGCL yields multiple state-of-the-art results across six public datasets and consistently brings notable performance improvements when applied to various graph CL methods. Code is avilable at https://github.com/wenzhilics/HomoGCL.
翻訳日:2023-06-19 15:09:52 公開日:2023-06-16
# UTOPIA:クロスドメイン適応による予備試験のない非拘束追跡対象

UTOPIA: Unconstrained Tracking Objects without Preliminary Examination via Cross-Domain Adaptation ( http://arxiv.org/abs/2306.09613v1 )

ライセンス: Link先を確認
Pha Nguyen, Kha Gia Quach, John Gauch, Samee U. Khan, Bhiksha Raj, Khoa Luu(参考訳) 多重オブジェクト追跡(MOT)は、連続したビデオフレーム内で対象オブジェクトのバウンディングボックスとIDを見つけることを目的としている。 完全教師付きmotメソッドは既存のデータセットで高い精度を達成したが、新たに取得したデータセットや新しい未認識ドメインではうまく一般化できない。 本稿では,まずmot問題をクロスドメインの観点から解決し,実際に新たなデータ取得の過程を模倣する。 次に、オブジェクトの理解とモデリングに関する人間の知識を事前に定義することなく、既存のデータセットからの新たなクロスドメインmot適応を提案する。 また、ターゲットのデータフィードバックから学習し、更新することもできる。 集中的な実験は、MOTSynth to MOT17、MOT17 to MOT20、MOT17 to VisDrone、MOT17 to DanceTrackの4つの挑戦的な設定で設計されている。 そして,提案する自己教師付き学習戦略の適応性を証明する。 実験はまた、MOTAとIDF1のトラッキングにおける優れた性能を示し、完全に教師付き、教師なし、そして自己管理された最先端の手法と比較した。

Multiple Object Tracking (MOT) aims to find bounding boxes and identities of targeted objects in consecutive video frames. While fully-supervised MOT methods have achieved high accuracy on existing datasets, they cannot generalize well on a newly obtained dataset or a new unseen domain. In this work, we first address the MOT problem from the cross-domain point of view, imitating the process of new data acquisition in practice. Then, a new cross-domain MOT adaptation from existing datasets is proposed without any pre-defined human knowledge in understanding and modeling objects. It can also learn and update itself from the target data feedback. The intensive experiments are designed on four challenging settings, including MOTSynth to MOT17, MOT17 to MOT20, MOT17 to VisDrone, and MOT17 to DanceTrack. We then prove the adaptability of the proposed self-supervised learning strategy. The experiments also show superior performance on tracking metrics MOTA and IDF1, compared to fully supervised, unsupervised, and self-supervised state-of-the-art methods.
翻訳日:2023-06-19 15:09:31 公開日:2023-06-16
# GraphSHA: クラス不均衡ノード分類のためのハードサンプルの合成

GraphSHA: Synthesizing Harder Samples for Class-Imbalanced Node Classification ( http://arxiv.org/abs/2306.09612v1 )

ライセンス: Link先を確認
Wen-Zhi Li, Chang-Dong Wang, Hui Xiong, Jian-Huang Lai(参考訳) クラス不均衡は、あるクラスが他のクラスよりもはるかに少ないインスタンスを持つ現象であり、実際のグラフ構造化シナリオにおいてユビキタスである。 近年の研究では、既製のグラフニューラルネットワーク(GNN)が、マイナーなクラスサンプルを以下に表現している。 我々は,この現象を解明し,潜在空間の主要なクラスによって圧縮されるマイナークラスの部分空間が,この障害の主な原因であることを示す。 私たちは自然にマイナークラスの決定境界の拡大に触発され、難しいマイナーサンプルを合成することで一般的なフレームワークであるgraphshaを提案します。 さらに,隣接するクラスのサブ空間に違反する拡張されたマイナー境界を回避するため,マイナークラスから近隣クラスへの情報の伝搬をブロックしながら,拡張された境界情報をマイナークラスの内部に伝達するSemiMixupというモジュールを提案する。 経験的に、GraphSHAは7つの公開ベンチマークデータセット上の異なるGNNバックボーンエンコーダを用いて、クラス不均衡ノード分類における様々なベースラインメソッドよりも優れたパフォーマンスを示す。 コードはhttps://github.com/wenzhilics/graphshaで悪用できる。

Class imbalance is the phenomenon that some classes have much fewer instances than others, which is ubiquitous in real-world graph-structured scenarios. Recent studies find that off-the-shelf Graph Neural Networks (GNNs) would under-represent minor class samples. We investigate this phenomenon and discover that the subspaces of minor classes being squeezed by those of the major ones in the latent space is the main cause of this failure. We are naturally inspired to enlarge the decision boundaries of minor classes and propose a general framework GraphSHA by Synthesizing HArder minor samples. Furthermore, to avoid the enlarged minor boundary violating the subspaces of neighbor classes, we also propose a module called SemiMixup to transmit enlarged boundary information to the interior of the minor classes while blocking information propagation from minor classes to neighbor classes. Empirically, GraphSHA shows its effectiveness in enlarging the decision boundaries of minor classes, as it outperforms various baseline methods in class-imbalanced node classification with different GNN backbone encoders over seven public benchmark datasets. Code is avilable at https://github.com/wenzhilics/GraphSHA.
翻訳日:2023-06-19 15:09:11 公開日:2023-06-16
# CHORUS: 統一データ発見と探索のための基盤モデル

CHORUS: Foundation Models for Unified Data Discovery and Exploration ( http://arxiv.org/abs/2306.09610v1 )

ライセンス: Link先を確認
Moe Kayali, Anton Lykov, Ilias Fountalis, Nikolaos Vasiloglou, Dan Olteanu, Dan Suciu(参考訳) データ発見および探索タスクへの基礎モデルの適用について検討する。 基礎モデルは大規模言語モデル(llm)であり、トレーニングとは無関係な様々なタスクで有望なパフォーマンスを示す。 これらのモデルは、データ発見およびデータ探索領域に非常に適用可能であることを示す。 注意深く使うと、テーブルクラス検出、列型アノテーション、結合列予測という3つの典型的なタスクで優れた能力を発揮する。 これら3つの課題において,基礎モデルに基づくアプローチがタスク固有のモデルよりも優れていることを示す。 さらに、我々のアプローチは、しばしば人間の熟練したタスクパフォーマンスを超えます。 これは、基盤モデルの下で異なるデータ管理タスクを統一できる将来の方向性を示唆する。

We explore the application of foundation models to data discovery and exploration tasks. Foundation models are large language models (LLMs) that show promising performance on a range of diverse tasks unrelated to their training. We show that these models are highly applicable to the data discovery and data exploration domain. When carefully used, they have superior capability on three representative tasks: table-class detection, column-type annotation and join-column prediction. On all three tasks, we show that a foundation-model-based approach outperforms the task-specific models and so the state of the art. Further, our approach often surpasses human-expert task performance. This suggests a future direction in which disparate data management tasks can be unified under foundation models.
翻訳日:2023-06-19 15:08:52 公開日:2023-06-16
# クリップスコアを暗黙的参照チェインとしたフォトブック参照ゲームのリスナモデル

Listener Model for the PhotoBook Referential Game with CLIPScores as Implicit Reference Chain ( http://arxiv.org/abs/2306.09607v1 )

ライセンス: Link先を確認
Shih-Lun Wu, Yi-Hui Chou, and Liangze Li(参考訳) PhotoBookは、2人のプレーヤーがプライベートで部分的に重なり合う画像のセットを受け取り、どの画像が共通であるかを判断する対話ゲームである。 マルチモーダルなコンテキストにまつわる共通基盤を構築し、効果的にコミュニケーションする方法を学ぶ上で、マシンには大きな課題があります。 しかし、文学で開発された手法は、ゲームの一部のサブタスクのみに取り組むため、実際のゲームプレイに展開できず、抽出プロセスが不完全である追加の参照チェーン入力を必要とする。 そこで本研究では,ゲームの予測タスク,すなわちイメージがパートナーと共有されているかどうかを直接処理する参照チェーンフリーリスナモデルを提案する。 DeBERTaベースのリスナーモデルは全対話を読み出し,CLIPScore機能を用いて発話画像の関連性を評価する。 未確認画像・ゲームテーマの77%の精度を達成し,ベースラインを17点以上上回った。

PhotoBook is a collaborative dialogue game where two players receive private, partially-overlapping sets of images and resolve which images they have in common. It presents machines with a great challenge to learn how people build common ground around multimodal context to communicate effectively. Methods developed in the literature, however, cannot be deployed to real gameplay since they only tackle some subtasks of the game, and they require additional reference chains inputs, whose extraction process is imperfect. Therefore, we propose a reference chain-free listener model that directly addresses the game's predictive task, i.e., deciding whether an image is shared with partner. Our DeBERTa-based listener model reads the full dialogue, and utilizes CLIPScore features to assess utterance-image relevance. We achieve >77% accuracy on unseen sets of images/game themes, outperforming baseline by >17 points.
翻訳日:2023-06-19 15:08:41 公開日:2023-06-16
# ブロック符号化に基づく一般量子行列指数次元減少フレームワーク

A general quantum matrix exponential dimensionality reduction framework based on block-encoding ( http://arxiv.org/abs/2306.09606v1 )

ライセンス: Link先を確認
Yong-Mei Li, Hai-Ling Liu, Shi-Jie Pan, Su-Juan Qin, Fei Gao, Qiao-Yan Wen(参考訳) 一般的なフレームワークとして、行列指数次元減少(MEDR)は線形次元化(DR)アルゴリズムに現れる小さなサンプルサイズの問題を扱う。 高複雑性がこの種のDRアルゴリズムのボトルネックとなるのは、大規模な行列指数固有確率を解く必要があるからである。 そこで本稿では,ブロックエンコーディング手法に基づくmedrのための汎用量子アルゴリズムフレームワークを考案する。 このフレームワークは、データ行列のブロックエンコーディングを設計するための適切な方法を選択することによって、このフレームワークから一連の新しい効率的な量子アルゴリズムを導出することができる。 具体的には、データ行列指数関数のブロックエンコーディングを構築することにより、固有確率を解き、圧縮された低次元データセットに対応するデジタルエンコードされた量子状態を得る。 応用として,このフレームワークを4つの線形drアルゴリズムに適用し,それらの量子アルゴリズムを設計する。

As a general framework, Matrix Exponential Dimensionality Reduction (MEDR) deals with the small-sample-size problem that appears in linear Dimensionality Reduction (DR) algorithms. High complexity is the bottleneck in this type of DR algorithm because one has to solve a large-scale matrix exponential eigenproblem. To address it, here we design a general quantum algorithm framework for MEDR based on the block-encoding technique. This framework is configurable, that is, by selecting suitable methods to design the block-encodings of the data matrices, a series of new efficient quantum algorithms can be derived from this framework. Specifically, by constructing the block-encodings of the data matrix exponentials, we solve the eigenproblem and then obtain the digital-encoded quantum state corresponding to the compressed low-dimensional dataset, which can be directly utilized as input state for other quantum machine learning tasks to overcome the curse of dimensionality. As applications, we apply this framework to four linear DR algorithms and design their quantum algorithms, which all achieve a polynomial speedup in the dimension of the sample over their classical counterparts.
翻訳日:2023-06-19 15:08:24 公開日:2023-06-16
# 位相絶縁体の表面-バルクハイブリダイゼーションによる電子密度の自発的対称性の破れ

Spontaneous symmetry breaking in the electronic density by surface-bulk hybridization in topological insulators ( http://arxiv.org/abs/2306.09601v1 )

ライセンス: Link先を確認
Jorge David Casta\~no-Yepes, Enrique Mu\~noz(参考訳) 有限厚さのトポロジカル絶縁体スラブ内の電子密度分布を解析し,バルクおよび表面状態のハイブリッド化を許容する。 理論的な枠組みとして連続ハミルトニアンアプローチを用いることで、各状態の波動関数を$\gamma$-point付近で解析的に計算する。 以上の結果から,スラブの中心に対する電子密度の空間対称性は,特定の混合バルク状態と表面状態の組合せにより自発的に破られることが明らかとなった。 この対称性の破れは、溶液のパリティ、スピン射影、物質定数の組み合わせとして生じる。

We analyze the electronic density distribution in a topological insulator slab of finite thickness, where the bulk and surface states are allowed to hybridize. By using a continuous Hamiltonian approach as a theoretical framework, we analytically computed the wave functions for each state near the $\Gamma$-point. Our results reveal that, under particular combinations of the hybridized bulk and surface states, the spatial symmetry of the electronic density with respect to the center of the slab can be spontaneously broken. This symmetry breaking arises as a combination of the parity of the solutions, their spin projection, and the material constants
翻訳日:2023-06-19 15:08:05 公開日:2023-06-16
# サイバーセキュリティのキャリア要件:文献レビュー

Cybersecurity Career Requirements: A Literature Review ( http://arxiv.org/abs/2306.09599v1 )

ライセンス: Link先を確認
Mike Nkongolo, Nita Mennega, and Izaan van Zyl(参考訳) 本研究は、サイバーセキュリティの専門家としてのキャリアの要件を特定するために、体系的な文献レビューアプローチを採用する。 情報セキュリティ(IS)専門職の機会に対する意識を高めることを目的としている。 4つの学術データベースから"cybersecurity"と"skills"という用語を用いて、合計1,520の論文が同定された。 各種基準による厳密な検診を経て31紙が残った。 これらの研究の成果は、IS専門家が持つべき知識とスキルを記述するために、理論的に分析された。 調査によると、サイバーセキュリティの専門家が必要とされる技術能力に到達するためには、かなりの時間的投資が必要である。 また、この分野に特有の要件があるため、女性の性障壁をサイバーセキュリティのキャリアに特定し、女性が低いレベルに足を踏み入れ、状況に応じて階層を進化させる可能性があることを示唆した。

This study employs a systematic literature review approach to identify the requirements of a career as a cybersecurity professional. It aims to raise public awareness regarding opportunities in the Information Security (IS) profession. A total of 1,520 articles were identified from four academic databases by searching using the terms "cybersecurity" and "skills". After rigorous screening according to various criteria, 31 papers remained. The findings of these studies were thematically analyzed to describe the knowledge and skills an IS professional should possess. The research found that a considerable investment in time is necessary for cybersecurity professionals to reach the required technical proficiency. It also identified female gender barriers to cybersecurity careers due to the unique requirements of the field and suggests that females may successfully enter at lower levels and progress up the tiers as circumstances dictate.
翻訳日:2023-06-19 15:07:53 公開日:2023-06-16
# DeepMPR:マルチエージェントディープ強化学習による無線ネットワークのオポチュニティルーティングの強化

DeepMPR: Enhancing Opportunistic Routing in Wireless Networks through Multi-Agent Deep Reinforcement Learning ( http://arxiv.org/abs/2306.09637v1 )

ライセンス: Link先を確認
Saeed Kaviani, Bo Ryu, Ejaz Ahmed, Deokseong Kim, Jae Kim, Carrie Spiker, Blake Harnden(参考訳) オプションルーティングは、無線ネットワークのブロードキャスト能力に依存する。 モバイルや車載アドホックネットワーク(manets/vanets)のような高度に動的かつ/または厳しい環境で高い信頼性と堅牢性をもたらす。 ブロードキャストのコストを削減するために、マルチキャストルーティングは、ネットワークのオーバーヘッドを減らすために、connected dominating set (cds) または multi-point relaying (mpr) セットを使用する。 一般的なmpr選択アルゴリズムはヒューリスティックであり、ノード間の協調に依存し、大規模ネットワークに高い計算能力を必要とし、ネットワークの不確実性を調整するのが難しい。 本稿では,新しいmprマルチキャストルーティング手法であるdeepmprの設計にマルチエージェント深層強化学習を応用し,olsr mpr選択アルゴリズムを上回っているが,隣人からのmpr発表メッセージは不要である。 評価の結果,訓練したDeepMPRマルチキャスト転送方式の性能は,他の一般的な手法と比較して向上した。

Opportunistic routing relies on the broadcast capability of wireless networks. It brings higher reliability and robustness in highly dynamic and/or severe environments such as mobile or vehicular ad-hoc networks (MANETs/VANETs). To reduce the cost of broadcast, multicast routing schemes use the connected dominating set (CDS) or multi-point relaying (MPR) set to decrease the network overhead and hence, their selection algorithms are critical. Common MPR selection algorithms are heuristic, rely on coordination between nodes, need high computational power for large networks, and are difficult to tune for network uncertainties. In this paper, we use multi-agent deep reinforcement learning to design a novel MPR multicast routing technique, DeepMPR, which is outperforming the OLSR MPR selection algorithm while it does not require MPR announcement messages from the neighbors. Our evaluation results demonstrate the performance gains of our trained DeepMPR multicast forwarding policy compared to other popular techniques.
翻訳日:2023-06-19 14:59:49 公開日:2023-06-16
# CLIPSonic: 未ラベルビデオと事前学習言語ビジョンモデルによる音声合成

CLIPSonic: Text-to-Audio Synthesis with Unlabeled Videos and Pretrained Language-Vision Models ( http://arxiv.org/abs/2306.09635v1 )

ライセンス: Link先を確認
Hao-Wen Dong, Xiaoyu Liu, Jordi Pons, Gautam Bhattacharya, Santiago Pascual, Joan Serr\`a, Taylor Berg-Kirkpatrick, Julian McAuley(参考訳) 近年,大量のテキスト音声データを用いた音声合成の研究が行われている。 しかし,高品質なテキストアノテーションを用いた音声記録は入手が困難である。 本研究では,未ラベルビデオと事前学習言語ビジョンモデルを用いて音声合成を行う。 視覚モダリティを橋梁として活用し,所望のテキスト音声対応を学習することを提案する。 我々は,事前学習されたコントラスト言語画像前訓練(clip)モデルで符号化されたビデオフレームに対して,映像の音声トラックを生成するための条件拡散モデルを訓練する。 テスト時には,まずゼロショットモダリティ転送を行い,クリップエンコードされたテキストクエリで拡散モデルを条件付けする。 しかし,画像クエリに対する顕著な性能低下が観察された。 このギャップを埋めるために,事前学習した拡散事前モデルを採用し,クリップテキスト埋め込みによりクリップ画像埋め込みを生成する。 その結果,提案手法の有効性が示され,事前学習した拡散前処理によりモーダリティ伝達ギャップを低減できることがわかった。 音声合成に注目する一方で,提案モデルでは画像クエリから音声を生成することが可能であり,主観的聞き取りテストにおいて最先端の画像音声合成モデルと競合する性能を示す。 本研究は,ビデオにおける自然な音声-視覚対応と事前学習された言語-視覚モデルのパワーを活用する,テキスト-音声合成への新たな方向を提供する。

Recent work has studied text-to-audio synthesis using large amounts of paired text-audio data. However, audio recordings with high-quality text annotations can be difficult to acquire. In this work, we approach text-to-audio synthesis using unlabeled videos and pretrained language-vision models. We propose to learn the desired text-audio correspondence by leveraging the visual modality as a bridge. We train a conditional diffusion model to generate the audio track of a video, given a video frame encoded by a pretrained contrastive language-image pretraining (CLIP) model. At test time, we first explore performing a zero-shot modality transfer and condition the diffusion model with a CLIP-encoded text query. However, we observe a noticeable performance drop with respect to image queries. To close this gap, we further adopt a pretrained diffusion prior model to generate a CLIP image embedding given a CLIP text embedding. Our results show the effectiveness of the proposed method, and that the pretrained diffusion prior can reduce the modality transfer gap. While we focus on text-to-audio synthesis, the proposed model can also generate audio from image queries, and it shows competitive performance against a state-of-the-art image-to-audio synthesis model in a subjective listening test. This study offers a new direction of approaching text-to-audio synthesis that leverages the naturally-occurring audio-visual correspondence in videos and the power of pretrained language-vision models.
翻訳日:2023-06-19 14:59:31 公開日:2023-06-16
# the false dawn: チップマクロ配置のためのgoogleの強化学習の再評価

The False Dawn: Reevaluating Google's Reinforcement Learning for Chip Macro Placement ( http://arxiv.org/abs/2306.09633v1 )

ライセンス: Link先を確認
Igor L. Markov(参考訳) Google 2021 Natureの論文で、シリコンチップの物理的設計のための強化学習(RL)が論争を引き起こした。 nature紙は、報告された結果を生成するために必要なほとんどの入力と、方法論におけるいくつかの重要なステップを支持した。 しかし、2つの独立した評価がギャップを埋め、Google RLが人間設計者より遅れており、よく知られたアルゴリズム(Simulated Annealing)、そして一般的な商用ソフトウェアよりも遅れていることを示した。 クロスチェックデータによると、Nature論文の完全性は、行動、分析、報告の誤りによって著しく損なわれている。

Reinforcement learning (RL) for physical design of silicon chips in a Google 2021 Nature paper stirred controversy due to poorly documented claims that raised eyebrows and attracted critical media coverage. The Nature paper withheld most inputs needed to produce reported results and some critical steps in the methodology. But two independent evaluations filled in the gaps and demonstrated that Google RL lags behind human designers, behind a well-known algorithm (Simulated Annealing), and also behind generally-available commercial software. Crosschecked data indicate that the integrity of the Nature paper is substantially undermined owing to errors in the conduct, analysis and reporting.
翻訳日:2023-06-19 14:59:07 公開日:2023-06-16
# AUGUST:会話推薦データセットの合成のための自動生成基盤

AUGUST: an Automatic Generation Understudy for Synthesizing Conversational Recommendation Datasets ( http://arxiv.org/abs/2306.09631v1 )

ライセンス: Link先を確認
Yu Lu, Junwei Bao, Zichen Ma, Xiaoguang Han, Youzheng Wu, Shuguang Cui, Xiaodong He(参考訳) 高品質なデータは会話型レコメンデーションシステムにおいて必須であり、ネットワークアーキテクチャの開発とトレーニング戦略設計の基盤となる。 既存の作業は、レコメンデーションダイアログテンプレートを手作業でラベル付けしたり、設計したり、拡張したりするために、人間の努力に大きく貢献する。 しかし 彼らは苦しむのです (i)人間のアノテータの数が限られているため、データセットは現実世界のリッチで大規模なケースをほとんど捕捉できない。 (ii) 注釈者の限られた経験と知識は、不適切なコーパスと不適切な推奨を説明する。 本稿では,実世界からのユーザ情報に基づいて構造化グラフから非構造化推薦対話を生成するdata2text生成プロセスを通じて,大規模かつ高品質な推薦対話を生成できる新しいデータセット合成手法を提案する。 そのために私たちは包括的に利用します (i)従来のレコメンデーションデータセットからのパーソナライズされたユーザープロファイル。 (二)知識グラフからの豊かな外部知識、及び (iii)人間同士の会話レコメンデーションデータセットに含まれる会話能力。 大規模な実験は、低リソースシナリオ下で自動的に合成されたデータによってもたらされる利点を検証し、より効果的な対話レコメンデーションシステムの開発を促進する可能性を示す。

High-quality data is essential for conversational recommendation systems and serves as the cornerstone of the network architecture development and training strategy design. Existing works contribute heavy human efforts to manually labeling or designing and extending recommender dialogue templates. However, they suffer from (i) the limited number of human annotators results in that datasets can hardly capture rich and large-scale cases in the real world, (ii) the limited experience and knowledge of annotators account for the uninformative corpus and inappropriate recommendations. In this paper, we propose a novel automatic dataset synthesis approach that can generate both large-scale and high-quality recommendation dialogues through a data2text generation process, where unstructured recommendation conversations are generated from structured graphs based on user-item information from the real world. In doing so, we comprehensively exploit: (i) rich personalized user profiles from traditional recommendation datasets, (ii) rich external knowledge from knowledge graphs, and (iii) the conversation ability contained in human-to-human conversational recommendation datasets. Extensive experiments validate the benefit brought by the automatically synthesized data under low-resource scenarios and demonstrate the promising potential to facilitate the development of a more effective conversational recommendation system.
翻訳日:2023-06-19 14:58:52 公開日:2023-06-16
# 遠方VAEを用いたMCI検出のための構造・機能接続

Fusing Structural and Functional Connectivities using Disentangled VAE for Detecting MCI ( http://arxiv.org/abs/2306.09629v1 )

ライセンス: Link先を確認
Qiankun Zuo, Yanfei Zhu, Libin Lu, Zhi Yang, Yuhui Li, Ning Zhang(参考訳) 脳ネットワーク解析は、異常なつながりを検出することで患者と健常者を区別できるため、ヒト脳疾患の研究に有用なアプローチである。 複数のモーダル神経画像からの補完的な情報により、マルチモーダル融合技術は予測性能を向上させる可能性がある。 しかし,相補性を実現するためのマルチモーダル医用画像の効果的な融合は依然として課題である。 本稿では,脳構造機能結合行列を構築し,機能的磁気共鳴イメージング(fmri)と拡散テンソルイメージング(dti)に基づいて異常脳結合を予測するための新しい階層的構造機能結合fusing(hscf)モデルを提案する。 具体的には、先行知識を、グラフ畳み込みネットワーク(GCN)によって情報の各モダリティを分離するセパレータに組み込む。 そして、この不絡の有効性を確保するために、不絡のコサイン距離損失を考案する。 さらに、階層的表現融合モジュールは、モダリティ間の関連性と効果的な特徴の組み合わせを効果的に最大化するために設計されており、それによって生成された構造機能接続が認知疾患解析においてより堅牢で差別的になる。 The public Alzheimer's Disease Neuroimaging Initiative (ADNI) databaseで実施された幅広い試験の結果、提案モデルは分類評価において競合するアプローチよりも優れた性能を示した。 一般に、提案するhscfモデルは、脳の構造-機能的結合を生成し、認知疾患が進行するにつれて異常な脳結合を同定するための有望なモデルである。

Brain network analysis is a useful approach to studying human brain disorders because it can distinguish patients from healthy people by detecting abnormal connections. Due to the complementary information from multiple modal neuroimages, multimodal fusion technology has a lot of potential for improving prediction performance. However, effective fusion of multimodal medical images to achieve complementarity is still a challenging problem. In this paper, a novel hierarchical structural-functional connectivity fusing (HSCF) model is proposed to construct brain structural-functional connectivity matrices and predict abnormal brain connections based on functional magnetic resonance imaging (fMRI) and diffusion tensor imaging (DTI). Specifically, the prior knowledge is incorporated into the separators for disentangling each modality of information by the graph convolutional networks (GCN). And a disentangled cosine distance loss is devised to ensure the disentanglement's effectiveness. Moreover, the hierarchical representation fusion module is designed to effectively maximize the combination of relevant and effective features between modalities, which makes the generated structural-functional connectivity more robust and discriminative in the cognitive disease analysis. Results from a wide range of tests performed on the public Alzheimer's Disease Neuroimaging Initiative (ADNI) database show that the proposed model performs better than competing approaches in terms of classification evaluation. In general, the proposed HSCF model is a promising model for generating brain structural-functional connectivities and identifying abnormal brain connections as cognitive disease progresses.
翻訳日:2023-06-19 14:58:33 公開日:2023-06-16
# 画像識別・分類のための構造制限ボルツマンマシン

Structural Restricted Boltzmann Machine for image denoising and classification ( http://arxiv.org/abs/2306.09628v1 )

ライセンス: Link先を確認
Bidaurrazaga Arkaitz, P\'erez Aritz, Santana Roberto(参考訳) 制限ボルツマンマシンは、他の可視単位の層に接続された隠れ変数の層からなる生成モデルであり、可視変数上の分布のモデル化に使用される。 高い表現力を得るためには、多くの隠れユニットが一般的に使われ、多くの可視ユニットと組み合わせることで、多くの訓練可能なパラメータが導かれる。 本研究では,データの構造を生かした構造制約ボルツマン機械モデルを導入し,隠れた単位と可視単位の部分集合との接続を制約することにより,学習可能なパラメータの数を大幅に削減し,性能を損なわないようにする。 応用可能な領域として、画像モデリングに焦点を当てる。 画像の性質に基づいて、接続の構造は、モデルの可視変数を構成する画像のピクセル上の空間的近傍の観点で与えられる。 様々な画像領域について広範な実験を行う。 mnistデータセットの破損画像を用いて画像のノイズ評価を行う。 我々のモデルの生成力はバニラrbmsと比較され、その分類性能は5つの異なる画像領域で評価される。 その結果,提案モデルはより高速で安定したトレーニングが可能であり,また,可視ユニットと隠れユニットとの制約のないrbmと比較して良好な結果が得られることがわかった。

Restricted Boltzmann Machines are generative models that consist of a layer of hidden variables connected to another layer of visible units, and they are used to model the distribution over visible variables. In order to gain a higher representability power, many hidden units are commonly used, which, in combination with a large number of visible units, leads to a high number of trainable parameters. In this work we introduce the Structural Restricted Boltzmann Machine model, which taking advantage of the structure of the data in hand, constrains connections of hidden units to subsets of visible units in order to reduce significantly the number of trainable parameters, without compromising performance. As a possible area of application, we focus on image modelling. Based on the nature of the images, the structure of the connections is given in terms of spatial neighbourhoods over the pixels of the image that constitute the visible variables of the model. We conduct extensive experiments on various image domains. Image denoising is evaluated with corrupted images from the MNIST dataset. The generative power of our models is compared to vanilla RBMs, as well as their classification performance, which is assessed with five different image domains. Results show that our proposed model has a faster and more stable training, while also obtaining better results compared to an RBM with no constrained connections between its visible and hidden units.
翻訳日:2023-06-19 14:58:05 公開日:2023-06-16
# PAtt-Lite:顔表情認識のための軽量パッチと注意移動ネット

PAtt-Lite: Lightweight Patch and Attention MobileNet for Challenging Facial Expression Recognition ( http://arxiv.org/abs/2306.09626v1 )

ライセンス: Link先を確認
Jia Le Ngwe, Kian Ming Lim, Chin Poo Lee, and Thian Song Ong(参考訳) 顔表情認識(英: Facial Expression Recognition, FER)は、人間の表情を認識する機械学習問題である。 既存の作業は近年、パフォーマンス改善を達成していますが、野放しで挑戦的な条件下でFERは依然として課題です。 本稿では,Platt-Liteと呼ばれるMobileNetV1に基づく軽量パッチ・アテンションネットワークを提案する。 提案手法のバックボーン特徴抽出器として,Truncated ImageNet-pre-trained MobileNetV1を利用する。 切断層の代わりにパッチ抽出ブロックが提案されており、特に困難な条件下において、mobilenetv1からの表現を強化するために重要な局所的な顔特徴を抽出する。 極めて軽量な特徴抽出器からのパッチ付き特徴マップの学習を改善するために、注意分類器も提案されている。 公開ベンチマークデータベースを用いた実験により,提案手法の有効性が実証された。 PAtt-LiteはCK+、RAF-DB、FER2013、FERPlus、RAF-DB、FERPlusの挑戦的な条件サブセットで最先端の結果を得た。 提案するメソッドのソースコードはhttps://github.com/jlrex/patt-liteで入手できる。

Facial Expression Recognition (FER) is a machine learning problem that deals with recognizing human facial expressions. While existing work has achieved performance improvements in recent years, FER in the wild and under challenging conditions remains a challenge. In this paper, a lightweight patch and attention network based on MobileNetV1, referred to as PAtt-Lite, is proposed to improve FER performance under challenging conditions. A truncated ImageNet-pre-trained MobileNetV1 is utilized as the backbone feature extractor of the proposed method. In place of the truncated layers is a patch extraction block that is proposed for extracting significant local facial features to enhance the representation from MobileNetV1, especially under challenging conditions. An attention classifier is also proposed to improve the learning of these patched feature maps from the extremely lightweight feature extractor. The experimental results on public benchmark databases proved the effectiveness of the proposed method. PAtt-Lite achieved state-of-the-art results on CK+, RAF-DB, FER2013, FERPlus, and the challenging conditions subsets for RAF-DB and FERPlus. The source code for the proposed method will be available at https://github.com/JLREx/PAtt-Lite.
翻訳日:2023-06-19 14:57:45 公開日:2023-06-16
# 機械学習から生じるパワーローダイナミック

Power-law Dynamic arising from machine learning ( http://arxiv.org/abs/2306.09624v1 )

ライセンス: Link先を確認
Wei Chen, Weitao Du, Zhi-Ming Ma, Qi Meng(参考訳) 我々は、機械学習における最適化の研究から生まれた新しいSDEの研究を行い、定常分布はガウス以下の尾を持つことができず、パワーローに従うため、パワーローダイナミックと呼ぶ。 学習速度が十分に小さい場合, パワーローダイナミクスは一意な定常分布を持つエルゴードであることが証明される。 我々はその存在を初めて調査する。 特に、(連続的な)パワーローダイナミクスの終了時間とその離散化を比較する。 この比較は機械学習アルゴリズムのガイドに役立つ。

We study a kind of new SDE that was arisen from the research on optimization in machine learning, we call it power-law dynamic because its stationary distribution cannot have sub-Gaussian tail and obeys power-law. We prove that the power-law dynamic is ergodic with unique stationary distribution, provided the learning rate is small enough. We investigate its first exist time. In particular, we compare the exit times of the (continuous) power-law dynamic and its discretization. The comparison can help guide machine learning algorithm.
翻訳日:2023-06-19 14:57:23 公開日:2023-06-16
# ハイパーグラフエネルギー関数からハイパーグラフニューラルネットワークへ

From Hypergraph Energy Functions to Hypergraph Neural Networks ( http://arxiv.org/abs/2306.09623v1 )

ライセンス: Link先を確認
Yuxin Wang, Quan Gan, Xipeng Qiu, Xuanjing Huang, David Wipf(参考訳) ハイパーグラフは関心の実体間の高次相互作用を表現するための強力な抽象化である。 これらの関係を利用して下流の予測を行うために、近年、より伝統的なグラフニューラルネットワーク(GNN)文学の先駆けとして、様々なハイパーグラフニューラルネットワークアーキテクチャが提案されている。 本稿では,パラメタライズド,ハイパーグラフ正規化エネルギー関数の表現的族を提示することから始める。 次に、これらのエネルギーの最小化がノード埋め込みとして効果的に機能し、パラメータ化分類器と組み合わせると、教師付き二段階最適化プロセスを通じてエンドツーエンドに訓練できることを示す。 その後、提案した双レベルハイパーグラフ最適化から生じる予測モデルの暗黙的アーキテクチャと、既存のGNNアーキテクチャとを共通的に用いている。 実験により,様々なハイパーグラフノード分類ベンチマークにおいて,最先端の結果を示す。 コードはhttps://github.com/yxzwang/phenomnnで入手できる。

Hypergraphs are a powerful abstraction for representing higher-order interactions between entities of interest. To exploit these relationships in making downstream predictions, a variety of hypergraph neural network architectures have recently been proposed, in large part building upon precursors from the more traditional graph neural network (GNN) literature. Somewhat differently, in this paper we begin by presenting an expressive family of parameterized, hypergraph-regularized energy functions. We then demonstrate how minimizers of these energies effectively serve as node embeddings that, when paired with a parameterized classifier, can be trained end-to-end via a supervised bilevel optimization process. Later, we draw parallels between the implicit architecture of the predictive models emerging from the proposed bilevel hypergraph optimization, and existing GNN architectures in common use. Empirically, we demonstrate state-of-the-art results on various hypergraph node classification benchmarks. Code is available at https://github.com/yxzwang/PhenomNN.
翻訳日:2023-06-19 14:57:14 公開日:2023-06-16
# 磁気浮上追跡のための経験物理学インフォームドニューラルネットワーク(Emp-PINN)

Empirical Physics Informed Neural Networks (Emp-PINNs) for Magnetopause Tracking ( http://arxiv.org/abs/2306.09621v1 )

ライセンス: Link先を確認
Po-Han Hou and Jih-Hong Shue(参考訳) 磁気浮上位置の研究の最終的な目標は、その位置を正確に決定することである。 従来の経験的計算手法と、現在普及している機械学習アプローチの両方が、有望な結果を示している。 本研究では,物理に基づく数値計算とバニラ機械学習を組み合わせた経験的物理情報ニューラルネットワーク(Emp-PINN)を提案する。 この新しい世代の物理学インフォームドニューラルネットワークは、ニューラルネットワークの収束と一般化能力の向上を支援するために従来の経験モデルを取り込んで、通常の微分方程式と偏微分方程式の解法に制限された従来の方法の限界を克服する。 以下、Shue et alと比較する。 1998年,本モデルは根平均二乗誤差の約30%の低減を達成している。 この研究で提示された方法論は宇宙研究に応用できるだけでなく、様々な分野、特に経験モデルに関する研究でも参照できる。

The ultimate goal of studying the magnetopause position is to accurately determine its location. Both traditional empirical computation methods and the currently popular machine learning approaches have shown promising results. In this study, we propose an Empirical Physics-Informed Neural Networks (Emp-PINNs) that combines physics-based numerical computation with vanilla machine learning. This new generation of Physics Informed Neural Networks overcomes the limitations of previous methods restricted to solving ordinary and partial differential equations by incorporating conventional empirical models to aid the convergence and enhance the generalization capability of the neural network. Compared to Shue et al. [1998], our model achieves a reduction of approximately 30% in root mean square error. The methodology presented in this study is not only applicable to space research but can also be referenced in studies across various fields, particularly those involving empirical models.
翻訳日:2023-06-19 14:56:58 公開日:2023-06-16
# 能動的連続観察のための平滑なバイナリ機構

A Smooth Binary Mechanism for Efficient Private Continual Observation ( http://arxiv.org/abs/2306.09666v1 )

ライセンス: Link先を確認
Joel Daniel Andersson, Rasmus Pagh(参考訳) 連続観察下でのプライバシでは、時間とともに進化するデータセットに基づいて、差分プライベートな見積をリリースする方法を研究する。 プライベートプレフィックスの和を$x_1,x_2,x_3,\dots \in\{0,1\}$(各$x_i$の値がプライベートとなる場合)で解放する問題は特によく研究されており、一般化形式はプライベート確率勾配降下(SGD)の最先端手法で用いられる。 セミナーバイナリメカニズムは、最初の$t$プレフィックスの和と分散多対数ノイズを$t$でプライベートにリリースする。 最近、Henzinger et al. と Denisov et al. は2つの方法で二乗機構を改善することができることを示した。 しかしながら、ノイズ分布を生成するアルゴリズムは、計算時間や(特に)空間の観点からは、望まないほど効率的ではない。 我々は,二元機構の簡易な代替案を提示することにより,効率問題に対処する。 1)ノイズの発生には、値当たりの平均時間が必要となる。 2) 分散は, 2次機構と比較して約4因子で減少し, 3) 各ステップにおける雑音分布は同一である。 経験的に、我々のアプローチのPython実装は、Henzingerらのアプローチの実行時間よりも優れており、Toeplitz行列との乗算に高性能なアルゴリズムを用いてアルゴリズムを改良しようとする試みである。

In privacy under continual observation we study how to release differentially private estimates based on a dataset that evolves over time. The problem of releasing private prefix sums of $x_1,x_2,x_3,\dots \in\{0,1\}$ (where the value of each $x_i$ is to be private) is particularly well-studied, and a generalized form is used in state-of-the-art methods for private stochastic gradient descent (SGD). The seminal binary mechanism privately releases the first $t$ prefix sums with noise of variance polylogarithmic in $t$. Recently, Henzinger et al. and Denisov et al. showed that it is possible to improve on the binary mechanism in two ways: The variance of the noise can be reduced by a (large) constant factor, and also made more even across time steps. However, their algorithms for generating the noise distribution are not as efficient as one would like in terms of computation time and (in particular) space. We address the efficiency problem by presenting a simple alternative to the binary mechanism in which 1) generating the noise takes constant average time per value, 2) the variance is reduced by a factor about 4 compared to the binary mechanism, and 3) the noise distribution at each step is identical. Empirically, a simple Python implementation of our approach outperforms the running time of the approach of Henzinger et al., as well as an attempt to improve their algorithm using high-performance algorithms for multiplication with Toeplitz matrices.
翻訳日:2023-06-19 14:52:19 公開日:2023-06-16
# 交通信号制御と炭素排出削減のための協調多目的強化学習

Cooperative Multi-Objective Reinforcement Learning for Traffic Signal Control and Carbon Emission Reduction ( http://arxiv.org/abs/2306.09662v1 )

ライセンス: Link先を確認
Cheng Ruei Tang, Jun Wei Hsieh, and Shin You Teng(参考訳) 既存の交通信号制御システムは、過度に単純化されたルールベースの方法に依存しており、rlベースの方法でさえしばしば最適で不安定である。 そこで我々は,MOMA-DDPG(Multi-Objective Multi-Agent Deep Deterministic Policy Gradient)と呼ばれる協調型多目的アーキテクチャを提案する。 1つは各交差点でのローカルトラフィックの最適化に重点を置き、もう1つはグローバルトラフィックスループットの最適化を目的としています。 本手法は,アジアの交通カメラから収集した実世界の交通データを用いて評価する。 グローバルエージェントが組み込まれているにもかかわらず、このエージェントは推論段階では不要であるため、ソリューションは分散のままである。 以上の結果から,MOMA-DDPGの有効性が示された。 さらに,提案システムでは,待ち時間と二酸化炭素排出量を最小化する。 特に,本論文は,交通信号制御において炭素排出とグローバルエージェントをリンクする最初の方法である。

Existing traffic signal control systems rely on oversimplified rule-based methods, and even RL-based methods are often suboptimal and unstable. To address this, we propose a cooperative multi-objective architecture called Multi-Objective Multi-Agent Deep Deterministic Policy Gradient (MOMA-DDPG), which estimates multiple reward terms for traffic signal control optimization using age-decaying weights. Our approach involves two types of agents: one focuses on optimizing local traffic at each intersection, while the other aims to optimize global traffic throughput. We evaluate our method using real-world traffic data collected from an Asian country's traffic cameras. Despite the inclusion of a global agent, our solution remains decentralized as this agent is no longer necessary during the inference stage. Our results demonstrate the effectiveness of MOMA-DDPG, outperforming state-of-the-art methods across all performance metrics. Additionally, our proposed system minimizes both waiting time and carbon emissions. Notably, this paper is the first to link carbon emissions and global agents in traffic signal control.
翻訳日:2023-06-19 14:51:51 公開日:2023-06-16
# 擬似関連フィードバックのためのオンライン蒸留

Online Distillation for Pseudo-Relevance Feedback ( http://arxiv.org/abs/2306.09657v1 )

ライセンス: Link先を確認
Sean MacAvaney, Xi Wang(参考訳) モデル蒸留は、ニューラル検索モデルを改善するための顕著な技術として出現した。 これまで、蒸留はオフラインのアプローチで行われており、新しいニューラルモデルは任意のクエリとドキュメント間の妥当性スコアを予測するように訓練されている。 本稿では,このオフライン蒸留戦略から,ニューラルリグレードの結果(オンライン環境での蒸留)から,特定のクエリのモデルを効果的に蒸留できるかどうかを検討する。 実際、オンラインで蒸留された語彙モデルは、ニューラルネットワークの再分類を合理的に再現できる。 さらに重要なことに、これらのモデルはインデックス上で効率的に実行されるクエリとして使用できる。 第2の検索段階は、第1の検索段階において欠落した文書を識別することにより、再ランキングのための文書のプールを強化することができる。 実験により,従来の擬似関連性フィードバック手法,高密度検索手法,疎密アンサンブルの「ハイブリッド」手法と比較して,本手法が好適であることを示す。

Model distillation has emerged as a prominent technique to improve neural search models. To date, distillation taken an offline approach, wherein a new neural model is trained to predict relevance scores between arbitrary queries and documents. In this paper, we explore a departure from this offline distillation strategy by investigating whether a model for a specific query can be effectively distilled from neural re-ranking results (i.e., distilling in an online setting). Indeed, we find that a lexical model distilled online can reasonably replicate the re-ranking of a neural model. More importantly, these models can be used as queries that execute efficiently on indexes. This second retrieval stage can enrich the pool of documents for re-ranking by identifying documents that were missed in the first retrieval stage. Empirically, we show that this approach performs favourably when compared with established pseudo relevance feedback techniques, dense retrieval methods, and sparse-dense ensemble "hybrid" approaches.
翻訳日:2023-06-19 14:51:20 公開日:2023-06-16
# ポイントプロセスによる時間的因果調停:医療介入の直接的・間接的影響

Temporal Causal Mediation through a Point Process: Direct and Indirect Effects of Healthcare Interventions ( http://arxiv.org/abs/2306.09656v1 )

ライセンス: Link先を確認
\c{C}a\u{g}lar H{\i}zl{\i}, ST John, Anne Juuti, Tuure Saarinen, Kirsi Pietil\"ainen, Pekka Marttinen(参考訳) 適切な介入を決定するには、治療の因果モデル、結果、潜在的な仲介者が必要である。 因果媒介分析により、介入の直接効果と間接効果を区別できるが、主に静的な環境で研究されている。 医療では、データは複雑で不規則にサンプリングされた時系列の形で、治療、結果、メディエーター間の動的相互依存性を持つ。 動的因果媒介分析への既存のアプローチは、通常の測定間隔、単純なパラメトリックモデル、長距離メディエータ-アウトカム相互作用を無視している。 これらの制約に対処するため,我々は,中間子を結果プロセスと相互作用する時間的点過程と仮定した非パラメトリックメディエータ-アウトカムモデルを提案する。 このモデルを用いて, 結果に対する外部介入の直接的および間接的影響を推定し, それぞれが将来の軌道にどのように影響するかを示す。 本手法は半合成データを用いて直接的および間接的効果を正確に推定できることを示す。 実世界の医療データから,手術後の血糖値に対する臨床的に有意な直接的および間接的効果の軌跡を推測した。

Deciding on an appropriate intervention requires a causal model of a treatment, the outcome, and potential mediators. Causal mediation analysis lets us distinguish between direct and indirect effects of the intervention, but has mostly been studied in a static setting. In healthcare, data come in the form of complex, irregularly sampled time-series, with dynamic interdependencies between a treatment, outcomes, and mediators across time. Existing approaches to dynamic causal mediation analysis are limited to regular measurement intervals, simple parametric models, and disregard long-range mediator--outcome interactions. To address these limitations, we propose a non-parametric mediator--outcome model where the mediator is assumed to be a temporal point process that interacts with the outcome process. With this model, we estimate the direct and indirect effects of an external intervention on the outcome, showing how each of these affects the whole future trajectory. We demonstrate on semi-synthetic data that our method can accurately estimate direct and indirect effects. On real-world healthcare data, our model infers clinically meaningful direct and indirect effect trajectories for blood glucose after a surgery.
翻訳日:2023-06-19 14:50:52 公開日:2023-06-16
# カラービデオインペインティング問題と高速アルゴリズムのための新しい低ランク学習ロバスト四元数テンソル補完法

A New Low-Rank Learning Robust Quaternion Tensor Completion Method for Color Video Inpainting Problem and Fast Algorithms ( http://arxiv.org/abs/2306.09652v1 )

ライセンス: Link先を確認
Zhigang Jia and Jingfei Zhu(参考訳) カラービデオの塗装問題は、現代の画像科学において最も難しい問題の一つだ。 ノイズのあるピクセルの小さな部分からカラービデオを復元することを目的としている。 しかし、カラーチャンネルの結合とカラービデオフレームの進化を同時に保存できるロバストなモデルは少ない。 本稿では、この課題を解決し、正確な回復理論を導出するために、新しい頑健な四元数テンソル完備化(RQTC)モデルを提案する。 主なアイデアは、ターゲット色ビデオを表す低ランク四元テンソルとノイズを表すスパース四元テンソルを復元する四元テンソル最適化モデルを構築することである。 この新しいモデルは、事前の低ランク仮定を満たす高次元データを復元するのに非常に効率的である。 そこで本研究では, 4次学習法で分類された類似パッチを, 先行する低位推定値を満たすより小さいテンソルに再構成する, 低位学習rqtcモデルを提案する。 また,グローバル収束保証付き高速アルゴリズムを提案する。 数値実験では,カラー映像の色の汚染を排除し,映像の連続性を保ちながらカラー映像を再現する手法が提案され,PSNRとSSIMの精度は最先端のアルゴリズムよりも高い。

The color video inpainting problem is one of the most challenging problem in the modern imaging science. It aims to recover a color video from a small part of pixels that may contain noise. However, there are less of robust models that can simultaneously preserve the coupling of color channels and the evolution of color video frames. In this paper, we present a new robust quaternion tensor completion (RQTC) model to solve this challenging problem and derive the exact recovery theory. The main idea is to build a quaternion tensor optimization model to recover a low-rank quaternion tensor that represents the targeted color video and a sparse quaternion tensor that represents noise. This new model is very efficient to recover high dimensional data that satisfies the prior low-rank assumption. To solve the case without low-rank property, we introduce a new low-rank learning RQTC model, which rearranges similar patches classified by a quaternion learning method into smaller tensors satisfying the prior low-rank assumption. We also propose fast algorithms with global convergence guarantees. In numerical experiments, the proposed methods successfully recover color videos with eliminating color contamination and keeping the continuity of video scenery, and their solutions are of higher quality in terms of PSNR and SSIM values than the state-of-the-art algorithms.
翻訳日:2023-06-19 14:50:14 公開日:2023-06-16
# reactgenie: 大きな言語モデルを用いた複雑なマルチモーダルインタラクションのためのオブジェクト指向状態抽象化

ReactGenie: An Object-Oriented State Abstraction for Complex Multimodal Interactions Using Large Language Models ( http://arxiv.org/abs/2306.09649v1 )

ライセンス: Link先を確認
Jackie (Junrui) Yang, Karina Li, Daniel Wan Rosli, Shuning Zhang, Yuhan Zhang, Monica S. Lam, James A. Landay(参考訳) マルチモーダルインタラクションは、従来のグラフィカルインターフェースよりも柔軟で、効率的で、多様なユーザやタスクに適応可能であることが示されている。 しかし、既存のマルチモーダル開発フレームワークは、マルチモーダルコマンドの複雑さと構成性をうまく扱わないか、開発者がこれらのマルチモーダルインタラクションをサポートするためにかなりの量のコードを書く必要がある。 本稿では,複雑なマルチモーダルモバイルアプリケーション構築を支援するために,共有オブジェクト指向状態抽象化を用いたプログラミングフレームワークReactGenieを提案する。 異なるモダリティが同じ状態抽象化を共有することで、ReactGenieを使用する開発者は、これらのモダリティをシームレスに統合し、構成してマルチモーダルインタラクションを実現することができる。 ReactGenieは、React-Reduxによるワークフローのようなグラフィカルアプリ構築の既存のワークフローの自然な拡張である。 開発者は、自然言語がプログラム内のユーザアクセス可能な関数にどのようにマップされるかを示すために、いくつかのアノテーションと例を追加するだけでよい。 ReactGenieは、大きな言語モデルを活用するパーサを生成することによって、自然言語を理解するという複雑な問題を自動的に処理する。 3つのデモアプリを構築するためにreactgenieフレームワークを評価した。 参加者16名を対象に,集団作業者からの誘導コマンドを用いて言語パーサの精度を評価し,生成したマルチモーダルアプリケーションのユーザビリティを評価した。 この結果から,ReactGenieは,高精度な言語パーサを備えた汎用マルチモーダルアプリケーションの構築に利用でき,マルチモーダルアプリはユーザの認知負荷やタスク完了時間を短縮できることがわかった。

Multimodal interactions have been shown to be more flexible, efficient, and adaptable for diverse users and tasks than traditional graphical interfaces. However, existing multimodal development frameworks either do not handle the complexity and compositionality of multimodal commands well or require developers to write a substantial amount of code to support these multimodal interactions. In this paper, we present ReactGenie, a programming framework that uses a shared object-oriented state abstraction to support building complex multimodal mobile applications. Having different modalities share the same state abstraction allows developers using ReactGenie to seamlessly integrate and compose these modalities to deliver multimodal interaction. ReactGenie is a natural extension to the existing workflow of building a graphical app, like the workflow with React-Redux. Developers only have to add a few annotations and examples to indicate how natural language is mapped to the user-accessible functions in the program. ReactGenie automatically handles the complex problem of understanding natural language by generating a parser that leverages large language models. We evaluated the ReactGenie framework by using it to build three demo apps. We evaluated the accuracy of the language parser using elicited commands from crowd workers and evaluated the usability of the generated multimodal app with 16 participants. Our results show that ReactGenie can be used to build versatile multimodal applications with highly accurate language parsers, and the multimodal app can lower users' cognitive load and task completion time.
翻訳日:2023-06-19 14:49:33 公開日:2023-06-16
# グラフニューラルネットワークを用いた断層貯留層におけるCO$_2$プルームマイグレーションの学習

Learning CO$_2$ plume migration in faulted reservoirs with Graph Neural Networks ( http://arxiv.org/abs/2306.09648v1 )

ライセンス: Link先を確認
Xin Ju, Fran\c{c}ois P. Hamon, Gege Wen, Rayan Kanfar, Mauricio Araya-Polo, Hamdi A. Tchelepi(参考訳) 深層学習に基づくサーロゲートモデルは、co$_2$地中貯留などの地下流れ問題の数値シミュレーションを効率的に補完する。 CO$_2$ plumeマイグレーションに対する障害の影響を正確に把握することは、畳み込みニューラルネットワーク(CNN)やニューラル演算子に基づく多くの既存のディープラーニングサロゲートモデルにとって、依然として課題である。 グラフニューラルネットワーク(GNN)の分野における最近の発展を活用するグラフベースのニューラルモデルにより、この問題に対処する。 我々のモデルは、グラフベースの畳み込み長短メモリ(GConvLSTM)と1ステップのGNNモデルであるMeshGraphNet(MGN)を組み合わせることで、複雑な非構造化メッシュ上で動作し、時間的エラーの蓄積を制限する。 我々は,不透水性断層を有する合成貯水池において,ガス飽和度と細孔圧力の経時的変化を正確に予測できることを実証した。 その結果,標準mgnモデルと比較して精度が向上し,時間誤差の蓄積が減少した。 また,トレーニングセットに含まれないメッシュ構成,境界条件,不均一透水性場に対するアルゴリズムの優れた一般化性を示す。 本研究は,複雑な断層や破壊を伴う地下流れを高精度かつ迅速にモデル化するgnn法の可能性に注目したものである。

Deep-learning-based surrogate models provide an efficient complement to numerical simulations for subsurface flow problems such as CO$_2$ geological storage. Accurately capturing the impact of faults on CO$_2$ plume migration remains a challenge for many existing deep learning surrogate models based on Convolutional Neural Networks (CNNs) or Neural Operators. We address this challenge with a graph-based neural model leveraging recent developments in the field of Graph Neural Networks (GNNs). Our model combines graph-based convolution Long-Short-Term-Memory (GConvLSTM) with a one-step GNN model, MeshGraphNet (MGN), to operate on complex unstructured meshes and limit temporal error accumulation. We demonstrate that our approach can accurately predict the temporal evolution of gas saturation and pore pressure in a synthetic reservoir with impermeable faults. Our results exhibit a better accuracy and a reduced temporal error accumulation compared to the standard MGN model. We also show the excellent generalizability of our algorithm to mesh configurations, boundary conditions, and heterogeneous permeability fields not included in the training set. This work highlights the potential of GNN-based methods to accurately and rapidly model subsurface flow with complex faults and fractures.
翻訳日:2023-06-19 14:49:06 公開日:2023-06-16
# 小型潜伏表現における外乱の教師なし検出のための真空ホール

Vacant Holes for Unsupervised Detection of the Outliers in Compact Latent Representation ( http://arxiv.org/abs/2306.09646v1 )

ライセンス: Link先を確認
Misha Glazunov, Apostolis Zarras(参考訳) 異常値の検出は、実世界でデプロイおよび運用される機械学習モデルにとって重要なものだ。 このような入力を過信していることが示されるディープニューラルネットワークにとって、それは不可欠である。 さらに、入力の確率密度を推定できる深い生成モデルでさえ、このタスクを達成するのに失敗する。 本研究では,これらのモデルの具体型である変分オートエンコーダ(vaes)に注目する。 まず,古典的VAEモデルの仮定における重要な理論的欠陥を明らかにする。 第二に,潜伏空間への深部ニューラルマッピングのイメージに付随するトポロジ特性を強制する:欠陥を緩和し,画像が決定された限界内で有効に束縛される手段を得るためのコンパクト性。 2つのアプローチでコンパクトさを強制します (i)アレクサンドロフ拡大及び (ii) VAE のエンコーダの写像上の固定されたリプシッツ連続性定数。 最後に、最も重要なことは、異常な入力が主にコンパクト空間内の空いている潜在穴に着地し、その識別が成功する傾向があることである。 そこで本研究では,ホール検出のための特別に考案したスコアを導入し,有望な結果を得る複数のベースラインベンチマークに対して解を評価する。

Detection of the outliers is pivotal for any machine learning model deployed and operated in real-world. It is essential for the Deep Neural Networks that were shown to be overconfident with such inputs. Moreover, even deep generative models that allow estimation of the probability density of the input fail in achieving this task. In this work, we concentrate on the specific type of these models: Variational Autoencoders (VAEs). First, we unveil a significant theoretical flaw in the assumption of the classical VAE model. Second, we enforce an accommodating topological property to the image of the deep neural mapping to the latent space: compactness to alleviate the flaw and obtain the means to provably bound the image within the determined limits by squeezing both inliers and outliers together. We enforce compactness using two approaches: (i) Alexandroff extension and (ii) fixed Lipschitz continuity constant on the mapping of the encoder of the VAEs. Finally and most importantly, we discover that the anomalous inputs predominantly tend to land on the vacant latent holes within the compact space, enabling their successful identification. For that reason, we introduce a specifically devised score for hole detection and evaluate the solution against several baseline benchmarks achieving promising results.
翻訳日:2023-06-19 14:48:45 公開日:2023-06-16
# BISCUIT:バイナリインタラクションによる因果表現学習

BISCUIT: Causal Representation Learning from Binary Interactions ( http://arxiv.org/abs/2306.09643v1 )

ライセンス: Link先を確認
Phillip Lippe, Sara Magliacane, Sindy L\"owe, Yuki M. Asano, Taco Cohen, Efstratios Gavves(参考訳) 環境の因果変数とそれらにどう介入するかを識別することは、ロボット工学や組み込みAIといったアプリケーションにおいて、コアバリューである。 エージェントは一般に環境と相互作用し、これらの因果変数のいくつかの振る舞いを暗黙的に摂動させることができるが、しばしば影響を受けるターゲットは未知のままである。 本稿では,エージェントの因果変数との相互作用が未知のバイナリ変数によって記述できる場合,加算ガウス雑音モデルなど,多くの共通設定において因果変数を依然として同定できることを示す。 これは、各因果変数が観察変数と介入変数の2つの異なるメカニズムを持つ場合に起こる。 そこで本研究では,因果変数とその対応する二項相互作用変数を同時に学習するBISCUITを提案する。 ロボットにインスパイアされた3つのデータセット上で、BISCUITは因果変数を正確に識別し、AIを具現化する複雑な現実的な環境にスケールすることができる。

Identifying the causal variables of an environment and how to intervene on them is of core value in applications such as robotics and embodied AI. While an agent can commonly interact with the environment and may implicitly perturb the behavior of some of these causal variables, often the targets it affects remain unknown. In this paper, we show that causal variables can still be identified for many common setups, e.g., additive Gaussian noise models, if the agent's interactions with a causal variable can be described by an unknown binary variable. This happens when each causal variable has two different mechanisms, e.g., an observational and an interventional one. Using this identifiability result, we propose BISCUIT, a method for simultaneously learning causal variables and their corresponding binary interaction variables. On three robotic-inspired datasets, BISCUIT accurately identifies causal variables and can even be scaled to complex, realistic environments for embodied AI.
翻訳日:2023-06-19 14:48:25 公開日:2023-06-16
# クロスドメイン毒性スパンの検出

Cross-Domain Toxic Spans Detection ( http://arxiv.org/abs/2306.09642v1 )

ライセンス: Link先を確認
Stefan F. Schouten, Baran Barbarestani, Wondimagegnhue Tufa, Piek Vossen, Ilia Markov(参考訳) 有害な言語の使用の動的な性質を考えると、有害なスパンを検出する自動手法は分布シフトに遭遇する可能性が高い。 この現象を解明するために,lexicon-based, rationale extraction, fine-tuned language modelの3つのクロスドメイン条件下で有毒スパンを検出する方法を検討した。 本研究は,市販のレキシコンを用いた簡単な手法が,クロスドメイン設定において最適であることを示す。 クロスドメイン誤り分析では,(1)有理抽出法は偽陰性傾向が強く,(2)言語モデルでは,ドメイン内ケースにおいて最善であるにもかかわらず,語彙よりも明らかな有毒な単語を想起し,ある種の偽陽性を生じやすいことが示唆された。 私たちのコードは、https://github.com/sfschouten/toxic-cross-domainで公開されています。

Given the dynamic nature of toxic language use, automated methods for detecting toxic spans are likely to encounter distributional shift. To explore this phenomenon, we evaluate three approaches for detecting toxic spans under cross-domain conditions: lexicon-based, rationale extraction, and fine-tuned language models. Our findings indicate that a simple method using off-the-shelf lexicons performs best in the cross-domain setup. The cross-domain error analysis suggests that (1) rationale extraction methods are prone to false negatives, while (2) language models, despite performing best for the in-domain case, recall fewer explicitly toxic words than lexicons and are prone to certain types of false positives. Our code is publicly available at: https://github.com/sfschouten/toxic-cross-domain.
翻訳日:2023-06-19 14:48:08 公開日:2023-06-16
# 神経odeを用いた心エコー図分割法

Echocardiography Segmentation Using Neural ODE-based Diffeomorphic Registration Field ( http://arxiv.org/abs/2306.09687v1 )

ライセンス: Link先を確認
Phi Nguyen Van, Hieu Pham Huy, Long Tran Quoc(参考訳) 畳み込みニューラルネットワーク(CNN)は、最近、2次元心エコー画像の分割に優れた能力を証明した。 しかし、心臓超音波ビデオのフルシーケンスセグメンテーションを行う試みの大半は、キーフレーム画像のみに基づいて訓練されたモデルに依存するか、時間とともにトポロジを維持できないかのいずれかである。 これらの問題に対処するため,本研究では, 超音波映像のセグメント化を登録推定問題とみなし, ニューラル常微分方程式(ニューラルODE)を用いた新しい画像登録法を提案する。 特に,フレーム間の登録場ベクトル場を連続軌道 ode として考える。 そして、推定された登録フィールドを第1フレームのセグメンテーションマスクに印加し、心循環全体のセグメンテーションを得る。 提案手法であるEcho-ODEでは,従来の最先端技術と比較して,いくつかの改良が加えられている。 まず、連続 ode の解法により、より滑らかなセグメンテーションを実現し、全列上のセグメンテーション写像のトポロジー(ハウスドルフ距離: 3.7-4.4)を保存する。 第二に、フレーム間の時間的一貫性を、時間的一貫性属性を明示的に最適化することなく維持し、データセット内のビデオの91%で時間的一貫性を達成する。 最後に, 本手法は, セグメンテーションマップ (LVEF: 2.7-3.1 のMAE) の臨床的精度を維持することができる。 以上の結果から,本手法は従来の最先端技術を超えており,医療画像への応用において,空間的・時間的データ処理の重要性が示された。 これらの結果は心エコー図分割課題に対する新しい研究の方向性を開くものである。

Convolutional neural networks (CNNs) have recently proven their excellent ability to segment 2D cardiac ultrasound images. However, the majority of attempts to perform full-sequence segmentation of cardiac ultrasound videos either rely on models trained only on keyframe images or fail to maintain the topology over time. To address these issues, in this work, we consider segmentation of ultrasound video as a registration estimation problem and present a novel method for diffeomorphic image registration using neural ordinary differential equations (Neural ODE). In particular, we consider the registration field vector field between frames as a continuous trajectory ODE. The estimated registration field is then applied to the segmentation mask of the first frame to obtain a segment for the whole cardiac cycle. The proposed method, Echo-ODE, introduces several key improvements compared to the previous state-of-the-art. Firstly, by solving a continuous ODE, the proposed method achieves smoother segmentation, preserving the topology of segmentation maps over the whole sequence (Hausdorff distance: 3.7-4.4). Secondly, it maintains temporal consistency between frames without explicitly optimizing for temporal consistency attributes, achieving temporal consistency in 91% of the videos in the dataset. Lastly, the proposed method is able to maintain the clinical accuracy of the segmentation maps (MAE of the LVEF: 2.7-3.1). The results show that our method surpasses the previous state-of-the-art in multiple aspects, demonstrating the importance of spatial-temporal data processing for the implementation of Neural ODEs in medical imaging applications. These findings open up new research directions for solving echocardiography segmentation tasks.
翻訳日:2023-06-19 14:40:48 公開日:2023-06-16
# ベイズ深層学習のための崩壊推論

Collapsed Inference for Bayesian Deep Learning ( http://arxiv.org/abs/2306.09686v1 )

ライセンス: Link先を確認
Zhe Zeng, Guy Van den Broeck(参考訳) ベイズニューラルネットワーク(BNN)は、ディープラーニングにおける不確実性を定量化し、校正するフォーマリズムを提供する。 現在のbnnの推論アプローチでは、予測性能を損なう可能性があり、その代替案は計算量的に高価である傾向があります。 我々は、BNNの推論とボリューム計算の問題との間に、これまで見つからなかった関係を明らかにすることで、この問題に対処する。 本研究では, 崩壊サンプルを用いたベイズモデル平均化を行う新しい崩壊予測手法を提案する。 モンテカルロのサンプルよりは、サンプリングをネットワーク重みのサブセットに制限し、残りの部分で閉じた条件分布とペアリングすることで改善する。 崩壊したサンプルは、近似の後方から引き出された不測の多くのモデルを表し、高いサンプル効率をもたらす。 さらに,既存の体積計算解法を利用して,ニューラルネットワークの非線形性に拘わらず,崩壊したサンプルの残差化を解析的かつ効率的に解けることを示す。 提案する崩壊サンプルの利用は,スケーラビリティと精度のバランスを両立させる。 様々な回帰・分類タスクにおいて,崩壊したベイズ深層学習手法は既存手法よりも大幅に改善され,不確実性評価や予測性能の観点から新たな手法が確立された。

Bayesian neural networks (BNNs) provide a formalism to quantify and calibrate uncertainty in deep learning. Current inference approaches for BNNs often resort to few-sample estimation for scalability, which can harm predictive performance, while its alternatives tend to be computationally prohibitively expensive. We tackle this challenge by revealing a previously unseen connection between inference on BNNs and volume computation problems. With this observation, we introduce a novel collapsed inference scheme that performs Bayesian model averaging using collapsed samples. It improves over a Monte-Carlo sample by limiting sampling to a subset of the network weights while pairing it with some closed-form conditional distribution over the rest. A collapsed sample represents uncountably many models drawn from the approximate posterior and thus yields higher sample efficiency. Further, we show that the marginalization of a collapsed sample can be solved analytically and efficiently despite the non-linearity of neural networks by leveraging existing volume computation solvers. Our proposed use of collapsed samples achieves a balance between scalability and accuracy. On various regression and classification tasks, our collapsed Bayesian deep learning approach demonstrates significant improvements over existing methods and sets a new state of the art in terms of uncertainty estimation as well as predictive performance.
翻訳日:2023-06-19 14:40:21 公開日:2023-06-16
# Open-Vocabulary Object Detection のスケーリング

Scaling Open-Vocabulary Object Detection ( http://arxiv.org/abs/2306.09683v1 )

ライセンス: Link先を確認
Matthias Minderer, Alexey Gritsenko, Neil Houlsby(参考訳) オープンボキャブラリオブジェクト検出は、事前訓練された視覚言語モデルから大きな恩恵を受けているが、それでも検出訓練データの量によって制限されている。 検出トレーニングデータは、Webイメージテキストペアを弱い監視手段として使用することで拡張できるが、画像レベルの事前トレーニングに匹敵するスケールでは行われていない。 ここでは,既存の検出器を用いて画像テキストペアに擬似ボックスアノテーションを生成する自己学習を用いて,検出データをスケールアップする。 自己学習のスケーリングにおける大きな課題は、ラベル空間の選択、擬似アノテーションフィルタリング、トレーニング効率である。 これらの課題に対処するOWLv2モデルとOWL-ST自己学習レシピを提案する。 OWLv2は、既に同等のトレーニングスケール(約10万例)で、最先端のオープン語彙検出器の性能を上回っている。 L/14アーキテクチャでは、OWL-STはLVISレアクラスのAPを改善し、そのモデルでは31.2%から44.6%(相対的な改善43%)まで、人間のボックスアノテーションが見られない。 OWL-STは、画像分類や言語モデリングで見られるような、オープンワールドのローカライゼーションのためのWebスケールトレーニングをアンロックする。

Open-vocabulary object detection has benefited greatly from pretrained vision-language models, but is still limited by the amount of available detection training data. While detection training data can be expanded by using Web image-text pairs as weak supervision, this has not been done at scales comparable to image-level pretraining. Here, we scale up detection data with self-training, which uses an existing detector to generate pseudo-box annotations on image-text pairs. Major challenges in scaling self-training are the choice of label space, pseudo-annotation filtering, and training efficiency. We present the OWLv2 model and OWL-ST self-training recipe, which address these challenges. OWLv2 surpasses the performance of previous state-of-the-art open-vocabulary detectors already at comparable training scales (~10M examples). However, with OWL-ST, we can scale to over 1B examples, yielding further large improvement: With an L/14 architecture, OWL-ST improves AP on LVIS rare classes, for which the model has seen no human box annotations, from 31.2% to 44.6% (43% relative improvement). OWL-ST unlocks Web-scale training for open-world localization, similar to what has been seen for image classification and language modelling.
翻訳日:2023-06-19 14:40:03 公開日:2023-06-16
# OCTScenes: オブジェクト中心学習のためのテーブルトップシーンのマルチワールドデータセット

OCTScenes: A Versatile Real-World Dataset of Tabletop Scenes for Object-Centric Learning ( http://arxiv.org/abs/2306.09682v1 )

ライセンス: Link先を確認
Yinxuan Huang, Tonglin Chen, Zhimeng Shen, Jinghao Huang, Bin Li, Xiangyang Xue(参考訳) 人間は構成的にシーンを理解する認知能力を持っている。 オブジェクト中心表現学習は、類似した能力を持つAIシステムを強化するために、視覚的なシーンから個々のオブジェクトの表現を取得することを目的としている。 オブジェクト中心表現学習の最近の進歩は複雑な合成データセットにおいて著しい進歩を遂げてきたが、複雑な実世界での応用には大きな課題がある。 重要な理由の1つは、オブジェクト中心の表現学習に特化された現実世界のデータセットの不足である。 そこで本研究では,オブジェクト中心表現学習手法の比較,評価,分析のためのベンチマークとして設計された,オブジェクト中心学習のための多目的な実世界データセット octscenes を提案する。 OCTScenesには5000のテーブルトップシーンがあり、合計15の日常的なオブジェクトがある。 各シーンは360度視界をカバーする60フレームで撮影される。 その結果、OCTScenesは、静的シーン、動的シーン、マルチビューシーンタスク間でオブジェクト中心の表現学習手法の評価を同時に満足できる汎用的なベンチマークデータセットである。 静的,動的,多視点のシーンに対するオブジェクト中心表現学習手法の広範囲な実験を八段線上で行った。 その結果,複雑な合成データセットの性能に優れるにもかかわらず,実世界のデータから意味のある表現を学習するための最先端手法の欠点が示された。 さらに、octascenesは、既存の最先端の手法を前進させる触媒となり、現実世界のシーンに適応するよう促す。 データセットとコードはhttps://huggingface.co/datasets/Yinxuan/OCTScenesで入手できる。

Humans possess the cognitive ability to comprehend scenes in a compositional manner. To empower AI systems with similar abilities, object-centric representation learning aims to acquire representations of individual objects from visual scenes without any supervision. Although recent advancements in object-centric representation learning have achieved remarkable progress on complex synthesis datasets, there is a huge challenge for application in complex real-world scenes. One of the essential reasons is the scarcity of real-world datasets specifically tailored to object-centric representation learning methods. To solve this problem, we propose a versatile real-world dataset of tabletop scenes for object-centric learning called OCTScenes, which is meticulously designed to serve as a benchmark for comparing, evaluating and analyzing object-centric representation learning methods. OCTScenes contains 5000 tabletop scenes with a total of 15 everyday objects. Each scene is captured in 60 frames covering a 360-degree perspective. Consequently, OCTScenes is a versatile benchmark dataset that can simultaneously satisfy the evaluation of object-centric representation learning methods across static scenes, dynamic scenes, and multi-view scenes tasks. Extensive experiments of object-centric representation learning methods for static, dynamic and multi-view scenes are conducted on OCTScenes. The results demonstrate the shortcomings of state-of-the-art methods for learning meaningful representations from real-world data, despite their impressive performance on complex synthesis datasets. Furthermore, OCTScenes can serves as a catalyst for advancing existing state-of-the-art methods, inspiring them to adapt to real-world scenes. Dataset and code are available at https://huggingface.co/datasets/Yinxuan/OCTScenes.
翻訳日:2023-06-19 14:39:40 公開日:2023-06-16
# 磁気共鳴分光法の定量化 : 不完全因子と全高分子信号の深い推定

Magnetic Resonance Spectroscopy Quantification Aided by Deep Estimations of Imperfection Factors and Overall Macromolecular Signal ( http://arxiv.org/abs/2306.09681v1 )

ライセンス: Link先を確認
Dicheng Chen, Meijin Lin, Huiting Liu, Jiayu Li, Yirong Zhou, Taishan Kang, Liangjie Lin, Zhigang Wu, Jiazheng Wang, Jing Li, Jianzhong Lin, Xi Chen, Di Guo and Xiaobo Qu(参考訳) 磁気共鳴分光法(MRS)は生体内バイオメディカル検出において重要な非侵襲的手法である。 しかし,代謝物信号の重なり,非理想的獲得条件による信号歪み,高分子信号を含む強い背景信号との干渉の3つの問題により,プロトンmrsによる代謝物を正確に定量化することは依然として困難である。 最もポピュラーなソフトウェアであるlcmodelは、代謝産物を定量化するために非線形最小二乗法を採用しており、正規化項、非理想的獲得条件の不完全化因子の導入、そして代謝物とマクロ分子の基底集合のようないくつかの経験的前駆体の設計によってこれらの問題に対処している。 しかし、そのような大きな非線形量問題の解決は複雑である。 さらに、入力MSS信号の信号対雑音比が低い場合には、解の偏差が大きくなる可能性がある。 この研究では、この全体的な量的問題を解決する複雑さを減らすためにディープラーニングが導入される。 ディープラーニングは、不完全な要因とマクロ分子からのシグナルを直接予測するように設計されている。 そして、量子化問題の残りの部分は、より単純な有効フィッティングとなり、リニアリーストスクエア(LLS)により容易に解決され、トレーニングデータにおける代謝物濃度の一般化を著しく改善する。 実験結果から,提案手法はLCModelと比較して,700組の模擬試験データに対してより少ない定量化誤差を有し,より安定な20組の健康な生体データに対して,幅広い信号対雑音比で定量化結果を示す。 Qnetは、多くの代謝物に対する量子化誤差の低い観点から、他のディープラーニング手法よりも優れている。 最後に、QNetはクラウドコンピューティングプラットフォームであるCloudBrain-MRS上にデプロイされ、https://csrc.xmu.edu.cn/CloudBrain.htmlで公開されている。

Magnetic Resonance Spectroscopy (MRS) is an important non-invasive technique for in vivo biomedical detection. However, it is still challenging to accurately quantify metabolites with proton MRS due to three problems: Serious overlaps of metabolite signals, signal distortions due to non-ideal acquisition conditions and interference with strong background signals including macromolecule signals. The most popular software, LCModel, adopts the non-linear least square to quantify metabolites and addresses these problems by introducing regularization terms, imperfection factors of non-ideal acquisition conditions, and designing several empirical priors such as basissets of both metabolites and macromolecules. However, solving such a large non-linear quantitative problem is complicated. Moreover, when the signal-to-noise ratio of an input MRS signal is low, the solution may have a large deviation. In this work, deep learning is introduced to reduce the complexity of solving this overall quantitative problem. Deep learning is designed to predict directly the imperfection factors and the overall signal from macromolecules. Then, the remaining part of the quantification problem becomes a much simpler effective fitting and is easily solved by Linear Least Squares (LLS), which greatly improves the generalization to unseen concentration of metabolites in the training data. Experimental results show that compared with LCModel, the proposed method has smaller quantification errors for 700 sets of simulated test data, and presents more stable quantification results for 20 sets of healthy in vivo data at a wide range of signal-to-noise ratio. Qnet also outperforms other deep learning methods in terms of lower quantification error on most metabolites. Finally, QNet has been deployed on a cloud computing platform, CloudBrain-MRS, which is open accessed at https://csrc.xmu.edu.cn/CloudBrain.html.
翻訳日:2023-06-19 14:39:14 公開日:2023-06-16
# 非相互作用性フェルミオン不純物の系バス絡み合い : 平衡、過渡、定常状態

System-bath entanglement of noninteracting fermionic impurities: Equilibrium, transient, and steady state regimes ( http://arxiv.org/abs/2306.09680v1 )

ライセンス: Link先を確認
Krzysztof Ptaszynski, Massimiliano Esposito(参考訳) 本研究では, 単一フェルミオンレベルとフェミオン浴との絡み合いの挙動を3つの異なる動的および熱力学的条件下で検討した。 まず, 熱平衡において, 統計的アンサンブルに対する絡み合いの依存性を観察する: グランド・カノニカル状態においては, 十分に強いシステム・バスカップリングに対してのみ生成されるが, 固定粒子数を持つ正準状態に対して任意に弱いカップリングには存在する。 第2に,リラクゼーションダイナミクスの間,システム環境境界状態の形成に関連する非マルコフ的効果により,過渡的に発生するシステムバスの絡み合いを長期保存できることを示した。 最後に、電圧駆動接合では、一定の閾値電圧で任意に弱いシステムバス結合に対して定常状態絡みが生じ、同時に、粒子ホールまたはトンネルカップリング非対称性により低減される。

We investigate the behavior of entanglement between a single fermionic level and a fermionic bath in three distinct dynamic and thermodynamic regimes. First, in thermal equilibrium, we observe the dependence of entanglement on the considered statistical ensemble: for the grand canonical state, it is generated only for a sufficiently strong system-bath coupling, whereas it is present for arbitrarily weak couplings for the canonical state with a fixed particle number. Second, it is shown that during the relaxation dynamics the transiently generated system-bath entanglement can be preserved at long times because of non-Markovian effects related to the formation of system-environment bound states. Finally, in voltage-driven junctions the steady state entanglement is generated for arbitrarily weak system-bath couplings at a certain threshold voltage; at the same time, it is reduced by either the particle-hole or the tunnel coupling asymmetry.
翻訳日:2023-06-19 14:38:41 公開日:2023-06-16
# ミリ波スピン系と超伝導量子ビット間のマクロベル状態の決定論的生成とトモグラフィー

Deterministic generation and tomography of a macroscopic Bell state between a millimeter-sized spin system and a superconducting qubit ( http://arxiv.org/abs/2306.09677v1 )

ライセンス: Link先を確認
Da Xu, Xu-Ke Gu, Yuan-Chao Weng, He-Kang Li, Yi-Pu Wang, Shi-Yao Zhu, J. Q. You(参考訳) 絡み合い(英: entanglement)は、系が相互距離に関係なく分離不可能な量子相関を共有する量子力学の基本的な性質である。 基本的重要性と汎用的応用により、.itマクロスケールシステム間の量子絡み合いの生成が現在の研究の焦点となっている。 本稿では,ミリスケールのスピン系とマイクロメータサイズの超伝導量子ビットを含むハイブリッド量子系におけるマクロエンタングルドベル状態の決定論的生成とトモグラフィについて報告する。 この決定論的生成は、マイクロ波共振器を介してマクロスピン系と量子ビットを結合することによって実現される。 また,ベル状態の決定論的生成を確認するための共同トモグラフィー手法を開発し,その生成精度は0.90\pm0.01$である。 我々の研究により、マクロスピン系は最大絡み合った量子状態を生成することができる最大の系となる。

Entanglement is a fundamental property in quantum mechanics that systems share inseparable quantum correlation regardless of their mutual distances. Owing to the fundamental significance and versatile applications, the generation of quantum entanglement between {\it macroscopic} systems has been a focus of current research. Here we report on the deterministic generation and tomography of the macroscopically entangled Bell state in a hybrid quantum system containing a millimeter-sized spin system and a micrometer-sized superconducting qubit. The deterministic generation is realized by coupling the macroscopic spin system and the qubit via a microwave cavity. Also, we develop a joint tomography approach to confirming the deterministic generation of the Bell state, which gives a generation fidelity of $0.90\pm0.01$. Our work makes the macroscopic spin system the largest system capable of generating the maximally entangled quantum state.
翻訳日:2023-06-19 14:38:25 公開日:2023-06-16
# 多視点クラスインクリメンタルラーニング

Multi-View Class Incremental Learning ( http://arxiv.org/abs/2306.09675v1 )

ライセンス: Link先を確認
Depeng Li, Tianqi Wang, Junwei Chen, Kenji Kawaguchi, Cheng Lian, Zhigang Zeng(参考訳) マルチビュー学習(MVL)は、下流タスクのパフォーマンスを改善するためにデータセットの複数の視点から情報を統合することで大きな成功を収めている。 本稿では,MVL手法をオープンエンド環境でより実践的にするために,複数視点クラスインクリメンタルラーニング(MVCIL)と呼ばれる新しいパラダイムを考察する。 しかし、MVCILは、古い情報の破滅的な忘れと新しい概念の学習への干渉に悩まされている。 そこで本研究では,まず特徴量抽出のためのランダム化に基づく表現学習手法を開発し,その過程でクラスに属する複数のビューを逐次的に提示し,それらを抽出した特徴量にまたがる直交性融合部分空間に1つずつ統合し,さらに,新しいクラスに遭遇しながら学習支援意思決定のための選択的重み統合を提案する。 合成および実世界のデータセットに関する大規模な実験は、我々のアプローチの有効性を検証する。

Multi-view learning (MVL) has gained great success in integrating information from multiple perspectives of a dataset to improve downstream task performance. To make MVL methods more practical in an open-ended environment, this paper investigates a novel paradigm called multi-view class incremental learning (MVCIL), where a single model incrementally classifies new classes from a continual stream of views, requiring no access to earlier views of data. However, MVCIL is challenged by the catastrophic forgetting of old information and the interference with learning new concepts. To address this, we first develop a randomization-based representation learning technique serving for feature extraction to guarantee their separate view-optimal working states, during which multiple views belonging to a class are presented sequentially; Then, we integrate them one by one in the orthogonality fusion subspace spanned by the extracted features; Finally, we introduce selective weight consolidation for learning-without-forgetting decision-making while encountering new classes. Extensive experiments on synthetic and real-world datasets validate the effectiveness of our approach.
翻訳日:2023-06-19 14:38:10 公開日:2023-06-16
# 瞬時測定は情報を分離できる

Instantaneous measurement can isolate the information ( http://arxiv.org/abs/2306.09670v1 )

ライセンス: Link先を確認
Iman Sargolzahi(参考訳) 互いに絡み合っている2つのスピン1とNを考える。 有名なように、スピン n の任意の測定はスピン 1 の還元状態を変えることはない。 言い換えれば、スピン 1 はスピン n 上で測定されたことを決して認識しないが、スピン 2 から n - 1 までを含むスピン鎖によってスピン 1 と n が接続されたらどうなるか? 一般に、スピンNの測定を行う情報は、一定時間後にスピン1を達成することを期待する。 言い換えれば、スピンN上の測定によりスピン1の減少状態がしばらく経ってから変化することが期待できる。 本稿では、スピンNの測定が瞬時に行われ、スピンチェーン全体の初期状態が1からNに適切に選択された場合、スピンNの測定を行う情報はスピン1を達成できないことを示す。

Consider two spins 1 and N, which are entangled and far from each other. As it is famous, performing any measurement on spin N does not change the reduced state of spin 1. In other words, spin 1 will never realize that a measurement has been performed on spin N. But, what does happen if spins 1 and N are connected to each other by a spin chain, including spins 2 to N - 1? In general, we expect that the information of performing a measurement on spin N achieves spin 1, after a period of time. In other words, we expect that the reduced state of spin 1 is changed, due to the measurement performed on spin N, after some while. In this paper, we show that, if the measurement on spin N is performed instantaneously, and if we choose the initial state of the whole spin chain, from 1 to N, appropriately, then the information of performing the measurement on spin N never achieves spin 1.
翻訳日:2023-06-19 14:37:51 公開日:2023-06-16
# 共同確率推定を用いた1対1深層学習戦略を用いたマルチクラス化

Multi-Classification using One-versus-One Deep Learning Strategy with Joint Probability Estimates ( http://arxiv.org/abs/2306.09668v1 )

ライセンス: Link先を確認
Anthony Hei-Long Chan, Raymond HonFu Chan, Lingjia Dai(参考訳) one-versus-one (ovo) 戦略は、各クラス間のバイナリ分類器のトレーニングに焦点を当てたマルチクラス化モデルのアプローチである。 OvO戦略はバランスの取れたトレーニングデータを利用するが、分類精度は通常、全てのバイナリ分類器を組み合わせる投票機構によって妨げられる。 本稿では,共同確率尺度を組み込んだ新しいovo多分類モデルを提案する。 提案モデルでは,2段階のアルゴリズムを用いて,ペア二項分類器からクラス確率を推定する。 バイナリ分類器が与えられた場合、対の確率推定は分離特徴超平面上の距離測定によって校正される。 以上より、確率的距離最小化問題を解くことにより、対象のクラス確率を推定する。 異なる応用における数値実験により,提案モデルは他の最先端モデルよりも一般に高い分類精度が得られることが示された。

The One-versus-One (OvO) strategy is an approach of multi-classification models which focuses on training binary classifiers between each pair of classes. While the OvO strategy takes advantage of balanced training data, the classification accuracy is usually hindered by the voting mechanism to combine all binary classifiers. In this paper, a novel OvO multi-classification model incorporating a joint probability measure is proposed under the deep learning framework. In the proposed model, a two-stage algorithm is developed to estimate the class probability from the pairwise binary classifiers. Given the binary classifiers, the pairwise probability estimate is calibrated by a distance measure on the separating feature hyperplane. From that, the class probability of the subject is estimated by solving a joint probability-based distance minimization problem. Numerical experiments in different applications show that the proposed model achieves generally higher classification accuracy than other state-of-the-art models.
翻訳日:2023-06-19 14:37:35 公開日:2023-06-16
# 自己注意と自己教師付き学習によるラベルノイズ耐性医用画像分類

Label-noise-tolerant medical image classification via self-attention and self-supervised learning ( http://arxiv.org/abs/2306.09718v1 )

ライセンス: Link先を確認
Hongyang Jiang, Mengdi Gao, Yan Hu, Qiushi Ren, Zhaoheng Xie, Jiang Liu(参考訳) ディープニューラルネットワーク(DNN)は医用画像分類に広く応用されており、優れた分類性能を実現している。 これらの成果は、大規模に注釈付きトレーニングデータに依存する。 しかし,ラベリングプロセスは注釈者の専門知識と経験に大きく依存するため,医用画像アノテーションではラベルノイズが必然的に導入される。 一方、DNNはノイズの多いラベルに過度に適合し、モデルの性能が低下する。 そこで本研究では,医用画像分類におけるノイズラベルの悪影響を軽減するため,ノイズローバストトレーニングアプローチを革新的に考案する。 具体的には,対照学習とグループ内アテンションミックスアップ戦略を,教師付き学習に組み込む。 特徴抽出器の対照的な学習は、DNNの視覚的表現を高めるのに役立つ。 グループ内アテンション混合モジュールはグループを構成し、グループワイドサンプルに自己アテンション重みを割り当て、その後、重み付け混合操作により大規模なノイズ抑制サンプルを補間する。 各種ノイズレベルにおける合成および実世界のノイズ医学データセットの比較実験を行った。 厳密な実験により, コントラスト学習とアテンション混在によるノイズ・ロバスト手法がラベルノイズを効果的に扱えることが検証され, 最先端の手法よりも優れている。 アブレーションの研究では、両方の成分がモデル性能の向上に寄与していることも示されている。 提案手法は,ラベルノイズを抑える能力を示し,実際の臨床応用の可能性を示した。

Deep neural networks (DNNs) have been widely applied in medical image classification and achieve remarkable classification performance. These achievements heavily depend on large-scale accurately annotated training data. However, label noise is inevitably introduced in the medical image annotation, as the labeling process heavily relies on the expertise and experience of annotators. Meanwhile, DNNs suffer from overfitting noisy labels, degrading the performance of models. Therefore, in this work, we innovatively devise noise-robust training approach to mitigate the adverse effects of noisy labels in medical image classification. Specifically, we incorporate contrastive learning and intra-group attention mixup strategies into the vanilla supervised learning. The contrastive learning for feature extractor helps to enhance visual representation of DNNs. The intra-group attention mixup module constructs groups and assigns self-attention weights for group-wise samples, and subsequently interpolates massive noisy-suppressed samples through weighted mixup operation. We conduct comparative experiments on both synthetic and real-world noisy medical datasets under various noise levels. Rigorous experiments validate that our noise-robust method with contrastive learning and attention mixup can effectively handle with label noise, and is superior to state-of-the-art methods. An ablation study also shows that both components contribute to boost model performance. The proposed method demonstrates its capability of curb label noise and has certain potential toward real-world clinic applications.
翻訳日:2023-06-19 14:32:00 公開日:2023-06-16
# テキスト生成最適化のための半オフライン強化学習

Semi-Offline Reinforcement Learning for Optimized Text Generation ( http://arxiv.org/abs/2306.09712v1 )

ライセンス: Link先を確認
Changyu Chen, Xiting Wang, Yiqiao Jin, Victor Ye Dong, Li Dong, Jie Cao, Yi Liu, Rui Yan(参考訳) 強化学習(RL)では、オンラインとオフラインの2つの主要な環境と相互作用する。 オンラインメソッドは環境をかなりの時間コストで探索し、オフラインメソッドは探索能力を犠牲にして報奨信号を効率的に得る。 オフラインからオンラインへスムーズに移行し、探索能力とトレーニングコストのバランスをとる新しいパラダイムである半オフラインRLを提案し、異なるRL設定を比較する理論的基盤を提供する。 半オフラインの定式化に基づき、最適化コスト、漸近誤差、および誤差境界のオーバーフィットの観点から最適なrl設定を提案する。 広範な実験によって、私たちの半オフラインアプローチは効率的であり、最先端のメソッドと比較して同等か、あるいはしばしば優れたパフォーマンスが得られることが分かりました。

In reinforcement learning (RL), there are two major settings for interacting with the environment: online and offline. Online methods explore the environment at significant time cost, and offline methods efficiently obtain reward signals by sacrificing exploration capability. We propose semi-offline RL, a novel paradigm that smoothly transits from offline to online settings, balances exploration capability and training cost, and provides a theoretical foundation for comparing different RL settings. Based on the semi-offline formulation, we present the RL setting that is optimal in terms of optimization cost, asymptotic error, and overfitting error bound. Extensive experiments show that our semi-offline approach is efficient and yields comparable or often better performance compared with state-of-the-art methods.
翻訳日:2023-06-19 14:31:36 公開日:2023-06-16
# バスク州における新型コロナウイルス感染拡大に伴う老人ホーム住民の医療成果の集団公正性に関する研究

A study on group fairness in healthcare outcomes for nursing home residents during the COVID-19 pandemic in the Basque Country ( http://arxiv.org/abs/2306.09711v1 )

ライセンス: Link先を確認
Hristo Inouzhe, Irantzu Barrio, Paula Gordaliza, Mar\'ia Xos\'e Rodr\'iguez-\'Alvarez, Itxaso Bengoechea, Jos\'e Mar\'ia Quintana(参考訳) 新型コロナウイルス感染拡大に伴う入院、死亡、院内死亡などの医療結果に及ぼす老人ホームの状態の影響を検討する。 スペインの特定の自治自治体(地政学部門)では、老人ホームの高齢者が病院や治療へのアクセスを制限しており、こうした措置の公平性について大衆の批判が巻き起こったという主張もある。 本研究は,バスク州のケースを厳密な統計的アプローチと医師の視点で研究するものである。 フェアネス/アンフェアネスは数学的にモデル化が困難であり、現実世界に強い意味を持つため、この研究は、年齢、健康状態、パンデミックの期間など、他の有意義な患者の情報に対して、老人ホームのステータスが医療結果に直接影響するかどうかを確立するという、単純化に重点を置いている。 ここでの手法は確立された手法と因果関係と公正学習の分野からの新たな提案の組み合わせである。 現在の分析では、老人ホームの人々は、パンデミックのほとんどで非居住者に比べて、入院する可能性が著しく低く、病院でも死亡する可能性がかなり高いことが示唆されている。 さらなるデータ収集と分析が必要であり、それはあくまでも老人ホームの状況のためである。

We explore the effect of nursing home status on healthcare outcomes such as hospitalisation, mortality and in-hospital mortality during the COVID-19 pandemic. Some claim that in specific Autonomous Communities (geopolitical divisions) in Spain, elderly people in nursing homes had restrictions on access to hospitals and treatments, which raised a public outcry about the fairness of such measures. In this work, the case of the Basque Country is studied under a rigorous statistical approach and a physician's perspective. As fairness/unfairness is hard to model mathematically and has strong real-world implications, this work concentrates on the following simplification: establishing if the nursing home status had a direct effect on healthcare outcomes once accounted for other meaningful patients' information such as age, health status and period of the pandemic, among others. The methods followed here are a combination of established techniques as well as new proposals from the fields of causality and fair learning. The current analysis suggests that as a group, people in nursing homes were significantly less likely to be hospitalised, and considerably more likely to die, even in hospitals, compared to their non-residents counterparts during most of the pandemic. Further data collection and analysis are needed to guarantee that this is solely/mainly due to nursing home status.
翻訳日:2023-06-19 14:31:23 公開日:2023-06-16
# DAG-DNNにおける関数の表現と分解とネットワーク切断

Representation and decomposition of functions in DAG-DNNs and structural network pruning ( http://arxiv.org/abs/2306.09707v1 )

ライセンス: Link先を確認
Wen-Liang Hwang(参考訳) ディープニューラルネットワーク(DNN)が提供する結論は、それらが普遍的であるかアーキテクチャに依存しているかを決定するために慎重に精査されなければならない。 DAG-DNNという用語は、DNNのグラフィカルな表現で、アーキテクチャは直接巡回グラフ(DAG)として表現され、アークは関数と関連付けられている。 ノードのレベルは、入力ノードと関心のノードの間のホップの最大数を表す。 本研究は,DAG-DNNを用いて,DNNの様々なサブアーキテクチャ上で定義されたすべての関数を導出できることを実証する。 また,DAG-DNNで定義される関数は,下位三角形行列の列によって導出可能であることを示す。 低三角形行列に付随する昇降構造により、ネットワークの構造的プルーニングを系統的に行うことができる。 分解がすべてのDNNに普遍的に適用されるという事実は、基盤となるアーキテクチャに関係なく、理論上は任意のDNNに適用できることを意味する。 初期化に伴うサブネットワークが、同じ回数の繰り返しを用いて元のネットワークと同等のトレーニング性能を達成できるという事実から、抽選券仮説の弱いバージョンに対する当選券(サブネットワークと初期化)を得ることが可能であることを実証する。

The conclusions provided by deep neural networks (DNNs) must be carefully scrutinized to determine whether they are universal or architecture dependent. The term DAG-DNN refers to a graphical representation of a DNN in which the architecture is expressed as a direct-acyclic graph (DAG), on which arcs are associated with functions. The level of a node denotes the maximum number of hops between the input node and the node of interest. In the current study, we demonstrate that DAG-DNNs can be used to derive all functions defined on various sub-architectures of the DNN. We also demonstrate that the functions defined in a DAG-DNN can be derived via a sequence of lower-triangular matrices, each of which provides the transition of functions defined in sub-graphs up to nodes at a specified level. The lifting structure associated with lower-triangular matrices makes it possible to perform the structural pruning of a network in a systematic manner. The fact that decomposition is universally applicable to all DNNs means that network pruning could theoretically be applied to any DNN, regardless of the underlying architecture. We demonstrate that it is possible to obtain the winning ticket (sub-network and initialization) for a weak version of the lottery ticket hypothesis, based on the fact that the sub-network with initialization can achieve training performance on par with that of the original network using the same number of iterations or fewer.
翻訳日:2023-06-19 14:30:58 公開日:2023-06-16
# 感情分析における計算コストの削減:テンソル化再帰ネットワーク対再帰ネットワーク

Reducing Computational Costs in Sentiment Analysis: Tensorized Recurrent Networks vs. Recurrent Networks ( http://arxiv.org/abs/2306.09705v1 )

ライセンス: Link先を確認
Gabriel Lopez, Anna Nguyen, Joe Kaul(参考訳) 特定のテキストに対する聴衆の反応を予測することは、政治、研究、商業産業を含む社会のいくつかの側面に不可欠である。 感性分析(英: Sentiment Analysis、SA)は、語彙・統計・深層学習法を用いて、異なるサイズのテキストが肯定的、否定的、中立的な感情を示すかどうかを判断する有用な自然言語処理(NLP)技術である。 リカレントネットワークは、シーケンシャルデータの問題に対して機械学習コミュニティで広く利用されている。 しかし、Long-Short Term Memory NetworkとGated Recurrent Unitsに基づくモデルの欠点は、非常に多くのパラメータであり、そのようなモデルは計算的に高価である。 この欠点は、利用可能なデータが限られている場合にさらに大きい。 また、これらのモデルは最適な性能を達成するためにかなりの過パラメータ化と正則化を必要とする。 テンソル化モデルは潜在的な解である。 本稿では,ソーシャルメディア投稿の感情を分類する。 従来のモデルとテンソル化バージョンを比較して,テンソル化モデルでは,トレーニングにリソースを少なく使用しながら,従来のモデルと同等のパフォーマンスを達成できることを示した。

Anticipating audience reaction towards a certain text is integral to several facets of society ranging from politics, research, and commercial industries. Sentiment analysis (SA) is a useful natural language processing (NLP) technique that utilizes lexical/statistical and deep learning methods to determine whether different-sized texts exhibit positive, negative, or neutral emotions. Recurrent networks are widely used in machine-learning communities for problems with sequential data. However, a drawback of models based on Long-Short Term Memory networks and Gated Recurrent Units is the significantly high number of parameters, and thus, such models are computationally expensive. This drawback is even more significant when the available data are limited. Also, such models require significant over-parameterization and regularization to achieve optimal performance. Tensorized models represent a potential solution. In this paper, we classify the sentiment of some social media posts. We compare traditional recurrent models with their tensorized version, and we show that with the tensorized models, we reach comparable performances with respect to the traditional models while using fewer resources for the training.
翻訳日:2023-06-19 14:30:31 公開日:2023-06-16
# 英語テキストのクロスコーポレーション可読性互換性評価

Cross-corpus Readability Compatibility Assessment for English Texts ( http://arxiv.org/abs/2306.09704v1 )

ライセンス: Link先を確認
Zhenzhen Li, Han Ding, Shaohong Zhang(参考訳) テキスト可読性評価は様々な分野の研究者から注目されている。 しかし、異なる研究グループが異なるコーパスを利用するため、コーパス互換性の探索の欠如が課題となっている。 そこで本研究では,CRCA (Cross-corpus text Readability Compatibility Assessment) という新たな評価フレームワークを提案する。 このフレームワークは、(1)コーパス:CEFR, CLEC, CLOTH, NES, OSP, RACEの3つの主要なコンポーネントを含んでいる。 言語的特徴,GloVe単語ベクトル表現,それらの融合特徴を抽出した。 2)分類モデル:機械学習手法(XGBoost, SVM)とディープラーニング手法(BiLSTM, Attention-BiLSTM)を用いた。 (3) 互換性メトリクス: rjsd、rrnss、ndcgメトリクス。 その結果,1)OSPは他のデータセットと大きく異なり,コーパス互換性の検証が可能であった。 2)コーパス間の適応効果、特徴表現、分類方法。 (3) 適合性評価フレームワークの堅牢性を検証した3つの指標の一貫性のある結果。 本研究の成果は,コーパス選択,特徴表現,分類方法に関する貴重な知見を提供するとともに,クロスコーパストランスファー学習の出発点ともなり得る。

Text readability assessment has gained significant attention from researchers in various domains. However, the lack of exploration into corpus compatibility poses a challenge as different research groups utilize different corpora. In this study, we propose a novel evaluation framework, Cross-corpus text Readability Compatibility Assessment (CRCA), to address this issue. The framework encompasses three key components: (1) Corpus: CEFR, CLEC, CLOTH, NES, OSP, and RACE. Linguistic features, GloVe word vector representations, and their fusion features were extracted. (2) Classification models: Machine learning methods (XGBoost, SVM) and deep learning methods (BiLSTM, Attention-BiLSTM) were employed. (3) Compatibility metrics: RJSD, RRNSS, and NDCG metrics. Our findings revealed: (1) Validated corpus compatibility, with OSP standing out as significantly different from other datasets. (2) An adaptation effect among corpora, feature representations, and classification methods. (3) Consistent outcomes across the three metrics, validating the robustness of the compatibility assessment framework. The outcomes of this study offer valuable insights into corpus selection, feature representation, and classification methods, and it can also serve as a beginning effort for cross-corpus transfer learning.
翻訳日:2023-06-19 14:30:10 公開日:2023-06-16
# 深層ショットメタ学習のための階層型ベイズモデル

A Hierarchical Bayesian Model for Deep Few-Shot Meta Learning ( http://arxiv.org/abs/2306.09702v1 )

ライセンス: Link先を確認
Minyoung Kim and Timothy Hospedales(参考訳) そこで本論文では, タスク数が多く(おそらく無限に)学習可能な階層ベイズモデルを提案する。 本研究では,これらの局所確率変数を高レベルな大域的乱数変数が支配するエピソード固有ターゲット生成過程をモデル化する。 グローバル変数は歴史的エピソードから重要な情報を記憶し、ベイズ的手法でモデルが新しいエピソードにどの程度適応する必要があるかを制御するのに役立つ。 モデルフレームワーク内では,新たなエピソード/タスクの予測をベイズ推論問題とみなすことができる。 しかし、オンラインの自然界において、多数の局所確率変数を学習する際の主な障害は、従来の変動推論に典型的な、頻繁な将来の更新のために、現在の局所確率変数の後方分布を保存できないことである。 最適化では各ローカル変数を1回だけ反復処理として扱えるようにする必要があります。 本稿では,局所的な後続分布に対する近似閉形式解により,この一回反復最適化が実現可能であることを示す正規-逆-ウィッシュアートモデルを提案する。 結果として得られるアルゴリズムは、エピソード毎の勾配最適化ステップ全体に対して計算グラフを維持する必要がなくなるため、mamlよりも魅力的である。 また,本手法は,従来のベイズ型メタ学習手法と異なり,全エピソードに対して単一確率変数を扱うのと異なり,複数/無限タスクの原則ベイズ型学習に望ましい1回のエピソディック最適化を可能にする階層構造を有する。 コードは \url{https://github.com/minyoungkim21/niwmeta} で入手できる。

We propose a novel hierarchical Bayesian model for learning with a large (possibly infinite) number of tasks/episodes, which suits well the few-shot meta learning problem. We consider episode-wise random variables to model episode-specific target generative processes, where these local random variables are governed by a higher-level global random variate. The global variable helps memorize the important information from historic episodes while controlling how much the model needs to be adapted to new episodes in a principled Bayesian manner. Within our model framework, the prediction on a novel episode/task can be seen as a Bayesian inference problem. However, a main obstacle in learning with a large/infinite number of local random variables in online nature, is that one is not allowed to store the posterior distribution of the current local random variable for frequent future updates, typical in conventional variational inference. We need to be able to treat each local variable as a one-time iterate in the optimization. We propose a Normal-Inverse-Wishart model, for which we show that this one-time iterate optimization becomes feasible due to the approximate closed-form solutions for the local posterior distributions. The resulting algorithm is more attractive than the MAML in that it is not required to maintain computational graphs for the whole gradient optimization steps per episode. Our approach is also different from existing Bayesian meta learning methods in that unlike dealing with a single random variable for the whole episodes, our approach has a hierarchical structure that allows one-time episodic optimization, desirable for principled Bayesian learning with many/infinite tasks. The code is available at \url{https://github.com/minyoungkim21/niwmeta}.
翻訳日:2023-06-19 14:29:50 公開日:2023-06-16
# Piecewise Bezier Curveを用いたエンドツーエンドベクトル化HDマップの構築

End-to-End Vectorized HD-map Construction with Piecewise Bezier Curve ( http://arxiv.org/abs/2306.09700v1 )

ライセンス: Link先を確認
Limeng Qiao, Wenjie Ding, Xi Qiu, Chi Zhang(参考訳) ベクトル化ハイディフィニションマップ(hd-map)の構築は、センチメートルレベルの環境情報の知覚に焦点を当てており、自動運転コミュニティに大きな関心を集めている。 既存のほとんどのアプローチは、まずセグメンテーションベースのパイプラインでラスタ化マップを取得し、その後、下流フレンドリなベクトル化のための重い後処理を行う。 本稿では,パラメータ化に基づく手法を考案し,一貫したベジエ曲線を用いた簡潔かつエレガントな手法を提案する。 変化に富んだ地図要素をエンドツーエンドにベクトル化するために,Piecewise Bezier HD-map Network(BeMapNet)という,直接セット予測パラダイムと後処理不要なシンプルなアーキテクチャを詳述する。 具体的には,トランスフォーマーの共通位置符号化により,BEV機能に3次元形状を注入する新しいIMM-PEアラインモジュールを提案する。 そして、よく設計されたPiecewise Bezier Headを提案し、各地図要素の詳細を出力し、制御点の座標と曲線のセグメント数を含む。 さらに,bezier曲線の漸進的復元に基づいて,より堅牢で高精度なhd-mapモデリングを監督するための効率的な点曲線損失も提示する。 以上の結果から,本手法は既存のSOTAよりも18.0mAP以上優れていることが示唆された。

Vectorized high-definition map (HD-map) construction, which focuses on the perception of centimeter-level environmental information, has attracted significant research interest in the autonomous driving community. Most existing approaches first obtain rasterized map with the segmentation-based pipeline and then conduct heavy post-processing for downstream-friendly vectorization. In this paper, by delving into parameterization-based methods, we pioneer a concise and elegant scheme that adopts unified piecewise Bezier curve. In order to vectorize changeful map elements end-to-end, we elaborate a simple yet effective architecture, named Piecewise Bezier HD-map Network (BeMapNet), which is formulated as a direct set prediction paradigm and postprocessing-free. Concretely, we first introduce a novel IPM-PE Align module to inject 3D geometry prior into BEV features through common position encoding in Transformer. Then a well-designed Piecewise Bezier Head is proposed to output the details of each map element, including the coordinate of control points and the segment number of curves. In addition, based on the progressively restoration of Bezier curve, we also present an efficient Point-Curve-Region Loss for supervising more robust and precise HD-map modeling. Extensive comparisons show that our method is remarkably superior to other existing SOTAs by 18.0 mAP at least.
翻訳日:2023-06-19 14:29:23 公開日:2023-06-16
# 不完全アノテートトレーニングデータを用いた関係抽出のためのクラス適応型自己学習

Class-Adaptive Self-Training for Relation Extraction with Incompletely Annotated Training Data ( http://arxiv.org/abs/2306.09697v1 )

ライセンス: Link先を確認
Qingyu Tan, Lu Xu, Lidong Bing, Hwee Tou Ng(参考訳) 関係抽出(RE)は、文や文書から関係を抽出することを目的としている。 既存の関係抽出モデルは一般的に教師付き機械学習に依存している。 しかし、最近の研究では多くのREデータセットが不完全注釈付きであることが示されている。 これは、正当な関係を「no_relation」と誤記する偽陰性問題として知られている。 このようなデータでトレーニングされたモデルは、推論段階で必然的に同様の間違いを犯す。 自己学習は偽陰性問題の緩和に有効であることが証明されている。 しかし、従来の自己学習は確証バイアスに弱いため、少数派では性能が劣っている。 この制限を克服するため,我々は新しいクラス適応型自己学習フレームワークを提案する。 具体的には,各クラスの擬似ラベルを精度とリコールスコアで再サンプリングした。 再サンプリング戦略は,高精度・低リコールクラスの擬似ラベルを好んで実施し,精度を損なうことなく全体のリコールを改善した。 本研究では, 文書レベルおよびバイオメディカル関係抽出データセットの実験を行い, トレーニングデータが不完全注釈付けされた場合, 提案した自己学習フレームワークは, Re-DocRED および ChemDisgene データセット上の既存の競合手法より一貫して優れていることを示した。 私たちのコードはhttps://github.com/DAMO-NLP-SG/CASTで公開されています。

Relation extraction (RE) aims to extract relations from sentences and documents. Existing relation extraction models typically rely on supervised machine learning. However, recent studies showed that many RE datasets are incompletely annotated. This is known as the false negative problem in which valid relations are falsely annotated as 'no_relation'. Models trained with such data inevitably make similar mistakes during the inference stage. Self-training has been proven effective in alleviating the false negative problem. However, traditional self-training is vulnerable to confirmation bias and exhibits poor performance in minority classes. To overcome this limitation, we proposed a novel class-adaptive re-sampling self-training framework. Specifically, we re-sampled the pseudo-labels for each class by precision and recall scores. Our re-sampling strategy favored the pseudo-labels of classes with high precision and low recall, which improved the overall recall without significantly compromising precision. We conducted experiments on document-level and biomedical relation extraction datasets, and the results showed that our proposed self-training framework consistently outperforms existing competitive methods on the Re-DocRED and ChemDisgene datasets when the training data are incompletely annotated. Our code is released at https://github.com/DAMO-NLP-SG/CAST.
翻訳日:2023-06-19 14:28:56 公開日:2023-06-16
# 強い凸性をもつネステロフ-1983の線型収束

Linear convergence of Nesterov-1983 with the strong convexity ( http://arxiv.org/abs/2306.09694v1 )

ライセンス: Link先を確認
Bowen Li, Bin Shi, Ya-xiang Yuan(参考訳) 現代の勾配に基づく最適化では、発展的なランドマークはネステロフの加速勾配降下法であり、 [nesterov, 1983] で提案されている。 その後の重要な進歩の1つは、画像科学や工学で広く使われている高速反復収縮保持アルゴリズム (FISTA) と呼ばれる近位一般化である。 しかし、ネステロフ-1983 と fista が、包括的レビュー [chambolle and pock, 2016 appendix b] において開問題としてリストされた強凸関数に線形収束するかどうかは不明である。 本稿では,高分解能微分方程式の枠組みを用いて,この問題に答える。 前述した位相空間表現とともに、ここでのリャプノフ函数を構成する重要な違いは、運動エネルギーの係数が反復によって変化することである。 さらに,上記の2つのアルゴリズムの線形収束は,強凸関数に対するパラメータ $r$ に依存しないことを示す。 一方、近位劣勾配ノルムは線形収束する。

For modern gradient-based optimization, a developmental landmark is Nesterov's accelerated gradient descent method, which is proposed in [Nesterov, 1983], so shorten as Nesterov-1983. Afterward, one of the important progresses is its proximal generalization, named the fast iterative shrinkage-thresholding algorithm (FISTA), which is widely used in image science and engineering. However, it is unknown whether both Nesterov-1983 and FISTA converge linearly on the strongly convex function, which has been listed as the open problem in the comprehensive review [Chambolle and Pock, 2016, Appendix B]. In this paper, we answer this question by the use of the high-resolution differential equation framework. Along with the phase-space representation previously adopted, the key difference here in constructing the Lyapunov function is that the coefficient of the kinetic energy varies with the iteration. Furthermore, we point out that the linear convergence of both the two algorithms above has no dependence on the parameter $r$ on the strongly convex function. Meanwhile, it is also obtained that the proximal subgradient norm converges linearly.
翻訳日:2023-06-19 14:28:36 公開日:2023-06-16
# fedstellar: 分散連合学習のためのプラットフォーム

Fedstellar: A Platform for Decentralized Federated Learning ( http://arxiv.org/abs/2306.09750v1 )

ライセンス: Link先を確認
Enrique Tom\'as Mart\'inez Beltr\'an and \'Angel Luis Perales G\'omez and Chao Feng and Pedro Miguel S\'anchez S\'anchez and Sergio L\'opez Bernal and G\'er\^ome Bovet and Manuel Gil P\'erez and Gregorio Mart\'inez P\'erez and Alberto Huertas Celdr\'an(参考訳) 2016年、Googleはフェデレート・ラーニング(FL)を、データプライバシを保持しながらフェデレーションの参加者間で機械学習(ML)モデルをトレーニングするための新しいパラダイムとして提案した。 誕生以来、集中型fl (cfl) は最もよく用いられるアプローチであり、中央のエンティティが参加者のモデルを集約してグローバルに構築する。 しかし、CFLは通信ボトルネック、単一障害点、中央サーバへの依存といった制限を提示している。 分散連合学習(dfl)は、分散モデル集約を可能にし、中央のエンティティへの依存性を最小限にすることで、これらの問題を解決する。 これらの進歩にもかかわらず、dflモデルをトレーニングする現在のプラットフォームは、ヘテロジニアスフェデレーションネットワークトポロジの管理のような重要な問題に苦しむ。 このような課題を克服するため,本稿では,分散化,半分散化,集中型のflモデルを,物理デバイスや仮想化デバイスのさまざまなフェデレーションでトレーニングするための,新たなプラットフォームであるfeedstellarを提案する。 Fedstellarの実装には、インタラクティブなグラフィカルインターフェースを備えたWebアプリケーション、物理または仮想デバイスを使用してノードのフェデレーションをデプロイするコントローラ、ネットワーク内のトレーニング、集約、通信に必要なロジックを提供する各デバイスにデプロイされるコアが含まれている。 プラットフォームの有効性は、サイバー攻撃を検出するraspberry piのようなシングルボードデバイスを含む物理的デプロイメントと、mnistとcifar-10データセットを使用して制御された環境での様々なflアプローチを比較する仮想化デプロイメントの2つのシナリオで実証されている。 どちらのシナリオでもフェデラーは一貫した性能と適応性を示し、91%、98%、91.2%のdflでサイバー攻撃の検出とmnistとcifar-10の分類を行い、集中型アプローチと比較してトレーニング時間を32%削減した。

In 2016, Google proposed Federated Learning (FL) as a novel paradigm to train Machine Learning (ML) models across the participants of a federation while preserving data privacy. Since its birth, Centralized FL (CFL) has been the most used approach, where a central entity aggregates participants' models to create a global one. However, CFL presents limitations such as communication bottlenecks, single point of failure, and reliance on a central server. Decentralized Federated Learning (DFL) addresses these issues by enabling decentralized model aggregation and minimizing dependency on a central entity. Despite these advances, current platforms training DFL models struggle with key issues such as managing heterogeneous federation network topologies. To overcome these challenges, this paper presents Fedstellar, a novel platform designed to train FL models in a decentralized, semi-decentralized, and centralized fashion across diverse federations of physical or virtualized devices. The Fedstellar implementation encompasses a web application with an interactive graphical interface, a controller for deploying federations of nodes using physical or virtual devices, and a core deployed on each device which provides the logic needed to train, aggregate, and communicate in the network. The effectiveness of the platform has been demonstrated in two scenarios: a physical deployment involving single-board devices such as Raspberry Pis for detecting cyberattacks, and a virtualized deployment comparing various FL approaches in a controlled environment using MNIST and CIFAR-10 datasets. In both scenarios, Fedstellar demonstrated consistent performance and adaptability, achieving F1 scores of 91%, 98%, and 91.2% using DFL for detecting cyberattacks and classifying MNIST and CIFAR-10, respectively, reducing training time by 32% compared to centralized approaches.
翻訳日:2023-06-19 14:21:05 公開日:2023-06-16
# 経験リプレイによる時間差学習

Temporal Difference Learning with Experience Replay ( http://arxiv.org/abs/2306.09746v1 )

ライセンス: Link先を確認
Han-Dong Lim, Donghwan Lee(参考訳) 時間差学習(TD)は、強化学習(RL)において最も一般的なアルゴリズムの1つである。 広く使われているにもかかわらず、研究者が平均二乗誤差とサンプルの複雑さに縛られた有限時間を含む、その有限時間挙動を積極的に研究し始めたのはつい最近である。 経験リプレイは深部RLアルゴリズムの成功の鍵となる要素であるが、RLに対する理論効果は未だ完全には理解されていない。 本稿では,マルコフ雑音項の簡易分解を行い,経験的再生を伴うTD学習における有限時間誤差境界を提供する。 具体的には,平均的な反復と最終反復の場合の両方において,一定のステップサイズによる誤差項を,リプレイバッファのサイズと経験リプレイバッファからサンプリングしたミニバッチサイズで効果的に制御できることをマルコフ観測モデルにより示す。

Temporal-difference (TD) learning is widely regarded as one of the most popular algorithms in reinforcement learning (RL). Despite its widespread use, it has only been recently that researchers have begun to actively study its finite time behavior, including the finite time bound on mean squared error and sample complexity. On the empirical side, experience replay has been a key ingredient in the success of deep RL algorithms, but its theoretical effects on RL have yet to be fully understood. In this paper, we present a simple decomposition of the Markovian noise terms and provide finite-time error bounds for TD-learning with experience replay. Specifically, under the Markovian observation model, we demonstrate that for both the averaged iterate and final iterate cases, the error term induced by a constant step-size can be effectively controlled by the size of the replay buffer and the mini-batch sampled from the experience replay buffer.
翻訳日:2023-06-19 14:20:28 公開日:2023-06-16
# オフラインRLにおける自動トレードオフ適応

Automatic Trade-off Adaptation in Offline RL ( http://arxiv.org/abs/2306.09744v1 )

ライセンス: Link先を確認
Phillip Swazinna, Steffen Udluft, Thomas Runkler(参考訳) 近年,実行時の適応性を維持するオフラインRLアルゴリズムが提案されている。 例えば、ライオンのアルゴリズムである \cite{lion} は、振る舞いのクローン化と最適性の間のトレードオフを設定するインタフェースをユーザに提供する。 専門家はこのインターフェースを使って、ポリシーの振る舞いを好みに応じて適応させ、保守主義とパフォーマンス最適化のトレードオフを見出すことができます。 専門家の時間は重要なので、オートパイロットで方法論を拡張し、トレードオフの正しいパラメータ化を自動的に見つけ、AutoLIONと呼ぶ新しいアルゴリズムを生成する。

Recently, offline RL algorithms have been proposed that remain adaptive at runtime. For example, the LION algorithm \cite{lion} provides the user with an interface to set the trade-off between behavior cloning and optimality w.r.t. the estimated return at runtime. Experts can then use this interface to adapt the policy behavior according to their preferences and find a good trade-off between conservatism and performance optimization. Since expert time is precious, we extend the methodology with an autopilot that automatically finds the correct parameterization of the trade-off, yielding a new algorithm which we term AutoLION.
翻訳日:2023-06-19 14:20:13 公開日:2023-06-16
# タスク特化適応のためのパーソナライズによるメタ生成フローネットワーク

Meta Generative Flow Networks with Personalization for Task-Specific Adaptation ( http://arxiv.org/abs/2306.09742v1 )

ライセンス: Link先を確認
Xinyuan Ji, Xu Zhang, Wei Xi, Haozhi Wang, Olga Gadyatskaya, Yinchuan Li(参考訳) マルチタスク強化学習とメタ強化学習は、新しいタスクに迅速に適応するために開発されたが、より高い報酬とより頻繁な出来事を伴うタスクに集中する傾向があり、低い報酬を持つタスクに対するパフォーマンスが低下する。 この問題に対処するため、GFlowNetsは、低報酬のタスクにおけるGFlowNetsの利点を活用することで、メタ学習アルゴリズム(GFlowMeta)に統合することができる。 しかし、gflowmetaは異なるタスクからの異種遷移に遭遇するとパフォーマンスが低下する。 そこで本研究では,タスク固有のパーソナライズポリシとメタポリシを組み合わせた,pGFlowMetaというパーソナライズされたアプローチを提案する。 それぞれのパーソナライズされたポリシーは、パーソナライズされたタスクの損失とメタポリシーとの差をバランスさせ、メタポリシーは、すべてのタスクの平均損失を最小化することを目指している。 理論的解析は、アルゴリズムがサブ線形速度で収束することを示している。 大規模な実験により,提案アルゴリズムは離散環境下での最先端の強化学習アルゴリズムより優れていることが示された。

Multi-task reinforcement learning and meta-reinforcement learning have been developed to quickly adapt to new tasks, but they tend to focus on tasks with higher rewards and more frequent occurrences, leading to poor performance on tasks with sparse rewards. To address this issue, GFlowNets can be integrated into meta-learning algorithms (GFlowMeta) by leveraging the advantages of GFlowNets on tasks with sparse rewards. However, GFlowMeta suffers from performance degradation when encountering heterogeneous transitions from distinct tasks. To overcome this challenge, this paper proposes a personalized approach named pGFlowMeta, which combines task-specific personalized policies with a meta policy. Each personalized policy balances the loss on its personalized task and the difference from the meta policy, while the meta policy aims to minimize the average loss of all tasks. The theoretical analysis shows that the algorithm converges at a sublinear rate. Extensive experiments demonstrate that the proposed algorithm outperforms state-of-the-art reinforcement learning algorithms in discrete environments.
翻訳日:2023-06-19 14:20:03 公開日:2023-06-16
# 学習制約ダイナミクスのための安定化ニューラル微分方程式

Stabilized Neural Differential Equations for Learning Constrained Dynamics ( http://arxiv.org/abs/2306.09739v1 )

ライセンス: Link先を確認
Alistair White, Niki Kilbertus, Maximilian Gelbrecht, Niklas Boers(参考訳) データから動的システムを学ぶための多くの手法が最近導入された。 しかし、推定される力学が保存則や許容されたシステム状態の制限といった既知の制約を維持することは依然として困難である。 本稿では, 線形微分方程式に対する任意の多様体制約を強制する手法である安定化ニューラル微分方程式(SNDE)を提案する。 我々のアプローチは安定化項に基づいており、元の力学に加えると、制約多様体は漸近的に安定である。 その単純さから,本手法は一般の神経常微分方程式(ノード)モデルと互換性があり,広く適用可能である。 実験的な評価では、SNDEは既存の手法よりも優れており、どの種類の制約をNODEトレーニングに組み込むことができるかを拡張している。

Many successful methods to learn dynamical systems from data have recently been introduced. However, assuring that the inferred dynamics preserve known constraints, such as conservation laws or restrictions on the allowed system states, remains challenging. We propose stabilized neural differential equations (SNDEs), a method to enforce arbitrary manifold constraints for neural differential equations. Our approach is based on a stabilization term that, when added to the original dynamics, renders the constraint manifold provably asymptotically stable. Due to its simplicity, our method is compatible with all common neural ordinary differential equation (NODE) models and broadly applicable. In extensive empirical evaluations, we demonstrate that SNDEs outperform existing methods while extending the scope of which types of constraints can be incorporated into NODE training.
翻訳日:2023-06-19 14:19:42 公開日:2023-06-16
# 自然言語処理とネットワークを用いた構造化文献レビューの自動化:農家の気候変化適応への応用

Using Natural Language Processing and Networks to Automate Structured Literature Reviews: An Application to Farmers Climate Change Adaptation ( http://arxiv.org/abs/2306.09737v1 )

ライセンス: Link先を確認
Sofia Gil-Clavel and Tatiana Filatova(参考訳) 研究論文が急速に増えているため、研究者は専門分野に関する新たな発見を追跡することは問題視されている。 さらに、急速に発展する分野における知識のリンクは、学際的な解決を求める気候変動のような複雑なトピックにおいて困難になる。 同時に、ブラックボックス形式のテキスト要約の出現は、因果関係の概念化と仮説化を許容する既存の理論とは無関係に、テキスト関係がどのように構築されているかを理解するのを難しくする。 本研究の目的は,変数関係を抽出し,それらの知見をネットワークを用いて合成することで,自然言語処理をセンシティブに利用することである。 一例として,本手法を気候変動に対する農家の適応分析に適用する。 このため,2022年8月にscopusが返却した出版物の自然言語処理分析を行う。 その結果,自然言語処理を記述的手法でネットワークと併用することで,研究者が理論を裏付ける限り,文献レビューの結果を高速かつ解釈可能な方法で合成できることがわかった。

The fast-growing number of research articles makes it problematic for scholars to keep track of the new findings related to their areas of expertise. Furthermore, linking knowledge across disciplines in rapidly developing fields becomes challenging for complex topics like climate change that demand interdisciplinary solutions. At the same time, the rise of Black Box types of text summarization makes it difficult to understand how text relationships are built, let alone relate to existing theories conceptualizing cause-effect relationships and permitting hypothesizing. This work aims to sensibly use Natural Language Processing by extracting variables relations and synthesizing their findings using networks while relating to key concepts dominant in relevant disciplines. As an example, we apply our methodology to the analysis of farmers' adaptation to climate change. For this, we perform a Natural Language Processing analysis of publications returned by Scopus in August 2022. Results show that the use of Natural Language Processing together with networks in a descriptive manner offers a fast and interpretable way to synthesize literature review findings as long as researchers back up results with theory.
翻訳日:2023-06-19 14:19:29 公開日:2023-06-16
# パラメータ効率は不十分:密集予測のためのパラメータ、メモリ、時間効率の良いアダプタチューニング

Parameter-efficient is not sufficient: Exploring Parameter, Memory, and Time Efficient Adapter Tuning for Dense Predictions ( http://arxiv.org/abs/2306.09729v1 )

ライセンス: Link先を確認
Dongshuo Yin and Xueting Han and Bin Li and Hao Feng and Jing Bai(参考訳) 事前トレーニングと微調整はコンピュータビジョン(CV)において一般的なパラダイムである。 近年,パラメータ効率変換学習(PETL)法は,学習可能なパラメータの少ない事前学習モデルから知識を伝達する際の有望な性能を示している。 その成功にもかかわらず、CVの既存のPETL手法は計算コストがかかり、トレーニング中に大量のメモリと時間コストが必要になるため、低リソースのユーザは大規模なモデルの研究や応用を行うことができない。 本稿では,パラメータ,メモリ,時間効率のよいビジュアルアダプタ(\mathrm{E^3VA}$)チューニングを提案し,この問題に対処する。 凍結した事前学習パラメータに対する大きな勾配計算を除去し、トレーニングメモリとトレーニング時間を大幅に節約する低ランクアダプタ用勾配バックプロパゲーションハイウェイを提供する。 さらに、モデル性能を促進するために、高密度予測タスクに対して$\mathrm{E^3VA}$構造を最適化する。 COCO、ADE20K、Pascal VOCベンチマークの大規模な実験によると、$\mathrm{E^3VA}$は62.2%のトレーニングメモリと26.2%のトレーニング時間を平均で節約でき、PETLメソッドよりも完全な微調整と優れたパフォーマンスを達成する。 トレーニング可能なパラメータが1.5%未満のGTX 1080Ti GPU上で、Swin-LargeベースのCascade Mask RCNNをトレーニングすることも可能です。

Pre-training & fine-tuning is a prevalent paradigm in computer vision (CV). Recently, parameter-efficient transfer learning (PETL) methods have shown promising performance in transferring knowledge from pre-trained models with only a few trainable parameters. Despite their success, the existing PETL methods in CV can be computationally expensive and require large amounts of memory and time cost during training, which limits low-resource users from conducting research and applications on large models. In this work, we propose Parameter, Memory, and Time Efficient Visual Adapter ($\mathrm{E^3VA}$) tuning to address this issue. We provide a gradient backpropagation highway for low-rank adapters which removes large gradient computations for the frozen pre-trained parameters, resulting in substantial savings of training memory and training time. Furthermore, we optimise the $\mathrm{E^3VA}$ structure for dense predictions tasks to promote model performance. Extensive experiments on COCO, ADE20K, and Pascal VOC benchmarks show that $\mathrm{E^3VA}$ can save up to 62.2% training memory and 26.2% training time on average, while achieving comparable performance to full fine-tuning and better performance than most PETL methods. Note that we can even train the Swin-Large-based Cascade Mask RCNN on GTX 1080Ti GPUs with less than 1.5% trainable parameters.
翻訳日:2023-06-19 14:19:08 公開日:2023-06-16
# 光メカニカルダークマター直接検出

Optomechanical Dark Matter Direct Detection ( http://arxiv.org/abs/2306.09726v1 )

ライセンス: Link先を確認
Christopher G. Baker, Warwick P. Bowen, Peter Cox, Matthew J. Dolan, Maxim Goryachev, Glen Harris(参考訳) 低質量暗黒物質を直接検出するための新しい手法を応用したオプトメカニカルダークマターインストゥルメント(ODIN)を提案する。 我々は,超流動ヘリウムと相互作用する暗黒物質を光学的空洞で考える。 有効場理論を用いて, キャビティの高人口駆動音響モードにおいて, 暗黒物質がフォノンから散乱する速度を計算する。 この散乱過程は、フォノンを基底状態の第2音響モードに堆積させる。 堆積されたフォノン (\mu$eV range) は、ポンプレーザーとの光学的相互作用により光子(eV range)に変換される。 この光子を効率よく検出することができ、keVスケールの暗黒物質を感度よくプローブする手段を提供する。 このような実験の背景を現実的に推定し,技術的課題について議論する。 我々は、0.5 kevから300 kevまでのダークマター質量のダークマター-核子相互作用の投影限界を計算し、将来の装置は$\mathcal{o}(10^{-32})$ cm$^2$ の断面を観測できると推定した。

We propose the Optomechanical Dark-matter INstrument (ODIN), based on a new method for the direct detection of low-mass dark matter. We consider dark matter interacting with superfluid helium in an optomechanical cavity. Using an effective field theory, we calculate the rate at which dark matter scatters off phonons in a highly populated, driven acoustic mode of the cavity. This scattering process deposits a phonon into a second acoustic mode in its ground state. The deposited phonon ($\mu$eV range) is then converted to a photon (eV range) via an optomechanical interaction with a pump laser. This photon can be efficiently detected, providing a means to sensitively probe keV scale dark matter. We provide realistic estimates of the backgrounds and discuss the technical challenges associated with such an experiment. We calculate projected limits on dark matter-nucleon interactions for dark matter masses ranging from 0.5 to 300 keV and estimate that a future device could probe cross-sections as low as $\mathcal{O}(10^{-32})$ cm$^2$.
翻訳日:2023-06-19 14:18:40 公開日:2023-06-16
# 中国語の談話表現構造解析

Discourse Representation Structure Parsing for Chinese ( http://arxiv.org/abs/2306.09725v1 )

ライセンス: Link先を確認
Chunliu Wang, Xiao Zhang, Johan Bos(参考訳) それまでの研究は主に英語の単言語構文解析に重点を置いてきた。 代わりに、中国語の意味表現のためのラベル付きデータがない場合の中国語意味解析の可能性を探る。 逐次ニューラルネットワークのための線形化中国語意味表現データを自動的に収集するパイプラインについて述べる。 さらに,中国語意味解析のためのテストスイートを提案し,中国語構文解析の難易度について検討する。 実験の結果,中国語意味解析の難易度は主に副詞が原因であることがわかった。 機械翻訳と英語パーサによる中国語解析を実現することで、中国語データから直接モデルをトレーニングするよりも、少しパフォーマンスが低下する。

Previous work has predominantly focused on monolingual English semantic parsing. We, instead, explore the feasibility of Chinese semantic parsing in the absence of labeled data for Chinese meaning representations. We describe the pipeline of automatically collecting the linearized Chinese meaning representation data for sequential-to sequential neural networks. We further propose a test suite designed explicitly for Chinese semantic parsing, which provides fine-grained evaluation for parsing performance, where we aim to study Chinese parsing difficulties. Our experimental results show that the difficulty of Chinese semantic parsing is mainly caused by adverbs. Realizing Chinese parsing through machine translation and an English parser yields slightly lower performance than training a model directly on Chinese data.
翻訳日:2023-06-19 14:18:21 公開日:2023-06-16
# NLPタスクにおけるChatGPTの限界を押す

Pushing the Limits of ChatGPT on NLP Tasks ( http://arxiv.org/abs/2306.09719v1 )

ライセンス: Link先を確認
Xiaofei Sun, Linfeng Dong, Xiaoya Li, Zhen Wan, Shuhe Wang, Tianwei Zhang, Jiwei Li, Fei Cheng, Lingjuan Lyu, Fei Wu, Guoyin Wang(参考訳) ChatGPTの成功にもかかわらず、ほとんどのNLPタスクのパフォーマンスは教師付きベースラインよりかなり低い。 本研究では,(1)プロンプトのトークン制限が教師付きデータセットの完全利用を許さないこと,(2)chatgptの生成特性とnlpタスクのミスマッチ,(3)幻覚などのllmsモデルの本質的落とし穴,など,いくつかのキーワードに重きを置くこと,などが原因であることを明らかにした。 本研究では,これらの問題に対処する汎用モジュールの集合を提案し,NLPタスクにおけるChatGPTの限界を推し進める。 Our proposed modules include (1) a one-input-multiple-prompts strategy that employs multiple prompts for one input to accommodate more demonstrations; (2) using fine-tuned models for better demonstration retrieval; (3) transforming tasks to formats that are more tailored to the generation nature; (4) employing reasoning strategies that are tailored to addressing the task-specific complexity; (5) the self-verification strategy to address the hallucination issue of LLMs; (6) the paraphrase strategy to improve the robustness of model predictions. 質問応答,コモンセンス推論,自然言語推論,感情分析,名前付きエンティティ認識,エンティティ関係抽出,イベント抽出,依存関係解析,セマンティクスロールラベリング,part-of-speech tagingなど,代表的な10のnlpタスクの21のデータセットについて実験を行った。 提案手法を用いて、選択したNLPタスクにおけるChatGPTの性能を大幅に向上させ、教師付きベースラインや既存のSOTAパフォーマンスに匹敵する性能を達成することができる。

Despite the success of ChatGPT, its performances on most NLP tasks are still well below the supervised baselines. In this work, we looked into the causes, and discovered that its subpar performance was caused by the following factors: (1) token limit in the prompt does not allow for the full utilization of the supervised datasets; (2) mismatch between the generation nature of ChatGPT and NLP tasks; (3) intrinsic pitfalls of LLMs models, e.g., hallucination, overly focus on certain keywords, etc. In this work, we propose a collection of general modules to address these issues, in an attempt to push the limits of ChatGPT on NLP tasks. Our proposed modules include (1) a one-input-multiple-prompts strategy that employs multiple prompts for one input to accommodate more demonstrations; (2) using fine-tuned models for better demonstration retrieval; (3) transforming tasks to formats that are more tailored to the generation nature; (4) employing reasoning strategies that are tailored to addressing the task-specific complexity; (5) the self-verification strategy to address the hallucination issue of LLMs; (6) the paraphrase strategy to improve the robustness of model predictions. We conduct experiments on 21 datasets of 10 representative NLP tasks, including question answering, commonsense reasoning, natural language inference, sentiment analysis, named entity recognition, entity-relation extraction, event extraction, dependency parsing, semantic role labeling, and part-of-speech tagging. Using the proposed assemble of techniques, we are able to significantly boost the performance of ChatGPT on the selected NLP tasks, achieving performances comparable to or better than supervised baselines, or even existing SOTA performances.
翻訳日:2023-06-19 14:18:10 公開日:2023-06-16
# 限られた資源を持つ大言語モデルのための全パラメータ微調整

Full Parameter Fine-tuning for Large Language Models with Limited Resources ( http://arxiv.org/abs/2306.09782v1 )

ライセンス: Link先を確認
Kai Lv, Yuqing Yang, Tengxiao Liu, Qinghui Gao, Qipeng Guo, Xipeng Qiu(参考訳) 大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、トレーニングには膨大なGPUリソースを必要とする。 LLMsトレーニングのしきい値の低下は、研究者のさらなる参加を促し、アカデミックと社会の両方に利益をもたらす。 既存のアプローチではパラメータ効率の細かいチューニングに重点を置いているが、限られたリソースで LLM の完全なパラメータをチューニングするという課題に対処する者はほとんどいない。 本研究では,メモリ使用量を削減するために,勾配計算とパラメータ更新を1ステップで融合した新しい最適化器LOMOを提案する。 LOMOを既存のメモリ節約技術と統合することにより、メモリ使用量を標準手法(DeepSpeedソリューション)と比較して10.8%に削減する。 提案手法により,RTX 3090が8台,メモリが24GBの1台のマシン上で,65Bモデルの全パラメータを微調整できる。

Large Language Models (LLMs) have revolutionized Natural Language Processing (NLP) but demand massive GPU resources for training. Lowering the threshold for LLMs training would encourage greater participation from researchers, benefiting both academia and society. While existing approaches have focused on parameter-efficient fine-tuning, which tunes or adds a small number of parameters, few have addressed the challenge of tuning the full parameters of LLMs with limited resources. In this work, we propose a new optimizer, LOw-Memory Optimization (LOMO), which fuses the gradient computation and the parameter update in one step to reduce memory usage. By integrating LOMO with existing memory saving techniques, we reduce memory usage to 10.8% compared to the standard approach (DeepSpeed solution). Consequently, our approach enables the full parameter fine-tuning of a 65B model on a single machine with 8 RTX 3090, each with 24GB memory.
翻訳日:2023-06-19 14:11:33 公開日:2023-06-16
# 一般化経験的類型を用いた深部生成モデルの理解

Understanding Deep Generative Models with Generalized Empirical Likelihoods ( http://arxiv.org/abs/2306.09780v1 )

ライセンス: Link先を確認
Suman Ravuri, M\'elanie Rey, Shakir Mohamed, Marc Deisenroth(参考訳) 深層生成モデルが高次元データの分布をいかにうまく捉えるかを理解することは、まだ重要な課題である。 生成的敵対的ネットワークや拡散モデルのような特定のモデルクラスでは特に困難であり、そのモデルは正確な可能性を認めない。 本研究では,一般化経験的可能性 (GEL) 法が深部生成モデル (DGM) の多くの欠陥を識別できる診断ツール群を提供することを示した。 モーメント条件の適切な仕様により,提案手法はどのモードがドロップされたか,DGMがモード不均衡である程度,およびDGMがクラス内多様性を十分に捉えているか否かを識別できることを示す。 本稿では,最大平均不一致と一般化された経験的確率による手法を組み合わせて,サンプル毎の解釈可能性を保持する分布テストだけでなく,ラベル情報を含むメトリクスを作成する方法を示す。 このようなテストでは、精度/リコールの改善などの指標よりも、モード低下やモード不均衡の度合いが最大60%向上することがわかった。

Understanding how well a deep generative model captures a distribution of high-dimensional data remains an important open challenge. It is especially difficult for certain model classes, such as Generative Adversarial Networks and Diffusion Models, whose models do not admit exact likelihoods. In this work, we demonstrate that generalized empirical likelihood (GEL) methods offer a family of diagnostic tools that can identify many deficiencies of deep generative models (DGMs). We show, with appropriate specification of moment conditions, that the proposed method can identify which modes have been dropped, the degree to which DGMs are mode imbalanced, and whether DGMs sufficiently capture intra-class diversity. We show how to combine techniques from Maximum Mean Discrepancy and Generalized Empirical Likelihood to create not only distribution tests that retain per-sample interpretability, but also metrics that include label information. We find that such tests predict the degree of mode dropping and mode imbalance up to 60% better than metrics such as improved precision/recall.
翻訳日:2023-06-19 14:11:18 公開日:2023-06-16
# グラデーションは必要か?

Gradient is All You Need? ( http://arxiv.org/abs/2306.09778v1 )

ライセンス: Link先を確認
Konstantin Riedl, Timo Klock, Carina Geldhauser, Massimo Fornasier(参考訳) 本稿では,最近提案された多粒子微分自由最適化法であるコンセンサスベース最適化(cbo)を,勾配降下の確率的緩和として解釈することにより,勾配ベース学習アルゴリズムの理論的理解に関する新たな分析的視点を提案する。 驚くべきことに, cboは粒子間のコミュニケーションを通じて, 目的関数の評価のみに依存するにもかかわらず, 確率勾配降下 (sgd) のような挙動を示す。 このような cbo と sgd のリンクの基本的な価値は、cbo が非スムースおよび非凸対象関数の豊富なクラスに対する大域的最小値に対して大域的に収束するという事実であり、従って一方では、勾配降下の確率的緩和の成功の新たな説明を提供する。 一方,ゼロ次法が非効率であるべきか,一般化能力を持つべきでないという従来の知識とは対照的に,このようなヒューリスティックスの固有勾配降下特性を明らかにした。 この視点はさらに、非凸函数の風景の複雑さを緩和する非線形非局所偏微分方程式を通じて平均場極限の力学を記述するcboの作業原理に対する以前の知見を補う。 我々の証明は、ラプラス原理(log-sum-exp trick)と最小化運動スキーム(proximal iteration)を組み合わせた、完全に非滑らかな解析を利用する。 そこで我々は,勾配降下の確率的摂動がエネルギー障壁を克服し,非凸関数の深いレベルに達する方法について,有用かつ正確な知見を得る。 指導的な数値挿絵は、理論的な洞察を提供する。

In this paper we provide a novel analytical perspective on the theoretical understanding of gradient-based learning algorithms by interpreting consensus-based optimization (CBO), a recently proposed multi-particle derivative-free optimization method, as a stochastic relaxation of gradient descent. Remarkably, we observe that through communication of the particles, CBO exhibits a stochastic gradient descent (SGD)-like behavior despite solely relying on evaluations of the objective function. The fundamental value of such link between CBO and SGD lies in the fact that CBO is provably globally convergent to global minimizers for ample classes of nonsmooth and nonconvex objective functions, hence, on the one side, offering a novel explanation for the success of stochastic relaxations of gradient descent. On the other side, contrary to the conventional wisdom for which zero-order methods ought to be inefficient or not to possess generalization abilities, our results unveil an intrinsic gradient descent nature of such heuristics. This viewpoint furthermore complements previous insights into the working principles of CBO, which describe the dynamics in the mean-field limit through a nonlinear nonlocal partial differential equation that allows to alleviate complexities of the nonconvex function landscape. Our proofs leverage a completely nonsmooth analysis, which combines a novel quantitative version of the Laplace principle (log-sum-exp trick) and the minimizing movement scheme (proximal iteration). In doing so, we furnish useful and precise insights that explain how stochastic perturbations of gradient descent overcome energy barriers and reach deep levels of nonconvex functions. Instructive numerical illustrations support the provided theoretical insights.
翻訳日:2023-06-19 14:11:00 公開日:2023-06-16
# oribaでクリエイティビティを刺激する: 大きな言語モデルでアーティストのオリジナルキャラクターをチャットボットに変える

Inspire creativity with ORIBA: Transform Artists' Original Characters into Chatbots through Large Language Model ( http://arxiv.org/abs/2306.09776v1 )

ライセンス: Link先を確認
Yuqian Sun, Xingyu Li, Ze Gao(参考訳) この研究は、イラストアートと人工知能(AI)の交差点を掘り下げ、イラストレーターが元のキャラクター(OC)を具現化するAIエージェントとどのように関わるかに焦点を当てている。 我々は、イラストレーターがOCと会話できるカスタマイズ可能なAIチャットボット「ORIBA」を紹介した。 このアプローチにより、アーティストはocsから応答を受け取るだけでなく、内的モノローグや行動も観察できる。 アーティストとAIの緊張にもかかわらず、我々の研究はイラストレーターに刺激を与える革新的なコラボレーション方法を模索している。 創造的なプロセスと著者の境界に対するAIの影響を調べることで、私たちは創造的な分野における人間とAIの相互作用を強化することを目指しています。

This research delves into the intersection of illustration art and artificial intelligence (AI), focusing on how illustrators engage with AI agents that embody their original characters (OCs). We introduce 'ORIBA', a customizable AI chatbot that enables illustrators to converse with their OCs. This approach allows artists to not only receive responses from their OCs but also to observe their inner monologues and behavior. Despite the existing tension between artists and AI, our study explores innovative collaboration methods that are inspiring to illustrators. By examining the impact of AI on the creative process and the boundaries of authorship, we aim to enhance human-AI interactions in creative fields, with potential applications extending beyond illustration to interactive storytelling and more.
翻訳日:2023-06-19 14:10:30 公開日:2023-06-16
# サイズグリッド構築と管理の自動化のための機械学習手法

Using Machine Learning Methods for Automation of Size Grid Building and Management ( http://arxiv.org/abs/2306.09775v1 )

ライセンス: Link先を確認
Salim Yunus, Dries Benoit and Filipa Peleja(参考訳) ファッションアパレル企業は、サプライチェーン管理のために1年前から、来年の計画を必要としている。 本研究では,Levi Strauss のサイズ選択決定に焦点をあてる。 現在、リージョンとプランニンググループレベルのサイズグリッドは手動で構築および管理されている。 同社は、サイズ、商業、計画チームの作業負荷に悩まされている。 この研究は、2つの研究課題に答えることを目的としている:「次のシーズンは、各サイズのグリッド名の下のプランナーがどのサイズを利用できるべきか?」と、「次のシーズンの各プランニンググループでどのサイズを採用するべきか?」である。 機械学習でよく使われるモデルの1つである分類モデルを用いて,この問題にアプローチする。 この研究により、機械学習技術を用いてより自動化されたプロセスが作成された。 企業内のチームの作業負荷の削減は、それが実行された後に期待されます。 ファッションやアパレル産業に関する多くの研究とは異なり、本研究は在庫保持単位が一定の大きさの製品を表すサイズに焦点を当てている。

Fashion apparel companies require planning for the next season, a year in advance for supply chain management. This study focuses on size selection decision making for Levi Strauss. Currently, the region and planning group level size grids are built and managed manually. The company suffers from the workload it creates for sizing, merchant and planning teams. This research is aiming to answer two research questions: "Which sizes should be available to the planners under each size grid name for the next season(s)?" and "Which sizes should be adopted for each planning group for the next season(s)?". We approach to the problem with a classification model, which is one of the popular models used in machine learning. With this research, a more automated process was created by using machine learning techniques. A decrease in workload of the teams in the company is expected after it is put into practice. Unlike many studies in the state of art for fashion and apparel industry, this study focuses on sizes where the stock keeping unit represents a product with a certain size.
翻訳日:2023-06-19 14:10:17 公開日:2023-06-16
# union$\unicode{x2013}$find 量子デコード - union$\unicode{x2013}$find

Union$\unicode{x2013}$find quantum decoding without union$\unicode{x2013}$find ( http://arxiv.org/abs/2306.09767v1 )

ライセンス: Link先を確認
Sam J. Griffiths and Dan E. Browne(参考訳) union$\unicode{x2013}$findデコーダは、表面コード上の量子エラーの修正のためのアルゴリズム的手法であり、物理キュービット数でニアリニアにスケーリングする償却計算時間を持つ最小ウェイト完全マッチング(mwpm)に匹敵するコードしきい値を達成する。 この複雑さはdisjoint-setデータ構造によって提供される最適化によって達成される。 しかしながら,大規模デコーダの動作は,このデータ構造を解析的・アルゴリズム的な2つの理由から活用し,アーキテクチャ設計に改良や単純化を施し,リソースオーバヘッドを実際に削減できることを実証する。 これを強化するため、デコーダによって形成される消去クラスタの挙動をモデル化し、いかなる動作モードにおいてもデータ構造内にパーコレーションしきい値が存在しないことを示す。 これにより、一般的な最適化を省略したナイーブな実装であっても、大規模なデコーダでは線形時最悪ケースが複雑になる。

The union$\unicode{x2013}$find decoder is a leading algorithmic approach to the correction of quantum errors on the surface code, achieving code thresholds comparable to minimum-weight perfect matching (MWPM) with amortised computational time scaling near-linearly in the number of physical qubits. This complexity is achieved via optimisations provided by the disjoint-set data structure. We demonstrate, however, that the behaviour of the decoder at scale underutilises this data structure for twofold analytic and algorithmic reasons, and that improvements and simplifications can be made to architectural designs to reduce resource overhead in practice. To reinforce this, we model the behaviour of erasure clusters formed by the decoder and show that there does not exist a percolation threshold within the data structure for any mode of operation. This yields a linear-time worst-case complexity for the decoder at scale, even with a naive implementation omitting popular optimisations.
翻訳日:2023-06-19 14:10:01 公開日:2023-06-16
# ビッグデータの神話:拡散モデルを用いたデータセット生成による深部検出モデルの訓練

The Big Data Myth: Using Diffusion Models for Dataset Generation to Train Deep Detection Models ( http://arxiv.org/abs/2306.09762v1 )

ライセンス: Link先を確認
Roy Voetman and Maya Aghaei and Klaas Dijkstra(参考訳) 深層物体検出モデルの注目すべき成果にもかかわらず、継続する大きな課題は、大量のトレーニングデータの要求である。 このような実世界のデータを取得するプロセスは大変な作業であり、研究者たちは合成データ生成技術のような新しい研究の道を探究している。 本研究は, 微調整による安定拡散モデルによる合成データセット生成のための枠組みを提案する。 合成データセットは手動で注釈付けされ、さまざまなオブジェクト検出モデルのトレーニングに使用される。 これらの検出器は実世界の331画像のテストセットで評価され、実世界の画像で訓練されたベースラインモデルと比較される。 本研究の結果から, 合成データを用いた物体検出モデルは, ベースラインモデルと同様の性能を示すことがわかった。 果樹園におけるリンゴ検出の文脈では、ベースラインの平均精度の偏差は0.09から0.12である。 本研究は,深層モデルの学習のための広範囲なトレーニングデータ収集の代替として,合成データ生成技術の可能性を示す。

Despite the notable accomplishments of deep object detection models, a major challenge that persists is the requirement for extensive amounts of training data. The process of procuring such real-world data is a laborious undertaking, which has prompted researchers to explore new avenues of research, such as synthetic data generation techniques. This study presents a framework for the generation of synthetic datasets by fine-tuning pretrained stable diffusion models. The synthetic datasets are then manually annotated and employed for training various object detection models. These detectors are evaluated on a real-world test set of 331 images and compared against a baseline model that was trained on real-world images. The results of this study reveal that the object detection models trained on synthetic data perform similarly to the baseline model. In the context of apple detection in orchards, the average precision deviation with the baseline ranges from 0.09 to 0.12. This study illustrates the potential of synthetic data generation techniques as a viable alternative to the collection of extensive training data for the training of deep models.
翻訳日:2023-06-19 14:09:41 公開日:2023-06-16
# 多様性を考慮したデータの生成と共有のための研究基盤

A research infrastructure for generating and sharing diversity-aware data ( http://arxiv.org/abs/2306.09759v1 )

ライセンス: Link先を確認
Matteo Busso, Ronal Chenu Abente Acosta and Amalia de G\"otzen(参考訳) 日常生活における人々の多様性の側面をコンピュータ化する傾向に伴う個人データの集中的な流れは、人々の保護と新しい技術への信頼だけでなく、データ分析や管理や再利用における問題のバイアスとも関係している。 複雑な問題に直面した戦略は、技術やサービスを含む、しばしば個々の側面に焦点を当てるが、これはより広いフレームワークに統合するのが困難であり、研究者や開発者にとって効果的なサポートとなる可能性がある。 そこで,我々は,市民科学コミュニティにおいて,信頼性の高い多様性対応データを可能にするエンドツーエンド研究基盤(ri)の開発を議論する。

The intensive flow of personal data associated with the trend of computerizing aspects of people's diversity in their daily lives is associated with issues concerning not only people protection and their trust in new technologies, but also bias in the analysis of data and problems in their management and reuse. Faced with a complex problem, the strategies adopted, including technologies and services, often focus on individual aspects, which are difficult to integrate into a broader framework, which can be of effective support for researchers and developers. Therefore, we argue for the development of an end-to-end research infrastructure (RI) that enables trustworthy diversity-aware data within a citizen science community.
翻訳日:2023-06-19 14:09:27 公開日:2023-06-16
# 多様性を考慮したデータ収集のためのコンテキストモデル

A context model for collecting diversity-aware data ( http://arxiv.org/abs/2306.09753v1 )

ライセンス: Link先を確認
Matteo Busso and Xiaoyue Li(参考訳) 多様性を意識したデータは、コンテキストにおける人間の行動の堅牢なモデリングに不可欠である。 加えて、多くのアプリケーションに対する人間の振る舞いとして、データは解釈の多様性を保証するために、ドメイン全体で再利用されなければならない。 現在のデータ収集技術は、人々の多様性の部分的な表現のみを可能にし、再利用が難しいデータを生成することが多い。 このギャップを埋めるため,我々は,データ再利用性を実現する包括的オントロジなコンテキスト概念に基づく,ハイブリッドマシン・人工知能アプローチとその関連データセットを用いたデータ収集手法を提案する。 データセットには158人の参加者のサンプルがあり、iLogスマートフォンアプリケーション経由で収集される。 このデバイスには170GB以上の主観的および客観的なデータが含まれており、27個のスマートフォンセンサーが参加者のコンテキストに168,095個の自己申告されたアノテーションに関連付けられている。 データセットは、さまざまなアプリケーションで示されるように、非常に再利用性が高い。

Diversity-aware data are essential for a robust modeling of human behavior in context. In addition, being the human behavior of interest for numerous applications, data must also be reusable across domain, to ensure diversity of interpretations. Current data collection techniques allow only a partial representation of the diversity of people and often generate data that is difficult to reuse. To fill this gap, we propose a data collection methodology, within a hybrid machine-artificial intelligence approach, and its related dataset, based on a comprehensive ontological notion of context which enables data reusability. The dataset has a sample of 158 participants and is collected via the iLog smartphone application. It contains more than 170 GB of subjective and objective data, which comes from 27 smartphone sensors that are associated with 168,095 self-reported annotations on the participants context. The dataset is highly reusable, as demonstrated by its diverse applications.
翻訳日:2023-06-19 14:09:17 公開日:2023-06-16
# ポリテネスステレオタイプと攻撃ベクトル:日本語と韓国語モデルにおけるジェンダーステレオタイプ

Politeness Stereotypes and Attack Vectors: Gender Stereotypes in Japanese and Korean Language Models ( http://arxiv.org/abs/2306.09752v1 )

ライセンス: Link先を確認
Victor Steinborn and Antonis Maronikolakis and Hinrich Sch\"utze(参考訳) 大規模言語モデルの急速な進歩と利用に追従するため、NLPではジェンダーバイアス研究が一般的になりつつある。 しかし、非英語バイアス研究はまだ初期段階であり、ほとんどの研究は英語に焦点を当てている。 本研究では,日本語モデルと韓国語モデルにおいて,丁寧度に関する文法的性別バイアスがどのように現れるかを検討した。 これらの言語の言語学的研究は、性別バイアスと丁寧さレベルとの関係を特定しているが、言語モデルがこれらのバイアスを再現するかどうかはまだ分かっていない。 テンプレートを用いて男女の文法的ジェンダーの相対的予測確率を解析し,男性文法的ジェンダーが最も顕著であるのに対し,男性文法的ジェンダーは礼儀正しい言葉が最も顕著であることを示す。 さらに,サイバーいじめ検出モデルにおける性別偏差に対する攻撃ベクトルとして,丁寧さレベルを見出した。 サイバーバブルは、丁寧なレベルを悪用する単純な手法によって検出を回避できる。 攻撃データセットを紹介します (i)礼儀正しいレベルにわたって表象性バイアスを識別する。 (ii) サイバーいじめ検出モデルを回避するためにジェンダーバイアスがいかに悪用されるかを示し、 (iii)提案するデータセット上でのトレーニングにより,割当バイアスを軽減できることを示す。 本研究は, 偏見研究の重要性を, 現在の英語中心主義を超えて強調する。

In efforts to keep up with the rapid progress and use of large language models, gender bias research is becoming more prevalent in NLP. Non-English bias research, however, is still in its infancy with most work focusing on English. In our work, we study how grammatical gender bias relating to politeness levels manifests in Japanese and Korean language models. Linguistic studies in these languages have identified a connection between gender bias and politeness levels, however it is not yet known if language models reproduce these biases. We analyze relative prediction probabilities of the male and female grammatical genders using templates and find that informal polite speech is most indicative of the female grammatical gender, while rude and formal speech is most indicative of the male grammatical gender. Further, we find politeness levels to be an attack vector for allocational gender bias in cyberbullying detection models. Cyberbullies can evade detection through simple techniques abusing politeness levels. We introduce an attack dataset to (i) identify representational gender bias across politeness levels, (ii) demonstrate how gender biases can be abused to bypass cyberbullying detection models and (iii) show that allocational biases can be mitigated via training on our proposed dataset. Through our findings we highlight the importance of bias research moving beyond its current English-centrism.
翻訳日:2023-06-19 14:09:03 公開日:2023-06-16
# FALL-E:フォリー音響合成モデルと戦略

FALL-E: A Foley Sound Synthesis Model and Strategies ( http://arxiv.org/abs/2306.09807v1 )

ライセンス: Link先を確認
Minsung Kang, Sangshin Oh, Hyeongi Moon, Kyungyun Lee, Ben Sangbae Chon(参考訳) 本稿では,フォリー合成システムFALL-Eとそのトレーニング/推論戦略を紹介する。 FALL-Eモデルは、低分解能スペクトログラム生成、スペクトル超解像、ボコーダからなるカスケード方式を採用している。 広範なデータセットを使用して、すべての音声関連モデルをスクラッチからトレーニングし、事前学習した言語モデルを使用しました。 我々はデータセット固有のテキストでモデルを条件付けし、テキスト入力に基づいて音質と記録環境を学習できるようにした。 さらに,外部言語モデルを利用してデータセットのテキスト記述を改善し,品質,コヒーレンス,多様性のための迅速なエンジニアリングを行った。 FALL-Eは、DCASE 2023のタスク7における聴取試験と同様に客観的な尺度によって評価された。 この提案は、ダイバーシティーのベストスコア、オーディオ品質の2位、フィットネスのクラスで3位を獲得しながら、平均で2位を達成した。

This paper introduces FALL-E, a foley synthesis system and its training/inference strategies. The FALL-E model employs a cascaded approach comprising low-resolution spectrogram generation, spectrogram super-resolution, and a vocoder. We trained every sound-related model from scratch using our extensive datasets, and utilized a pre-trained language model. We conditioned the model with dataset-specific texts, enabling it to learn sound quality and recording environment based on text input. Moreover, we leveraged external language models to improve text descriptions of our datasets and performed prompt engineering for quality, coherence, and diversity. FALL-E was evaluated by an objective measure as well as listening tests in the DCASE 2023 challenge Task 7. The submission achieved the second place on average, while achieving the best score for diversity, second place for audio quality, and third place for class fitness.
翻訳日:2023-06-19 14:02:18 公開日:2023-06-16
# 観察から学ぶサンプル効率のオンポリシィ・イミテーション

Sample-Efficient On-Policy Imitation Learning from Observations ( http://arxiv.org/abs/2306.09805v1 )

ライセンス: Link先を確認
Jo\~ao A. C\^andido Ramos, Lionel Blond\'e, Naoya Takeishi and Alexandros Kalousis(参考訳) 実演からの模倣学習(ILD)は、実演による強化学習の多くの欠点を軽減することを目的としている。 しかし、現実世界のほとんどのアプリケーションでは専門家のアクションガイダンスがないため、IDDの使用は不可能である。 代わりに、専門家のアクションが提供されない観察(ilo)からの模倣学習を検討すれば、対処がはるかに難しい問題になります。 既存の手法では、サンプルコストで知られているオンポリシー学習を用いることが多い。 本稿では,標準対向模倣学習と逆動力学モデリングを組み合わせた,新しいILOのサンプル効率向上アルゴリズムSEILOを提案する。 このアプローチにより、エージェントは、逆行手順と行動クローン損失の両方からフィードバックを受け取ることができる。 提案するアルゴリズムは,他の最先端のILO法やILD法と比較して,環境とのインタラクションが少ないことを実証的に実証した。

Imitation learning from demonstrations (ILD) aims to alleviate numerous shortcomings of reinforcement learning through the use of demonstrations. However, in most real-world applications, expert action guidance is absent, making the use of ILD impossible. Instead, we consider imitation learning from observations (ILO), where no expert actions are provided, making it a significantly more challenging problem to address. Existing methods often employ on-policy learning, which is known to be sample-costly. This paper presents SEILO, a novel sample-efficient on-policy algorithm for ILO, that combines standard adversarial imitation learning with inverse dynamics modeling. This approach enables the agent to receive feedback from both the adversarial procedure and a behavior cloning loss. We empirically demonstrate that our proposed algorithm requires fewer interactions with the environment to achieve expert performance compared to other state-of-the-art on-policy ILO and ILD methods.
翻訳日:2023-06-19 14:02:02 公開日:2023-06-16
# 組合せおよび混合変数ベイズ最適化のためのフレームワークとベンチマーク

Framework and Benchmarks for Combinatorial and Mixed-variable Bayesian Optimization ( http://arxiv.org/abs/2306.09803v1 )

ライセンス: Link先を確認
Kamil Dreczkowski, Antoine Grosnit, Haitham Bou Ammar(参考訳) 本稿では,Mixed-variable and Combinatorial Bayesian Optimization (MCBO) のためのモジュラーフレームワークを提案する。 現在のMCBO論文では、異なるMCBOプリミティブとそれらの組み合わせの適切な評価を妨げるため、その手法を評価するために、多変量または非標準ベンチマークを導入することが多い。 さらに、単一のMCBOプリミティブのソリューションを導入する論文では、残りのプリミティブと同じメソッドを使用するベースラインに対するベンチマークを省略することが多い。 この省略は、主に実装上のオーバーヘッドが大きく、結果として制御された評価の欠如と、貢献のメリットを効果的に示すことができないためである。 これらの課題を克服するため,提案フレームワークはベイズ最適化コンポーネントの無益な組み合わせを可能にし,多種多様な合成および実世界のベンチマークタスクを提供する。 この柔軟性を活用して、47個の新しいMCBOアルゴリズムを実装し、7つの既存のMCBOソルバと5つの標準ブラックボックス最適化アルゴリズムに対してベンチマークを行い、4000以上の実験を行った。 以上の結果から,mcboプリミティブは既存手法よりも優れた組み合わせを示し,モデル適合の重要性と信頼領域の利用を明らかにした。 MCBOライブラリをMITライセンス下で,‘url{https://github.com/huawei-noah/HEBO/tree/master/MCBO}’で公開しています。

This paper introduces a modular framework for Mixed-variable and Combinatorial Bayesian Optimization (MCBO) to address the lack of systematic benchmarking and standardized evaluation in the field. Current MCBO papers often introduce non-diverse or non-standard benchmarks to evaluate their methods, impeding the proper assessment of different MCBO primitives and their combinations. Additionally, papers introducing a solution for a single MCBO primitive often omit benchmarking against baselines that utilize the same methods for the remaining primitives. This omission is primarily due to the significant implementation overhead involved, resulting in a lack of controlled assessments and an inability to showcase the merits of a contribution effectively. To overcome these challenges, our proposed framework enables an effortless combination of Bayesian Optimization components, and provides a diverse set of synthetic and real-world benchmarking tasks. Leveraging this flexibility, we implement 47 novel MCBO algorithms and benchmark them against seven existing MCBO solvers and five standard black-box optimization algorithms on ten tasks, conducting over 4000 experiments. Our findings reveal a superior combination of MCBO primitives outperforming existing approaches and illustrate the significance of model fit and the use of a trust region. We make our MCBO library available under the MIT license at \url{https://github.com/huawei-noah/HEBO/tree/master/MCBO}.
翻訳日:2023-06-19 14:01:45 公開日:2023-06-16
# red$^{\rm fm}$:フィルタ付きおよび多言語関係抽出データセット

RED$^{\rm FM}$: a Filtered and Multilingual Relation Extraction Dataset ( http://arxiv.org/abs/2306.09802v1 )

ライセンス: Link先を確認
Pere-Llu\'is Huguet Cabot and Simone Tedeschi and Axel-Cyrille Ngonga Ngomo and Roberto Navigli(参考訳) 関係抽出(re)は、テキスト内のエンティティ間の関係を識別し、関係事実の獲得を可能にし、自然言語と構造化知識の間のギャップを埋めるタスクである。 しかしながら、現在のREモデルは、特に英語以外の言語を扱う場合、関係型の少ない小さなデータセットに依存することが多い。 本稿では、上記の課題に対処し、多言語REシステムのトレーニングと評価を可能にする2つの新しいリソースを提供する。 まず、SRED$^{\rm FM}$という18の言語、400の関連型、13のエンティティ型、4000万以上のトリプルトインスタンスを含む自動アノテーション付きデータセットを提示します。 第2にRED$^{\rm FM}$は、多言語REシステムの評価を可能にする7言語のための、より小さく、人間による改訂されたデータセットである。 これらの新しいデータセットの有用性を実証するために、複数の言語で三つ子を抽出する最初のエンドツーエンド多言語REモデルmREBELを実験した。 私たちはリソースとモデルのチェックポイントをhttps://www.github.com/babelscape/rebelでリリースします。

Relation Extraction (RE) is a task that identifies relationships between entities in a text, enabling the acquisition of relational facts and bridging the gap between natural language and structured knowledge. However, current RE models often rely on small datasets with low coverage of relation types, particularly when working with languages other than English. In this paper, we address the above issue and provide two new resources that enable the training and evaluation of multilingual RE systems. First, we present SRED$^{\rm FM}$, an automatically annotated dataset covering 18 languages, 400 relation types, 13 entity types, totaling more than 40 million triplet instances. Second, we propose RED$^{\rm FM}$, a smaller, human-revised dataset for seven languages that allows for the evaluation of multilingual RE systems. To demonstrate the utility of these novel datasets, we experiment with the first end-to-end multilingual RE model, mREBEL, that extracts triplets, including entity types, in multiple languages. We release our resources and model checkpoints at https://www.github.com/babelscape/rebel
翻訳日:2023-06-19 14:01:09 公開日:2023-06-16
# semantics-aware active vision を用いた植物関連部品の効率的な探索と検出

Efficient Search and Detection of Relevant Plant Parts using Semantics-Aware Active Vision ( http://arxiv.org/abs/2306.09801v1 )

ライセンス: Link先を確認
Akshay K. Burusa, Joost Scholten, David Rapado Rincon, Xin Wang, Eldert J. van Henten, Gert Kootstra(参考訳) ロボットを用いたトマトの収穫・脱リーフィングの自動化には,トマト,ペデュンクル,ペピオレスといった関連植物部位の探索と検出が重要である。 トマト温室の閉塞度が高いため、これは困難である。 アクティブビジョンは、ロボットが故意にカメラの視点を計画し、閉塞を克服し、知覚精度を向上させるための有望なアプローチである。 しかし、現在の能動画像アルゴリズムでは、関連する植物部品と無関係な植物部品を区別できないため、特定の植物部品をターゲットとする認識には非効率である。 本稿では,意味情報を用いて植物を識別し,アテンションメカニズムを用いたビュープランニング中に優先順位付けを行うセマンティックアクティブビジョン戦略を提案する。 実世界のオクルージョンをよく表す構造的複雑さの異なるトマトの3次元モデルを用いて,我々の戦略を評価した。 再現性と統計的意義を保証しながら、シミュレートされた環境を使って戦略の洞察を得ました。 10視点の最後には, プラントの85.5%を正確に検出し, 体積アクティブビジョンの戦略と比較して, プラント当たり平均で約4つの部品を検出できた。 また、事前定義された2つの戦略と、ランダムな戦略よりも11つの戦略より5と9が検出された。 また、96の実験で88.9%の精度で検出された被写体で確実に行われた。 また, 植物および植物部分の位置の不確実性, 植物の複雑性, 視点の異なるサンプリング戦略についても, 本戦略は堅牢であった。 我々は,トマト生産における自動収穫・脱葉の速度と堅牢性を大幅に向上させることができると考えている。

To automate harvesting and de-leafing of tomato plants using robots, it is important to search and detect the relevant plant parts, namely tomatoes, peduncles, and petioles. This is challenging due to high levels of occlusion in tomato greenhouses. Active vision is a promising approach which helps robots to deliberately plan camera viewpoints to overcome occlusion and improve perception accuracy. However, current active-vision algorithms cannot differentiate between relevant and irrelevant plant parts, making them inefficient for targeted perception of specific plant parts. We propose a semantic active-vision strategy that uses semantic information to identify the relevant plant parts and prioritises them during view planning using an attention mechanism. We evaluated our strategy using 3D models of tomato plants with varying structural complexity, which closely represented occlusions in the real world. We used a simulated environment to gain insights into our strategy, while ensuring repeatability and statistical significance. At the end of ten viewpoints, our strategy was able to correctly detect 85.5% of the plant parts, about 4 parts more on average per plant compared to a volumetric active-vision strategy. Also, it detected 5 and 9 parts more compared to two predefined strategies and 11 parts more compared to a random strategy. It also performed reliably with a median of 88.9% correctly-detected objects per plant in 96 experiments. Our strategy was also robust to uncertainty in plant and plant-part position, plant complexity, and different viewpoint sampling strategies. We believe that our work could significantly improve the speed and robustness of automated harvesting and de-leafing in tomato crop production.
翻訳日:2023-06-19 14:00:38 公開日:2023-06-16
# $\pi2\text{vec}$: 継承機能付きポリシー表現

$\pi2\text{vec}$: Policy Representations with Successor Features ( http://arxiv.org/abs/2306.09800v1 )

ライセンス: Link先を確認
Gianluca Scarpellini, Ksenia Konyushkova, Claudio Fantacci, Tom Le Paine, Yutian Chen, Misha Denil(参考訳) 本稿では,ブラックボックスポリシーの挙動を特徴ベクトルとして表現する手法である$\pi2\text{vec}$について述べる。 ポリシー表現は、基本モデルの統計が、タスクに依存しない方法でポリシー行動に応答してどのように変化するかを捉え、オフラインデータからトレーニングし、オフラインポリシー選択で使用することができる。 この研究は、オフラインのRLに対抗してオフラインポリシー評価、汎用的で強力な状態表現としての基盤モデル、リソース制約された環境における効率的なポリシー選択という、3つの近代的な研究を融合するためのレシピの重要な要素を提供する。

This paper describes $\pi2\text{vec}$, a method for representing behaviors of black box policies as feature vectors. The policy representations capture how the statistics of foundation model features change in response to the policy behavior in a task agnostic way, and can be trained from offline data, allowing them to be used in offline policy selection. This work provides a key piece of a recipe for fusing together three modern lines of research: Offline policy evaluation as a counterpart to offline RL, foundation models as generic and powerful state representations, and efficient policy selection in resource constrained environments.
翻訳日:2023-06-19 13:59:44 公開日:2023-06-16
# すべての単光子状態に対するエネルギー密度の非局所性

Non-locality of the energy density for all single-photon states ( http://arxiv.org/abs/2306.09793v1 )

ライセンス: Link先を確認
Maxime Federico and Hans-Rudolf Jauslin(参考訳) 非局所性は単一光子状態の確立された性質である。 様々な手法で理論的に証明されている。 本稿では、電磁エネルギー密度を観測可能とし、周波数演算子 $\omega=c(-\delta)^{1/2}$ の反局所性に基づくデモンストレーションを提案する。 この証明は、全ての単光子状態に対して完全に一般的であり、文献の初期の証明は、ある一様局在条件または特定の電気的および磁気的局在制限を持つ特定の場合に限られていた。

The non-locality is a well-established property of single-photon states. It has been demonstrated theoretically using various approaches. In this article, we propose a demonstration based on the electromagnetic energy density observable and on the anti-local property of the frequency operator $\Omega=c(-\Delta)^{1/2}$. The present proof is completely general for all single-photon states while earlier proofs in the literature were limited to particular cases, either with some uniform localization condition or with some particular electric and magnetic localization restrictions.
翻訳日:2023-06-19 13:59:30 公開日:2023-06-16
# GPINN: グラフ埋め込みを用いた物理情報ニューラルネットワーク

GPINN: Physics-informed Neural Network with Graph Embedding ( http://arxiv.org/abs/2306.09792v1 )

ライセンス: Link先を確認
Yuyang Miao, Haolin Li(参考訳) 本稿では、グラフ埋め込み(gpinn)を用いた物理学的なニューラルネットワークフレームワークを提案し、従来のユークリッド空間ではなく、グラフ内のピン(すなわち位相空間)を実行し、問題解決効率を向上させる。 この手法は、トポロジカルデータをニューラルネットワークの計算に統合し、物理情報ニューラルネットワーク(PINN)の性能を大幅に向上させる。 グラフ埋め込み技術は入力空間に余剰次元を注入し、元の空間の特性を保持しながらグラフの空間特性をカプセル化する。 これらの余剰次元の選択は、フィドラーベクトルによって導かれ、グラフの最適化された病理記法を提供する。 2つのケーススタディが実施され、従来のPINNと比較してGPINNの性能が著しく向上し、特に解の物理的特徴を捉える能力に優れていた。

This work proposes a Physics-informed Neural Network framework with Graph Embedding (GPINN) to perform PINN in graph, i.e. topological space instead of traditional Euclidean space, for improved problem-solving efficiency. The method integrates topological data into the neural network's computations, which significantly boosts the performance of the Physics-Informed Neural Network (PINN). The graph embedding technique infuses extra dimensions into the input space to encapsulate the spatial characteristics of a graph while preserving the properties of the original space. The selection of these extra dimensions is guided by the Fiedler vector, offering an optimised pathologic notation of the graph. Two case studies are conducted, which demonstrate significant improvement in the performance of GPINN in comparison to traditional PINN, particularly in its superior ability to capture physical features of the solution.
翻訳日:2023-06-19 13:59:20 公開日:2023-06-16
# 情報ボトルネックの常微分方程式:ibの1次ルート追跡

The Information Bottleneck's Ordinary Differential Equation: First-Order Root-Tracking for the IB ( http://arxiv.org/abs/2306.09790v1 )

ライセンス: Link先を確認
Shlomi Agmon(参考訳) Information Bottleneck (IB) は、損失圧縮の方法である。 そのRD曲線は入力圧縮と関連する情報の保存の基本的なトレードオフを記述する。 しかし、最適入力符号化の基盤となるダイナミクスを隠蔽する。 最近RDで示されているように、入力情報が圧縮されているとき、これらは典型的にはスムーズな軌道に従う。 これらの滑らかなダイナミクスは、最適エンコーディングが定性的に変化するとき、分岐時に中断される。 IBとRDとの親密な関係を利用することで、準最適解が衝突したり、最適性を交換したりすることができる。 ibとその応用は受け入れられているが、分布が知られている有限問題であっても、数値的に解く技術は驚くほど少ない。 IBの1次正規微分方程式は、その最適トレードオフ曲線の根底にあるダイナミクスを記述する。 これらのダイナミクスを利用するには、IBビフルケーションを検出するだけでなく、それらに対応するためにタイプを特定する必要がある。 最適IB曲線を準最適方向から近づくのではなく、後者は最適曲線に沿って解の軌跡を軽度な仮定で追従することができる。 これにより、IB分岐の理解を驚くほど正確な数値アルゴリズムに変換する。

The Information Bottleneck (IB) is a method of lossy compression. Its rate-distortion (RD) curve describes the fundamental tradeoff between input compression and the preservation of relevant information. However, it conceals the underlying dynamics of optimal input encodings. We argue that these typically follow a piecewise smooth trajectory as the input information is being compressed, as recently shown in RD. These smooth dynamics are interrupted when an optimal encoding changes qualitatively, at a bifurcation. By leveraging the IB's intimate relations with RD, sub-optimal solutions can be seen to collide or exchange optimality there. Despite the acceptance of the IB and its applications, there are surprisingly few techniques to solve it numerically, even for finite problems whose distribution is known. We derive anew the IB's first-order Ordinary Differential Equation, which describes the dynamics underlying its optimal tradeoff curve. To exploit these dynamics, one needs not only to detect IB bifurcations but also to identify their type in order to handle them accordingly. Rather than approaching the optimal IB curve from sub-optimal directions, the latter allows us to follow a solution's trajectory along the optimal curve, under mild assumptions. Thereby, translating an understanding of IB bifurcations into a surprisingly accurate numerical algorithm.
翻訳日:2023-06-19 13:59:04 公開日:2023-06-16
# IoTエッジノード上のエネルギー効率の良い推論のための動的決定木アンサンブル

Dynamic Decision Tree Ensembles for Energy-Efficient Inference on IoT Edge Nodes ( http://arxiv.org/abs/2306.09789v1 )

ライセンス: Link先を確認
Francesco Daghero, Alessio Burrello, Enrico Macii, Paolo Montuschi, Massimo Poncino and Daniele Jahier Pagliari(参考訳) IoT(Internet of Things)デバイスの普及に伴い、制約のあるエッジノード上で実行できるエネルギー効率のよい機械学習(ML)モデルの必要性が高まっている。 ランダムフォレスト (RF) やグラディエント・ブースティング (GBT) のような決定木アンサンブルは、他の代替よりも比較的複雑さが低いため、特にこの作業に適している。 しかし、その推論時間とエネルギーコストはエッジハードウェアにとって依然として重要である。 このようなコストがアンサンブルサイズで線形に増加することを考慮し,遅延/エネルギー目標と処理入力の複雑さの両方に基づいて実行木数を調整する動的アンサンブルの利用を提案し,計算コストと精度のトレードオフについて述べる。 我々は、これらのアルゴリズムをマルチコアの低消費電力IoTデバイスにデプロイし、Pythonアンサンブルを最適化されたCコードに変換するツールを設計し、利用可能な並列性とメモリ階層を考慮に入れたいくつかの最適化を検討している。 我々は8コア超低消費電力のSystem-on-Chip(SoC)、GAP8をターゲットプラットフォームとして、3つの最先端IoT関連データセットに対して、静的RFとGBTの両方を広範囲にベンチマークした。 提案した早期停止機構により、静的GBT (8.82 uJ vs 14.20 uJ per inference) に対して最大37.9%のエネルギー削減を実現し、静的RF (2.86 uJ vs 4.90 uJ per inference) に対して41.7%のエネルギー削減を実現した。

With the increasing popularity of Internet of Things (IoT) devices, there is a growing need for energy-efficient Machine Learning (ML) models that can run on constrained edge nodes. Decision tree ensembles, such as Random Forests (RFs) and Gradient Boosting (GBTs), are particularly suited for this task, given their relatively low complexity compared to other alternatives. However, their inference time and energy costs are still significant for edge hardware. Given that said costs grow linearly with the ensemble size, this paper proposes the use of dynamic ensembles, that adjust the number of executed trees based both on a latency/energy target and on the complexity of the processed input, to trade-off computational cost and accuracy. We focus on deploying these algorithms on multi-core low-power IoT devices, designing a tool that automatically converts a Python ensemble into optimized C code, and exploring several optimizations that account for the available parallelism and memory hierarchy. We extensively benchmark both static and dynamic RFs and GBTs on three state-of-the-art IoT-relevant datasets, using an 8-core ultra-lowpower System-on-Chip (SoC), GAP8, as the target platform. Thanks to the proposed early-stopping mechanisms, we achieve an energy reduction of up to 37.9% with respect to static GBTs (8.82 uJ vs 14.20 uJ per inference) and 41.7% with respect to static RFs (2.86 uJ vs 4.90 uJ per inference), without losing accuracy compared to the static model.
翻訳日:2023-06-19 13:58:47 公開日:2023-06-16
# バイアスの存在下での複数ランキングに基づく部分集合選択:多点投票スコア関数に対する公平性制約の有効性

Subset Selection Based On Multiple Rankings in the Presence of Bias: Effectiveness of Fairness Constraints for Multiwinner Voting Score Functions ( http://arxiv.org/abs/2306.09835v1 )

ライセンス: Link先を確認
Niclas Boehmer, L. Elisa Celis, Lingxiao Huang, Anay Mehrotra, Nisheeth K. Vishnoi(参考訳) 項目の複数のランク付けが与えられ、最も高い ``quality''' サブセットを選択することが目的である部分集合選択の問題を考える。 マルチウィンター投票文献のスコア関数は、サブセットの品質スコアにランキングを集約するために使われてきた。 本研究は,一群の項目に対して,ランク付けが体系的あるいは無意識的バイアスを含む場合のサブセット選択問題について検討する。 入力ランキングとバイアスの一般的なモデルでは、グループフェアネス制約を満たすために選択されたサブセットを要求すれば、偏りのないランキングに対する選択の質が向上することを示す。 重要な点は、フェアネス制約が効果的であるためには、異なるマルチウィンナースコア関数は、著しく異なるランキングを必要とする可能性があることである: いくつかの関数では、フェアネス制約は、近対最適解を回復するために指数関数的なランキングを必要とするが、他の関数にとっては、この依存は多項式のみである。 この結果は、バイアスの存在下で関数がいかに「正しく」機能するかを定量化するこの設定において、サブモジュラー関数の ‘smoothness'' という新しい概念に依存している。 本研究の結果は,本論文で検討したサブセット選択設定において,マルチウィンタースコア関数の選択をガイドするために利用することができる。

We consider the problem of subset selection where one is given multiple rankings of items and the goal is to select the highest ``quality'' subset. Score functions from the multiwinner voting literature have been used to aggregate rankings into quality scores for subsets. We study this setting of subset selection problems when, in addition, rankings may contain systemic or unconscious biases toward a group of items. For a general model of input rankings and biases, we show that requiring the selected subset to satisfy group fairness constraints can improve the quality of the selection with respect to unbiased rankings. Importantly, we show that for fairness constraints to be effective, different multiwinner score functions may require a drastically different number of rankings: While for some functions, fairness constraints need an exponential number of rankings to recover a close-to-optimal solution, for others, this dependency is only polynomial. This result relies on a novel notion of ``smoothness'' of submodular functions in this setting that quantifies how well a function can ``correctly'' assess the quality of items in the presence of bias. The results in this paper can be used to guide the choice of multiwinner score functions for the subset selection setting considered here; we additionally provide a tool to empirically enable this.
翻訳日:2023-06-19 13:52:32 公開日:2023-06-16
# アメリカsnlpへのシェフィールドの提出は、母国語への機械翻訳に関するタスクを共有している

Sheffield's Submission to the AmericasNLP Shared Task on Machine Translation into Indigenous Languages ( http://arxiv.org/abs/2306.09830v1 )

ライセンス: Link先を確認
Edward Gow-Smith, Danae S\'anchez Villegas(参考訳) 本稿では、シェフィールド大学がアメリカsnlp 2023に提出した、スペイン語から11の母国語への翻訳を含む母国語への機械翻訳に関するタスクについて述べる。 私たちのアプローチは、nllb-200のさまざまなバリエーションを拡張し、トレーニングし、センシングすることです。 主催者が提供するデータと、憲法、ハンドブック、ニュース記事、単言語データから生成されたバックトランスプリケーションなど、他の様々なソースからのデータを利用する。 特にAymara、Guarani、Kechuaでは大幅に改善され、開発セットでは、すべての言語でベースラインを平均11%向上させています。 テストセットでは、全ての応募のうち、最も平均的なchrFを達成し、11言語のうち4言語で1位、そして少なくとも1つの応募が、すべての言語で3位にランクインします。

In this paper we describe the University of Sheffield's submission to the AmericasNLP 2023 Shared Task on Machine Translation into Indigenous Languages which comprises the translation from Spanish to eleven indigenous languages. Our approach consists of extending, training, and ensembling different variations of NLLB-200. We use data provided by the organizers and data from various other sources such as constitutions, handbooks, news articles, and backtranslations generated from monolingual data. On the dev set, our best submission outperforms the baseline by 11% average chrF across all languages, with substantial improvements particularly for Aymara, Guarani and Quechua. On the test set, we achieve the highest average chrF of all the submissions, we rank first in four of the eleven languages, and at least one of our submissions ranks in the top 3 for all languages.
翻訳日:2023-06-19 13:52:09 公開日:2023-06-16
# 複合価値トランスフォーマアーキテクチャのためのビルディングブロック

Building Blocks for a Complex-Valued Transformer Architecture ( http://arxiv.org/abs/2306.09827v1 )

ライセンス: Link先を確認
Florian Eilers and Xiaoyi Jiang(参考訳) ほとんどのディープラーニングパイプラインは、画像や音声、音楽信号などの実際の値入力を扱うために、実際の値操作に基づいて構築されている。 しかし、多くのアプリケーションは当然、MRIやリモートセンシングのような複雑な値の信号や画像を利用する。 さらに、信号のフーリエ変換は複素値であり、多くの応用がある。 我々は,これらの複素数値信号に対して,$\mathbb{R}^2$への投影を使わずに,深層学習を直接適用することを目指している。 そこで我々は,複雑な領域にトランスフォーマーアーキテクチャを転送するビルディングブロックを提示することにより,ニューラルネットワークの最近の発展を補足する。 本稿では,複雑な値を持つDot-Product Attention機構の複数バージョンと,複雑な値を持つレイヤ正規化を提案する。 我々は,MusicNetデータセットの分類とシーケンス生成タスクを検証し,実数値トランスフォーマーアーキテクチャと比較して,オンパー性能を維持しつつ,オーバーフィッティングに対するロバスト性の向上を示した。

Most deep learning pipelines are built on real-valued operations to deal with real-valued inputs such as images, speech or music signals. However, a lot of applications naturally make use of complex-valued signals or images, such as MRI or remote sensing. Additionally the Fourier transform of signals is complex-valued and has numerous applications. We aim to make deep learning directly applicable to these complex-valued signals without using projections into $\mathbb{R}^2$. Thus we add to the recent developments of complex-valued neural networks by presenting building blocks to transfer the transformer architecture to the complex domain. We present multiple versions of a complex-valued Scaled Dot-Product Attention mechanism as well as a complex-valued layer normalization. We test on a classification and a sequence generation task on the MusicNet dataset and show improved robustness to overfitting while maintaining on-par performance when compared to the real-valued transformer architecture.
翻訳日:2023-06-19 13:51:53 公開日:2023-06-16
# クリニックフレンドリーな説明のためのプロセス知識融合学習

Process Knowledge-infused Learning for Clinician-friendly Explanations ( http://arxiv.org/abs/2306.09824v1 )

ライセンス: Link先を確認
Kaushik Roy, Yuxin Zi, Manas Gaur, Jinendra Malekar, Qi Zhang, Vignesh Narayanan, Amit Sheth(参考訳) 言語モデルは、ソーシャルメディアデータを用いてメンタルヘルスを評価する可能性がある。 オンライン投稿や会話を分析することで、これらのモデルはうつ病、不安、自殺思考などの精神状態を示すパターンを検出することができる。 彼らはキーワード、言語マーカー、感情を調べ、個人の精神的幸福について洞察を得る。 この情報は、早期発見、介入、支援、メンタルヘルスケアおよび予防戦略の改善に不可欠である。 しかし,ソーシャルメディアのメンタルヘルス評価に言語モデルを使うことには,(1)臨床医の診断プロセスとポストを比較しない,(2)臨床医が理解可能な概念,すなわち臨床医に優しい説明を用いて言語モデルアウトプットを説明することが難しい,という2つの制限がある。 本研究では,言語モデル出力に臨床プロセス知識構造を階層化する新しい学習パラダイムであるプロセス知識注入学習(PK-iL)を導入し,基礎となる言語モデル予測の臨床的フレンドリな説明を可能にする。 本手法を既存のベンチマークデータセット上で厳格に検証し,そのような臨床プロセスの知識を付加し,自殺評価のための新たなデータセットをリリースする。 PK-iLは競争力があり、ユーザーとの70%の合意を達成する一方、他のXAI手法は47%の合意しか達成していない。 PK-iLは,臨床医に効果的にモデル予測を説明できることを示す。

Language models have the potential to assess mental health using social media data. By analyzing online posts and conversations, these models can detect patterns indicating mental health conditions like depression, anxiety, or suicidal thoughts. They examine keywords, language markers, and sentiment to gain insights into an individual's mental well-being. This information is crucial for early detection, intervention, and support, improving mental health care and prevention strategies. However, using language models for mental health assessments from social media has two limitations: (1) They do not compare posts against clinicians' diagnostic processes, and (2) It's challenging to explain language model outputs using concepts that the clinician can understand, i.e., clinician-friendly explanations. In this study, we introduce Process Knowledge-infused Learning (PK-iL), a new learning paradigm that layers clinical process knowledge structures on language model outputs, enabling clinician-friendly explanations of the underlying language model predictions. We rigorously test our methods on existing benchmark datasets, augmented with such clinical process knowledge, and release a new dataset for assessing suicidality. PK-iL performs competitively, achieving a 70% agreement with users, while other XAI methods only achieve 47% agreement (average inter-rater agreement of 0.72). Our evaluations demonstrate that PK-iL effectively explains model predictions to clinicians.
翻訳日:2023-06-19 13:51:38 公開日:2023-06-16
# 歩行者属性認識のための軽量属性局所化モデル

Lightweight Attribute Localizing Models for Pedestrian Attribute Recognition ( http://arxiv.org/abs/2306.09822v1 )

ライセンス: Link先を確認
Ashish Jha, Dimitrii Ermilov, Konstantin Sobolev, Anh Huy Phan, Salman Ahmadi-Asl, Naveed Ahmed, Imran Junejo, Zaher AL Aghbari, Thar Baker, Ahmed Mohamed Khedr, Andrzej Cichocki(参考訳) 歩行者属性認識(PAR)は歩行者画像の特徴を識別する問題を扱う。 人物検索、被疑者の再識別、ソフトバイオメトリックスに興味深い応用を見出した。 過去数年間、いくつかのディープニューラルネットワーク(DNN)がこの課題を解決するために設計されたが、開発されたDNNは主に過パラメータ化と高い計算複雑性に悩まされている。 これらの問題は、メモリと計算能力に制限のあるリソース制約の組込みデバイスでの利用を妨げる。 テンソル分解などの効率的な圧縮技術を用いてネットワーク層を縮小することにより、ニューラルネットワーク圧縮はこれらの問題を解決する効果的な方法である。 歩行者属性認識(PAR)のための軽量属性局所化モデル(LWALM)を提案する。 LWALMは、Canonical Polyadic Decomposition with Error Preserving Correction (CPD-EPC)アルゴリズムを用いて、Attribute Localization Model (ALM)を効果的に階層的に圧縮した後に得られる圧縮ニューラルネットワークである。

Pedestrian Attribute Recognition (PAR) deals with the problem of identifying features in a pedestrian image. It has found interesting applications in person retrieval, suspect re-identification and soft biometrics. In the past few years, several Deep Neural Networks (DNNs) have been designed to solve the task; however, the developed DNNs predominantly suffer from over-parameterization and high computational complexity. These problems hinder them from being exploited in resource-constrained embedded devices with limited memory and computational capacity. By reducing a network's layers using effective compression techniques, such as tensor decomposition, neural network compression is an effective method to tackle these problems. We propose novel Lightweight Attribute Localizing Models (LWALM) for Pedestrian Attribute Recognition (PAR). LWALM is a compressed neural network obtained after effective layer-wise compression of the Attribute Localization Model (ALM) using the Canonical Polyadic Decomposition with Error Preserving Correction (CPD-EPC) algorithm.
翻訳日:2023-06-19 13:51:15 公開日:2023-06-16
# ユーザフィードバックの可能性を解き放つ:対話システム強化のためのユーザシミュレータとしての大規模言語モデル活用

Unlocking the Potential of User Feedback: Leveraging Large Language Model as User Simulator to Enhance Dialogue System ( http://arxiv.org/abs/2306.09821v1 )

ライセンス: Link先を確認
Zhiyuan Hu, Yue Feng, Anh Tuan Luu, Bryan Hooi, Aldo Lipani(参考訳) 対話システムと大規模言語モデル(LLM)が注目されている。 しかし、タスク指向対話(TOD)モデルとしてのLLMの直接利用は、タスク固有モデルに比べて性能が劣っていることが判明した。 それにもかかわらず、LLMの潜在能力を認め、その優れた能力を活用するための改良されたアプローチを検討することが重要である。 llmsを活用するという目標に動機づけられ,より小さなtodモデルと組み合わせるために,ugro(user-guided response optimization)と呼ばれる代替手法を提案する。 このアプローチでは、アノテーションのないユーザシミュレータとしてLLMを使用して対話応答を評価し、より小型のエンドツーエンドTODモデルと組み合わせる。 LLMによって生成された満足度フィードバックを利用することで、UGROはさらに教師付き微調整TODモデルを最適化する。 具体的には、TODモデルは対話履歴を入力として取り、ユーザシミュレータのフィードバックの助けを借りて、ユーザの要求を満たす高満足度応答を生成する。 2つのTODベンチマークの実証実験を通じて,本手法の有効性を検証した。 その結果,従来のSOTA(State-of-the-art)よりも優れた結果が得られた。

Dialogue systems and large language models (LLMs) have gained considerable attention. However, the direct utilization of LLMs as task-oriented dialogue (TOD) models has been found to underperform compared to smaller task-specific models. Nonetheless, it is crucial to acknowledge the significant potential of LLMs and explore improved approaches for leveraging their impressive abilities. Motivated by the goal of leveraging LLMs, we propose an alternative approach called User-Guided Response Optimization (UGRO) to combine it with a smaller TOD model. This approach uses LLM as annotation-free user simulator to assess dialogue responses, combining them with smaller fine-tuned end-to-end TOD models. By utilizing the satisfaction feedback generated by LLMs, UGRO further optimizes the supervised fine-tuned TOD model. Specifically, the TOD model takes the dialogue history as input and, with the assistance of the user simulator's feedback, generates high-satisfaction responses that meet the user's requirements. Through empirical experiments on two TOD benchmarks, we validate the effectiveness of our method. The results demonstrate that our approach outperforms previous state-of-the-art (SOTA) results.
翻訳日:2023-06-19 13:50:57 公開日:2023-06-16
# 構造カーネルのガウス過程ハイパーパラメータの補正推論

Amortized Inference for Gaussian Process Hyperparameters of Structured Kernels ( http://arxiv.org/abs/2306.09819v1 )

ライセンス: Link先を確認
Matthias Bitzer, Mona Meister, Christoph Zimmer(参考訳) ガウス過程のカーネルパラメータの学習は、オンライン学習、ベイズ最適化、アクティブラーニングなどのアプリケーションにおける計算ボトルネックとなることが多い。 異なるデータセットに対するパラメータ推論の補正は、トレーニング時間を劇的に高速化するための有望なアプローチである。 しかし、既存の手法では固定されたカーネル構造に償却推論手順を制限している。 償却ネットワークは、異なるカーネルが採用されている場合、手動で再設計され、再訓練されなければならず、設計時間とトレーニング時間に大きなオーバーヘッドがかかる。 本稿では,固定されたカーネル構造ではなく,完全なカーネル構造ファミリー上でのカーネルパラメータ推定を提案する。 私たちは、データセットとカーネル構造をペアでアモータイズするネットワークを定義します。 これにより、amortizationネットワークを再トレーニングすることなく、カーネルファミリの各要素に対する高速なカーネル推論が可能になる。 副産物として、我々のアモータイズネットワークはカーネル構造上の高速なアンサンブルを行うことができる。 実験では,大規模なカーネルとデータセットの競合テスト性能と合わせて,推論時間を大幅に短縮した。

Learning the kernel parameters for Gaussian processes is often the computational bottleneck in applications such as online learning, Bayesian optimization, or active learning. Amortizing parameter inference over different datasets is a promising approach to dramatically speed up training time. However, existing methods restrict the amortized inference procedure to a fixed kernel structure. The amortization network must be redesigned manually and trained again in case a different kernel is employed, which leads to a large overhead in design time and training time. We propose amortizing kernel parameter inference over a complete kernel-structure-family rather than a fixed kernel structure. We do that via defining an amortization network over pairs of datasets and kernel structures. This enables fast kernel inference for each element in the kernel family without retraining the amortization network. As a by-product, our amortization network is able to do fast ensembling over kernel structures. In our experiments, we show drastically reduced inference time combined with competitive test performance for a large set of kernels and datasets.
翻訳日:2023-06-19 13:50:38 公開日:2023-06-16
# HiNeRV:階層的エンコーディングに基づくニューラル表現によるビデオ圧縮

HiNeRV: Video Compression with Hierarchical Encoding based Neural Representation ( http://arxiv.org/abs/2306.09818v1 )

ライセンス: Link先を確認
Ho Man Kwan, Ge Gao, Fan Zhang, Andrew Gower, David Bull(参考訳) 学習ベースのビデオ圧縮は、現在最も人気のある研究トピックの1つであり、従来の標準ビデオコーデックと競合する可能性がある。 この文脈では、Inmplicit Neural Representations (INR) は以前、画像とビデオのコンテンツを表現し、圧縮するために用いられ、他の方法と比較して復号速度が比較的高い。 しかし、既存のINRベースの手法では、ビデオ圧縮の最先端技術に匹敵する性能を達成できなかった。 これは主に、その表現能力を制限する、採用されているネットワークアーキテクチャの単純さによる。 本稿では,双線形補間と新しい階層的位置符号化を組み合わせたINRであるHiNeRVを提案する。 この構造では、深くて広いネットワークアーキテクチャを構築するために、深層的な畳み込み層とMDP層を用いる。 さらに、HiNeRVに基づくビデオコーデックと、トレーニング、プルーニング、量子化のための洗練されたパイプラインを構築し、失われたモデル圧縮時のHiNeRVのパフォーマンスをよりよく保存する。 提案手法は,ビデオ圧縮のためのUVGデータセットとMCL-JCVデータセットの両方で評価され,学習ベースコーデックと比較して既存のINRのベースラインと競合性能(HNeRVで72.3%,UVGで43.4%)よりも大幅に向上した。

Learning-based video compression is currently one of the most popular research topics, offering the potential to compete with conventional standard video codecs. In this context, Implicit Neural Representations (INRs) have previously been used to represent and compress image and video content, demonstrating relatively high decoding speed compared to other methods. However, existing INR-based methods have failed to deliver rate quality performance comparable with the state of the art in video compression. This is mainly due to the simplicity of the employed network architectures, which limit their representation capability. In this paper, we propose HiNeRV, an INR that combines bilinear interpolation with novel hierarchical positional encoding. This structure employs depth-wise convolutional and MLP layers to build a deep and wide network architecture with much higher capacity. We further build a video codec based on HiNeRV and a refined pipeline for training, pruning and quantization that can better preserve HiNeRV's performance during lossy model compression. The proposed method has been evaluated on both UVG and MCL-JCV datasets for video compression, demonstrating significant improvement over all existing INRs baselines and competitive performance when compared to learning-based codecs (72.3% overall bit rate saving over HNeRV and 43.4% over DCVC on the UVG dataset, measured in PSNR).
翻訳日:2023-06-19 13:50:23 公開日:2023-06-16
# 災害ネット:災害マッピングにおける機械学習の埋め込み

DisasterNets: Embedding Machine Learning in Disaster Mapping ( http://arxiv.org/abs/2306.09815v1 )

ライセンス: Link先を確認
Qingsong Xu, Yilei Shi, Xiao Xiang Zhu(参考訳) 災害マッピングは、現場の専門家を必要とすることが多い重要なタスクであり、時間を要する。 これに対処するために、マシンラーニングを用いた災害の迅速かつ正確な認識のための包括的なフレームワークが、 disasternets として提示されている。 空間顆粒化と属性顆粒化の2段階からなる。 空間グラニュレーションステージでは、教師付き/半教師付き学習、教師なしの変更検出、およびソースデータ技術によるドメイン適応を活用して、さまざまな災害マッピングシナリオを処理する。 さらに、属性の粒度化段階を用いて、対応する地理的情報フィールド特性を有する災害データベースを構築する。 この枠組みは, 地すべりと大規模洪水のマッピングに応用されている。 その結果, 災害の高精度, 高効率, クロスシーン認識の競争性能が示された。 災害マッピングと機械学習コミュニティのギャップを埋めるため、災害ネットをベースとしたオープンアクセスツールを提供する。 フレームワークとツールはhttps://github.com/HydroPML/DisasterNets.comで入手できる。

Disaster mapping is a critical task that often requires on-site experts and is time-consuming. To address this, a comprehensive framework is presented for fast and accurate recognition of disasters using machine learning, termed DisasterNets. It consists of two stages, space granulation and attribute granulation. The space granulation stage leverages supervised/semi-supervised learning, unsupervised change detection, and domain adaptation with/without source data techniques to handle different disaster mapping scenarios. Furthermore, the disaster database with the corresponding geographic information field properties is built by using the attribute granulation stage. The framework is applied to earthquake-triggered landslide mapping and large-scale flood mapping. The results demonstrate a competitive performance for high-precision, high-efficiency, and cross-scene recognition of disasters. To bridge the gap between disaster mapping and machine learning communities, we will provide an openly accessible tool based on DisasterNets. The framework and tool will be available at https://github.com/HydroPML/DisasterNets.
翻訳日:2023-06-19 13:49:56 公開日:2023-06-16
# 音声合成韻律のための大規模言語モデルからの助詞の有効性の検討

Investigating the Utility of Surprisal from Large Language Models for Speech Synthesis Prosody ( http://arxiv.org/abs/2306.09814v1 )

ライセンス: Link先を確認
Sofoklis Kakouros, Juraj \v{S}imko, Martti Vainio, Antti Suni(参考訳) 本稿では,音声合成の韻律的特徴として,与えられた文脈における単語の予測可能性の尺度であるword surprisalの使用について検討する。 大規模言語モデル(llm)から抽出された単語の超越性は、ある談話における単語の敬礼の信号に基づく尺度である単語の隆起とどのように相関するかを検討する。 また、文脈長とllmサイズが結果にどう影響するか、超越値条件付き音声合成器とベースラインシステムとの比較について検討した。 これらの因子を評価するために,大容量の英語テキストとLLMを用いて実験を行った。 以上の結果から,単語の代名詞的および代名詞的特徴は中程度に相関していることが示唆された。 LLMの文脈と大きさの長さは相関に影響を及ぼすが、予測される方向ではなく、より長い文脈とより大きなLLMは概ね線形な方法で顕著な単語を予測できない。 これらの結果から, 基本値の条件付き音声合成器は, 基準値に対する改善が最小限に抑えられ, 適切な韻律パターンを導出するために, 基本値を用いる効果が限られていることが示される。

This paper investigates the use of word surprisal, a measure of the predictability of a word in a given context, as a feature to aid speech synthesis prosody. We explore how word surprisal extracted from large language models (LLMs) correlates with word prominence, a signal-based measure of the salience of a word in a given discourse. We also examine how context length and LLM size affect the results, and how a speech synthesizer conditioned with surprisal values compares with a baseline system. To evaluate these factors, we conducted experiments using a large corpus of English text and LLMs of varying sizes. Our results show that word surprisal and word prominence are moderately correlated, suggesting that they capture related but distinct aspects of language use. We find that length of context and size of the LLM impact the correlations, but not in the direction anticipated, with longer contexts and larger LLMs generally underpredicting prominent words in a nearly linear manner. We demonstrate that, in line with these findings, a speech synthesizer conditioned with surprisal values provides a minimal improvement over the baseline with the results suggesting a limited effect of using surprisal values for eliciting appropriate prominence patterns.
翻訳日:2023-06-19 13:49:43 公開日:2023-06-16
# MixedTeacher : 高速推測音声異常検出のための知識蒸留

MixedTeacher : Knowledge Distillation for fast inference textural anomaly detection ( http://arxiv.org/abs/2306.09859v1 )

ライセンス: Link先を確認
Simon Thomine, Hichem Snoussi and Mahmoud Soua(参考訳) 長い間、異常検出のための教師なし学習は画像処理研究の中心であり、高性能な産業自動化プロセスのための足場となっている。 CNNの出現に伴い、AutoencodersやGAN、Deep Feature extractなど、いくつかの方法が提案されている。 本稿では,より大規模に訓練されたネットワーク(教師)の出力を考慮しつつ,通常のサンプルでネットワーク(学生)を訓練することからなる,知識蒸留の有望な概念に基づく新しい手法を提案する。 本稿の主な貢献は2つある: まず, 最適な層選択を伴う縮小した学生アーキテクチャを提案する。次に, 2つの教師を組み合わせたネットワークバイアス低減による新しい学生教師アーキテクチャを提案し, 異常検出性能と局所化精度を共同で向上させる。 提案したテクスチャ異常検出器は,SOTA法と比較して,どのテクスチャの欠陥も検出し,高速な推論時間を有する。

For a very long time, unsupervised learning for anomaly detection has been at the heart of image processing research and a stepping stone for high performance industrial automation process. With the emergence of CNN, several methods have been proposed such as Autoencoders, GAN, deep feature extraction, etc. In this paper, we propose a new method based on the promising concept of knowledge distillation which consists of training a network (the student) on normal samples while considering the output of a larger pretrained network (the teacher). The main contributions of this paper are twofold: First, a reduced student architecture with optimal layer selection is proposed, then a new Student-Teacher architecture with network bias reduction combining two teachers is proposed in order to jointly enhance the performance of anomaly detection and its localization accuracy. The proposed texture anomaly detector has an outstanding capability to detect defects in any texture and a fast inference time compared to the SOTA methods.
翻訳日:2023-06-19 13:42:09 公開日:2023-06-16
# 説明可能な回帰のためのプロトタイプ学習

Prototype Learning for Explainable Regression ( http://arxiv.org/abs/2306.09858v1 )

ライセンス: Link先を確認
Linde S. Hesse, Nicola K. Dinsdale, Ana I. L. Namburete(参考訳) 説明可能性の欠如は、臨床におけるディープラーニングモデルの採用を制限する。 このようなモデルの理解を深める手法は存在するが、これらは主に正当性に基づくもので、連続回帰問題である医療画像において重要な課題が数多くあるにもかかわらず、分類のために開発されたものである。 そこで本研究では,回帰タスクに特化したプロトタイプベースモデルであるExPeRTを提案する。 提案モデルでは,プロトタイプラベルの重み付き平均値を用いて,学習したプロトタイプのラテント空間における距離からサンプル予測を行う。 潜在空間における距離はラベルの違いに相対して正規化され、各プロトタイプはトレーニングセットからサンプルとして可視化することができる。 画像レベルの距離はパッチレベルの距離からさらに構築され、両者のパッチは最適なトランスポートを用いて構造的に一致する。 成人MRIと胎児超音波の2つの画像データセットを用いた脳年齢予測の課題に関するモデルを提案する。 提案手法は,モデル推論プロセスの知見を提供しながら,最先端の予測性能を達成した。

The lack of explainability limits the adoption of deep learning models in clinical practice. While methods exist to improve the understanding of such models, these are mainly saliency-based and developed for classification, despite many important tasks in medical imaging being continuous regression problems. Therefore, in this work, we present ExPeRT: an explainable prototype-based model specifically designed for regression tasks. Our proposed model makes a sample prediction from the distances to a set of learned prototypes in latent space, using a weighted mean of prototype labels. The distances in latent space are regularized to be relative to label differences, and each of the prototypes can be visualized as a sample from the training set. The image-level distances are further constructed from patch-level distances, in which the patches of both images are structurally matched using optimal transport. We demonstrate our proposed model on the task of brain age prediction on two image datasets: adult MR and fetal ultrasound. Our approach achieved state-of-the-art prediction performance while providing insight in the model's reasoning process.
翻訳日:2023-06-19 13:41:52 公開日:2023-06-16
# GPUデバイスを用いた大規模スパイク神経回路モデルの構築

Runtime Construction of Large-Scale Spiking Neuronal Network Models on GPU Devices ( http://arxiv.org/abs/2306.09855v1 )

ライセンス: Link先を確認
Bruno Golosio, Jose Villamar, Gianmarco Tiddia, Elena Pastorelli, Jonas Stapmanns, Viviana Fanti, Pier Stanislao Paolucci, Abigail Morrison and Johanna Senk(参考訳) シミュレーションのスピードは神経科学研究にとって重要であり、大規模なスパイク神経ネットワークのシミュレーションモデル時間がどれだけ早く進行するかだけでなく、コンピュータメモリ内のネットワークモデルをインスタンス化するのにどのくらいの時間を要するかも含む。 ハードウェア面では、高並列GPUによるアクセラレーションがますます活用されている。 ソフトウェア側では、コード生成アプローチは、ネットワークモデルの変更後の繰り返しコード再生と再コンパイルを犠牲にして、高度に最適化されたコードを保証する。 本稿では,反復モデル変更に対する柔軟性の向上を目標として,高レベル接続ルールのセットを用いて,gpuメモリ内でネットワーク接続を対話的,動的,直接的に作成する新しい手法を提案する。 我々は、約77,000個の漏れ積分型ニューロンモデルと3億の静的シナプスからなる皮質マイクロ回路と、様々な接続規則を用いて2つの人口ネットワークを繰り返す2つの神経科学的モデル上で、コンシューマとデータセンターのGPUによるシミュレーション性能を検証した。 提案するアドホックネットワークインスタンス化では,ネットワーク構築時間とシミュレーション時間は,爆発的ネットワークモデリングの柔軟性要件を満たしつつ,他の最先端のシミュレーション技術と同等あるいは短くなる。

Simulation speed matters for neuroscientific research: this includes not only how quickly the simulated model time of a large-scale spiking neuronal network progresses, but also how long it takes to instantiate the network model in computer memory. On the hardware side, acceleration via highly parallel GPUs is being increasingly utilized. On the software side, code generation approaches ensure highly optimized code, at the expense of repeated code regeneration and recompilation after modifications to the network model. Aiming for a greater flexibility with respect to iterative model changes, here we propose a new method for creating network connections interactively, dynamically, and directly in GPU memory through a set of commonly used high-level connection rules. We validate the simulation performance with both consumer and data center GPUs on two neuroscientifically relevant models: a cortical microcircuit of about 77,000 leaky-integrate-and-fire neuron models and 300 million static synapses, and a two-population network recurrently connected using a variety of connection rules. With our proposed ad hoc network instantiation, both network construction and simulation times are comparable or shorter than those obtained with other state-of-the-art simulation technologies, while still meeting the flexibility demands of explorative network modeling.
翻訳日:2023-06-19 13:41:37 公開日:2023-06-16
# リモートセンシングにおけるマルチモーダル自己監督型事前学習:メタン源分類への応用

Joint multi-modal Self-Supervised pre-training in Remote Sensing: Application to Methane Source Classification ( http://arxiv.org/abs/2306.09851v1 )

ライセンス: Link先を確認
Paul Berg, Minh-Tan Pham, and Nicolas Courty(参考訳) コンピュータビジョンとリモートセンシング特定タスクを解くためのディープラーニング手法が現在多用されているため、ラベル付きデータの必要性は常に増大している。 しかし、多くの場合、信頼できるアノテーションを実行するのに必要な専門知識によって、アノテーションプロセスは長くて退屈なものになる。 このアノテーションの必要性を軽減するために、最近文献でいくつかの自己管理手法が提案されている。 これらの手法の中核となる原理は、単にラベルのないデータサンプルを使って画像エンコーダを学ぶことである。 地球観測では、これらの手法を改善するために、ドメイン固有のリモートセンシング画像データを利用する機会がある。 具体的には、各画像に関連付けられた地理的位置を活用することで、複数のセンサーから取得した位置を横断的に参照することができ、同じ位置を複数のビューにすることができる。 本稿では,いわゆるジョイントエンベディング手法の背景にある基本原理を概観し,自己教師付き事前学習におけるマルチリモートセンシングモードの利用について検討する。 メタン源分類の課題に対して, 得られたエンコーダの最終的な性能を評価する。

With the current ubiquity of deep learning methods to solve computer vision and remote sensing specific tasks, the need for labelled data is growing constantly. However, in many cases, the annotation process can be long and tedious depending on the expertise needed to perform reliable annotations. In order to alleviate this need for annotations, several self-supervised methods have recently been proposed in the literature. The core principle behind these methods is to learn an image encoder using solely unlabelled data samples. In earth observation, there are opportunities to exploit domain-specific remote sensing image data in order to improve these methods. Specifically, by leveraging the geographical position associated with each image, it is possible to cross reference a location captured from multiple sensors, leading to multiple views of the same locations. In this paper, we briefly review the core principles behind so-called joint-embeddings methods and investigate the usage of multiple remote sensing modalities in self-supervised pre-training. We evaluate the final performance of the resulting encoders on the task of methane source classification.
翻訳日:2023-06-19 13:41:15 公開日:2023-06-16
# 実用的シャープネス認識最小化はオプティマへの道のりで収束しない

Practical Sharpness-Aware Minimization Cannot Converge All the Way to Optima ( http://arxiv.org/abs/2306.09850v1 )

ライセンス: Link先を確認
Dongkuk Si, Chulhee Yun(参考訳) Sharpness-Aware Minimization (SAM) は、現在の点$x_t$の摂動の勾配に基づいて降下ステップを取る最適化器である。 既存の研究は、滑らかな函数に対するSAMの収束を証明しているが、それらは減衰する摂動サイズを$\rho$と仮定し、実践から切り離された$y_t$の勾配正規化をしない。 このギャップに対処するために、SAMの決定論的・確率的バージョンを実践的な構成(例えば、定数$\rho$ と $y_t$ の勾配正規化)で研究し、(非)凸性仮定を持つ滑らかな函数上のそれらの収束性を探る。 おそらく、多くのシナリオにおいて、SAM が大域ミニマ点や定常点に収束する能力に制限があることが分かる。 滑らかな強凸函数に対して、決定論的SAMは$\tilde \Theta(\frac{1}{T^2})$の厳密な大域収束率を享受する一方で、確率的SAMの収束境界は必然的な加法的項$O(\rho^2)$を被り、オプティマの近傍のみの収束を示す。 実際、そのような$O(\rho^2)$の因子は、私たちが考慮しているすべての設定において確率的SAMに対して、また非凸の場合において決定論的SAMに対して生じる。 その結果,摂動サイズや勾配正規化を損なうことなく,対数でsamの特性が大きく異なることが明らかとなり,一方のバージョンから得られる直観は他方に当てはまらない可能性が示唆された。

Sharpness-Aware Minimization (SAM) is an optimizer that takes a descent step based on the gradient at a perturbation $y_t = x_t + \rho \frac{\nabla f(x_t)}{\lVert \nabla f(x_t) \rVert}$ of the current point $x_t$. Existing studies prove convergence of SAM for smooth functions, but they do so by assuming decaying perturbation size $\rho$ and/or no gradient normalization in $y_t$, which is detached from practice. To address this gap, we study deterministic/stochastic versions of SAM with practical configurations (i.e., constant $\rho$ and gradient normalization in $y_t$) and explore their convergence properties on smooth functions with (non)convexity assumptions. Perhaps surprisingly, in many scenarios, we find out that SAM has limited capability to converge to global minima or stationary points. For smooth strongly convex functions, we show that while deterministic SAM enjoys tight global convergence rates of $\tilde \Theta(\frac{1}{T^2})$, the convergence bound of stochastic SAM suffers an inevitable additive term $O(\rho^2)$, indicating convergence only up to neighborhoods of optima. In fact, such $O(\rho^2)$ factors arise for stochastic SAM in all the settings we consider, and also for deterministic SAM in nonconvex cases; importantly, we prove by examples that such terms are unavoidable. Our results highlight vastly different characteristics of SAM with vs. without decaying perturbation size or gradient normalization, and suggest that the intuitions gained from one version may not apply to the other.
翻訳日:2023-06-19 13:40:59 公開日:2023-06-16
# 神経進化的発散探索における進化可能性と行動景観について

On Evolvability and Behavior Landscapes in Neuroevolutionary Divergent Search ( http://arxiv.org/abs/2306.09849v1 )

ライセンス: Link先を確認
Bruno Ga\v{s}perov, Marko {\DJ}urasevi\'c(参考訳) 進化性とは、個々の遺伝子型(溶液)が互いに多様な表現型を持つ子孫を生み出す能力である。 近年の研究では、異なる探索方法、特に新奇な探索が選択的圧力を暗黙的に生成することで進化性を促進することが示されている。 本研究の目的は,神経進化的発散探索と進化可能性の関係に関する新しい視点を提供することである。 これを実現するために、フィットネスランドスケープ分析に関する文献からのいくつかのタイプのウォークをまずこの文脈に適応させる。 その後,様々な進化的圧力下での神経進化的分岐探索と進化可能性の相互作用について検討した。 この目的のために、ロボットアームタスクであるFetch Pick and Placeで実験が行われている。 さらに,遺伝子型・表現型マッピング(行動景観)の構造について,特に検討を行った。 最後に,子孫の進化性を考慮した新規な進化可能性の定義をマルコフ連鎖に基づく推定法とともに提案する。

Evolvability refers to the ability of an individual genotype (solution) to produce offspring with mutually diverse phenotypes. Recent research has demonstrated that divergent search methods, particularly novelty search, promote evolvability by implicitly creating selective pressure for it. The main objective of this paper is to provide a novel perspective on the relationship between neuroevolutionary divergent search and evolvability. In order to achieve this, several types of walks from the literature on fitness landscape analysis are first adapted to this context. Subsequently, the interplay between neuroevolutionary divergent search and evolvability under varying amounts of evolutionary pressure and under different diversity metrics is investigated. To this end, experiments are performed on Fetch Pick and Place, a robotic arm task. Moreover, the performed study in particular sheds light on the structure of the genotype-phenotype mapping (the behavior landscape). Finally, a novel definition of evolvability that takes into account the evolvability of offspring and is appropriate for use with discretized behavior spaces is proposed, together with a Markov-chain-based estimation method for it.
翻訳日:2023-06-19 13:40:23 公開日:2023-06-16
# フィードバック冷却型超低温原子ガスの基本限界

Fundamental Limits of Feedback Cooling Ultracold Atomic Gases ( http://arxiv.org/abs/2306.09846v1 )

ライセンス: Link先を確認
Zain Mehdi, Simon A. Haine, Joseph J. Hope, and Stuart S. Szigeti(参考訳) 量子フィードバック制御による超低温原子ガスの冷却の基本的有効性について検討した。 本研究は,光学イメージング技術の分解能と破壊性とのトレードオフがフィードバック冷却の有効性に制約を与え,熱ガスの冷却には急速な再熱化が必要であることを示した。 本研究では, 密度変動の可視化, 測定誘起加熱, 3体原子組換えによるフィードバック冷却の限界を決定するための簡単なモデルを構築した。 フィードバック制御は, 準2次元領域の高温熱雲を急速に冷却し, 従来の蒸発に比べて最小の原子損失で温度を低下させることができることを示した。 本研究は、超低温原子ガスのフィードバック冷却の実現可能性を確認し、現在のアプローチでは実現できない新しい冷却機構への経路を提供する。

We investigate the fundamental viability of cooling ultracold atomic gases with quantum feedback control. Our study shows that the trade-off between the resolution and destructiveness of optical imaging techniques imposes constraints on the efficacy of feedback cooling, and that rapid rethermalization is necessary for cooling thermal gases. We construct a simple model to determine the limits to feedback cooling set by the visibility of density fluctuations, measurement-induced heating, and three-body atomic recombination. We demonstrate that feedback control can rapidly cool high-temperature thermal clouds in quasi-2D geometries to degenerate temperatures with minimal atom loss compared to traditional evaporation. Our analysis confirms the feasibility of feedback cooling ultracold atomic gases, providing a pathway to new regimes of cooling not achievable with current approaches.
翻訳日:2023-06-19 13:40:06 公開日:2023-06-16
# ニューラルネットワークのwasserstein分布のロバスト性

Wasserstein distributional robustness of neural networks ( http://arxiv.org/abs/2306.09844v1 )

ライセンス: Link先を確認
Xingjian Bai, Guangyi He, Yifan Jiang, Jan Obloj(参考訳) ディープニューラルネットワークは敵攻撃(AA)に弱いことが知られている。 画像認識タスクでは、元の小さな摂動によって画像が誤分類される可能性があることを意味する。 このような攻撃や敵の訓練方法の設計は、厳しい研究の対象となっている。 本稿では,Wassersteinの分散ロバスト最適化(DRO)技術を用いて問題を再検討し,最近のDRO感度解析の知見を活かした新しいコントリビューションを得る。 我々は一組の分布脅威モデルを考える。 各入力データポイントの摂動に一様拘束を仮定する従来のポイントワイズ攻撃とは異なり、分散脅威モデルは攻撃者が一様でない方法で入力を摂動させることを可能にする。 我々はこれらのより一般的な攻撃と、アウト・オブ・サンプルのパフォーマンスと騎士的不確実性の疑問を結びつける。 ニューラルネットワークの分布ロバスト性を評価するために,一階AAアルゴリズムとそのマルチステップバージョンを提案する。 攻撃アルゴリズムとしてはFGSM(Fast Gradient Sign Method)とPGD(Projected Gradient Descent)がある。 さらに,分布的脅威モデルに対する敵意精度の新しい漸近的推定法を提案する。 境界は計算が速く、一階精度が高く、ポイントワイズaaでも新しい洞察が得られる。 当然、サンプル外のパフォーマンス保証も生み出す。 我々は,ロバストベンチ上のdnnを用いたcifar-10データセットの数値実験を行い,理論結果について述べる。 私たちのコードはhttps://github.com/JanObloj/W-DRO-Adversarial-Methodsで利用可能です。

Deep neural networks are known to be vulnerable to adversarial attacks (AA). For an image recognition task, this means that a small perturbation of the original can result in the image being misclassified. Design of such attacks as well as methods of adversarial training against them are subject of intense research. We re-cast the problem using techniques of Wasserstein distributionally robust optimization (DRO) and obtain novel contributions leveraging recent insights from DRO sensitivity analysis. We consider a set of distributional threat models. Unlike the traditional pointwise attacks, which assume a uniform bound on perturbation of each input data point, distributional threat models allow attackers to perturb inputs in a non-uniform way. We link these more general attacks with questions of out-of-sample performance and Knightian uncertainty. To evaluate the distributional robustness of neural networks, we propose a first-order AA algorithm and its multi-step version. Our attack algorithms include Fast Gradient Sign Method (FGSM) and Projected Gradient Descent (PGD) as special cases. Furthermore, we provide a new asymptotic estimate of the adversarial accuracy against distributional threat models. The bound is fast to compute and first-order accurate, offering new insights even for the pointwise AA. It also naturally yields out-of-sample performance guarantees. We conduct numerical experiments on the CIFAR-10 dataset using DNNs on RobustBench to illustrate our theoretical results. Our code is available at https://github.com/JanObloj/W-DRO-Adversarial-Methods.
翻訳日:2023-06-19 13:39:54 公開日:2023-06-16
# 大規模言語モデルは本当に優れた論理型推論器か? 帰納的・帰納的・帰納的視点からの総合的評価

Are Large Language Models Really Good Logical Reasoners? A Comprehensive Evaluation From Deductive, Inductive and Abductive Views ( http://arxiv.org/abs/2306.09841v1 )

ライセンス: Link先を確認
Fangzhi Xu, Qika Lin, Jiawei Han, Tianzhe Zhao, Jun Liu, Erik Cambria(参考訳) 大規模言語モデル(LLM)は様々な自然言語処理において大きな成功を収めた。 多言語推論や数学的推論など、LLMの特定の推論能力を評価することに多くの関心が寄せられている。 しかし、重要な推論の観点の一つとして、論理的推論能力はまだ十分に評価されていない。 本研究では,これらのギャップを埋め,包括的に評価することを目的とする。 まず, 体系的評価を行うために, 15の典型的な論理推論データセットを選択し, 帰納的, 帰納的, 帰納的および混合的推論設定に整理する。 評価の包括性を考慮すると、3つの代表的なLCM(text-davinci-003, ChatGPT, BARD)を含み、ゼロショット、ワンショット、3ショット設定で選択されたすべてのデータセットで評価する。 第二に,単純な指標(例えば正確性)のみに依存する従来の評価と異なり,客観的・主観的評価を行い,回答と説明の両方をカバーする。 また、LLMの論理的欠陥を明らかにするために、悪いケースは2次元から5つのエラータイプに起因する。 第三に、知識バイアスの影響を回避し、LLMの論理的推論能力のベンチマークに純粋に集中するため、中立性のある新しいデータセットを提案する。 3Kサンプルを含み、推論、帰納的推論設定をカバーしている。 そこで本研究では,6次元から論理的推論能力の能力マップ(正解,厳格,自己認識,能動,指向性,幻覚,無幻覚)を作成した。 LLMの長所と短所を反映し、将来の作品の指針を与える。

Large Language Models (LLMs) have achieved great success in various natural language tasks. It has aroused much interest in evaluating the specific reasoning capability of LLMs, such as multilingual reasoning and mathematical reasoning. However, as one of the key reasoning perspectives, logical reasoning capability has not yet been thoroughly evaluated. In this work, we aim to bridge those gaps and provide comprehensive evaluations. Firstly, to offer systematic evaluations, this paper selects fifteen typical logical reasoning datasets and organizes them into deductive, inductive, abductive and mixed-form reasoning settings. Considering the comprehensiveness of evaluations, we include three representative LLMs (i.e., text-davinci-003, ChatGPT and BARD) and evaluate them on all selected datasets under zero-shot, one-shot and three-shot settings. Secondly, different from previous evaluations relying only on simple metrics (e.g., accuracy), we propose fine-level evaluations from objective and subjective manners, covering both answers and explanations. Also, to uncover the logical flaws of LLMs, bad cases will be attributed to five error types from two dimensions. Thirdly, to avoid the influences of knowledge bias and purely focus on benchmarking the logical reasoning capability of LLMs, we propose a new dataset with neutral content. It contains 3K samples and covers deductive, inductive and abductive reasoning settings. Based on the in-depth evaluations, this paper finally concludes the ability maps of logical reasoning capability from six dimensions (i.e., correct, rigorous, self-aware, active, oriented and no hallucination). It reflects the pros and cons of LLMs and gives guiding directions for future works.
翻訳日:2023-06-19 13:39:30 公開日:2023-06-16
# 仮想データを用いた深部ニューラルネットワークを用いたスパースアレイを用いた超解像レーダイメージング

Super-Resolution Radar Imaging with Sparse Arrays Using a Deep Neural Network Trained with Enhanced Virtual Data ( http://arxiv.org/abs/2306.09839v1 )

ライセンス: Link先を確認
Christian Schuessler, Marcel Hoffmann, Martin Vossiek(参考訳) 本稿では,極薄レーダー開口部からのレーダデータを完全に処理できるディープニューラルネットワーク(DNN)に基づく手法を提案する。 提案するdnn処理は、エイリアシングフリーレーダーイメージングと超解像の両方を提供することができる。 実写シミュレーションデータによる検出性能の測定と、測定された点状ターゲットにおける点スプレッド関数(psf)および目標分離性能の評価により、結果を検証する。 また、典型的な自動車シーンの質的評価を行う。 このアプローチは最先端のサブスペースアルゴリズムや他の既存の機械学習ソリューションよりも優れていることが示されている。 その結果、十分に洗練された仮想入力データで訓練された機械学習アプローチは、レーダー信号処理における圧縮センシングとサブスペースアプローチの代替として非常に有望であることが示唆された。 この性能の鍵は、DNNが与えられたスパースアンテナレーダアレイハードウェアを入力として完全に模倣する現実的なシミュレーションデータを使って訓練されていることである。 地上の事実として、拡張仮想レーダーからの超高解像度データをシミュレーションする。 他の研究とは対照的に、DNNは完全なレーダーキューブを使用し、特定のレンジドップラー検出時のアンテナチャネル情報のみを使用する。 トレーニング後、提案したDNNはサイドローブとあいまいさのないイメージングを行うことができる。 完全に占有された配列で達成されるのとほぼ同じ解像度と画質を同時に提供する。

This paper introduces a method based on a deep neural network (DNN) that is perfectly capable of processing radar data from extremely thinned radar apertures. The proposed DNN processing can provide both aliasing-free radar imaging and super-resolution. The results are validated by measuring the detection performance on realistic simulation data and by evaluating the Point-Spread-function (PSF) and the target-separation performance on measured point-like targets. Also, a qualitative evaluation of a typical automotive scene is conducted. It is shown that this approach can outperform state-of-the-art subspace algorithms and also other existing machine learning solutions. The presented results suggest that machine learning approaches trained with sufficiently sophisticated virtual input data are a very promising alternative to compressed sensing and subspace approaches in radar signal processing. The key to this performance is that the DNN is trained using realistic simulation data that perfectly mimic a given sparse antenna radar array hardware as the input. As ground truth, ultra-high resolution data from an enhanced virtual radar are simulated. Contrary to other work, the DNN utilizes the complete radar cube and not only the antenna channel information at certain range-Doppler detections. After training, the proposed DNN is capable of sidelobe- and ambiguity-free imaging. It simultaneously delivers nearly the same resolution and image quality as would be achieved with a fully occupied array.
翻訳日:2023-06-19 13:38:59 公開日:2023-06-16
# 相対論的な巨大なボソンのオントロジ記述

An ontological description for relativistic, massive bosons ( http://arxiv.org/abs/2306.09885v1 )

ライセンス: Link先を確認
Gerard t Hooft(参考訳) 相対論的スカラー粒子は周期的境界条件の箱に含まれると考えられる。 相互作用は根本的な問題とは見なされないが、自由粒子に集中する。 調和振動子として考えると、それらの力学変数は完全に存在論的集合に置き換えられることが分かり、これは量子力学が純粋に幾何学的な存在論的粒子系から逸脱しないことを意味する。 質量項の影響も含んでいる。 局所性は量子論に当てはまり、古典的な処理にも完全に従うように見えるが、さらなる議論が必要である。 量子化された相互作用は短期間に推測されるが、ほとんどは後に延期される。 量子処理と古典的処理の区別については、数学的に全く同じ方程式を生成するにもかかわらず、広く議論する。 この結果が通常の量子no-go定理とどのように二乗されるかを簡単に説明する。 この理論をリアルタイム量子モデルシミュレーションに適用することが提案されている。

Relativistic, scalar particles are considered, contained in a box with periodic boundary conditions. Although interactions are not expected to be a fundamental problem, we concentrate on free particles. By considering them to be harmonic oscillators, it is found that their dynamical variables can be replaced by a completely ontological set, which means that, here, quantum mechanics does not deviate from a purely geometric, ontological particle system. The effects of the mass terms are included. Locality holds for the quantum theory, and seems to be fully obeyed also by the classical treatment, although further discussion will be needed. Quantised interactions are briefly speculated on, but mostly postponed to later. We do discuss extensively the distinction between the quantum treatment and the classical one, even though they produce exactly the same equations mathematically. We briefly explain how this result can be squared with the usual quantum no-go theorems. It is suggested to apply this theory for real time quantum model simulations.
翻訳日:2023-06-19 13:33:08 公開日:2023-06-16
# Jumanji: JAXにおけるスケーラブルな強化学習環境の多種多様なスイート

Jumanji: a Diverse Suite of Scalable Reinforcement Learning Environments in JAX ( http://arxiv.org/abs/2306.09884v1 )

ライセンス: Link先を確認
Cl\'ement Bonnet, Daniel Luo, Donal Byrne, Shikha Surana, Vincent Coyette, Paul Duckworth, Laurence I. Midgley, Tristan Kalloniatis, Sasha Abramowitz, Cemlyn N. Waters, Andries P. Smit, Nathan Grinsztajn, Ulrich A. Mbou Sob, Omayma Mahjoub, Elshadai Tegegn, Mohamed A. Mimouni, Raphael Boige, Ruan de Kock, Daniel Furelos-Blanco, Victor Le, Arnu Pretorius, Alexandre Laterre(参考訳) オープンソースの強化学習(RL)環境は、AIアルゴリズムの開発を進める上で重要な役割を担っている。 現代のRL研究では、より広い範囲の現実世界のアプリケーションで利用できるようにするために、パフォーマンス、拡張性、モジュール性を備えたシミュレーション環境が必要である。 そこで本稿では,高速,フレキシブル,スケーラブルに設計された多様なrl環境のスイートであるjumanjiを提案する。 Jumanjiは、業界で頻繁に遭遇する組合せ問題に焦点を当てた一連の環境を提供し、一般的な意思決定タスクに挑戦する。 JAXとGPUやTPUなどのハードウェアアクセラレータの効率を活用することで、Jumanjiは研究アイデアの迅速なイテレーションと大規模な実験を可能にし、最終的にはより有能なエージェントに権限を与える。 既存のRL環境スイートとは異なり、Jumanjiは非常にカスタマイズ可能で、ユーザが必要に応じて初期状態の配布と問題複雑さを調整できる。 さらに,各環境にアクタ-クリティックベースラインを提供し,スケーリングと一般化シナリオについて予備的な知見を得た。 jumanjiはrl環境のスピード、適応性、スケーラビリティのための新しい標準の設定を目指している。

Open-source reinforcement learning (RL) environments have played a crucial role in driving progress in the development of AI algorithms. In modern RL research, there is a need for simulated environments that are performant, scalable, and modular to enable their utilization in a wider range of potential real-world applications. Therefore, we present Jumanji, a suite of diverse RL environments specifically designed to be fast, flexible, and scalable. Jumanji provides a suite of environments focusing on combinatorial problems frequently encountered in industry, as well as challenging general decision-making tasks. By leveraging the efficiency of JAX and hardware accelerators like GPUs and TPUs, Jumanji enables rapid iteration of research ideas and large-scale experimentation, ultimately empowering more capable agents. Unlike existing RL environment suites, Jumanji is highly customizable, allowing users to tailor the initial state distribution and problem complexity to their needs. Furthermore, we provide actor-critic baselines for each environment, accompanied by preliminary findings on scaling and generalization scenarios. Jumanji aims to set a new standard for speed, adaptability, and scalability of RL environments.
翻訳日:2023-06-19 13:32:53 公開日:2023-06-16
# ゼロ膨張・ロングテール走行需要予測のための時空間ツイーディモデルによる不確実性定量化

Uncertainty Quantification via Spatial-Temporal Tweedie Model for Zero-inflated and Long-tail Travel Demand Prediction ( http://arxiv.org/abs/2306.09882v1 )

ライセンス: Link先を確認
Xinke Jiang, Dingyi Zhuang, Xianghui Zhang, Hao Chen, Jiayuan Luo, Xiaowei Gao(参考訳) 交通管理に不可欠です しかし、従来の時空間深層学習モデルは、高分解能O-D行列のスパース特性と長テール特性に対処し、予測の不確かさを定量化する。 このジレンマは、決定論的深層学習モデルに固有のガウス的仮定に挑戦する、多くのゼロと過分散需要パターンから生じる。 これらの課題に対処するため,時空間Tweedie Graph Neural Network (STTD) という新しいアプローチを提案する。 STTDは、従来の「ゼロインフレード」モデルの代替としてツイーディ分布を導入し、空間的および時間的埋め込みを利用して旅行需要分布をパラメータ化している。 実世界のデータセットを用いた評価では、特に高分解能シナリオにおいて、正確な予測と正確な信頼区間を提供することにおいて、sttdが優れていることを強調する。

crucial for transportation management. However, traditional spatial-temporal deep learning models grapple with addressing the sparse and long-tail characteristics in high-resolution O-D matrices and quantifying prediction uncertainty. This dilemma arises from the numerous zeros and over-dispersed demand patterns within these matrices, which challenge the Gaussian assumption inherent to deterministic deep learning models. To address these challenges, we propose a novel approach: the Spatial-Temporal Tweedie Graph Neural Network (STTD). The STTD introduces the Tweedie distribution as a compelling alternative to the traditional 'zero-inflated' model and leverages spatial and temporal embeddings to parameterize travel demand distributions. Our evaluations using real-world datasets highlight STTD's superiority in providing accurate predictions and precise confidence intervals, particularly in high-resolution scenarios.
翻訳日:2023-06-19 13:32:34 公開日:2023-06-16
# ソーシャルワークノートの自然言語処理による癌治療選択における社会的状況の影響を明らかにする

Revealing the impact of social circumstances on the selection of cancer therapy through natural language processing of social work notes ( http://arxiv.org/abs/2306.09877v1 )

ライセンス: Link先を確認
Shenghuan Sun, Travis Zack, Christopher Y.K. Williams, Atul J. Butte, Madhumita Sushil(参考訳) 本研究の目的は,自然言語処理を用いた癌治療選択における社会的状況の影響を調査し,ソーシャルワーカーの資料から洞察を得ることである。 臨床ソーシャルワーカーによるドキュメンテーションのみに基づく患者に対する標的癌治療の処方を予測するために,階層的多段階BERTモデル(BERT-MS)を用いた双方向エンコーダ表現法(BERT-MS)を開発した。 当コーパスにはフリーテキストの臨床ソーシャルワークノートと処方情報とを併用し,乳がん治療患者全員を対象とした。 癌治療選択に影響を及ぼす特定の社会的状況を特定するために,特徴量分析を行った。 ソーシャルワークノートのみを用いて標的療法の管理を常に予測し,非臨床要因による治療選択の系統的差異が示唆された。 UCSF-BERTモデルはUCSFで臨床テキストで事前訓練され、AUROC 0.675 と Macro F1 スコア 0.599 で他の公開言語モデルを上回った。 複数の音符を利用できるUCSF BERT-MSモデルは、AUROCとMacro-F1の両方でUCSF-BERTモデルを上回った。 臨床的に直感的な健康決定因子(SDOH)を同定し,治療の格差に寄与する可能性が示唆された。 以上の結果から, 乳がん患者には, 社会的要因による治療法の相違が認められた。 ソーシャルワークレポートは、臨床意思決定におけるこれらの相違を理解する上で重要な役割を果たす。

We aimed to investigate the impact of social circumstances on cancer therapy selection using natural language processing to derive insights from social worker documentation. We developed and employed a Bidirectional Encoder Representations from Transformers (BERT) based approach, using a hierarchical multi-step BERT model (BERT-MS) to predict the prescription of targeted cancer therapy to patients based solely on documentation by clinical social workers. Our corpus included free-text clinical social work notes, combined with medication prescription information, for all patients treated for breast cancer. We conducted a feature importance analysis to pinpoint the specific social circumstances that impact cancer therapy selection. Using only social work notes, we consistently predicted the administration of targeted therapies, suggesting systematic differences in treatment selection exist due to non-clinical factors. The UCSF-BERT model, pretrained on clinical text at UCSF, outperformed other publicly available language models with an AUROC of 0.675 and a Macro F1 score of 0.599. The UCSF BERT-MS model, capable of leveraging multiple pieces of notes, surpassed the UCSF-BERT model in both AUROC and Macro-F1. Our feature importance analysis identified several clinically intuitive social determinants of health (SDOH) that potentially contribute to disparities in treatment. Our findings indicate that significant disparities exist among breast cancer patients receiving different types of therapies based on social determinants of health. Social work reports play a crucial role in understanding these disparities in clinical decision-making.
翻訳日:2023-06-19 13:32:17 公開日:2023-06-16
# 公開に向けて - 商用AIラボにおける公開参加アプローチの役割

Going public: the role of public participation approaches in commercial AI labs ( http://arxiv.org/abs/2306.09871v1 )

ライセンス: Link先を確認
Lara Groves, Aidan Peppin, Andrew Strait, Jenny Brennan(参考訳) 近年、責任あるAIプラクティスに関する議論では、AIシステムの設計と開発に一般市民が関与することを意図した「参加型AI」アプローチへの支持が高まっている。 先行研究は、ai開発プロセスで参加型アプローチを使用する方法の標準化された方法やアプローチの欠如を特定した。 現在、主要なAI開発を推進しているサイト(商用AIラボ)への参加に対する態度とアプローチに関する多くの証拠がある。 本論文は,12の半構造化された業界実践者および主観的専門家へのインタビューを通じて,商用AIラボが参加型AIアプローチをどのように理解し,AIシステムや研究の発展に直面する障害を理解するかを検討する。 インタビュアーは、"社会的に有益"なaiシステムを実現するための規範的なプロジェクトだと考えているが、企業への参加は費用がかかり、リソース集約的であり、企業内では"アナライズ"されているため、搾取には懸念があり、採用について透明であることへのインセンティブはなく、明確なコンテキストの欠如によって複雑である。 これらの障壁は参加者に意思決定力を与えず、aiラボにほとんど影響を与えない参加への断片的なアプローチをもたらす。 本稿では,商用aiラボへの一般参加の実施に関する新たな実証研究を行い,この文脈における参加型アプローチの課題について考察する。

In recent years, discussions of responsible AI practices have seen growing support for "participatory AI" approaches, intended to involve members of the public in the design and development of AI systems. Prior research has identified a lack of standardised methods or approaches for how to use participatory approaches in the AI development process. At present, there is a dearth of evidence on attitudes to and approaches for participation in the sites driving major AI developments: commercial AI labs. Through 12 semi-structured interviews with industry practitioners and subject-matter experts, this paper explores how commercial AI labs understand participatory AI approaches and the obstacles they have faced implementing these practices in the development of AI systems and research. We find that while interviewees view participation as a normative project that helps achieve "societally beneficial" AI systems, practitioners face numerous barriers to embedding participatory approaches in their companies: participation is expensive and resource intensive, it is "atomised" within companies, there is concern about exploitation, there is no incentive to be transparent about its adoption, and it is complicated by a lack of clear context. These barriers result in a piecemeal approach to participation that confers no decision-making power to participants and has little ongoing impact for AI labs. This papers contribution is to provide novel empirical research on the implementation of public participation in commercial AI labs, and shed light on the current challenges of using participatory approaches in this context.
翻訳日:2023-06-19 13:31:23 公開日:2023-06-16
# テキスト・画像拡散モデルにおけるベイズ文脈更新のためのエネルギーに基づく交差注意

Energy-Based Cross Attention for Bayesian Context Update in Text-to-Image Diffusion Models ( http://arxiv.org/abs/2306.09869v1 )

ライセンス: Link先を確認
Geon Yeong Park, Jeongsol Kim, Beomsu Kim, Sang Wan Lee, Jong Chul Ye(参考訳) 画像生成タスクにおけるテキスト間拡散モデルの顕著な性能にもかかわらず、近年の研究では、生成した画像がテキストプロンプトの意図した意味的内容をキャプチャできないという問題を提起している。 そこで本研究では,新しいエネルギーモデル(EBM)フレームワークを提案する。 具体的には、まず遅延画像表現とテキスト埋め込みのESMをデノナイズドオートエンコーダの各クロスアテンション層に定式化する。 次に, コンテキストベクトルの対数後方勾配を更新し, その後のクロスアテンション層に転送することにより, エネルギー関数のネスト階層を暗黙的に最小化する。 我々の潜在ebmsは、異なる文脈からのクロス・アテンション出力の線形結合としてゼロショット合成生成を可能にする。 広範にわたる実験により,本手法は,マルチコンセプト生成,テキスト誘導画像のインペイント,リアルおよび合成画像編集など,様々な画像生成タスクの処理に有効であることが実証された。

Despite the remarkable performance of text-to-image diffusion models in image generation tasks, recent studies have raised the issue that generated images sometimes cannot capture the intended semantic contents of the text prompts, which phenomenon is often called semantic misalignment. To address this, here we present a novel energy-based model (EBM) framework. Specifically, we first formulate EBMs of latent image representations and text embeddings in each cross-attention layer of the denoising autoencoder. Then, we obtain the gradient of the log posterior of context vectors, which can be updated and transferred to the subsequent cross-attention layer, thereby implicitly minimizing a nested hierarchy of energy functions. Our latent EBMs further allow zero-shot compositional generation as a linear combination of cross-attention outputs from different contexts. Using extensive experiments, we demonstrate that the proposed method is highly effective in handling various image generation tasks, including multi-concept generation, text-guided image inpainting, and real and synthetic image editing.
翻訳日:2023-06-19 13:30:56 公開日:2023-06-16
# AvatarBooth:高品質でカスタマイズ可能な3Dアバター

AvatarBooth: High-Quality and Customizable 3D Human Avatar Generation ( http://arxiv.org/abs/2306.09864v1 )

ライセンス: Link先を確認
Yifei Zeng, Yuanxun Lu, Xinya Ji, Yao Yao, Hao Zhu, Xun Cao(参考訳) テキストプロンプトや特定の画像を用いて高品質な3Dアバターを生成する新しい方法であるAvatarBoothを紹介する。 簡単なテキスト記述に基づいてのみアバターを合成できる従来のアプローチとは異なり、本手法では、テキストベースのモデル生成と編集をサポートしながら、カジュアルにキャプチャされた顔や身体画像からパーソナライズされたアバターを作成することができる。 我々の重要な貢献は、人間の顔と体に2つの微調整拡散モデルを用いて正確なアバター生成制御を行うことである。 これにより、顔の外観、衣服、アクセサリーの複雑な詳細を捉えることができ、結果として非常に現実的なアバター世代が生まれる。 さらに, 拡散モデルから合成した頭部画像のマルチビュー一貫性を高めるために, 最適化プロセスにポーズ一貫性制約を導入することにより, 制御不能な人間のポーズからの干渉を解消する。 さらに,3次元アバター生成の粗大な監視を容易にするマルチレゾリューションレンダリング方式を提案し,提案方式の性能向上を図る。 結果として得られるアバターモデルは、追加のテキスト記述を使用してさらに編集でき、モーションシーケンスによって駆動される。 実験により、AvatarBoothはテキストプロンプトまたは特定の画像からレンダリングや幾何学的品質の点で、従来のテキスト・ツー・3D手法よりも優れていることが示された。 プロジェクトのwebサイトはhttps://zeng-yifei.github.io/avatarbooth_page/。

We introduce AvatarBooth, a novel method for generating high-quality 3D avatars using text prompts or specific images. Unlike previous approaches that can only synthesize avatars based on simple text descriptions, our method enables the creation of personalized avatars from casually captured face or body images, while still supporting text-based model generation and editing. Our key contribution is the precise avatar generation control by using dual fine-tuned diffusion models separately for the human face and body. This enables us to capture intricate details of facial appearance, clothing, and accessories, resulting in highly realistic avatar generations. Furthermore, we introduce pose-consistent constraint to the optimization process to enhance the multi-view consistency of synthesized head images from the diffusion model and thus eliminate interference from uncontrolled human poses. In addition, we present a multi-resolution rendering strategy that facilitates coarse-to-fine supervision of 3D avatar generation, thereby enhancing the performance of the proposed system. The resulting avatar model can be further edited using additional text descriptions and driven by motion sequences. Experiments show that AvatarBooth outperforms previous text-to-3D methods in terms of rendering and geometric quality from either text prompts or specific images. Please check our project website at https://zeng-yifei.github.io/avatarbooth_page/.
翻訳日:2023-06-19 13:30:40 公開日:2023-06-16
# ニューラルネットワーク微分方程式系における勝利ロテリティケットの伝達性

Transferability of Winning Lottery Tickets in Neural Network Differential Equation Solvers ( http://arxiv.org/abs/2306.09863v1 )

ライセンス: Link先を確認
Edward Prideaux-Ghee(参考訳) 近年の研究では、再正規化群理論が、反復等級プルーニングによるニューラルネットワークのプルーニングプロセスを記述する上で有用なフレームワークであることが示されている。 本報告は、rg理論とimpの関係を形式的に記述し、微分方程式を解くためのハミルトニアンニューラルネットワークに対する宝くじチケット仮説と弾性宝くじ仮説に関する以前の結果を拡張した。 2つのハミルトンニューラルネットワークの宝くじを見つけ、積分時間に依存する精度で2つのシステム間の転送可能性を示す。 2つのシステムの普遍性は、RGの観点からツールを用いて分析される。

Recent work has shown that renormalisation group theory is a useful framework with which to describe the process of pruning neural networks via iterative magnitude pruning. This report formally describes the link between RG theory and IMP and extends previous results around the Lottery Ticket Hypothesis and Elastic Lottery Hypothesis to Hamiltonian Neural Networks for solving differential equations. We find lottery tickets for two Hamiltonian Neural Networks and demonstrate transferability between the two systems, with accuracy being dependent on integration times. The universality of the two systems is then analysed using tools from an RG perspective.
翻訳日:2023-06-19 13:30:15 公開日:2023-06-16
# DoubleAdapt: ストックトレンド予測のためのインクリメンタルラーニングのためのメタラーニングアプローチ

DoubleAdapt: A Meta-learning Approach to Incremental Learning for Stock Trend Forecasting ( http://arxiv.org/abs/2306.09862v1 )

ライセンス: Link先を確認
Lifan Zhao, Shuming Kong, Yanyan Shen(参考訳) 株価トレンド予測は、価格トレンドの正確な予測が不可欠である量的投資の基本的な課題である。 オンラインサービスとして、ストックデータは時間とともにやってくる。 予測モデルを最新のデータで漸進的に更新することは実用的かつ効率的であり、将来の株式市場で繰り返される新たなパターンを明らかにする可能性がある。 しかし、株価トレンド予測の漸進的な学習は、分配シフト(つまり概念の漂流)の難しさにより、まだ未解明のままである。 株式市場が動的に進化するにつれて、将来のデータの分布はインクリメンタルなデータとわずかにあるいは著しく異なり、インクリメンタルな更新の効果を阻害する。 この課題に対処するために,2つのアダプタを備えたエンドツーエンドフレームワークであるdoubleadaptを提案する。 私たちのキーとなる洞察は、ストックデータをローカルな定常分布に自動的に適応させ、利益を上げる更新を優先する方法を学ぶことです。 データ適応によって補うことで、緩和分布シフトの下でモデルパラメータを確実に適応させることができる。 各インクリメンタルな学習タスクをメタ学習タスクとしてキャストし、望ましいデータ適応とパラメータ初期化のためのアダプタを自動的に最適化します。 実世界のストックデータセットの実験では、DoubleAdaptは最先端の予測性能を達成し、かなりの効率を示している。

Stock trend forecasting is a fundamental task of quantitative investment where precise predictions of price trends are indispensable. As an online service, stock data continuously arrive over time. It is practical and efficient to incrementally update the forecast model with the latest data which may reveal some new patterns recurring in the future stock market. However, incremental learning for stock trend forecasting still remains under-explored due to the challenge of distribution shifts (a.k.a. concept drifts). With the stock market dynamically evolving, the distribution of future data can slightly or significantly differ from incremental data, hindering the effectiveness of incremental updates. To address this challenge, we propose DoubleAdapt, an end-to-end framework with two adapters, which can effectively adapt the data and the model to mitigate the effects of distribution shifts. Our key insight is to automatically learn how to adapt stock data into a locally stationary distribution in favor of profitable updates. Complemented by data adaptation, we can confidently adapt the model parameters under mitigated distribution shifts. We cast each incremental learning task as a meta-learning task and automatically optimize the adapters for desirable data adaptation and parameter initialization. Experiments on real-world stock datasets demonstrate that DoubleAdapt achieves state-of-the-art predictive performance and shows considerable efficiency.
翻訳日:2023-06-19 13:30:04 公開日:2023-06-16
# Coherent Synthetic Aperture Sonar に対する神経体積再建術

Neural Volumetric Reconstruction for Coherent Synthetic Aperture Sonar ( http://arxiv.org/abs/2306.09909v1 )

ライセンス: Link先を確認
Albert W. Reed, Juhyeon Kim, Thomas Blanford, Adithya Pediredla, Daniel C. Brown, Suren Jayasuriya(参考訳) 合成開口ソナー(SAS)は、再構成画像の解像度を高めるために複数の視点からシーンを測定する。 sas計測をコヒーレントに結合して音響エネルギーをシーンに集中させる画像再構成法 しかし、画像形成は、通常、既存の再構成手法の能力を制限する、限られた測定値と帯域制限ハードウェアのため、制約の少ない。 これらの課題に対処するために、ニューラルレンダリングの最近の進歩を活用してコヒーレントSASイメージングを行う分析合成最適化を設計する。 この最適化により、画像形成プロセスに物理ベースの制約とシーンプリエントを組み込むことができる。 本手法は, 空気と水の両方で採取したシミュレーションと実験結果を検証した。 提案手法は,従来の手法よりも優れた再現性が得られることを定量的かつ定性的に証明する。 再現性のためのコードとデータを共有します。

Synthetic aperture sonar (SAS) measures a scene from multiple views in order to increase the resolution of reconstructed imagery. Image reconstruction methods for SAS coherently combine measurements to focus acoustic energy onto the scene. However, image formation is typically under-constrained due to a limited number of measurements and bandlimited hardware, which limits the capabilities of existing reconstruction methods. To help meet these challenges, we design an analysis-by-synthesis optimization that leverages recent advances in neural rendering to perform coherent SAS imaging. Our optimization enables us to incorporate physics-based constraints and scene priors into the image formation process. We validate our method on simulation and experimental results captured in both air and water. We demonstrate both quantitatively and qualitatively that our method typically produces superior reconstructions than existing approaches. We share code and data for reproducibility.
翻訳日:2023-06-19 13:22:28 公開日:2023-06-16
# 鳥音の相関クラスタリング

Correlation Clustering of Bird Sounds ( http://arxiv.org/abs/2306.09906v1 )

ライセンス: Link先を確認
David Stein, Bjoern Andres(参考訳) 鳥の音の分類は、録音で聴くことができる鳥の種に音の録音を関連付ける作業である。 本稿では,同種の鳥が両方の音を聴くことができるかどうかを,一対の音を録音する作業である鳥音クラスタリングについて検討する。 トレーニングセットから、この方法で関連付けられた記録のペアの確率をファーストラーニングし、相関クラスタリングによるテストセットの最大確率分割を推定することでこの問題に対処する。 テストセットの分類と比較して、このクラスタリングはどの程度正確か? このように推定されたクラスタは、分類によって得られたクラスタとどのように関係するのか? 訓練中に聞こえなかった鳥の録音に、このクラスタリングはどの程度正確か? 訓練中、鳥の鳴き声や環境騒音を分離する上で、このクラスタリングはどの程度効果的か?

Bird sound classification is the task of relating any sound recording to those species of bird that can be heard in the recording. Here, we study bird sound clustering, the task of deciding for any pair of sound recordings whether the same species of bird can be heard in both. We address this problem by first learning, from a training set, probabilities of pairs of recordings being related in this way, and then inferring a maximally probable partition of a test set by correlation clustering. We address the following questions: How accurate is this clustering, compared to a classification of the test set? How do the clusters thus inferred relate to the clusters obtained by classification? How accurate is this clustering when applied to recordings of bird species not heard during training? How effective is this clustering in separating, from bird sounds, environmental noise not heard during training?
翻訳日:2023-06-19 13:22:14 公開日:2023-06-16
# クリフォードフロッケ回路のホモトピー分類

Homotopy Classification of Clifford Floquet Circuits ( http://arxiv.org/abs/2306.09903v1 )

ライセンス: Link先を確認
Roman Geiko and Yichen Hu(参考訳) クリフォード量子回路は、ポーリ作用素をポーリ作用素に写像する量子システムの初等可逆変換である。 我々は,素数 $p$-次元qudits の $\mathsf{d}$-d 格子上で作用するクリフォード回路によって生成される周期的ユニタリダイナミクス,すなわちフロッケユニタリダイナミクスについて研究する。 本稿では代数ホモトピーの概念を用いてクリフォード回路の位相的に等価なループを同定する。 我々はクリフォード回路のループのホモトピークラスを、奇数な$p$と$\mathsf{d}=0,1,2,3$と$4$で計算する。 我々の主なツールはエルミート k-理論であり、特にシンプレクティック幾何学からのマスロフ指数の一般化である。 クリフォードフロッケ回路のホモトピー類は、$(\mathsf{d}+1)$-dimensions のクリフォード qca modulo回路の商群と、$\mathsf{d}$-dimensions の格子変換と一致する。

Clifford quantum circuits are elementary invertible transformations of quantum systems which map Pauli operators to Pauli operators. We study periodic unitary dynamics, a.k.a. Floquet unitary dynamics, generated by Clifford circuits acting on $\mathsf{d}$-dimensional lattices of prime $p$-dimensional qudits. We propose to use the notion of algebraic homotopies to identify topologically equivalent loops of Clifford circuits. We calculate homotopy classes of loops of Clifford circuits for any odd $p$ and $\mathsf{d}=0,1,2,3$, and $4$. Our main tool is the Hermitian K-theory, particularly a generalization of the Maslov index from symplectic geometry. We observe that the homotopy classes of Clifford Floquet circuits in $(\mathsf{d}+1)$-dimensions coincide with the quotient group of Clifford QCA modulo circuits and lattice translations in $\mathsf{d}$-dimensions.
翻訳日:2023-06-19 13:21:59 公開日:2023-06-16
# 放射性物質輸送評価のためのステークホルダーツールの検証と検証(開始)

Verification and Validation of the Stakeholder Tool for Assessing Radioactive Transportation (START) ( http://arxiv.org/abs/2306.09901v1 )

ライセンス: Link先を確認
Caitlin Condon, Philip Jensen, Patrick Royer, Harish Gadey, Mark Abkowitz, Robert Claypool, Steven Maheras, Matt Feldman(参考訳) アメリカエネルギー省総合廃棄物管理局(DOE)は、原子力発電所やDOEの現場から使用済み核燃料(SNF)と高レベル放射性廃棄物(HLW)の輸送、貯蔵、廃棄を計画している。 Stakeholder Tool for Assessing Radioactive Transportation (START) は、ルーティングオプションの評価やSNFやHLWの輸送、鉄道、トラック、バージ、インターモーダル・インフラストラクチャー、および大陸における運用などの面で開発されたウェブベースの地理空間的意思決定支援ツールである。 検証と検証(V&V)プロセスは、STARTを独立して評価することを目的としており、STARTが意図した結果を正確に提供できることの信頼性を提供する。 V&Vプロセスは、独立した手計算からSTARTのパフォーマンスと結果と他のコードとの比較まで、様々な方法でSTARTツールをチェックする。 v&v活動は、開始開発チームから独立して行われ、フィードバックを提供し、プロセスを通して協力する機会があった。 V&Vは、STARTが生み出す交通ルートの特徴を分析し、経路距離、人口密度、およびルート周辺の緩衝地帯内で捕獲された人口密度の両方を分析した。 バッファゾーンの人口密度,バッファゾーンの人口密度,ルート距離はすべてSTARTコードの重要な出力として同定され,V&Vタスクの対象となった。 v&vプロセスによって特定された改善は、まず基礎となる人口データの標準化、人口ラスターデータの予測の変更、そして、人口密度が期待される利用者に適用性を改善するために使われる方法の変更であった。 この共同作業により、START内のいくつかのシェイプファイルセグメントの改善も提案された。

The U.S. Department of Energy (DOE) Office of Integrated Waste Management is planning for the eventual transportation, storage, and disposal of spent nuclear fuel (SNF) and high-level radioactive waste (HLW) from nuclear power plant and DOE sites. The Stakeholder Tool for Assessing Radioactive Transportation (START) is a web-based, geospatial decision-support tool developed for evaluating routing options and other aspects of transporting SNF and HLW, covering rail, truck, barge, and intermodal infrastructure and operations in the continental United States. The verification and validation (V&V) process is intended to independently assess START to provide confidence in the ability of START to accurately provide intended results. The V&V process checks the START tool using a variety of methods, ranging from independent hand calculations to comparison of START performance and results to those of other codes. The V&V activity was conducted independently from the START development team with opportunities to provide feedback and collaborate throughout the process. The V&V analyzed attributes of transportation routes produced by START, including route distance and both population and population density captured within buffer zones around routes. Population in the buffer zone, population density in the buffer zone, and route distance were all identified as crucial outputs of the START code and were subject to V&V tasks. Some of the improvements identified through the V&V process were standardizing the underlying population data in START, changing the projection of the population raster data, and changes to the methodology used for population density to improve its applicability for expected users. This collaboration also led to suggested improvements to some of the underlying shape file segments within START.
翻訳日:2023-06-19 13:21:39 公開日:2023-06-16
# コード生成のためのGPT自己修復

Demystifying GPT Self-Repair for Code Generation ( http://arxiv.org/abs/2306.09896v1 )

ライセンス: Link先を確認
Theo X. Olausson, Jeevana Priya Inala, Chenglong Wang, Jianfeng Gao, Armando Solar-Lezama(参考訳) 大規模言語モデル(LLM)はコード生成に顕著な適性を示しているが、それでも難しいプログラミングタスクに苦戦している。 自己修復(Self-repair) — モデルが自身のコードでエラーをデバッグし修正する — は、最近、これらの設定のパフォーマンスを向上する一般的な方法になっている。 しかし、どのようにして自己修復が効果的に機能するかに関するごく限られた研究だけが文献に存在し、同じモデルによってコードが生成されたときにコードがなぜ間違っているのかを、モデルが正確にフィードバックできるかどうか疑問に思うかもしれない。 本稿では,GPT-3.5とGPT-4がAPPS上で自己修復を行う能力について分析する。 そこで我々はまず,モデルからサンプリングされたトークンの総数に対してタスクの通過率を測定するpass@tと呼ばれる新しい評価戦略を確立し,純粋にサンプリングベースのアプローチと公正な比較を可能にする。 この評価戦略により, GPT-4にのみ自己修復の有効性が認められる。 また, GPT-4 を用いて GPT-3.5 で生成されたプログラムにフィードバックを与え, 専門家のプログラムに GPT-4 で生成されたプログラムにフィードバックを与えると, 大幅な性能向上が期待できる。

Large Language Models (LLMs) have shown remarkable aptitude in code generation but still struggle on challenging programming tasks. Self-repair -- in which the model debugs and fixes mistakes in its own code -- has recently become a popular way to boost performance in these settings. However, only very limited studies on how and when self-repair works effectively exist in the literature, and one might wonder to what extent a model is really capable of providing accurate feedback on why the code is wrong when that code was generated by the same model. In this paper, we analyze GPT-3.5 and GPT-4's ability to perform self-repair on APPS, a challenging dataset consisting of diverse coding challenges. To do so, we first establish a new evaluation strategy dubbed pass@t that measures the pass rate of the tasks against the total number of tokens sampled from the model, enabling a fair comparison to purely sampling-based approaches. With this evaluation strategy, we find that the effectiveness of self-repair is only seen in GPT-4. We also observe that self-repair is bottlenecked by the feedback stage; using GPT-4 to give feedback on the programs generated by GPT-3.5 and using expert human programmers to give feedback on the programs generated by GPT-4, we unlock significant performance gains.
翻訳日:2023-06-19 13:21:09 公開日:2023-06-16
# 結合損失 < 1 db を有するナノフォトニックデバイスの極低温光パッケージング

Cryogenic optical packaging of nanophotonic devices with coupling loss < 1 dB ( http://arxiv.org/abs/2306.09894v1 )

ライセンス: Link先を確認
Beibei Zeng, Chawina De-Eknamkul, Daniel Assumpcao, Dylan Renaud, Zhuoxian Wang, Daniel Riedel, Jeonghoon Ha, Carsten Robens, David Levonian, Mikhail Lukin, Mihir Bhaskar, Denis Sukachev, Marko Loncar, Bart Machielse(参考訳) テープ状光ファイバとナノフォトニックデバイス間の永久包装界面は、300Kから30mKまでの安定な730nmで記録的な低結合損失<1dBで再現的に実証される。

A permanently packaged interface between a tapered optical fiber and nanophotonic devices is reproducibly demonstrated with a record-low coupling loss < 1 dB at ~730 nm that remains stable from 300 K to 30 mK.
翻訳日:2023-06-19 13:20:43 公開日:2023-06-16
# 境界駆動型フェミオン鎖の密度と電流統計

Density and current statistics in boundary-driven monitored fermionic chains ( http://arxiv.org/abs/2306.09893v1 )

ライセンス: Link先を確認
Xhek Turkeshi and Lorenzo Piroli and Marco Schir\`o(参考訳) 境界駆動とバルク粒子密度の連続監視を特徴とする非干渉フェルミオンの一次元系を考える。 この測定により、局所密度と電流演算子の期待値は、よく研究されたlindblad master方程式によって平均挙動が記述される確率変数となる。 正確な数値計算により、我々は平均力学を超え、その全確率分布関数を、深夜定常状態に焦点をあてて研究する。 平均値とは対照的に,中央密度と電流の空間プロファイルは自明ではなく,モニタリング強度の関数として定性的な差異を示す。 弱いモニタリングでは、中央値は平均に近づき、拡散的な空間プロファイルを表示する。 強いモニタリングでは、中央値密度と電流がそれぞれドメインウォールと単一ピークプロファイルを発達させ、典型的な量子軌道におけるゼノ様局在を示唆する。 モニタリングレートの関数として急激な位相遷移を特定できないが、モニタリングされた多体量子力学の文脈において、平均値を超える典型的な振る舞いを特徴づけることの有用性を強調した。

We consider a one-dimensional system of non-interacting fermions featuring both boundary driving and continuous monitoring of the bulk particle density. Due to the measurements, the expectation values of the local density and current operators are random variables whose average behavior is described by a well studied Lindblad master equation. By means of exact numerical computations, we go beyond the averaged dynamics and study their full probability distribution functions, focusing on the late-time stationary regime. We find that, contrary to the averaged values, the spatial profiles of the median density and current are non-trivial, exhibiting qualitative differences as a function of the monitoring strength. At weak monitoring, the medians are close to the means, displaying diffusive spatial profiles. At strong monitoring, we find that the median density and current develop a domain-wall and single-peak profile, respectively, which are suggestive of a Zeno-like localization in typical quantum trajectories. While we are not able to identify a sharp phase transition as a function of the monitoring rate, our work highlights the usefulness of characterizing typical behavior beyond the averaged values in the context of monitored many-body quantum dynamics.
翻訳日:2023-06-19 13:20:38 公開日:2023-06-16
# 連続学習におけるメモリベース手法の一般化に関する研究

Studying Generalization on Memory-Based Methods in Continual Learning ( http://arxiv.org/abs/2306.09890v1 )

ライセンス: Link先を確認
Felipe del Rio, Julio Hurtado, Cristian Buc, Alvaro Soto and Vincenzo Lomonaco(参考訳) 継続的学習の目的の1つは、一連の経験を通して新しい概念を継続的に学び、同時に破滅的な忘れ物を避けることである。 完全な知識オーバーライトを軽減するため、メモリベースのメソッドは、トレーニング中に使用する以前のデータ分布の比率を格納する。 これらの手法は良好な結果をもたらすが、その分散の一般化特性とリプレイメモリに過剰に適合するかどうかを試験した研究は少ない。 本研究では,これらの手法が従来の分布内一般化に有効であるが,突発的特徴と相関を学習することで分布外一般化を強く損なうことができることを示す。 制御された環境であるsynbolベンチマークジェネレータ(lacoste et al., 2020)を用いて、この分散的一般化の欠如が主に線形分類器で発生することを実証する。

One of the objectives of Continual Learning is to learn new concepts continually over a stream of experiences and at the same time avoid catastrophic forgetting. To mitigate complete knowledge overwriting, memory-based methods store a percentage of previous data distributions to be used during training. Although these methods produce good results, few studies have tested their out-of-distribution generalization properties, as well as whether these methods overfit the replay memory. In this work, we show that although these methods can help in traditional in-distribution generalization, they can strongly impair out-of-distribution generalization by learning spurious features and correlations. Using a controlled environment, the Synbol benchmark generator (Lacoste et al., 2020), we demonstrate that this lack of out-of-distribution generalization mainly occurs in the linear classifier.
翻訳日:2023-06-19 13:20:18 公開日:2023-06-16
# candid: ディープバースト画像の対応アライメント

CANDID: Correspondence AligNment for Deep-burst Image Denoising ( http://arxiv.org/abs/2306.09887v1 )

ライセンス: Link先を確認
Arijit Mallick, Raphael Braun, Hendrik PA Lensch(参考訳) 携帯電話写真やポイント・アンド・シュートカメラの登場により、深部バーストイメージングは、視野深度、超高解像度、モーション・デブラリング、画像デニュージングといった多くの写真効果に広く使われている。 本研究では,全ての入力バースト画像を参照フレームに対して整列する光フローベース対応推定モジュールを組み込んで,深いバースト画像の雑音化問題を解決することを提案する。 様々なノイズレベルに対処するために、個々のバースト画像は異なる設定で事前フィルタリングされる。 確立された対応をエクスプロイトする1つのネットワークブロックは、画素単位で空間的に変化するフィルタカーネルを予測し、元のバースト内の各画像を滑らかにし、全ての画像を融合して最終的な復号出力を生成する。 結果のパイプラインは、バーストによって提供されるすべての利用可能な情報を組み合わせることで、最先端の結果を達成する。

With the advent of mobile phone photography and point-and-shoot cameras, deep-burst imaging is widely used for a number of photographic effects such as depth of field, super-resolution, motion deblurring, and image denoising. In this work, we propose to solve the problem of deep-burst image denoising by including an optical flow-based correspondence estimation module which aligns all the input burst images with respect to a reference frame. In order to deal with varying noise levels the individual burst images are pre-filtered with different settings. Exploiting the established correspondences one network block predicts a pixel-wise spatially-varying filter kernel to smooth each image in the original and prefiltered bursts before fusing all images to generate the final denoised output. The resulting pipeline achieves state-of-the-art results by combining all available information provided by the burst.
翻訳日:2023-06-19 13:20:04 公開日:2023-06-16
# クラウド検出のための知識蒸留によるnnu-netのスクイーシング

Squeezing nnU-Nets with Knowledge Distillation for On-Board Cloud Detection ( http://arxiv.org/abs/2306.09886v1 )

ライセンス: Link先を確認
Bartosz Grabowski, Maciej Ziaja, Michal Kawulok, Piotr Bosowski, Nicolas Long\'ep\'e, Bertrand Le Saux, Jakub Nalepa(参考訳) クラウド検出は、地上でも衛星上でも有用な画像にタグを付けることができる、重要な衛星画像前処理ステップである。 後者の場合、クラウドエリアを刈り取ることでダウンリンクへのデータ転送量を削減したり、あるいはデータ駆動の買収再スケジュールを通じて衛星をより自律的にすることができる。 nnu-netsは、様々なデータセット上でセグメンテーションネットワークのメタラーニングを実行できる自己再構成可能なフレームワークです。 残念ながら、そのようなモデルは(非常に)大規模なアーキテクチャのため、一般的にメモリ非効率である。 オンボード処理の利点を享受するため、知識蒸留でnnu-netをより小さくコンパクトなu-netに圧縮する。 Sentinel-2 と Landsat-8 で行った実験の結果,nnU-Nets が手動設計なしで最先端の性能を実現することがわかった。 私たちのアプローチは、on cloud n: cloud cover detection challengeで上位7%のベストソリューション(across 847チーム)にランクインしました。ここでは、10k以上のsentinel-2イメージ(受賞者は0.897、resnet-34バックボーンを持つベースラインu-netは0.817、古典的なsentinel-2イメージしきい値は0.652)に対して、jaccardインデックスが0.882に到達しました。 最後に, 知識蒸留によって, nnU-Netと比較して, 分割能力を維持しながら, 劇的に小さく (ほぼ280倍) なU-Netを実現できることを示した。

Cloud detection is a pivotal satellite image pre-processing step that can be performed both on the ground and on board a satellite to tag useful images. In the latter case, it can reduce the amount of data to downlink by pruning the cloudy areas, or to make a satellite more autonomous through data-driven acquisition re-scheduling. We approach this task with nnU-Nets, a self-reconfigurable framework able to perform meta-learning of a segmentation network over various datasets. Unfortunately, such models are commonly memory-inefficient due to their (very) large architectures. To benefit from them in on-board processing, we compress nnU-Nets with knowledge distillation into much smaller and compact U-Nets. Our experiments, performed over Sentinel-2 and Landsat-8 images revealed that nnU-Nets deliver state-of-the-art performance without any manual design. Our approach was ranked within the top 7% best solutions (across 847 teams) in the On Cloud N: Cloud Cover Detection Challenge, where we reached the Jaccard index of 0.882 over more than 10k unseen Sentinel-2 images (the winners obtained 0.897, the baseline U-Net with the ResNet-34 backbone: 0.817, and the classic Sentinel-2 image thresholding: 0.652). Finally, we showed that knowledge distillation enables to elaborate dramatically smaller (almost 280x) U-Nets when compared to nnU-Nets while still maintaining their segmentation capabilities.
翻訳日:2023-06-19 13:19:45 公開日:2023-06-16
# データプライバシのためのデータ保護-南アフリカ問題か?

Data Protection for Data Privacy-A South African Problem? ( http://arxiv.org/abs/2306.09934v1 )

ライセンス: Link先を確認
Venessa Darwin and Mike Nkongolo(参考訳) 本研究では,データ保護意識を通じて組織内のデータセキュリティとプライバシを高めるための包括的枠組みを提案する。 公共団体の職員におけるデータ保護意識のレベルを評価するために定量的手法と調査研究戦略を用いる。

This study proposes a comprehensive framework for enhancing data security and privacy within organizations through data protection awareness. It employs a quantitative method and survey research strategy to assess the level of data protection awareness among employees of a public organization.
翻訳日:2023-06-19 13:13:58 公開日:2023-06-16
# メタヒューリスティック型機械学習によるモバイルアプリ開発におけるエネルギー予測

A Metaheuristic-based Machine Learning Approach for Energy Prediction in Mobile App Development ( http://arxiv.org/abs/2306.09931v1 )

ライセンス: Link先を確認
Seyed Jalaleddin Mousavirad, Lu\'is A. Alexandre(参考訳) エネルギー消費は、開発者とエンドユーザにとってモバイルアプリケーション開発において重要な役割を担っており、スマートフォンを購入する上で最も重要な要素の1つと考えられている。 また、サステナビリティの観点からは、世界中の何十億ものスマートフォンの普及が環境に大きな影響を与えているため、モバイルデバイスのエネルギー消費を減らす方法を見つけることが不可欠である。 Androidにはエネルギ効率のよいプログラミングプラクティスがいくつかあるが、主要なモバイルエコシステムである、モバイルアプリ開発のための機械学習ベースのエネルギ予測アルゴリズムはまだ報告されていない。 そこで本稿では,モバイルアプリケーション開発におけるエネルギー予測のためのメタヒューリスティックアプローチにより強化されたヒストグラムに基づく勾配強調分類機(hgbc)を提案する。 メタヒューリスティックなアプローチは2つの問題に責任があります。 まず、パフォーマンスの明らかな変更なしに冗長で無関係な機能を見つけます。 第2に、HGBCアルゴリズムのハイパーパラメータチューニングを実行する。 提案するメタヒューリスティック手法はアルゴリズムに依存しないため,探索戦略のための12のアルゴリズムを選択し,最適な探索アルゴリズムを提案する。 以上の結果から,線形集団サイズ (L-SHADE) の差分進化に対する成功史に基づくパラメータ適応が最適であることがわかった。 パフォーマンスを改善し、機能数を効果的に減らすことができる。 実験の結果から,提案手法がエネルギー消費予測に有意な効果をもたらすことが明らかとなった。

Energy consumption plays a vital role in mobile App development for developers and end-users, and it is considered one of the most crucial factors for purchasing a smartphone. In addition, in terms of sustainability, it is essential to find methods to reduce the energy consumption of mobile devices since the extensive use of billions of smartphones worldwide significantly impacts the environment. Despite the existence of several energy-efficient programming practices in Android, the leading mobile ecosystem, machine learning-based energy prediction algorithms for mobile App development have yet to be reported. Therefore, this paper proposes a histogram-based gradient boosting classification machine (HGBC), boosted by a metaheuristic approach, for energy prediction in mobile App development. Our metaheuristic approach is responsible for two issues. First, it finds redundant and irrelevant features without any noticeable change in performance. Second, it performs a hyper-parameter tuning for the HGBC algorithm. Since our proposed metaheuristic approach is algorithm-independent, we selected 12 algorithms for the search strategy to find the optimal search algorithm. Our finding shows that a success-history-based parameter adaption for differential evolution with linear population size (L-SHADE) offers the best performance. It can improve performance and decrease the number of features effectively. Our extensive set of experiments clearly shows that our proposed approach can provide significant results for energy consumption prediction.
翻訳日:2023-06-19 13:13:54 公開日:2023-06-16
# 友人か敵か? 科学システムにおける大規模言語モデルの影響を探る

Friend or Foe? Exploring the Implications of Large Language Models on the Science System ( http://arxiv.org/abs/2306.09928v1 )

ライセンス: Link先を確認
Benedikt Fecher, Marcel Hebing, Melissa Laufer, J\"org Pohle, Fabian Sofsky(参考訳) openaiによるchatgptの出現は、科学と高等教育への潜在的影響に関する広範な議論を促した。 教育への影響は重視されているが、大規模言語モデル(llm)やllmベースのチャットボットが科学や科学の実践に与える影響に関する実証研究は限られている。 これをさらに調査するため,研究とaiを専門とする72人の専門家によるdelphi研究を行った。 本研究は, LLMの適用と限界, 科学システムへの影響, 倫理的および法的考察, 有効利用に必要な能力に着目した。 本研究は,科学,特に行政,創造,分析におけるLLMの変容の可能性を明らかにするものである。 しかし、バイアス、誤った情報、品質保証に関するリスクは、積極的な規制と科学教育を通じて対処する必要がある。 この研究は、科学における生成AIの影響に関する情報的な議論に寄与し、将来の行動の領域を特定するのに役立つ。

The advent of ChatGPT by OpenAI has prompted extensive discourse on its potential implications for science and higher education. While the impact on education has been a primary focus, there is limited empirical research on the effects of large language models (LLMs) and LLM-based chatbots on science and scientific practice. To investigate this further, we conducted a Delphi study involving 72 experts specialising in research and AI. The study focused on applications and limitations of LLMs, their effects on the science system, ethical and legal considerations, and the required competencies for their effective use. Our findings highlight the transformative potential of LLMs in science, particularly in administrative, creative, and analytical tasks. However, risks related to bias, misinformation, and quality assurance need to be addressed through proactive regulation and science education. This research contributes to informed discussions on the impact of generative AI in science and helps identify areas for future action.
翻訳日:2023-06-19 13:13:33 公開日:2023-06-16
# 学習したトランスフォーマーは文脈内で線形モデルを学ぶ

Trained Transformers Learn Linear Models In-Context ( http://arxiv.org/abs/2306.09927v1 )

ライセンス: Link先を確認
Ruiqi Zhang, Spencer Frei, Peter L. Bartlett(参考訳) 意図しないタスクからトークンの短いプロンプトシーケンスを与えられたら、パラメータを更新することなく、関連するトーケンと次のトーケンの予測を定式化できます。 ラベル付きトレーニングデータとラベルなしテストデータをプロンプトとして組み込むことで、トランスフォーマーは教師付き学習アルゴリズムのように振る舞うことができる。 実際、最近の研究は、線形回帰問題のランダムなインスタンス上でトランスフォーマーアーキテクチャを訓練する場合、これらのモデルの予測は通常の最小二乗のアーキテクチャを模倣することを示している。 この現象のメカニズムを理解するために,線形回帰タスクにおける勾配流によって訓練された1つの線形自己アテンション層を持つ変圧器のICLのダイナミクスについて検討する。 非凸性にもかかわらず、適切なランダム初期化を伴う勾配流は目的関数の最大の最小値を求める。 このグローバル最小では、新しい予測タスクからラベル付きサンプルのテストプロンプトが与えられると、テストプロンプト分布よりも最適な線形予測器と競合する予測エラーが達成される。 さらに,訓練された変圧器のロバスト性を様々な分布シフトに特徴付け,多くのシフトが許容されるが,プロンプトの共変量分布のシフトはそうではないことを示す。 この動機付けにより,共変量分布がプロンプトによって変化する一般化icl設定を考える。 グラデーションフローはこの設定でグローバル最小値を求めるのに成功しているが、訓練されたトランスフォーマーは穏やかな共変量シフトの下でも不安定である。

Attention-based neural networks such as transformers have demonstrated a remarkable ability to exhibit in-context learning (ICL): Given a short prompt sequence of tokens from an unseen task, they can formulate relevant per-token and next-token predictions without any parameter updates. By embedding a sequence of labeled training data and unlabeled test data as a prompt, this allows for transformers to behave like supervised learning algorithms. Indeed, recent work has shown that when training transformer architectures over random instances of linear regression problems, these models' predictions mimic those of ordinary least squares. Towards understanding the mechanisms underlying this phenomenon, we investigate the dynamics of ICL in transformers with a single linear self-attention layer trained by gradient flow on linear regression tasks. We show that despite non-convexity, gradient flow with a suitable random initialization finds a global minimum of the objective function. At this global minimum, when given a test prompt of labeled examples from a new prediction task, the transformer achieves prediction error competitive with the best linear predictor over the test prompt distribution. We additionally characterize the robustness of the trained transformer to a variety of distribution shifts and show that although a number of shifts are tolerated, shifts in the covariate distribution of the prompts are not. Motivated by this, we consider a generalized ICL setting where the covariate distributions can vary across prompts. We show that although gradient flow succeeds at finding a global minimum in this setting, the trained transformer is still brittle under mild covariate shifts.
翻訳日:2023-06-19 13:13:18 公開日:2023-06-16
# 仮想ロボットの過去の行動に関する質問を要約・回答する学習

Learning to Summarize and Answer Questions about a Virtual Robot's Past Actions ( http://arxiv.org/abs/2306.09922v1 )

ライセンス: Link先を確認
Chad DeChant, Iretiayo Akinola, Daniel Bauer(参考訳) ロボットが長いアクションシーケンスを実行すると、ユーザーは自分のしたことを簡単かつ確実に見つけ出すことができる。 そこで本研究では,自然言語のみを用いて,ロボットエージェントの過去の行動に関する質問を要約し,回答するタスクを提示する。 大きな言語モデルを持つ単一のシステムは、仮想ロボットのエゴ中心のビデオフレームと質問プロンプトによって、アクションシーケンスに関する質問を要約し、答えるように訓練される。 質問応答の訓練を可能にするため,仮想環境におけるロボット行動のエピソード中に生じた動作や動作,時間的順序について,英語の質問や回答を自動的に生成する手法を開発した。 質問の要約と回答の両方を訓練することで、質問応答を通じて学習したオブジェクトの表現をゼロショット転送し、アクションの要約を改善することができる。 7%) が, 訓練ではみられなかった対象を要約した。

When robots perform long action sequences, users will want to easily and reliably find out what they have done. We therefore demonstrate the task of learning to summarize and answer questions about a robot agent's past actions using natural language alone. A single system with a large language model at its core is trained to both summarize and answer questions about action sequences given ego-centric video frames of a virtual robot and a question prompt. To enable training of question answering, we develop a method to automatically generate English-language questions and answers about objects, actions, and the temporal order in which actions occurred during episodes of robot action in the virtual environment. Training one model to both summarize and answer questions enables zero-shot transfer of representations of objects learned through question answering to improved action summarization. % involving objects not seen in training to summarize.
翻訳日:2023-06-19 13:12:51 公開日:2023-06-16
# 強烈な感情がない:自然言語推論における中立性の再操作

No Strong Feelings One Way or Another: Re-operationalizing Neutrality in Natural Language Inference ( http://arxiv.org/abs/2306.09918v1 )

ライセンス: Link先を確認
Animesh Nighojkar and Antonio Laverghetta Jr. and John Licato(参考訳) 自然言語推論(nli)は、言語モデルの推論能力を評価する上で重要なタスクである。 しかしながら、NLIで使用される標準的な3方向分類方式は、自然な人間の推論のニュアンスを捉えるモデルの能力を評価する上で、よく知られた欠点がある。 本稿では,現在のnliデータセットにおける中性ラベルの操作性は有効性が低く,矛盾して解釈され,少なくとも一つの重要な中立性感覚は無視されることが多いことを論じる。 これらの欠点による有害な影響を明らかにすることで、ダウンストリームタスクのパフォーマンスを実際に低下させるアノテーションデータセットが生まれる場合もあります。 我々は, 問題のある運用化に基づいてアノテータ研究を設計した最近のNLIデータセットにおいて, アノテーションの不一致を処理し, 欠陥を識別するアプローチを比較した。 以上の結果から,NLP コミュニティのさらなる議論と行動を促すために,NLI のより洗練された評価フレームワークの必要性が浮かび上がっている。

Natural Language Inference (NLI) has been a cornerstone task in evaluating language models' inferential reasoning capabilities. However, the standard three-way classification scheme used in NLI has well-known shortcomings in evaluating models' ability to capture the nuances of natural human reasoning. In this paper, we argue that the operationalization of the neutral label in current NLI datasets has low validity, is interpreted inconsistently, and that at least one important sense of neutrality is often ignored. We uncover the detrimental impact of these shortcomings, which in some cases leads to annotation datasets that actually decrease performance on downstream tasks. We compare approaches of handling annotator disagreement and identify flaws in a recent NLI dataset that designs an annotator study based on a problematic operationalization. Our findings highlight the need for a more refined evaluation framework for NLI, and we hope to spark further discussion and action in the NLP community.
翻訳日:2023-06-19 13:12:07 公開日:2023-06-16
# 量子連合学習に向けて

Towards Quantum Federated Learning ( http://arxiv.org/abs/2306.09912v1 )

ライセンス: Link先を確認
Chao Ren, Han Yu, Rudai Yan, Minrui Xu, Yuan Shen, Huihui Zhu, Dusit Niyato, Zhao Yang Dong, Leong Chuan Kwek(参考訳) 量子フェデレーション学習(quantum federated learning, qfl)は、量子コンピューティング(qc)とフェデレーション学習(fl)の原則を融合させた、新たな学際的分野である。 現在、この学際分野に関する総合的な調査は行われていない。 このレビューはQFLを徹底的に総合的に検証する。 我々は、QFLの原則、技術、および新しい応用に関する包括的理解を提供することを目指している。 我々は,この急速に発展する分野における研究の現状を議論し,これらの技術の統合に伴う課題と機会を特定し,今後の方向性と今後の研究課題を概説する。 本稿では,QFL法の特徴とそれを用いた量子技術に基づいて分類した独自の分類法を提案する。 QFLの分野が進むにつれて、さまざまな業界におけるさらなるブレークスルーやアプリケーション、イノベーションの推進、データプライバシ、セキュリティ、リソース最適化に関する課題への対処が期待できます。 このレビューは、QFLの分野の理解と進歩に関心のある研究者や実践者のための、先駆的な総合的なガイドとなっている。

Quantum Federated Learning (QFL) is an emerging interdisciplinary field that merges the principles of Quantum Computing (QC) and Federated Learning (FL), with the goal of leveraging quantum technologies to enhance privacy, security, and efficiency in the learning process. Currently, there is no comprehensive survey for this interdisciplinary field. This review offers a thorough, holistic examination of QFL. We aim to provide a comprehensive understanding of the principles, techniques, and emerging applications of QFL. We discuss the current state of research in this rapidly evolving field, identify challenges and opportunities associated with integrating these technologies, and outline future directions and open research questions. We propose a unique taxonomy of QFL techniques, categorized according to their characteristics and the quantum techniques employed. As the field of QFL continues to progress, we can anticipate further breakthroughs and applications across various industries, driving innovation and addressing challenges related to data privacy, security, and resource optimization. This review serves as a first-of-its-kind comprehensive guide for researchers and practitioners interested in understanding and advancing the field of QFL.
翻訳日:2023-06-19 13:11:49 公開日:2023-06-16
# 未引用記事とその引用濃度への影響

Uncited articles and their effect on the concentration of citations ( http://arxiv.org/abs/2306.09911v1 )

ライセンス: Link先を確認
Diego Kozlowski1, Jens Peter Andersen and Vincent Larivi\`ere(参考訳) 実証的な証拠は、学術出版物から受けた引用が優先的な愛着のパターンを踏襲し、権力の分配をもたらすことを示している。 このような非対称性は、研究評価における引用の使用に関する重要な議論を引き起こしている。 しかし、引用濃度の歴史的傾向についてはまだ合意が得られていない。 引用は少数の記事に集中しているのだろうか? それとも、最近の地政学的・技術的変化は、より分散した分布につながったのか? この議論は、不平等の測定における技術的明確さの欠如に起因している。 規律や時間とともに引用の実践のバリエーションを考えると、発見に影響を与える複数の要因を考慮することが重要です。 本稿では,参照ベースおよび引用ベースのアプローチ,引用インフレーション,書誌データベースの拡張,学際的差異,自己引用が引用集中の進化にどのように影響するかを考察する。 以上の結果から, サイテーション濃度の低下傾向は, 主に未引用品の減少に起因し, アジアとヨーロッパの重要性が増大していることに起因していることが示唆された。 全体としては, 引用濃度に関する最近の議論が明らかになり, 広く支持されている信仰とは対照的に, 引用がますます散在していることを示す。

Empirical evidence demonstrates that citations received by scholarly publications follow a pattern of preferential attachment, resulting in a power-law distribution. Such asymmetry has sparked significant debate regarding the use of citations for research evaluation. However, a consensus has yet to be established concerning the historical trends in citation concentration. Are citations becoming more concentrated in a small number of articles? Or have recent geopolitical and technical changes in science led to more decentralized distributions? This ongoing debate stems from a lack of technical clarity in measuring inequality. Given the variations in citation practices across disciplines and over time, it is crucial to account for multiple factors that can influence the findings. This article explores how reference-based and citation-based approaches, uncited articles, citation inflation, the expansion of bibliometric databases, disciplinary differences, and self-citations affect the evolution of citation concentration. Our results indicate a decreasing trend in citation concentration, primarily driven by a decline in uncited articles, which, in turn, can be attributed to the growing significance of Asia and Europe. On the whole, our findings clarify current debates on citation concentration and show that, contrary to a widely-held belief, citations are increasingly scattered.
翻訳日:2023-06-19 13:11:16 公開日:2023-06-16
# LabelBench: ラベル効率の学習をベンチマークするための総合的なフレームワーク

LabelBench: A Comprehensive Framework for Benchmarking Label-Efficient Learning ( http://arxiv.org/abs/2306.09910v1 )

ライセンス: Link先を確認
Jifan Zhang, Yifang Chen, Gregory Canal, Stephen Mussmann, Yinglun Zhu, Simon Shaolei Du, Kevin Jamieson, Robert D Nowak(参考訳) ラベル付きデータは現代の機械学習アプリケーションには不可欠だが、ラベルの取得には費用がかかる。 このコストを軽減するために、転送学習、半教師付き学習、アクティブラーニングなどの機械学習手法はラベル効率を目標とし、比較的少数のラベル付き例から高い予測性能を達成する。 実際に最高のラベル効率を得るには、これらのテクニックの組み合わせを必要とすることが多いが、既存のベンチマークと評価フレームワークは、これらすべてのテクニックの併用を捉えていない。 本稿では,複数のラベル効率学習手法を共同評価するための新しい計算効率の高いフレームワークである labelbench を導入することで,この不足に対処する。 LabelBench の応用として,手動学習と半教師あり学習を組み合わせた最新の能動学習手法のベンチマークを導入する。 我々のベンチマークでは, これまでに報告されたアクティブラーニングよりも優れたラベル効率を示す。 labelbenchのモジュラーコードベースは、より広いコミュニティがラベル効率のよい学習方法とベンチマークを提供するためにオープンソースである。 リポジトリは、https://github.com/EfficientTraining/LabelBench.comで見ることができる。

Labeled data are critical to modern machine learning applications, but obtaining labels can be expensive. To mitigate this cost, machine learning methods, such as transfer learning, semi-supervised learning and active learning, aim to be label-efficient: achieving high predictive performance from relatively few labeled examples. While obtaining the best label-efficiency in practice often requires combinations of these techniques, existing benchmark and evaluation frameworks do not capture a concerted combination of all such techniques. This paper addresses this deficiency by introducing LabelBench, a new computationally-efficient framework for joint evaluation of multiple label-efficient learning techniques. As an application of LabelBench, we introduce a novel benchmark of state-of-the-art active learning methods in combination with semi-supervised learning for fine-tuning pretrained vision transformers. Our benchmark demonstrates better label-efficiencies than previously reported in active learning. LabelBench's modular codebase is open-sourced for the broader community to contribute label-efficient learning methods and benchmarks. The repository can be found at: https://github.com/EfficientTraining/LabelBench.
翻訳日:2023-06-19 13:10:43 公開日:2023-06-16
# 敵の攻撃リスクを管理するにはロバストな機械学習は必要ない

You Don't Need Robust Machine Learning to Manage Adversarial Attack Risks ( http://arxiv.org/abs/2306.09951v1 )

ライセンス: Link先を確認
Edward Raff, Michel Benaroch, Andrew L. Farris(参考訳) 現代の機械学習(ML)モデルの堅牢性は、コミュニティ内で懸念が高まっている。 この懸念に堅牢なモデルを構築することには成功していないため、入力に不連続な変更を施すような誤った予測にモデルを変換できることは驚くべきことです。 既存の研究は進歩を見せているが、現在の緩和はコストが高く、同時にモデルの精度を低下させる。 しかし、そのようなトレードオフは、他の設計選択がリスクを回避できる場合に必要ではないかもしれない。 本調査では、敵機械学習(AML)の現実的リスクを平均的エンティティに対して批判的に評価するため、攻撃とその実世界発生に関する現在の文献を概観する。 これは、実際にこれらの攻撃を緩和する方法、運用デプロイメントのリスク、そしてそれらのリスクをどのように管理するかに注目して行われる。 このような中で、多くのAML脅威は、攻撃の可能性が低く、かつ優れた非ML緩和が可能であるため、ロバスト性のコストとトレードオフを保証しない。 私たちの分析では、アクターがAMLに関心を持つべきケースを、完全なデプロイメントに堅牢なMLモデルが必要である程度に推奨しています。

The robustness of modern machine learning (ML) models has become an increasing concern within the community. The ability to subvert a model into making errant predictions using seemingly inconsequential changes to input is startling, as is our lack of success in building models robust to this concern. Existing research shows progress, but current mitigations come with a high cost and simultaneously reduce the model's accuracy. However, such trade-offs may not be necessary when other design choices could subvert the risk. In this survey we review the current literature on attacks and their real-world occurrences, or limited evidence thereof, to critically evaluate the real-world risks of adversarial machine learning (AML) for the average entity. This is done with an eye toward how one would then mitigate these attacks in practice, the risks for production deployment, and how those risks could be managed. In doing so we elucidate that many AML threats do not warrant the cost and trade-offs of robustness due to a low likelihood of attack or availability of superior non-ML mitigations. Our analysis also recommends cases where an actor should be concerned about AML to the degree where robust ML models are necessary for a complete deployment.
翻訳日:2023-06-19 13:02:39 公開日:2023-06-16
# 高度にクラスタリングされたグラフのほぼ最適階層クラスタリング

Nearly-Optimal Hierarchical Clustering for Well-Clustered Graphs ( http://arxiv.org/abs/2306.09950v1 )

ライセンス: Link先を確認
Steinar Laenen, Bogdan-Adrian Manghiuc, He Sun(参考訳) 本稿では,Dasguptaのコスト関数に対する2つの効率的な階層クラスタリングアルゴリズムを提案する。 クラスタ構造を明確にした任意の入力グラフ$G$に対して、設計したアルゴリズムは、入力サイズが$G$でほぼ直線的に動作し、Dasguptaのコスト関数に関して$O(1)$-approximate HCツリーを返す。 合成および実世界のデータセットにおける従来の最先端のアルゴリズムと比較し、設計したアルゴリズムがより少ない実行時間で比較またはより良いHC木を生成することを示す。

This paper presents two efficient hierarchical clustering (HC) algorithms with respect to Dasgupta's cost function. For any input graph $G$ with a clear cluster-structure, our designed algorithms run in nearly-linear time in the input size of $G$, and return an $O(1)$-approximate HC tree with respect to Dasgupta's cost function. We compare the performance of our algorithm against the previous state-of-the-art on synthetic and real-world datasets and show that our designed algorithm produces comparable or better HC trees with much lower running time.
翻訳日:2023-06-19 13:02:20 公開日:2023-06-16
# 拡散モデルによる認定セグメンテーションの改善に向けて

Towards Better Certified Segmentation via Diffusion Models ( http://arxiv.org/abs/2306.09949v1 )

ライセンス: Link先を確認
Othmane Laousy, Alexandre Araujo, Guillaume Chassagnon, Marie-Pierre Revel, Siddharth Garg, Farshad Khorrami, Maria Vakalopoulou(参考訳) 画像セグメンテーションの堅牢性は、セグメンテーションモデルが生産レベルの精度に達するにつれ、ここ数年で重要な研究トピックとなっている。 しかし、分類モデルと同様に、セグメンテーションモデルは敵の摂動に対して脆弱であり、医療や自律運転のような臨界判定システムでの使用を妨げる。 近年,理論的保証を得るためにガウス雑音を入力に加えることにより,セグメント化予測のランダム化が提案されている。 しかし, この手法は, 付加雑音量と認定レベルとのトレードオフを示す。 本稿では,ランダムな平滑化と拡散モデルを組み合わせたセグメンテーション予測の問題に対処する。 ランダム化スムース化モデルと拡散モデルを組み合わせることで,従来のPascal-ContextおよびCityscapesの公開データセットと比較して,21ポイントの精度向上を示す結果が得られた。 本手法は選択したセグメンテーションモデルとは独立であり,特別なトレーニング手順は不要である。

The robustness of image segmentation has been an important research topic in the past few years as segmentation models have reached production-level accuracy. However, like classification models, segmentation models can be vulnerable to adversarial perturbations, which hinders their use in critical-decision systems like healthcare or autonomous driving. Recently, randomized smoothing has been proposed to certify segmentation predictions by adding Gaussian noise to the input to obtain theoretical guarantees. However, this method exhibits a trade-off between the amount of added noise and the level of certification achieved. In this paper, we address the problem of certifying segmentation prediction using a combination of randomized smoothing and diffusion models. Our experiments show that combining randomized smoothing and diffusion models significantly improves certified robustness, with results indicating a mean improvement of 21 points in accuracy compared to previous state-of-the-art methods on Pascal-Context and Cityscapes public datasets. Our method is independent of the selected segmentation model and does not need any additional specialized training procedure.
翻訳日:2023-06-19 13:02:08 公開日:2023-06-16
# RealImpact: 実物に対する衝撃音場のデータセット

RealImpact: A Dataset of Impact Sound Fields for Real Objects ( http://arxiv.org/abs/2306.09944v1 )

ライセンス: Link先を確認
Samuel Clarke, Ruohan Gao, Mason Wang, Mark Rau, Julia Xu, Jui-Hsien Wang, Doug L. James, Jiajun Wu(参考訳) オブジェクトは、異なる摂動や環境条件の下でユニークな音を作り、リスナーに対してポーズを取る。 先行研究はシミュレーションにおける衝撃音と音の伝搬をモデル化してきたが、実物体の衝撃音場に関する標準データセットは欠如している。 制御条件下で記録された実物体衝撃音の大規模データセットであるRealImpactを提案する。 realimpactには、50個の日常オブジェクトの衝突音の15万の録音があり、衝突位置、マイクの位置、コンタクトフォースプロファイル、素材ラベル、rgbd画像など、詳細な注釈がある。 実世界と一致した物体衝撃音を推定するための現在のシミュレーション手法の参考として,我々のデータセットを予備試行する。 さらに,リスナ位置分類と視覚音響マッチングの2つのベンチマークタスクの評価を通して,音声・音声・視覚学習のためのテストベッドとしてのデータセットの有用性を示す。

Objects make unique sounds under different perturbations, environment conditions, and poses relative to the listener. While prior works have modeled impact sounds and sound propagation in simulation, we lack a standard dataset of impact sound fields of real objects for audio-visual learning and calibration of the sim-to-real gap. We present RealImpact, a large-scale dataset of real object impact sounds recorded under controlled conditions. RealImpact contains 150,000 recordings of impact sounds of 50 everyday objects with detailed annotations, including their impact locations, microphone locations, contact force profiles, material labels, and RGBD images. We make preliminary attempts to use our dataset as a reference to current simulation methods for estimating object impact sounds that match the real world. Moreover, we demonstrate the usefulness of our dataset as a testbed for acoustic and audio-visual learning via the evaluation of two benchmark tasks, including listener location classification and visual acoustic matching.
翻訳日:2023-06-19 13:01:51 公開日:2023-06-16
# 複数反射境界は絡み合い収穫を向上させるか?

Are multiple reflecting boundaries capable of enhancing entanglement harvesting? ( http://arxiv.org/abs/2306.09943v1 )

ライセンス: Link先を確認
Dipankar Barman, Bibhas Ranjan Majhi(参考訳) 相対論的設定で収穫する量子絡み合いは近年多くの注目を集めている。 2つの量子ビット内でより絡み合うものを取得することは、それらの間の実りあるコミュニケーションを確立するために非常に望ましい。 一方、時空における反射境界の使用は、空洞量子光学系とよく似ている。 ここで,2つの反射境界が存在する場合,背景スカラー場と相互作用するunruh-dewitt検出器間の絡み合いの発生について検討する。 境界や単一境界の状況は無くとも、リンドラーの対向するウェッジでは絡み合いの収穫が可能である。 反射境界が二重の役割を果たすことを観察する。 ある種のパラメータ空間では抑制を引き起こすが、他のパラメータ空間では境界や単一境界の場合と比較して絡み合いが増大する。 したがって、境界の増大は、この現象に大きな影響を与え、パラメータの適切な選択は、その希薄な増加をもたらす。

Quantum entanglement harvesting in the relativistic setup attracted a lot of attention in recent times. Acquiring more entanglement within two qubits may be very desirable to establish fruitful communication between them. On the other hand use of reflecting boundaries in a spacetime has close resemblance to the cavity quantum optomechanical systems. Here, in presence of two reflecting boundaries, we study the generation of entanglement between two uniformly accelerated Unruh- DeWitt detectors which are interacting with the background scalar fields. Like no boundary and single boundary situations, entanglement harvesting is possible for their motions in opposite Rindler wedges. We observe that the reflecting boundaries can play double roles. In some parameter space it causes suppression, while in other parameter space we can have enhancement of entanglement compared to no boundary and single boundary cases. Thus increase of boundaries has significant impact in this phenomena and a suitable choices of parameters provides diresable increment of it.
翻訳日:2023-06-19 13:01:34 公開日:2023-06-16
# 非局所相関におけるブラックホールの量子大気のシグネチャ

Signatures of the black hole quantum atmosphere in nonlocal correlations ( http://arxiv.org/abs/2306.09941v1 )

ライセンス: Link先を確認
Adam Z. Kaczmarek and Dominik Szcz\k{e}\'sniak(参考訳) 近年、ホーキング放射は事象の地平線ではなく、その外にある量子領域(量子大気)で発生する可能性があることが示唆された。 本研究は、ブラックホール近傍の量子相関を形作る役割を評価することによって、この議論をさらに深めようとしている。 ここでは、これらは幾何学的非局所性の尺度の中で都合よく捕獲され、測定誘起非局所性と呼ばれ、大気の兆候を示す。 特に、大気圏における粒子放射のピークと一致して、事象の地平線の外側で顕著な相関の喪失が観察される。 それでも、相関は常に有限であり、放射温度だけでなく地平線の大きさも連続的にスケールすることが示されている。 したがって、大気のいくつかの特性は量子相関レベルで検出可能であり、新しい洞察と関心の概念の検証を支援する手段を提供する。

Recently, it was suggested that the Hawking radiation may originate not at the event horizon but in the quantum region outside of it, known as the quantum atmosphere. The present study attempts to explore this argument further by assessing its role in shaping quantum correlations near a black hole. Herein, these are conveniently captured within the geometric measure of nonlocality, termed as the measurement-induced nonlocality, and found to exhibit signatures of the atmosphere. In particular, a notable loss of correlations is observed well outside the event horizon, coinciding with the peak of particles radiation in the atmosphere region. Still, the correlations are shown to be always finite therein and to continuously scale with not only the radiation temperature but also with the horizon size. Hence, some characteristics of the atmosphere appears to be detectable at the quantum correlations level, providing novel insight and means to help verify the concept of interest.
翻訳日:2023-06-19 13:01:21 公開日:2023-06-16
# 車両発生に基づく駐車空間検出

Vehicle Occurrence-based Parking Space Detection ( http://arxiv.org/abs/2306.09940v1 )

ライセンス: Link先を確認
Paulo R. Lisboa de Almeida, Jeovane Hon\'orio Alves, Luiz S. Oliveira, Andre Gustavo Hochuli, Jo\~ao V. Fr\"ohlich, Rodrigo A. Krauel(参考訳) スマートパーキングソリューションは、センサー、カメラ、データ分析を使用して、駐車効率を改善し、渋滞を減らす。 近年、駐車場管理の問題に対処するためにコンピュータビジョンベースの手法が広く用いられているが、ほとんどの研究は、駐車場は手動でラベル付けされており、設置コストと実現可能性に影響を与えると想定している。 このギャップを埋めるために,駐車場の画像のシーケンスを受信し,検出された駐車スペースを特定する座標のリストを返却する自動駐車空間検出手法を提案する。 提案手法では,車両の識別にインスタンスセグメンテーションを用い,車両発生時に駐車スペースのヒートマップを生成する。 PKLotとCNRPark-EXTの駐車場データから12の異なる部分集合を用いた結果、AP25のスコアは95.60\%、AP50のスコアは79.90\%に達した。

Smart-parking solutions use sensors, cameras, and data analysis to improve parking efficiency and reduce traffic congestion. Computer vision-based methods have been used extensively in recent years to tackle the problem of parking lot management, but most of the works assume that the parking spots are manually labeled, impacting the cost and feasibility of deployment. To fill this gap, this work presents an automatic parking space detection method, which receives a sequence of images of a parking lot and returns a list of coordinates identifying the detected parking spaces. The proposed method employs instance segmentation to identify cars and, using vehicle occurrence, generate a heat map of parking spaces. The results using twelve different subsets from the PKLot and CNRPark-EXT parking lot datasets show that the method achieved an AP25 score up to 95.60\% and AP50 score up to 79.90\%.
翻訳日:2023-06-19 13:01:06 公開日:2023-06-16
# 直交ノルムを用いた深部CNN訓練における直交正規化の改善に向けて

Towards Better Orthogonality Regularization with Disentangled Norm in Training Deep CNNs ( http://arxiv.org/abs/2306.09939v1 )

ライセンス: Link先を確認
Changhao Wu, Shenan Zhang, Fangsong Long, Ziliang Yin, Tuo Leng(参考訳) 直交正則化は、深いCNNが不安定性と特徴冗長性を訓練するのを防ぐために開発された。 既存の提案の中で、カーネル直交正則化は、畳み込みフィルタによって形成されるグラム行列と直交行列の間の残差を最小化することによって直交を強制する。 本稿では,残差から対角線と相関情報を乱すフィルタの直交性向上のための新しい手法を提案する。 フィルタ間の厳密な直交性を付与する原理に基づく尺度を備えたモデルは、ほぼ直交性において以前の正規化法を超越する。 さらに、比較的浅いモデルにおける厳密なフィルタ直交性の改善の利点を観察するが、モデル深度が増加するにつれて、厳密なカーネル直交性を用いたモデルの性能向上が急激に減少する。 さらに,厳密な核直交性と成長モデル容量との潜在的な衝突の観測に基づいて,核直交性正則化に関する緩和理論を提案する。 緩和されたカーネル直交性は、高容量のモデルの性能向上を実現し、深いモデル性能に対する厳密なカーネル直交性の負担に光を当てる。 我々は CIFAR-10 と CIFAR-100 において ResNet と WideResNet のカーネル直交正規化ツールキットを用いた広範な実験を行った。 厳密な直交と緩和された直交正則化の両方を含むツールキットによるモデル性能の最先端化を観察し、表現的特徴を持つより堅牢なモデルを得る。 これらの実験は我々のツールキットの有効性を実証し、厳密な直交性によってしばしば見過ごされがちな課題に対する洞察を、容量豊富なモデルに対する厳密な直交性の負担に対処する。

Orthogonality regularization has been developed to prevent deep CNNs from training instability and feature redundancy. Among existing proposals, kernel orthogonality regularization enforces orthogonality by minimizing the residual between the Gram matrix formed by convolutional filters and the orthogonality matrix. We propose a novel measure for achieving better orthogonality among filters, which disentangles diagonal and correlation information from the residual. The model equipped with the measure under the principle of imposing strict orthogonality between filters surpasses previous regularization methods in near-orthogonality. Moreover, we observe the benefits of improved strict filter orthogonality in relatively shallow models, but as model depth increases, the performance gains in models employing strict kernel orthogonality decrease sharply. Furthermore, based on the observation of the potential conflict between strict kernel orthogonality and growing model capacity, we propose a relaxation theory on kernel orthogonality regularization. The relaxed kernel orthogonality achieves enhanced performance on models with increased capacity, shedding light on the burden of strict kernel orthogonality on deep model performance. We conduct extensive experiments with our kernel orthogonality regularization toolkit on ResNet and WideResNet in CIFAR-10 and CIFAR-100. We observe state-of-the-art gains in model performance from the toolkit, which includes both strict orthogonality and relaxed orthogonality regularization, and obtain more robust models with expressive features. These experiments demonstrate the efficacy of our toolkit and subtly provide insights into the often overlooked challenges posed by strict orthogonality, addressing the burden of strict orthogonality on capacity-rich models.
翻訳日:2023-06-19 13:00:48 公開日:2023-06-16
# 双極子-双極子相互作用による格子状sr原子の集団散乱

Collective scattering in lattice-trapped Sr atoms via dipole-dipole interactions ( http://arxiv.org/abs/2306.09937v1 )

ライセンス: Link先を確認
Shengnan Zhang, Sandhya Ganesh, Balsant Shivanand Tiwari and Yeshpal Singh(参考訳) 結合双極子モデルに基づいて,5$s5p^{3}$P$_{0}\to5s4d^{3}$D$_{1}$遷移で誘導される双極子-双極子相互作用の存在下で,3次元光学格子に閉じ込められた高密度Srアンサンブルの集合特性について検討した。 その結果,散乱光強度,周波数シフト,直線幅などの集団散乱特性は格子内の原子間距離と原子数に強く依存していることが判明した。 さらに, 放射強度は格子中の原子分布, レーザー偏光, 検出位置に強く依存する。 この結果から, 格子移動アンサンブルの集合的挙動を実験スケールに相当する原子番号で理解するだけでなく, 多体物理を探索するための優れたプラットフォームを提供し, 量子情報処理や量子シミュレーションなどの応用のための新しい窓を開くことができる。

We investigate, based on the coupled dipole model, collective properties of dense Sr ensembles trapped in a three-dimensional (3D) optical lattice in the presence of dipole-dipole interactions induced on the 5$s5p^{3}$P$_{0}\to5s4d^{3}$D$_{1}$ transition. Our results reveal that the collective scattering properties, such as the scattered light intensity, frequency shift and linewidth, strongly depend on the interatomic distance and the atom number in the lattice. Moreover, the emission intensity is strongly dependent on the atomic distribution in lattices, the laser polarization and the detection position. The results not only offer the understanding of collective behaviors of lattice-trapped ensembles with an atom number equivalent to the experimental scale, but also provide an excellent platform for exploring many-body physics, thereby, opening a new window for applications like quantum information processing and quantum simulation.
翻訳日:2023-06-19 13:00:16 公開日:2023-06-16
# 車両画像生成のためのドラッグ誘導拡散モデル

Drag-guided diffusion models for vehicle image generation ( http://arxiv.org/abs/2306.09935v1 )

ライセンス: Link先を確認
Nikos Arechiga, Frank Permenter, Binyang Song, Chenyang Yuan(参考訳) ウェブスケールで訓練された拡散モデルが画像生成に革命をもたらした。 これらのツールのエンジニアリング設計への応用は興味深い可能性だが、現時点では、具体的なエンジニアリング制約をパースし、強制できないため、制限されている。 本稿では,生成過程における性能指標(サロゲートモデルによって予測される)の最適化を可能にする物理ベースのガイダンスを提案することにより,この目標に向けて一歩を踏み出す。 概念実証として,安定拡散に抗力誘導を加えることで,予測された抗力係数を最小化しつつ,新しい車両の画像を生成できる。

Denoising diffusion models trained at web-scale have revolutionized image generation. The application of these tools to engineering design is an intriguing possibility, but is currently limited by their inability to parse and enforce concrete engineering constraints. In this paper, we take a step towards this goal by proposing physics-based guidance, which enables optimization of a performance metric (as predicted by a surrogate model) during the generation process. As a proof-of-concept, we add drag guidance to Stable Diffusion, which allows this tool to generate images of novel vehicles while simultaneously minimizing their predicted drag coefficients.
翻訳日:2023-06-19 12:59:58 公開日:2023-06-16
# MOS予測のための音声表現の評価

Evaluation of Speech Representations for MOS prediction ( http://arxiv.org/abs/2306.09979v1 )

ライセンス: Link先を確認
Frederico S. Oliveira, Edresson Casanova, Arnaldo C\^andido J\'unior, Lucas R. S. Gris, Anderson S. Soares, and Arlindo R. Galv\~ao Filho(参考訳) 本稿では,音声品質予測のための特徴抽出モデルを評価する。 また,教師付き学習モデルと教師付き学習モデルの埋め込みと話者検証モデルの埋め込みを比較して,メトリックMOSを予測するモデルアーキテクチャを提案する。 この研究のために開発されたVCC2018データセットとブラジルとポルトガルのデータセットであるBRSpeechMOSを用いて実験を行った。 結果は、VCC2018とBRSpeech-MOSデータセットの両方で、Whisperモデルがすべてのシナリオで適切であることを示している。 BRSpeechMOSを用いた教師付きおよび自己教師型学習モデルのうち、Whisper-Small は 0.6980 の最良の線形相関を達成し、話者検証モデルである SpeakerNet は 0.6963 の線形相関を達成した。 最高の教師付き自己教師型学習モデルであるWhisper-LargeのVCC2018を用いて線形相関を0.7274とし、最良のモデル話者検証であるTitaNetの線形相関を0.6933とした。 話者検証モデルの結果はわずかに低いが、話者ネットモデルは5Mパラメータしか持たず、リアルタイムアプリケーションに適したものであり、TitaNetモデルはすべての評価モデルの中で最小の192の埋め込みを生成する。 実験結果は、公開されているソースコード1で再現可能である。

In this paper, we evaluate feature extraction models for predicting speech quality. We also propose a model architecture to compare embeddings of supervised learning and self-supervised learning models with embeddings of speaker verification models to predict the metric MOS. Our experiments were performed on the VCC2018 dataset and a Brazilian-Portuguese dataset called BRSpeechMOS, which was created for this work. The results show that the Whisper model is appropriate in all scenarios: with both the VCC2018 and BRSpeech- MOS datasets. Among the supervised and self-supervised learning models using BRSpeechMOS, Whisper-Small achieved the best linear correlation of 0.6980, and the speaker verification model, SpeakerNet, had linear correlation of 0.6963. Using VCC2018, the best supervised and self-supervised learning model, Whisper-Large, achieved linear correlation of 0.7274, and the best model speaker verification, TitaNet, achieved a linear correlation of 0.6933. Although the results of the speaker verification models are slightly lower, the SpeakerNet model has only 5M parameters, making it suitable for real-time applications, and the TitaNet model produces an embedding of size 192, the smallest among all the evaluated models. The experiment results are reproducible with publicly available source-code1 .
翻訳日:2023-06-19 12:53:40 公開日:2023-06-16
# 最適性保証付き逆ロバストクラスタリング

Adversarially robust clustering with optimality guarantees ( http://arxiv.org/abs/2306.09977v1 )

ライセンス: Link先を確認
Soham Jana, Kun Yang, Sanjeev Kulkarni(参考訳) サブガウシアン混合から得られるデータポイントをクラスタリングする問題を考える。 ロイドアルゴリズムのような最適誤記誤差を確実に達成する既存の方法は、通常、外れ値に対して脆弱である。 対照的に、逆摂動に対して頑健に見えるクラスタリング手法は、最適統計的保証を満たすことが分かっていない。 本稿では,逆数外乱の存在を許す場合でも,最適な誤ラベル率を求める単純なアルゴリズムを提案する。 本アルゴリズムは,弱初期化条件が満たされた場合,一定の反復で最適誤差率を達成する。 外れ値がない場合、固定次元では、我々の理論的保証はロイドアルゴリズムと類似している。 提案手法の理論的保証を支援するために, 各種シミュレーションデータセットの大規模実験を行った。

We consider the problem of clustering data points coming from sub-Gaussian mixtures. Existing methods that provably achieve the optimal mislabeling error, such as the Lloyd algorithm, are usually vulnerable to outliers. In contrast, clustering methods seemingly robust to adversarial perturbations are not known to satisfy the optimal statistical guarantees. We propose a simple algorithm that obtains the optimal mislabeling rate even when we allow adversarial outliers to be present. Our algorithm achieves the optimal error rate in constant iterations when a weak initialization condition is satisfied. In the absence of outliers, in fixed dimensions, our theoretical guarantees are similar to that of the Lloyd algorithm. Extensive experiments on various simulated data sets are conducted to support the theoretical guarantees of our method.
翻訳日:2023-06-19 12:53:17 公開日:2023-06-16
# ブラックホールリングダウンの非線形性と重力の量子化

Nonlinearities in Black Hole Ringdowns and the Quantization of Gravity ( http://arxiv.org/abs/2306.09974v1 )

ライセンス: Link先を確認
Thiago Guerreiro(参考訳) アインシュタインの重力理論は、古典的一般相対性理論を超えた予測を描ける低エネルギー有効場の記述を与える。 重力波検出器が改良されると、そのような理論の非古典的特徴が実験的に検証できるかどうかを問うことができる。 ここでは、ブラックホールのリングダウンにおける非線形効果は重力数統計や他の重力波状態の量子特性に敏感であると主張する。 近い将来に測定可能なリングダウン信号の予測には、量子効果を含める必要があるかもしれない。 これは重力と重力波の絡み合いの量子性を調べるための新しい経路を提供する。

Einstein's theory of gravity admits a low energy effective quantum field description from which predictions beyond classical general relativity can be drawn. As gravitational wave detectors improve, one may ask whether non-classical features of such theory can be experimentally verified. Here we argue that nonlinear effects in black hole ringdowns can be sensitive to the graviton number statistics and other quantum properties of gravitational wave states. The prediction of ringdown signals, potentially measurable in the near future, might require the inclusion of quantum effects. This offers a new route to probing the quantum nature of gravity and gravitational wave entanglement.
翻訳日:2023-06-19 12:53:07 公開日:2023-06-16
# 選択的ニューロン分割によるQNNの耐故障性向上

Enhancing Fault Resilience of QNNs by Selective Neuron Splitting ( http://arxiv.org/abs/2306.09973v1 )

ライセンス: Link先を確認
Mohammad Hasan Ahmadilivani, Mahdi Taheri, Jaan Raik, Masoud Daneshtalab, and Maksim Jenihhin(参考訳) ディープニューラルネットワーク(DNN)の優れた性能は、人間の生活の様々な側面に応用されている。 安全クリティカルなアプリケーションは例外ではなく、DNNに厳格な信頼性要件を課している。 量子ニューラルネットワーク(QNN)は、DNNアクセラレータの複雑さに取り組むために登場したが、信頼性の問題が多い。 本稿では, ニューロン脆弱性因子(NVF)に基づく臨界ニューロンの同定にQNNを用いた最近の解析的レジリエンス評価手法を提案する。 その後、計算部分を再設計することなく、加速器内に軽量補正ユニット(LCU)を設計できる臨界ニューロン分割法が提案されている。 この方法は、異なるQNNとデータセットの実験によって検証される。 その結果, 提案手法はTMRよりも2倍のオーバヘッドを有し, 同様のレベルの耐故障性を実現していることがわかった。

The superior performance of Deep Neural Networks (DNNs) has led to their application in various aspects of human life. Safety-critical applications are no exception and impose rigorous reliability requirements on DNNs. Quantized Neural Networks (QNNs) have emerged to tackle the complexity of DNN accelerators, however, they are more prone to reliability issues. In this paper, a recent analytical resilience assessment method is adapted for QNNs to identify critical neurons based on a Neuron Vulnerability Factor (NVF). Thereafter, a novel method for splitting the critical neurons is proposed that enables the design of a Lightweight Correction Unit (LCU) in the accelerator without redesigning its computational part. The method is validated by experiments on different QNNs and datasets. The results demonstrate that the proposed method for correcting the faults has a twice smaller overhead than a selective Triple Modular Redundancy (TMR) while achieving a similar level of fault resiliency.
翻訳日:2023-06-19 12:52:57 公開日:2023-06-16
# HePCo: 継続的なフェデレーション学習のためのデータフリーな不均一なプロンプト統合

HePCo: Data-Free Heterogeneous Prompt Consolidation for Continual Federated Learning ( http://arxiv.org/abs/2306.09970v1 )

ライセンス: Link先を確認
Shaunak Halbe, James Seale Smith, Junjiao Tian, Zsolt Kira(参考訳) 本稿では,サーバがクライアントの集合と通信し,データを共有したり保存したりすることなく,新たな概念を段階的に学習する,CFL(Continuousal Federated Learning)の重要な課題に焦点を当てる。 この問題の複雑さは、継続学習とフェデレート学習の両方の観点からの課題によって複雑化されます。 特に、cflでトレーニングされたモデルは、クライアント間のデータの不均質性によって悪化する破滅的な忘れに苦しむ。 この問題に対する既存の試みは、クライアントや通信チャネルに大きなオーバーヘッドを課す傾向にあり、あるいは保存されたデータにアクセスする必要がある。 本稿では,記憶データへのアクセスを必要とせず,オーバーヘッドコストを最小限に抑えながら,忘れと不均一性に取り組む。 我々は、プロンプトベースのアプローチ(プロンプトとクラシファイアヘッドのみを通信しなければならない)を活用し、サーバにおけるクライアントモデルを統合するための、新しくて軽量な生成と蒸留方式を提案する。 我々は、画像分類の問題を定式化し、比較のための強力なベースラインを確立し、CIFAR-100上で実験を行い、ImageNet-RやDomainNetのような大規模データセットに挑戦する。 提案手法は,通信コストとクライアントレベルの計算コストを大幅に削減しつつ,既存手法と独自のベースラインを最大7%向上させる。

In this paper, we focus on the important yet understudied problem of Continual Federated Learning (CFL), where a server communicates with a set of clients to incrementally learn new concepts over time without sharing or storing any data. The complexity of this problem is compounded by challenges from both the Continual and Federated Learning perspectives. Specifically, models trained in a CFL setup suffer from catastrophic forgetting which is exacerbated by data heterogeneity across clients. Existing attempts at this problem tend to impose large overheads on clients and communication channels or require access to stored data which renders them unsuitable for real-world use due to privacy. In this paper, we attempt to tackle forgetting and heterogeneity while minimizing overhead costs and without requiring access to any stored data. We achieve this by leveraging a prompting based approach (such that only prompts and classifier heads have to be communicated) and proposing a novel and lightweight generation and distillation scheme to consolidate client models at the server. We formulate this problem for image classification and establish strong baselines for comparison, conduct experiments on CIFAR-100 as well as challenging, large-scale datasets like ImageNet-R and DomainNet. Our approach outperforms both existing methods and our own baselines by as much as 7% while significantly reducing communication and client-level computation costs.
翻訳日:2023-06-19 12:52:43 公開日:2023-06-16
# 臨床GPT : 各種医療データを用いた大規模言語モデルと包括的評価

ClinicalGPT: Large Language Models Finetuned with Diverse Medical Data and Comprehensive Evaluation ( http://arxiv.org/abs/2306.09968v1 )

ライセンス: Link先を確認
Guangyu Wang, Guoxing Yang, Zongxin Du, Longjun Fan, Xiaohu Li(参考訳) 大きな言語モデルは様々な自然言語処理(nlp)タスクにおいて例外的な性能を示しており、事前トレーニングや命令の微調整といったテクニックを活用している。 これらの進歩にもかかわらず、実際の不正確さ、推論能力、現実世界の経験の基盤の欠如など、医療応用におけるその効果は限られている。 本研究では,臨床シナリオに最適化された言語モデルである clinicalgpt を提案する。 医療記録、ドメイン特化知識、多ラウンド対話相談などの多種多様な実世界のデータをトレーニングプロセスに組み込むことにより、臨床GPTは複数の臨床業務を扱う準備が整った。 さらに,医療知識質問応答,診察,患者相談,医療記録の診断分析などを含む総合的な評価枠組みを導入する。 以上の結果から,clinicalgptは,医療の重要領域に大規模言語モデルを適用する際の我々のアプローチの有効性を浮き彫りにした。

Large language models have exhibited exceptional performance on various Natural Language Processing (NLP) tasks, leveraging techniques such as the pre-training, and instruction fine-tuning. Despite these advances, their effectiveness in medical applications is limited, due to challenges such as factual inaccuracies, reasoning abilities, and lack grounding in real-world experience. In this study, we present ClinicalGPT, a language model explicitly designed and optimized for clinical scenarios. By incorporating extensive and diverse real-world data, such as medical records, domain-specific knowledge, and multi-round dialogue consultations in the training process, ClinicalGPT is better prepared to handle multiple clinical task. Furthermore, we introduce a comprehensive evaluation framework that includes medical knowledge question-answering, medical exams, patient consultations, and diagnostic analysis of medical records. Our results demonstrate that ClinicalGPT significantly outperforms other models in these tasks, highlighting the effectiveness of our approach in adapting large language models to the critical domain of healthcare.
翻訳日:2023-06-19 12:52:19 公開日:2023-06-16
# 時間論理推論を用いた切り換え非線形系のデータ駆動モデル判別

Data-Driven Model Discrimination of Switched Nonlinear Systems with Temporal Logic Inference ( http://arxiv.org/abs/2306.09966v1 )

ライセンス: Link先を確認
Zeyuan Jin, Nasim Baharisangari, Zhe Xu, and Sze Zheng Yong(参考訳) 本稿では,未知の線形時相論理(ltl)仕様を持つ未知のスイッチングシステムにおいて,未知のダイナミクスとタスクのサンプルデータのみが使用可能なモードシーケンスを管理するタスクを表すデータ駆動型モデル識別の問題に対処する。 この問題を解決するために,未知のダイナミクスを近似し,未知のダイナミクスのセットメンバーシップモデルとltl式の両方が基底真理モデルと仕様/タスクを含むことが保証されるような未知の仕様を推定するデータ駆動手法を提案する。 さらに、学習/推論されたモデルとタスクのペアの区別可能性を分析する最適化アルゴリズムと、実行時の新しい観測と矛盾しないこのセットからモデルとタスクのペアを除外するモデル判別アルゴリズムを提案する。 さらに,モデル判別アルゴリズムの計算効率を向上させるために,推測仕様のサイズを小さくする手法を提案する。

This paper addresses the problem of data-driven model discrimination for unknown switched systems with unknown linear temporal logic (LTL) specifications, representing tasks, that govern their mode sequences, where only sampled data of the unknown dynamics and tasks are available. To tackle this problem, we propose data-driven methods to over-approximate the unknown dynamics and to infer the unknown specifications such that both set-membership models of the unknown dynamics and LTL formulas are guaranteed to include the ground truth model and specification/task. Moreover, we present an optimization-based algorithm for analyzing the distinguishability of a set of learned/inferred model-task pairs as well as a model discrimination algorithm for ruling out model-task pairs from this set that are inconsistent with new observations at run time. Further, we present an approach for reducing the size of inferred specifications to increase the computational efficiency of the model discrimination algorithms.
翻訳日:2023-06-19 12:52:02 公開日:2023-06-16
# 学習の進化論:自然選択から強化学習へ

The Evolution theory of Learning: From Natural Selection to Reinforcement Learning ( http://arxiv.org/abs/2306.09961v1 )

ライセンス: Link先を確認
Taboubi Ahmed(参考訳) 進化は私たちが生きている生物学的世界を形成する基本的なプロセスであり、強化学習は人工知能で環境から学習する知的エージェントを開発するために使用される強力なツールである。 近年、研究者たちはこれら2つの異なる分野のつながりを探究し、それらが以前考えられていたよりも密接な関係にあるという説得力のある証拠を見出している。 本稿では、これらの関係とその意味を考察し、進化システムにおける進化の理解とフィードバックの役割を高めるための強化学習原則の可能性を明らかにする。

Evolution is a fundamental process that shapes the biological world we inhabit, and reinforcement learning is a powerful tool used in artificial intelligence to develop intelligent agents that learn from their environment. In recent years, researchers have explored the connections between these two seemingly distinct fields, and have found compelling evidence that they are more closely related than previously thought. This paper examines these connections and their implications, highlighting the potential for reinforcement learning principles to enhance our understanding of evolution and the role of feedback in evolutionary systems.
翻訳日:2023-06-19 12:51:46 公開日:2023-06-16
# 倉本モデルの同期ダイナミクスに対する量子効果

Quantum Effects on the Synchronization Dynamics of the Kuramoto Model ( http://arxiv.org/abs/2306.09956v1 )

ライセンス: Link先を確認
Anna Delmonte, Alessandro Romito, Giuseppe E. Santoro, Rosario Fazio(参考訳) 倉本モデルは古典的相互作用ローター系の自然同期を記述するパラダイムとして機能する。 本研究では, 量子相互作用ローターをカルデイラ・レゲット法に従って外浴に結合することにより, このモデルを量子領域に拡張する。 ファインマン・ヴァーノン理論を用いて過減衰極限における平均場モデルの研究を行い、量子力学がどのように位相図を修飾するかを示す。 具体的には、量子揺らぎが同期の出現を妨げることを実証するが、完全には抑制しない。 各種温度で同期相への相転移を調べたところ, 量子相転移が0温度で起こる間, 古典的な結果が高温で回復されることが判明した。 さらに, 臨界結合の解析式を導出し, モデルパラメータへの依存性を強調し, 古典的挙動と量子的挙動の相違について検討する。

The Kuramoto model serves as a paradigm for describing spontaneous synchronization in a system of classical interacting rotors. In this study, we extend this model to the quantum domain by coupling quantum interacting rotors to external baths following the Caldeira-Leggett approach. Studying the mean-field model in the overdamped limit using Feynman-Vernon theory, we show how quantum mechanics modifies the phase diagram. Specifically, we demonstrate that quantum fluctuations hinder the emergence of synchronization, albeit not entirely suppressing it. We examine the phase transition into the synchronized phase at various temperatures, revealing that classical results are recovered at high temperatures while a quantum phase transition occurs at zero temperature. Additionally, we derive an analytical expression for the critical coupling, highlighting its dependence on the model parameters, and examine the differences between classical and quantum behavior.
翻訳日:2023-06-19 12:51:38 公開日:2023-06-16
# ヒンジ損失によるノイズデータに対する浅いreluネットワークのトレーニング: いつ、オーバーフィットするのか、良性なのか?

Training shallow ReLU networks on noisy data using hinge loss: when do we overfit and is it benign? ( http://arxiv.org/abs/2306.09955v1 )

ライセンス: Link先を確認
Erin George, Michael Murray, William Swartworth, Deanna Needell(参考訳) 勾配降下法とヒンジ損失法を用いてトレーニングした2層reluネットワークの良性過フィッティングについて検討した。 特に、比較的少数のラベルが破損または反転している線形分離可能なデータを考える。 我々は, ゼロ損失を達成し, 高い確率テストデータを正しく分類した良性過剰適合, ゼロ損失を達成したが, テストデータが一定値の低い確率で誤分類された過適合, クリーンポイントを劣化点ではなく、ゼロ損失を達成し、また高い確率テストデータを正しく分類した, という3つの異なるトレーニング結果を生み出すクリーンデータのマージンについて, 条件を特定した。 我々の分析では、トレーニングを通してニューロンのダイナミクスを詳細に記述し、第1相のクリーンポイントはゼロ損失に近づき、第2相のクリーンポイントはゼロ損失の境界で振動し、破壊ポイントはゼロ損失に向かって収束するか、最終的にネットワークによってゼロになる。 これらの結果は、これらの段階にわたるクリーンな更新と不正な更新の数を制限した組合せ的アプローチを用いて証明する。

We study benign overfitting in two-layer ReLU networks trained using gradient descent and hinge loss on noisy data for binary classification. In particular, we consider linearly separable data for which a relatively small proportion of labels are corrupted or flipped. We identify conditions on the margin of the clean data that give rise to three distinct training outcomes: benign overfitting, in which zero loss is achieved and with high probability test data is classified correctly; overfitting, in which zero loss is achieved but test data is misclassified with probability lower bounded by a constant; and non-overfitting, in which clean points, but not corrupt points, achieve zero loss and again with high probability test data is classified correctly. Our analysis provides a fine-grained description of the dynamics of neurons throughout training and reveals two distinct phases: in the first phase clean points achieve close to zero loss, in the second phase clean points oscillate on the boundary of zero loss while corrupt points either converge towards zero loss or are eventually zeroed by the network. We prove these results using a combinatorial approach that involves bounding the number of clean versus corrupt updates across these phases of training.
翻訳日:2023-06-19 12:51:22 公開日:2023-06-16
# SLACK: コールドスタートとKL正規化による拡張の安定学習

SLACK: Stable Learning of Augmentations with Cold-start and KL regularization ( http://arxiv.org/abs/2306.09998v1 )

ライセンス: Link先を確認
Juliette Marrie, Michael Arbel, Diane Larlus, Julien Mairal(参考訳) データ拡張は、ニューラルネットワークの一般化能力を向上させることで知られ、変換のセットが注意によって選択され、選択はしばしば手動で行われる。 自動データ拡張は、このプロセスを自動化することを目的としている。 ネットワークの事前トレーニングに使用されるか、あるいは自動データ拡張アルゴリズムによって学習されたポリシの一部に強制される、手動で選択されたデフォルト変換の小さなプールから始まります。 本稿では,このような事前知識を生かさずに拡張方針を直接学習することを提案する。 結果として生じる二値最適化問題は、より広い探索空間と二値最適化アルゴリズムの固有の不安定性のためにより困難になる。 これらの問題を緩和するために i)Kullback-Leibler正規化による連続的なコールドスタート戦略に従い、 (ii)連続分布として等級をパラメータ化する。 我々のアプローチは、より困難な設定にもかかわらず、標準ベンチマークの競争結果をもたらし、自然画像を超えて一般化する。

Data augmentation is known to improve the generalization capabilities of neural networks, provided that the set of transformations is chosen with care, a selection often performed manually. Automatic data augmentation aims at automating this process. However, most recent approaches still rely on some prior information; they start from a small pool of manually-selected default transformations that are either used to pretrain the network or forced to be part of the policy learned by the automatic data augmentation algorithm. In this paper, we propose to directly learn the augmentation policy without leveraging such prior knowledge. The resulting bilevel optimization problem becomes more challenging due to the larger search space and the inherent instability of bilevel optimization algorithms. To mitigate these issues (i) we follow a successive cold-start strategy with a Kullback-Leibler regularization, and (ii) we parameterize magnitudes as continuous distributions. Our approach leads to competitive results on standard benchmarks despite a more challenging setting, and generalizes beyond natural images.
翻訳日:2023-06-19 12:43:27 公開日:2023-06-16
# ゼロ・Few-Shotビジュアル質問応答のためのプロンプト技術の検討

Investigating Prompting Techniques for Zero- and Few-Shot Visual Question Answering ( http://arxiv.org/abs/2306.09996v1 )

ライセンス: Link先を確認
Rabiul Awal, Le Zhang, Aishwarya Agrawal(参考訳) 視覚的質問応答(VQA)は、視覚情報を用いて理解し、推論する能力を必要とする課題である。 最近の視覚言語モデルは進歩しているが、特に複雑な構成問題に対処し、知識に基づく推論という新しい領域に適応する際、ゼロショットのVQAに苦しむ。 本稿では,ゼロショットVQA性能を向上させるため,BLIP2モデルに着目した様々なプロンプト戦略について検討する。 いくつかのVQAデータセットに対する包括的調査を行い、異なる質問テンプレートの有効性、いくつかの例題の役割、チェーン・オブ・シンク(CoT)推論の影響、画像キャプションを付加的な視覚的手がかりとして組み込むことのメリットなどを検討した。 様々な結果にもかかわらず,画像キャプションのような注意深い質問テンプレートや付加的な視覚的手がかりの統合は,VQAの性能向上に寄与する可能性が示唆された。 しかし、VQAの精度に悪影響を及ぼすチェーン・オブ・ソート・合理化の使用の限界も同定する。 そこで本研究では,ゼロショットVQAの性能向上を促す可能性について,重要な知見を提供する。

Visual question answering (VQA) is a challenging task that requires the ability to comprehend and reason with visual information. While recent vision-language models have made strides, they continue to struggle with zero-shot VQA, particularly in handling complex compositional questions and adapting to new domains i.e. knowledge-based reasoning. This paper explores the use of various prompting strategies, focusing on the BLIP2 model, to enhance zero-shot VQA performance. We conduct a comprehensive investigation across several VQA datasets, examining the effectiveness of different question templates, the role of few-shot exemplars, the impact of chain-of-thought (CoT) reasoning, and the benefits of incorporating image captions as additional visual cues. Despite the varied outcomes, our findings demonstrate that carefully designed question templates and the integration of additional visual cues, like image captions, can contribute to improved VQA performance, especially when used in conjunction with few-shot examples. However, we also identify a limitation in the use of chain-of-thought rationalization, which negatively affects VQA accuracy. Our study thus provides critical insights into the potential of prompting for improving zero-shot VQA performance.
翻訳日:2023-06-19 12:43:12 公開日:2023-06-16
# 嗜好に基づく強化学習における公正性

Fairness in Preference-based Reinforcement Learning ( http://arxiv.org/abs/2306.09995v1 )

ライセンス: Link先を確認
Umer Siddique, Abhinav Sinha, Yongcan Cao(参考訳) 本稿では、複数の目的が存在する場合の優先型強化学習(PbRL)における公平性の問題に対処する。 主な目的は、各目的を公平に扱いながら、複数の目的を最適化できる制御ポリシーを設計することである。 この目的に向けて,fpbrl(fairness-induced preference-based reinforcement learning)を新たに設計する。 FPbRLの主な考え方は、PbRLにおける報酬に基づく選好よりも、新たな福祉に基づく選好を通じて、複数の目的に関連するベクトル報酬関数を学習することであり、一般化されたジニ福祉関数の最大化による政策学習と合わせて行われる。 最後に,提案手法が効率的かつ公正な政策を学習するための効率性と公平性を両立できることを示すために,3つの異なる環境に関する実験研究を行った。

In this paper, we address the issue of fairness in preference-based reinforcement learning (PbRL) in the presence of multiple objectives. The main objective is to design control policies that can optimize multiple objectives while treating each objective fairly. Toward this objective, we design a new fairness-induced preference-based reinforcement learning or FPbRL. The main idea of FPbRL is to learn vector reward functions associated with multiple objectives via new welfare-based preferences rather than reward-based preference in PbRL, coupled with policy learning via maximizing a generalized Gini welfare function. Finally, we provide experiment studies on three different environments to show that the proposed FPbRL approach can achieve both efficiency and equity for learning effective and fair policies.
翻訳日:2023-06-19 12:42:51 公開日:2023-06-16
# 心血管疾患予測のためのアンサンブルフレームワーク

Ensemble Framework for Cardiovascular Disease Prediction ( http://arxiv.org/abs/2306.09989v1 )

ライセンス: Link先を確認
Achyut Tiwari, Aryan Chugh, Aman Sharma(参考訳) 心臓病は非感染性で静かな死の主要な原因である。 心臓疾患または心血管疾患は、冠動脈疾患、心不全、先天性心疾患、心疾患の4種類に分類される。 心臓病の早期かつ正確な診断は、さらなる怪我を避け、患者の命を救うために不可欠である。 その結果,循環器疾患が致命的な状況になる前に予測できるシステムが必要となる。 機械学習は医学の分野における研究者の関心を喚起している。 心臓疾患の予測のために、研究者は様々な機械学習手法とアプローチを実装している。 この研究では、私たちの知る限りでは、循環器疾患の個人向けのオンライン最大のデータセットの一つであるieee data portのデータセットを使用しました。 データセットはハンガリー、クリーブランド、ロングビーチVA、スイス、スタットログのデータセットと、最大心拍数取得、血清コレステロール、ケストペインタイプ、血糖値の高速化などの重要な特徴を組み合わせたものだ。 ROC, AUC曲線, 特異性, F1スコア, 感度, MCC, 精度など, モデルの有効性と強度を評価する。 本研究では,エクストラツリー分類器,ランダムフォレスト,xgboostなど,複数の機械学習アルゴリズムを用いた階層化アンサンブル分類器を用いたフレームワークを提案する。 提案手法は,既存の文献よりも高い92.34%の精度を実現した。

Heart disease is the major cause of non-communicable and silent death worldwide. Heart diseases or cardiovascular diseases are classified into four types: coronary heart disease, heart failure, congenital heart disease, and cardiomyopathy. It is vital to diagnose heart disease early and accurately in order to avoid further injury and save patients' lives. As a result, we need a system that can predict cardiovascular disease before it becomes a critical situation. Machine learning has piqued the interest of researchers in the field of medical sciences. For heart disease prediction, researchers implement a variety of machine learning methods and approaches. In this work, to the best of our knowledge, we have used the dataset from IEEE Data Port which is one of the online available largest datasets for cardiovascular diseases individuals. The dataset isa combination of Hungarian, Cleveland, Long Beach VA, Switzerland & Statlog datasets with important features such as Maximum Heart Rate Achieved, Serum Cholesterol, Chest Pain Type, Fasting blood sugar, and so on. To assess the efficacy and strength of the developed model, several performance measures are used, such as ROC, AUC curve, specificity, F1-score, sensitivity, MCC, and accuracy. In this study, we have proposed a framework with a stacked ensemble classifier using several machine learning algorithms including ExtraTrees Classifier, Random Forest, XGBoost, and so on. Our proposed framework attained an accuracy of 92.34% which is higher than the existing literature.
翻訳日:2023-06-19 12:42:37 公開日:2023-06-16
# 深層畳み込み残留回帰ニューラルネットワークによる海洋温度の変換観測

Transforming Observations of Ocean Temperature with a Deep Convolutional Residual Regressive Neural Network ( http://arxiv.org/abs/2306.09987v1 )

ライセンス: Link先を確認
Albert Larson and Ali Shafqat Akanda(参考訳) 海面温度(SST)は、地上の真理、リモートセンシング、ハイブリッドモデル手法を通じて測定できる、必須の気候変動である。 ここでは,20世紀後半から21世紀初頭のいくつかの技術進歩を応用して,SST監視の進展を祝う。 既存の水循環観測フレームワークであるFlux to Flow (F2F) をさらに発展させ, AMSR-E と MODIS を高分解能製品に融合させる。 我々のニューラルネットワークアーキテクチャは、深い畳み込み残差回帰ニューラルネットワークに制約されている。 受動マイクロ波放射計AMSR-E, 可視・赤外監視MODIS, およびISASを用いて, 2010年における月12SST測定のスナップショットを3枚利用した。 プラットフォームの性能とこのアプローチの成功を,ルート平均二乗誤差(RMSE)測定値を用いて評価する。 入力データと出力データの1:1構成と大きな観測領域は、1つの計算ノードとdcrrnn構造に対して、現状では難しすぎると判断する。 単一の100×100ピクセル領域と小さなトレーニングデータセットに制約された場合、アルゴリズムはより広い地理的領域をカバーするベースライン実験から改善される。 次の離散的なステップでは、非常に小さな出力範囲を持つ大きな入力範囲について検討する。 さらに、その内のようなコンピュータビジョンタスクを実行する前に、陸地変数と海変数を統合する必要がある。 最後に、私たちが遭遇した計算障害を克服するために並列化が必要であると考えています。

Sea surface temperature (SST) is an essential climate variable that can be measured via ground truth, remote sensing, or hybrid model methodologies. Here, we celebrate SST surveillance progress via the application of a few relevant technological advances from the late 20th and early 21st century. We further develop our existing water cycle observation framework, Flux to Flow (F2F), to fuse AMSR-E and MODIS into a higher resolution product with the goal of capturing gradients and filling cloud gaps that are otherwise unavailable. Our neural network architecture is constrained to a deep convolutional residual regressive neural network. We utilize three snapshots of twelve monthly SST measurements in 2010 as measured by the passive microwave radiometer AMSR-E, the visible and infrared monitoring MODIS instrument, and the in situ Argo dataset ISAS. The performance of the platform and success of this approach is evaluated using the root mean squared error (RMSE) metric. We determine that the 1:1 configuration of input and output data and a large observation region is too challenging for the single compute node and dcrrnn structure as is. When constrained to a single 100 x 100 pixel region and a small training dataset, the algorithm improves from the baseline experiment covering a much larger geography. For next discrete steps, we envision the consideration of a large input range with a very small output range. Furthermore, we see the need to integrate land and sea variables before performing computer vision tasks like those within. Finally, we see parallelization as necessary to overcome the compute obstacles we encountered.
翻訳日:2023-06-19 12:42:15 公開日:2023-06-16
# 広帯域巡回量子メモリにおけるフォトニック偏光絡みの実験的保存

Experimental storage of photonic polarization entanglement in a broadband cyclical quantum memory ( http://arxiv.org/abs/2306.09986v1 )

ライセンス: Link先を確認
C.J. Evans, C.M. Nunn, S.W.L. Cheng, J.D. Franson, T.B. Pittman(参考訳) 本稿では、偏光束縛光子対の一方の部材を能動回路量子メモリ(CQM)デバイスに格納し、他方の部材を受動光遅延線で伝播させる実験について述べる。 保存前および後におけるベルの不平等試験の比較により,CQMが絡み合いを維持する能力について検討し,初歩的絡み合い分布プロトコルを実証した。 絡み合った光子は、中心波長が780 nmでバンド幅が$\sim$10 thzである従来の自発的パラメトリックダウン変換源によって生成され、cqmは、ループベースの量子メモリプラットフォームにおいてアクティブスイッチングに使用されるポッケルズ効果の弱分散性により、さらに広い運用帯域を持つ。

We describe an experiment in which one member of a polarization-entangled photon pair is stored in an active Cyclical Quantum Memory (CQM) device, while the other propagates through a passive optical delay line. A comparison of Bell's inequality tests performed before and after the storage is used to investigate the ability of the CQM to maintain entanglement, and demonstrate a rudimentary entanglement distribution protocol. The entangled photons are produced by a conventional Spontaneous Parametric Down Conversion source with center wavelengths at 780 nm and bandwidths of $\sim$10 THz, while the CQM has an even wider operational bandwidth that is enabled by the weakly dispersive nature of the Pockels effect used for active switching in a loop-based quantum memory platform.
翻訳日:2023-06-19 12:41:49 公開日:2023-06-16
# 機械学習のための変分量子アルゴリズム:理論と応用

Variational quantum algorithms for machine learning: theory and applications ( http://arxiv.org/abs/2306.09984v1 )

ライセンス: Link先を確認
Stefano Mangini(参考訳) このPh.D.論文は、変分量子アルゴリズムと量子機械学習の分野における最先端技術の包括的なレビューを提供する。 第1章は、量子コンピューティングの簡単な概要と変分量子アルゴリズムの詳細な分析に捧げられている。 この議論は量子機械学習に移行し、機械学習と統計学習理論の要素の導入に続いて、機械学習モデルの最も一般的な量子モデルに関するレビューが行われる。 Next, several novel contributions to the field based on previous work are presented, namely: a newly introduced model for a quantum perceptron with applications to recognition and classification tasks; a variational generalization of such a model to reduce the circuit footprint of the proposed architecture; an industrial use case of a quantum autoencoder followed by a quantum classifier used to analyze classical data from an industrial power plant; a study of the entanglement features of quantum neural network circuits; and finally, a noise deconvolution technique to remove a large class of noise when performing arbitrary measurements on qubit systems.

This Ph.D. thesis provides a comprehensive review of the state-of-the-art in the field of Variational Quantum Algorithms and Quantum Machine Learning, including numerous original contributions. The first chapters are devoted to a brief summary of quantum computing and an in-depth analysis of variational quantum algorithms. The discussion then shifts to quantum machine learning, where an introduction to the elements of machine learning and statistical learning theory is followed by a review of the most common quantum counterparts of machine learning models. Next, several novel contributions to the field based on previous work are presented, namely: a newly introduced model for a quantum perceptron with applications to recognition and classification tasks; a variational generalization of such a model to reduce the circuit footprint of the proposed architecture; an industrial use case of a quantum autoencoder followed by a quantum classifier used to analyze classical data from an industrial power plant; a study of the entanglement features of quantum neural network circuits; and finally, a noise deconvolution technique to remove a large class of noise when performing arbitrary measurements on qubit systems.
翻訳日:2023-06-19 12:41:32 公開日:2023-06-16
# 一貫性チェックによる超人モデルの評価

Evaluating Superhuman Models with Consistency Checks ( http://arxiv.org/abs/2306.09983v1 )

ライセンス: Link先を確認
Lukas Fluri, Daniel Paleka, Florian Tram\`er(参考訳) もし機械学習モデルが様々な推論や意思決定タスクで超人的能力を達成するならば、人間は必ずしも基礎的真理の貧弱なプロキシであるので、そのようなモデルを評価するにはどうすればよいだろうか? 本稿では,一貫性チェックを用いた超人的モデル評価フレームワークを提案する。 我々の前提は、超人的決定の正しさは評価できないかもしれないが、モデルの決定がある種の論理的、人間解釈可能な規則を満たさなければ、間違いを生じさせる。 我々は,超人的モデル能力によって決定の正しさを評価するのが困難である3つの課題,すなわちチェスのポジションの評価,将来の出来事の予測,法的判断などにおいて,我々の枠組みをインスタンス化する。 これらのタスクにおけるモデルの(おそらく超人的な)性能に関わらず、意思決定の論理的不整合を発見できることを示す。 例えば、反対のバリュエーションを意味的に同一のボードに割り当てるチェスエンジン、スポーツ記録が時間とともに単調に進化すると予測するgpt-4、犯罪記録に重罪を加えるだけで被告に保釈を割り当てるaiジャッジなどである。

If machine learning models were to achieve superhuman abilities at various reasoning or decision-making tasks, how would we go about evaluating such models, given that humans would necessarily be poor proxies for ground truth? In this paper, we propose a framework for evaluating superhuman models via consistency checks. Our premise is that while the correctness of superhuman decisions may be impossible to evaluate, we can still surface mistakes if the model's decisions fail to satisfy certain logical, human-interpretable rules. We instantiate our framework on three tasks where correctness of decisions is hard to evaluate due to either superhuman model abilities, or to otherwise missing ground truth: evaluating chess positions, forecasting future events, and making legal judgments. We show that regardless of a model's (possibly superhuman) performance on these tasks, we can discover logical inconsistencies in decision making. For example: a chess engine assigning opposing valuations to semantically identical boards; GPT-4 forecasting that sports records will evolve non-monotonically over time; or an AI judge assigning bail to a defendant only after we add a felony to their criminal record.
翻訳日:2023-06-19 12:41:16 公開日:2023-06-16
# 量子工学におけるトポロジカル超伝導とマヨナフェルミオンの紹介

Introduction to Topological Superconductivity and Majorana Fermions for Quantum Engineers ( http://arxiv.org/abs/2306.09982v1 )

ライセンス: Link先を確認
Sanjay Vishwakarma, Sai Nandan Morapakula, Shalini D, Srinjoy Ganguly and Sri Krishna Sai Kankipati(参考訳) 本稿では, トポロジカル超伝導体におけるマヨラナフェルミオンの活発に拡大する研究分野について紹介する。 我々は、位相的超伝導のいくつかの側面と量子コンピューティングにもたらされる利点について論じる。 キタエフ模型とbdgハミルトニアンの数学的導出は、超伝導とマヨラナフェルミオンの現象を説明するために行われる。 マヨラナフェルミオンと非アベル統計は量子エンジニアにとっての意義とともに詳細に記述されている。 この理論はマヨラナを用いた位相キュービットの工学へと導かれた。

In this tutorial paper, we provide an introduction to the briskly expanding research field of Majorana fermions in topological superconductors. We discuss several aspects of topological superconductivity and the advantages it brings to quantum computing. Mathematical derivation of the Kitaev model and BdG Hamiltonian is carried out to explain the phenomena of superconductivity and Majorana fermions. The Majorana fermions and the Non-Abelian statistics are described in detail along with their significance for quantum engineers. The theory provided led towards the engineering of the topological qubits using Majoranas.
翻訳日:2023-06-19 12:40:55 公開日:2023-06-16
# 強化学習におけるマルチレベルスキル階層の構築

Creating Multi-Level Skill Hierarchies in Reinforcement Learning ( http://arxiv.org/abs/2306.09980v1 )

ライセンス: Link先を確認
Joshua B. Evans and \"Ozg\"ur \c{S}im\c{s}ek(参考訳) 自律エージェントにとって有用なスキル階層とは何か? 本稿では,エージェントの環境との相互作用のグラフィカルな構造に基づく回答を提案する。 このアプローチでは,階層的グラフ分割を使用して,さまざまな時間スケールでグラフの構造を公開し,複数の抽象化レベルを持つスキル階層を生成する。 階層のそれぞれのレベルにおいて、スキルはエージェントを、内部で十分に結びついているが互いに弱い結びつきを持つ状態空間の領域間で移動させる。 強化学習の文脈において,様々な領域において,提案するスキル階層の有用性について述べる。

What is a useful skill hierarchy for an autonomous agent? We propose an answer based on the graphical structure of an agent's interaction with its environment. Our approach uses hierarchical graph partitioning to expose the structure of the graph at varying timescales, producing a skill hierarchy with multiple levels of abstraction. At each level of the hierarchy, skills move the agent between regions of the state space that are well connected within themselves but weakly connected to each other. We illustrate the utility of the proposed skill hierarchy in a wide variety of domains in the context of reinforcement learning.
翻訳日:2023-06-19 12:40:47 公開日:2023-06-16
# 1バイト(勾配あたり)のみ:共有ランダム性を用いた低帯域幅分散言語モデルの微調整について

Just One Byte (per gradient): A Note on Low-Bandwidth Decentralized Language Model Finetuning Using Shared Randomness ( http://arxiv.org/abs/2306.10015v1 )

ライセンス: Link先を確認
Eric Zelikman, Qian Huang, Percy Liang, Nick Haber, Noah D. Goodman(参考訳) 分散環境での言語モデルトレーニングは、勾配交換の通信コストによって制限される。 本稿では,帯域幅の少ない分散微調整を行うための共有ランダム性を用いて,malaradi et al. (2023) から最近の研究を拡張した。 この方法は、メモリ効率の同時摂動確率近似(SPSA)の自然な分散拡張である。 各マシンはランダム数生成器(RNG)をシードし、モデルウェイトを局所的に再現可能な摂動を行い、スカラー投影勾配を計算および交換し、各モデルを更新する。 ランダムシードとして(機械、サンプル)識別子を使用することで、各モデルは互いの摂動を再生成することができる。 マシンは1バイトの射影勾配しか交換しないため、通信効率が高い。 予測された勾配は異なるトレーニングデータで計算され、モデルは互いにデータにアクセスできないため、潜在的なプライバシー上のメリットもある。 このアプローチは通信帯域幅の大幅な削減だけでなく、トレーニングプロセス中にマシンの動的な追加や削除を許容し、最近の作業のメモリ効率と推論のみの利点を保ちます。 本手法の有効性を実証するために概念実証実験を行い,分散最適化とメモリ効率のトレーニングに基づく豊富な文献を構築した。

Language model training in distributed settings is limited by the communication cost of gradient exchanges. In this short note, we extend recent work from Malladi et al. (2023), using shared randomness to perform distributed fine-tuning with low bandwidth. The method is a natural decentralized extension of memory-efficient Simultaneous Perturbation Stochastic Approximation (SPSA). Each iteration, each machine seeds a Random Number Generator (RNG) to perform local reproducible perturbations on model weights and calculate and exchange scalar projected gradients, which are then used to update each model. By using a (machine, sample) identifier as the random seed, each model can regenerate one another's perturbations. As machines only exchange single-byte projected gradients, this is highly communication efficient. There are also potential privacy benefits, as projected gradients may be calculated on different training data, and models never access the other's data. Our approach not only drastically reduces communication bandwidth requirements but also accommodates dynamic addition or removal of machines during the training process and retains the memory-efficient and inference-only advantages of recent work. We perform proof-of-concept experiments to demonstrate the potential usefulness of this method, building off of rich literature on distributed optimization and memory-efficient training.
翻訳日:2023-06-19 12:35:18 公開日:2023-06-16
# 教師可能な学生のコーチング

Coaching a Teachable Student ( http://arxiv.org/abs/2306.10014v1 )

ライセンス: Link先を確認
Jimuyang Zhang, Zanming Huang, Eshed Ohn-Bar(参考訳) そこで本研究では,教師の指導からセンサモブターの学生エージェントに効果的に運転を指導するための知識蒸留フレームワークを提案する。 現在, センサモレータエージェントの蒸留は, 学生が学習した運転行動に準ずる傾向があり, 両者の入力, モデル化能力, 最適化プロセスの相違が原因と考えられる。 そこで我々は,これらの制限に対処し,感覚運動エージェントとその特権教師とのギャップを埋める新しい蒸留スキームを開発した。 我々の重要な洞察は、入力機能を教師の特権的なBird's Eye View (BEV)空間に合わせることを学ぶ学生を設計することである。 生徒は、内部表現学習よりも教師の直接監督の恩恵を受けることができる。 難解な感覚運動学習タスクの足場として,様々な補助監督を行う学生ペースコーチング機構を用いて,学習モデル最適化を行う。 さらに,CARLAにおける先行特権エージェントを超越し,学生が安全な運転行動を学ぶための,高能力模倣学習エージェントを提案する。 提案するsensorimotorエージェントは,carlaにおける頑健なイメージベース行動クローニングエージェントとなり,lidar,歴史的な観察,モデルのアンサンブル,オンポリシーデータ集約,強化学習を必要とせずに,現在のモデルよりも20.6%以上向上した。

We propose a novel knowledge distillation framework for effectively teaching a sensorimotor student agent to drive from the supervision of a privileged teacher agent. Current distillation for sensorimotor agents methods tend to result in suboptimal learned driving behavior by the student, which we hypothesize is due to inherent differences between the input, modeling capacity, and optimization processes of the two agents. We develop a novel distillation scheme that can address these limitations and close the gap between the sensorimotor agent and its privileged teacher. Our key insight is to design a student which learns to align their input features with the teacher's privileged Bird's Eye View (BEV) space. The student then can benefit from direct supervision by the teacher over the internal representation learning. To scaffold the difficult sensorimotor learning task, the student model is optimized via a student-paced coaching mechanism with various auxiliary supervision. We further propose a high-capacity imitation learned privileged agent that surpasses prior privileged agents in CARLA and ensures the student learns safe driving behavior. Our proposed sensorimotor agent results in a robust image-based behavior cloning agent in CARLA, improving over current models by over 20.6% in driving score without requiring LiDAR, historical observations, ensemble of models, on-policy data aggregation or reinforcement learning.
翻訳日:2023-06-19 12:34:55 公開日:2023-06-16
# panoocc:カメラベースの3dパンオプティカルセグメンテーションのための統一的な占有率表現

PanoOcc: Unified Occupancy Representation for Camera-based 3D Panoptic Segmentation ( http://arxiv.org/abs/2306.10013v1 )

ライセンス: Link先を確認
Yuqi Wang, Yuntao Chen, Xingyu Liao, Lue Fan and Zhaoxiang Zhang(参考訳) 周囲の3D世界の包括的モデリングは、自動運転の成功の鍵となる。 しかし,物体検出,道路構造のセグメンテーション,深度・標高推定,オープンセットオブジェクトの局所化といった既存の認識タスクは,総合的な3Dシーン理解タスクの小さな面のみに焦点を当てている。 この分割・分散戦略は、アルゴリズム開発手順を、エンドツーエンドの統一解を失うコストで単純化する。 本研究では,カメラのみの3dシーン理解のための統一的な占有表現の実現を目的とした,カメラベースの3dパンオプティカルセグメンテーションの研究によって,この制限に対処する。 そこで我々はPanoOccと呼ばれる新しい手法を導入し,複数のフレームとマルチビュー画像から時空間情報を集約し,特徴学習とシーン表現を統一的占有表現に統合する手法を提案する。 提案手法の有効性と有効性を検証するため,広範なアブレーション研究を行った。 本手法は,カメラを用いたセマンティクスセグメンテーションとパンオプティカルセグメンテーションをnuscenesデータセット上で実現する。 さらに,本手法は密接な占有率予測に容易に拡張でき,Occ3Dベンチマークで有望な性能を示した。 コードはhttps://github.com/robertwyq/panooccでリリースされる。

Comprehensive modeling of the surrounding 3D world is key to the success of autonomous driving. However, existing perception tasks like object detection, road structure segmentation, depth & elevation estimation, and open-set object localization each only focus on a small facet of the holistic 3D scene understanding task. This divide-and-conquer strategy simplifies the algorithm development procedure at the cost of losing an end-to-end unified solution to the problem. In this work, we address this limitation by studying camera-based 3D panoptic segmentation, aiming to achieve a unified occupancy representation for camera-only 3D scene understanding. To achieve this, we introduce a novel method called PanoOcc, which utilizes voxel queries to aggregate spatiotemporal information from multi-frame and multi-view images in a coarse-to-fine scheme, integrating feature learning and scene representation into a unified occupancy representation. We have conducted extensive ablation studies to verify the effectiveness and efficiency of the proposed method. Our approach achieves new state-of-the-art results for camera-based semantic segmentation and panoptic segmentation on the nuScenes dataset. Furthermore, our method can be easily extended to dense occupancy prediction and has shown promising performance on the Occ3D benchmark. The code will be released at https://github.com/Robertwyq/PanoOcc.
翻訳日:2023-06-19 12:34:31 公開日:2023-06-16
# MagicBrush:手書きの注釈付き画像編集用データセット

MagicBrush: A Manually Annotated Dataset for Instruction-Guided Image Editing ( http://arxiv.org/abs/2306.10012v1 )

ライセンス: Link先を確認
Kai Zhang, Lingbo Mo, Wenhu Chen, Huan Sun, Yu Su(参考訳) テキスト誘導画像編集は、個人使用からPhotoshopなどのプロフェッショナルアプリケーションまで、日常生活で広く必要とされる。 しかし、既存の手法はゼロショットか、あるいは大量のノイズを含む自動合成データセットで訓練されている。 したがって、実際に望ましい結果を出すためには、まだ多くの手動チューニングが必要です。 この問題に対処するために、私たちはmagicbrush(https://osu-nlp-group.github.io/magicbrush/)を紹介します。これは、シングルターン、マルチターン、マスク提供、マスクフリーの編集といったさまざまなシナリオをカバーする、命令誘導の実画像編集のための、最初の大規模で手作業によるデータセットです。 MagicBrushは、10K以上の注釈付きトリプル(ソースイメージ、命令、ターゲットイメージ)で構成されており、大規模なテキスト誘導画像編集モデルのトレーニングをサポートする。 MagicBrushでInstructPix2Pixを微調整し、新しいモデルが人間の評価に応じてはるかに優れた画像を生成することを示す。 さらに、定量的、質的、人間的評価を含む多次元から現在の画像編集ベースラインを評価するための広範な実験を行う。 その結果、データセットの難易度と現在のベースラインと現実世界の編集ニーズのギャップが明らかになった。

Text-guided image editing is widely needed in daily life, ranging from personal use to professional applications such as Photoshop. However, existing methods are either zero-shot or trained on an automatically synthesized dataset, which contains a high volume of noise. Thus, they still require lots of manual tuning to produce desirable outcomes in practice. To address this issue, we introduce MagicBrush (https://osu-nlp-group.github.io/MagicBrush/), the first large-scale, manually annotated dataset for instruction-guided real image editing that covers diverse scenarios: single-turn, multi-turn, mask-provided, and mask-free editing. MagicBrush comprises over 10K manually annotated triples (source image, instruction, target image), which supports trainining large-scale text-guided image editing models. We fine-tune InstructPix2Pix on MagicBrush and show that the new model can produce much better images according to human evaluation. We further conduct extensive experiments to evaluate current image editing baselines from multiple dimensions including quantitative, qualitative, and human evaluations. The results reveal the challenging nature of our dataset and the gap between current baselines and real-world editing needs.
翻訳日:2023-06-19 12:33:52 公開日:2023-06-16
# clip2protect: テキスト誘導メイクによる顔のプライバシー保護

CLIP2Protect: Protecting Facial Privacy using Text-Guided Makeup via Adversarial Latent Search ( http://arxiv.org/abs/2306.10008v1 )

ライセンス: Link先を確認
Fahad Shamshad, Muzammal Naseer, Karthik Nandakumar(参考訳) ディープラーニングベースの顔認識システムの成功は、デジタル世界でのユーザを不正に追跡する機能によって、深刻なプライバシー上の懸念を引き起こしている。 既存のプライバシー強化方法は、ユーザー体験を損なうことなく、顔のプライバシーを保護することができる自然なイメージを生成することができない。 本稿では,事前学習された生成モデルの低次元多様体における逆潜時符号の発見に依存する,顔のプライバシー保護のための新しい2段階のアプローチを提案する。 第1ステップは、与えられた顔画像を潜在空間に反転させ、生成モデルを微調整し、その潜在コードから与えられた画像を正確に再構成する。 このステップは、与えられたアイデンティティに似た高品質な顔の生成を支援する優れた初期化を生成する。 その後、ユーザ定義のメイクアップテキストプロンプトとID保存正規化を使用して、潜伏空間における敵コード検索をガイドする。 広範な実験により,顔認証タスクにおける顔プライバシー保護アプローチの絶対値が12.06%と,ブラックボックス転送性が強くなることが示された。 最後に,商用顔認識システムにおける提案手法の有効性を示す。 私たちのコードはhttps://github.com/fahadshamshad/clip2protectで利用可能です。

The success of deep learning based face recognition systems has given rise to serious privacy concerns due to their ability to enable unauthorized tracking of users in the digital world. Existing methods for enhancing privacy fail to generate naturalistic images that can protect facial privacy without compromising user experience. We propose a novel two-step approach for facial privacy protection that relies on finding adversarial latent codes in the low-dimensional manifold of a pretrained generative model. The first step inverts the given face image into the latent space and finetunes the generative model to achieve an accurate reconstruction of the given image from its latent code. This step produces a good initialization, aiding the generation of high-quality faces that resemble the given identity. Subsequently, user-defined makeup text prompts and identity-preserving regularization are used to guide the search for adversarial codes in the latent space. Extensive experiments demonstrate that faces generated by our approach have stronger black-box transferability with an absolute gain of 12.06% over the state-of-the-art facial privacy protection approach under the face verification task. Finally, we demonstrate the effectiveness of the proposed approach for commercial face recognition systems. Our code is available at https://github.com/fahadshamshad/Clip2Protect.
翻訳日:2023-06-19 12:33:28 公開日:2023-06-16
# sensorimotor pre-trainingを用いたロボット学習

Robot Learning with Sensorimotor Pre-training ( http://arxiv.org/abs/2306.10007v1 )

ライセンス: Link先を確認
Ilija Radosavovic, Baifeng Shi, Letian Fu, Ken Goldberg, Trevor Darrell, Jitendra Malik(参考訳) 本稿では,ロボットに対する自己教師付きセンサモデレータの事前学習手法を提案する。 我々のモデルはRTTと呼ばれ、センサモレータトークンのシーケンスで動作するトランスフォーマーである。 カメラ画像のシーケンス、摂動ロボットの状態、過去のアクションが与えられ、インターリーブされたシーケンスをトークンにエンコードし、ランダムなサブセットをマスクアウトし、マスクアウトされたコンテンツを予測するモデルをトレーニングします。 ロボットが不足したコンテンツを予測することができれば、動作可能な物理世界の優れたモデルが得られたという仮説を立てる。 RPTは、予測をトラクタブルにし、10倍大きなモデルにスケーリングし、実際のロボットで10Hzの推論を可能にする潜在視覚表現を操作するように設計されている。 提案手法を評価するために,動作計画とモデルに基づく把握アルゴリズムを組み合わせて,実世界の2万の軌跡のデータセットを9ヶ月にわたって収集した。 このデータの事前トレーニングは、スクラッチからトレーニングを一貫して上回り、ブロック積み上げタスクの2倍の改善をもたらし、良好なスケーリング特性を持つことがわかった。

We present a self-supervised sensorimotor pre-training approach for robotics. Our model, called RPT, is a Transformer that operates on sequences of sensorimotor tokens. Given a sequence of camera images, proprioceptive robot states, and past actions, we encode the interleaved sequence into tokens, mask out a random subset, and train a model to predict the masked-out content. We hypothesize that if the robot can predict the missing content it has acquired a good model of the physical world that can enable it to act. RPT is designed to operate on latent visual representations which makes prediction tractable, enables scaling to 10x larger models, and 10 Hz inference on a real robot. To evaluate our approach, we collect a dataset of 20,000 real-world trajectories over 9 months using a combination of motion planning and model-based grasping algorithms. We find that pre-training on this data consistently outperforms training from scratch, leads to 2x improvements in the block stacking task, and has favorable scaling properties.
翻訳日:2023-06-19 12:33:07 公開日:2023-06-16
# 実演におけるスタイル認識型顔アニメーションの教師なし学習

Unsupervised Learning of Style-Aware Facial Animation from Real Acting Performances ( http://arxiv.org/abs/2306.10006v1 )

ライセンス: Link先を確認
Wolfgang Paier and Anna Hilsmann and Peter Eisert(参考訳) 本稿では,ブレンド形状,動的テクスチャ,およびニューラルレンダリングに基づく,フォトリアリスティックヘッドモデルのテキスト/音声駆動アニメーションに対する新しいアプローチを提案する。 幾何学とテクスチャのためのVAEを訓練すると、潜在特徴ベクトルからの表情の正確なキャプチャと現実的な合成のためのパラメトリックモデルが得られる。 提案手法は,テキストや音声をアニメーションパラメータのシーケンスに変換する条件付きcnnに基づいている。 従来のアプローチとは対照的に,シミュレーションモデルでは,異なる演技スタイルを教師なしの方法で分離/合成し,訓練シーケンスの内容を記述する音素ラベルのみを必要とする。 リアルなリアルタイムレンダリングのために、改良されたピクセルカラーとフォアグラウンドマットを計算してラスタライズベースのレンダリングを洗練するu-netをトレーニングする。 我々は,最近の頭部モデリング法と顔アニメーションとを質的・定量的に比較し,ユーザスタディにおける印象的レンダリング/アニメーション品質の評価を行い,最先端のアプローチと比較して大きな改善点を示した。

This paper presents a novel approach for text/speech-driven animation of a photo-realistic head model based on blend-shape geometry, dynamic textures, and neural rendering. Training a VAE for geometry and texture yields a parametric model for accurate capturing and realistic synthesis of facial expressions from a latent feature vector. Our animation method is based on a conditional CNN that transforms text or speech into a sequence of animation parameters. In contrast to previous approaches, our animation model learns disentangling/synthesizing different acting-styles in an unsupervised manner, requiring only phonetic labels that describe the content of training sequences. For realistic real-time rendering, we train a U-Net that refines rasterization-based renderings by computing improved pixel colors and a foreground matte. We compare our framework qualitatively/quantitatively against recent methods for head modeling as well as facial animation and evaluate the perceived rendering/animation quality in a user-study, which indicates large improvements compared to state-of-the-art approaches
翻訳日:2023-06-19 12:32:50 公開日:2023-06-16
# C2F2Neus:高忠実で一般化可能な神経表面再構成のためのカスケードコストフラストラム核融合

C2F2NeUS: Cascade Cost Frustum Fusion for High Fidelity and Generalizable Neural Surface Reconstruction ( http://arxiv.org/abs/2306.10003v1 )

ライセンス: Link先を確認
Luoyuan Xu, Tao Guan, Yuesong Wang, Wenkai Liu, Zhaojie Zeng, Junle Wang, Wei Yang(参考訳) 多視点ステレオ (mvs) とニューラル暗示面 (nis) という2つの一般的な技術的経路を疎らな視点から再構成する動きが新たに現れている。 本稿では,マルチビューステレオとニューラルサイン付き距離関数表現を組み合わせた新しい統合手法を提案する。 MVSは視深度推定とクロスビュー融合を用いて正確な表面を生成するが、NISは共通の座標体積に依存する。 そこで本研究では,より詳細な幾何推定のための1ビューあたりのコストフラスタムを構築し,クロスビューフラスタムを融合し,ノイズやホール問題に対処するために暗黙的な符号付き距離関数を推定する。 さらに,グローバル局所情報と構造的一貫性を効果的に捉えるためにカスケードフラスタム融合戦略を適用する。 最後に, カスケードサンプリングと擬似幾何学的損失を適用し, 2つのアーキテクチャ間のより強力な統合を促進する。 広範な実験により,本手法はロバストな表面を再構成し,既存の最先端手法を上回った。

There is an emerging effort to combine the two popular technical paths, i.e., the multi-view stereo (MVS) and neural implicit surface (NIS), in scene reconstruction from sparse views. In this paper, we introduce a novel integration scheme that combines the multi-view stereo with neural signed distance function representations, which potentially overcomes the limitations of both methods. MVS uses per-view depth estimation and cross-view fusion to generate accurate surface, while NIS relies on a common coordinate volume. Based on this, we propose to construct per-view cost frustum for finer geometry estimation, and then fuse cross-view frustums and estimate the implicit signed distance functions to tackle noise and hole issues. We further apply a cascade frustum fusion strategy to effectively captures global-local information and structural consistency. Finally, we apply cascade sampling and a pseudo-geometric loss to foster stronger integration between the two architectures. Extensive experiments demonstrate that our method reconstructs robust surfaces and outperforms existing state-of-the-art methods.
翻訳日:2023-06-19 12:32:32 公開日:2023-06-16
# 視覚モデル適応とロバストネスのための群直交化正規化

Group Orthogonalization Regularization For Vision Models Adaptation and Robustness ( http://arxiv.org/abs/2306.10001v1 )

ライセンス: Link先を確認
Yoav Kurtz, Noga Bar, Raja Giryes(参考訳) ニューラルネットワークが深まるにつれて、パラメータ内の冗長性が増大する。 この現象は、畳み込みフィルタ間の相関を減らそうとするいくつかの方法につながった。 同じ層内のフィルタ群間の正則性を促進する計算効率の良い正規化手法を提案する。 実験により,近年の拡散モデルと視覚変換器(ViT)の適応手法に組み込むと,この正規化により下流タスクの性能が向上することが示された。 また,対人訓練中に集団直交を施行した場合の頑健性も改善した。 私たちのコードはhttps://github.com/yoavkurtz/gorで入手できます。

As neural networks become deeper, the redundancy within their parameters increases. This phenomenon has led to several methods that attempt to reduce the correlation between convolutional filters. We propose a computationally efficient regularization technique that encourages orthonormality between groups of filters within the same layer. Our experiments show that when incorporated into recent adaptation methods for diffusion models and vision transformers (ViTs), this regularization improves performance on downstream tasks. We further show improved robustness when group orthogonality is enforced during adversarial training. Our code is available at https://github.com/YoavKurtz/GOR.
翻訳日:2023-06-19 12:32:11 公開日:2023-06-16
# 周期駆動系における損失誘起一方向輸送

Loss-induced universal one-way transport in periodically driven systems ( http://arxiv.org/abs/2306.10000v1 )

ライセンス: Link先を確認
Chang Shu, Kai Zhang, Kai Sun(参考訳) 本稿では,不均衡なオンサイトゲイン/ロスを有する周期的に駆動されるオーブリー・アンドルー・ハーパーモデルが,不純物に免疫し,初期励起に依存しない普遍的な片道輸送をサポートすることを示す。 周期駆動が有効なフロケットハミルトニアンにおいて非エルミティアン皮膚効果を生じさせ、普遍的な非相反輸送を引き起こす根本的なメカニズムを明らかにする。 さらに,Floquet創発性非エルミチアン皮膚効果のサインとして,Lyapunov指数を長時間動的に探索する。 この結果は,実験に容易にアクセス可能なユニバーサル片道輸送を実現するための,実現可能かつ制御可能な手段を提供する。

In this Letter, we show that a periodically driven Aubry-Andr\'e-Harper model with imbalanced onsite gain/loss supports universal one-way transport that is immune to impurities and independent of initial excitations. We reveal the underlying mechanism that the periodic driving gives rise to the non-Hermitian skin effect in the effective Floquet Hamiltonian, thereby causing universal non-reciprocal transport. Additionally, we probe the Lyapunov exponent under long-time dynamics as a signature of the Floquet emergent non-Hermitian skin effect. Our results provide a feasible and controllable way to realize universal one-way transport that is easily accessible to experiments.
翻訳日:2023-06-19 12:32:01 公開日:2023-06-16
# 強対数凹分布に対するランゲヴィン・モンテカルロ:ランダム化された中間点の再検討

Langevin Monte Carlo for strongly log-concave distributions: Randomized midpoint revisited ( http://arxiv.org/abs/2306.08494v2 )

ライセンス: Link先を確認
Lu Yu, Avetik Karagulyan, Arnak Dalalyan(参考訳) 我々は,$\mathbb r^p$ の至る所で滑らかな対数対数密度を持つ対象分布からサンプリングする問題を再検討する。 この文脈では、付加的な密度情報がない場合、動力学的ランジュバン拡散のランダム化中間点離散化は、大きな条件数を持つ高次元において最もスケーラブルな方法であることが知られている。 我々の主な結果は、この手法のワッサーシュタイン-2誤差の上限を非漸近的に計算し易いことである。 計算可能な上界を確立する方法のより詳細な説明として,バニラ・ランゲヴィン過程の中間点の離散化を解析する。 この分析は根底にある原理を明らかにするのに役立ち、中間点の離散化を伴う速度論的ランゲヴィン過程の上限を改良するために私たちが使う貴重な洞察を提供する。 さらに、これらの手法を適用することで、既存の上界よりも条件数に依存したオイラー離散化によるランゲヴィン過程の新しい保証を確立する。

We revisit the problem of sampling from a target distribution that has a smooth strongly log-concave density everywhere in $\mathbb R^p$. In this context, if no additional density information is available, the randomized midpoint discretization for the kinetic Langevin diffusion is known to be the most scalable method in high dimensions with large condition numbers. Our main result is a nonasymptotic and easy to compute upper bound on the Wasserstein-2 error of this method. To provide a more thorough explanation of our method for establishing the computable upper bound, we conduct an analysis of the midpoint discretization for the vanilla Langevin process. This analysis helps to clarify the underlying principles and provides valuable insights that we use to establish an improved upper bound for the kinetic Langevin process with the midpoint discretization. Furthermore, by applying these techniques we establish new guarantees for the kinetic Langevin process with Euler discretization, which have a better dependence on the condition number than existing upper bounds.
翻訳日:2023-06-19 10:49:44 公開日:2023-06-16
# Skill-Critic: 強化学習のための学習スキルの精製

Skill-Critic: Refining Learned Skills for Reinforcement Learning ( http://arxiv.org/abs/2306.08388v2 )

ライセンス: Link先を確認
Ce Hao, Catherine Weaver, Chen Tang, Kenta Kawamoto, Masayoshi Tomizuka, Wei Zhan(参考訳) 階層的強化学習(RL)は、政策を時間的に複数のレベルに抽象化することで、長期的な意思決定を促進することができる。 スパース報酬環境における評価結果は、スキル、すなわちプリミティブアクションのシーケンスで見られる。 通常、スキル潜在空間とポリシはオフラインデータから検出されるが、結果として生じる低レベルのポリシは、低カバレッジのデモンストレーションや分散シフトのために信頼性が低い可能性がある。 そこで,我々は,ハイレベルなスキル選択と連動して,低レベルのポリシーを微調整する手法を提案する。 これらのポリシーは、オフラインデモから学んだ潜在空間によって初期化され、規則化され、統合ポリシー最適化のガイドとなる。 我々は,Gran Turismo Sportにおける新しいスパース報酬自律レースタスクを含む,複数のスパースRL環境でのアプローチを検証する。 実験の結果,Skill-Criticの低レベル政策の微調整と実証誘導正規化が最適性能に不可欠であることが示唆された。 画像とビデオはhttps://sites.google.com/view/skill-critic.comで入手できる。 最終バージョンでコードをオープンソース化する予定です。

Hierarchical reinforcement learning (RL) can accelerate long-horizon decision-making by temporally abstracting a policy into multiple levels. Promising results in sparse reward environments have been seen with skills, i.e. sequences of primitive actions. Typically, a skill latent space and policy are discovered from offline data, but the resulting low-level policy can be unreliable due to low-coverage demonstrations or distribution shifts. As a solution, we propose fine-tuning the low-level policy in conjunction with high-level skill selection. Our Skill-Critic algorithm optimizes both the low and high-level policies; these policies are also initialized and regularized by the latent space learned from offline demonstrations to guide the joint policy optimization. We validate our approach in multiple sparse RL environments, including a new sparse reward autonomous racing task in Gran Turismo Sport. The experiments show that Skill-Critic's low-level policy fine-tuning and demonstration-guided regularization are essential for optimal performance. Images and videos are available at https://sites.google.com/view/skill-critic. We plan to open source the code with the final version.
翻訳日:2023-06-19 10:49:25 公開日:2023-06-16
# MMASD:自閉症介入分析のためのマルチモーダルデータセット

MMASD: A Multimodal Dataset for Autism Intervention Analysis ( http://arxiv.org/abs/2306.08243v2 )

ライセンス: Link先を確認
Jicheng Li, Vuthea Chheang, Pinar Kullu, Eli Brignac, Zhang Guo, Kenneth E. Barner, Anjana Bhat, Roghayeh Leila Barmaki(参考訳) 自閉症スペクトラム障害(Autism spectrum disorder、ASD)は、発達障害の一つで、社会的コミュニケーション障害とコミュニケーションの困難さを特徴とする。 機械学習技術は、自閉症の研究と評価を促進するために広く採用されている。 しかしながら、計算モデルは、主に特定の分析に集中しており、プライバシを保存するデータ共有の複雑さによるモデル間の比較を制限する自閉症コミュニティのプライベートデータセットに検証されている。 本研究は,自閉症児の遊び療法介入から収集した,新たなプライバシー保護オープンソースデータセットであるMMASDをマルチモーダルASDベンチマークデータセットとして提示する。 MMASDには、ASDを持つ32人の子供のデータと、100時間以上の介入記録から区切られた1,315のデータが含まれている。 パブリックアクセスを促進するために、各データサンプルは、(1)光学フロー、(2)2Dスケルトン、(3)3Dスケルトン、(4)クリニカルASD評価スコア、例えばADOSスコアの4つのプライバシー保護モードから構成される。 MMASDは、研究者やセラピストが子どもの認知状態を理解し、治療中の進捗を監視し、それに応じて治療計画をカスタマイズすることを目的としている。 また、行動品質評価や対人同期推定といった下流タスクにもインスピレーションを与えている。 MMASDデータセットはhttps://github.com/Li-Jicheng/MMASD-A-Multimodal-Dataset-for-Autism-Intervention-Analysisで簡単にアクセスできる。

Autism spectrum disorder (ASD) is a developmental disorder characterized by significant social communication impairments and difficulties perceiving and presenting communication cues. Machine learning techniques have been broadly adopted to facilitate autism studies and assessments. However, computational models are primarily concentrated on specific analysis and validated on private datasets in the autism community, which limits comparisons across models due to privacy-preserving data sharing complications. This work presents a novel privacy-preserving open-source dataset, MMASD as a MultiModal ASD benchmark dataset, collected from play therapy interventions of children with Autism. MMASD includes data from 32 children with ASD, and 1,315 data samples segmented from over 100 hours of intervention recordings. To promote public access, each data sample consists of four privacy-preserving modalities of data: (1) optical flow, (2) 2D skeleton, (3) 3D skeleton, and (4) clinician ASD evaluation scores of children, e.g., ADOS scores. MMASD aims to assist researchers and therapists in understanding children's cognitive status, monitoring their progress during therapy, and customizing the treatment plan accordingly. It also has inspiration for downstream tasks such as action quality assessment and interpersonal synchrony estimation. MMASD dataset can be easily accessed at https://github.com/Li-Jicheng/MMASD-A-Multimodal-Dataset-for-Autism-Intervention-Analysis.
翻訳日:2023-06-19 10:49:09 公開日:2023-06-16
# ZeroForge:3Dスーパービジョンのないフィードフォワードテキスト・ツー・シェイプ

ZeroForge: Feedforward Text-to-Shape Without 3D Supervision ( http://arxiv.org/abs/2306.08183v2 )

ライセンス: Link先を確認
Kelly O. Marshall, Minh Pham, Ameya Joshi, Anushrut Jignasu, Aditya Balu, Adarsh Krishnamurthy, Chinmay Hegde(参考訳) 現在のtext-to-shape生成の最先端手法では、事前に定義された3d形状のラベル付きデータセットを使った教師付きトレーニングが必要か、暗黙のニューラルネットワーク表現の高価な推論時間最適化が必要となる。 本稿では,ゼロショットテキスト・ツー・シェイプ生成手法であるZeroForgeについて述べる。 オープンボキャブラリー形状生成を実現するためには,既存のフィードフォワードアプローチの注意深いアーキテクチャ適応と,データフリーなクリップロスとコントラストロスの組み合わせが必要となる。 これらの技術を用いて、CLIP-Forgeのような既存のフィードフォワードテキスト変換モデルの生成能力を著しく拡張することができる。 我々はこの手法を質的・定量的評価を通じて支援する。

Current state-of-the-art methods for text-to-shape generation either require supervised training using a labeled dataset of pre-defined 3D shapes, or perform expensive inference-time optimization of implicit neural representations. In this work, we present ZeroForge, an approach for zero-shot text-to-shape generation that avoids both pitfalls. To achieve open-vocabulary shape generation, we require careful architectural adaptation of existing feed-forward approaches, as well as a combination of data-free CLIP-loss and contrastive losses to avoid mode collapse. Using these techniques, we are able to considerably expand the generative ability of existing feed-forward text-to-shape models such as CLIP-Forge. We support our method via extensive qualitative and quantitative evaluations
翻訳日:2023-06-19 10:48:44 公開日:2023-06-16
# エラーフィードバックはプリコンディショナーを正確に圧縮できる

Error Feedback Can Accurately Compress Preconditioners ( http://arxiv.org/abs/2306.06098v3 )

ライセンス: Link先を確認
Ionut-Vlad Modoranu, Aleksei Kalinov, Eldar Kurtic, Dan Alistarh(参考訳) 深層ネットワークの規模で2次情報を活用することは、ディープラーニングのための現在の最適化器の性能を改善するための主要なアプローチの1つだ。 しかしながら、フルマトリクスアダグラード(ggt)やマトリクスフリー近似曲率(m-fac)のような、正確なフルマトリクスプリコンディショニングのための既存のアプローチは、中規模モデルにも適用される場合、モデル次元でメモリ要求が乗算されるような勾配のスライディングウィンドウを格納しなければならないため、膨大なストレージコストを被る。 本稿では, この問題を, 収束の損失なく, プリコンディショナーの最大2桁圧縮に適用可能な, 効率的かつ簡易に実装したエラーフィードバック手法を用いて解決する。 具体的には、スペーシフィケーションや低ランク圧縮 \emph{before} を用いて勾配情報をプレコンディショナーに入力し、圧縮誤差を将来の繰り返しにフィードバックする。 ビジョンのためのディープニューラルネットワークに関する広範な実験により、このアプローチは精度に影響を与えず、フルマトリックスプリコンディショナーを最大2桁圧縮し、フルマトリックスアダグラード(ggt)と自然勾配(m-fac)の実装のためのフルマトリックスプリコンディショニングのメモリオーバーヘッドを効果的に除去できることが示されている。 私たちのコードはhttps://github.com/IST-DASLab/EFCPで利用可能です。

Leveraging second-order information at the scale of deep networks is one of the main lines of approach for improving the performance of current optimizers for deep learning. Yet, existing approaches for accurate full-matrix preconditioning, such as Full-Matrix Adagrad (GGT) or Matrix-Free Approximate Curvature (M-FAC) suffer from massive storage costs when applied even to medium-scale models, as they must store a sliding window of gradients, whose memory requirements are multiplicative in the model dimension. In this paper, we address this issue via an efficient and simple-to-implement error-feedback technique that can be applied to compress preconditioners by up to two orders of magnitude in practice, without loss of convergence. Specifically, our approach compresses the gradient information via sparsification or low-rank compression \emph{before} it is fed into the preconditioner, feeding the compression error back into future iterations. Extensive experiments on deep neural networks for vision show that this approach can compress full-matrix preconditioners by up to two orders of magnitude without impact on accuracy, effectively removing the memory overhead of full-matrix preconditioning for implementations of full-matrix Adagrad (GGT) and natural gradient (M-FAC). Our code is available at https://github.com/IST-DASLab/EFCP.
翻訳日:2023-06-19 10:48:29 公開日:2023-06-16
# dreamsparse: スパースビューによる2次元凍結拡散モデルによるプラトンの洞窟からの脱出

DreamSparse: Escaping from Plato's Cave with 2D Frozen Diffusion Model Given Sparse Views ( http://arxiv.org/abs/2306.03414v4 )

ライセンス: Link先を確認
Paul Yoo, Jiaxian Guo, Yutaka Matsuo, Shixiang Shane Gu(参考訳) いくつかの視点から新しいビューイメージを合成することは、難しいが実践的な問題である。 既存の手法では、提供された情報不足のため、品質の高い結果を生成するのに苦労することが多い。 本研究では,事前学習した拡散モデルにおける2次元先行の強みを利用した新しいビュー画像の合成について検討する。 しかし、2d拡散モデルには3d認識が欠如しており、画像合成の歪曲化とアイデンティティの妥協に繋がる。 このような問題に対処するために,凍結した事前学習拡散モデルにより幾何学的,アイデンティティに一貫性のある新しいビュー画像を生成するフレームワークDreamSparseを提案する。 具体的には、DreamSparseには3Dビューから3Dの機能をキャプチャーするための幾何学モジュールが組み込まれている。 その後、これらの3次元特徴写像を生成過程の空間情報に変換するための空間誘導モデルを導入する。 この情報は、事前訓練された拡散モデルを導くために使用され、幾何的に一貫した画像を生成することができる。 事前訓練された拡散モデルで強いイメージを活用すれば、DreamSparseはオブジェクトレベルの画像とシーンレベルの画像の両方に対して高品質なノベルビューを合成し、オープンセットイメージに一般化することができる。 実験により,本フレームワークは,スパースビューから新しいビューイメージを効果的に合成し,訓練されたカテゴリイメージとオープンセットのカテゴリイメージの両方において,ベースラインに優れることを示した。 https://sites.google.com/view/dreamsparse-webページ。

Synthesizing novel view images from a few views is a challenging but practical problem. Existing methods often struggle with producing high-quality results or necessitate per-object optimization in such few-view settings due to the insufficient information provided. In this work, we explore leveraging the strong 2D priors in pre-trained diffusion models for synthesizing novel view images. 2D diffusion models, nevertheless, lack 3D awareness, leading to distorted image synthesis and compromising the identity. To address these problems, we propose DreamSparse, a framework that enables the frozen pre-trained diffusion model to generate geometry and identity-consistent novel view image. Specifically, DreamSparse incorporates a geometry module designed to capture 3D features from sparse views as a 3D prior. Subsequently, a spatial guidance model is introduced to convert these 3D feature maps into spatial information for the generative process. This information is then used to guide the pre-trained diffusion model, enabling it to generate geometrically consistent images without tuning it. Leveraging the strong image priors in the pre-trained diffusion models, DreamSparse is capable of synthesizing high-quality novel views for both object and scene-level images and generalising to open-set images. Experimental results demonstrate that our framework can effectively synthesize novel view images from sparse views and outperforms baselines in both trained and open-set category images. More results can be found on our project page: https://sites.google.com/view/dreamsparse-webpage.
翻訳日:2023-06-19 10:47:59 公開日:2023-06-16
# トレーニングしない:グラフニューラルネットワークの線形ニューラルネットワーク探索

Do Not Train It: A Linear Neural Architecture Search of Graph Neural Networks ( http://arxiv.org/abs/2305.14065v3 )

ライセンス: Link先を確認
Peng Xu, Lin Zhang, Xuanzhou Liu, Jiaqi Sun, Yue Zhao, Haiqin Yang, Bei Yu(参考訳) グラフニューラルネットワーク(GNN)のためのNAS(Neural Architecture Search)はNAS-GNNと呼ばれ、手作業で設計されたGNNアーキテクチャよりも大きなパフォーマンスを実現している。 しかし、これらの手法は計算コストや最適化の難しさといった従来のNAS法から問題を継承する。 さらに重要なことは、従来のNAS手法はGNNの独自性を無視しており、GNNは訓練なしで表現力を持っている。 ランダムに初期化される重みにより、スパースコーディングの目的によって最適なアーキテクチャパラメータを求め、新しいNAS-GNN法、すなわちニューラルアーキテクチャコーディング(NAC)を導出できる。 その結果、NACはGNNの更新なしスキームを持ち、線形時間で効率的に計算できる。 複数のGNNベンチマークデータセットに対する実証的な評価は、我々のアプローチが最先端のパフォーマンスにつながることを示している。

Neural architecture search (NAS) for Graph neural networks (GNNs), called NAS-GNNs, has achieved significant performance over manually designed GNN architectures. However, these methods inherit issues from the conventional NAS methods, such as high computational cost and optimization difficulty. More importantly, previous NAS methods have ignored the uniqueness of GNNs, where GNNs possess expressive power without training. With the randomly-initialized weights, we can then seek the optimal architecture parameters via the sparse coding objective and derive a novel NAS-GNNs method, namely neural architecture coding (NAC). Consequently, our NAC holds a no-update scheme on GNNs and can efficiently compute in linear time. Empirical evaluations on multiple GNN benchmark datasets demonstrate that our approach leads to state-of-the-art performance, which is up to $200\times$ faster and $18.8\%$ more accurate than the strong baselines.
翻訳日:2023-06-19 10:47:34 公開日:2023-06-16
# 敵対的安価トーク

Adversarial Cheap Talk ( http://arxiv.org/abs/2211.11030v3 )

ライセンス: Link先を確認
Chris Lu, Timon Willi, Alistair Letcher, Jakob Foerster(参考訳) 強化学習(RL)における敵対的攻撃は、しばしば被害者のパラメータ、環境、データへの高い特権的アクセスを前提としている。 そこで本稿では,Victim の観察に決定論的メッセージを単に付加するだけで,最小限の影響が生じる,Cheap Talk MDP という新たな敵設定を提案する。 Adversaryは、根底にある環境力学や報奨信号の影響、非定常性の導入、確率性の追加、ヴィクティムの行動の確認、パラメータへのアクセスを防げない。 さらに,本手法では,adversarial cheap talk (act) と呼ばれる単純なメタ学習アルゴリズムを提案する。 我々は,行為を訓練した敵が,非常に制約された設定にもかかわらず,被害者の訓練やテスト性能に大きな影響を与えることを実証する。 列車時のパフォーマンスへの影響は、新たな攻撃ベクトルを明らかにし、既存のRLアルゴリズムの成功と失敗モードに関する洞察を提供する。 具体的には、ACT Adversaryは学習者の関数近似に干渉することで性能を損なうことができ、代わりに有用な機能を出力することで、Victimのパフォーマンスを支援することができることを示す。 最後に、ACT Adversaryが列車中のメッセージを操作して、テスト時にVictimを直接任意に制御できることを示す。 プロジェクトビデオとコードはhttps://sites.google.com/view/adversarial-cheap-talkで入手できる。

Adversarial attacks in reinforcement learning (RL) often assume highly-privileged access to the victim's parameters, environment, or data. Instead, this paper proposes a novel adversarial setting called a Cheap Talk MDP in which an Adversary can merely append deterministic messages to the Victim's observation, resulting in a minimal range of influence. The Adversary cannot occlude ground truth, influence underlying environment dynamics or reward signals, introduce non-stationarity, add stochasticity, see the Victim's actions, or access their parameters. Additionally, we present a simple meta-learning algorithm called Adversarial Cheap Talk (ACT) to train Adversaries in this setting. We demonstrate that an Adversary trained with ACT still significantly influences the Victim's training and testing performance, despite the highly constrained setting. Affecting train-time performance reveals a new attack vector and provides insight into the success and failure modes of existing RL algorithms. More specifically, we show that an ACT Adversary is capable of harming performance by interfering with the learner's function approximation, or instead helping the Victim's performance by outputting useful features. Finally, we show that an ACT Adversary can manipulate messages during train-time to directly and arbitrarily control the Victim at test-time. Project video and code are available at https://sites.google.com/view/adversarial-cheap-talk
翻訳日:2023-06-19 10:47:16 公開日:2023-06-16
# UrbanIR: ワンビデオによる大規模都市シーンの逆レンダリング

UrbanIR: Large-Scale Urban Scene Inverse Rendering from a Single Video ( http://arxiv.org/abs/2306.09349v2 )

ライセンス: Link先を確認
Zhi-Hao Lin, Bohan Liu, Yi-Ting Chen, David Forsyth, Jia-Bin Huang, Anand Bhattad, Shenlong Wang(参考訳) 映像から新しい照明条件下でのシーンのリアルなフリー視点レンダリングを可能にするモデルの構築方法を示す。 我々の手法 - UrbanIR: Urban Scene Inverse Rendering - はビデオから逆グラフィック表現を計算する。 urbanirは、未公開の屋外シーンの1つの映像から、形状、アルベド、視認性、太陽と空の照明を共同で推測する。 UrbanIRは、車に搭載されたカメラのビデオを使用する(典型的なNeRFスタイルの見積もりでは、同じ点の多くのビューとは対照的に)。 その結果、標準的な手法では幾何的な推定が貧弱であり(例えば屋根)、'floaters' が多数存在する。 逆グラフィックス推論のエラーは強いレンダリングアーティファクトをもたらす可能性がある。 UrbanIRはこれらや他のエラーの原因を制御するために、新しい損失を使用する。 UrbanIRは、オリジナルのシーンにおける影のボリュームを非常によく見積もるために、新しい損失を使用する。 結果として得られる表現は、コントロール可能な編集を容易にし、信頼されたシーンと挿入されたオブジェクトのフォトリアリスティックな自由視点レンダリングを提供する。 質的評価は最先端よりも強力な改善を示している。

We show how to build a model that allows realistic, free-viewpoint renderings of a scene under novel lighting conditions from video. Our method -- UrbanIR: Urban Scene Inverse Rendering -- computes an inverse graphics representation from the video. UrbanIR jointly infers shape, albedo, visibility, and sun and sky illumination from a single video of unbounded outdoor scenes with unknown lighting. UrbanIR uses videos from cameras mounted on cars (in contrast to many views of the same points in typical NeRF-style estimation). As a result, standard methods produce poor geometry estimates (for example, roofs), and there are numerous ''floaters''. Errors in inverse graphics inference can result in strong rendering artifacts. UrbanIR uses novel losses to control these and other sources of error. UrbanIR uses a novel loss to make very good estimates of shadow volumes in the original scene. The resulting representations facilitate controllable editing, delivering photorealistic free-viewpoint renderings of relit scenes and inserted objects. Qualitative evaluation demonstrates strong improvements over the state-of-the-art.
翻訳日:2023-06-19 10:42:28 公開日:2023-06-16
# ロゼッタニューロン:模型動物園における共通単位のマイニング

Rosetta Neurons: Mining the Common Units in a Model Zoo ( http://arxiv.org/abs/2306.09346v2 )

ライセンス: Link先を確認
Amil Dravid, Yossi Gandelsman, Alexei A. Efros, Assaf Shocher(参考訳) さまざまなビジョンタスクのためにトレーニングされた異なるニューラルネットワークは、共通の表現を共有しているのだろうか? 本稿では、異なるアーキテクチャ、異なるタスク(生成的および判別的)、異なる種類の監督(クラス教師あり、テキスト教師あり、自己教師あり)を持つモデルにまたがる「ロゼッタニューロン」と呼ばれる共通機能の存在を実証する。 そこで我々は,Rosetta Neuronsの辞書を,クラスSupervised-ResNet50,DINO-ResNet50,DINO-ViT,MAE,CLIP-ResNet50,BigGAN,StyleGAN-2,StyleGAN-XLでマイニングするアルゴリズムを提案する。 本研究は,特定の視覚概念や構造が自然界に固有に埋め込まれており,特定のタスクやアーキテクチャに関わらず,意味ラベルを使わずに,異なるモデルで学習できることを示唆する。 分析に含まれる生成モデルにより,共有概念を直接視覚化することができる。 ロゼッタニューロンは、特殊なトレーニングを必要とせず、クラス間のアライメント、シフト、ズームなど、様々な反転ベースの操作を可能にするモデルからモデルへの翻訳を促進する。

Do different neural networks, trained for various vision tasks, share some common representations? In this paper, we demonstrate the existence of common features we call "Rosetta Neurons" across a range of models with different architectures, different tasks (generative and discriminative), and different types of supervision (class-supervised, text-supervised, self-supervised). We present an algorithm for mining a dictionary of Rosetta Neurons across several popular vision models: Class Supervised-ResNet50, DINO-ResNet50, DINO-ViT, MAE, CLIP-ResNet50, BigGAN, StyleGAN-2, StyleGAN-XL. Our findings suggest that certain visual concepts and structures are inherently embedded in the natural world and can be learned by different models regardless of the specific task or architecture, and without the use of semantic labels. We can visualize shared concepts directly due to generative models included in our analysis. The Rosetta Neurons facilitate model-to-model translation enabling various inversion-based manipulations, including cross-class alignments, shifting, zooming, and more, without the need for specialized training.
翻訳日:2023-06-19 10:42:11 公開日:2023-06-16
# オフライン安全強化学習のためのデータセットとベンチマーク

Datasets and Benchmarks for Offline Safe Reinforcement Learning ( http://arxiv.org/abs/2306.09303v2 )

ライセンス: Link先を確認
Zuxin Liu, Zijian Guo, Haohong Lin, Yihang Yao, Jiacheng Zhu, Zhepeng Cen, Hanjiang Hu, Wenhao Yu, Tingnan Zhang, Jie Tan, Ding Zhao(参考訳) 本稿では,オフライン型安全強化学習(RL)の課題に合わせた総合的なベンチマークスイートを提案する。 ベンチマークスイートには3つのパッケージがあります。 1)専門家による安全政策 2)D4RLスタイルのデータセットと環境ラッパー 3) 高品質のオフライン安全なRLベースライン実装。 ロボット制御から自律運転に至るまで,38の一般的な安全RLタスクにまたがる多様なデータセットの生成を容易にする,高度な安全RLアルゴリズムを活用した方法論的なデータ収集パイプラインを特徴とする。 さらに、各データセットの多様性を変更し、様々なデータ収集条件をシミュレートできるデータ後処理フィルタの配列を導入する。 さらに、この領域の研究を加速するために、先行するオフライン安全なRLアルゴリズムのエレガントで拡張可能な実装を提供する。 50000 cpu と 800 gpu 時間を超える計算による広範囲な実験を通じて、収集したデータセットにおけるこれらのベースラインアルゴリズムのパフォーマンスを評価し比較し、その長所、限界、改善の潜在的な領域について洞察を提供する。 我々のベンチマークフレームワークは研究者や実践者にとって貴重なリソースであり、安全クリティカルなアプリケーションにおいてより堅牢で信頼性の高いオフライン安全なRLソリューションの開発を促進する。 ベンチマークのウェブサイトは \url{www.offline-saferl.org} で入手できる。

This paper presents a comprehensive benchmarking suite tailored to offline safe reinforcement learning (RL) challenges, aiming to foster progress in the development and evaluation of safe learning algorithms in both the training and deployment phases. Our benchmark suite contains three packages: 1) expertly crafted safe policies, 2) D4RL-styled datasets along with environment wrappers, and 3) high-quality offline safe RL baseline implementations. We feature a methodical data collection pipeline powered by advanced safe RL algorithms, which facilitates the generation of diverse datasets across 38 popular safe RL tasks, from robot control to autonomous driving. We further introduce an array of data post-processing filters, capable of modifying each dataset's diversity, thereby simulating various data collection conditions. Additionally, we provide elegant and extensible implementations of prevalent offline safe RL algorithms to accelerate research in this area. Through extensive experiments with over 50000 CPU and 800 GPU hours of computations, we evaluate and compare the performance of these baseline algorithms on the collected datasets, offering insights into their strengths, limitations, and potential areas of improvement. Our benchmarking framework serves as a valuable resource for researchers and practitioners, facilitating the development of more robust and reliable offline safe RL solutions in safety-critical applications. The benchmark website is available at \url{www.offline-saferl.org}.
翻訳日:2023-06-19 10:41:35 公開日:2023-06-16
# 時間的不規則性を有する多変量時系列の確率論的学習

Probabilistic Learning of Multivariate Time Series with Temporal Irregularity ( http://arxiv.org/abs/2306.09147v2 )

ライセンス: Link先を確認
Yijun Li, Cheuk Hang Leung, Qi Wu(参考訳) 実際に収集された多変量シーケンシャルデータは、不均一な時間間隔やコンポーネントのミスアライメントを含む時間的不規則性を示すことが多い。 しかし、不均一な間隔と非同期性が観測不足の結果ではなくデータの内在的特性である場合、これらの不規則性の情報内容は多変量依存構造を特徴づける決定的な役割を果たす。 確率的予測のための既存のアプローチは、結果の統計的不均一性を見落としているか、インプテーションバイアスの影響を受けやすいか、データ分布にパラメトリックな仮定を課す。 本稿では、時間的不規則性の中核であるモデル構築の中心的な役割を観測の到着時刻に果たすことで、これらの制限を克服するエンドツーエンドソリューションを提案する。 時間的不規則を認めるために、まずコンポーネントのユニークな隠れ状態を有効にし、到着時刻がいつ、どのように、どの隠れ状態が更新されるかを予測できるようにします。 次に,非ガウシアンデータ分布を非パラメトリックに表現するための条件付きフロー表現を開発し,ログ類似目的を慎重に分解し,時間変化や経路依存性の把握を容易にする条件付き情報を選択することにより,この表現を監督する。 提案手法の広範な適用性と優位性は,実世界のデータセットに対するアブレーション研究とテストを通じて,既存のアプローチと比較することによって確認される。

Multivariate sequential data collected in practice often exhibit temporal irregularities, including nonuniform time intervals and component misalignment. However, if uneven spacing and asynchrony are endogenous characteristics of the data rather than a result of insufficient observation, the information content of these irregularities plays a defining role in characterizing the multivariate dependence structure. Existing approaches for probabilistic forecasting either overlook the resulting statistical heterogeneities, are susceptible to imputation biases, or impose parametric assumptions on the data distribution. This paper proposes an end-to-end solution that overcomes these limitations by allowing the observation arrival times to play the central role of model construction, which is at the core of temporal irregularities. To acknowledge temporal irregularities, we first enable unique hidden states for components so that the arrival times can dictate when, how, and which hidden states to update. We then develop a conditional flow representation to non-parametrically represent the data distribution, which is typically non-Gaussian, and supervise this representation by carefully factorizing the log-likelihood objective to select conditional information that facilitates capturing time variation and path dependency. The broad applicability and superiority of the proposed solution are confirmed by comparing it with existing approaches through ablation studies and testing on real-world datasets.
翻訳日:2023-06-19 10:41:13 公開日:2023-06-16
# 機械学習によるサンプリングの強化:レビュー

Enhanced Sampling with Machine Learning: A Review ( http://arxiv.org/abs/2306.09111v2 )

ライセンス: Link先を確認
Shams Mehdi, Zachary Smith, Lukas Herron, Ziyue Zou and Pratyush Tiwary(参考訳) 分子動力学(md)は時空間分解能に優れた物理系の研究を可能にするが、時間スケールの厳しい制限に苦しむ。 これに対処するため、構成空間の探索を改善するために拡張サンプリング法が開発されている。 しかし、これらの実装は困難であり、ドメインの専門知識が必要です。 近年、さまざまなドメインにおける機械学習(ML)技術の統合は、将来性を示し、サンプリングの強化も促進されている。 MLは、主にデータ駆動性のために様々な分野で使用されることが多いが、強化されたサンプリングとの統合は、多くの基礎となるシナジーとより自然なものである。 本稿では,MLの融合とMDの強化について検討する。 この急速に発展するこの分野の包括的な概要を提供しており、更新を続けるのは難しい。 我々は,次元削減,強化学習,フローベース手法などの成功戦略を強調した。 最後に、エキサイティングなML強化MDインタフェースにおけるオープン問題について議論する。

Molecular dynamics (MD) enables the study of physical systems with excellent spatiotemporal resolution but suffers from severe time-scale limitations. To address this, enhanced sampling methods have been developed to improve exploration of configurational space. However, implementing these is challenging and requires domain expertise. In recent years, integration of machine learning (ML) techniques in different domains has shown promise, prompting their adoption in enhanced sampling as well. Although ML is often employed in various fields primarily due to its data-driven nature, its integration with enhanced sampling is more natural with many common underlying synergies. This review explores the merging of ML and enhanced MD by presenting different shared viewpoints. It offers a comprehensive overview of this rapidly evolving field, which can be difficult to stay updated on. We highlight successful strategies like dimensionality reduction, reinforcement learning, and flow-based methods. Finally, we discuss open problems at the exciting ML-enhanced MD interface.
翻訳日:2023-06-19 10:40:50 公開日:2023-06-16
# シャドウベース核殻モデルのための量子部分空間アルゴリズム

Shadow-based quantum subspace algorithm for the nuclear shell model ( http://arxiv.org/abs/2306.08885v2 )

ライセンス: Link先を確認
Ruyu Yang, Tianren Wang, Bing-Nan Lu, Ying Li, and Xiaosi Xu(参考訳) 近年,様々な分野におけるノイズの多い中間規模量子(NISQ)計算の応用が研究されている。 量子計算が古典的コンピュータより優れている重要な領域の1つは、核のような多体系の基底状態問題である。 しかし、NISQ時代に量子コンピュータを使って意味のあるスケールのシステムを解くことは依然として困難である。 原子核系の基底エネルギーを計算するために,古典影と部分空間対角化技術を組み合わせた新しいアルゴリズムを提案する。 我々の部分空間は行列で構成され、部分空間の基礎は量子状態の古典的な影である。 我々はCohen-KurathシェルモデルとUSDシェルモデルによって記述された核上で,我々のアルゴリズムをテストする。 ハイゼンベルクのスケーリングにより,ショット数の増加に伴い,結果の精度が向上することが判明した。

In recent years, researchers have been exploring the applications of noisy intermediate-scale quantum (NISQ) computation in various fields. One important area in which quantum computation can outperform classical computers is the ground state problem of a many-body system, e.g., the nucleus. However, using a quantum computer in the NISQ era to solve a meaningful-scale system remains a challenge. To calculate the ground energy of nuclear systems, we propose a new algorithm that combines classical shadow and subspace diagonalization techniques. Our subspace is composed of matrices, with the basis of the subspace being the classical shadow of the quantum state. We test our algorithm on nuclei described by Cohen-Kurath shell model and USD shell model. We find that the accuracy of the results improves as the number of shots increases, following the Heisenberg scaling.
翻訳日:2023-06-19 10:40:37 公開日:2023-06-16
# フェイクスの探索:汎用顔偽造検出のための効率的なニューラルネットワーク探索

Searching for the Fakes: Efficient Neural Architecture Search for General Face Forgery Detection ( http://arxiv.org/abs/2306.08830v2 )

ライセンス: Link先を確認
Xiao Jin, Xin-Yue Mu, Jing Xu(参考訳) その言葉が言うように、「見ることは信じている」。 しかし、デジタル顔編集ツールの開発によって、我々はもはや何が見えるのかを信用できない。 顔偽造検出は有望な進歩を遂げているが、現在の手法のほとんどは人手による手作業で設計されている。 本稿では,人間の介入なしに自動的にネットワークアーキテクチャを設計できるディープフェイク検出のためのニューラルネットワーク探索(NAS)に基づくエンドツーエンドフレームワークを開発する。 まず、このタスクに適した操作を選択するために、偽造指向の検索空間を作成する。 第2に,より一般的なモデルを選択するための探索プロセスを導く新しい性能推定指標を提案する。 クロスデータセット検索は、より一般的なアーキテクチャも開発すると考えられている。 最終的には、最終偽造分類のためにカスケードピラミッドで細胞を接続する。 人工的に設計された最先端のネットワークと比較すると,本手法はデータ内シナリオとクロスデータセットシナリオの両方において競合性能を実現する。

As the saying goes, "seeing is believing". However, with the development of digital face editing tools, we can no longer trust what we can see. Although face forgery detection has made promising progress, most current methods are designed manually by human experts, which is labor-consuming. In this paper, we develop an end-to-end framework based on neural architecture search (NAS) for deepfake detection, which can automatically design network architectures without human intervention. First, a forgery-oriented search space is created to choose appropriate operations for this task. Second, we propose a novel performance estimation metric, which guides the search process to select more general models. The cross-dataset search is also considered to develop more general architectures. Eventually, we connect the cells in a cascaded pyramid way for final forgery classification. Compared with state-of-the-art networks artificially designed, our method achieves competitive performance in both in-dataset and cross-dataset scenarios.
翻訳日:2023-06-19 10:40:25 公開日:2023-06-16
# 時間依存ハミルトニアンのフォン・ノイマン方程式の量子シミュレーション

Quantum simulation of the von Neumann equation of time-dependent Hamiltonians ( http://arxiv.org/abs/2306.08775v2 )

ライセンス: Link先を確認
Alejandro Kunold(参考訳) 本研究では,時間依存ハミルトイナンに対するフォン・ノイマン方程式によって制御される密度行列のダイナミクスをシミュレートする量子アルゴリズムを開発した。 この方法は、与えられたリー代数の構造定数の性質を通して密度行列のベクトル化に依存する。 パウリの弦によって形成される代数を用いても、アルゴリズムは他の代数に容易に適用できる。 このアプローチの主な利点の1つは、位相キックバックによって容易に決定できる実密度行列係数が得られることである。 このアルゴリズムはIBMノイズ量子回路シミュレータを用いて実証される。

In this work we develop a quantum algorithm to simulate the dynamics of the density matrix governed by the von Neumann equation for time-dependent Hamiltoinans. The method relies on the vectorization of the density matrix through the properties of the structure constants of a given Lie algebra. Even though we have used the algebra formed by the Pauli strings, the algorithm can be easily adapted to other algebras. One of the main advantages of this approach is that it yields real density matrix coefficients that are easy to determine through phase kickback. The algorithm is demonstrated using the IBM noisy quantum circuit simulator.
翻訳日:2023-06-19 10:40:10 公開日:2023-06-16
# ClimSim:ハイブリッドマルチスケール気候シミュレータにおける高分解能物理エミュレータのトレーニングのためのオープンな大規模データセット

ClimSim: An open large-scale dataset for training high-resolution physics emulators in hybrid multi-scale climate simulators ( http://arxiv.org/abs/2306.08754v2 )

ライセンス: Link先を確認
Sungduk Yu, Walter M. Hannah, Liran Peng, Mohamed Aziz Bhouri, Ritwik Gupta, Jerry Lin, Bj\"orn L\"utjens, Justus C. Will, Tom Beucler, Bryce E. Harrop, Benjamin R. Hillman, Andrea M. Jenney, Savannah L. Ferretti, Nana Liu, Anima Anandkumar, Noah D. Brenowitz, Veronika Eyring, Pierre Gentine, Stephan Mandt, Jaideep Pathak, Carl Vondrick, Rose Yu, Laure Zanna, Ryan P. Abernathey, Fiaz Ahmed, David C. Bader, Pierre Baldi, Elizabeth A. Barnes, Gunnar Behrens, Christopher S. Bretherton, Julius J. M. Busecke, Peter M. Caldwell, Wayne Chuang, Yilun Han, Yu Huang, Fernando Iglesias-Suarez, Sanket Jantre, Karthik Kashinath, Marat Khairoutdinov, Thorsten Kurth, Nicholas J. Lutsko, Po-Lun Ma, Griffin Mooers, J. David Neelin, David A. Randall, Sara Shamekh, Akshay Subramaniam, Mark A. Taylor, Nathan M. Urban, Janni Yuval, Guang J. Zhang, Tian Zheng, Michael S. Pritchard(参考訳) 現代の気候予測は、計算の制約による空間的および時間的解決が不十分である。 その結果は、嵐のような臨界過程の不正確で不正確な予測である。 物理と機械学習(ML)を組み合わせたハイブリッドな手法は、新しい世代の高忠実度気候シミュレータを導入し、計算ハングリーで短い高解像度のシミュレーションをMLエミュレータにアウトソーシングすることでムーアの法則を助長することができる。 しかし、このハイブリッドML-物理シミュレーションアプローチは、ドメイン固有の治療を必要としており、トレーニングデータや関連する、使いやすいワークフローがないため、MLの専門家にはアクセスできない。 ClimSimは、ハイブリッドML物理研究のために設計された、史上最大のデータセットである。 気候科学者とML研究者のコンソーシアムによって開発されたマルチスケール気候シミュレーションを含んでいる。 570億対の多変量入力および出力ベクトルからなり、ホストの気候シミュレータのマクロスケールの物理状態に対する局所ネスト、高分解能、高忠実性物理学の影響を分離する。 データセットはグローバルにカバーされており、複数年にわたってサンプリング頻度が高く、結果としてエミュレータがダウンストリーム結合と互換性を持つように設計されている。 我々は,MLの課題とその得点を明らかにするために,決定論的および確率的回帰ベースラインを実装した。 データ(https://huggingface.co/datasets/LEAP/ClimSim_high-res)とコード(https://leap-stc.github.io/ClimSim)は、科学と社会の利益のために、ハイブリッドML物理と高忠実度気候シミュレーションの開発を支援するために公開されている。

Modern climate projections lack adequate spatial and temporal resolution due to computational constraints. A consequence is inaccurate and imprecise prediction of critical processes such as storms. Hybrid methods that combine physics with machine learning (ML) have introduced a new generation of higher fidelity climate simulators that can sidestep Moore's Law by outsourcing compute-hungry, short, high-resolution simulations to ML emulators. However, this hybrid ML-physics simulation approach requires domain-specific treatment and has been inaccessible to ML experts because of lack of training data and relevant, easy-to-use workflows. We present ClimSim, the largest-ever dataset designed for hybrid ML-physics research. It comprises multi-scale climate simulations, developed by a consortium of climate scientists and ML researchers. It consists of 5.7 billion pairs of multivariate input and output vectors that isolate the influence of locally-nested, high-resolution, high-fidelity physics on a host climate simulator's macro-scale physical state. The dataset is global in coverage, spans multiple years at high sampling frequency, and is designed such that resulting emulators are compatible with downstream coupling into operational climate simulators. We implement a range of deterministic and stochastic regression baselines to highlight the ML challenges and their scoring. The data (https://huggingface.co/datasets/LEAP/ClimSim_high-res) and code (https://leap-stc.github.io/ClimSim) are released openly to support the development of hybrid ML-physics and high-fidelity climate simulations for the benefit of science and society.
翻訳日:2023-06-19 10:40:00 公開日:2023-06-16
# 部分空間と適応生成モデルを組み合わせた高次元mr再構成

High-Dimensional MR Reconstruction Integrating Subspace and Adaptive Generative Models ( http://arxiv.org/abs/2306.08630v2 )

ライセンス: Link先を確認
Ruiyang Zhao, Xi Peng, Varun A. Kelkar, Mark A. Anastasio, Fan Lam(参考訳) 本稿では,高次元mr画像再構成のための適応生成画像と部分空間モデリングを統合する新しい手法を提案する。 サブスペースモデルは高次元画像の明示的な低次元表現を課し、生成画像は「コントラスト重み付き」画像やサブスペースモデルの空間係数の空間的制約として機能する。 これら2つの成分を相乗化するための定式化が導入された。 コントラストの異なる画像に対する正確な生成モデルに基づく表現を実験データで検証するために,特別事前学習と主題特異的ネットワーク適応戦略を提案した。 最近開発された中間層最適化手法を応用した生成画像モデルの部分空間係数と多分解能潜時空間を共同で更新する反復アルゴリズムが導入された。 高速MRパラメータマッピングと高分解能MRSIの2つの高次元イメージングアプリケーションで提案手法の有用性を評価した。 最先端のサブスペースベースメソッドのパフォーマンス向上が両ケースで実証された。 本研究では,高次元画像問題に対する低次元表現を用いたデータ駆動および適応生成モデルの統合の可能性を示した。

We present a novel method that integrates subspace modeling with an adaptive generative image prior for high-dimensional MR image reconstruction. The subspace model imposes an explicit low-dimensional representation of the high-dimensional images, while the generative image prior serves as a spatial constraint on the "contrast-weighted" images or the spatial coefficients of the subspace model. A formulation was introduced to synergize these two components with complimentary regularization such as joint sparsity. A special pretraining plus subject-specific network adaptation strategy was proposed to construct an accurate generative-model-based representation for images with varying contrasts, validated by experimental data. An iterative algorithm was introduced to jointly update the subspace coefficients and the multiresolution latent space of the generative image model that leveraged a recently developed intermediate layer optimization technique for network inversion. We evaluated the utility of the proposed method in two high-dimensional imaging applications: accelerated MR parameter mapping and high-resolution MRSI. Improved performance over state-of-the-art subspace-based methods was demonstrated in both cases. Our work demonstrated the potential of integrating data-driven and adaptive generative models with low-dimensional representation for high-dimensional imaging problems.
翻訳日:2023-06-19 10:39:24 公開日:2023-06-16